JP2020181234A

JP2020181234A - 物体情報登録装置及び物体情報登録方法

Info

Publication number: JP2020181234A
Application number: JP2019081702A
Authority: JP
Inventors: 泰樹矢野; Taiki Yano; 宣隆木村; Nobutaka Kimura; 信博知原; Nobuhiro Chihara; 紅山　史子; Fumiko Kureyama; 史子紅山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-11-05
Anticipated expiration: 2039-04-23
Also published as: US20200342256A1; CN111832381A; CN111832381B; US11205091B2; JP7187377B2

Abstract

【課題】物体内の各部分領域の特徴が異なる場合であっても、当該物体とある他の物体が同一又は類似であることを高精度に判定するための情報を生成する。【解決手段】物体認識の基準物体である第１物体の情報を登録する物体情報登録装置は、第１物体の画像である第１物体画像と、第１物体に係る認識手法情報と、を保持し、第１物体画像に含まれる１以上の部分領域を選択し、該１以上の部分領域それぞれに対応する認識手法を設定し、該１以上の部分領域それぞれの特徴情報を、設定した認識手法に基づいて第１物体画像から取得し、１以上の部分領域と、設定した認識手法と、取得した特徴情報と、を対応づけて、認識手法情報に格納する。【選択図】図１

Description

本発明は、物体情報登録装置及び物体情報登録方法に関する。

本技術分野の背景技術として、特開２０１８−１５６５１７号公報（特許文献１）がある。この公報には、「特徴箇所検出部２０３は、画像の特徴的な箇所を検出する。属性別領域分類部２０４は、画像内の領域を属性が異なる複数の領域に分類する。優先度規則記憶部２０５は、画像内の領域の属性とその領域の優先度とを関係付ける優先度規則を記憶する。類似度判定部２０９は、２つの画像について検出された特徴的な箇所を照合し、それら２つの画像の類似度を判定する。類似度判定部２０９は、特徴的な箇所の照合の結果に対し、特徴的な箇所を含む領域の属性に優先度規則により関係付けられるその領域の優先度を反映して、類似度を判定する。」と記載されている（要約参照）。

特開２０１８−１５６５１７号公報

特許文献１に記載の技術において、画像内の複数の領域それぞれにおける認識手法を切り替えることは考慮されていない。また、例えば、同じ物体であっても、ある領域については傾きが異なる誤差が生じやすい、他のある領域については大きさが異なる誤差が生じやすい等のように、当該複数の領域それぞれの特徴が異なることがある。従って、このような場合において、特許文献１に記載の技術では、同じ物体であっても類似度が高くないと判定するおそれがある。そこで本発明の一態様は、物体内の各部分領域の特徴が異なる場合であっても、当該物体とある他の物体が同一又は類似であることを高精度に判定するための情報を生成することを目的とする。

上記課題を解決するため、本発明の一態様は以下の構成を採用する。物体認識の基準物体である第１物体の情報を登録する物体情報登録装置は、プロセッサとメモリとを備え、前記メモリは、前記第１物体の画像である第１物体画像と、前記第１物体に係る認識手法情報と、を保持し、前記プロセッサは、前記第１物体画像に含まれる１以上の部分領域を選択し、前記１以上の部分領域それぞれに対応する認識手法を設定し、前記１以上の部分領域それぞれの特徴情報を、前記設定した認識手法に基づいて前記第１物体画像から取得し、前記１以上の部分領域と、前記設定した認識手法と、前記取得した特徴情報と、を対応づけて、前記認識手法情報に格納する。

本発明の一態様によれば、物体内の各部分領域の特徴が異なる場合であっても、当該物体とある他の物体が同一又は類似であることを高精度に判定するための情報を生成することができる。

上記した以外の課題、構成、及び効果は、以下の実施形態の説明により明らかにされる。

実施例１における物体認識装置の機能構成例を示すブロック図である。実施例１における物体認識装置のハードウェア構成例を示すブロック図である。実施例１における物体認識装置に提供される教示物体及び認識対象物体の画像を撮影する撮影システムの一例である。実施例１における教示物体の一例を示す説明図である。実施例１における教示物体の別例を示す説明図である。実施例１における教示物体登録処理の一例を示すフローチャートである。実施例１における部分領域の選択及び認識手法の設定を受け付けるための表示画面の一例である。実施例１における教示物体内の部分領域が並列に記述されている認識手法データの一例である。実施例１における教示物体内の部分領域が階層的に記述されている認識手法データの一例である。実施例１における教示物体における部分領域が並列に記述されている場合における物体認識処理の一例を示すフローチャートである。実施例１における教示物体における部分領域が階層的に記述されている場合における物体認識処理の一例を示すフローチャートである。実施例１における部分領域の選択及び認識手法の設定を受け付けるための表示画面の別例である。実施例１における物体認識処理開始前の表示画面の一例である。実施例１における部分領域の選択及び認識手法の設定を受け付けるための表示画面の別例である。実施例１における認識手法情報におけるパラメータ設定処理の概要の一例を示す説明図である。

以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

図１は、物体認識装置の機能構成例を示すブロック図である。物体認識装置１００は、物体認識の基準物体である教示物体の画像を登録する。物体認識装置１００は、教示物体画像に含まれる部分領域を選択し、選択した部分領域それぞれに対する認識手法を設定する。物体認識装置１００は、教示物体と同一又は類似の物体であるか否かの判定対象である認識対象物体の画像を取得する。物体認識装置は、認識対象物体の画像から部分領域を取得し、教示物体と認識対象物体の部分領域を当該部分領域に対応する認識手法によって比較することで、認識対象物体が教示物体と同一又は類似の物体であるか否かを判定する。

物体認識装置１００は、画像取得部１１１、画像表示部１１２、部分領域認識手法設定部１１３、入力受付部１１４、特徴取得部１１５、及び物体認識部１１６を有する。画像取得部１１１は、教示物体画像及び認識対象物体画像を取得する。画像表示部１１２は、各機能部の指示に基づいて、出力装置１５０に画像を表示する。部分領域認識手法設定部１１３は、教示物体の部分領域を選択し、選択した部分領域に対する認識手法を設定する。入力受付部１１４は、入力装置１４０を介してユーザ等からの入力情報を受け付ける。

特徴取得部１１５は、選択された部分領域における特徴情報（例えば特徴量や特徴ベクトル）を設定された認識手法に基づいて取得する。物体認識部１１６は、教示物体と認識対象物体との部分領域を設定された認識手法に基づいて比較し、教示物体と認識対象物体が同一又は類似の物体であるかを判定する。

また、物体認識装置１００は、画像情報１３１及び認識手法情報１３２を保持する。画像情報１３１は、教示物体画像、教示物体の部分領域の画像、及び認識対象物体画像を含む。認識手法情報１３２は、教示物体の選択された部分領域と、部分領域に対応する認識手法及びパラメータと、を含む。

図２は、物体認識装置１００のハードウェア構成例を示すブロック図である。物体認識装置１００は、例えば、プロセッサ１１０、メモリ１２０、補助記憶装置１３０、入力装置１４０、出力装置１５０、及び通信ＩＦ（Ｉｎｔｅｒｆａｃｅ）１６０を有し、これらがバス等の内部通信線１７０によって接続された計算機によって構成される。

プロセッサ１１０は、メモリ１２０に格納されたプログラムを実行する。メモリ１２０は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１３０は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、プロセッサ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１３０から読み出されて、メモリ１２０にロードされて、プロセッサ１１０によって実行される。

入力装置１４０は、キーボードやマウスなどの、オペレータからの入力を受ける装置である。出力装置１５０は、ディスプレイ装置やプリンタなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信ＩＦ１６０は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。

プロセッサ１１０が実行するプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して物体認識装置１００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１３０に格納される。このため、物体認識装置１００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

物体認識装置１００は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。例えば、物体認識装置１００が１つの計算機でなく、物体の認識を行うための教示物体及び認識手法の登録を行う計算機である教示物体登録装置と、設定された認識手法を用いてある物体が教示物体であるか否かの判定を行う計算機である判定装置と、に分かれていてもよい。

プロセッサ１１０は、例えば、それぞれ前述した機能部である、画像取得部１１１、画像表示部１１２、部分領域認識手法設定部１１３、入力受付部１１４、特徴取得部１１５、及び物体認識部１１６を含む。

例えば、プロセッサ１１０は、メモリ１２０にロードされた画像取得プログラムに従って動作することで、画像取得部１１１として機能し、メモリ１２０にロードされた画像表示プログラムに従って動作することで、画像表示部１１２として機能する。プロセッサ１１０に含まれる他の機能部についても、プログラムと機能部の関係は同様である。

なお、プロセッサ１１０に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

補助記憶装置１３０は、例えば、前述した画像情報１３１及び認識手法情報１３２を保持する。なお、補助記憶装置１３０に格納されている一部又は全部の情報は、メモリ１２０に格納されていてもよいし、物体認識装置１００に接続されている外部のデータベース等に格納されていてもよい。

なお、本実施形態において、物体認識装置１００が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

図３は、物体認識装置１００に提供される教示物体及び認識対象物体の画像を撮影する撮影システムの一例である。撮影システムは、例えば、カメラ１０、ターンテーブル３０、及び端末２００を含む。カメラ１０は、物体２０を撮影する。カメラ１０には、例えばアーム１１が取り付けられており、アーム１１が動作することにより、カメラ１０は様々な位置や角度からの撮影が可能となる。物体２０は、教示物体又は認識対象物体である。

物体２０は、ターンテーブル３０上に搭載されている。ターンテーブル３０が回転したり、アーム１１が動作したりすることにより、カメラ１０は様々な姿勢の物体２０を撮影可能である。端末２００は、カメラ１０に接続された計算機である。端末２００は、カメラ１０による撮影や、アーム１１の動作を制御する。また、端末２００は、カメラ１０が撮影した物体２０の画像を取得する。また、端末２００はターンテーブル３０の動作を制御してもよい。

また、図３には示していないが、端末２００は物体認識装置１００に接続され、取得した物体２０の画像を物体認識装置１００に送信する。なお、端末２００は物体認識装置１００からの指示に従って、カメラ１０、アーム１１、及びターンテーブル３０を制御してもよい。また、物体認識装置１００と端末２００とが一体化されていてもよい。

図４は、教示物体の一例を示す説明図である。図４の例では、教示物体３００は靴が収納された箱であり、その箱の一側面の画像が教示物体画像として用いられる。教示物体３００には、シール３０１が貼られ、商品情報３０２が記載されている。シール３０１は、例えば人間の手作業によって箱に貼られるため、教示物体３００と同じ物体であってもシール３０１の位置及び姿勢に大きな誤差が生じることがある。

従って、教示物体３００に貼られたシール３０１の誤差を考慮することなく、物体認識を実行しようすると、当該誤差により、教示物体３００と同じ物体にも関わらず同一又は類似の物体であると認識できないおそれがある。また、商品情報３０２は、教示物体３００と同じ物体であってもシリアル番号等の詳細な情報が異なることがあるため、物体認識に用いられる部分領域に適さない。

また、教示物体３００には、その他の特徴点が少ない。そこで、後述する部分領域の選択において、シール３０１が貼られる際の当該誤差を許容する（即ち位置ずれや傾きを考慮した）認識手法が部分領域３０３に設定されることにより、シール３０１の情報を用いた物体認識が可能となる。

図５は、教示物体の別例を示す説明図である。図５の例では、教示物体３１０は靴が収納された箱であり、その箱の一側面の画像が教示物体画像として用いられる。教示物体３１０には、ロゴ３１１が描かれ、商品情報３１２が記載されている。教示物体３００と同じ物体であってもロゴ３１１の大きさが異なることがある。

従って、教示物体３１０に貼られたロゴ３１１のサイズの違いを考慮することなく、物体認識を実行しようすると、当該誤差により、教示物体３１０と同じ物体にも関わらず同一又は類似の物体であると認識できないおそれがある。また、商品情報３１２は、教示物体３１０と同じ物体であってもシリアル番号等の詳細な情報が異なることがあるため、物体認識に用いられる部分領域に適さない。

また、教示物体３１０には、その他の特徴点が少ない。そこで、後述する部分領域の選択において、ロゴ３１１のサイズの違いを許容する（即ち位置ずれや傾きを考慮した）認識手法が部分領域３１３に設定されることにより、ロゴ３１１の情報を用いた物体認識が可能となる。

図４や図５に示したように、教示物体の複数の部分領域それぞれについて、認識手法やパラメータを設定可能とすることにより、認識対象物品の部分的な変動を吸収した物体認識を実行することが可能となる。

図６は、教示物体登録処理の一例を示すフローチャートである。画像取得部１１１は、端末２００から教示物体の画像を取得する（Ｓ１）。なお、画像取得部１１１は教示物体の複数の姿勢（例えば、正面、背面、上面、下面、左側面、及び右側面等）の画像を取得してもよい。また、画像取得部１１１は、取得した教示物体の画像を画像情報１３１に格納する。なお、画像取得部１１１は、予め画像情報１３１に格納されている画像を教示物体の画像として取得してもよい。

画像表示部１１２は、ステップＳ１で取得した教示物体の画像を出力装置１５０に表示する（Ｓ２）。続いて、部分領域認識手法設定部１１３は、教示物体の物体認識に用いられる部分領域の選択、及び当該部分領域を認識する認識手法を設定する（Ｓ３）。例えば、ステップＳ３において、入力受付部１１４は、入力装置１４０を介して部分領域及び認識手法等の入力を受け付け、部分領域認識手法設定部１１３は、当該入力された部分領域及び認識手法等を設定する。

続いて、画像表示部１１２は、ステップＳ３において選択された部分領域及び設定された認識手法を出力装置１５０に表示する（Ｓ４）。部分領域認識手法設定部１１３は、教示物体の設定が完了したか否かを判定する（Ｓ５）。具体的には、部分領域認識手法設定部１１３は、例えば、入力受付部１１４を介して設定の完了が指示された場合には、設定が完了したと判定し、指示されない場合には設定が完了していないとする。

部分領域認識手法設定部１１３は、教示物体の設定が完了していないと判定した場合（Ｓ５：Ｎｏ）、ステップＳ３に戻る。部分領域認識手法設定部１１３は、教示物体の設定が完了したと判定した場合（Ｓ５：Ｙｅｓ）、特徴取得部１１５は設定された認識手法及びパラメータに基づいて、各部分領域の特徴情報を取得し、例えば教示物体画像の識別情報と、部分領域と、認識手法と、パラメータと、特徴情報と、を対応づけて認識手法情報１３２に格納し（ステップＳ６）、教示物体登録処理を終了する。

図７は、ステップＳ３において、部分領域の選択及び認識手法の設定を受け付けるための表示画面の一例である。表示画面７００は、例えば、教示物体画像表示領域７１０、認識手法設定領域７２０、及び設定完了ボタン７３０を含む。ステップＳ２において、教示物体の画像が教示物体画像表示領域７１０に表示される。

教示物体画像表示領域７１０において、認識手法の設定対象である部分領域を選択するための選択領域７１１が表示される。例えば、マウスを用いてドラッグすることにより、所定形状（例えば長方形、正方形、楕円、及び円等）の選択領域７１１が表示されたり、形状及び座標値を指定されることにより選択領域７１１が表示されたりする。

認識手法設定領域７２０は、選択領域７１１において選択されている部分領域に対する認識手法を設定するための領域である。認識手法設定領域７２０は部分領域の名称の入力を受け付ける。図７の例では、部分領域の名称が「ｓｅａｌ」に設定されている。

認識手法設定領域７２０は、例えば、部分領域の座標及びサイズを表示する。また、認識手法設定領域７２０には、認識手法を選択するボックス等が表示され、認識手法を選択すると、選択された認識手法及び、当該認識手法に用いられるパラメータ等を表示する。

図７の例では、認識手法設定領域７２０において、認識手法及びパラメータが設定された状態である。図７の例では、認識手法としてテンプレート認識が選択され、テンプレート認識で用いられるパラメータである回転許容値及び位置ずれ許容値が、それぞれ３０°及び（０．０５，０．０２）に設定されている。設定完了ボタン７３０が選択されると、ステップＳ６に遷移する。

なお、１つの教示物体に対して複数の部分領域が設定される場合、例えば、各部分領域に対する認識処理を並列に実行するか階層的に実行するかを設定可能である。例えば、２つ目以降の部分領域が選択された場合、認識手法設定領域７２０において、当該部分領域を選択済みの他の部分領域と並列関係にするか、選択済みの他の部分領域の上位又は下位の階層に位置させるか、の入力を受け付けることができるものとする。

図８は、教示物体内の部分領域が並列に記述されている認識手法データの一例である。認識手法データは、ステップＳ６において、認識手法情報１３２に登録された、部分領域と、部分領域に対応する認識手法、パラメータ、及び特徴情報と、を示すデータである。図８の認識手法データには、２つの部分領域「ｓｅａｌ」と「ｂａｒｃｏｄｅ」が並列に登録されている。認識手法データ中の「ｍｅｔｈｏｄ」は当該部分領域の認識手法を示し、「ｍｅｔｈｏｄ」より下かつ次の部分領域の「ｎａｍｅ」より上に記述されている項目は、それぞれ当該認識手法に用いられるパラメータを示す。

詳細は後述するが、認識手法データにおいて複数の部分領域が並列に記述されている場合、物体認識部１１６は、認識対象物体の当該複数の部分領域それぞれについて教示物体との類似度を算出し、各類似度に基づく総合類似度を算出する。物体認識部１１６は、総合類似度に基づいて、認識対象物体が教示物体と同一又は類似の物体であるか否かを判定するため、当該複数の部分領域の類似度を加味した物体認識を実行することができる。

図９は、教示物体内の部分領域が階層的に記述されている認識手法データの一例である。図９の認識手法データにおける「ｏｒｉｇｉｎ」は、教示物体を囲む図形の形状（図９の例では、教示物体全体を囲む矩形の対角の２頂点の座標）を示す。

図９の認識手法データにおいては、教示物体全体を示す「ｏｒｉｇｉｎ」の下の階層に部分領域「ｌｏｇｏ」及び「ｐｒｏｄｃｕｔ＿ｉｎｆｏ」が並列で登録されている。「ｎａｍｅ」の１行上に記述されている座標は、当該部分領域を囲む図形の形状を示す座標（図９の例では、当該部分領域を囲む矩形の対角の２頂点の座標）である。また、図９の認識手法データにおいては、部分領域「ｐｒｏｄｃｕｔ＿ｉｎｆｏ」の下の階層に部分領域「ｂａｒｃｏｄｅ」及び「ｓｉｚｅ」が登録されている。

詳細は後述するが、認識手法データにおいて複数の部分領域が階層的に記述されている場合、物体認識部１１６は、上位の階層の部分領域について教示物体と認識対象物体との類似判定を行い、当該上位の階層の部分領域について類似していると判定した場合のみ、下位の階層の部分領域についての教示物体と認識対象物体との類似判定を行う、という段階的な認識処理を実行する。

これにより、物体認識部１１６は、上位の階層の部分領域について教示物体と類似しない認識対象物体については下位の階層の部分領域についての類似判定を行う必要がないため、物体認識処理に係る計算量を低減することができる。特に、例えば、教示物体と認識対象物体との間で類似する可能性の低い部分領域を上位の階層に位置させることで、より計算量を低減することができる。

また、各部分領域における類似判定を行うたびに認識対象物体の部分領域の撮影がカメラ１０によって行われる場合には、部分領域を撮影する際のアーム１１の向き及び位置が類似する部分領域を近い階層に位置させることで、部分領域の撮影時におけるアーム１１の動作量を低減させることができる。

図１０は、教示物体における部分領域が並列に記述されている場合における物体認識処理の一例を示すフローチャートである。図１０の処理の前に、物体認識部１１６は、認識対象物体の画像を画像取得部１１１から取得する。さらに、物体認識部１１６は、図１０の処理の前に、比較対象の教示物体の認識手法データを認識手法情報１３２から取得する。物体認識部１１６は、教示物体の認識手法データにおいて部分領域が並列に記述されていると判定した場合に図１０の処理を実行する。

まず、物体認識部１１６は、認識手法データを参照して、認識対象物体の画像から各部分領域を抽出し、抽出した各部分領域についてステップＳ１１の処理を実行する。なお、物体認識部１１６が認識対象物体全体の画像から各部分領域の画像を抽出するのではなく、画像取得部１１１が、認識手法データを参照して、認識対象物体の各部分領域の撮影を端末２００に依頼してもよい。なお、認識対象物体の各部分領域の撮影は、一斉に行われてもよいし、１つの部分領域の撮影と、当該１つの部分領域に対するステップＳ１１の処理と、からなる一連の処理が順次実行されてもよい。なお、各部分領域に対するステップＳ１１の処理が並列に実行されてもよい。

ステップＳ１１では、物体認識部１１６は、認識手法データが示す当該部分領域に対応する認識手法及びパラメータに基づいて、認識対象物体の当該部分領域の位置姿勢の推定と、認識対象物体の当該部分領域と教示物体の当該部分領域との類似度の算出と、を実行する（Ｓ１１）。

続いて、物体認識部１１６は、ステップＳ１１で推定した各部分領域の位置に基づいて、認識対象物体の総合位置姿勢（認識対象物体全体の位置姿勢）を推定し、ステップＳ１１で算出した各部分領域間における類似度に基づいて、教示物体と認識対象物体の総合類似度を算出する（Ｓ１２）。

具体的には、例えば、物体認識部１１６は、ステップＳ１１で推定した各部分領域における位置姿勢の単純平均、当該各部分領域における位置姿勢の重みづけ平均、又はステップＳ１１で算出された類似度が最大である部分領域の位置姿勢等を、総合位置姿勢に決定する。また、例えば、物体認識部１１６は、ステップＳ１１で算出した各部分領域間の類似度の単純平均、重みづけ平均、最大値、又は最小値を、総合類似度として算出する。

続いて、物体認識部１１６は、ステップＳ１２で算出した総合類似度が所定の閾値以上であるか否かを判定する（Ｓ１３）。物体認識部１１６は、総合類似度が当該閾値以上であると判定した場合（Ｓ１３：Ｙｅｓ）、画像表示部１１２を介してステップＳ１２で推定した総合位置姿勢を出力装置１５０に出力し（Ｓ１４）、物体認識処理を終了する。また、当該場合において、物体認識部１１６は、画像表示部１１２を介して、認識対象物体が教示物体と同一又は類似の物体であることを示すメッセージ等を出力装置１５０に表示してもよい。

物体認識部１１６は、総合類似度が当該閾値未満であると判定した場合（Ｓ１４：Ｎｏ）、物体認識処理を終了する。また、当該場合において、物体認識部１１６は、画像表示部１１２を介して、認識対象物体が教示物体と同一又は類似の物体ではないことを示すメッセージ等を出力装置１５０に表示してもよい。

なお、ステップＳ１１における認識対象物体の各部分領域の位置姿勢の推定、及びステップＳ１２における総合位置姿勢の推定を行わずに、ステップＳ１３において総合類似度が所定の閾値以上であった場合にのみ、ステップＳ１４の処理の前に、認識対象物体の各部分領域の位置姿勢及び総合位置姿勢の推定が実行されてもよい。

図１１は、教示物体における部分領域が階層的に記述されている場合における物体認識処理の一例を示すフローチャートである。図１１の処理の前に、物体認識部１１６は、認識対象物体の画像を画像取得部１１１から取得しているものとする。さらに、物体認識部１１６は、図１１の処理の前に、比較対象の教示物体の認識手法データを認識手法情報１３２から取得しているものとする。物体認識部１１６は、教示物体の認識手法データにおいて部分領域が階層的に記述されていると判定した場合に図１１の処理を実行する。

まず、物体認識部１１６は、認識手法データを参照して、認識対象物体の画像から各部分領域を抽出し、抽出した各部分領域について、上位の階層に位置する部分領域から順に、ステップＳ２１〜ステップＳ２３の処理を実行する。

なお、物体認識部１１６が認識対象物体全体の画像から各部分領域の画像を抽出するのではなく、画像取得部１１１が、認識手法データを参照して、認識対象物体の各部分領域の撮影を端末２００に依頼してもよい。なお、認識対象物体の各部分領域の撮影は、一斉に行われてもよいし、１つの部分領域の撮影と、当該１つの部分領域に対するステップＳ２１〜Ｓ２３の処理と、からなる一連の処理が順次実行されてもよい。

ステップＳ２１では、物体認識部１１６は、認識手法データが示す当該部分領域に対応する認識手法及びパラメータに基づいて、認識対象物体の当該部分領域の位置姿勢の推定と、認識対象物体の当該部分領域と教示物体の当該部分領域との類似度の算出と、を実行する（Ｓ２１）。

続いて、物体認識部１１６は、ステップＳ２１で算出した部分領域間の類似度が所定の閾値以上であるか否かを判定する（Ｓ２２）。物体認識部１１６は、類似度が当該閾値未満であると判定した場合（Ｓ２２：Ｎｏ）、ステップＳ２１〜ステップＳ２３の処理を未実行の部分領域に対してもステップＳ２１〜ステップＳ２３の処理を行うことなく物体認識処理を終了する。また、当該場合において、物体認識部１１６は、画像表示部１１２を介して、認識対象物体が教示物体と同一又は類似の物体であることを示すメッセージ等を出力装置１５０に表示してもよい。

なお、当該所定の閾値は、部分領域ごとに異なってもよい。なお、例えば、複数の認識対象物体それぞれに対して図１１における物体認識処理が行われた場合であって、ステップＳ２２において所定確率以上で、又は所定確率以下で類似度が閾値未満であると判定された部分領域が存在する場合、物体認識部１１６は、例えば、画像表示部１１２を介して当該部分領域を示すアラートを出力装置１５０に出力してもよい。これにより、例えば、極めて高い確率で類似とされる部分領域や、極めて低い確率で非類似とされる部分領域について、ユーザは設定対象の部分領域として適切であるか否かを検証することができる。

物体認識部１１６は、類似度が当該閾値以上であると判定した場合（Ｓ２２：Ｙｅｓ）、ステップＳ２１で推定した位置姿勢に基づいて、認識対象物体の総合位置姿勢を更新する（Ｓ２３）。具体的には、物体認識部１１６は、実行済みのステップＳ２３で推定した各部分領域における位置姿勢の単純平均、当該各部分領域における位置姿勢の重みづけ平均、又は実行済みのステップＳ２３で算出された類似度が最大である部分領域の位置姿勢等を、総合位置姿勢に決定する。

全ての部分領域に対して、ステップＳ２１〜ステップＳ２３の処理が終了すると、物体認識部１１６は、画像表示部１１２を介して総合位置姿勢を出力装置１５０に出力し（Ｓ２４）、物体認識処理を終了する。また、当該場合において、物体認識部１１６は、画像表示部１１２を介して、認識対象物体が教示物体と同一又は類似の物体であることを示すメッセージ等を出力装置１５０に表示してもよい。

なお、例えば、部分領域のうち靴サイズを示すシールやセール品あることを示すシール等のような、文字情報のみが認識処理対象でありその貼付位置には大きな意味がない部分領域、の認識時には、類似度のみを考慮してもよい。例えば、この場合、図１０及び図１１における総合位置姿勢の推定において、全ての重みが０である平均値を総合位置姿勢として推定すればよい。

なお、図１０では複数の部分領域が並列に設定された場合の処理例、図１１では複数の部分領域が階層的に設定された場合の処理例を説明したが、並列に設定された複数の部分領域の一部の上位又は下位の階層に部分領域が設定されていてもよい。この場合、例えば、階層的に設定されている部分領域に対して図１１の処理が実行されてから、並列に設定されている部分領域に対して図１０の処理が実行される。

図１２は、部分領域の選択及び認識手法の設定を受け付けるための表示画面の別例である。図７との相違点を説明する。複数の部分領域が設定された場合、認識手法設定領域７２０において、設定された部分領域における認識順序を設定することができる。設定された認識順序は認識手法データに格納される。

例えば、設定された認識順序に従って各部分領域の階層が設定されてもよいし、設定された認識順序に従って総合位置姿勢及び総合類似度を重みづけ平均によって算出する場合における各部分領域に対応する重みが決定されてもよい。これにより、ユーザは各部分領域の特徴に合わせて柔軟に認識処理を変更することができる。

図１３は、物体認識処理開始前の表示画面の一例である。例えば、物体認識部１１６が認識対象物体の画像と、指定された教示物体の部分領域及び認識手法の情報と、を取得すると、画像表示部１１２は、表示画面８００を出力装置１５０に出力する。表示画面８００は、例えば、認識対象物品画像表示領域８１０、部分領域表示領域８２０、及び設定完了ボタン８３０を含む。

認識対象物品画像表示領域８１０には、認識対象物品の画像が表示される。部分領域表示領域８２０には、指定された教示物体の部分領域の名称及び、各名称に対応するチェックボックスと、が表示されている。チェックボックスにチェックが入っている部分領域のみが物体認識処理において用いられる部分領域となる。

このようにチェックボックスが用意されていることで、物体認識処理開始時にもユーザは認識処理を変更することができる。特に、ユーザは、実際の認識対象物体の画像を見ながら、不要な部分領域を再度選択することができる。

具体的には、例えば、靴を収納する箱が教示物体であり、箱に貼付されたシールが部分領域として設定されたとする。物体認識処理時には、認識対象物体である箱の当該部分領域には期間限定の（教示物体登録時のシールとは異なる）シールが貼付されている場合等がある。このような場合に、シール部分を部分領域としての認識対象外とすることにより、再度教示物体を登録することなく、物体認識処理を実行することができる。

なお、部分領域表示領域８２０に各部分領域に対応する認識手法やパラメータが表示されていてもよい。設定完了ボタン８３０が選択されると、確認画面の一例である表示画面８５０に遷移する。

表示画面８５０は、例えば、認識内部処理表示領域８６０、戻るボタン８７０、及び物体認識処理開始ボタン８８０を含む。認識内部処理表示領域８６０には、各部分領域が物体認識処理に用いられるか否かを示す情報と、各部分領域における認識手法と、が表示される。なお、認識内部処理表示領域８６０に、当該認識手法のパラメータが表示されていてもよい。戻るボタン８７０が選択されると、表示画面８００に遷移する。物体認識処理開始ボタン８８０が選択されると、物体認識処理が開始する。

図１４は、部分領域の選択及び認識手法の設定を受け付けるための表示画面の別例である。前述した例では、２次元の物体認識モデルを用いていたが、図１４の例のように３次元の物体認識モデルを用いることもできる。図１４の例では、認識手法として３次元の特徴点マッチングが採用されている。

なお、例えば、同一又は異なる部分領域に対して、２次元の物体認識モデルと３次元の物体認識モデルとを併用してもよい。例えば、２次元の物体認識モデルは処理量が少ないものの認識精度が低く、一方、３次元の物体認識モデルは処理量が多いものの認識精度が高いものとする。

この場合、例えば、物体認識部１１６は、２次元の物体認識モデルによる教示物体画像と認識対象物体画像の部分領域との類似度、が所定の閾値以上であると判定した場合に、３次元の物体認識モデルによる部分領域の比較を行い、当該類似度が当該閾値未満であると判定した場合には、教示物体と認識対象物体が同一又は類似の物体ではないと判定してもよい。これにより、少ない処理量で正確な物体認識を実行することができる。

図１５は、認識手法情報１３２におけるパラメータ設定処理の概要の一例を示す説明図である。前述した例では、パラメータを手動で設定したが、一部又は全部のパラメータが自動で設定されてもよい。図１５の例では、特徴点マッチングにおける回転ずれ許容誤差が自動で設定されている。

部分領域認識手法設定部１１３は、前述のステップＳ１において、複数の教示物体画像を取得する。そして、ステップＳ３において、認識手法と、各教示物体画像の同一の部分領域と、が指定されると、部分領域認識手法設定部１１３は、複数の部分領域の回転ずれから回転ずれ許容誤差を設定する。例えば、部分領域認識手法設定部１１３は、複数の部分領域の回転ずれのうち最大のずれ又は（重み付き）平均値等を、回転ずれ許容誤差として採用する。これにより、人間の手作業によるパラメータ設定が不要となる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００物体認識装置、１１０プロセッサ、１１１画像取得部、１１２画像表示部、１１３部分領域認識手法設定部、１１４入力受付部、１１５特徴取得部、１１６物体認識部、１３０補助記憶装置、１３１画像情報、１３２認識手法情報、１４０入力装置、１５０出力装置

Claims

物体認識の基準物体である第１物体の情報を登録する物体情報登録装置であって、
プロセッサとメモリとを備え、
前記メモリは、前記第１物体の画像である第１物体画像と、前記第１物体に係る認識手法情報と、を保持し、
前記プロセッサは、
前記第１物体画像に含まれる１以上の部分領域を選択し、
前記１以上の部分領域それぞれに対応する認識手法を設定し、
前記１以上の部分領域それぞれの特徴情報を、前記設定した認識手法に基づいて前記第１物体画像から取得し、
前記１以上の部分領域と、前記設定した認識手法と、前記取得した特徴情報と、を対応づけて、前記認識手法情報に格納する、物体情報登録装置。
請求項１に記載の物体情報登録装置であって、
表示装置をさらに備え、
前記プロセッサは、
前記第１物体画像を前記表示装置に表示し、
前記１以上の部分領域及び前記認識手法を示す入力情報を受け付け、
前記入力情報に基づいて、前記１以上の部分領域の選択と、前記認識手法の設定と、を実行する、物体情報登録装置。
請求項２に記載の物体情報登録装置であって、
前記プロセッサは、前記入力情報が示す１以上の部分領域及び認識手法を示す情報、前記表示装置に表示する、物体情報登録装置。
請求項１に記載の物体情報登録装置であって、
前記メモリは、第２物体の画像である第２物体画像を保持し、
前記プロセッサは、
前記認識手法情報を参照して、前記第２物体画像における前記１以上の部分領域を取得し、
前記１以上の部分領域それぞれについて、前記認識手法情報が示す当該部分領域に対応する認識手法及び特徴情報に基づいて、前記第１物体画像と前記第２物体画像とにおける当該部分領域の類似度を算出し、
前記算出した類似度それぞれを総合した総合類似度を算出し、
前記算出した総合類似度に基づいて、前記第１物体と前記第２物体が同一又は類似の物体であるかを判定する、物体情報登録装置。
請求項１に記載の物体情報登録装置であって、
前記メモリは、第２物体の画像である第２物体画像を保持し、
前記プロセッサは、
前記１以上の部分領域の順序情報の入力を受け付け、
前記認識手法情報を参照して、前記第２物体画像における前記１以上の部分領域を取得し、
前記順序情報が示す順序に従って、前記１以上の部分領域から部分領域を選択し、
前記選択された部分領域から順に、前記第１物体画像と前記第２物体画像とにおける当該部分領域の類似度を算出し、
前記算出した類似度に基づいて、前記第１物体と前記第２物体が同一又は類似の物体であるかを判定する、物体情報登録装置。
請求項５に記載の物体情報登録装置であって、
前記算出した類似度の全てが所定値以上である場合、前記第１物体と前記第２物体が同一又は類似の物体であると判定し、
前記算出した類似度が前記所定値未満である場合、未選択の部分領域についての類似度を算出することなく、前記第１物体と前記第２物体が同一又は類似の物体でないと判定する、物体情報登録装置。
請求項４又は５に記載の物体情報登録装置であって、
表示装置をさらに備え、
前記プロセッサは、
前記１以上の部分領域を示す情報を表示し、
前記１以上の部分領域に含まれる認識処理対象の部分領域の指定を受け付け、
前記指定された認識処理対象の部分領域のみに対して、前記類似度の算出を実行する、物体情報登録装置。
請求項１に記載の物体情報登録装置であって、
前記１以上の部分領域それぞれに対して設定される認識手法は、当該部分領域の位置ずれ、傾き、及び大きさの少なくとも１つにおける誤差を許容可能である、物体情報登録装置。
請求項８に記載の物体情報登録装置であって、
前記メモリは、複数の前記第１物体画像を保持し、
前記プロセッサは、
前記１以上の部分領域に含まれる第１部分領域について、前記複数の第１物体画像を比較して、前記第１部分領域に対応する認識手法におけるパラメータを決定し、
前記決定したパラメータを前記第１部分領域に対応づけて、前記認識手法情報に格納する、物体情報登録装置。
物体情報登録装置が、物体認識の基準物体である第１物体の情報を登録する方法であって、
前記物体情報登録装置は、プロセッサとメモリとを備え、
前記メモリは、前記第１物体の画像である第１物体画像と、前記第１物体に係る認識手法情報と、を保持し、
前記方法は、
前記プロセッサが、前記第１物体画像に含まれる１以上の部分領域を選択し、
前記プロセッサが、前記１以上の部分領域それぞれに対応する認識手法を設定し、
前記プロセッサが、前記１以上の部分領域それぞれの特徴情報を、前記設定した認識手法に基づいて前記第１物体画像から取得し、
前記プロセッサが、前記１以上の部分領域と、前記設定した認識手法と、前記取得した特徴情報と、を対応づけて、前記認識手法情報に格納する、物体情報登録装置。