JP6540577B2

JP6540577B2 - 物体認識装置

Info

Publication number: JP6540577B2
Application number: JP2016071416A
Authority: JP
Inventors: 訓成小堀; 国松橋本; 実山内
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2019-07-10
Anticipated expiration: 2036-03-31
Also published as: JP2017182600A

Description

本発明は、物体を認識する物体認識装置に関する。

物体の撮像画像から抽出した輪郭情報に基づいて、物体の位置及び姿勢（位置姿勢）を検出する装置が知られている（例えば、特許文献１参照）。

特開２００８−０１５８９５号公報

上記物体の位置姿勢の誤検出を抑制するため、例えば、検出した物体の位置姿勢を更に物体の色情報や距離情報に基づいて判定することが考えられる。この判定処理では、その判定条件を厳しく設定すれば、物体の位置姿勢の誤検出を容易に抑制できる。しかし、物体が静止している状況下では、色情報や距離情報などのセンサ値は絶えず変化している。このため、時刻フレームによっては、そのセンサ値のばらつきに起因して、厳しく設定した判定条件を満足できず物体の位置姿勢の未検出となることがある（図１２）。

本発明は、このような問題点に鑑みてなされたものであり、物体の位置姿勢の誤検出及び未検出を同時に抑制し、高精度な物体認識を実現できる物体認識装置を提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、
認識対象物の画像情報を取得する情報取得手段と、
複数の物体のモデル画像を記憶する記憶手段と、
前記情報取得手段により取得された認識対象物の画像情報の特徴量と、前記記憶手段のモデル画像の特徴量と、を比較し、前記認識対象物の物体候補を検出し、該物体候補の位置及び姿勢候補を算出する検出手段と、
前記情報取得手段により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、前記検出手段により検出された物体候補及び該物体候補の位置及び姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が第１判定閾値以上となる、前記物体候補及び該物体候補の位置及び姿勢候補を出力する第１判定手段と、
前記第１判定手段から出力される物体候補及び該物体候補の位置及び姿勢候補に基づいて、前記物体候補及び該物体候補の位置及び姿勢候補同士をまとめる統合処理を行う統合手段と、
前記統合手段により統合された前記物体候補及び該物体候補の位置及び姿勢候補の幾何学形状に基づいて追跡処理を行う追跡手段と、
前記情報取得手段により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、前記追跡手段から出力された物体候補及び該物体候補の位置及び姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が前記第１判定閾値よりも緩い第２判定閾値以上となる、前記物体候補及び該物体候補の位置及び姿勢候補を出力する第２判定手段と、を備え、
前記統合手段は、フレーム時刻ｔ（ｔは任意の自然数）において前記第２判定手段から出力された物体候補及び該物体候補の位置及び姿勢候補と、次回のフレーム時刻ｔ＋１において前記第１判定手段から出力された物体候補及び該物体候補の位置及び姿勢候補と、に基づいて前記統合処理を行い、該統合処理した物体候補及び該物体候補の位置及び姿勢候補を、前記フレーム時刻ｔ＋１における前記認識対象物の物体及び該物体の位置及び姿勢として出力する、
ことを特徴とする物体認識装置
である。

本発明によれば、物体の位置姿勢の誤検出及び未検出を同時に抑制し、高精度な物体認識を実現できる物体認識装置を提供することができる。

図１は、本発明の一実施形態に係る物体認識装置の概略的なシステム構成を示すブロック図である。図１は、本発明の一実施形態に係る物体認識装置のメモリの構成を示すブロック図である。ＣＬＢＰ判定器を用いた比較方法を説明するための図である。 MeanShfit法を説明するための図である。ＩＣＰトラッキングを説明するための図である。ＩＣＰトラッキングを説明するための図である。ＩＣＰトラッキングを説明するための図である。各時刻ｔフレームにおいて、物体認識装置から出力される物体位置姿勢候補を示す図である。本発明の一実施形態に係る物体認識装置を用いてシミュレーションを行った結果を示す図である。本発明の一実施形態に係る物体認識装置を用いてシミュレーションを行った結果を示す図である。統合処理を行い位置を変更した構成を示す図である。時刻フレームによって物体位置姿勢が未検出となる場合を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。図１は、本発明の一実施形態に係る物体認識装置の概略的なシステム構成を示すブロック図である。本実施形態に係る物体認識装置１は、任意の３次元形状の認識対象物の認識及びその位置及び姿勢（位置姿勢）を推定する装置である。

物体認識装置１は、例えば、演算処理等を行うＣＰＵ（Central Processing Unit）１１、ＣＰＵ１１によって実行される演算プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ１２、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）１３などからなるマイクロコンピュータを中心にして、ハードウェア構成されている（図２）。ＣＰＵ１１、メモリ１２及びインターフェイス部１３は、データバス１４などを介して相互に接続されている。

物体認識装置１は、画像情報取得部２と、検出部３と、第１判定部４と、統合処理部５と、トラッキング処理部６と、第２判定部７と、を備えている。

画像情報取得部２は、情報取得手段の一具体例である。画像情報取得部２は、カメラや距離センサ（距離画像センサ、ミリ波センサ、超音波センサなど）などセンサを用いて、認識対象物の画像情報（ＲＧＢ輝度情報（色情報）や距離情報を含む)を取得する。

検出部３は、検出手段の一具体例である。検出部３は、認識対象物の画像情報に基づいて、認識対象物の物体候補（その物体が何であるか）とその位置及び姿勢の候補（以下、物体位置姿勢候補）を検出する。検出部３は、例えば、LineMode検出器である。LineMode検出器は、離散化された複数の種類の特徴量を用いたテンプレートについて、メモリ配置を工夫することで並列計算を行い、高速に物体を検出する検出器である。
詳細なアルゴリズムは、例えば、非特許文献
S.Hinterstoisser,C.Cagniart,S.Iiic,P.Sturm,N.Navab,P.Fua,V.Lepetit Gradient Response Maps for Real-Time Detection of Texture-Less Objects IEEE Transactions on Pattern Analysis and Maschine Intelligence(TPAMI)
に詳細に開示されており、これを援用できるものとする。

例えば、検出部３は、認識対象物の画像情報（対象物画像）の特徴量と、モデルの画像（モデル画像）の特徴量と、を比較して、モデル画像として登録された物体（アイテム）の中から、その認識対象物がどの物体であるかを推定する。
メモリ１２は、記憶手段の一具体例である。メモリ１２は、例えば、複数の物体の画像をモデル画像として記憶している。

検出部３は、例えば、対象物画像の特徴量と、メモリ１２の複数のモデル画像の特徴量と、の相関値を算出し、算出した相関値が所定値以上となるモデル画像の物体を認識対象物の物体候補として推定する。

さらに、検出部３は、例えば、Ｋ近傍法（k-nearest neighbor法）を用いて、対象物画像とモデル画像の特徴量の対応付けを行い、さらに、RANSAC（Random Sample Consensus）法を用いて、その幾何学的な構成に基づいて、推定した物体候補の位置姿勢候補を算出する。なお、上記物体の推定方法及び位置姿勢の算出方法は一例であり、これに限定されない。

検出部３は、LineMode検出器であるが、これに限定されず、例えば、ＰｎＰ検出器、ＳＨＯＴ検出器、Ｂａｙｓｅ検出器、ＨＯＧ（Histograms of Oriented Gradients）検出器、ＳＵＲＦ（Speeded Up Robust Features）検出器であってもよい。

ＰｎＰ検出器は、ＳＩＦＴ（Scale-Invariant Feature Transform）又はＡ−ＫＡＺＥ（Accelerated KAZE）特徴量を用いた検出器である。
ＳＩＦＴについては、例えば、非特許文献
David G.Lowe,”Distinctive image features from scale-invariant keypoints, ” International Journal of Computer Vision, 60, 2 (2004), pp.91-110
に詳細に開示されており、これを援用できるものとする。
Ａ−ＫＡＺＥについては、例えば、非特許文献
Fast Explicit Diffusion for Accelerrated Features in Nonlinear Scale Spaces Pablo F. Alcantarilla, Jesus Nuevo and Adrien Bartoli. In British Machine Vision Conference (BMVC). Bristol, UK. September 2013
に詳細に開示されており、これを援用できるものとする。

ＳＨＯＴ検出器は、ＳＨＯＴ(Signature of Histograms of OrienTations)特徴量を用いた検出器である。
ＳＨＯＴについては、例えば、非特許文献
Tombari et al. Unique signatures of histograms for local surface description. ECCV 2010
に詳細に開示されており、これを援用できるものとする。

Ｂａｙｓｅ検出器は、ベイジアンネットワークでローカルパッチを学習したネットワークに基づいて検出を行う検出器である。
検出部３は、検出した物体候補とその位置姿勢候補（以下、物体位置姿勢候補）を第１判定部４に出力する。

本実施形態において、上記検出部３による物体位置姿勢候補の誤検出を抑制するため、検出部３が物体位置姿勢候補を検出した後、さらに、後述の第２判定部７は、検出部３により検出された物体位置姿勢候補を色情報及び距離情報の少なく一方に基づいて判定する。この判定処理では、モデル画像と対象物画像間の、色情報や距離情報の比較をピクセル単位で実施し、一致しているか否かを判定している。

ここで、従来、その判定条件を厳しく設定すれば、上記物体位置姿勢候補の誤検出を容易に抑制できる。しかし、画像情報取得部は、上述の如く、ＲＧＢ輝度情報や距離情報を取得できるセンサを利用している。特に、ＲＧＢの色情報（色味）は不安定であり、距離情報も認識対象物の端点において距離検出のための反射が不安定となる。このため、認識対象物が静的状態であったとしても、センサ計測値は絶えず変化する。したがって、ある時刻フレームによっては、そのセンサ計測値のばらつきによって、厳しく設定した判定条件を満足できず物体位置姿勢候補の未検出となり得る（図１２）。このように、誤検出と未検出はトレードオフの関係にあり、問題となる。

これに対し、本実施形態において、第１判定部４は、画像情報取得部２により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、検出部３により検出された物体位置姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が第１判定閾値以上となる、物体位置姿勢候補を統合処理部５に出力する。統合処理部５は、第１判定部４から出力される物体位置姿勢候補に基づいて、物体位置姿勢候補同士をまとめる統合処理を行う。トラッキング処理部６は、統合処理部５により統合された物体位置姿勢候補の幾何学形状に基づいて追跡処理を行う。第２判定部７は、画像情報取得部２により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、トラッキング処理部６から出力された物体位置姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が第１判定閾値よりも緩い第２判定閾値以上となる、物体位置姿勢を出力する。

これにより、第１判定部４の厳しい第１判定閾値で判定された物体位置姿勢候補は、次回以降に持ち越され、第２判定部７の緩い第２判定閾値で判定され、その結果が統合処理部５で統合され、出力される。したがって、各時刻フレームによって、その判定閾値を満足できず物体位置姿勢の未検出となるような問題を抑制できる。
さらに、第２判定部７の第２判定閾値は緩く緩和され、その背反として誤検出の増加を招く可能性がある。しかし、本実施形態においては、上述のように、緩い第２判定閾値を用いた第２判定部７の前に、トラッキング処理部６が、物体位置姿勢候補の幾何学形状に基づいて追跡処理を行う。これにより、幾何学形状に一貫性のない物体位置姿勢候補を排除できるため、誤検出の増加を抑制できる。すなわち、物体位置姿勢の誤検出及び未検出を同時に抑制できる。

また、本実施形態において、統合処理部５は、フレーム時刻ｔ（ｔは任意の自然数）において第２判定部７から出力された物体位置姿勢候補と、次回のフレーム時刻ｔ＋１において第１判定部４から出力された物体位置姿勢候補と、に基づいて統合処理を行い、該統合処理した物体位置姿勢候補を、フレーム時刻ｔ＋１における認識対象物の物体位置姿勢として出力する。
これにより、第１判定部４から出力される物体位置姿勢候補によって、フレーム時刻ｔ＋１における新しい検出結果が反映されると共に、第２判定部７から出力される物体位置姿勢候補によって、フレーム時刻ｔにおける過去の検出結果を活用できる。
上述したような第１及び第２判定部４、７の切り分けを行うことで、上記誤検出と未検出のトレードオフを良好に図り、物体の位置姿勢の誤検出及び未検出を同時に抑制し、高精度な物体認識を実現できる。

第１判定部４は、第１判定手段の一具体例である。第１判定部４は、画像情報取得部２により取得された対象物画像の距離情報及び色情報のうちの少なくとも一方と、検出部３により検出された物体位置姿勢候補と、に基づいて、対象物画像と検出部３により検出された物体位置姿勢候補のモデル画像とを比較する。

第１判定部４は、例えば、レンダリング処理などを行って、上記対象物画像とモデル画像とを比較する。第１判定部４は、このレンダリング処理において、モデル画像上の３次元物体（モデルとして予め登録された３次元物体）を、検出部３により検出された物体位置姿勢候補に基づいて、対象物画像上に投影する。

第１判定部４は、物体位置姿勢候補毎に、そのモデル画像と対象物画像との比較を行う。
第１判定部４は、対象物画像とモデル画像とを比較した結果、検出部３により検出された物体位置姿勢候補の中から、一定以上の信頼度がある物体位置姿勢候補を最終的な結果として出力する。

第１判定部４は、例えば、対象物画像の距離情報と検出部３により検出された物体位置姿勢候補のモデル画像の距離情報とを比較し、その一致度の差分が第１判定閾値以上であるとき、信頼度があると判定する。第１判定閾値は、予めメモリ１２などに設定されており、ユーザによって任意に設定変更できるように構成されている。第１判定閾値は、後述の第２判定閾値よりも厳しい値が設定されている。したがって、第１判定部４により判定された物体位置姿勢候補の信頼度は、高くなる。
なお、第１判定部４は、対象物画像の距離情報と検出部３により検出された物体位置姿勢候補のモデル画像の距離情報とを比較し、その不一致度の差分が判定閾値以下であるとき、信頼度があると判定してもよい。

第１判定部４は、例えば、対象物画像の色情報（下記（Ａ）乃至（Ｄ）のうちの少なくとも１つ）と物体位置姿勢候補のモデル画像の色情報とを比較し、その一致度の差分が第１判定閾値以上であるとき、その物体位置姿勢候補は一定以上の信頼度があると判定する。

（Ａ）色相
第１判定部４は、色相判定器を用いて、ＲＧＢ輝度情報を、ＨＳＶ情報（色相(Hue)、彩度(Saturation・Chroma)、明度(Value・Lightness・Brightness)の三つの成分からなる色空間情報）に変換し、その色相Ｈを用いて上記比較行う。

（Ｂ）ＲＧＢ
第１判定部４は、ＲＧＢ判定器を用いて、ＲＧＢ輝度情報の生値を用いて上記比較を行う。

（Ｃ）グレースケール（Gray Scale）
第１判定部４は、Gray_Scale判定器を用いて、ＲＧＢ輝度情報を、グレースケール情報（白黒情報）に変換し、その変換した値を用いて、上記比較を行う。

（Ｄ）ＣＬＢＰ（Color Local Binray Pattern）
なお、上記（Ａ）乃至（Ｄ）の色情報は一例であり、これに限定されず、任意の色情報であってもよい。

図３示す如く、第１判定部４は、ＣＬＢＰ判定器を用いて、対象物画像およびモデル画像をカラーチャンネル分離（Ｒ画像、Ｇ画像、Ｂ画像）を行い（２）、各チャンネルのＬＢＰ（ＬＢＰ（Ｒ）、ＬＢＰ（Ｇ）、ＬＢＰ（Ｂ））を算出する（３）。そして、第１判定部４は、算出したＬＢＰに基づいて、ヒストグラムを作成し（４）、作成したヒストグラムを用いて上記比較を行う。なお、ＬＢＰは、画像の照明変化の変動に強く、ＬＢＰをヒストグラム化することで、さらに、上記レンダリングした際の摂動に強くなり、判定精度が向上する。

第１判定部４は、上述の比較を行い、一定以上の信頼度があると判定した最終的な結果（物体位置姿勢候補）を、候補群（new）として、メモリ１２の候補群（new）データベース８に出力する。

統合処理部５は、統合手段の一具体例である。統合処理部５は、メモリ１２の候補群（new）データベース８に格納された候補群（new）と、後述の候補群（update）データベース９に格納された候補群（update）と、を統合する。これにより、第１判定部４からの候補群（new）によって新しい検出結果が反映されると共に、第２判定部７からの候補群（update）によって過去の検出結果を活用できる。統合処理部５は、物体毎に、位置姿勢候補群の中で、類似するもの同志を同一のものとして統合するクラスタリング処理を行う。統合処理部５は、クラスタリング処理として、例えば、MeanShfit法を用いる。MeanShfit法では、例えば、図４に示す如く、物体Ａの位置姿勢候補（１）と物体Ａの位置姿勢候補（２）は距離が近く類似している。このため、物体Ａの位置姿勢候補（１）及び（２）は、両者の平均となる位置姿勢候補（４）に統合される。なお、物体Ａの位置姿勢候補（３）は、類似するものがないため、統合されない。

統合処理部５は、上述のように、統合した物体位置姿勢候補を、候補群（hold）として、メモリ１２の候補群（hold）データベース１０に出力する。
トラッキング処理部６は、追跡手段の一具体例である。トラッキング処理部６は、メモリ１２の候補群（hold）データベース１０に格納された候補群（hold）に対してトラッキング処理を行う。トラッキング処理部６は、トラッキング処理において、候補群（hold）の物体位置姿勢候補を物体毎に、追跡（トラッキング）する。

ここで、第２判定部９は、後述の如く、第１判定部４の第１判定閾値（厳しい判定値）よりも大きい第２判定閾値（緩い判定値）を用いて判定を行う。この判定閾値の緩和によって、第２判定部９による誤検出の増加が懸念されるが、本実施形態においては、第２判定部９の判定の前に、以下のトラッキング処理部６によるトラッキング処理を行う。このトラッキング処理では、幾何的な全体形状からトラッキングを行うため、上記誤検出を抑制できる。

トラッキング処理部６は、例えば、物体の幾何形状情報に基づいて物体位置姿勢候補を追跡するＩＣＰ（Iterative Closest Point）トラッキング（ＩＣＰアルゴリズムを用いたトラッキング処理）を行う。

ＩＣＰトラッキングとは、例えば、図５に示す如く、物体位置姿勢候補のモデルと認識対象物のポイントクラウドの対応付けを行い、その誤差が小さくなるように最小２乗法を用いて、図６に示す如く、物体位置姿勢候補のモデルと認識対象物間の幾何量（回転及び並進量）を求める手法である。

ここで、ＩＣＰトラッキングは、一般に計算コストがかかる処理である。このため、本実施形態においては、事前にＩＣＰトラッキングに必要な最近傍点を計算し、この最近傍点を用いてＩＣＰトラッキングを行う。最初に上記点の対応付けを行う必要がある。このため、本手法では、例えば、図７に示す如く、モデルに対して３次元ボクセルグリッドを構築し、各グリッドからモデルまでの最近傍点を算出し、各ボクセルに格納する。

各ボクセルには、認識対象物までの最近傍点の情報（最近傍点の座標や最近傍点のIndex）を格納する。ボクセル外のレンジの点は無視する。本実施形態において、最近傍点は、point to plane（点から面）であるが、これに限定されず、point to point（点から点）であってもよい。なお、図７に示す距離X、Y、Zは、ボクセルの１辺当たりのグリッド数と格子の単位（数ｍｍ）から決定することができる。

トラッキング処理部６は、上述したＩＣＰトラッキングを行い、例えば、求めた幾何量が所定量以上で大きい場合に、幾何形状に一貫性が無いとして、その物体位置姿勢候補を破棄する。したがって、このＩＣＰトラッキング処理後に、第２判定部９が緩い第２判定閾値を用いて判定を行った場合でも上述した誤検出を抑制できる。

第２判定部９は、厳しい第１判定閾値の代わりに緩い第２判定閾値を用いて、上記第１判定部４と同一の判定処理を行う。第２判定部９は、第１判定部４と同様に上記比較を行い、その最終的な結果（物体の位置姿勢候補）を、候補群（update）として、メモリ１２の候補群（update）データベース９に出力する。

上述したように、一度、厳しい判定閾値の第１判定部４によって判定し検出した物体位置姿勢候補を、次回の時刻フレームに持越し、その時刻フレームで、緩い判定閾値の第２判定部９によって再度判定し検出する。これにより、次回の時刻フレームに持越された物体位置姿勢候補は、その時刻フレームで検出されるため、各時刻フレームにおいて物体位置姿勢が未検出となるのを防止できる。

図８は、各時刻ｔフレームにおいて、物体認識装置から出力される物体位置姿勢候補を示す図である。
（時刻ｔフレーム）
時刻ｔ（ｔは任意の自然数）フレームにおいて、検出部３は、画像情報取得部２からの認識対象物の画像情報に基づいて、物体位置姿勢候補を検出する。そして、第１判定部４は、厳しい第１判定閾値を用いて判定し、検出部３により検出された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定し検出する。時刻ｔフレームにおいて、物体認識装置１は、その第１判定部４により判定された物体位置姿勢候補を出力する（１）。さらに、第１判定部４は、その物体位置姿勢候補を、候補群（new）として、メモリ１２の候補群（new）データベース８に出力し、該データベース８を更新する。

（時刻ｔ+１フレーム）
上記時刻ｔフレームの候補群（new）は、候補群（hold）として次回の時刻ｔ+１フレームに持ち越され、トラッキング処理部６は、この候補群（hold）の物体位置姿勢候補に対してＩＣＰトラッキングを行う。第２判定部７は、トラッキング処理部６によりトラッキング処理された物体位置姿勢候補に対して、緩い第２判定閾値を用いて判定し、トラッキング処理された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定する。時刻ｔ+１フレームにおいて、物体認識装置１は、その第２判定部７により判定された物体位置姿勢候補を出力する（２）。さらに、第２判定部７は、その物体位置姿勢候補を、候補群（update）として、メモリ１２の候補群（update）データベース９に出力し、該データベース９を更新する。

（時刻ｔ+２フレーム）
上記時刻ｔ+１フレームの候補群（update）は、候補群（hold）として、次回の時刻ｔ+２フレームに持ち越され、トラッキング処理部６は、この候補群（hold）の物体位置姿勢候補に対してＩＣＰトラッキングを行う。第２判定部７は、トラッキング処理部６によりトラッキング処理された物体位置姿勢候補に対して、緩い第２判定閾値を用いて判定し、トラッキング処理された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定する。そして、第２判定部７は、その判定した物体位置姿勢候補を、候補群（update）として、メモリ１２の候補群（update）データベース９に出力し、該データベース９を更新する。
この時刻ｔ+２フレームにおいて、検出部３は、画像情報取得部２からの対象物画像に基づいて、物体位置姿勢候補を検出する。そして、第１判定部４は、厳しい第１判定閾値を用いて、検出部３により検出された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定する。第１判定部４は、判定した物体位置姿勢候補を、候補群（new）として、メモリ１２の候補群（new）データベース８に出力し、該データベース８を更新する。
統合処理部５は、メモリ１２の候補群（new）データベース８に格納された候補群（new）と、候補群（update）データベース９に格納された候補群（update）と、を統合する。フレームｔ＋２において、物体認識装置１は、その統合処理部５により統合された物体位置姿勢候補を出力する（３）。

（時刻ｔ+３フレーム）
上記時刻ｔ+２フレームにおいて、統合処理部５により統合された物体位置姿勢候補は、候補群（hold）として、次回の時刻ｔ+３フレームに持ち越され、トラッキング処理部６は、この候補群（hold）の物体位置姿勢候補に対してＩＣＰトラッキングを行う。第２判定部７は、トラッキング処理部６によりトラッキング処理された物体位置姿勢候補に対して、緩い第２判定閾値を用いて判定し、トラッキング処理された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定する。そして、第２判定部７は、その判定した物体位置姿勢候補を、候補群（update）として、メモリ１２の候補群（update）データベース９に出力し、該データベース９を更新する。
この時刻ｔ+３フレームにおいて、検出部３は、画像情報取得部２からの対象物画像に基づいて、物体位置姿勢候補を検出する。そして、第１判定部４は、厳しい第１判定閾値を用いて、検出部３により検出された物体位置姿勢候補の中から一定以上の信頼度を有する物体位置姿勢候補を判定する。第１判定部４は、判定した物体位置姿勢候補を、候補群（new）として、メモリ１２の候補群（new）データベース８に出力し、該データベース８を更新する。
統合処理部５は、メモリ１２の候補群（new）データベース８に格納された候補群（new）と、候補群（update）データベース９に格納された候補群（update）と、を統合する。時刻ｔ+３フレームにおいて、物体認識装置１は、その統合処理部５により統合された物体位置姿勢候補を出力する（４）。

以降の時刻フレームにおいては、上記（時刻ｔ+３フレーム）と同様の処理を繰り返す。

図９及び図１０は、本実施形態に係る物体認識装置を用いてシミュレーションを行った結果を示す図である。本シミュレーションにおいて、物体１９品目から１１構成、各構成３６０°の回転した画像で２５枚の画像、近距離及び遠距離の２タイプ、繰返し１０回、の条件で、５５００画像を用いている。これら画像を用いて、上記第１判定部のみを用いた物体認識装置（LineMod）と、本実施形態に係る物体認識装置（LineMode+ICP）との比較を行っている。

図９に示すように精度（PRECISION）は両者とも約０．８で良好に維持され、誤検出が抑制されていることが分かる。一方で、図１０に示す如く、再現率（RECALL）は、上記第１判定部のみを用いた物体認識装置（LineMod）が約０．６０に対し、本実施形態に係る物体認識装置（LineMode+ICP）は、約０．６８であり、約８％向上し未検出率が抑制されていることがわかる。すなわち、本実施形態に係る物体認識装置によれば、誤検出と未検出のトレードオフが良好に図られ、物体の位置姿勢の誤検出及び未検出を同時に抑制し、高精度な物体認識を実現できることが分かる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上記実施形態において、統合処理を行い位置を変更してもよい。図１１に示す如く、第２判定部７は、判定した物体位置姿勢候補を、候補群（update）データベース９および候補群（hold）データベース１０を介して統合処理部５に出力してもよい。統合処理部５は、メモリ１２の候補群（new）データベース８に格納された候補群（new）と、候補群（hold）データベース９に格納された候補群（hold）と、を統合する。

また、本発明は、例えば、図８に示す処理を、ＣＰＵ１１又はＧＰＵ（Graphics Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１物体認識装置、２画像情報取得部、３検出部、４第１判定部、５統合処理部、６トラッキング処理部、７第２判定部、８候補群（new）データベース、９候補群（update）データベース、１０候補群（hold）データベース

Claims

認識対象物の画像情報を取得する情報取得手段と、
複数の物体のモデル画像を記憶する記憶手段と、
前記情報取得手段により取得された認識対象物の画像情報の特徴量と、前記記憶手段のモデル画像の特徴量と、を比較し、前記認識対象物の物体候補を検出し、該物体候補の位置及び姿勢候補を算出する検出手段と、
前記情報取得手段により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、前記検出手段により検出された物体候補及び該物体候補の位置及び姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が第１判定閾値以上となる、前記物体候補及び該物体候補の位置及び姿勢候補を出力する第１判定手段と、
前記第１判定手段から出力される物体候補及び該物体候補の位置及び姿勢候補に基づいて、前記物体候補及び該物体候補の位置及び姿勢候補同士をまとめる統合処理を行う統合手段と、
前記統合手段により統合された前記物体候補及び該物体候補の位置及び姿勢候補の幾何学形状に基づいて追跡処理を行う追跡手段と、
前記情報取得手段により取得された認識対象物の画像情報の距離情報および色情報のうちの少なくとも一方と、前記追跡手段から出力された物体候補及び該物体候補の位置及び姿勢候補のモデル画像の距離情報および色情報のうちの少なくとも一方と、の一致度の差分が前記第１判定閾値よりも緩い第２判定閾値以上となる、前記物体候補及び該物体候補の位置及び姿勢候補を出力する第２判定手段と、を備え、
前記統合手段は、フレーム時刻ｔ（ｔは任意の自然数）において前記第２判定手段から出力された物体候補及び該物体候補の位置及び姿勢候補と、次回のフレーム時刻ｔ＋１において前記第１判定手段から出力された物体候補及び該物体候補の位置及び姿勢候補と、に基づいて前記統合処理を行い、該統合処理した物体候補及び該物体候補の位置及び姿勢候補を、前記フレーム時刻ｔ＋１における前記認識対象物の物体及び該物体の位置及び姿勢として出力する、
ことを特徴とする物体認識装置。