JP7298687B2

JP7298687B2 - 物体認識装置及び物体認識方法

Info

Publication number: JP7298687B2
Application number: JP2021525479A
Authority: JP
Inventors: 嘉典小西
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2023-06-27
Anticipated expiration: 2039-06-12
Also published as: EP3961556A4; US20220230459A1; CN113939852A; JPWO2020250348A1; US12094227B2; EP3961556A1; WO2020250348A1

Description

本発明は、テンプレートマッチングにより３次元物体を認識する技術に関する。

画像から物体を認識（検出）する方法の一つとしてテンプレートマッチングがある。テンプレートマッチングは、認識対象となる物体のモデル（テンプレート）を予め用意しておき、入力画像とモデルのあいだの画像特徴の一致度を評価することで、入力画像に含まれる物体を検出する方法である。テンプレートマッチングによる物体認識は、例えば、ＦＡ（Factory Automation）における検査やピッキング、ロボットビジョン、監視カメラなど、多岐にわたる分野で利用されている。

近年、テンプレートマッチングを物体の３次元的な位置及び姿勢の認識に応用する技術に注目が集まっている。その基本的な原理は、対象物体に対する視点位置を変えることでビュー（見え）の異なる多数のテンプレートを用意し、それらのテンプレートの中から入力画像における対象物体のビューに最もマッチするものを選択することで、カメラに対する対象物体の３次元的な位置及び姿勢を特定するというものである。しかしこの方法は、認識の分解能がテンプレートのバリエーションに比例するため、認識の分解能を上げようとすると、テンプレート作成の負荷増大、テンプレートのデータ量の増加、テンプレートマッチングの処理時間の増大などの問題が顕著になる。

このような問題への対応策として、特許文献１には、デプスセンサによって対象物体の奥行き距離を計測し、その奥行き距離に応じてテンプレート（特徴値をサンプリングする２次元グリッド）をスケーリング（拡大／縮小）する、というアイデアが開示されている。

米国特許第９６５９２１７号明細書

特許文献１の方法によれば、奥行き距離のみが異なる複数のビューのテンプレートを共通化できるため、テンプレート作成の負荷軽減や、テンプレート数の削減などの効果が期待できる。しかしながら、テンプレートマッチングの探索時に、各画素の奥行き距離に合わせてテンプレートを拡大又は縮小する処理が発生するため、処理速度が遅くなるというデメリットがある。テンプレートの拡大又は縮小にかかる時間を削減するために、テンプレートマッチング処理に先立ち、対象物体が存在し得る距離範囲と必要な分解能に応じて複数スケールのテンプレートを生成しワークメモリに保持しておくことも技術的には可能であるが、非常に多くのメモリ容量が必要となるため実用的でない。

本発明は、上記実情に鑑みてなされたものであり、様々な奥行き距離に存在し得る物体をテンプレートマッチングにより高速に検出することを可能にする実用的な技術を提供することを目的とする。

本発明の一側面は、各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部と、前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部と、テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部と、を有することを特徴とする物体認識装置を提供する。

３次元データは、３次元計測により得られるデータであるとよい。３次元計測の方式はどのようなものでもよく、アクティブ計測方式でもパッシブ計測方式でもよい。テンプレートマッチングは、対象物体のテンプレート（モデル）と２次元画像における注目領域とのあいだの画像特徴の一致度（類似度）を評価することによって、当該注目領域内の部分画像が対象物体の画像であるか否かを判断する方法である。対象物体のビュー（見え）が異なる複数のテンプレートをテンプレートマッチングに用いれば、対象物体の姿勢の認識も可能である。

本発明では、３次元データを平行投影することで生成された２次元画像をテンプレートマッチングに利用する。平行投影では、投影面から対象物体までの距離にかかわらず、対象物体は同じ大きさで投影される。それゆえ、平行投影により生成された２次元画像においては、対象物体の像は（その奥行き距離によらず）常に同じ大きさをとる。したがって、単一のサイズのテンプレートだけを用いてマッチングを行えばよいので、従来方法（奥行き距離に応じてテンプレートのスケーリングを行う方法）に比べて高速な処理が可能である。また、テンプレートの数及びデータ量を削減できるとともに、ワークメモリの必要量も少なくて済むため、実用性に優れるという利点もある。

前記認識処理部は、前記対象物体のテンプレートとして、前記対象物体を平行投影した画像から生成されたテンプレートを用いてもよい。テンプレートも平行投影画像から生成することによって、テンプレートと２次元画像における対象物体像とのマッチング精度が向上するため、物体認識処理の信頼性を高めることができる。

前記投影面は任意に設定してよいが、３次元データを構成する各点の投影点が前記投影面上でできるだけ広い範囲に分布するように前記投影面を設定することが好ましい。例えば、前記３次元データが、カメラで撮影された画像を用いて生成されたデータである場合には、前記平行投影変換部は、前記カメラの光軸に直交するように前記投影面を設定してもよい。

前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の３次元情報から求まるデプス情報を前記第１の画素に関連付けてもよい。前記３次元データの各点が輝度の情報を有している場合には、前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の輝度の情報を前記第１の画素に関連付けてもよい。前記３次元データの各点が色の情報を有している場合には、前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の色の情報を前記第１の画素に関連付けてもよい。

前記平行投影変換部は、前記２次元画像における第２の画素に投影される点が存在しない場合に、前記第２の画素の周辺の画素に関連付けられた情報に基づいて、前記第２の画素に関連付ける情報を生成してもよい。例えば、前記平行投影変換部は、前記第２の画素の周辺の画素に関連付けられた情報を補間することによって、前記第２の画素に関連付ける情報を求めてもよい。このような処理により２次元画像の情報量を増すことで、テンプレートマッチングの精度向上が期待できる。

前記３次元データは、カメラで撮影された画像を用いて生成されたデータであり、前記平行投影変換部は、前記３次元データにおける複数の点が前記投影面上の同じ位置に投影される場合には、前記複数の点のうち前記カメラに最も近い点を前記２次元画像の生成に用いてもよい。このような処理により、投影面側から見たときの物体同士の重なり（隠れ）を考慮した平行投影像が生成されるため（つまり、カメラから見える点のみが２次元画像にマッピングされるため）、テンプレートマッチングによる物体認識処理を精度良く行うことができる。

本発明は、上述した手段ないし構成の少なくとも一部を有する物体認識装置として捉えてもよいし、上述した平行投影変換を行う画像処理装置として捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体認識方法、画像処理方法、テンプレートマッチング方法、物体認識装置の制御方法などとして捉えてもよく、または、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、様々な奥行き距離に存在し得る物体をテンプレートマッチングにより高速に検出することを可能にする実用的な技術を提供することができる。

図１は、物体認識装置による処理を模式的に示す図である。図２は、物体認識装置の全体構成を模式的に示す図である。図３は、画像処理装置の構成を示すブロック図である。図４は、テンプレート作成処理のフローチャートである。図５は、視点位置の設定例を示す図である。図６は、テンプレート作成処理における平行投影画像の例を示す図である。図７は、物体認識処理のフローチャートである。図８は、物体認識処理における平行投影変換のフローチャートである。図９は、カメラ座標系と投影画像座標系の設定例を示す図である。図１０は、投影点補完処理のフローチャートである。

＜適用例＞
図１は、本発明の適用例の一つである物体認識装置による処理を模式的に示している。図１の符号１０は、ステージ１０１上の３つの物体１０２ａ、１０２ｂ、１０２ｃを斜め上方からカメラ１０３によって計測（撮影）する様子を示している。物体１０２ａ、１０２ｂ、１０２ｃは同じ形状（円柱形）・同じサイズの物体であるが、カメラ１０３からの奥行き距離が物体１０２ａ、物体１０２ｂ、物体１０２ｃの順で遠い。

符号１１は、カメラ１０３で撮影された画像に基づき生成された３次元データの一例である。３次元データ１１は、各点が３次元情報をもつ複数の点から構成されるデータである。３次元データ１１の形式はどのようなものでもよく、例えば、各点が３次元座標値をもつ形式のデータでもよいし、２次元画像の各点（各画素）にデプス値（奥行き距離の情報）が関連付けられた形式のデータでもよい。３次元座標値は、カメラ座標系の座標値でもよいし、グローバル座標系の座標値でもよいし、それ以外の座標系の座標値でもよい。図１の３次元データ１１はデプス画像の例であり、デプス値を便宜的に濃淡で表している（カメラ１０３から遠い点ほど暗い。）。一般的な光学系ではカメラ１０３から遠い物体ほど小さく結像するため、画像上のサイズは、物体１０２ａ、物体１０２ｂ、物体１０２ｃの順で小さくなる。

従来のテンプレートマッチングは、様々なサイズの物体に対応するために、サイズの異なる複数種類のテンプレートを用いるか、特許文献１のようにデプス値に応じてテンプレートのサイズをスケーリングしていた。しかしながら、これらの従来方法は、前述のとおり、処理速度の低下やメモリ容量の増大などの問題が生じるという不利があった。

そこで、本発明の実施形態では、３次元データ１１を平行投影変換して２次元画像１２を生成し、この２次元画像１２をテンプレートマッチングに用いる。平行投影変換を行うことによって、実際のサイズが同じ物体は、２次元画像１２上でのサイズも同じになる。したがって、単一のサイズのテンプレート１３を適用するだけで、２次元画像１２に含まれているすべての物体１０２ａ、１０２ｂ、１０２ｃを検出することができる。符号１４は、認識結果の例を示している。

本実施形態の方法によれば、従来方法に比べて高速な処理が可能である。また、テンプレートの数及びデータ量を削減できるとともに、ワークメモリの必要量も少なくて済むため、実用性に優れるという利点もある。なお、説明の便宜のため図１では物体１０２ａ、１０２ｂ、１０２ｃの姿勢が同じである例を示したが、物体の姿勢（つまり物体を見る角度）によってその形状が変化する場合には、認識したい姿勢ごとにテンプレート１３を用意しておけばよい。

＜実施形態＞
（物体認識装置の全体構成）
図２を参照して、本発明の実施形態に係る物体認識装置について説明する。

物体認識装置２は、物品の組み立てや加工などを行う生産ラインに設置され、センサユニット２０から取り込まれたデータを用いて、テンプレートマッチングによりトレイ２６に積載された物体２７の位置・姿勢を認識（３次元の物体認識）するシステムである。トレイ２６上には、認識対象の物体（以下、「対象物体」ともいう。）２７がバラ積みされている。

物体認識装置２は、概略、センサユニット２０と画像処理装置２１から構成される。センサユニット２０と画像処理装置２１のあいだは有線又は無線で接続されており、センサユニット２０の出力は画像処理装置２１に取り込まれる。画像処理装置２１は、センサユニット２０から取り込まれたデータを用いて各種の処理を行うデバイスである。画像処理装置２１の処理としては、例えば、距離計測（測距）、３次元形状認識、物体認識、シーン認識などが含まれてもよい。物体認識装置２の認識結果は、例えばＰＬＣ（プログラマブルロジックコントローラ）２５やディスプレイ２２などに出力される。認識結果は、例えば、ピッキング・ロボット２８の制御、加工装置や印字装置の制御、対象物体２７の検査や計測などに利用される。

（センサユニット）
センサユニット２０は、対象物体２７の光学像を撮影するためのカメラを少なくとも有する。さらに、センサユニット２０は、対象物体２７の３次元計測を行うために必要な構成（センサ、照明装置、投光装置など）を含んでもよい。例えば、ステレオマッチング（ステレオビジョン、ステレオカメラ方式などとも呼ばれる。）によって奥行き距離を計測する場合には、センサユニット２０に複数台のカメラが設けられる。アクティブステレオの場合はさらに、対象物体２７にパターン光を投射する投光装置がセンサユニット２０に設けられる。空間コード化パターン投影方式により３次元計測を行う場合には、パターン光を投射する投光装置とカメラがセンサユニット２０に設けられる。他にも、照度差ステレオ法、ＴＯＦ（タイムオブフライト）法、位相シフト法など、対象物体２７の３次元情報を取得可能な方法であればいかなる方式を用いてもよい。

（画像処理装置）
画像処理装置２１は、例えば、ＣＰＵ（プロセッサ）、ＲＡＭ（メモリ）、不揮発性記憶装置（ハードディスク、ＳＳＤなど）、入力装置、出力装置などを備えるコンピュータにより構成される。この場合、ＣＰＵが、不揮発性記憶装置に格納されたプログラムをＲＡＭに展開し、当該プログラムを実行することによって、後述する各種の構成が実現される。ただし、画像処理装置２１の構成はこれに限られず、後述する構成のうちの全部又は一部を、ＦＰＧＡやＡＳＩＣなどの専用回路で実現してもよいし、クラウドコンピューティングや分散コンピューティングにより実現してもよい。

図３は、画像処理装置２１の構成を示すブロック図である。画像処理装置２１は、テンプレート作成装置３０の構成と、物体認識処理装置３１の構成を有している。テンプレート作成装置３０は、物体認識処理で利用するテンプレートを作成するための構成であり、３次元ＣＡＤデータ取得部３００、平行投影パラメータ設定部３０１、視点位置設定部３０２、２次元投影画像作成部３０３、特徴抽出部３０４、テンプレート作成部３０５を有する。物体認識処理装置３１は、テンプレートマッチングによる物体認識処理を実行するための構成であり、３次元データ取得部３１０、平行投影パラメータ設定部３１１、平行投影変換部３１２、特徴抽出部３１３、テンプレート記憶部３１４、テンプレートマッチング部３１５、認識結果出力部３１６を有する。本実施形態では、特徴抽出部３１３、テンプレート記憶部３１４、及び、テンプレートマッチング部３１５により、本発明の「認識処理部」が構成されている。

（テンプレート作成処理）
図４のフローチャートを参照して、テンプレート作成装置３０によるテンプレート作成処理の一例を説明する。

ステップＳ４００において、３次元ＣＡＤデータ取得部３００が、対象物体２７の３次元ＣＡＤデータを取得する。ＣＡＤデータは、画像処理装置２１の内部記憶装置から読み込んでもよいし、外部のＣＡＤシステムやストレージなどからネットワークを介して取得してもよい。なお、ＣＡＤデータの代わりに、３次元センサなどで計測された３次元形状データを取得してもよい。

ステップＳ４０１において、視点位置設定部３０２が、テンプレートを作成する視点位置を設定する。図５は、視点位置の設定例を示している。この例では、対象物体２７を包含する八十面体の４２個の頂点に視点（黒丸で図示）を設定している。なお、視点の数や配置は、要求される分解能、対象物体２７の形状や採り得る姿勢などに応じて適宜設定すればよい。視点の数や配置は、ユーザにより指定されてもよいし、視点位置設定部３０２によって自動で設定されてもよい。

ステップＳ４０２において、平行投影パラメータ設定部３０１が、テンプレート作成に使用する平行投影パラメータを設定する。ここでは、平行投影パラメータとして、ｒｅｓ_ｘ，ｒｅｓ_ｙの２つのパラメータを用いる。（ｒｅｓ_ｘ，ｒｅｓ_ｙ）は投影画像の１画素の大きさ（単位はｍｍ）である。なお、後述する物体認識処理における平行投影変換でも平行投影パラメータを用いるが、テンプレート作成時と物体認識処理時で同じ値のパラメータを使用するとよい。平行投影パラメータの値を揃えることで、テンプレートにおける対象物体２７のサイズと物体認識処理で生成される平行投影画像における対象物体２７のサイズとが一致するため、テンプレートマッチングの際にテンプレート又は画像のスケール調整をする必要がなくなるからである。

ステップＳ４０３において、２次元投影画像作成部３０３が、３次元ＣＡＤデータを平行投影した２次元投影画像を作成する。図６は、２次元投影画像の例を示している。対象物体２７の表面上の各点を、視点ＶＰを通る投影面６２に平行投影することによって、視点ＶＰに対応する２次元投影画像６０が作成される。

ステップＳ４０４において、特徴抽出部３０４が、ステップＳ４０３で作成された２次元投影画像６０から対象物体２７の画像特徴を抽出する。画像特徴としては、例えば、輝度、色、輝度勾配方向、量子化勾配方向、ＨｏＧ（Histogram of Oriented Gradients）、表面の法線方向、ＨＡＡＲ－ｌｉｋｅ、ＳＩＦＴ（Scale-Invariant Feature Transform）などを用いることができる。輝度勾配方向は、特徴点を中心とする局所領域での輝度の勾配の方向（角度）を連続値で表すものであり、量子化勾配方向は、特徴点を中心とする局所領域での輝度の勾配の方向を離散値で表す（例えば、８方向を０～７の１バイトの情報で保持する）ものである。特徴抽出部３０４は、２次元投影画像６０の全ての点（画素）について画像特徴を求めてもよいし、所定の規則に従ってサンプリングした一部の点について画像特徴を求めてもよい。画像特徴が得られた点を特徴点と呼ぶ。

ステップＳ４０５において、テンプレート作成部３０５が、ステップＳ４０４で抽出された画像特徴に基づいて、視点ＶＰに対応するテンプレートを作成する。テンプレートは、例えば、各特徴点の座標値と抽出された画像特徴とを含むデータセットである。

ステップＳ４０３～Ｓ４０５の処理が、ステップＳ４０１で設定された全ての視点について行われる（ステップＳ４０６）。全ての視点についてテンプレートの作成が完了すると、テンプレート作成部３０５が、テンプレートのデータを物体認識処理装置３１のテンプレート記憶部３１４に格納する（ステップＳ４０７）。以上でテンプレート作成処理は終了である。

（物体認識処理）
図７のフローチャートを参照して、物体認識処理装置３１による物体認識処理の一例を説明する。

ステップＳ７００において、３次元データ取得部３１０が、センサユニット２０で撮影された画像に基づいて、視野内の３次元データを生成する。本実施形態では、投光装置からパターン光を投射した状態で、２台のカメラによってステレオ画像を撮影し、画像間の視差に基づき奥行き距離を計算する、アクティブステレオ方式によって視野内の各点の３次元情報を得る。

ステップＳ７０１において、平行投影パラメータ設定部３１１が、平行投影変換に使用する平行投影パラメータを設定する。ここでは、平行投影パラメータとして、ｒｅｓ_ｘ，ｒｅｓ_ｙ，ｃ_ｘ，ｃ_ｙの４つのパラメータを用いる。（ｒｅｓ_ｘ，ｒｅｓ_ｙ）は投影画像の１画素の大きさ（単位はｍｍ）であり、任意の値に設定してよい。例えば、センサユニット２０のカメラの焦点距離（ｆ_ｘ，ｆ_ｙ）を用いて、
ｒｅｓ_ｘ＝ｄ／ｆ_ｘ
ｒｅｓ_ｙ＝ｄ／ｆ_ｙ
としてもよい。ｄは、対象物体２７が存在し得る奥行き距離に応じて設定される定数である。例えば、センサユニット２０から対象物体２７までの奥行き距離の平均値、最小値、もしくは、最大値などを定数ｄに設定してもよい。なお、前述のように、（ｒｅｓ_ｘ，ｒｅｓ_ｙ）については、テンプレート作成時と同じ値を用いることが好ましい。（ｃ_ｘ，ｃ_ｙ）は投影画像の中心座標である。

ステップＳ７０２において、平行投影変換部３１２が、３次元データにおける各点（以下、「３次元点」と呼ぶ）を所定の投影面に平行投影することにより、２次元投影画像を生成する。

図８及び図９を参照して、平行投影変換の詳細を説明する。ステップＳ８００において、平行投影変換部３１２は、３次元点を平行投影した場合の画像座標値を計算する。カメラ座標系を（Ｘ，Ｙ，Ｚ）、投影画像の画像座標系を（ｘ，ｙ）とする。図９の例では、原点Ｏがセンサユニット２０のカメラのレンズの中心（主点）に一致し、Ｚ軸が光軸に重なり、Ｘ軸とＹ軸がカメラの撮像素子の水平方向と垂直方向にそれぞれ平行となるように、カメラ座標系が設定される。また、画像座標系は、画像中心（ｃ_ｘ，ｃ_ｙ）がカメラ座標系のＺ軸上にあり、ｘ軸とｙ軸がカメラ座標系のＸ軸とＹ軸にそれぞれ平行となるように設定される。画像座標系のｘｙ平面が投影面である。すなわち、本実施形態では、カメラの光軸に直交するように、平行投影変換の投影面が設定されている。図９のように座標系を設定した場合、３次元点（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）に対応する、平行投影変換後の画像座標値（ｘ_ｉ，ｙ_ｉ）は、
ｘ_ｉ＝ＲＯＵＮＤ（Ｘ_ｉ／ｒｅｓ_ｘ＋ｃ_ｘ）
ｙ_ｉ＝ＲＯＵＮＤ（Ｙ_ｉ／ｒｅｓ_ｙ＋ｃ_ｙ）
により求まる。ＲＯＵＮＤは小数点以下を丸める演算子である。

ステップＳ８０１において、平行投影変換部３１２は、画像座標値（ｘ_ｉ，ｙ_ｉ）に投影された３次元点が既に存在していたかどうかを調べる。具体的には、投影画像の画素（ｘ_ｉ，ｙ_ｉ）に対し既に３次元点の情報が関連付けられているかどうかがチェックされる。関連付けられている３次元点が未だ無い場合（ステップＳ８０１のＮＯ）、平行投影変換部３１２は、画素（ｘ_ｉ，ｙ_ｉ）に対し３次元点（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）の情報を関連付ける（ステップＳ８０３）。本実施形態では、３次元点の座標値（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）を画素（ｘ_ｉ，ｙ_ｉ）に関連付けるが、これに限らず、３次元点のデプス情報（例えばＺ_ｉの値）、色情報（例えばＲＧＢ値）、輝度情報などを関連付けてもよい。関連付けられている３次元点が既に存在していた場合（ステップＳ８０１のＹＥＳ）、平行投影変換部３１２は、Ｚ_ｉの値と、既に関連付けられているＺの値とを比較し、Ｚ_ｉの方が小さければ（ステップＳ８０２のＹＥＳ）、画素（ｘ_ｉ，ｙ_ｉ）に関連付けられた情報を３次元点（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）の情報で上書きする（ステップＳ８０３）。このような処理により、複数の３次元点が投影面上の同じ位置に投影される場合には、複数の３次元点のうちカメラに最も近い３次元点の情報が投影画像の生成に用いられることとなる。ステップＳ８００～Ｓ８０３の処理が全ての３次元点について行われたら、図７のステップＳ７０３に進む（ステップＳ８０４）。

ステップＳ７０３において、特徴抽出部３１３が、投影画像から画像特徴を抽出する。ここで抽出される画像特徴は、テンプレート作成に用いられた画像特徴と同じものである。ステップＳ７０４において、テンプレートマッチング部３１５が、テンプレート記憶部３１４からテンプレートを読み込み、当該テンプレートを用いたテンプレートマッチング処理によって、投影画像から対象物体を検出する。このとき、異なる視点のテンプレートを用いることで、対象物体の姿勢を認識することもできる。ステップＳ７０５において、認識結果出力部３１６が認識結果を出力する。以上で物体認識処理が終了する。

（本実施形態の利点）
以上述べた構成及び処理では、３次元データを平行投影することで生成された２次元画像をテンプレートマッチングに利用する。平行投影では、投影面から対象物体までの距離にかかわらず、対象物体は同じ大きさで投影される。それゆえ、平行投影により生成された２次元画像においては、対象物体の像は（その奥行き距離によらず）常に同じ大きさをとる。したがって、単一のサイズのテンプレートだけを用いてマッチングを行えばよいので、従来方法に比べて高速な処理が可能である。また、テンプレートの数及びデータ量を削減できるとともに、ワークメモリの必要量も少なくて済むため、実用性に優れるという利点もある。

また、本実施形態では、テンプレートも平行投影画像から生成することとしたので、テンプレートと平行投影変換により得られた画像における対象物体像とのマッチング精度が向上する。これにより、物体認識処理の信頼性を高めることができる。

また、本実施形態では、カメラの光軸に直交するように投影面を設定したので、カメラ座標系から画像座標系への変換の計算を簡単化でき、平衡投影変換処理の高速化、ひいてはテンプレートマッチングによる物体認識処理の高速化を図ることができる。また、カメラの光軸に直交するように投影面を設定したことで、平行投影変換後の対象物体像の歪みを抑えることもできる。

また、複数の３次元点が同一の画素に投影される場合には、カメラに最も近い３次元点の情報のみを用いることとしたので、カメラから見たときの物体同士の重なり（隠れ）を考慮した平行投影像が生成され、テンプレートマッチングによる物体認識処理を精度良く行うことができる。

＜その他＞
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

例えば、図１０に示す投影点補完処理を、平行投影変換処理（図７のステップＳ７０２）の後に行ってもよい。具体的には、平行投影変換部３１２が、ステップＳ７０２で生成された投影画像の各画素（ｘ_ｉ，ｙ_ｉ）について、３次元点の情報が関連付けられているか否かを調べ（ステップＳ１００）、３次元点の情報が関連付けられていない場合（つまり、投影点が存在しない場合）には、画素（ｘ_ｉ，ｙ_ｉ）の周辺の画素（例えば４近傍画素や８近傍画素など）に関連付けられている情報に基づいて、画素（ｘ_ｉ，ｙ_ｉ）用の情報を生成する（ステップＳ１０１）。例えば、ニアレストネイバー、バイリニア、バイキュービックなどの補間によって画素（ｘ_ｉ，ｙ_ｉ）用の情報を生成してもよい。そして、平行投影変換部３１２は、ステップＳ１０１で生成した情報を、画素（ｘ_ｉ，ｙ_ｉ）に対し関連付ける（ステップＳ１０２）。ステップＳ１００～Ｓ１０２の処理を投影画像の全ての画素について実施する。このような処理によって、投影画像の情報量（投影点の数）が増すので、テンプレートマッチングの精度向上が期待できる。

また、投影面の設定は図９の例に限られない。例えば、カメラ座標系の原点Ｏの後ろ側（像側）に投影面を配置してもよい。あるいは、投影面が光軸（Ｚ軸）と斜めに交わるように（つまり、投影方向が光軸と非平行になるように）、投影面を配置してもよい。

＜付記＞
（１）各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部（３１０）と、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部（３１２）と、
テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部（３１３、３１４、３１５）と、
を有することを特徴とする物体認識装置（２）。

２：物体認識装置
２０：センサユニット
２１：画像処理装置
２２：ディスプレイ
２７：対象物体
３０：テンプレート作成装置
３１：物体認識処理装置

Claims

各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部と、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部と、
テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部と、を有し、
前記３次元データは、カメラで撮影された画像を用いて生成されたデータであり、
前記平行投影変換部は、前記カメラの光軸に直交するように前記投影面を設定する
ことを特徴とする物体認識装置。
各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部と、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部と、
テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部と、を有し、
前記３次元データの各点は、輝度の情報を有しており、
前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の輝度の情報を前記第１の画素に関連付ける
ことを特徴とする物体認識装置。
各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部と、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部と、
テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部と、
を有し、
前記３次元データの各点は、色の情報を有しており、
前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の色の情報を前記第１の画素に関連付けることを特徴とする物体認識装置。
各々が３次元情報をもつ複数の点から構成される３次元データを取得する３次元データ取得部と、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成する平行投影変換部と、
テンプレートマッチングにより前記２次元画像から対象物体を検出する認識処理部と、を有し、
前記３次元データは、カメラで撮影された画像を用いて生成されたデータであり、
前記平行投影変換部は、前記３次元データにおける複数の点が前記投影面上の同じ位置に投影される場合には、前記複数の点のうち前記カメラに最も近い点を前記２次元画像の生成に用いる
ことを特徴とする物体認識装置。
前記平行投影変換部は、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の３次元情報から求まるデプス情報を前記第１の画素に関連付ける
ことを特徴とする請求項１～４のうちいずれか１項に記載の物体認識装置。
前記平行投影変換部は、前記２次元画像における第２の画素に投影される点が存在しない場合に、前記第２の画素の周辺の画素に関連付けられた情報に基づいて、前記第２の画素に関連付ける情報を生成する
ことを特徴とする請求項２、３、または、５に記載の物体認識装置。
前記平行投影変換部は、前記第２の画素の周辺の画素に関連付けられた情報を補間することによって、前記第２の画素に関連付ける情報を求める
ことを特徴とする請求項６に記載の物体認識装置。
前記認識処理部は、前記対象物体のテンプレートとして、前記対象物体を平行投影した画像から生成されたテンプレートを用いる
ことを特徴とする請求項１～７のうちいずれか１項に記載の物体認識装置。
各々が３次元情報をもつ複数の点から構成される３次元データを取得するステップと、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成するステップと、
テンプレートマッチングにより前記２次元画像から対象物体を検出するステップと、
を有し、
前記３次元データは、カメラで撮影された画像を用いて生成されたデータであり、
前記平行投影では、前記カメラの光軸に直交するように前記投影面を設定する
ことを特徴とする物体認識方法。
各々が３次元情報をもつ複数の点から構成される３次元データを取得するステップと、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成するステップと、
テンプレートマッチングにより前記２次元画像から対象物体を検出するステップと、
を有し、
前記３次元データの各点は、輝度の情報を有しており、
前記平行投影では、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の輝度の情報を前記第１の画素に関連付ける
ことを特徴とする物体認識方法。
各々が３次元情報をもつ複数の点から構成される３次元データを取得するステップと、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成するステップと、
テンプレートマッチングにより前記２次元画像から対象物体を検出するステップと、
を有し、
前記３次元データの各点は、色の情報を有しており、
前記平行投影では、前記３次元データにおける第１の点が前記２次元画像における第１の画素に投影された場合に、前記第１の点の色の情報を前記第１の画素に関連付ける
ことを特徴とする物体認識方法。
各々が３次元情報をもつ複数の点から構成される３次元データを取得するステップと、
前記３次元データの各点をある投影面に平行投影することにより２次元画像を生成するステップと、
テンプレートマッチングにより前記２次元画像から対象物体を検出するステップと、
を有し、
前記３次元データは、カメラで撮影された画像を用いて生成されたデータであり、
前記平行投影では、前記３次元データにおける複数の点が前記投影面上の同じ位置に投影される場合には、前記複数の点のうち前記カメラに最も近い点を前記２次元画像の生成に用いる
ことを特徴とする物体認識方法。
請求項９～１２のうちいずれか１項に記載の物体認識方法の各ステップをコンピュータに実行させるためのプログラム。