JP7319891B2

JP7319891B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP7319891B2
Application number: JP2019199417A
Authority: JP
Inventors: 芳宏中野
Original assignee: MinebeaMitsumi Inc
Current assignee: MinebeaMitsumi Inc
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-08-02
Anticipated expiration: 2039-10-31
Also published as: WO2021085560A1; JP2021072002A; CN114631114A; EP4052870A1; US20220351363A1; EP4052870A4

Description

本発明は、画像処理装置及び画像処理方法に関する。

バラ積みされた複数の対象物（ワーク）をロボットアーム等により把持するために、ワークの三次元位置と姿勢とを認識する技術が知られている。その際、三次元計測機を用いることで、ワークの三次元位置及び姿勢を認識することができる。

特開２０１９－０５８９６０号公報

しかし、三次元計測機は高価なため、工場などで大量に導入するにはコストがかかる。そこで、一般的なカメラなどの撮影装置にて撮影された２次元画像から、対象物の位置や姿勢を認識することが望まれる。

本発明は、上記課題を一例とするものであり、対象物の位置を推定する画像処理装置及び画像処理方法を提供することを目的とする。

本発明の一態様に係る画像処理装置は、取得部と、推定部と、を備える。取得部は、バラ積みされたワークを撮影した第１の画像及び第２の画像を取得する。推定部は、前記第１の画像の特徴量と、第２の画像の特徴量とのマッチングマップを生成し、前記第１の画像と前記第２の画像とのそれぞれに対してターゲットとなる各ワークの位置と姿勢とクラス分類スコアとを推定し、前記マッチングマップを用いたマッチング結果と位置の推定結果とに基づいて、前記ワーク位置を推定する。

本発明の一態様によれば、画像処理により対象物の位置を推定することができる。

図１は、第１の実施形態に係る画像処理装置を実装した物体把持システムの一例を示す図である。図２は、第１の実施形態に係る物体把持システムの構成の一例を示すブロック図である。図３は、学習処理の一例を示すフローチャートである。図４は、対象物の三次元データの一例を示す図である。図５は、複数の対象物が配置された仮想空間のキャプチャ画像の一例を示す図である。図６は、ロボットアームの制御に関する処理の一例を示す図である。図７は、ロボットアームの制御に関する処理の別の一例を示す図である。図８は、第１の実施形態に係る検出モデルの一例を示す図である。図９は、第１の実施形態に係る特徴検出層（ｕ１）が出力する特徴マップの一例を示す図である。図１０は、第１の実施形態に係る対象物の位置及び姿勢の推定結果の一例を示す図である。図１１は、第１の実施形態に係る対象物の把持位置の推定結果の別の一例を示す図である。図１２は、第１の実施形態に係るステレオカメラにより撮影されたバラ積み画像の一例を示す図である。図１３は、第１の実施形態に係るバラ積み画像とマッチングマップとの関係の一例を示す図である。図１４は、第１の実施形態に係る推定処理の一例を示すフローチャートである。図１５は、第１の実施形態に係る推定処理の一例を示す図である。図１６は、変形例に係るトレイを含むバラ積み画像の一例を示す図である。図１７は、変形例に係る位置ずれ推定モデルの一例を示す図である。図１８は、変形例に係る位置ずれ推定モデルの別の一例を示す図である。

以下、実施形態に係る画像処理装置及び画像処理方法について図面を参照して説明する。なお、この実施形態によりこの発明が限定されるものではない。また、図面における各要素の寸法の関係、各要素の比率などは、現実と異なる場合がある。図面の相互間においても、互いの寸法の関係や比率が異なる部分が含まれている場合がある。また、１つの実施形態や変形例に記載された内容は、原則として他の実施形態や変形例にも同様に適用される。

（第１の実施形態）
第１の実施形態における画像処理装置は、例えば物体把持システム１において用いられる。図１は、第１の実施形態に係る画像処理装置を実装した物体把持システムの一例を示す図である。図１に示す物体把持システム１は、図示しない画像処理装置１０と、カメラ２０と、ロボットアーム３０とを備える。カメラ２０は、例えば、ロボットアーム３０と、ロボットアーム３０が把持する対象物となる、バラ積みされたワーク４１、４２等との両方を撮影可能な位置に設けられる。カメラ２０は、例えば、ロボットアーム３０と、ワーク４１、４２の画像とを撮影し、画像処理装置１０に出力する。なお、ロボットアーム３０とバラ積みされたワーク４１，４２等とは別々のカメラで撮影してもよい。第１の実施形態におけるカメラ２０には、図１に示されるように、例えば公知のステレオカメラ等、複数の画像を撮影できるカメラが用いられる。画像処理装置１０は、カメラ２０から出力された画像を用いて、ワーク４１、４２等の位置及び姿勢を推定する。画像処理装置１０は、推定されたワーク４１、４２等の位置及び姿勢に基づいて、ロボットアーム３０の動作を制御する信号を出力する。ロボットアーム３０は、画像処理装置１０から出力された信号に基づいて、ワーク４１、４２等を把持する動作を行う。なお、図１においては、複数の異なる種類のワーク４１、４２等が開示されているが、ワークの種類は１種類であってもよい。第１の実施形態においては、ワークが１種類である場合について説明する。また、ワーク４１、４２等は、位置及び姿勢が不規則であるように配置されている。図１に示すように、例えば、複数のワークが上面視において重なるように配置されていてもよい。また、ワーク４１、４２は、対象物の一例である。

図２は、第１の実施形態に係る物体把持システムの構成の一例を示すブロック図である。図２に示すように、画像処理装置１０は、カメラ２０及びロボットアーム３０と、ネットワークＮＷを通じて通信可能に接続されている。また、図２に示すように、画像処理装置１０は、通信Ｉ／Ｆ（インターフェース）１１と、入力Ｉ／Ｆ１２と、ディスプレイ１３と、記憶回路１４と、処理回路１５とを備える。

通信Ｉ／Ｆ１１は、ネットワークＮＷを通じた外部装置とのデータ入出力の通信を制御する。例えば、通信Ｉ／Ｆ１１は、ネットワークカードやネットワークアダプタ、ＮＩＣ（Network Interface Controller）等によって実現され、カメラ２０から出力される画像のデータを受信するとともに、ロボットアーム３０に出力する信号を送信する。

入力Ｉ／Ｆ１２は、処理回路１５に接続され、画像処理装置１０の管理者（不図示）から受け付けた入力操作を電気信号に変換して処理回路１５に出力する。例えば、入力Ｉ／Ｆ１２は、スイッチボタン、マウス、キーボード、タッチパネル等である。

ディスプレイ１３は、処理回路１５に接続され、処理回路１５から出力される各種情報及び各種画像データを表示する。例えば、ディスプレイ１３は、液晶モニタやＣＲＴ（Cathode Ray Tube）モニタ、タッチパネル等によって実現される。

記憶回路１４は、例えば、メモリ等の記憶装置により実現される。記憶回路１４には、処理回路１５により実行される各種のプログラムが記憶されている。また、記憶回路１４には、処理回路１５により各種のプログラムが実行される際に用いられる各種のデータが一時的に記憶される。記憶回路１４は、機械（深層）学習モデル１４１を有する。さらに、機械（深層）学習モデル１４１はニューラルネットワーク構造１４１ａと学習パラメータ１４１ｂを備えている。ニューラルネットワーク構造１４１ａは、例えば、図８の畳み込みニューラルネットワークｂ１のような公知のネットワークを応用したもので、後述する図１５に示されるネットワーク構造である。学習パラメータ１４１ｂは、例えば、畳み込みニューラルネットワークの畳み込みフィルタの重みであり、対象物の位置及び姿勢を推定するために学習され、最適化されるパラメータである。ニューラルネットワーク構造１４１ａは、推定部１５２に備えられていても構わない。なお、本発明における機械（深層）学習モデル１４１は学習済みモデルを例として説明するが、これに限定されない。なお、以下において、機械（深層）学習モデル１４１を、単に「学習モデル１４１」と表記する場合がある。

学習モデル１４１は、カメラ２０から出力された画像から、ワークの位置及び姿勢を推定する処理に用いられる。学習モデル１４１は、例えば、複数のワークの位置及び姿勢と、当該複数のワークを撮影した画像とを教師データして学習することにより生成される。なお、第１の実施形態においては、学習モデル１４１が、例えば、処理回路１５により生成されるが、これに限られず、外部のコンピュータにより生成されてもよい。以下においては、図示しない学習装置により、学習モデル１４１が生成及び更新される実施形態について説明する。

第１の実施形態において、学習モデル１４１の生成に用いられる大量の画像は、例えば、仮想空間上に複数のワークを配置し、当該仮想空間の画像をキャプチャすることにより生成されてもよい。図３は、学習処理の一例を示すフローチャートである。図３に示すように、学習装置は、対象物の三次元データを取得する（ステップＳ１０１）。三次元データは、例えば公知の３Ｄスキャン等の手法により取得することができる。図４は、対象物の三次元データの一例を示す図である。三次元データを取得することにより、仮想空間上において、ワークの姿勢を任意に変更して配置させることができる。

次に、学習装置は、仮想空間上に、対象物を配置する際の各種条件を設定する（ステップＳ１０２）。仮想空間への対象物の配置は、例えば公知の画像生成ソフトウェア等を用いて行うことができる。配置する対象物の数や位置、姿勢などの条件は、画像生成ソフトウェアがランダムに対象物を生成するように設定することも可能だが、これに限らず、画像処理装置１０の管理者が任意に設定してもよい。次に、学習装置は、設定された条件に従い、仮想空間上に対象物を配置する（ステップＳ１０３）。次に、学習装置は、例えば、複数の対象物が配置された仮想空間をキャプチャすることにより、配置された対象物の画像、位置及び姿勢を取得する（ステップＳ１０４）。第１の実施形態において、対象物の位置及び姿勢は、例えば三次元座標（ｘ，ｙ，ｚ）により示され、対象物の姿勢は、物体の姿勢又は回転状態を表す四元数であるクオタニオン（ｑｘ，ｑｙ，ｑｚ，ｑｗ）により示される。図５は、複数の対象物が配置された仮想空間のキャプチャ画像の一例を示す図である。図５に示すように、仮想空間上には、複数の対象物Ｗ１ａ及びＷ１ｂが、それぞれランダムな位置及び姿勢にて配置される。また、以下において、ランダムに配置された対象物の画像を、「バラ積み画像」と表記する場合がある。次に、学習装置は、取得された画像と、配置された対象物の位置及び姿勢を記憶回路１４に保存する（ステップＳ１０５）。さらに、学習装置は、ステップＳ１０２からステップＳ１０５をあらかじめ定められた回数繰り返す（ステップＳ１０６）。なお、ここで記憶回路１４に保存される、上記ステップによって取得された画像と対象物が配置された位置及び姿勢との組み合わせを「教師データ」と表記する場合がある。ステップＳ１０２からステップＳ１０５までの処理を所定の回数繰り返すことにより、学習処理を繰り返し行うために十分な数の教師データが生成される。

そして、学習装置は、生成された教師データを用いて所定の回数学習処理を行うことにより、ニューラルネットワーク構造１４１ａにおいて重み付けとして用いられる学習パラメータ１４１ｂを生成し、又は更新する（ステップＳ１０７）。このように、三次元データが取得された対象物を仮想空間上に配置することにより、学習処理に用いられる、対象物の画像と、位置及び姿勢の組み合わせとを含む教師データを、容易に生成することができる。

図２に戻って、処理回路１５は、ＣＰＵ（Central Processing Unit）等のプロセッサにより実現される。処理回路１５は、画像処理装置１０全体を制御する。処理回路１５は、記憶回路１４に記憶された各種のプログラムを読み取り、読み取ったプログラムを実行することで、各種の処理を実行する。例えば、処理回路１５は、画像取得部１５１と、推定部１５２と、ロボット制御部１５３とを有することとなる。

画像取得部１５１は、例えば、通信Ｉ／Ｆ１１を通じて、バラ積み画像を取得し、推定部１５２に出力する。画像取得部１５１は、取得部の一例である。

推定部１５２は、出力されたバラ積み画像を用いて、対象物の位置及び姿勢を推定する。推定部１５２は、例えば、学習モデル１４１を用いて、対象物の画像に対する推定処理を行い、推定結果をロボット制御部１５３に出力する。なお、推定部１５２は、例えば、対象物が配置されるトレイ等の位置及び姿勢をさらに推定してもよい。トレイの位置及び姿勢を推定する構成については、後に説明する。

ロボット制御部１５３は、推定された対象物の位置及び姿勢に基づいて、ロボットアーム３０を制御する信号を生成し、通信Ｉ／Ｆ１１を通じてロボットアーム３０に出力する。ロボット制御部１５３は、例えば、現在のロボットアーム３０の位置及び姿勢に関する情報を取得する。そして、ロボット制御部１５３は、現在のロボットアーム３０の位置及び姿勢と、推定された対象物の位置及び姿勢に応じて、ロボットアーム３０が対象物を把持する際に移動する軌道を生成する。なお、ロボット制御部１５３は、トレイ等の位置及び姿勢に基づいて、ロボットアーム３０が移動する軌道を修正してもよい。

図６は、ロボットアームの制御に関する処理の一例を示す図である。図６に示すように、推定部１５２は、バラ積み画像から、ターゲットとなる対象物の位置及び姿勢を推定する。同様に、推定部１５２は、バラ積み画像から、対象物が配置されたトレイ等の位置及び姿勢を推定してもよい。ロボット制御部１５３は、推定された対象物及びトレイ等のモデルに基づいて、ロボットアーム３０の手先の位置の座標及び姿勢を算出し、ロボットアーム３０の軌道を生成する。

なお、ロボット制御部１５３は、ロボットアーム３０が対象物を把持した後に、把持した対象物を整列させるためのロボットアーム３０の動作を制御する信号を、さらに出力してもよい。図７は、ロボットアームの制御に関する処理の別の一例を示す図である。図７に示すように、画像取得部１５１は、カメラ２０により撮影された、ロボットアーム３０により把持された対象物を撮影した画像を取得する。推定部１５２は、ターゲットとなる、ロボットアーム３０に把持された対象物の位置及び姿勢を推定し、ロボット制御部１５３に出力する。また、画像取得部１５１は、カメラ２０により撮影された、把持された対象物の移動先となる、整列先のトレイ等の画像をさらに取得してもよい。その際、画像取得部１５１は、整列先のトレイ等に既に整列された対象物の画像（整列済み画像）をさらに取得する。推定部１５２は、整列先の画像、又は整列済み画像から、整列先となるトレイ等の位置及び姿勢、並びに既に整列済みである対象物の位置及び姿勢を推定する。そして、ロボット制御部１５３は、推定された、ロボットアーム３０に把持された対象物の位置及び姿勢、整列先となるトレイ等の位置及び姿勢、並びに既に整列済みである対象物の位置及び姿勢に基づいて、ロボットアーム３０の手先の位置の座標及び姿勢を算出し、対象物を整列させる際のロボットアーム３０の軌道を生成する。

次に、推定部１５２における推定処理について説明する。推定部１５２は、例えば公知のダウンサンプリング、アップサンプリング、スキップコネクションを持つ物体検出モデルを応用したモデルを用いて、対象物の特徴量を抽出する。図８は、第１の実施形態に係る検出モデルの一例を示す図である。図８に示す物体検出モデルにおいて、ｄ１層は、例えばバラ積み画像Ｐ１（３２０×３２０ピクセル）を畳み込みニューラルネットワークｂ１を介してダウンサンプリングによって縦横４０×４０グリッドに区分し、各グリッドについて複数の特徴量（例えば２５６種類）を算出する。また、ｄ１層より下位の層にあたるｄ２層は、ｄ１層で区分されたグリッドを、ｄ１層よりも粗く（例えば２０×２０グリッドに）区分して、各グリッドの特徴量を算出する。同様に、ｄ１層及びｄ２層よりも下位の層にあたるｄ３層及びｄ４層は、ｄ２層で区分されたグリッドを、それぞれより粗く区分する。ｄ４層はアップサンプリングによって、より精細な区分で特徴量を算出し、同時にスキップコネクションｓ３によりｄ３層の特徴量と統合してｕ３層を生成する。スキップコネクションは、単純な加算、特徴量の連結でも良く、ｄ３層の特徴量に対して畳み込みニューラルネットワークのような変換が加えられていても良い。同様にｕ３層をアップサンプリングして算出した特徴量とｄ２層の特徴量をスキップコネクションｓ２により統合してｕ２層を生成する。さらに同様にｕ１層を生成する。この結果、ｕ１層においては、ｄ１層と同様に、４０×４０グリッドに区分された各グリッドの特徴量が算出される。

図９は、第１の実施形態に係る特徴抽出層（ｕ１）が出力する特徴マップの一例を示す図である。図９に示す特徴マップの水平方向は、４０×４０のグリッドに区分されたバラ積み画像Ｐ１の水平方向の各グリッドを示し、垂直方向は、垂直方向の各グリッドを示す。また、図９に示す特徴マップの奥行方向は、各グリッドにおける特徴量の要素を示す。

図１０は、第１の実施形態に係る対象物の位置及び姿勢の推定結果の一例を示す図である。図１０に示すように、推定部は、対象物の位置を示す２次元座標（Δｘ，Δｙ）、対象物の姿勢を示すクオタニオン（ｑｘ，ｑｙ，ｑｚ，ｑｗ）、及びクラス分類のスコア（Ｃ０，Ｃ１，…，Ｃｎ）を出力する。なお、第１の実施形態においては、推定結果として、対象物の位置を示す座標のうち、カメラ２０から対象物までの距離を示す深度の値は算出されない。深度の値を算出する構成については、後に説明する。なお、ここで言う深度とは、カメラの光軸に平行なｚ軸方向における、カメラのｚ座標から対象物のｚ座標までの距離をいう。なお、クラス分類のスコアはグリッドごとに出力される値であって、そのグリッドに対象物の中心点が含まれている確率である。例えば、対象物の種類がｎ種類だった場合に、これに“対象物の中心点が含まれていない確率”を加えてｎ＋１個のクラス分類のスコアが出力される。例えば、対象物となるワークが１種類のみの場合は、２個のクラス分類のスコアが出力される。また、同一グリッド内に複数の対象物が存在する場合、より上に積まれている物体の確率を出力する。

図１０において、点ＣはグリッドＧｘの中心を示し、座標（Δｘ，Δｙ）である点ΔＣは、例えば、検出された対象物の中心点を示す。すなわち、図１０に示す例において、対象物の中心は、グリッドＧｘの中心点Ｃから、ｘ軸方向にΔｘ、ｙ軸方向にΔｙだけオフセットしている。

なお、図１０に代えて、図１１に示すように対象物の中心以外の任意の点ａ、ｂ、ｃを設定し、グリッドＧｘの中心の点Ｃからの任意の点ａ、ｂ、ｃの座標（Δｘ１，Δｙ１、Δｚ１、Δｘ２，Δｙ２、Δｚ２、ｘ３，Δｙ３、Δｚ３）を出力してもよい。なお、任意の点は対象物のどの位置に設定してもよく、１点でも複数の点でも構わない。

なお、対象物の大きさに比してグリッドの区分が粗いと、複数の対象物が一つのグリッドに入ってしまい、各対象物の特徴が交じり合って誤検出するおそれがあるため、第１の実施形態においては、最終的に生成された精細な（４０×４０グリッドの）特徴量が算出される特徴抽出層（ｕ１）の出力である特徴マップのみ利用する。

また、第１の実施形態においては、例えばステレオカメラを用いて、左右２種類の画像を撮影することにより、カメラ２０から対象物までの距離を特定する。図１２は、第１の実施形態に係るステレオカメラにより撮影されたバラ積み画像の一例を示す図である。図１２に示すように、画像取得部１５１は、左画像Ｐ１Ｌ及び右画像Ｐ１Ｒの２種類のバラ積み画像を取得する。また、推定部１５２は、左画像Ｐ１Ｌ及び右画像Ｐ１Ｒの両方に対して、学習モデル１４１を用いた推定処理を行う。なお、推定処理を行う際に、左画像Ｐ１Ｌに対して用いられる学習パラメータ１４１ｂの一部、またはすべてを、右画像Ｐ１Ｒに対する重み付けとして共有してもよい。なお、ステレオカメラではなく、１台のカメラを用い、カメラの位置をずらして、２か所で左右２種の画像に相当する画像を撮影してもよい。

そこで、第１の実施形態における推定部１５２は、左画像Ｐ１Ｌの特徴量と、右画像Ｐ１Ｒの特徴量とを組み合わせたマッチングマップを用いることにより、対象物の誤認識を抑制する。第１の実施形態において、マッチングマップは、各特徴量について、右画像Ｐ１Ｒと左画像Ｐ１Ｌとで特徴量の相関の強弱を示す。すなわち、マッチングマップを用いることにより、各画像における特徴量に着目して、左画像Ｐ１Ｌと右画像Ｐ１Ｒとのマッチングを図ることができる。

図１３は、第１の実施形態に係るバラ積み画像とマッチングマップとの関係の一例を示す図である。図１３に示すように、左画像Ｐ１Ｌを基準とし、右画像Ｐ１Ｒとの対応をとったマッチングマップＭＬにおいては、左画像Ｐ１Ｌの対象物Ｗ１Ｌの中心点が含まれるグリッドの特徴量と、右画像Ｐ１Ｒに含まれる特徴量との相関が最も大きいグリッドＭＬａが強調して表示される。同様に、右画像Ｐ１Ｒを基準とし、左画像Ｐ１Ｌとの対応をとったマッチングマップＭＲにおいても、右画像Ｐ１Ｒの対象物Ｗ１Ｒの中心点が含まれるグリッドの特徴量と、左画像Ｐ１Ｌに含まれる特徴量との相関が最も大きいグリッドＭＲａが強調して表示される。また、マッチングマップＭＬにおいて相関が最も大きいグリッドＭＬａは、左画像Ｐ１Ｌにおける対象物Ｗ１Ｌが位置するグリッドに対応し、マッチングマップＭＲにおいて相関が最も大きいグリッドＭＲａは、右画像Ｐ１Ｒにおける対象物Ｗ１Ｒが位置するグリッドに対応する。これにより、左画像Ｐ１Ｌにおいて対象物Ｗ１Ｌが位置するグリッドと、右画像Ｐ１Ｒにおいて対象物Ｗ１Ｒが位置するグリッドとが一致することを特定できる。すなわち、図１２においては、一致するグリッドは、左画像Ｐ１ＬのグリッドＧ１Ｌと、右画像Ｐ１ＲのグリッドＧ１Ｒである。これにより、左画像Ｐ１Ｌにおける対象物Ｗ１ＬのＸ座標と、右画像Ｐ１Ｒにおける対象物Ｗ１ＲのＸ座標とに基づいて、対象物Ｗ１に対する視差を特定できるので、カメラ２０から対象物Ｗ１までの深度ｚを特定することができる。

図１４は、第１の実施形態に係る推定処理の一例を示すフローチャートである。また、図１５は、第１の実施形態に係る推定処理の一例を示す図である。以降、図１２～図１５を用いて説明する。まず、画像取得部１５１は、図１２に示す左画像Ｐ１Ｌ及び右画像Ｐ１Ｒのように、対象物の左右の各画像を取得する（ステップＳ２０１）。次に、推定部１５２は、左右の各画像の水平方向の各グリッドについて、特徴量を算出する。ここで、上で述べたように、各画像を４０×４０のグリッドに区分し、各グリッドについて２５６個の特徴量を算出する場合、各画像の水平方向において、式（１）の左辺第１項及び第２項に示すような４０行４０列の行列が得られる。

次に、推定部１５２は、図１５に示す処理ｍを実行する。まず、推定部１５２は、例えば、式（１）により、左画像Ｐ１Ｌから抽出した特定の列の特徴量に、右画像Ｐ１Ｒから抽出した同じ列の特徴量を転置したものの行列積を計算する。式（１）において、左辺第１項は、左画像Ｐ１Ｌの特定の列の水平方向における１番目のグリッドにおける各特徴量ｌ１１乃至ｌ１ｎが、それぞれ行方向に並んでいる。一方、式（１）の左辺第２項においては、右画像Ｐ１Ｒ特定の列の水平方向における１番目のグリッドの各特徴量ｒ１１乃至ｒ１ｎが、それぞれ列方向に並んでいる。すなわち、左辺第２項の行列は、右画像Ｐ１Ｒの特定の列の水平方向にグリッドの各特徴量ｒ１１乃至ｒ１ｍがそれぞれ行方向に並んだ行列を転置したものである。また、式（１）の右辺は、左辺第１項の行列と、左辺第２項の行列の行列積とを計算したものである。式（１）の右辺の１列目は、右画像Ｐ１Ｒから抽出した１グリッド目の特徴量と左画像Ｐ１Ｌから抽出した特定の列の水平方向の各グリッドの特徴量の相関を表し、１行目は、左画像Ｐ１Ｌから抽出した１グリッド目の特徴量と右画像Ｐ１Ｒから抽出した特定の列の水平方向の各グリッドの特徴量の相関を表す。すなわち、式（１）の右辺は、左画像Ｐ１Ｌの各グリッドの特徴量と、右画像Ｐ１Ｒの各グリッドの特徴量との相関マップを示す。なお、式（１）において、添字「ｍ」は各画像の水平方向のグリッドの位置を示し、添え字「ｎ」は各グリッドにおける特徴量の番号を示す。すなわち、ｍは１～４０であり、ｎは１～２５６である。

次に、推定部１５２は、算出された相関マップを用いて、行列（１）に示すような左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬを算出する。左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬは、例えば、相関マップの行方向に対してＳｏｆｔｍａｘ関数を適用することにより算出される。これにより、水平方向の相関の値を正規化している。つまり、行方向の値をすべて合計すると１になるよう変換している。

次に、推定部１５２は、算出されたマッチングマップＭＬに、例えば、式（２）により、右画像Ｐ１Ｒから抽出された特徴量を畳み込む。式（２）の左辺第１項は、行列（１）を転置したものであり、左辺第２項は、式（１）の左辺第１項の行列である。なお、本発明では、相関を取るための特徴量と、マッチングマップに畳み込むための特徴量とは同じものを用いているが、抽出された特徴量から畳み込みニューラルネットワーク等によって、新たに相関を取るための特徴量と畳み込むための特徴量を別々に生成しても良い。

次に、推定部１５２は式（２）で得られた特徴量を左画像Ｐ１Ｌから抽出された特徴量に連結させて、例え畳み込みニューラルネットワークによって新たな特徴量を生成する。このように、左右の画像の特徴量を統合することにより、位置、姿勢の推定精度が向上する。なお、図１５における処理ｍは複数回繰り返しても良い。

次に、推定部１５２はここで得られた特徴量から、例えば畳み込みニューラルネットワークによって位置、姿勢及びクラス分類を推定する。あわせて、推定部１５２は、算出された相関マップを用いて、行列（２）に示すような右画像Ｐ１Ｒに対する左画像Ｐ１ＬのマッチングマップＭＲを算出する(ステップＳ２０２)。右画像Ｐ１Ｒに対する左画像Ｐ１ＬのマッチングマップＭＲも、左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬと同様に、例えば、相関マップの行方向に対してＳｏｆｔｍａｘ関数を適用することにより算出される。

次に、推定部１５２は、算出されたマッチングマップに、例えば、式（３）により、左画像Ｐ１Ｌの特徴量を畳み込む。式（３）の左辺第１項は、行列（２）であり、左辺第２項は、式（１）の左辺第２項の行列の転置前のものである。

次に推定部１５２は、あらかじめ設定しておいた閾値と、左画像Ｐ１Ｌから推定したターゲット（対象物）のクラス分類の推定結果が一番大きいグリッドを選択して比較する（ステップＳ２０３）。閾値をこえていなかった場合は、ターゲットが無いとして終了する。閾値をこえていた場合は、そのグリッドに対する右画像Ｐ１ＲとのマッチングマップＭＬから、一番大きい値のグリッドを選択する（ステップＳ２０４）。

次に、選択したグリッドにおいて、右画像Ｐ１Ｒのターゲットのクラス分類の推定結果とあらかじめ設定しておいた閾値とを比較する（ステップＳ２０８）。閾値をこえていた場合は、そのグリッドに対する左画像Ｐ１ＬとのマッチングマップＭＬから一番大きい値のグリッドを選択する（ステップＳ２０９）。閾値を超えていない場合は、左画像Ｐ１Ｌの推定結果から選択したグリッドのクラス分類スコアを０にしてステップＳ２０３へ戻る（ステップＳ２０７）。

次に、ステップＳ２０９にて選択したマッチングマップＭＬのグリッドと、ステップＳ２０４にて左画像Ｐ１Ｌの推定結果から選択したグリッドが等しいかを比較する（ステップＳ２１０）。グリッドが異なる場合は、ステップＳ２０４にて左画像Ｐ１Ｌの推定結果から選択したグリッドのクラス分類スコアを０にして、ステップＳ２０３のグリッドの選択に戻る（ステップＳ２０７）。最終的に、左画像Ｐ１Ｌ及び右画像Ｐ１Ｒで選択したグリッドの位置情報（例えば、図１における水平方向ｘの値）の検出結果から視差を算出する（ステップＳ２１１）。

次に、ステップＳ２１１から算出した視差をもとに、ターゲットの深度を算出する（ステップＳ２１２）。なお、複数のターゲットに対して深度を算出する場合は、ステップＳ２１１の後、左画像Ｐ１Ｌ及び右画像Ｐ１Ｒの推定結果から選択したグリッドのクラス分類スコアを０にしてからステップＳ２０３に戻り、以後、ステップＳ２１２までを繰り返せば良い。

以上述べたように、第１の実施形態における画像処理装置１０は、取得部と、推定部と、を備える。取得部は、バラ積みされたワークを撮影した第１の画像及び第２の画像を取得する。推定部は、第１の画像の特徴量と、第２の画像の特徴量とのマッチングマップを生成し、第１の画像と第２の画像それぞれに対してターゲットとなる各ワークの位置と姿勢とクラス分類スコアを推定し、前記アテンションマップを用いたマッチング結果と位置の推定結果に基づいて、ワーク位置を推定することにより、ステレオカメラからワークまでの深度を算出する。これにより、物体認識における誤検出を抑制できる。

（変形例）
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて種々の変更が可能である。例えば、第１の実施形態では、対象物（ワーク）が１種類である場合について説明したが、これに限られず、画像処理装置１０が、複数のワークの種類を検出するような構成であってもよい。また、画像処理装置１０は、対象物を検出するだけでなく、対象物が配置されたトレイ等の位置や姿勢をさらに検出してもよい。図１６は、変形例に係るトレイを含むバラ積み画像の一例を示す図である。図１６に示す例において、画像処理装置１０は、対象物が配置されたトレイの位置及び姿勢を特定することにより、ロボットアーム３０がトレイに衝突しないような軌道を設定することができる。なお、検出する対象であるトレイは、障害物の一例である。画像処理装置１０は、トレイ以外のその他の障害物となるものを検出するような構成であってもよい。

また、画像処理装置１０が、例えばバラ積み画像を４０×４０のグリッドに区分する例について説明したが、これに限られず、より細かな、あるいは、より粗いグリッドに区分して対象物を検出してもよく、また画素単位で推定処理を行ってもよい。これにより、画像処理装置１０は、より精度よくカメラと対象物との距離を算出することができる。図１７は、変形例に係る位置ずれ推定モデルの一例を示す図である。図１７に示すように、画像処理装置１０は、左画像Ｐ１Ｌと右画像Ｐ１Ｒのうち、推定位置周辺のグリッドよりもサイズが小さい部分を切り出して結合してもよい。そして、第１の実施形態における推定処理と同様に推定処理を行い、処理結果に基づいて位置ずれを推定してもよい。

また、細かな、あるいは、粗いグリッド単位や画素単位で推定処理を行う場合に、第１の実施形態と同様に、左画像Ｐ１Ｌと右画像Ｐ１Ｒとで、それぞれ個別に推定処理を行ってもよい。図１８は、変形例に係る位置ずれ推定モデルの別の一例を示す図である。図１８に示す例では、画像処理装置１０は、左画像Ｐ１Ｌと右画像Ｐ１Ｒとに対し、それぞれ別々に推定処理を行う。この場合においても、画像処理装置１０は、第１の実施形態と同様に、それぞれの推定処理を行う際に、左画像Ｐ１Ｌに対する重み付けを、右画像Ｐ１Ｒに対する重み付けと共有してもよい。

また、以上述べた推定処理を、バラ積みされたワーク４１、４２の画像に対してではなく、ロボットアーム３０や、ロボットアーム３０に保持されたワーク４１、４２、又は整列先に整列されたワーク４１、４２に対して行ってもよい。

また、上記実施の形態により本発明が限定されるものではない。上述した各構成要素を適宜組み合わせて構成したものも本発明に含まれる。また、さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、上記の実施の形態に限定されるものではなく、様々な変更が可能である。

１物体把持システム
１０画像処理装置
２０カメラ
３０ロボットアーム
４１、４２ワーク

Claims

バラ積みされたワークを撮影した第１の画像及び第２の画像を取得する取得部と、
前記第１の画像の特徴量と、前記第２の画像の特徴量とのマッチングマップを生成し、前記第１の画像と前記第２の画像とのそれぞれに対してターゲットとなる各ワークの位置と姿勢とクラス分類スコアとを推定し、前記マッチングマップを用いたマッチング結果と位置の推定結果とに基づいて、前記ワーク位置を推定する推定部と、
を有する画像処理装置。
前記取得部はステレオカメラであり、
前記推定部は、前記ステレオカメラから前記ワークの深度を算出する請求項１に記載の画像処理装置。
前記推定部は、前記第１の画像及び前記第２の画像の少なくともいずれかにおいて、前記ワーク以外の障害物をさらに検出する、請求項１に記載の画像処理装置。
コンピュータが、
バラ積みされたワークを撮影した第１の画像及び第２の画像を取得し、
前記第１の画像の特徴量と、前記第２の画像の特徴量とのマッチングマップを生成し、前記第１の画像と前記第２の画像とのそれぞれに対してターゲットとなる各ワークの位置と姿勢とクラス分類スコアとを推定し、前記マッチングマップを用いたマッチング結果と位置の推定結果とに基づいて、前記ワーク位置を推定する
画像処理方法。