JP2021148493A

JP2021148493A - 対象物３次元データ測定方法、対象物３次元データ測定装置、学習データ生成方法および学習データ生成装置

Info

Publication number: JP2021148493A
Application number: JP2020046409A
Authority: JP
Inventors: 芳宏中野; Yoshihiro Nakano
Original assignee: MinebeaMitsumi Inc
Current assignee: MinebeaMitsumi Inc
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2021-09-27
Anticipated expiration: 2040-03-17
Also published as: JP7474083B2

Abstract

【課題】３次元形状とテクスチャとを含む対象物３次元データを容易に測定する手法を提供すること。【解決手段】実施形態の対象物３次元データ測定方法は、第１の工程と、第２の工程とを備える。前記第１の工程は、可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる前記可視光よりも波長の短い光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物の３次元形状を測定する。前記第２の工程は、前記対象物に対し、可視光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物のテクスチャを測定する。【選択図】図１７

Description

本発明は、対象物３次元データ測定方法、対象物３次元データ測定装置、学習データ生成方法および学習データ生成装置に関する。

バラ積みされた複数の対象物（ワーク）をロボットアームにより把持する物体把持システム等において、対象物を撮影した画像からの対象物の種類や位置・姿勢の認識に畳み込みニューラルネットワーク等の人工知能が用いられる場合がある。人工知能を用いたシステムの適正な利用のためには、膨大な数の学習データによる機械学習が不可欠であり、学習データの準備に要するコストは大きなものとなる。

バラ積みされた複数の対象物を、撮影された画像から正確に認識させるためには、実際の作業台等に置かれた状態に近い画像の学習データを用意しなければならず、対象物の３次元形状データだけでは不十分であり、対象物の表面のテクスチャデータも必要になる。一般には、実際の対象物から測定された３次元形状データやテクスチャデータに加工を施して相当数の学習データを生成している。物体の３次元形状を非接触で精密に計測する手法については、種々の技術が提案されている（特許文献１等を参照）。

特開平７−２８０５３５号公報

しかしながら、実際の対象物から光学的な測定によって３次元形状データとテクスチャデータとを取得する場合、対象物が光沢物であったり黒色物体であったりする場合には測定が困難であった。すなわち、対象物が光沢物であったり黒色物体であったりする場合、測定のために照射した光が正常に戻ってこないため、正確な３次元形状の測定が困難である。

照射した光を正常に反射させるため、対象物の表面にスプレー等により塗料等を付着させ、色や質感を変える場合があるが、そうした場合には対象物の表面のテクスチャが正確に測定できなくなってしまう。そのため、３次元形状の測定とテクスチャの測定とを別工程で行わなければならず、作業工数が増大するとともに、３次元形状とテクスチャとの位置合わせが煩雑になるという問題があった。

本発明は、上記に鑑みてなされたものであって、３次元形状とテクスチャとを含む対象物３次元データを容易に測定する手法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様に係る対象物３次元データ測定方法は、第１の工程と、第２の工程とを備える。前記第１の工程は、可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる前記可視光よりも波長の短い光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物の３次元形状を測定する。前記第２の工程は、前記対象物に対し、可視光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物のテクスチャを測定する。

本発明の一態様に係る対象物３次元データ測定方法は、３次元形状とテクスチャとを含む対象物３次元データを容易に測定することができる。

図１は、物体把持システムの一例を示す外観図である。図２は、物体把持システムの構成の一例を示すブロック図である。図３は、ロボットアームの制御に関する処理の一例を示す図である。図４は、ロボットアームの制御に関する処理の別の一例を示す図である。図５は、検出モデルの一例を示す図である。図６は、特徴検出層（ｕ１）が出力する特徴マップの一例を示す図である。図７は、対象物の位置および姿勢の推定結果の一例を示す図である。図８は、対象物の把持位置の推定結果の別の一例を示す図である。図９は、ステレオカメラにより撮影されたバラ積み画像の一例を示す図である。図１０は、バラ積み画像とマッチングマップとの関係の一例を示す図である。図１１は、推定処理の一例を示すフローチャートである。図１２は、推定処理の一例を示す図である。図１３は、変形例に係るトレイを含むバラ積み画像の一例を示す図である。図１４は、変形例に係る位置ずれ推定モデルの一例を示す図である。図１５は、変形例に係る位置ずれ推定モデルの別の一例を示す図である。図１６は、対象物３次元データの取得（測定）および学習のためのシステムの構成の一例を示すブロック図である。図１７は、対象物３次元データの取得の処理の一例を示すフローチャートである。図１８は、対象物にプロジェクタからＵＶパターンが照射された状態の例を示す図である。図１９は、対象物に可視光が照射された状態の例を示す図である。図２０は、対象物３次元データの取得の処理の別の一例を示すフローチャートである。図２１は、学習データの生成および学習処理の一例を示すフローチャートである。図２２は、対象物の３次元データの一例を示す図である。図２３は、複数の対象物が配置された仮想空間のキャプチャ画像の一例を示す図である。

以下、実施形態に係る対象物３次元データ測定方法、対象物３次元データ測定装置、学習データ生成方法および学習データ生成装置について図面を参照して説明する。なお、この実施形態によりこの発明が限定されるものではない。また、図面における各要素の寸法の関係、各要素の比率などは、現実と異なる場合がある。図面の相互間においても、互いの寸法の関係や比率が異なる部分が含まれている場合がある。また、１つの実施形態や変形例に記載された内容は、原則として他の実施形態や変形例にも同様に適用される。

（物体把持システム）
図１は、物体把持システム１の一例を示す外観図である。図１に示す物体把持システム１は、図示しない画像処理装置１０と、カメラ２０と、ロボットアーム３０とを備える。カメラ２０は、例えば、ロボットアーム３０と、ロボットアーム３０が把持する対象物となる、バラ積みされたワーク４１、４２等との両方を撮影可能な位置に設けられる。カメラ２０は、例えば、ロボットアーム３０と、ワーク４１、４２の画像とを撮影し、画像処理装置１０に出力する。なお、ロボットアーム３０とバラ積みされたワーク４１，４２等とは別々のカメラで撮影してもよい。カメラ２０には、図１に示されるように、例えば公知のステレオカメラ等、複数の画像を撮影できるカメラが用いられる。画像処理装置１０は、カメラ２０から出力された画像を用いて、ワーク４１、４２等の位置および姿勢を推定する。画像処理装置１０は、推定されたワーク４１、４２等の位置および姿勢に基づいて、ロボットアーム３０の動作を制御する信号を出力する。ロボットアーム３０は、画像処理装置１０から出力された信号に基づいて、ワーク４１、４２等を把持する動作を行う。なお、図１においては、複数の異なる種類のワーク４１、４２等が開示されているが、ワークの種類は１種類であってもよい。ここでは、ワークが１種類である場合について説明する。また、ワーク４１、４２等は、位置および姿勢が不規則であるように配置されている。図１に示すように、例えば、複数のワークが上面視において重なるように配置されていてもよい。また、ワーク４１、４２は、対象物の一例である。

図２は、物体把持システム１の構成の一例を示すブロック図である。図２に示すように、画像処理装置１０は、カメラ２０およびロボットアーム３０と、ネットワークＮＷを通じて通信可能に接続されている。また、図２に示すように、画像処理装置１０は、通信Ｉ／Ｆ（インターフェース）１１と、入力Ｉ／Ｆ１２と、ディスプレイ１３と、記憶回路１４と、処理回路１５とを備える。

通信Ｉ／Ｆ１１は、ネットワークＮＷを通じた外部装置とのデータ入出力の通信を制御する。例えば、通信Ｉ／Ｆ１１は、ネットワークカードやネットワークアダプタ、ＮＩＣ（Network Interface Controller）等によって実現され、カメラ２０から出力される画像のデータを受信するとともに、ロボットアーム３０に出力する信号を送信する。

入力Ｉ／Ｆ１２は、処理回路１５に接続され、画像処理装置１０の管理者（不図示）から受け付けた入力操作を電気信号に変換して処理回路１５に出力する。例えば、入力Ｉ／Ｆ１２は、スイッチボタン、マウス、キーボード、タッチパネル等である。

ディスプレイ１３は、処理回路１５に接続され、処理回路１５から出力される各種情報および各種画像データを表示する。例えば、ディスプレイ１３は、液晶モニタやＣＲＴ（Cathode Ray Tube）モニタ、タッチパネル等によって実現される。

記憶回路１４は、例えば、メモリ等の記憶装置により実現される。記憶回路１４には、処理回路１５により実行される各種のプログラムが記憶されている。また、記憶回路１４には、処理回路１５により各種のプログラムが実行される際に用いられる各種のデータが一時的に記憶される。記憶回路１４は、機械（深層）学習モデル１４１を有する。さらに、機械（深層）学習モデル１４１はニューラルネットワーク構造１４１ａと学習パラメータ１４１ｂを備えている。ニューラルネットワーク構造１４１ａは、例えば、図５の畳み込みニューラルネットワークｂ１のような公知のネットワークを応用したもので、後述する図１２に示されるネットワーク構造である。学習パラメータ１４１ｂは、例えば、畳み込みニューラルネットワークの畳み込みフィルタの重みであり、対象物の位置および姿勢を推定するために学習され、最適化されるパラメータである。ニューラルネットワーク構造１４１ａは、推定部１５２に備えられていても構わない。なお、本発明における機械（深層）学習モデル１４１は学習済みモデルを例として説明するが、これに限定されない。なお、以下において、機械（深層）学習モデル１４１を、単に「学習モデル１４１」と表記する場合がある。

学習モデル１４１は、カメラ２０から出力された画像から、ワークの位置および姿勢を推定する処理に用いられる。学習モデル１４１は、例えば、複数のワークの位置および姿勢と、当該複数のワークを撮影した画像とを教師データして学習することにより生成される。なお、ここでは、学習モデル１４１が、例えば、処理回路１５により生成されるが、これに限られず、外部のコンピュータにより生成されてもよい。

処理回路１５は、ＣＰＵ（Central Processing Unit）等のプロセッサにより実現される。処理回路１５は、画像処理装置１０全体を制御する。処理回路１５は、記憶回路１４に記憶された各種のプログラムを読み取り、読み取ったプログラムを実行することで、各種の処理を実行する。例えば、処理回路１５は、画像取得部１５１と、推定部１５２と、ロボット制御部１５３とを有することとなる。

画像取得部１５１は、例えば、通信Ｉ／Ｆ１１を通じて、バラ積み画像を取得し、推定部１５２に出力する。画像取得部１５１は、取得部の一例である。

推定部１５２は、出力されたバラ積み画像を用いて、対象物の位置および姿勢を推定する。推定部１５２は、例えば、学習モデル１４１を用いて、対象物の画像に対する推定処理を行い、推定結果をロボット制御部１５３に出力する。なお、推定部１５２は、例えば、対象物が配置されるトレイ等の位置および姿勢をさらに推定してもよい。トレイの位置および姿勢を推定する構成については、後に説明する。

ロボット制御部１５３は、推定された対象物の位置および姿勢に基づいて、ロボットアーム３０を制御する信号を生成し、通信Ｉ／Ｆ１１を通じてロボットアーム３０に出力する。ロボット制御部１５３は、例えば、現在のロボットアーム３０の位置および姿勢に関する情報を取得する。そして、ロボット制御部１５３は、現在のロボットアーム３０の位置および姿勢と、推定された対象物の位置および姿勢に応じて、ロボットアーム３０が対象物を把持する際に移動する軌道を生成する。なお、ロボット制御部１５３は、トレイ等の位置および姿勢に基づいて、ロボットアーム３０が移動する軌道を修正してもよい。

図３は、ロボットアームの制御に関する処理の一例を示す図である。図３に示すように、推定部１５２は、バラ積み画像から、ターゲットとなる対象物の位置および姿勢を推定する。同様に、推定部１５２は、バラ積み画像から、対象物が配置されたトレイ等の位置および姿勢を推定してもよい。ロボット制御部１５３は、推定された対象物およびトレイ等のモデルに基づいて、ロボットアーム３０の手先の位置の座標および姿勢を算出し、ロボットアーム３０の軌道を生成する。

なお、ロボット制御部１５３は、ロボットアーム３０が対象物を把持した後に、把持した対象物を整列させるためのロボットアーム３０の動作を制御する信号を、さらに出力してもよい。図４は、ロボットアームの制御に関する処理の別の一例を示す図である。図４に示すように、画像取得部１５１は、カメラ２０により撮影された、ロボットアーム３０により把持された対象物を撮影した画像を取得する。推定部１５２は、ターゲットとなる、ロボットアーム３０に把持された対象物の位置および姿勢を推定し、ロボット制御部１５３に出力する。また、画像取得部１５１は、カメラ２０により撮影された、把持された対象物の移動先となる、整列先のトレイ等の画像をさらに取得してもよい。その際、画像取得部１５１は、整列先のトレイ等に既に整列された対象物の画像（整列済み画像）をさらに取得する。推定部１５２は、整列先の画像、または整列済み画像から、整列先となるトレイ等の位置および姿勢、並びに既に整列済みである対象物の位置および姿勢を推定する。そして、ロボット制御部１５３は、推定された、ロボットアーム３０に把持された対象物の位置および姿勢、整列先となるトレイ等の位置および姿勢、並びに既に整列済みである対象物の位置および姿勢に基づいて、ロボットアーム３０の手先の位置の座標および姿勢を算出し、対象物を整列させる際のロボットアーム３０の軌道を生成する。

次に、推定部１５２における推定処理について説明する。推定部１５２は、例えば公知のダウンサンプリング、アップサンプリング、スキップコネクションを持つ物体検出モデルを応用したモデルを用いて、対象物の特徴量を抽出する。図５は、検出モデルの一例を示す図である。図５に示す物体検出モデルにおいて、ｄ１層は、例えばバラ積み画像Ｐ１（３２０×３２０ピクセル）を畳み込みニューラルネットワークｂ１を介してダウンサンプリングによって縦横４０×４０グリッドに区分し、各グリッドについて複数の特徴量（例えば２５６種類）を算出する。また、ｄ１層より下位の層にあたるｄ２層は、ｄ１層で区分されたグリッドを、ｄ１層よりも粗く（例えば２０×２０グリッドに）区分して、各グリッドの特徴量を算出する。同様に、ｄ１層およびｄ２層よりも下位の層にあたるｄ３層およびｄ４層は、ｄ２層で区分されたグリッドを、それぞれより粗く区分する。ｄ４層はアップサンプリングによって、より精細な区分で特徴量を算出し、同時にスキップコネクションｓ３によりｄ３層の特徴量と統合してｕ３層を生成する。スキップコネクションは、単純な加算、特徴量の連結でも良く、ｄ３層の特徴量に対して畳み込みニューラルネットワークのような変換が加えられていても良い。同様にｕ３層をアップサンプリングして算出した特徴量とｄ２層の特徴量をスキップコネクションｓ２により統合してｕ２層を生成する。さらに同様にｕ１層を生成する。この結果、ｕ１層においては、ｄ１層と同様に、４０×４０グリッドに区分された各グリッドの特徴量が算出される。

図６は、特徴検出層（ｕ１）が出力する特徴マップの一例を示す図である。図６に示す特徴マップの水平方向は、４０×４０のグリッドに区分されたバラ積み画像Ｐ１の水平方向の各グリッドを示し、垂直方向は、垂直方向の各グリッドを示す。また、図６に示す特徴マップの奥行方向は、各グリッドにおける特徴量の要素を示す。

図７は、対象物の位置および姿勢の推定結果の一例を示す図である。図７に示すように、推定部は、対象物の位置を示す２次元座標（Δｘ，Δｙ）、対象物の姿勢を示すクオタニオン（ｑｘ，ｑｙ，ｑｚ，ｑｗ）、およびクラス分類のスコア（Ｃ０，Ｃ１，…，Ｃｎ）を出力する。なお、ここでは、推定結果として、対象物の位置を示す座標のうち、カメラ２０から対象物までの距離を示す深度の値は算出されない。深度の値を算出する構成については、後に説明する。なお、ここで言う深度とは、カメラの光軸に平行なｚ軸方向における、カメラのｚ座標から対象物のｚ座標までの距離をいう。なお、クラス分類のスコアはグリッドごとに出力される値であって、そのグリッドに対象物の中心点が含まれている確率である。例えば、対象物の種類がｎ種類だった場合に、これに“対象物の中心点が含まれていない確率”を加えてｎ＋１個のクラス分類のスコアが出力される。例えば、対象物となるワークが１種類のみの場合は、２個のクラス分類のスコアが出力される。また、同一グリッド内に複数の対象物が存在する場合、より上に積まれている物体の確率を出力する。

図７において、点ＣはグリッドＧｘの中心を示し、座標（Δｘ，Δｙ）である点ΔＣは、例えば、検出された対象物の中心点を示す。すなわち、図７に示す例において、対象物の中心は、グリッドＧｘの中心点Ｃから、ｘ軸方向にΔｘ、ｙ軸方向にΔｙだけオフセットしている。

なお、図７に代えて、図８に示すように対象物の中心以外の任意の点ａ、ｂ、ｃを設定し、グリッドＧｘの中心の点Ｃからの任意の点ａ、ｂ、ｃの座標（Δｘ１，Δｙ１、Δｚ１、Δｘ２，Δｙ２、Δｚ２、ｘ３，Δｙ３、Δｚ３）を出力してもよい。なお、任意の点は対象物のどの位置に設定してもよく、１点でも複数の点でも構わない。

なお、対象物の大きさに比してグリッドの区分が粗いと、複数の対象物が一つのグリッドに入ってしまい、各対象物の特徴が交じり合って誤検出するおそれがあるため、ここでは、最終的に生成された精細な（４０×４０グリッドの）特徴量が算出される特徴抽出層（ｕ１）の出力である特徴マップのみ利用する。

また、ここでは、例えばステレオカメラを用いて、左右２種類の画像を撮影することにより、カメラ２０から対象物までの距離を特定する。図９は、ステレオカメラにより撮影されたバラ積み画像の一例を示す図である。図９に示すように、画像取得部１５１は、左画像Ｐ１Ｌおよび右画像Ｐ１Ｒの２種類のバラ積み画像を取得する。また、推定部１５２は、左画像Ｐ１Ｌおよび右画像Ｐ１Ｒの両方に対して、学習モデル１４１を用いた推定処理を行う。なお、推定処理を行う際に、左画像Ｐ１Ｌに対して用いられる学習パラメータ１４１ｂの一部、またはすべてを、右画像Ｐ１Ｒに対する重み付けとして共有してもよい。なお、ステレオカメラではなく、１台のカメラを用い、カメラの位置をずらして、２か所で左右２種の画像に相当する画像を撮影してもよい。

そこで、ここでは、推定部１５２は、左画像Ｐ１Ｌの特徴量と、右画像Ｐ１Ｒの特徴量とを組み合わせたマッチングマップを用いることにより、対象物の誤認識を抑制する。マッチングマップは、各特徴量について、右画像Ｐ１Ｒと左画像Ｐ１Ｌとで特徴量の相関の強弱を示す。すなわち、マッチングマップを用いることにより、各画像における特徴量に着目して、左画像Ｐ１Ｌと右画像Ｐ１Ｒとのマッチングを図ることができる。

図１０は、バラ積み画像とマッチングマップとの関係の一例を示す図である。図１０に示すように、左画像Ｐ１Ｌを基準とし、右画像Ｐ１Ｒとの対応をとったマッチングマップＭＬにおいては、左画像Ｐ１Ｌの対象物Ｗ１Ｌの中心点が含まれるグリッドの特徴量と、右画像Ｐ１Ｒに含まれる特徴量との相関が最も大きいグリッドＭＬａが強調して表示される。同様に、右画像Ｐ１Ｒを基準とし、左画像Ｐ１Ｌとの対応をとったマッチングマップＭＲにおいても、右画像Ｐ１Ｒの対象物Ｗ１Ｒの中心点が含まれるグリッドの特徴量と、左画像Ｐ１Ｌに含まれる特徴量との相関が最も大きいグリッドＭＲａが強調して表示される。また、マッチングマップＭＬにおいて相関が最も大きいグリッドＭＬａは、左画像Ｐ１Ｌにおける対象物Ｗ１Ｌが位置するグリッドに対応し、マッチングマップＭＲにおいて相関が最も大きいグリッドＭＲａは、右画像Ｐ１Ｒにおける対象物Ｗ１Ｒが位置するグリッドに対応する。これにより、左画像Ｐ１Ｌにおいて対象物Ｗ１Ｌが位置するグリッドと、右画像Ｐ１Ｒにおいて対象物Ｗ１Ｒが位置するグリッドとが一致することを特定できる。すなわち、図９においては、一致するグリッドは、左画像Ｐ１ＬのグリッドＧ１Ｌと、右画像Ｐ１ＲのグリッドＧ１Ｒである。これにより、左画像Ｐ１Ｌにおける対象物Ｗ１ＬのＸ座標と、右画像Ｐ１Ｒにおける対象物Ｗ１ＲのＸ座標とに基づいて、対象物Ｗ１に対する視差を特定できるので、カメラ２０から対象物Ｗ１までの深度ｚを特定することができる。

図１１は、推定処理の一例を示すフローチャートである。また、図１２は、推定処理の一例を示す図である。以降、図９〜図１２を用いて説明する。まず、画像取得部１５１は、図９に示す左画像Ｐ１Ｌおよび右画像Ｐ１Ｒのように、対象物の左右の各画像を取得する（ステップＳ２０１）。次に、推定部１５２は、左右の各画像の水平方向の各グリッドについて、特徴量を算出する。ここで、上で述べたように、各画像を４０×４０のグリッドに区分し、各グリッドについて２５６個の特徴量を算出する場合、各画像の水平方向において、式（１）の左辺第１項および第２項（第１項の行列と第２項の行列の積）に示すような４０行４０列の行列が得られる。

次に、推定部１５２は、図１２に示す処理ｍを実行する。まず、推定部１５２は、例えば、式（１）により、左画像Ｐ１Ｌから抽出した特定の列の特徴量に、右画像Ｐ１Ｒから抽出した同じ列の特徴量を転置したものの行列積を計算する。式（１）において、左辺第１項は、左画像Ｐ１Ｌの特定の列の水平方向における１番目のグリッドにおける各特徴量ｌ１１乃至ｌ１ｎが、それぞれ行方向に並んでいる。一方、式（１）の左辺第２項においては、右画像Ｐ１Ｒ特定の列の水平方向における１番目のグリッドの各特徴量ｒ１１乃至ｒ１ｎが、それぞれ列方向に並んでいる。すなわち、左辺第２項の行列は、右画像Ｐ１Ｒの特定の列の水平方向にグリッドの各特徴量ｒ１１乃至ｒ１ｍがそれぞれ行方向に並んだ行列を転置したものである。また、式（１）の右辺は、左辺第１項の行列と、左辺第２項の行列の行列積とを計算したものである。式（１）の右辺の１列目は、右画像Ｐ１Ｒから抽出した１グリッド目の特徴量と左画像Ｐ１Ｌから抽出した特定の列の水平方向の各グリッドの特徴量の相関を表し、１行目は、左画像Ｐ１Ｌから抽出した１グリッド目の特徴量と右画像Ｐ１Ｒから抽出した特定の列の水平方向の各グリッドの特徴量の相関を表す。すなわち、式（１）の右辺は、左画像Ｐ１Ｌの各グリッドの特徴量と、右画像Ｐ１Ｒの各グリッドの特徴量との相関マップを示す。なお、式（１）において、添字「ｍ」は各画像の水平方向のグリッドの位置を示し、添え字「ｎ」は各グリッドにおける特徴量の番号を示す。すなわち、ｍは１〜４０であり、ｎは１〜２５６である。

次に、推定部１５２は、算出された相関マップを用いて、行列（１）に示すような左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬを算出する。左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬは、例えば、相関マップの行方向に対してＳｏｆｔｍａｘ関数を適用することにより算出される。これにより、水平方向の相関の値を正規化している。つまり、行方向の値をすべて合計すると１になるよう変換している。

次に、推定部１５２は、算出されたマッチングマップＭＬに、例えば、式（２）により、右画像Ｐ１Ｒから抽出された特徴量を畳み込む。式（２）の左辺第１項は、行列（１）を転置したものであり、左辺第２項は、式（１）の左辺第２項の行列である。なお、本発明では、相関を取るための特徴量と、マッチングマップに畳み込むための特徴量とは同じものを用いているが、抽出された特徴量から畳み込みニューラルネットワーク等によって、新たに相関を取るための特徴量と畳み込むための特徴量を別々に生成しても良い。

次に、推定部１５２は式（２）で得られた特徴量を左画像Ｐ１Ｌから抽出された特徴量に連結させて、例え畳み込みニューラルネットワークによって新たな特徴量を生成する。このように、左右の画像の特徴量を統合することにより、位置、姿勢の推定精度が向上する。なお、図１２における処理ｍは複数回繰り返しても良い。

次に、推定部１５２はここで得られた特徴量から、例えば畳み込みニューラルネットワークによって位置、姿勢およびクラス分類を推定する。あわせて、推定部１５２は、算出された相関マップを用いて、行列（２）に示すような右画像Ｐ１Ｒに対する左画像Ｐ１ＬのマッチングマップＭＲを算出する(ステップＳ２０２)。右画像Ｐ１Ｒに対する左画像Ｐ１ＬのマッチングマップＭＲも、左画像Ｐ１Ｌに対する右画像Ｐ１ＲのマッチングマップＭＬと同様に、例えば、相関マップの行方向に対してＳｏｆｔｍａｘ関数を適用することにより算出される。

次に、推定部１５２は、算出されたマッチングマップに、例えば、式（３）により、左画像Ｐ１Ｌの特徴量を畳み込む。式（３）の左辺第１項は、行列（２）であり、左辺第２項は、式（１）の左辺第２項の行列の転置前のものである。

次に推定部１５２は、あらかじめ設定しておいた閾値と、左画像Ｐ１Ｌから推定したターゲット（対象物）のクラス分類の推定結果が一番大きいグリッドを選択して比較する（ステップＳ２０３）。閾値をこえていなかった場合は、ターゲットが無いとして終了する。閾値をこえていた場合は、そのグリッドに対する右画像Ｐ１ＲとのマッチングマップＭＬから、一番大きい値のグリッドを選択する（ステップＳ２０４）。

次に、選択したグリッドにおいて、右画像Ｐ１Ｒのターゲットのクラス分類の推定結果とあらかじめ設定しておいた閾値とを比較する（ステップＳ２０８）。閾値をこえていた場合は、そのグリッドに対する左画像Ｐ１ＬとのマッチングマップＭＬから一番大きい値のグリッドを選択する（ステップＳ２０９）。閾値を超えていない場合は、左画像Ｐ１Ｌの推定結果から選択したグリッドのクラス分類スコアを０にしてステップＳ２０３へ戻る（ステップＳ２０７）。

次に、ステップＳ２０９にて選択したマッチングマップＭＬのグリッドと、ステップＳ２０４にて左画像Ｐ１Ｌの推定結果から選択したグリッドが等しいかを比較する（ステップＳ２１０）。グリッドが異なる場合は、ステップＳ２０４にて左画像Ｐ１Ｌの推定結果から選択したグリッドのクラス分類スコアを０にして、ステップＳ２０３のグリッドの選択に戻る（ステップＳ２０７）。最終的に、左画像Ｐ１Ｌおよび右画像Ｐ１Ｒで選択したグリッドの位置情報（例えば、図１における水平方向ｘの値）の検出結果から視差を算出する（ステップＳ２１１）。

次に、ステップＳ２１１から算出した視差をもとに、ターゲットの深度を算出する（ステップＳ２１２）。なお、複数のターゲットに対して深度を算出する場合は、ステップＳ２１１の後、左画像Ｐ１Ｌおよび右画像Ｐ１Ｒの推定結果から選択したグリッドのクラス分類スコアを０にしてからステップＳ２０３に戻り、以後、ステップＳ２１２までを繰り返せば良い。

以上述べたように、画像処理装置１０は、取得部と、推定部と、を備える。取得部は、バラ積みされたワークを撮影した第１の画像および第２の画像を取得する。推定部は、第１の画像の特徴量と、第２の画像の特徴量とのマッチングマップを生成し、第１の画像と第２の画像それぞれに対してターゲットとなる各ワークの位置と姿勢とクラス分類スコアを推定し、前記アテンションマップを用いたマッチング結果と位置の推定結果に基づいて、ワーク位置を推定することにより、ステレオカメラからワークまでの深度を算出する。これにより、物体認識における誤検出を抑制できる。

（画像処理の変形例）
以上、物体把持システム１について説明したが、上記の説明内容に限定されるものではなく、その趣旨を逸脱しない限りにおいて種々の変更が可能である。例えば、対象物（ワーク）が１種類である場合について説明したが、これに限られず、画像処理装置１０が、複数のワークの種類を検出するような構成であってもよい。また、画像処理装置１０は、対象物を検出するだけでなく、対象物が配置されたトレイ等の位置や姿勢をさらに検出してもよい。図１３は、変形例に係るトレイを含むバラ積み画像の一例を示す図である。図１３に示す例において、画像処理装置１０は、対象物が配置されたトレイの位置および姿勢を特定することにより、ロボットアーム３０がトレイに衝突しないような軌道を設定することができる。なお、検出する対象であるトレイは、障害物の一例である。画像処理装置１０は、トレイ以外のその他の障害物となるものを検出するような構成であってもよい。

また、画像処理装置１０が、例えばバラ積み画像を４０×４０のグリッドに区分する例について説明したが、これに限られず、より細かな、あるいは、より粗いグリッドに区分して対象物を検出してもよく、また画素単位で推定処理を行ってもよい。これにより、画像処理装置１０は、より精度よくカメラと対象物との距離を算出することができる。図１４は、変形例に係る位置ずれ推定モデルの一例を示す図である。図１４に示すように、画像処理装置１０は、左画像Ｐ１Ｌと右画像Ｐ１Ｒのうち、推定位置周辺のグリッドよりもサイズが小さい部分を切り出して結合してもよい。そして、前述した推定処理と同様に推定処理を行い、処理結果に基づいて位置ずれを推定してもよい。

また、細かな、あるいは、粗いグリッド単位や画素単位で推定処理を行う場合に、前述したのと同様に、左画像Ｐ１Ｌと右画像Ｐ１Ｒとで、それぞれ個別に推定処理を行ってもよい。図１５は、変形例に係る位置ずれ推定モデルの別の一例を示す図である。図１５に示す例では、画像処理装置１０は、左画像Ｐ１Ｌと右画像Ｐ１Ｒとに対し、それぞれ別々に推定処理を行う。この場合においても、画像処理装置１０は、前述したのと同様に、それぞれの推定処理を行う際に、左画像Ｐ１Ｌに対する重み付けを、右画像Ｐ１Ｒに対する重み付けと共有してもよい。

また、以上述べた推定処理を、バラ積みされたワーク４１、４２の画像に対してではなく、ロボットアーム３０や、ロボットアーム３０に保持されたワーク４１、４２、または整列先に整列されたワーク４１、４２に対して行ってもよい。

（対象物３次元データの取得および学習）
図１６は、対象物３次元データの取得（測定）および学習のためのシステムの構成の一例を示すブロック図である。図１６において、処理装置１１０と３次元データ測定装置１４０とは、ネットワークＮＷを通じて通信可能に接続されている。また、処理装置１１０は、通信Ｉ／Ｆ（インターフェース）１１１と、入力Ｉ／Ｆ１１２と、ディスプレイ１１３と、記憶回路１１４と、処理回路１１５とを備える。

３次元データ測定装置１４０は、プロジェクタ１２０およびカメラ１３０と接続されている。３次元データ測定装置１４０は、通信Ｉ／Ｆ１４１と、入力Ｉ／Ｆ１４２と、ディスプレイ１４３と、記憶回路１４４と、処理回路１４５とを備える。

プロジェクタ１２０は、可視光よりも波長の短い光（例えば、ＵＶ（紫外線）光）による所定のパターンの照射（投影）が可能であるとともに、可視光による照明が可能となっている。可視光による照明は、カメラ１３０がカラーカメラである場合には白色光による照明が行われ、カメラ１３０がモノクロカメラである場合は赤色光、青色光および緑色光のそれぞれによる照明が行われる。プロジェクタ１２０とは別に、可視光の照明装置が設けられるのでもよい。カメラ１３０は、可視光を撮影可能なカラーカメラまたはモノクロカメラである。

処理装置１１０において、通信Ｉ／Ｆ１１１は、ネットワークＮＷを通じた外部装置とのデータ入出力の通信を制御する。例えば、通信Ｉ／Ｆ１１１は、ネットワークカードやネットワークアダプタ、ＮＩＣ（Network Interface Controller）等によって実現される。

入力Ｉ／Ｆ１１２は、処理回路１１５に接続され、処理装置１１０の管理者（不図示）から受け付けた入力操作を電気信号に変換して処理回路１１５に出力する。例えば、入力Ｉ／Ｆ１１２は、スイッチボタン、マウス、キーボード、タッチパネル等である。

ディスプレイ１１３は、処理回路１１５に接続され、処理回路１１５から出力される各種情報および各種画像データを表示する。例えば、ディスプレイ１１３は、液晶モニタやＣＲＴ（Cathode Ray Tube）モニタ、タッチパネル等によって実現される。

記憶回路１１４は、例えば、メモリ等の記憶装置により実現される。記憶回路１１４には、処理回路１１５により実行される各種のプログラムが記憶されている。また、記憶回路１１４には、処理回路１１５により各種のプログラムが実行される際に用いられる各種のデータが一時的に記憶される。記憶回路１１４は、対象物３次元データ１１４１と機械（深層）学習モデル１１４２とを有する。対象物３次元データ１１４１は、各種の対象物についての、３次元形状データとテクスチャデータとを含む。ここで言うテクスチャデータとは、ＲＧＢ（Red,Green,Blue）の色データや、質感を表すメタル（反射）、ラフネス（表面粗さ）、透明度などである。また、取得対象となるテクスチャデータとしては、ＲＧＢの色データのみでもよいし、色と質感に関するデータのいずれかまたは両者を含むものでもよい。

さらに、機械（深層）学習モデル１１４２はニューラルネットワーク構造１１４２ａと学習パラメータ１１４２ｂを備えている。ニューラルネットワーク構造１１４２ａは、例えば、図５の畳み込みニューラルネットワークｂ１のような公知のネットワークを応用したもので、図１２に示されるネットワーク構造である。学習パラメータ１１４２ｂは、例えば、畳み込みニューラルネットワークの畳み込みフィルタの重みであり、対象物の位置および姿勢を推定するために学習され、最適化されるパラメータである。

機械（深層）学習モデル１１４２は、物体把持システム１（図１、図２）において、カメラ２０（図１、図２）から出力された画像から、ワークの位置および姿勢を推定する処理に用いられる。機械（深層）学習モデル１１４２は、例えば、複数のワークの位置および姿勢と、当該複数のワークを撮影した画像とを教師データして学習することにより生成される。なお、ここでは、機械（深層）学習モデル１１４２が、例えば、処理回路１１５により生成されるが、これに限られず、外部のコンピュータにより生成されてもよい。

処理回路１１５は、ＣＰＵ（Central Processing Unit）等のプロセッサにより実現される。処理回路１１５は、処理装置１１０全体を制御する。処理回路１１５は、記憶回路１１４に記憶された各種のプログラムを読み取り、読み取ったプログラムを実行することで、各種の処理を実行する。例えば、処理回路１１５は、学習部１１５１と、データ出力部１１５２とを有することとなる。

学習部１１５１は、対象物３次元データ１１４１（新たに３次元データ測定装置１４０により測定されて蓄積されたものと、過去に蓄積されたものとの両者を含む）に基づき、画像生成ソフトウェアによりバラ積みされたワークの画像を生成して機械学習の学習データを作成し、学習データに基づいて機械（深層）学習モデル１１４２の機械学習を行い、学習パラメータ１１４２ｂの更新を行う。

データ出力部１１５２は、操作者の指示または外部からの要求に応じ、記憶回路１１４に記憶された対象物３次元データ１１４１や機械（深層）学習モデル１１４２のデータを出力する。

３次元データ測定装置１４０において、通信Ｉ／Ｆ１４１は、ネットワークＮＷを通じた外部装置とのデータ入出力の通信を制御する。例えば、通信Ｉ／Ｆ１４１は、ネットワークカードやネットワークアダプタ、ＮＩＣ等によって実現される。また、通信Ｉ／Ｆ１４１は、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等の規格に従ってプロジェクタ１２０に出力する制御信号を送信し、プロジェクタ１２０から状態信号を受信する。また、通信Ｉ／Ｆ１４１は、カメラ１３０に制御信号を送信し、カメラ１３０から出力される画像のデータを受信する。

入力Ｉ／Ｆ１４２は、処理回路１４５に接続され、３次元データ測定装置１４０の管理者（不図示）から受け付けた入力操作を電気信号に変換して処理回路１４５に出力する。例えば、入力Ｉ／Ｆ１４２は、スイッチボタン、マウス、キーボード、タッチパネル等である。

ディスプレイ１４３は、処理回路１４５に接続され、処理回路１４５から出力される各種情報および各種画像データを表示する。例えば、ディスプレイ１４３は、液晶モニタやＣＲＴモニタ、タッチパネル等によって実現される。

記憶回路１４４は、例えば、メモリ等の記憶装置により実現される。記憶回路１４４には、処理回路１４５により実行される各種のプログラムが記憶されている。また、記憶回路１４４には、処理回路１４５により各種のプログラムが実行される際に用いられる各種のデータが一時的に記憶される。記憶回路１４４は、対象物３次元データ１４４１を有する。対象物３次元データ１４４１は、処理装置１１０の記憶回路１１４に記憶される対象物３次元データ１１４１の一部についての元データであり、通信Ｉ／Ｆ１４１、ネットワークＮＷ、処理装置１１０の通信Ｉ／Ｆ１１１を介して記憶回路１１４に蓄積される。

３次元データ測定装置１４０の処理回路１４５は、ＣＰＵ等のプロセッサにより実現される。処理回路１４５は、３次元データ測定装置１４０全体を制御する。処理回路１４５は、記憶回路１４４に記憶された各種のプログラムを読み取り、読み取ったプログラムを実行することで、各種の処理を実行する。例えば、処理回路１４５は、対象物３次元データ測定部１４５１を有することとなる。

対象物３次元データ測定部１４５１は、通信Ｉ／Ｆ１４１を通じて、プロジェクタ１２０およびカメラ１３０を制御し、カメラ１３０により撮影された対象物の画像から３次元形状とテクスチャとを計測し、３次元形状データとテクスチャデータとを含む対象物３次元データを取得する。対象物の３次元形状の測定は、例えば、公知の格子法等により、対象物への所定のパターンの照射および撮影により得られた画像に基づいて行われる。対象物の３次元形状の測定は、対象物の姿勢を変更しながら行われる。

図１７は、対象物３次元データの取得の処理の一例を示すフローチャートであり、撮影がカラーのカメラ１３０により行われる場合の処理例である。処理に際しての事前の準備として、対象物に所定の塗料を塗布しておく。所定の塗料としては、可視光よりも波長の短い光（例えば、ＵＶ（紫外線）光）の照射を受けると可視光による発光を行い、可視光に対しては無色透明となる蛍光塗料である。これは、インビジブル塗料と呼ぶこともできる。なお、以下では可視光よりも波長の短い光をＵＶ光として説明するが、それに限られない。例えば、２光子励起により可視光よりも波長の短い光を発生させることができ、それをパターン光の照射に用いることができる。

図１７において、３次元データ測定装置１４０は、処理を開始すると、プロジェクタ１２０により対象物に向けてＵＶパターンを照射する。そして、プロジェクタ１２０と所定の位置関係にあるカメラ１３０により対象物の撮影を行い、撮影された画像に基づいて対象物の３次元形状を算出し、記憶回路に記憶する（ステップＳ１１）。図１８は、対象物Ｗにプロジェクタ１２０からＵＶパターンが照射された状態の例を示す図であり、プロジェクタ１２０からのＵＶ光の照射により対象物Ｗがインビジブル塗料により所定のパターンで発光し、その状態がカメラ１３０により撮影される。可視光での発光はインビジブル塗料によるものであるため、対象物Ｗが光沢物であったり黒色物体であったりしても問題はない。

図１７に戻り、対象物の３次元形状の算出（ステップＳ１１）は、２つ目以降のＵＶパターンの照射が行われた後は、以前のＵＶパターン下で撮影された画像も考慮して行われる。これにより、３次元形状の測定の精度が高められる。また、ＵＶパターンの照射時に撮影だけが行われ、全てのＵＶパターンについて撮影が完了した後に、撮影された全ての画像に基づいて対象物の３次元形状の算出が行われるようにしてもよい。また、ＵＶパターンの照射および撮影の際にはそのＵＶパターン下で撮影された画像についてだけの処理が行われ、全てのＵＶパターンについて撮影が完了した後に、全画像を考慮した算出が行われるようにしてもよい。

次いで、３次元データ測定装置１４０は、所定のＵＶパターンについて処理が完了したか否か判断し（ステップＳ１２）、完了していないと判断した場合（ステップＳ１２のＮｏ）は、別のＵＶパターンの照射等（ステップＳ１１）から繰り返す。所定のＵＶパターンについて処理が完了したと判断した場合（ステップＳ１２のＹｅｓ）は、次の処理に移行する。

３次元データ測定装置１４０は、次の処理として、プロジェクタ１２０または外部光源により対象物に向けて白色光を照射し、カメラ１３０により撮影を行い、撮影された画像に基づいてテクスチャを取得して記憶回路に記憶する（ステップＳ１３）。図１９は、対象物Ｗに可視光が照射された状態の例を示す図であり、プロジェクタ１２０からの白色光の照射により対象物Ｗのインビジブル塗料は無色透明となり、対象物Ｗ本来のテクスチャが表れており、その状態がカメラ１３０により撮影される。

また、ＵＶパターンの照射による撮影から対象物は移動していないと推定できるため、ＵＶパターン下で撮影された画像から取得された対象物の３次元形状とテクスチャとのマッチングは容易に行うことができる。

次いで、図１７に戻り、３次元データ測定装置１４０は、姿勢変更後の２回目以降の処理において、点群データマッチングを行い、データ更新を行う（ステップＳ１４）。すなわち、３次元データ測定装置１４０は、以前の処理で取得された対象物の３次元形状のデータと今回の処理で取得された対象物の３次元形状のデータとから、同一の部分と判断できる部分に基づいてデータを連結し、対象物の３次元形状のデータを更新していく。これにより、一方の側からの撮影だけでは捉えられない対象物の３次元形状を取得することができる。

次いで、３次元データ測定装置１４０は、対象物の全ての外観をカバーする所定の姿勢について処理が完了したか否か判断し（ステップＳ１５）、完了していないと判断した場合（ステップＳ１５のＮｏ）は、対象物の姿勢変更を行い（ステップＳ１６）、ＵＶパターンの照射等（ステップＳ１１）から繰り返す。対象物の姿勢変更は操作者の手動によるものであってもよいし、駆動機構によるものであってもよい。３次元データ測定装置１４０は、所定の姿勢について処理が完了したと判断した場合（ステップＳ１５のＹｅｓ）は、処理を終了する。

図２０は、対象物３次元データの取得の処理の別の一例を示すフローチャートであり、撮影がモノクロのカメラ１３０により行われる場合の処理例である。処理に際しての事前の準備は前述したものと同様である。

図２０において、３次元データ測定装置１４０は、処理を開始すると、プロジェクタ１２０により対象物に向けてＵＶパターンを照射する。そして、プロジェクタ１２０と所定の位置関係にあるカメラ１３０により対象物の撮影を行い、撮影された画像に基づいて対象物の３次元形状を算出し、記憶回路に記憶する（ステップＳ２１）。対象物の３次元形状の算出は、２つ目以降のＵＶパターンの照射が行われた後は、以前のＵＶパターン下で撮影された画像も考慮して行われる。なお、ＵＶパターンの照射時に撮影だけが行われ、全てのＵＶパターンについて撮影が完了した後に、撮影された全ての画像に基づいて対象物の３次元形状の算出が行われるようにしてもよい。また、ＵＶパターンの照射および撮影の際にはそのＵＶパターン下で撮影された画像についてだけの処理が行われ、全てのＵＶパターンについて撮影が完了した後に、全画像を考慮した算出が行われるようにしてもよい。

次いで、３次元データ測定装置１４０は、所定のＵＶパターンについて処理が完了したか否か判断し（ステップＳ２２）、完了していないと判断した場合（ステップＳ２２のＮｏ）は、別のＵＶパターンの照射等（ステップＳ２１）から繰り返す。所定のＵＶパターンについて処理が完了したと判断した場合（ステップＳ２２のＹｅｓ）は、次の処理に移行する。

３次元データ測定装置１４０は、次の処理として、プロジェクタ１２０または外部光源により対象物に向けて赤色光を照射し、カメラ１３０により撮影を行い、撮影された画像に基づいてテクスチャの赤色成分を取得して記憶回路に記憶する（ステップＳ２３）。ＵＶパターンの照射による撮影から対象物は移動していないと推定できるため、ＵＶパターン下で撮影された画像から取得された対象物の３次元形状とテクスチャとのマッチングは容易に行うことができる。

次いで、３次元データ測定装置１４０は、プロジェクタ１２０または外部光源により対象物に向けて青色光を照射し、カメラ１３０により撮影を行い、撮影された画像に基づいてテクスチャの青色成分を取得して記憶回路に記憶する（ステップＳ２４）。

次いで、３次元データ測定装置１４０は、プロジェクタ１２０または外部光源により対象物に向けて緑色光を照射し、カメラ１３０により撮影を行い、撮影された画像に基づいてテクスチャの緑色成分を取得して記憶回路に記憶する（ステップＳ２５）。

次いで、３次元データ測定装置１４０は、姿勢変更後の２回目以降の処理において、点群データマッチングを行い、データ更新を行う（ステップＳ２６）。すなわち、３次元データ測定装置１４０は、以前の処理で取得された対象物の３次元形状のデータと今回の処理で取得された対象物の３次元形状のデータとから、同一の部分と判断できる部分に基づいてデータを連結し、対象物の３次元形状のデータを更新していく。

次いで、３次元データ測定装置１４０は、対象物の全ての外観をカバーする所定の姿勢について処理が完了したか否か判断し（ステップＳ２７）、完了していないと判断した場合（ステップＳ２７のＮｏ）は、対象物の姿勢変更を行い（ステップＳ２８）、ＵＶパターンの照射等（ステップＳ２１）から繰り返す。対象物の姿勢変更は操作者の手動によるものであってもよいし、駆動機構によるものであってもよい。３次元データ測定装置１４０は、所定の姿勢について処理が完了したと判断した場合（ステップＳ２７のＹｅｓ）は、処理を終了する。

図２１は、学習データの生成および学習処理の一例を示すフローチャートである。以下では、図１６に示された処理装置１１０により学習モデルが生成および更新される場合について説明するが、これに限られず、図示しない他のコンピュータにより行われるものでもよい。

図２１に示すように、処理装置１１０は、対象物３次元データ１１４１から所望の対象物の３次元データを取得する（ステップＳ１０１）。図２２は、対象物の３次元データの一例を示す図である。３次元データを取得することにより、仮想空間上において、ワークの姿勢を任意に変更して配置させることができる。

次に、図２１に戻り、処理装置１１０は、仮想空間上に、対象物を配置する際の各種条件を設定する（ステップＳ１０２）。仮想空間への対象物の配置は、例えば公知の画像生成ソフトウェア等を用いて行うことができる。配置する対象物の数や位置、姿勢などの条件は、画像生成ソフトウェアがランダムに対象物を生成するように設定することも可能だが、これに限らず、処理装置１１０の管理者が任意に設定してもよい。

次に、処理装置１１０は、設定された条件に従い、仮想空間上に対象物を配置する（ステップＳ１０３）。次に、処理装置１１０は、例えば、複数の対象物が配置された仮想空間をキャプチャすることにより、配置された対象物の画像、位置および姿勢を取得する（ステップＳ１０４）。ここでは、対象物の位置および姿勢は、例えば３次元座標（ｘ，ｙ，ｚ）により示され、対象物の姿勢は、物体の姿勢または回転状態を表す四元数であるクオタニオン（ｑｘ，ｑｙ，ｑｚ，ｑｗ）により示される。

図２３は、複数の対象物が配置された仮想空間のキャプチャ画像の一例を示す図である。図２３に示すように、仮想空間上には、複数の対象物Ｗ１ａおよびＷ１ｂが、それぞれランダムな位置および姿勢にて配置される。また、以下において、ランダムに配置された対象物の画像を、「バラ積み画像」と表記する場合がある。次に、処理装置１１０は、取得された画像と、配置された対象物の位置および姿勢を記憶回路１４に保存する（ステップＳ１０５）。さらに、処理装置１１０は、ステップＳ１０２からステップＳ１０５をあらかじめ定められた回数繰り返す（ステップＳ１０６）。なお、ここで記憶回路１１４に保存される、上記ステップによって取得された画像と対象物が配置された位置および姿勢との組み合わせを「教師データ」と表記する場合がある。ステップＳ１０２からステップＳ１０５までの処理を所定の回数繰り返すことにより、学習処理を繰り返し行うために十分な数の教師データが生成される。

そして、処理装置１１０は、生成された教師データを用いて所定の回数学習処理を行うことにより、ニューラルネットワーク構造１１４２ａにおいて重み付けとして用いられる学習パラメータ１１４２ｂを生成し、または更新する（ステップＳ１０７）。このように、３次元データが取得された対象物を仮想空間上に配置することにより、学習処理に用いられる、対象物の画像と、位置および姿勢の組み合わせとを含む教師データを、容易に生成することができる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて種々の変更が可能である。

以上のように、実施形態に係る対象物３次元データ測定方法は、可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる可視光よりも波長の短い光の照射を行って、対象物を撮影し、撮影された画像から対象物の３次元形状を測定する第１の工程と、対象物に対し、可視光の照射を行って、対象物を撮影し、撮影された画像から対象物のテクスチャを測定する第２の工程とを備える。これにより、実際の対象物から３次元形状とテクスチャとを含む対象物３次元データを容易に測定することができる。

また、第１の工程では、対象物の一つの姿勢に対して所定のパターンを複数切り替えて対象物の３次元形状を測定する。これにより、３次元形状の測定の精度を高めることができる。

また、対象物の姿勢を変更し、第１の工程による対象物の３次元形状の測定と第２の工程による対象物のテクスチャの測定とを繰り返し、点群データマッチングによりデータを連結して更新する。これにより、一方の側からの撮影だけでは捉えられない対象物の３次元形状を取得することができる。

また、第２の工程では、撮影をカラーカメラで行う場合は白色光の照射と撮影とを行い、撮影をモノクロカメラで行う場合は赤色光、青色光および緑色光のそれぞれの照射と撮影とを行う。これにより、カラーカメラとモノクロカメラとに柔軟に対応することができる。

また、実施形態に係る対象物３次元データ測定装置は、可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる可視光よりも波長の短い光の照射を行って、対象物を撮影し、撮影された画像から対象物の３次元形状を測定する第１の処理と、対象物に対し、可視光の照射を行って、対象物を撮影し、撮影された画像から対象物のテクスチャを測定する第１の処理とを処理回路が実行する。これにより、上記の対象物３次元データ測定方法を装置として実現することができる。

また、実施形態に係る学習データ生成方法は、上記の対象物３次元データ測定方法により得られた対象物３次元データに基づき、画像生成ソフトウェアによりバラ積みされたワークの画像を生成し、機械学習の学習データとする。これにより、学習データの準備に要するコストを低減させることができる。

また、実施形態に係る学習データ生成装置は、上記の対象物３次元データ測定方法により得られた対象物３次元データに基づき、画像生成ソフトウェアによりバラ積みされたワークの画像を生成し、機械学習の学習データとする処理を処理回路が実行する。これにより、上記の学習データ生成方法を装置として実現することができる。

また、上記実施の形態により本発明が限定されるものではない。上述した各構成要素を適宜組み合わせて構成したものも本発明に含まれる。また、さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、上記の実施の形態に限定されるものではなく、様々な変更が可能である。

１１０処理装置，１１４記憶回路，１１４１対象物３次元データ，１１４２機械（深層）学習モデル，１１４２ａニューラルネットワーク構造，１１４２ｂ学習パラメータ，１１５処理回路，１１５１学習部，１１５２データ出力部，１２０プロジェクタ，１３０カメラ，１４０３次元データ測定装置，１４４記憶回路，１４４１対象物３次元データ，１４５処理回路，１４５１対象物３次元データ測定部，Ｗ対象物

Claims

可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる前記可視光よりも波長の短い光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物の３次元形状を測定する第１の工程と、
前記対象物に対し、可視光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物のテクスチャを測定する第２の工程と、
を備える対象物３次元データ測定方法。
前記第１の工程では、前記対象物の一つの姿勢に対して前記所定のパターンを複数切り替えて前記対象物の３次元形状を測定する、
請求項１に記載の対象物３次元データ測定方法。
前記対象物の姿勢を変更し、前記第１の工程による前記対象物の３次元形状の測定と前記第２の工程による前記対象物のテクスチャの測定とを繰り返し、点群データマッチングによりデータを連結して更新する、
請求項１または２に記載の対象物３次元データ測定方法。
前記第２の工程では、撮影をカラーカメラで行う場合は白色光の照射と撮影とを行い、撮影をモノクロカメラで行う場合は赤色光、青色光および緑色光のそれぞれの照射と撮影とを行う、
請求項１〜３のいずれか一つに記載の対象物３次元データ測定方法。
可視光よりも波長の短い光の照射を受けると可視光による発光を行い、可視光に対しては無色透明の塗料が塗布された対象物に対し、所定のパターンによる前記可視光よりも波長の短い光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物の３次元形状を測定する第１の処理と、
前記対象物に対し、可視光の照射を行って、前記対象物を撮影し、撮影された画像から前記対象物のテクスチャを測定する第１の処理と、
を処理回路が実行する、
対象物３次元データ測定装置。
請求項１に記載の対象物３次元データ測定方法により得られた対象物３次元データに基づき、画像生成ソフトウェアによりバラ積みされたワークの画像を生成し、機械学習の学習データとする、
学習データ生成方法。
請求項１に記載の対象物３次元データ測定方法により得られた対象物３次元データに基づき、画像生成ソフトウェアによりバラ積みされたワークの画像を生成し、機械学習の学習データとする処理を処理回路が実行する、
学習データ生成装置。