JP2018128897A - 対象物の姿勢等を検出する検出方法、検出プログラム - Google Patents

対象物の姿勢等を検出する検出方法、検出プログラム Download PDF

Info

Publication number
JP2018128897A
JP2018128897A JP2017021999A JP2017021999A JP2018128897A JP 2018128897 A JP2018128897 A JP 2018128897A JP 2017021999 A JP2017021999 A JP 2017021999A JP 2017021999 A JP2017021999 A JP 2017021999A JP 2018128897 A JP2018128897 A JP 2018128897A
Authority
JP
Japan
Prior art keywords
area
image
distance
region
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017021999A
Other languages
English (en)
Other versions
JP6912215B2 (ja
Inventor
村瀬 洋
Hiroshi Murase
洋 村瀬
大輔 出口
Daisuke Deguchi
大輔 出口
康友 川西
Yasutomo Kawanishi
康友 川西
宏史 二宮
Hiroshi Ninomiya
宏史 二宮
訓成 小堀
Kuninari Kobori
訓成 小堀
中野 雄介
Yusuke Nakano
雄介 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Toyota Motor Corp
Original Assignee
Nagoya University NUC
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Toyota Motor Corp filed Critical Nagoya University NUC
Priority to JP2017021999A priority Critical patent/JP6912215B2/ja
Publication of JP2018128897A publication Critical patent/JP2018128897A/ja
Application granted granted Critical
Publication of JP6912215B2 publication Critical patent/JP6912215B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】実用的な時間内に高い精度で、撮像部が捉えた対象物の種類と位置と姿勢を検出することができなかった。【解決手段】カラー画像データの画像領域から対象物を取り囲む包含領域と対象物の種類を推定する第1推定ステップと、包含領域の外部領域の情報を用いて包含領域から対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する抽出ステップと、距離画像データの画像領域に抽出ステップで抽出した対象物領域を対応させて切り取った距離分布画像を生成する生成ステップと、生成ステップで生成した距離分布画像を用いて対象物の位置を算出する算出ステップと、第1推定ステップで推定した対象物の種類と、生成ステップで生成した距離分布画像とを、予め準備された照合モデルと照合することにより、対象物の姿勢を推定する第2推定ステップとを含む検出方法を提供する。【選択図】図1

Description

本発明は、対象物の姿勢等を検出する検出方法、検出プログラムに関する。
三次元環境下に配置された対象物の種類、位置、姿勢を検出する技術が知られている。例えば、ロボットハンドが把持対象物を把持しようとする場合には、当該対象物が目的の対象物であるか、どのような位置にどのような姿勢で置かれているか、といった情報が事前に必要となる。そのような情報を取得するために、対象物を撮像した画像データを利用して当該情報を取得しようとする試みが成されている。例えば、対象物の三次元モデルを平面化しておき、撮像した画像と照合することにより対象物を特定する技術が知られている(例えば、特許文献1を参照)。
特開2010−079452号公報
これまで開示されている検出手法では、実用的な時間内に高い精度で対象物の種類と位置と姿勢を出力することができなかった。
本発明は、このような問題を解決するためになされたものであり、実用的な時間内に高い精度で対象物の種類と位置と姿勢を検出することができる検出手法およびそのプログラムを提供するものである。
本発明の第1の態様における検出方法は、三次元環境下に配置された対象物の種類と位置と姿勢を検出する検出方法であって、対象物を撮像して処理された、ピクセルごとに色情報を有するカラー画像データと、ピクセルごとに距離情報を有する距離画像データとを取得する取得ステップと、カラー画像データの画像領域から対象物を取り囲む包含領域と対象物の種類を推定する第1推定ステップと、包含領域の外部領域の情報を用いて包含領域から対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する抽出ステップと、距離画像データの画像領域に抽出ステップで抽出した対象物領域を対応させて切り取った距離分布画像を生成する生成ステップと、生成ステップで生成した距離分布画像を用いて対象物の位置を算出する算出ステップと、第1推定ステップで推定した対象物の種類と、生成ステップで生成した距離分布画像とを、予め準備された照合モデルと照合することにより、対象物の姿勢を推定する第2推定ステップとを含む。
このような検出方法によれば、まずカラー画像データの色情報から対象物の種類を推定すると共に、対象物領域を抽出して距離分布画像を精度良く生成してから、照合モデルと照合して対象物の姿勢を推定するので、背景から抽出することが困難な形状や姿勢の対象物などであっても、精度良くその種類と位置と姿勢を検出することができる。
上記の検出方法において、生成ステップは、距離画像データの画像領域から、対象物領域に対応する領域を取り囲む矩形領域を距離分布画像の画像領域として切り取り、切り取った画像領域のうち対象物領域に対応する領域以外の領域のピクセル値を0とし、対象物領域に対応する領域のピクセル値を平均値が1、分散値が1となるように正規化して、距離分布画像を生成するようにしても良い。特に、平均値を1とすることにより、撮像視点からの奥行き情報が強調されるので、照合モデルの構築において姿勢間の特徴量の差を大きくすることができ、姿勢推定の精度向上に貢献する。なお、平均値を1とせずに、他の物理量を変化させた距離分布画像であっても構わない。
また、上記の照合モデルは、距離分布画像に相当する距離画像と対象物の姿勢とを対応付けた教師データからディープラーニングによって学習された後の全結合層の特徴量と対象物の姿勢との対応を示す、対象物の種類ごとに作成された管理テーブルを含み、上記の第2推定ステップは、距離分布画像を、第1推定ステップで推定した対象物の種類に対応する、ディープラーニングで学習した畳み込みニューラルネットワークへ入力して得られた特徴量を、畳み込みニューラルネットワークと関連づけられた管理テーブルの特徴量と照合することにより、対象物の姿勢を推定するようにしても良い。このようにディープラーニングによってさまざまな姿勢に対する特徴量を互いに離散化させることができるので、照合する対象物の特徴量を一対一に対応させやすく、精度の高い姿勢結果を出力することができる。
また、上記の抽出ステップは、包含領域を予め定められた倍率で拡張した拡張領域と、外部領域として拡張領域を取り囲む外周領域とを定め、外周領域の色分布情報を用いてグラフカット法により拡張領域から背景領域を除去して、対象物領域を抽出しても良い。このように拡張領域を定めることにより、外周領域から抽出された特徴量と共通の特徴量を包含領域内からも見つけやすくなり、精度良く対象物領域を抽出することができる。
また、本発明の第2の態様における検出プログラムは、三次元環境下に配置された対象物の種類と位置と姿勢を検出する検出プログラムであって、対象物を撮像して処理された、ピクセルごとに色情報を有するカラー画像データと、ピクセルごとに距離情報を有する距離画像データとを取得する取得ステップと、カラー画像データの画像領域から対象物を取り囲む包含領域と対象物の種類を推定する第1推定ステップと、包含領域の外部領域の情報を用いて包含領域から対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する抽出ステップと、距離画像データの画像領域に抽出ステップで抽出した対象物領域を対応させて切り取った距離分布画像を生成する生成ステップと、生成ステップで生成した距離分布画像を用いて対象物の位置を算出する算出ステップと、第1推定ステップで推定した対象物の種類と、生成ステップで生成した距離分布画像とを、予め準備された照合モデルと照合することにより、対象物の姿勢を推定する第2推定ステップとをコンピュータに実行させる。
このような検出プログラムによれば、まずカラー画像データの色情報から対象物の種類を推定すると共に、対象物領域を抽出して距離分布画像を精度良く生成してから、照合モデルと照合して対象物の姿勢を推定するので、背景から抽出することが困難な形状や姿勢の対象物などであっても、精度良くその種類と位置と姿勢を検出することができる。
本発明により、実用的な時間内に高い精度で対象物の種類と位置と姿勢を検出することができる。
本実施形態にかかる検出方法の全体の手順を示すフロー図である。 画像データの取得の手順を示すフロー図である。 カテゴリおよび包含領域の推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。 他の例である、カテゴリおよび包含領域の推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。 対象物領域を抽出する手順を示すフロー図と、処理の一例を概念的に示す概念図である。 距離分布画像を生成する手順を示すフロー図と、処理の一例を概念的に示す概念図である。 対象物の位置を算出する手順を示すフロー図と、処理の一例を概念的に示す概念図である。 姿勢推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。 ディープラーニングによる事前学習を説明する説明図である。 姿勢推定の実験結果を示す結果一覧である。
以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。
本実施形態にかかる検出方法は、例えば、ロボットハンドを備える生産ロボットによって実行され、ロボットハンドが対象物を把持する場合に、適切な把持行動を立案し遂行するための前処理として実行される。具体的には、生産ロボットは、当該検出方法を実行することにより、把持しようとする対象物が目的の対象物であるかを確認し、その位置と姿勢を把握する。生産ロボットは、このような前処理を実行することにより、ロボットハンドの構造等に対して適した箇所で適した角度により対象物を把持することができる。
生産ロボットは、ロボットハンドの他に、把持しようとする対象物が存在する空間を視野として捉える撮像部と、ロボット全体の制御を実行すると共に様々な演算を実行する制御演算部を備える。制御演算部は、ロボットが備える記憶装置に格納されたプログラム、あるいはネットワークを介して供給されるプログラムを実行することにより、ロボット全体の制御や各種演算を実行する。また、制御演算部は、必要に応じて、ロボットが備える記憶装置に格納されたデータベースやパラメータ、あるいはネットワークを介して供給されるデータベースやパラメータを利用して、ロボット全体の制御や各種演算を実行する。制御演算部は、例えば1つのまたは複数のCPUによって構成される。なお、撮像部は、生産ロボットが備えていなくても良く、対象物を捉えられるのであれば天井などに固定されていても良い。この場合、撮像された画像データは、ネットワークを介して生産ロボットに取り込まれる。
図1は、本実施形態にかかる、三次元環境下に配置された対象物の種類と位置と姿勢を検出する検出方法の全体の手順を示すフロー図である。ここで示す各工程の詳細については後に述べるが、まずは、全体の流れについて説明する。
制御演算部は、ステップS100で、三次元環境下に配置された対象物を撮像部に撮像させ処理させた、ピクセルごとに色情報を有するカラー画像データと、ピクセルごとに距離情報を有する距離画像データとを取得する。続いてステップS200で、取得したカラー画像データの画像領域から対象物を取り囲む包含領域を決定し、対象物の種類を示すカテゴリを推定する。
制御演算部は、ステップS200で決定した包含領域の外部領域の情報を用いて包含領域から対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する(ステップS300)。カラー画像データの画像領域から対象物領域が抽出されたら、ステップS400で、距離画像データの画像領域に当該対象物領域を対応させ、切り取って距離分布画像を生成する。
制御演算部は、このように生成した距離分布画像から対象物の位置を算出する(ステップS500)。そして、ステップS600において、ステップS200で推定した対象物のカテゴリと、ステップS400で生成した距離分布画像とを、ロボットが備える記憶装置などに予め準備された照合モデルと照合することにより、対象物の姿勢を推定する。制御演算部は、このように検出された対象物の種類と位置と姿勢を利用して、ロボットハンドの把持行動などの次の制御工程に移行する。
このように、カラー画像データの二次元情報から対象物の包含領域と種類をまず推定し、距離画像データから距離分布画像を生成してから位置と姿勢を検出すると、並列処理的に一度に種類、位置、姿勢を検出するよりも、検出精度が高い。特に、位置と姿勢を推定する前にカラー画像データの二次元情報から対象物領域を抽出して正確な距離分布画像を整えるので、背景から抽出することが困難な形状や姿勢の対象物などであっても、高い検出精度を維持できることがわかった。また、姿勢の推定段階では、カラー情報を用いずに推定を行うので、演算の高速化も併せて実現できる。
各工程を順に詳細に説明する。図2は、ステップS100で示した、画像データの取得の手順を示すフロー図である。
制御演算部は、ステップS101で、対象物を撮像して処理した、ピクセルごとに色情報として赤色の画素値であるR値、緑色の画素値であるG値、青色の画素値であるB値を有するカラー画像データを取得する。ここで、撮像部が備えるイメージセンサの一つは、例えば、二次元的に配置された各画素上にRGBのいずれかのカラーフィルタがベイヤ配列により配置されたカラーイメージセンサであり、光学系により結像された対象物の光学像を光電変換してカラー画像信号を出力する。撮像部の画像処理部は、周辺画素信号の出力を用いた補間処理により、各ピクセルがR値G値B値のそれぞれを持つように調整する。
制御演算部は、続いてステップS102で、対象物を撮像して処理した、ピクセルごとに撮像面から対象物表面までの距離であるD値を有する距離画像データを取得する。ここで、撮像部が備えるイメージセンサのもう一つは、例えば、二次元的に広がる投射パターンを有する赤外光を対象物に投射する赤外光源と、その反射光を受光して光電変換するイメージセンサとが組み合わされたパターン照射方式の距離イメージセンサである。撮像部の画像処理部は、反射光のパターンひずみに基づいて、各ピクセルのD値を演算する。
なお、カラーイメージセンサと距離イメージセンサは、およそ等しい視野範囲を撮像できるように調整されている。例えば、ビームスプリッタ等を用いて、それぞれ光学的に共役な位置に配設されている。また、制御演算部は、カラー画像データと距離画像データを取得できれば良いので、撮像部の構成は上記に限らず、他の構成であっても良い。例えば、TOF方式の距離センサを用いて距離画像を生成しても良い。また、ステップS101とS102の順序は逆であっても良いし、並列であっても良い。
図3は、ステップS200で示した、カテゴリおよび包含領域の推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。制御演算部は、ステップS101で取得したカラー画像データを入力画像としてメモリ上に展開する(ステップS201)。フロー図の右側に示すように、例えば、対象物であるカップがテーブルに載置された画像が展開される。
制御演算部は、ステップS202で、FasterRCNNによる演算を実行する。FasterRCNNは、文献「2015 Neural Information Processing Systems」の「Faster R−CNN: Towards Real−Time Object Detection with Region Proposal Networks.」等に提案されている手法である。FasterRCNNは、入力した画像から特徴量(FeatureMaps)を抽出する畳み込み層と、物体の候補領域を算出するRegion Proposal Networks(以下RPNとする)と、FeatureMapsおよび物体候補領域を入力として物体カテゴリを識別する分類器の3つから構成される。ここで、FeatureMaps)を抽出する畳み込み層は、従来技術における畳み込みニューラルネットワークであり、ここではVGG−16のネットワークを使用した。VGG−16は、例えば、文献「2015 Int. Conference on Learning Representations」の「Very deep convolutional networks for large−scale image recognition.」に詳しい。
また、分類器は全結合のニューラルネットワークである。またRPNは、3×3のフィルタサイズの畳み込み層の1層(A層)と全結合層の1層(B1、B2)の2層から構成される。この全結合層は、対象物か否かを分類するB1と、候補矩形領域の座標値を推定するB2とから構成される。例えば、B1、B2の入力を512次元とすることができる。
このようなFasterRCNNにおける学習方法はいくつか提案されているが、本実施形態では以下の手法に従った。ここで、VGG−16を使用する畳み込みニューラルネットワークは、既にプレトレーニング済(ここで、結合荷重をVGG16_initと呼ぶ)である。
(1)VGG16_initを元にRPNを学習する。学習はend−to−endであり、RPNと、特徴量(FeatureMaps)を抽出する畳み込み層を学習する(ここでの学習結果を、VGG16_midとする)。
(2)VGG16_initを元に(1)でのRPNの結果も使って、分類器を学習する(ここでの学習結果を、classifier_midとする)。
(3)RPNを再学習する。ここでは、VGG16_midとclassifier_midの結果を用い、それらを固定してRPNのみ再学習する。その結果をRPNの最終荷重(RPN_fixとする)として固定する。
(4)RPN_fixを用い、特徴量を抽出する畳み込み層と分類器のネットワークのみを学習する。特徴量を抽出する畳み込み層のネットワークはVGG16_midから、分類器のネットワークはclassifier_midから学習し、ファインチューニングを行う。
制御演算部は、ステップS203で、FasterRCNNによる演算結果として、カテゴリと包含領域を出力する。カテゴリは、対象物の種類を示し、例えば「カップ」である。その他の候補としては、例えば「ペットボトル」「皿」「ビン」などであり、候補となるカテゴリは、観察対象とする空間に存在し得る物体の種類として予め定義されている。したがって、分類器は、このように予め定義されたカテゴリから最も確からしい一つを抽出する。また、包含領域は、対象物を取り囲む矩形領域として出力される。矩形領域は、画像領域中の二次元座標値として、例えば左上の(x1,y1)と右下の(x2,y2)のように定義される。
図4は、ステップS200で示した、他の例の、カテゴリおよび包含領域の推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。図3の処理に代えて、こちらの処理を実行しても良い。
制御演算部は、ステップS101で取得したカラー画像データを入力画像としてメモリ上に展開する(ステップS201)。フロー図の右側に示すように、例えば、対象物であるカップがテーブルに載置された画像が展開される。
制御演算部は、ステップS212で、Selective Searchによる演算を実行する。Selective Searchは、文献「2011 IEEE International Conference on Computer Vision」の「Segmentation as Selective Search for Object Recognition.」等に提案されている手法である。Selective Searchは、初期の領域分割から類似度の高い隣接領域を結合していき、すべて結合するまで繰り返し、その過程で結合された領域を物体候補領域として出力する。類似度算出には領域の色、面積、テクスチャ、包括関係を組み合わせて使用する。この演算を実行することにより、制御演算部は、対象物を取り囲む包含領域を例えば左上の(x1,y1)と右下の(x2,y2)の座標値で出力する(ステップS213)。
続いて制御演算部は、ステップS214で、Alex Netによる演算を実行する。Alex Netは、文献「2012 Neural Information Processing Systems」等に提案されている手法である。Alex Netは、ディープラーニング手法の1つであり、例えば、畳み込み層5層、全結合層3層のネットワーク構造を持つニューラルネットワークである。入力画像は、Selective Searchによって切り出されたカラー画像であり、 出力は各カテゴリの尤度である。制御演算部は、ステップS215で、例えば「カップ」のように、カテゴリを決定する。
図5は、ステップS300で示した、対象物領域を抽出する手順を示すフロー図と、処理の一例を概念的に示す概念図である。制御演算部は、ステップS101で取得したカラー画像データを入力画像としてメモリ上に展開するとともに、ステップS203またはステップS213で演算した包含領域の座標情報を取得する(ステップS301)。
制御演算部は、ステップS302で、包含領域を予め定められた倍率で拡張した拡張領域を設定する。ここでは、倍率を1.2倍とする。同様に、ステップS303で、外部領域としてステップS302で設定した拡張領域を取り囲む外周領域を設定する。ここでは、外周領域を、包含領域の1.5倍とする。ただし、図示するように、包含領域が画像領域の周辺部に位置する場合は、包含領域を均等に拡張して拡張領域と外周領域を設定することができない。このような場合は、内側方向へ拡張すれば良い。
制御演算部は、このように設定した拡張領域と外周領域を用いて、ステップS304で、Grabcut(グラフカット法)による演算を実行する。Grabcutは、文献「2004 Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).」の「Interactive Foreground Extraction using iterated graph cuts.」等に提案されている手法である。本実施形態のように、外部領域に外周領域を定めるので、対象物以外の背景領域の色分布等の特徴を適切に抽出することができ、また、包含領域を拡張して拡張領域を定めるので、背景領域と同じ特徴を持つ部分をグループとして除去しやすい。すなわち、対象物の領域部分のみを精度良く切り取ることができる。
制御演算部は、ステップS305で、Grabcutによる演算結果として、対象物の輪郭によって囲まれた対象物領域を出力する。対象物領域は、例えば白抜きで図示するような領域であり、ピクセル座標値で定義される。ピクセル座標値は、包含領域を定義する左上の(x1,y1)座標を原点として、相対座標値で定義しても良い。この場合、対象物領域は、例えば、包含領域に含まれるピクセル群のうち、対象物領域に属するピクセルのみが相対座標値によって列挙されたリストにより表現される。
図6は、ステップS400で示した、距離分布画像を生成する手順を示すフロー図と、処理の一例を概念的に示す概念図である。制御演算部は、ステップS102で取得した距離画像データを入力画像としてメモリ上に展開する(ステップS401)。フロー図の右側に模式的に示すように、各ピクセルは被写体の形状に対応したD値を有する。
制御演算部は、ステップS402で、展開した距離画像に、ステップS203またはステップS213で演算した包含領域を対応させて切り出す。このとき、カラー画像のピクセル数と距離画像のピクセル数が異なるのであれば、対応領域が一致するように座標値を変換する。また、カラー画像の視野と距離画像の視野にずれがある場合も、予めずれ量を計測しておくなどして、対応領域が一致するように座標値を変換する。
制御演算部は、ステップS403で、切り出した距離画像に、ステップS305で出力した対象物領域を対応させ、対象物領域以外の領域にマスキングを施す。具体的には、ステップS402で切り出した包含領域のうち、対象物領域に対応する領域以外の領域のピクセル値を0とする。そして、ステップS404では、対象物領域に包含されるピクセルの各D値に対して正規化処理を行う。具体的には、平均値が1、分散値が1となるようにD値を変換する。制御演算部は、このように、包含領域に囲まれたピクセル群の各D値に対して、対象物領域の内外で異なる変換を行うことによって距離分布画像を生成し、出力する(ステップS405)。
図7は、ステップS500で示した、対象物の位置を算出する手順を示すフロー図と、処理の一例を概念的に示す概念図である。制御演算部は、ステップS405で出力された距離分布画像を取り込み、メモリに展開する(ステップS501)。そして、包含領域の中心に位置するピクセルを開始点として、対象ピクセルを同心円状に拡げつつ、変換されたD値が「1」のピクセルを探索する。具体的には、変換されたD値が1−δから1+δ(δは予め定められた微少量)の範囲に含まれるピクセルを探す。見つかったら、当該ピクセルの座標を代表座標とし、そのピクセルの変換前のD値を対象物の距離として出力する(ステップS503)。
なお、対象物の距離の演算は、これに限らず、例えば、ステップS404の正規化処理直前の距離画像を利用することもできる。具体的には、対象物領域に囲まれたピクセルの平均D値を算出し、これを対象物の距離とすることもできる。また、対象物領域に含まれるピクセルの重心座標値を算出し、その座標値に最も近いピクセルが有するD値を対象物の距離としても良い。
図8は、ステップS600で示した、姿勢推定の手順を示すフロー図と、処理の一例を概念的に示す概念図である。制御演算部は、ステップS203またはステップS215で出力した対象物のカテゴリと、ステップS405で出力した距離分布画像を取り込む。
カテゴリごとに用意されたDCNN(Deep convolutional neural networks)は、それぞれ事前に学習を終えており、制御演算部は、取り込んだカテゴリに対応するDCNNを選択して、取り込んだ距離分布画像を特徴量に変換する(ステップS602)。変換された特徴量Fxは、例えば512次元のベクトルで表される。
制御演算部は、ステップS603で、選択したDCNNに対応する管理テーブルを読み込む。管理テーブルは、ディープラーニングによる照合モデルの学習済みテーブルである。具体的には、距離分布画像に相当する距離画像と対象物の姿勢とを対応付けた教師データからディープラーニングによって学習された後の全結合層の特徴量と対象物の姿勢との対応を示す、対象物のカテゴリごとに作成されたテーブルである。管理テーブルの一例をフロー図の右側に示す。対象物の姿勢は、例えば3×3の回転行列Rで規定され、それぞれの姿勢に、例えば512次元のベクトルFが対応付けられて、インデックス番号により管理されている。
制御演算部は、ステップS604で、変換された特徴量Fxが、管理テーブルに記述されたどの特徴量Fと最も近いかを探索する。フロー図の右側に3次元空間による概念図を示すが、実際には512次元の特徴量空間に散らばったインデックス個数分の、教師データから生成された特徴点Fの中から、最近傍の特徴点Fnを探索するノルム演算を行う。
制御演算部は、最近傍の特徴点Fnを決定したら、管理テーブルから対応する姿勢(3×3の回転行列Rn)を抽出して、対象物の姿勢として出力する(ステップS605)。以上の演算を経て、対象物の種類(カテゴリ)、位置および姿勢の推定結果が全て揃うことになる。
ここで、図8の処理で用いたDCNNの事前学習について説明する。図9は、ディープラーニング(DCNN)による事前学習を説明する説明図である。ここでは、カテゴリ「カップ」の管理テーブルを作成するまでの手順について説明する。
事前学習においては、カップをさまざまな姿勢で撮像して処理した入力画像を準備する。入力画像は、カテゴリ「カップ」に対して規定された画像領域(例えば128ピクセル×128ピクセル)を有する距離画像であり、ステップS404で行った正規化と同様の処理が施されている。それぞれの入力画像には、撮像したカップの、計測された「正解」としての姿勢(ここでは、3×3の回転行列R)が関連づけられており、入力画像と姿勢は、ペアとして教師データとなる。教師データは、例えば、ヨー、ピッチ、ロールのそれぞれの回転軸ごとに10度刻みで36クラスとして与える。
DCNNは、入力画像を畳み込み層とプーリング層のペアが連続する特徴抽出部へ入力し、複数の全結合層と出力層から成る識別層を経て出力した出力層の尤度が「正解」の姿勢ほど高くなるように学習を繰り返す。そして、学習後のひとつの全結合層の結果を特徴量Fとして利用する。本実施形態においては、特徴抽出部に接続される最初の全結合層の結果を利用した。
このように得られた特徴量Fと入力画像に対する姿勢Rとを関連付けることにより、上述の管理データを作成することができる。他のカテゴリについても同様の処理を行うことにより、カテゴリごとの管理テーブルを作成することができる。なお、姿勢の与え方は3×3の回転行列Rの形式でなくても良く、四元数(q1,q2,q3,q4)の形式であっても、3軸のそれぞれをsin値とcos値で表現する形式であっても構わない。管理テーブルは、それぞれの形式にしたがって記述される。
以上、DCNNを用いた姿勢推定を説明したが、ステップS600の姿勢推定は、他の手法を利用することもできる。例えば、128ピクセル×128ピクセルから成る画像領域の全ピクセルを用いてマッチング処理を行う「Pixel」や、主成分分析を用いる「PCA」を利用しても良い。PCAについては、文献「電子情報通信学会誌 85(4),252−258,2002−04−01」の「パラメトリック固有空間法による画像認識」等に提案されている手法を用いることができる。
ただし、DCNNによる学習によれば、さまざまな姿勢に対する特徴量を互いに離散化させることができるので、照合する対象物の特徴量を一対一に対応させやすく、精度の高い姿勢結果を出力することができる。
図10は、姿勢推定の実験結果を示す結果一覧である。ここでは、姿勢を推定したい対象物として「カップ」を設定し、「Pixel」「PCA」「DCNN」のそれぞれでカップの姿勢を推定した。「テスト:すべて」は、カップの取っ手が画像領域に現れない場合も含むテストであり、「テスト:容易」は、カップの取っ手が画像領域に現れる場合のみのテストである。
図の実験結果は、ヨー、ピーチ、ロールのそれぞれの回転角において、推定した姿勢が実際の姿勢とどれ程ずれたかを平均角度で表す誤差角度と、その標準偏差とを示している。図からもわかるように、DCNNの結果が、誤差角度も相対的に小さく、ばらつき(標準偏差)も相対的に小さい。すなわち、姿勢を精度良く検出できていると言える。
以上説明した本実施形態では、ステップS605の姿勢出力において、最も近い特徴量Fnに対応する姿勢Rnを出力したが、特徴量Fの数が少ないような場合には、特徴量Fnに隣接する特徴量Fも利用して、補間処理によって最近接点となる仮想的な特徴量Fiを算出しても良い。算出した特徴量Fiと算出に用いた近傍の特徴点Fとの距離の比を用いて、姿勢を特定することができる。
また、本実施形態においては、ロボットハンドが対象物を把持する場合に必要な事前の情報として、対象物の種類、位置、姿勢を検出した。しかし、対象物の種類、位置、姿勢の検出結果の利用は、このような用途に限らず、さまざまな状況において活用し得る。

Claims (5)

  1. 三次元環境下に配置された対象物の種類と位置と姿勢を検出する検出方法であって、
    前記対象物を撮像して処理された、ピクセルごとに色情報を有するカラー画像データと、ピクセルごとに距離情報を有する距離画像データとを取得する取得ステップと、
    前記カラー画像データの画像領域から前記対象物を取り囲む包含領域と前記対象物の種類を推定する第1推定ステップと、
    前記包含領域の外部領域の情報を用いて前記包含領域から前記対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する抽出ステップと、
    前記距離画像データの画像領域に前記抽出ステップで抽出した前記対象物領域を対応させて切り取った距離分布画像を生成する生成ステップと、
    前記生成ステップで生成した前記距離分布画像を用いて前記対象物の位置を算出する算出ステップと、
    前記第1推定ステップで推定した前記対象物の種類と、前記生成ステップで生成した距離分布画像とを、予め準備された照合モデルと照合することにより、前記対象物の姿勢を推定する第2推定ステップと
    を含む検出方法。
  2. 前記生成ステップは、前記距離画像データの画像領域から、前記対象物領域に対応する領域を取り囲む矩形領域を前記距離分布画像の画像領域として切り取り、切り取った画像領域のうち前記対象物領域に対応する領域以外の領域のピクセル値を0とし、前記対象物領域に対応する領域のピクセル値を平均値が1、分散値が1となるように正規化して、前記距離分布画像を生成する請求項1に記載の検出方法。
  3. 前記照合モデルは、前記距離分布画像に相当する距離画像と前記対象物の姿勢とを対応付けた教師データからディープラーニングによって学習された後の全結合層の特徴量と前記対象物の姿勢との対応を示す、前記対象物の種類ごとに作成された管理テーブルを含み、
    前記第2推定ステップは、前記距離分布画像を、前記第1推定ステップで推定した前記対象物の種類に対応する、前記ディープラーニングで学習した畳み込みニューラルネットワークへ入力して得られた特徴量を、前記畳み込みニューラルネットワークと関連づけられた前記管理テーブルの特徴量と照合することにより、前記対象物の姿勢を推定する請求項1または2に記載の検出方法。
  4. 前記抽出ステップは、前記包含領域を予め定められた倍率で拡張した拡張領域と、前記外部領域として前記拡張領域を取り囲む外周領域とを定め、前記外周領域の色分布情報を用いてグラフカット法により前記拡張領域から前記背景領域を除去して、前記対象物領域を抽出する請求項1から3のいずれか1項に記載の検出方法。
  5. 三次元環境下に配置された対象物の種類と位置と姿勢を検出する検出プログラムであって、
    前記対象物を撮像して処理された、ピクセルごとに色情報を有するカラー画像データと、ピクセルごとに距離情報を有する距離画像データとを取得する取得ステップと、
    前記カラー画像データの画像領域から前記対象物を取り囲む包含領域と前記対象物の種類を推定する第1推定ステップと、
    前記包含領域の外部領域の情報を用いて前記包含領域から前記対象物以外の背景領域を除去し、対象物の輪郭によって囲まれた対象物領域を抽出する抽出ステップと、
    前記距離画像データの画像領域に前記抽出ステップで抽出した前記対象物領域を対応させて切り取った距離分布画像を生成する生成ステップと、
    前記生成ステップで生成した前記距離分布画像を用いて前記対象物の位置を算出する算出ステップと、
    前記第1推定ステップで推定した前記対象物の種類と、前記生成ステップで生成した距離分布画像とを、予め準備された照合モデルと照合することにより、前記対象物の姿勢を推定する第2推定ステップと
    をコンピュータに実行させる検出プログラム。
JP2017021999A 2017-02-09 2017-02-09 対象物の姿勢等を検出する検出方法、検出プログラム Active JP6912215B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017021999A JP6912215B2 (ja) 2017-02-09 2017-02-09 対象物の姿勢等を検出する検出方法、検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017021999A JP6912215B2 (ja) 2017-02-09 2017-02-09 対象物の姿勢等を検出する検出方法、検出プログラム

Publications (2)

Publication Number Publication Date
JP2018128897A true JP2018128897A (ja) 2018-08-16
JP6912215B2 JP6912215B2 (ja) 2021-08-04

Family

ID=63173442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017021999A Active JP6912215B2 (ja) 2017-02-09 2017-02-09 対象物の姿勢等を検出する検出方法、検出プログラム

Country Status (1)

Country Link
JP (1) JP6912215B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020060838A (ja) * 2018-10-05 2020-04-16 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
WO2020121500A1 (ja) * 2018-12-13 2020-06-18 富士通株式会社 推定方法、推定プログラムおよび推定装置
JP2020107142A (ja) * 2018-12-27 2020-07-09 パナソニックIpマネジメント株式会社 認識方法、認識システム、ロボット制御方法、ロボット制御システム、ロボットシステム、認識プログラム、及びロボット制御プログラム
JP2020110851A (ja) * 2019-01-08 2020-07-27 株式会社島津製作所 ピッキングシステム
JP2021149970A (ja) * 2020-03-16 2021-09-27 清華大学Tsinghua University セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体
US11544855B2 (en) 2020-03-18 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
JP2023519012A (ja) * 2020-03-27 2023-05-09 アークソフト コーポレイション リミテッド 画像処理方法及び装置
US11967088B2 (en) 2020-03-18 2024-04-23 Samsung Electronics Co., Ltd. Method and apparatus for tracking target

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210061839A (ko) 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020060838A (ja) * 2018-10-05 2020-04-16 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
JP7208758B2 (ja) 2018-10-05 2023-01-19 株式会社デンソーアイティーラボラトリ 学習方法および学習システム
JPWO2020121500A1 (ja) * 2018-12-13 2021-09-30 富士通株式会社 推定方法、推定プログラムおよび推定装置
WO2020121500A1 (ja) * 2018-12-13 2020-06-18 富士通株式会社 推定方法、推定プログラムおよび推定装置
JP7124888B2 (ja) 2018-12-13 2022-08-24 富士通株式会社 推定方法、推定プログラムおよび推定装置
JP7253731B2 (ja) 2018-12-27 2023-04-07 パナソニックIpマネジメント株式会社 認識方法、認識システム、ロボット制御方法、ロボット制御システム、ロボットシステム、認識プログラム、及びロボット制御プログラム
JP2020107142A (ja) * 2018-12-27 2020-07-09 パナソニックIpマネジメント株式会社 認識方法、認識システム、ロボット制御方法、ロボット制御システム、ロボットシステム、認識プログラム、及びロボット制御プログラム
JP2020110851A (ja) * 2019-01-08 2020-07-27 株式会社島津製作所 ピッキングシステム
JP2021149970A (ja) * 2020-03-16 2021-09-27 清華大学Tsinghua University セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体
JP7426350B2 (ja) 2020-03-16 2024-02-01 清華大学 セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体
US11544855B2 (en) 2020-03-18 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
US11967088B2 (en) 2020-03-18 2024-04-23 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
JP2023519012A (ja) * 2020-03-27 2023-05-09 アークソフト コーポレイション リミテッド 画像処理方法及び装置
JP7448679B2 (ja) 2020-03-27 2024-03-12 アークソフト コーポレイション リミテッド 画像処理方法及び装置

Also Published As

Publication number Publication date
JP6912215B2 (ja) 2021-08-04

Similar Documents

Publication Publication Date Title
JP6912215B2 (ja) 対象物の姿勢等を検出する検出方法、検出プログラム
JP5839929B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP5671281B2 (ja) 位置姿勢計測装置、位置姿勢計測装置の制御方法及びプログラム
JP5618569B2 (ja) 位置姿勢推定装置及びその方法
JP6004809B2 (ja) 位置姿勢推定装置、情報処理装置、情報処理方法
JP7094702B2 (ja) 画像処理装置及びその方法、プログラム
JP2018523881A (ja) データを位置合わせする方法及びシステム
JP2016161569A (ja) オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム
CN110070567B (zh) 一种地面激光点云配准方法
JP4709668B2 (ja) 3次元物体認識システム
JP2011198349A (ja) 情報処理方法及びその装置
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN113409384A (zh) 一种目标物体的位姿估计方法和系统、机器人
JP2021163503A (ja) 2次元カメラによる3次元の姿勢推定
CN114494594B (zh) 基于深度学习的航天员操作设备状态识别方法
CN111583342A (zh) 一种基于双目视觉的目标快速定位方法及装置
CN113393524B (zh) 一种结合深度学习和轮廓点云重建的目标位姿估计方法
JP7178803B2 (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
JP5976089B2 (ja) 位置姿勢計測装置、位置姿勢計測方法、およびプログラム
CN116229189B (zh) 基于荧光内窥镜的图像处理方法、装置、设备及存储介质
JPH07103715A (ja) 視覚に基く三次元位置および姿勢の認識方法ならびに視覚に基く三次元位置および姿勢の認識装置
JP5462662B2 (ja) 位置姿勢計測装置、物体識別装置、位置姿勢計測方法及びプログラム
KR101673144B1 (ko) 부분 선형화 기반의 3차원 영상 정합 방법
JP2021163502A (ja) 複数の2次元カメラによる3次元の姿勢推定
Joglekar et al. Area based stereo image matching technique using Hausdorff distance and texture analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210708

R150 Certificate of patent or registration of utility model

Ref document number: 6912215

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150