JP2021056542A

JP2021056542A - 画像データからの物体のポーズ検出

Info

Publication number: JP2021056542A
Application number: JP2019150869A
Authority: JP
Inventors: エルベオドレン; Audren Herve; ノゲスフェルナンドカマロ; Camaro Nogues Fernando; ランケフー; Lanke Fu; ナッタワンチャロエングンワニッチ; Charoenkulvanich Nathawan; ロモホセイバンロペス; Romo Jose Ivan Lopez; 睦月榊原; Mutsuki Sakakibara; マルコシミッチ; Simic Marko
Original assignee: Ascent Robotics Inc
Current assignee: Ascent Robotics Inc
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-04-08
Anticipated expiration: 2039-08-21
Also published as: US20210056247A1; JP7129065B2

Abstract

【課題】ポーズ検出実行時間およびデータモダリティ要件の両方を低く維持しながら精度を最大化する学習方法を提供する。【解決手段】物体のポーズを検出する方法は、物体のコンピュータモデルを取得する段階と、現実的環境シミュレータでコンピュータモデルをシミュレーションする段階と、複数のポーズ表現を含む訓練データを取り込む段階と、を含む。各ポーズ表現が、複数のポーズのうちの１つにあるコンピュータモデルの画像を含み、複数のポーズのうちの１つは、画像に示されるコンピュータモデルのポーズ指定を含むラベルと対になっており、コンピュータモデルの画像およびポーズ指定はシミュレータによって規定される。さらに、ポーズ表現に学習プロセスを適用して、物体の画像をポーズ指定に関連付けるためのポーズ決定関数を生成する段階を備える。【選択図】図３

Description

本発明は、ポーズ検出に関する。より具体的には、本発明は、コンピュータモデルポーズのシミュレーションで訓練したポーズ決定関数に関する。

製品の製造は、ますます多くのロボット工学技術を用いている。例えば、組み立てラインは、最終製品を組み立てる際に部品を検出し、拾い上げ、まとめるロボットアームを用いる場合がある。プログラミングの負荷を低減させるため、人間の介入が増加する場合がある。例えば、部品を手で適切な位置および向きに配置することによって、ロボットアームは最小限の検出能力のみでよい。ロボットアームが、物体を検出し操作するその能力を高めるにつれて、人間の介入を低減できる場合があり、それにより製造コストも低減され得る。

物体を効果的に操作するためには、ロボットシステムは、そのような物体がどのように６Ｄ空間（３軸に沿った位置および３軸の周りの向きで規定できる）に置かれているかを認識できる必要がある。そのようなロボットシステムを訓練しその性能を評価するために、多くの環境多様性を含む大量の訓練データを取得しなければならない。そのようなロボットシステムの設計者は、実行時間およびデータモダリティ要件の両方を低く維持しながら精度を最大化する試みにおいて課題に直面する。

本発明の一態様によれば、コンピュータによって実行可能なコンピュータプログラムであって、コンピュータに、物体のコンピュータモデルを取得する手順と、現実的環境シミュレータでコンピュータモデルをシミュレーションする手順と、複数のポーズ表現を含む訓練データを取り込む手順であって、各ポーズ表現が、複数のポーズのうちの１つコンピュータモデルの画像を含み、複数のポーズのうちの１つは、画像に示されるコンピュータモデルのポーズ指定を含むラベルと対になっており、コンピュータモデルの画像およびポーズ指定はシミュレータによって規定される、取り込む手順と、ポーズ表現に学習プロセスを適用して、物体の画像をポーズ指定に関連付けるためのポーズ決定関数を生成する手順と、を含む操作を実行させる、コンピュータプログラムが提供される。

この態様はまた、コンピュータプログラムの命令を実行するコンピュータによって実行される方法、およびその方法を実行する装置を含んでもよい。

なお、上記の発明の概要は、本発明の実施形態の必要な特徴の全てを列挙したものではない。上記の特徴のサブコンビネーションもまた本発明となり得る。

本発明の一実施形態による、ＣＡＤモデルから補正されたポーズ検出までのハードウェアおよびソフトウェア要素間の相互作用の図を示す。

本発明の一実施形態による、ポーズ検出のための例示的なハードウェア構成を示す。

本発明の一実施形態による、ポーズ検出のための操作フローを示す。

本発明の一実施形態による、訓練データを取り込むためのコンピュータモデルのシミュレーションのための操作フローを示す。

本発明の一実施形態による、ポーズ決定関数を生成するための操作フローを示す。

本発明の一実施形態による、ポーズ指定を決定するための操作フローを示す。

続いて、例示の本発明の実施形態が説明される。例示の実施形態は、特許請求の範囲に係る本発明を限定するものではなく、実施形態に記載された特徴の組み合わせは、必ずしも本発明に不可欠なものではない。

図１は、本発明の一実施形態による、ＣＡＤモデルから補正されたポーズ検出までのハードウェアおよびソフトウェア要素間の相互作用の図を示す。この図は、シミュレーション、ディープラーニング、および伝統的なコンピュータ・ビジョンからなる複数の手順を用いる手法を示す。この実施形態では、コンピュータ支援設計（ＣＡＤ）モデル１１２が取得される。ＣＡＤモデル１１２は、物体の３Ｄスキャンから作成されてもよく、または手動で設計されてもよい。組み立てラインなどのいくつかの場合では、ＣＡＤモデルは既に作成されている場合があり、単に再使用されてもよい。

ランダムなポーズのＣＡＤモデル１１２のインスタンスの画像を作成するために、ＣＡＤモデル１１２の１つまたは複数のインスタンスがシミュレータ１０４によって使用される。シミュレータ１０４が使用されてもよく、その結果、場合によっては「グランドトルース」と呼ばれる、ＣＡＤモデル１１２の各インスタンスの実際のポーズがシミュレータから容易に出力され得る。このようにして、非常に退屈で時間のかかる場合がある、実際のポーズの手動での導出は必要なくなる。ＣＡＤモデル１１２の各インスタンスのランダムなポーズは、シミュレーション内で物体を落下、衝突、振とう、撹拌させるなどによって達成され得る。シミュレータ１０４は、これらの操作を単純化するために物理エンジンを使用する。一旦ＣＡＤモデル１１２の各インスタンスが静止位置に定着すると、画像が取り込まれる。ポーズと相関しない特徴はランダム化され得る。したがって、照明効果を変えることができ、表面の色、テクスチャ、および光沢はすべてランダム化することができる。それにより、ポーズを決定するために、ポーズに相関する特徴、例えば、形状データ、縁などに学習プロセスを効果的に集中させることができる。画像にノイズを付加してもよく、その結果、学習プロセスは、物体の実像の不完全さに慣れることができる。このとき照明効果も役割を果たしており、それは、実際の画像は常に理想的な照明条件下で撮られるわけではなく、それにより、関係するいくらかの側面が検出困難なままとなる場合があるためである。

シミュレータ１０４により取り込まれた各カラー画像は、ラベルとして使用されるシミュレータ１０４から出力される対応する実際のポーズ出力と対になる。この実施形態では、学習プロセスは、未訓練の畳み込みニューラルネットワーク１１７Ｕであり、これは各カラー画像およびラベル対に適用される。カラー画像およびラベル対が訓練データをなす。訓練データは、訓練プロセス前または訓練プロセス中に生成され得る。訓練データが訓練プロセスとは別の計算用リソースを使用して生成される実施形態では、各対が生成されると同時にそれを適用する方がより一時的に効果的である場合がある。訓練プロセス中、未訓練の畳み込みニューラルネットワーク１１７Ｕからの出力は対応するラベルと比較され、重みが適宜調整される。訓練プロセスは、訓練が完了したことを示す条件が満たされるまで継続される。この条件は、特定の量の訓練データの適用、未訓練の畳み込みニューラルネットワーク１１７Ｕの重みの定着、閾値精度に達する出力などであり得る。

一旦訓練が完了すると、結果として得られる訓練済みの畳み込みニューラルネットワーク１１７Ｔが物理的環境において使用される準備が整う。この実施形態では、物理的環境は、ＣＡＤモデル１１２の実体である物体を含む。これらの物体は、カメラ１２５によって撮影され、それにより物体のうちの１つまたは複数のカラー画像をもたらす。カラー画像中の各物体の６Ｄポーズを出力するために、訓練済みの畳み込みニューラルネットワーク１１７Ｔがこのカラー画像に適用される。カメラ１２５はより基本的な性能の劣るカメラである場合があり、かつ照明条件は理想的でない場合があるものの、訓練済みの畳み込みニューラルネットワーク１１７Ｔは、訓練中のシミュレーション画像と同じ方式でこのカラー画像を適切に処理することができるはずである。

一旦カラー画像中の各物体の６Ｄポーズが出力されると、最後の操作の補正１０９が実行される。補正操作１０９は、もう一度ＣＡＤモデル１１２を利用して、検出された各６Ｄポーズに対して微調整を行う。この実施形態では、ＣＡＤモデル１１２は、出力された各６Ｄポーズに従って画像を再作成し、次いで、画像間でずれているように見える任意の物体の６Ｄポーズを調整するために使用される。６Ｄポーズが調整されるにつれて、再作成された画像が適宜操作され、画像が一致するまで比較が継続される。この実施形態では、補正操作１０９は、別の学習プロセスではなく、伝統的な手書きのアルゴリズムである。

一旦補正１０９が完了すると、最終的なポーズ１１９が出力される。最終的なポーズ１１９は、実施形態の状況に応じて多様な方法で利用され得る。例えば、組み立てラインにおいて、ロボットアームは最終的なポーズ１１９を利用して、ロボットアームが組み立てステップを実行することを可能にする方式で各物体を戦略的に掴むことができる。ロボットアーム以外、および組み立てライン以外にも、多くの用途が存在する。適切なポーズ検出を必要とする用途の数は増加している。

図２は、本発明の一実施形態による、ポーズ検出のための例示的なハードウェア構成を示す。例示的なハードウェア構成は、ネットワーク２２８と通信し、かつＣＡＤモデラ２２４、カメラ２２５、およびロボットアーム２２６と相互作用し得るポーズ検出デバイス２２０を含む。ポーズ検出デバイス２２０は、オンプレミスのアプリケーションを実行し、それを使用するクライアントコンピュータをホストするサーバコンピュータまたはメインフレームコンピュータなどのホストコンピュータであり得る。この場合、ポーズ検出デバイス２２０は、ＣＡＤモデラ２２４、カメラ２２５、およびロボットアーム２２６と直接接続されなくてよく、ネットワーク２２８を介して接続される。ポーズ検出デバイス２２０は、２以上のコンピュータを含むコンピュータシステムであってもよい。ポーズ検出デバイス２２０は、ポーズ検出デバイス２２０のユーザ用のアプリケーションを実行するパーソナルコンピュータであってもよい。

ポーズ検出デバイス２２０は、論理部２００、格納部２１０、通信インタフェース２２１、および入／出力コントローラ２２２を含む。論理部２００は、様々な部分の操作をプロセッサまたはプログラマブル回路に実行させるためにプロセッサまたはプログラマブル回路で実行可能なプログラム命令を集合的に格納している１つまたは複数のコンピュータ可読記憶媒体を含むコンピュータプログラムプロダクトであってよい。論理部２００は、代替的に、アナログもしくはデジタルプログラマブル回路、またはそれらの任意の組み合わせであり得る。論理部２００は、通信を介して相互作用する、物理的に切り離された格納装置または回路から構成され得る。格納部２１０は、本明細書のプロセスの実行中に論理部２００がアクセスするための実行不能データを格納することができる不揮発性コンピュータ可読媒体であり得る。通信インタフェース２２１は、格納部２１０などの記録媒体に設けられた送信バッファ領域に格納され得る送信データを読み取り、読み取った送信データをネットワーク２２８へ送信する、またはネットワーク２２８から受信した受信データを、記録媒体に設けられた受信バッファ領域に書き込む。入／出力コントローラ２２２は、パラレルポート、シリアルポート、キーボードポート、マウスポート、モニターポートなどを介してＣＡＤモデラ２２４、カメラ２２５、およびロボットアーム２２６などの様々な入出力ユニットに接続して、コマンドを受け入れ、情報を提示する。

取得部２０２は、ポーズ検出の過程で、ＣＡＤモデラ２２４、カメラ２２５、ロボットアーム２２６、およびネットワーク２２８からのデータの取得を実行する論理部２００の部分である。取得部は、物体のコンピュータモデル２１２を取得してもよい。取得部２０２は、コンピュータモデル２１２を格納部２１０に格納してもよい。取得部２０２は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

シミュレーション部２０４は、現実的環境におけるコンピュータモデルをシミュレーションする論理部２００の部分である。シミュレーション部２０４は、ランダムなポーズの物体のコンピュータモデルをシミュレーションしてもよい。その際、シミュレーション部２０４は、コンピュータモデルの運動を誘発するなどのために物理エンジンを含んでもよい。シミュレーション部２０４は、物理エンジンなどのシミュレーションパラメータ２１４を格納部２１０に格納してもよい。シミュレーション部２０４は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

取込み部２０５は、訓練データを取り込む論理部２００の部分である。訓練データは、複数のポーズ表現２１５を含んでもよく、各ポーズ表現２１５は、画像に示されるコンピュータモデルのポーズ指定を含むラベルと対になった複数のポーズのうちの１つにあるコンピュータモデルの画像を含む。画像および対応するポーズ指定は、シミュレーション部２０４によって規定される。取込み部２０５は、ポーズ表現２１５を格納部２１０に格納してもよい。取込み部２０５は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

関数生成部２０６は、ポーズ検出の過程で、ポーズ表現に学習プロセスを適用してポーズ決定関数を生成する論理部２００の部分である。例えば、ポーズ決定関数は、物体の画像をポーズ指定と関連付けることができる。関数生成部２０６は、ポーズ決定関数パラメータ２１７などの訓練済みの学習プロセスのパラメータを格納部２１０に格納してもよい。関数生成部２０６は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

ポーズ決定部２０８は、ポーズ検出の過程で、ポーズ決定関数を物体の画像に適用することによって物体のポーズ指定を決定する論理部２００の部分である。例えば、ポーズ指定位置および向きの６Ｄ指定である。その際、ポーズ決定部２０８は、格納部２１０に格納されたポーズ決定関数パラメータ２１７、およびカメラ２２５によって取り込まれた物理的環境におけるコンピュータモデル２１２と同一な物体の画像を利用してもよく、それにより６Ｄポーズ指定の出力がもたらされる。ポーズ決定部２０８は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

ポーズ補正部２０９は、ポーズ検出の過程で、物体のポーズ指定を補正する論理部２００の部分である。その際、ポーズ補正部２０９は、格納部２１０に格納された補正パラメータ２１８およびコンピュータモデル２１２を利用してもよく、それにより補正された６Ｄポーズ指定の出力がもたらされる。ポーズ補正部２０９は、以下のフローチャートに記載される付加的機能を実行するための小区分を含んでもよい。そのような小区分は、それらの機能に関連付けられた名称で呼ばれ得る。

この実施形態では、ポーズ検出デバイス２２０は、訓練データを生成し、学習プロセスを訓練してポーズ決定関数を生成し、次いで、単にコンピュータモデルを入力することによって自動的に訓練済みのポーズ決定関数を使用することを可能にし得る。

他の実施形態では、ポーズ検出デバイスは、本明細書のプロセスを実行するために論理関数を処理することができる任意の他のデバイスであってもよい。ポーズ検出デバイスは、入力、出力、およびすべての情報が直接接続されている環境ではネットワークに接続される必要がない場合がある。論理部および格納部は完全に別個のデバイスでなくてもよく、１つまたは複数のコンピュータ可読媒体を共有してもよい。例えば、格納部は、コンピュータ実行可能命令および論理部によってアクセスされるデータの両方を格納するハードドライブであってもよく、論理部は、中央処理装置（ＣＰＵ）およびランダムアクセスメモリ（ＲＡＭ）の組み合わせであってもよく、論理部では、本明細書のプロセスの実行中にＣＰＵによって実行されるために、コンピュータ実行可能命令が全体的にまたは部分的に複製され得る。特にニューラルネットワークを利用する実施形態では、１つまたは複数のグラフィック処理装置（ＧＰＵ）が論理部に含まれてもよい。

ポーズ検出デバイスがコンピュータである実施形態では、コンピュータにインストールされたプログラムは、コンピュータに、本発明の実施形態の装置またはその１もしくは複数の部（モジュール、コンポーネント、エレメントなどを含む）として機能させ得るか、またはそれに関連付けられる操作を実行させ得る、かつ／あるいはコンピュータに、本発明の実施形態のプロセスまたはそのステップを実行させ得る。そのようなプログラムは、コンピュータに、本明細書に記載のフローチャートおよびブロック図のいくつかもしくはすべてのブロックに関連付けられる特定の操作を実行させるために、プロセッサによって実行され得る。

他の実施形態では、カメラは、色情報に加えて各画素の深度情報を取り込むことができる深度カメラであってもよい。そのような実施形態では、取込み部はまた、シミュレーション部によって規定された深度情報も取り込み、学習関数は適宜訓練されることになる。換言すると、コンピュータモデルの画像は深度情報を含んでもよく、したがって、物体の画像の取り込みは、深度情報の取り込みも含む。しかしながら、多くの深度カメラは近距離では精度が良好でない場合がある。したがって、深度カメラは、より大きい規模の用途でより好適であり得る。

いくつかの実施形態では、単一の用途に複数のコンピュータモデルを使用することができる。シミュレーション部において複数のコンピュータモデルを容易にシミュレーションすることができるが、確実なポーズ決定関数を生成するためにより多くの訓練が要求され得る。例えば、単一の物体が、接続されているが相対的に移動可能な２つの構成要素を含む場合、そのような構成要素は個別の物体として扱われる場合があり、学習関数はそれに伴って訓練されることになる。さらなる実施形態では、ラベルは、構成要素間の関係を規定するパラメータを含み得る。より複雑な方法で形状を変化させる物体、例えば流れる、変形する、または多くの可動部を有する物体は、確実なポーズ決定関数を生成することが全くできない場合がある。

図３は、本発明の一実施形態による、ポーズ検出のための操作フローを示す。この操作フローは、ポーズ検出デバイス２２０または以下の操作を実行することができる任意の他のデバイスなどのポーズ検出デバイスによって実行され得るポーズ検出方法を提供し得る。

Ｓ３３０において、取得部２０２などの取得部はコンピュータモデルを取得する。例えば、取得部は、ネットワーク２２８などのネットワークを介して、ＣＡＤモデラ２２４などのＣＡＤモデラから、または別のソースからなど、直接的なユーザ入力から物体のコンピュータモデルを取得し得る。いくつかの実施形態では、取得部は、物体の３Ｄスキャンを行うことによってコンピュータモデルを生成し得る。

Ｓ３４０において、シミュレーション部２０４などのシミュレーション部は、現実的環境においてコンピュータモデルをシミュレーションする。例えば、シミュレーション部は、現実的環境においてコンピュータモデルをシミュレーションしてもよい。いくつかの実施形態では、シミュレーション部は、コンピュータモデルの１より多くのインスタンスを同時にシミュレーションしてもよい。

Ｓ３４６において、取込み部２０５などの取込み部は、ポーズ表現の訓練データを取り込む。例えば、取込み部は、複数のポーズ表現を取り込んでもよく、各ポーズ表現は、画像に示されるコンピュータモデルのポーズ指定を含むラベルと対になった複数のポーズのうちの１つにあるコンピュータモデルの画像を含む。画像および対応するポーズ指定は、シミュレーション部によって規定される。シミュレーション部がコンピュータモデルの１より多くのインスタンスをシミュレーションする実施形態では、各画像もコンピュータモデルの１より多くのインスタンスを含んでもよく、コンピュータモデルの各インスタンスは固有のポーズにある。

Ｓ３５０において、関数生成部２０６などの関数生成部はポーズ決定関数を生成する。例えば、関数生成部は、学習プロセスをポーズ表現に適用して、物体の画像をポーズ指定と関連付けるポーズ決定関数を生成し得る。

Ｓ３６０において、ポーズ決定部２０８などのポーズ決定部はポーズ指定を決定する。例えば、ポーズ決定部は、ポーズ検出の過程で、ポーズ決定関数を物体の画像に適用することによって物体のポーズ指定を決定し得る。いくつかの実施形態では、ポーズ補正部２０９などのポーズ補正部は、物体のポーズ指定を補正し得る。いくつかの実施形態では、ポーズ補正部は、物体のポーズ指定に従ったコンピュータモデルの画像と物理的環境における物体の画像との間の差異を低減させるために、直接画像位置合わせ（ＤｉｒｅｃｔＩｍａｇｅＡｌｉｇｎｍｅｎｔ，ＤＩＡ）を適用し得る。深度情報が利用可能である実施形態などのいくつかの実施形態では、ポーズ補正部は、物体のポーズ指定に従ったコンピュータモデルの画像と物理的環境における物体の画像との間の差異を低減させるために、コヒーレント点ドリフト（ＣｏｈｅｒｅｎｔＰｏｉｎｔＤｒｉｆｔ，ＣＰＤ）を適用し得る。

Ｓ３７０において、ロボットアーム２２６などのロボットアームが位置決めされ得る。例えば、ポーズ検出デバイスは、ポーズ指定に従いロボットアームを位置決めし得る。いくつかの実施形態では、ロボットアームの位置決めは、物体の画像を取り込んだカメラ、例えばカメラ２２５の位置に基づいて、ロボットアームに対する物体の位置を決定することを含み得る。

図４は、本発明の一実施形態による、図３のＳ３４０およびＳ３４６などの、訓練データを取り込むためのコンピュータモデルのシミュレーションのための操作フローを示す。この操作フロー内の操作は、シミュレーション部２０４などのシミュレーション部、または対応して名付けられたその小区分、および取込み部２０５などの取込み部、または対応して名付けられたその小区分によって実行され得る。

Ｓ４４２において、シミュレーション部２０４またはその小区分などの環境生成部は、シミュレーション環境を生成する。例えば、環境生成部は、その内部がコンピュータモデルとなり、かつ一部がプラットフォームを形成する３Ｄ空間を作成し得る。環境の残りの詳細、例えば背景色および物体は、たとえあったとしてもシミュレーションの目的にはあまり重要ではなく、学習プロセスがそれらに値を割り当てることを防ぐためにさらにランダム化される。

Ｓ４４４において、シミュレーション部２０４またはその小区分などのランダム割当部は、色、テクスチャ、および照明をランダムに割り当てる。例えば、ランダム割当部は、現実的環境シミュレータ内で、コンピュータモデルおよびプラットフォームに１つまたは複数の表面色をポーズごとにランダムに割り当て得る。別の例として、ランダム割当部は、現実的環境シミュレータ内で、コンピュータモデルおよびプラットフォームに１つまたは複数の表面テクスチャをポーズごとにランダムに割り当て得る。さらに別の例として、ランダム割当部は、現実的環境シミュレータ内で、環境における照明効果をポーズごとにランダムに割り当て得る。そのような照明効果は、明るさ、コントラスト、色温度、および方向のうちの少なくとも１つを含み得る。

Ｓ４４５において、シミュレーション部２０４またはその小区分などの運動誘発部は、コンピュータモデルの運動を誘発する。例えば、運動誘発部は、コンピュータモデルがランダムなポーズを呈するように、前記現実的環境シミュレータ内で、プラットフォームに対する前記コンピュータモデルの運動を誘発し得る。誘発される運動の例としては、プラットフォームまたはコンピュータモデルの他のインスタンスに対してコンピュータモデルを落下させ、回転させ、衝突させることが挙げられる。

Ｓ４４６において、取込み部２０５などの取込み部は、画像およびポーズ指定を取り込み得る。例えば、取込み部は、シミュレーション内でソフトカメラを規定し、そのソフトカメラを使用してコンピュータモデルの画像を取り込むことなどによって、シミュレーション内のコンピュータモデルの画像を取り込み得る。取込み部はまた、コンピュータモデルのポーズ指定を取り込んでもよい。ポーズ指定は、ソフトカメラの視点からであってもよい。あるいは、ポーズ指定は、いくつかの他の視点からであってもよく、例えば、ポーズ指定を変換することによって得られる。シミュレーション部がコンピュータモデルの１より多くのインスタンスをシミュレーションする実施形態では、各画像もコンピュータモデルの１より多くのインスタンスを含んでもよく、コンピュータモデルの各インスタンスは固有のポーズにあり、そのため、固有のポーズ指定と関連付けられる。

Ｓ４４８において、シミュレーション部は、取込み部によって十分な量の訓練データが取り込まれたかどうかを決定する。訓練データの量が不十分である場合、操作フローはＳ４４９に進み、そこで別の訓練データを取り込む準備をするために環境がリセットされる。十分な量の訓練データがある場合、操作フローは終了する。

図５は、本発明の一実施形態による、図３のＳ３５０などの、ポーズ決定関数を生成するための操作フローを示す。この操作フロー内の操作は、関数生成部２０６などの関数生成部または対応して名付けられたその小区分によって実行され得る。

Ｓ５５２において、関数生成部またはその小区分などの学習プロセス規定部は、学習プロセスを規定する。学習プロセスを規定することは、ニューラルネットワークの種類、ニューラルネットワークの次元、層の数などを規定することを含み得る。いくつかの実施形態では、学習プロセス規定部は、畳み込みニューラルネットワークとして学習プロセスを規定する。

Ｓ５５４において、関数生成部またはその小区分などのポーズ表現選択部は、複数のポーズ表現の中からポーズ表現を選択する。各ポーズ表現が処理されることを確実にするために、ポーズ決定関数を生成するための操作フローの反復が進むにつれて、以前に選択されていないポーズ表現のみがＳ５５４で選択され得る。ポーズ表現が取り込まれるとすぐに処理される実施形態では、ポーズ表現選択は必要でない場合がある。

Ｓ５５６において、関数生成部またはその小区分などの学習プロセス適用部は、学習プロセスを画像に適用する。学習プロセスをポーズ表現に適用することは、学習プロセスが出力を生成するように、画像を学習プロセスへの入力として使用することを含み得る。学習プロセスがニューラルネットワークを含み、かつポーズ表現がシミュレーション画像である実施形態では、学習プロセスは６Ｄポーズ指定を出力し得る。

Ｓ５５７において、関数生成部またはその小区分などの学習プロセス調整部は、シミュレーション部によって規定されるラベル、ポーズ指定を目標として用いて学習プロセスを調整する。ポーズ決定関数を生成するための操作フローの反復が進むにつれ、学習プロセス調整部は、ポーズ決定関数パラメータ２１７などの学習プロセスのパラメータを調整して、ポーズ決定関数となるように学習プロセスを訓練する。学習プロセスがニューラルネットワークを含み、ポーズ表現がシミュレーション画像である実施形態では、学習プロセス調整部は、ニューラルネットワークの重みを調整してもよく、学習プロセスは、画像内のコンピュータモデルのインスタンスごとに６Ｄポーズ指定を出力するように訓練され得る。例えば、ニューラルネットワークに画像が入力された後、ニューラルネットワークの実際の出力と対応するポーズ指定との間の誤差が算出される。一旦誤差が算出されると、次いで、この誤差は逆伝搬される、すなわち、誤差は、ネットワークの各重みに対する導関数として表される。一旦導関数が得られると、この導関数の関数に従ってニューラルネットワークの重みが更新される。

Ｓ５５９において、関数生成部は、すべてのポーズ表現が関数生成部によって処理されたかどうかを決定する。未処理のままのポーズ表現がある場合、操作フローはＳ５５４に戻り、そこで、処理のために別のポーズ表現が選択される。未処理のままのポーズ表現がない場合、操作フローは終了する。図５の操作フローが反復して実行されるにつれ、操作Ｓ５５４、Ｓ５５６、およびＳ５５７の反復は全体としてポーズ決定関数を生成する操作となる。図５の操作フローの終わりには、学習プロセスは、ポーズ決定関数となるのに十分な訓練を受けている。

この実施形態では訓練はすべてのポーズ表現が処理されたときに終了するものの、他の実施形態は、例えばエポックの数によって、または誤差の量に応じてなど、訓練が終わるときを決定するための異なる基準を含み得る。また、この実施形態では、学習プロセスのパラメータは各ポーズ表現の適用後に調整されるものの、他の実施形態では、例えばエポックごとに１回、または誤差の量に応じてなど、異なる間隔でパラメータを調整してもよい。最後に、この実施形態では、学習プロセスの出力がポーズ決定関数となり、これは学習関数の出力がポーズ指定であることを意味するものの、他の実施形態では、学習プロセス自体はポーズ指定を出力しないが、ポーズ指定をもたらすカメラのパラメータと組み合わされたいくつかの出力を行う場合がある。これらの実施形態では、目標の学習プロセス出力を適切に規定するために、訓練データはカメラのそのようなパラメータをポーズ指定から取り除くことによって生成され得る。これらの実施形態では、ポーズ決定関数は、訓練済みの学習プロセスと、出力をカメラのパラメータと組み合わせるための関数との両方を含む。

図６は、本発明の一実施形態による、図３のＳ３６０などの、ポーズ指定を決定するための操作フローを示す。この操作フロー内の操作は、ポーズ決定部２０８または対応して名付けられたその小区分などのポーズ決定部、およびポーズ補正部２０９または対応して名付けられたその小区分などのポーズ補正部によって実行され得る。

Ｓ６６２において、ポーズ決定部２０８またはその小区分などの画像取込み部は、物体の画像を取り込む。例えば、画像取込み部は、物理的環境における物体の画像を取り込み得る。画像取込み部は、カメラ２２５などのカメラ、または画像を取り込むための他のフォトセンサと通信し得る。ポーズ決定関数は、色情報が出力されるポーズ指定に影響を及ぼさないように効果的に訓練され得るものの、色付きで取り込まれた画像は、より多くの情報を提供することができ、その結果、例えばグレースケールで取り込まれた画像よりも縁においてそれらを表す情報のずれがより大きく、それにより、ポーズ決定関数が画像中の物体を画定する縁より容易に検出することが可能となる。

Ｓ６６４において、ポーズ決定部２０８または対応して名付けられたその小区分などのポーズ決定関数適用部は、ポーズ決定関数を画像に適用する。ポーズ決定関数を画像に適用することは、ポーズ決定関数が出力を生成するように、ポーズ決定関数への入力として画像を使用することを含み得る。ポーズ決定関数がニューラルネットワークを含む実施形態では、ニューラルネットワークは、画像中のコンピュータモデルのインスタンスごとに６Ｄポーズ指定を出力し得る。

Ｓ６６６において、ポーズ補正部２０９または対応して名付けられたその小区分などの画像作成部は、コンピュータモデルの画像を作成する。例えば、画像作成部は、物体のポーズ指定に従ったコンピュータモデルの画像を作成し得る。いくつかの実施形態では、画像は、無地の背景で、ポーズ指定に従ったコンピュータモデルのみからなる。

Ｓ６６７において、ポーズ補正部２０９または対応して名付けられたその小区分などの画像比較部は、作成された画像を取り込まれた画像と比較する。例えば、画像比較部は、物体のポーズ指定に従ったコンピュータモデルの画像を、物理的環境における物体の画像と比較し得る。いくつかの実施形態では、比較を容易にするために、作成された画像を切り出すことによって生成され得るシルエットは、シミュレーションから直接算出された作成された画像のシルエットと比較される。この比較は、誤差が十分に最小化されるまで反復して実行され得る。

Ｓ６６９において、ポーズ補正部２０９または対応して名付けられたその小区分などのポーズ調整部は、ポーズ決定関数から出力されるポーズ指定を調整する。例えば、ポーズ調整部は、取り込まれた画像と作成された画像との間の差異を低減させるためにポーズ指定を調整し得る。

本明細書の実施形態の多くでは、ポーズ検出デバイスは、訓練データを生成し、学習プロセスを訓練してポーズ決定関数を生成し、次いで、単にコンピュータモデルを入力することによって自動的に訓練済みのポーズ決定関数を使用することを可能にし得る。シミュレータを利用して訓練データを生成することにより、本明細書に記載の実施形態は、ラベルとしてシミュレータによって規定されたポーズ指定の取り込みを含む、迅速な画像の取り込みが可能となり得る。シミュレータによって規定されたポーズ指定を使用することにより、ラベルが非常に正確になることも可能となる。それらの現実的な精度で知られている既存のシミュレータ、例えばＵＮＲＥＡＬ（登録商標）エンジンは、精度の確信度を高めるだけでなく、画像処理および環境面のランダム化の能力も備わっていてもよい。

本発明の様々な実施形態は、ブロックが（１）操作が実行されるプロセスのステップ、または（２）操作を実行する役割を果たす装置の部を表し得るフローチャートおよびブロック図を参照して、説明することができる。特定のステップおよび部は、専用回路、コンピュータ可読媒体上に格納されたコンピュータ可読命令が供給されているプログラマブル回路、および／またはコンピュータ可読媒体上に格納されたコンピュータ可読命令が供給されているプロセッサによって実装され得る。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでもよく、集積回路（ＩＣ）および／または個別の回路を含み得る。プログラマブル回路は、論理ＡＮＤ、ＯＲ、ＸＯＲ、ＮＡＮＤ、ＮＯＲ、および他の論理演算、フリップ−フロップ、レジスタ、メモリ素子など、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）などを含む再構成可能なハードウェア回路を含み得る。プロセッサは、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、モバイル処理装置（ＭＰＵ）などを含み得る。

コンピュータ可読媒体は、好適なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体などが含まれ得る。コンピュータ可読媒体のより具体的な例としては、フロッピーディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ＢＬＵ−ＲＡＹ（登録商標）ディスク、メモリスティック、集積回路カードなどが含まれ得る。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはオブジェクト指向プログラミング言語、例えばＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋など、および「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、もしくは他のプログラマブルなデータ処理装置のプロセッサ、またはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、例えばインターネットなどのワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理装置、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラなどが含まれる。

本発明の実施形態の多くは、特に、人工知能、学習プロセス、およびニューラルネットワークを含む。前述の実施形態のいくつかは、特定の種類のニューラルネットワークを説明している。しかしながら、学習プロセスは通常、重みなどの値を乱数で設定してから開始する。そのような未訓練の学習プロセスは、それらがうまく関数を実行すると合理的に予想することができるよう事前に訓練されなければならない。本明細書に記載のプロセスの多くは、ポーズ検出のための学習プロセスを訓練する目的のためのものである。一旦訓練されると、学習プロセスをポーズ検出に使用することができ、さらなる訓練を必要としない場合がある。このように、訓練済みのポーズ決定関数は、未訓練の学習プロセスを訓練するプロセスの成果である。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または補正を加えることが可能であることが当業者に明らかである。そのような変更または補正を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、実施形態、または図面に示す装置、システム、プログラム、および方法によって実行される各プロセスの操作、手順、ステップ、および段階は、順序が「に先立って」または「の前」などによって示されていない限り、また前のプロセスからの出力が後のプロセスで使用されない限りは、任意の順序で実行することができる。特許請求の範囲、明細書、または図面中の動作フローに関して、便宜上「まず、」または「次に、」などを用いて説明したとしても、この順序で実行することが必須であることを意味するものではない。

Claims

コンピュータによって実行可能なコンピュータプログラムであって、前記コンピュータに、
物体のコンピュータモデルを取得する手順と、
現実的環境シミュレータで前記コンピュータモデルをシミュレーションする手順と、
複数のポーズ表現を含む訓練データを取り込む手順であって、各ポーズ表現が、複数のポーズのうちの１つにある前記コンピュータモデルの画像を含み、前記複数のポーズのうちの１つは前記画像に示される前記コンピュータモデルのポーズ指定を含むラベルと対になっており、前記コンピュータモデルの前記画像および前記ポーズ指定は前記現実的環境シミュレータによって規定される、取り込む手順と、
前記複数のポーズ表現に学習プロセスを適用して、前記物体の画像をポーズ指定に関連付けるためのポーズ決定関数を生成する手順と、
を含む操作を実行させる
コンピュータプログラム。
物理的環境における前記物体の画像を取り込む手順と、
前記ポーズ決定関数を前記物体の前記画像に適用することによって前記物体のポーズ指定を決定する手順と、
をさらに含む、請求項１に記載のコンピュータプログラム。
前記ポーズ指定に従い、ロボットアームの位置決めをする手順をさらに含む、請求項２に記載のコンピュータプログラム。
前記ロボットアームを前記位置決めする手順が、前記物体の前記画像を取り込んだカメラの位置に基づいて、前記ロボットアームに対する前記物体の位置を決定することを含む、請求項３に記載のコンピュータプログラム。
前記物体の前記ポーズ指定を補正する手順をさらに含む、請求項２から４のいずれか一項に記載のコンピュータプログラム。
前記補正する手順が、前記物体の前記ポーズ指定に従った前記コンピュータモデルの画像を作成する手順を含む、請求項５に記載のコンピュータプログラム。
前記補正する手順が、
前記物体の前記ポーズ指定に従った前記コンピュータモデルの前記画像を、前記物理的環境における前記物体の前記画像と比較する手順と、
前記ポーズ指定を調整して、前記取り込まれた画像と前記作成された画像との間の差異を低減させる手順と、
をさらに含む、請求項６に記載のコンピュータプログラム。
前記補正する手順が、直接画像位置合わせ（ＤｉｒｅｃｔＩｍａｇｅＡｌｉｇｎｍｅｎｔ，ＤＩＡ）およびコヒーレント点ドリフト（ＣｏｈｅｒｅｎｔＰｏｉｎｔＤｒｉｆｔ，ＣＰＤ）のうちの１つを適用して、前記物体の前記ポーズ指定に従った前記コンピュータモデルの前記画像と前記物理的環境における前記物体の前記画像との間の差異を低減させる手順をさらに含む、請求項５から７のいずれか一項に記載のコンピュータプログラム。
前記ポーズ指定が、位置および向きの６Ｄ指定である、請求項１から８のいずれか一項に記載のコンピュータプログラム。
前記シミュレーションする手順が、前記コンピュータモデルの１より多くのインスタンスをシミュレーションする手順を含み、
各画像は、前記コンピュータモデルの前記１より多くのインスタンスを含み、前記コンピュータモデルの各インスタンスは固有のポーズである、
請求項１から９のいずれか一項に記載のコンピュータプログラム。
前記現実的環境シミュレータが物理エンジンを含み、
前記シミュレーションする手順は、前記コンピュータモデルがランダムなポーズを呈するように、前記現実的環境シミュレータ内で、プラットフォームに対する前記コンピュータモデルの運動を誘発する手順を含む、
請求項１から１０のいずれか一項に記載のコンピュータプログラム。
前記運動を誘発する手順が、落下、回転、および衝突する手順のうちの少なくとも１つを含む、請求項１１に記載のコンピュータプログラム。
前記シミュレーションする手順が、前記現実的環境シミュレータ内で、前記コンピュータモデルおよび前記プラットフォームに１つまたは複数の表面色をポーズごとにランダムに割り当てる手順を含む、請求項１１または１２に記載のコンピュータプログラム。
前記シミュレーションする手順が、前記現実的環境シミュレータ内で、前記コンピュータモデルおよび前記プラットフォームに１つまたは複数の表面テクスチャをポーズごとにランダムに割り当てる手順を含む、請求項１１から１３のいずれか一項に記載のコンピュータプログラム。
前記シミュレーションする手順が、前記現実的環境シミュレータ内で、環境における照明効果をポーズごとにランダムに割り当てる手順を含む、請求項１から１４のいずれか一項に記載のコンピュータプログラム。
前記照明効果が、明るさ、コントラスト、色温度、および方向のうちの少なくとも１つを含む、請求項１５に記載のコンピュータプログラム。
前記コンピュータモデルの前記画像が深度情報を含み、
前記物体の前記画像を前記取り込む手順が、深度情報を取り込む手順を含む、
請求項１から１６のいずれか一項に記載のコンピュータプログラム。
前記学習プロセスが畳み込みニューラルネットワークである、請求項１から１７のいずれか一項に記載のコンピュータプログラム。
物体のコンピュータモデルを取得する段階と、
現実的環境シミュレータで前記コンピュータモデルをシミュレーションする段階と、
複数のポーズ表現を含む訓練データを取り込む段階であって、各ポーズ表現が、複数のポーズのうちの１つにある前記コンピュータモデルの画像を含み、前記複数のポーズのうちの１つは前記画像に示される前記コンピュータモデルのポーズ指定を含むラベルと対になっており、前記コンピュータモデルの前記画像および前記ポーズ指定は前記現実的環境シミュレータによって規定される、取り込む段階と、
前記複数のポーズ表現に学習プロセスを適用して、前記物体の画像をポーズ指定に関連付けるためのポーズ決定関数を生成する段階と、
を含む
コンピュータ実装方法。
物体のコンピュータモデルを取得するように構成された取得部と、
現実的環境シミュレータで前記コンピュータモデルをシミュレーションするように構成されたシミュレーション部と、
複数のポーズ表現を含む訓練データを取り込むように構成された取込み部であって、各ポーズ表現が、複数のポーズのうちの１つにある前記コンピュータモデルの画像を含み、前記複数のポーズのうちの１つは、前記画像に示される前記コンピュータモデルのポーズ指定を含むラベルと対になっており、前記コンピュータモデルの前記画像および前記ポーズ指定は前記現実的環境シミュレータによって規定される、取込み部と、
前記複数のポーズ表現に学習プロセスを適用して、前記物体の画像をポーズ指定に関連付けるためのポーズ決定関数を生成するように構成された学習プロセス適用部と、
を備える
装置。