JP7007664B2

JP7007664B2 - 操作方法生成システム

Info

Publication number: JP7007664B2
Application number: JP2017174241A
Authority: JP
Inventors: 公俊山崎; アーノードソービ
Original assignee: Shinshu University NUC; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: Shinshu University NUC; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2022-01-24
Anticipated expiration: 2037-09-11
Also published as: JP2019049904A

Description

本発明は、操作方法生成システムに関し、特に、変形可能な物体に対する１または複数の操作手順を自動的に生成する操作方法生成システムに関する。

物体に対する操作の計画立案は、以前から困難な課題であった。操作をグラフや状態遷移図で表現すると、最短経路アルゴリズムは、入力された開始状態から目標状態へ至るための操作の経路を導き出すことが可能である。しかし、多くの操作では連続する変数が関与しており、それらをグラフ構造で表現するのは容易でない。または、十分に細かい精度で表現しようとすると、非現実的な大きさのグラフになってしまう。特に困難なのが、変形可能な対象に対する操作の計画であって、これは、単一操作の結果を予測すること自体が困難である。

これをシミュレーション処理で正確に予測しようとすると、膨大な演算処理が必要となる。また、そうした処理は算出までに多くの時間がかかり、現実的でない。これまで、操作手順を手動で設計する手法が報告され、既定の操作手順において、一定の効果を上げている（非特許文献１）また、操作方法を予めデータベースに登録しておき、適宜に組み合わせる方法も報告されている（非特許文献２）。

ＨｉｒｏｙｕｋｉＹｕｂａ，ＳｏｌｖｉＡｒｎｏｌｄａｎｄＫｉｍｉｔｏｓｈｉＹａｍａｚａｋｉ： "ＵｎｆｏｌｄｉｎｇｏｆａｒｅｃｔａｎｇｕｌａｒｃｌｏｔｈｆｒｏｍｕｎａｒｒａｎｇｅｄｓｔａｒｔｉｎｇｓｈａｐｅｓｂｙａＤｕａｌ－Ａｒｍｅｄｒｏｂｏｔｗｉｔｈａｍｅｃｈａｎｉｓｍｆｏｒｍａｎａｇｉｎｇｒｅｃｏｇｎｉｔｉｏｎｅｒｒｏｒａｎｄｕｎｃｅｒｔａｉｎｔｙ，" ＡｄｖａｎｃｅｄＲｏｂｏｔｉｃｓ，Ｖｏｌ．３１（１０）：５４４－５５６，Ｆｅｂ．２０１７．ＡｌｅｘＸ．Ｌｅｅ，ＡｂｈｉｓｈｅｋＧｕｐｔａ，ＨｅｎｒｙＬｕ，ＳｅｒｇｅｙＬｅｖｉｎｅａｎｄＰｉｅｔｅｒＡｂｂｅｅｌ： "ＬｅａｒｎｉｎｇｆｒｏｍＭｕｌｔｉｐｌｅＤｅｍｏｎｓｔｒａｔｉｏｎｓｕｓｉｎｇＴｒａｊｅｃｔｏｒｙ－ＡｗａｒｅＮｏｎ－ＲｉｇｉｄＲｅｇｉｓｔｒａｔｉｏｎｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓｔｏＤｅｆｏｒｍａｂｌｅＯｂｊｅｃｔＭａｎｉｐｕｌａｔｉｏｎ，" Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ（ＩＲＯＳ），ｐｐ．５２６５－５２７２，２０１５．

しかし、上記に挙げた方法は、いずれも、操作手順に関する種類が限定的であり、現実のように様々な操作が考えられる場合には適用が困難となるという課題があった。また、これらの方法では、計算の負荷が大きいという課題があった。本発明は、上記課題に対応してなされたものであり、演算の負荷が少なく、かつ高速に結果出力が可能な、物体操作方法生成システムを提供することを目的とする。

即ち、本発明に係る物体の操作方法生成システムは、畳み込みニューラルネットワークを用いた操作方法生成システムであって、対象の開始状態をシステムに入力する手段と、対象の目標状態をシステムに入力する手段と、前記畳み込みニューラルネットワークの畳み込み層により、対象の開始状態を符号化する手段と、前記畳み込みニューラルネットワークの全結合ネットワークに、対象に対する操作パラメータを付加する手段と、前記畳み込みニューラルネットワークの復号化層により、前記全結合ネットワークにより前記操作パラメータが付加された対象を復号化し、操作後状態を出力する手段と、を備えることを特徴とする。

また、請求項２に記載の本発明は、前記全結合ネットワークが、２以上直列に接続され、互いにデータを伝搬することを特徴とする、請求項１記載の操作方法生成システムである。

また、請求項３記載の本発明は、前記目標状態と、前記操作後状態との損失を計算し、該損失を所望の大きさにするよう最適化する手段と、前記操作パラメータを付加する手段に前記最適化する手段により算出された値をフィードバックする手段と、をさらに備えることを特徴とする、請求項１または２記載の操作方法生成システムである。

また、請求項４記載の本発明は、前記最適化する手段と、前記フィードバックする手段と、前記操作パラメータを付加する手段とを、２回以上反復することを特徴とする、請求項３に記載の操作方法生成システムである。

また、請求項５記載の本発明は、前記最適化する手段が、遺伝的アルゴリズムにより値を算出するものであることを特徴とする、請求項３または４記載の操作方法生成システムである。

また、請求項６記載の本発明は、前記対象が、ボクセルデータで表されたデータであることを特徴とする、請求項１～５のいずれか１項記載の操作方法生成システムである。

操作対象の布が操作されている状態のスナップショットである。本発明に係る基本的なアーキテクチャの図である。誤差逆伝搬によって操作方法を生成するアーキテクチャの図である。遺伝的アルゴリズムによって操作方法を生成するアーキテクチャの図である。実施例に係る処理を行うシステムアーキテクチャの図である。操作手順として操作が複数回行われるイメージである。実施例に係る処理を実際に行ったシミュレーションの結果である。

以下、本発明に係る操作方法生成システムの実施の形態について説明する。

本実施形態では、変形可能な対象について、操作手順を計画するシステムを提案する。アプローチとして、三次元畳み込み自己符号化器と、対象の挙動が学習された全結合再帰処理部のハイブリッドなニューラルネットワークのアーキテクチャを採用する。本実施形態におけるシステムにおいて、開始状態と目標状態が与えられると、ネットワークは、全結合再帰処理部における入力操作に関する誤差後方伝搬を用いて、操作手順が探索される。全結合再帰処理部の反復回数を設定することで、ユーザは、様々な長さの操作手順を探索することが可能になる。

本実施形態における操作生成の課題は以下のように公式化できる。すなわち、対象が取り得る状態の集合をＳとし、ユーザが取り得る操作の集合をＭとする。また、状態ａから状態ｂへ遷移させるための操作をｍ_ａｂ＜ｍ_１，ｍ_２．．．ｍ_ｎ＞とし、開始状態ｓ_ａに操作ｍ_ａｂを適用した場合の状態をｓ_ｂとする。

本実施形態における操作方法生成システムにおいては、操作の対象として、四角形状を有する布が採用可能である。この場合、集合Ｓと集合Ｍについては、以下のとおり定義する。対象の布が操作されている状態のイメージを図１に示す。

（集合Ｓ）
対象となる布が取り得る安定した状態を表したものである。安定した状態とは、外部からの操作がないときに、持続する状態のことをいう。例えば、対象の布が宙に浮いた状態は、安定した状態とは言えない。一方、重力に従って布が落ちた後の状態は、安定した状態である。

（集合Ｍ）
平面上の座標［－１，１］からのベクトル３つの組み合わせで、対象に対する操作を表現する。３つのベクトルのうち、２つは対象となる布をつかむ位置であり、残る１つのベクトルは前記つかんだ布の移動を表している。ここで、つかむ位置は２つのベクトルで表現されているが、これらは３つ目のベクトルに従って、同じ方向に同じ距離だけ移動する。本実施では、１または複数の操作を組み合わせて、対象を目標状態へ遷移させる。

（アーキテクチャ）
本実施形態における操作方法生成システムの一形態について、構成（アーキテクチャ）を図２に示す。このシステムは、三次元畳み込み自己符号化器と、再帰的全結合ネットワークとの組み合わせから構成される。全結合ネットワークでは、あらかじめ対象に対する操作がトレーニングされている。

（畳み込み層）
畳み込み層として使用される自己符号化器は、エンコーダ（符号化部）とデコーダ（復号化部）の２つの構成部分に分割される。エンコーダとデコーダとの間に、反復した全結合ネットワークのインスタンスの可変数を挟む。

本発明に係る操作方法生成システムでは、対象の例として変形可能な物体を例示しており、それらは、ボクセルデータとして表現されている。これらデータの活用のために、本発明に係る操作方法生成システムにおける畳み込み層としては、３Ｄ畳み込み層を使用する。３Ｄ畳み込み層は基本的なアイデアは２Ｄの畳み込み層のものと同様であるが、次元が増えたことにより演算量が増加することが想定される。この場合、開始状態として入力されるボクセルデータのデータ量を、処理が可能な範囲に制限することも有効である。

（周期的境界畳み込み）
対象物である布が平らな面に置かれている。本発明において、ネットワークへの入力はボクセル空間形式で表される。計算上の制約のために、ボクセル空間を大量の物理空間にまで拡張することは困難である。布対象物をいかなる可能な形状に合わせるためにボクセル空間が拡張しうる最小限の物理空間を計算することは可能であるが、実用上は、ボクセル空間内で（前記面と平行な座標軸上で）周期的境界条件を導入することで対応することが望ましい。この場合、自己符号化器における畳み込み演算に、周期性が導入されている必要がある。畳み込みニューラルネットワークにおいては一般に、各畳み込み層においてピクセルの縁が失われるのを避けるためにマップはしばしばゼロで埋められる（ｚｅｒｏ－ｐａｄｄｉｎｇ）。本実施形態では、ゼロではなくマップの反対側の（ＸとＹの両方の次元）の値を使う。これにより、結果的に周期的な空間で畳み込みを行うのと同じ状態を実現する。

（全結合ネットワーク）
全結合ネットワークでは、畳み込み層でエンコードされた対象に対し、操作後の状態を計算し、出力する。この構造は複雑で、ＲｅｓＮｅｔと似た構造により実現される。全結合ネットワークを含むシステムの構成例を図３に示す。

図３は、全結合層の組み合わせからなる全結合ネットワークの構成である。全結合ネットワークを構成する全結合層の数は特に制限されないが、図３では、４層の例を示している。図３において全結合ネットワークの各層は、それぞれ３つのセクションを有している。各セクションは、一般的なニューラルネットワークの挙動に加えて、それぞれ次の特徴を有する。第１セクション（図中１０）は、渡された対象の状態をはじめに受け取る層である。当該層の後に接続された層では、前の層の活性化ベクターを受け取る。第１セクションは、対象物である布の状態を保持する。第２セクション（図中２０）は、一般的なニューラルネットワークと同様の挙動をとる。第３セクション（図中３０）では、操作内容が入力される。第３セクションでは、第２セクションに対して、ネットワークの外部から入力された操作に関する情報（操作パラメータ）を受け渡す。

その後、操作パラメータ入力は、全結合ネットワークの各層に（同一に）提供される。これは、操作がすべての層で変更されていない形態で利用できることを保証するためである。この際の操作パラメータ入力は、全結合ネットワークを含むネットワーク全体のサイズと比較して十分に小さい。

本発明の一形態において、全結合ネットワークとなるニューラルネットワークは、複数のインスタンスが存在するように構成することが可能である。この際、前記全結合ネットワークでは、必ずしも複数設ける必要はなく、一つの全結合ネットワークを反復して処理することで、見かけ上複数存在するよう構成することで実現可能である。

あらかじめ訓練（トレーニング）されたネットワークでは、順方向伝搬（フォワードプロパゲーション）により、以下のステップで処理される。
１．開始状態（ｓ_ａ）が入力される。ここでは対象の例を布として、データはボクセルデータとして入力される。
２．エンコーダにより、開始状態ｓ_ａがエンコードされる。
３．エンコードされた状態ｓ_ａ’が、全結合ネットワークに渡される。
４．ステップ３．において、併せて全結合ネットワークに単一操作ｍ_０が入力される。
５．全結合ネットワークがｓ_ａ’とｍ_０に基づいて、エンコードされた処理後状態ｓ_ｂ’を算出する。
６．デコードにより、エンコードされた操作後状態ｓｂ’から、操作後状態のボクセル表現ｓｂを算出する。
以上がネットワークの動作に基づき状態を演算および出力する手順となる。前記演算が複数回行われ、一連の演算手順となる場合には、ステップ３．から５．の処理が繰り返される。この際には、２回目以降の処理に係る全結合ネットワークは、前回処理時の出力内容を状態ｓ_ａ’として入力され、新たな処理ｍ_１．．_ｎの入力とで演算処理をすることとなる。

以上まとめると、全結合ネットワークが順方向伝搬を用いて処理を行う場合には、次式に示されるように、開始状態ｓ_ａと操作手順ｍの入力により操作後状態ｓ_ｂが出力されることとなる。
ｆ（ｓ_ａ，ｍ）＝ｓ_ｂ（１）
本発明のように、操作方法について求める場合には、上記とは異なり、開始状態と目標状態を入力し、操作を演算、出力する必要がある。
ｆ（ｓ_ａ，ｓ_ｂ）＝ｍ（２）
こうして操作方法を求める場合には、上記のような順方向伝搬処理より、誤差逆伝搬処理や、もしくは遺伝的アルゴリズムが好適に適用可能である。

（誤差逆伝搬法による計画）
全結合ネットワークを介したフォワードプロパゲーション（順方向伝搬）により、対象の任意の状態において、任意の操作ｍを適用したときの状態の予測が可能である。操作方法生成のためには、開始状態ｓ_ａと目標状態ｓ_ｂを与え操作手順ｍ_ａｂを得る必要がある。これはバックプロパゲーション（誤差逆伝搬）によって実現することができる。誤差逆伝搬によって、操作手順生成を行う概念を図４に示す。この誤差逆伝搬のプロセスは、ネットワークをトレーニングするための誤差逆伝搬プロセスとは異なる。誤差逆伝搬による操作手順生成のプロセスは、次に示すとおりである。
１．ｍ_ａｂのランダム操作手順を生成する（［－１，１］の間隔のすべての値）。
２．状態ｓ_ａおよび操作手順ｍ_ａｂをネットワークに送り、順方向伝播を実行して予測結果状態ｓ_ｐを得る。
３．ｓ_ｂを参照しながらｓ_ｐの損失を計算する。
４．誤差逆伝搬を実行して、前記損失を参照しながら操作入力値の変化傾向を取得する。この損失を減らすようにｍ_ａｂを調整する。
５．ステップ２～４を繰り返して、繰り返し回数を実行する。

前記ステップは、異なる初期ランダム操作手順（パラレル検索の数を１０に設定）と並行して行われる。なお、ステップ４．における操作入力を調査するためにレシリエントバックプロパゲーション（Ｒｐｒｏｐ）の一種であるｉＲｐｒｏｐ―更新ルールが用いられる。

ｉＲｐｒｏｐ―更新ルールを使用すると、非常に高い降下率から開始することができ、速く解が求まるため、好適に適用可能である。前述のとおり、この誤差逆伝搬法の適用は、ネットワークに対するトレーニングではないため、ネットワークの重みは変更されず、操作入力ノード上の入力値のみが変更される。

並列探索のそれぞれは、解の候補を生成する。それらのうち最終的な損失スコアが最も低いものを選択し操作手順として出力すればよい。

（遺伝的アルゴリズムによる計画）
ネットワークから操作手順を得る別の方法は、遺伝的アルゴリズム（ＧＡ）によるものである。ここでも、入力値の集合を探査する。ＧＡによる操作生成の概念を図５に示す。ここでも１０回の探査を並行して実行するが、今回は誤差逆伝搬プロセスの代わりに遺伝的アルゴリズム（ＧＡ）処理を用いる。各ＧＡ処理は複数個のｎ_ｐｏｐ解の集合（ｐｏｐｕｌａｔｉｏｎ）を有する。これらの解は操作入力ベクトル（すなわち、ｍ_ａｂ）の候補である。個々の解の適応度スコアは、その解（操作）のネットワーク計算の予測の損失スコア（ｓ_ｂを参照）によって与えられる。したがって、適応度スコアを最小限に抑える必要がある。

本実施の形態では、基本的なＧＡを実装しており、単純に切り捨て選択を使用し、解を適応度スコアでランク付けし、繰り返しごとに所定の基準以下のスコアとなった候補を破棄する。突然変異は、［－１、＋１］の範囲から無作為に選ばれたｒとともに、ある入力値にｒ^{ｉｎｔｅｎｓｉｔｙ}を追加する。強度（ｉｎｔｅｎｓｉｔｙ）パラメータは、小さな突然変異と大きな突然変異との間のバランスを制御する（本実施の形態では５に設定した）。第２のタイプの突然変異オペレータは、操作列内において、２つの操作の順番を入れ替える。

（最適な操作手順の長さの決定）
本発明に係る操作生成システムが、操作を生成する際には、あらかじめ操作手順の長さを設定する必要がある。与えられた（ｓ_ａ、ｓ_ｂ）ペアに対する操作の最適な長さをあらかじめ計算するのは、一般的には困難であるが、本発明では、この問題に対する２つの簡単なアプローチを採用することでこれを解決する。なお、これら２つのうちいずれかのアプローチを適用した操作方法生成システムを、新たな発明として見出すことも可能である。
（逐次検索法）
操作手順の長さを求める１つ目のアプローチは、逐次検索法による方法である。具体的には、次のアルゴリズムを使用して、予めｎ（ループ回数）を決定せずに最適解を見つけることができる。
１．ｎ＝１に設定する
２．ｎステップにおける解ｍ_ａｂを見つける。
３．解ｍ_ａｂの損失が事前設定された品質しきい値を超える場合は、ｎ＝ｎ＋１に設定してステップ２に戻る。そうでなければ、検索を終了する。

（「ルーズフィット」法）
本発明の目的を達成する２つ目のアプローチとして、ｎに最初から大きい値を設定する方法が挙げられる。ｎが必要以上に大きい場合、操作手順にｎｕｌｌ操作が含まれることがある。これは、布の外側にある掴み点を定義することによって、布の状態に影響を与えない操作となる。本発明に係る操作方法生成システムでは、ｎｕｌｌ操作を検出し無視することによって、最適な長さに短縮することができる。

（タスク設計）
本実施例では、自由形式の布操作タスクを取り入れる。ここでの目的は単一の予め設定された出力状態を達成することではなく、与えられた操作のレパートリーが状態空間を通していかに対象物を動かすかを学習するところにある（つまり、１つのアクションがどのように対象物の形と位置を変えるかを学習する）。そこで本実施例では任意の目標状態を実現する操作手順を学習するよう訓練されたネットワークを使う。

操作方法生成における問題は以下のように定式化できる：まず、取り得る状態の集合Ｓよりなる状態領域、取り得る操作の集合Ｍよりなる操作（動作）領域Ｍ、および状態Ｓ_ａと状態Ｓ_ｂ∈Ｓが与えられ、状態Ｓ_ａから開始する適用した操作手順ｍ_ａｂが状態Ｓ_ｂを生成するように操作手順ｍ_ａｂ＝＜ｍ１，・・・・ｍ_ｎ＞（ここでｍ_ｉ∈Ｍ）を見出す。

本実施例では、四角形状を有する布を１つの形状から他の形状に移行させる操作の課題を確立したタスクとして考える。状態はその布が取り得る安定な形状にあることを示す。操作は実際の値である二次元ベクトルの３集合体として定義される。このうち最初の２つのベクトルは、布がつかみ上げられた（以下に示すつかみ点）位置の座標を表し、３番目のベクトル（以下に示す変位ベクトル）はこれらの点がどの程度動かされたか（両方の点は一方を満たすように同じ方向に同じ距離動かされる）を示す。操作のシーケンスは、本実施例で操作手順、操作計画と呼ぶことがある。つかみ点が持ち上げられる高さはシステムパラメータである。２つのつかみ点のうちの１つは布から脱落してもよい。この場合単一の掴み点での操作になる。

Ｂｌｅｎｄｅｒ３Ｄｅｄｉｔｏｒ（登録商標）の布シミュレーション機能を用いて状態を生成した。まず正方形の布を平らな面（例えばテーブル）に置き、全部で７５００の操作例のトレーニングデータとして長さ３の２５００のランダムな操作シーケンスを生成した。

（ネットワーク構成）
本実施例における基本的なシステムの構成（アーキテクチャ）を図５に示す。このアーキテクチャは三次元畳み込み自己符号化器よりなり、エンコーダ（符号化）部とデコーダ（復号化）部に挟まれた全結合型ネットワークを備える。本実施例では、この全結合型ネットワークを操作ネットワークとして利用した。このネットワークはテンソルフロー（オープンソースソフトウェア）により実装されている。ネットワークの設定を以下に示す。

三次元畳み込みエンコーダ／逆畳み込みデコーダ：
・６層
・マップ数：３２、３２、６４、１２８、２５６、５１２
（デコーダでは順序逆転する）
・カーネルサイズ：３×３×３（全層）
・ストライド（フィルタ適用の位置間隔）：２×２×１（第一層）、２×２×２（その他全層）
・エンコーダとデコーダ間には結合重みが共有されない

操作ネットワーク：
・１０層
・入力層サイズ：５１２＋６ニューロン
・隠れ層サイズ：５１２＋５１２＋６ニューロン
・出力層サイズ：５１２ニューロン
・状態エンコーディングニューロン間の残余結合

布状態入力はＢｌｅｎｄｅｒ３Ｄｅｄｉｔｏｒから得られる布メッシュの二値ボクセルラスタライズ形式で与えられる。エンコーダはこの３２×３２×１６ボクセル表示を５１２次元のベクトルに圧縮する。その後、操作ネットワークはこのベクトル表示と、入力としての操作を受け取り、この操作を布の状態に適用した結果生じる状態を表す５１２次元のベクトルを演算する。

次に前記デコーダはこの表現を布状態の３２×３２×１６ボクセル表現にデコード（復号）する。Ｂｌｅｎｄｅｒ３Ｄｅｄｉｔｏｒによって生成されたデータセット上でこのネットワークをトレーニング（訓練）する。なお、トレーニングはそれぞれの操作上で行われる（操作手順上では行われない）。

前記ネットワークは２０操作ごとに１００万バッチのトレーニングを受ける。ランダムな回転、反転、掴み点の交換を適用することでデータが増強される。このときの損失関数はネットワーク出力（のボクセル表現）と実際の出力の二乗平均誤差と前記操作ネットワークの入力層と出力層との間の状態エンコードフォーマットの整合性を促進する項よりなる（この項の詳細はここでは割愛する）。重みづけはマンハッタン更新ルールを用いて更新される。上記トレーニングを受けることで、前記ネットワークは与えられた操作を与えられた布状態に適用した結果を正確に予測することが可能になる。

（操作方法生成）
次に、このネットワークを使ってマルチステップの操作手順を生成した。ｎステップの計画を生成するために、前記操作ネットワークをｎ回にわたって繰り返し適用した。図６にｎ＝３のときの概要を示す。状態Ｓ_ａを状態Ｓ_ｂに変換する計画ｍ_ａｂの探査は以下のように示される：
１．ｍ_ａｂに対しランダムな初期化を行う
２．ｓ_ａとｍ_ａｂをネットワークに供給し予想出力ｓ_ｐを得るためフォワードプロパゲーション（順方向伝搬処理）を行う。
３．ｓ_ｂに関して、ｓ_ｐに対する損失を計算する。
４．この損失に関して、操作入力値の勾配を得るため誤差逆伝搬処理を行う。
５．損失スコアが落ち着く（２５繰り返しても改善しない）か、所定の繰り返し数（ここでは１００回）が済むまで、ステップ２から４を繰り返す。

操作入力値はｉＲｐｒｏｐ―更新スキームによって調整される。本実施例においては、η＋に対し２．０、η－に対し０．３３が当システムにおいて良好に動作した。この探査プロセスの１０回のインスタンスはＧＰＵ（ＧｅＦｏｒｃｅＧＴＸ１０８０）上で並列に実行され、それぞれ異なる初期値から出発した。前記探査プロセスは一般に２～９秒かかった。残余損失スコアが最小の操作手順を最終結果として受け入れた。

図７は、本実施例おいて開始状態と目標状態とを与えて、操作手順を生成させた例の図を示す。同図は、それぞれ対象となる布の平面図と、正面図、側面図とで表されている。図の右側にｐｌａｎｎｉｎｇと記載された行は、本実施例に係るシステムを用いて、それぞれの状態から目標状態に至る操作手順を生成した結果である。矢印で示されるのは、操作手順の第一操作を実際に行った結果である。図の布上、〇や×で示されるのは、つかみ点として与えられる座標と、移動先の座標である。また数字で表されるのは、操作後の状態と、目標状態との損失スコアである。

本発明に係る操作方法生成システムを使用することで、例えば、医療、介護の現場などで、布を折りたたむ等の任意の形態に変形させる必要が生じた際に、処理を自動化し、ロボット等に行わせる際の制御アルゴリズムとして、活用することが可能である。

１０第１セクション
２０第２セクション
３０第３セクション

Claims

畳み込みニューラルネットワークを用いた操作方法生成システムであって、
対象の開始状態をシステムに入力する手段と、
対象の目標状態をシステムに入力する手段と、
前記畳み込みニューラルネットワークの畳み込み層により、対象の開始状態を符号化する手段と、
前記畳み込みニューラルネットワークの全結合ネットワークに、対象に対する操作パラメータを付加する手段と、
前記畳み込みニューラルネットワークの復号化層により、前記全結合ネットワークにより前記操作パラメータが付加された対象を復号化し、操作後状態を出力する手段と、
を備えることを特徴とする、操作方法生成システム。
前記全結合ネットワークが、２以上直列に接続され、互いにデータを伝搬することを特徴とする、請求項１記載の操作方法生成システム。
前記目標状態と、前記操作後状態との損失を計算し、該損失を所望の大きさにするよう最適化する手段と、前記操作パラメータを付加する手段に前記最適化する手段により算出された値をフィードバックする手段と、をさらに備えることを特徴とする、請求項１または２記載の操作方法生成システム。
前記最適化する手段と、前記フィードバックする手段と、前記操作パラメータを付加する手段とを、２回以上反復することを特徴とする、請求項３に記載の操作方法生成システム。
前記最適化する手段が、遺伝的アルゴリズムにより値を算出するものであることを特徴とする、請求項３または４記載の操作方法生成システム。
前記対象が、ボクセルデータで表されたデータであることを特徴とする、請求項１～５のいずれか１項記載の操作方法生成システム。