JP7276108B2

JP7276108B2 - 遠隔操作システム及び遠隔操作方法

Info

Publication number: JP7276108B2
Application number: JP2019225286A
Authority: JP
Inventors: 貴史山本
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-05-18
Anticipated expiration: 2039-12-13
Also published as: CN112975950B; US20210178581A1; CN112975950A; JP2021094604A

Description

本発明は、遠隔操作システム及び遠隔操作方法に関する。

エンドエフェクタを備える被操作対象（例えば、アームの先端の把持部（例えば、ハンドや吸着部）をエンドエフェクタとして備えるロボット等）を遠隔操作して把持動作等を実行させる技術が知られている。例えば、特許文献１には、ロボット周辺を撮像した撮像画像を表示し、ユーザが撮像画像に対して手書きで入力した指示に基づいて、ロボットに対する操作内容を推定する技術が開示されている。

特許第５３２６７９４号公報

しかし、特許文献１に開示された技術は、予め設定された指示図形（〇、×、△等）を手書きで入力することによって、ロボットを遠隔操作するものである。そのため、最近は、被操作対象が実行可能な作業のうち、実際に実行させたい作業の指示を、直感的なユーザインタフェースで実現できる技術が望まれている。

本発明は、このような問題を解決するためになされたものであり、より直感的な操作が可能な遠隔操作システム及び遠隔操作方法を提供するものである。

本発明の第１の態様における遠隔操作システムは、
エンドエフェクタを備える被操作対象を遠隔操作する遠隔操作システムであって、
前記被操作対象が存在する環境を撮像する撮像部と、
前記撮像部が撮像した前記環境の撮像画像を表示し、表示した前記撮像画像に対する手書き入力情報の入力を受け付けると共に、ユーザが前記被操作対象との間でテキストチャットによる対話を行うための機能を具備する操作端末と、
前記撮像画像に対して入力された前記手書き入力情報と、前記テキストチャットの対話履歴と、に基づいて、前記エンドエフェクタによる把持が要求されている把持対象物を推定すると共に、前記把持対象物に対して要求されている前記エンドエフェクタによる把持動作の仕方を推定する推定部と、
を備える。

本発明の第２の態様における遠隔操作方法は、
エンドエフェクタを備える被操作対象を遠隔操作する遠隔操作システムによる遠隔操作方法であって、
前記被操作対象が存在する環境を撮像し、
前記環境の撮像画像を表示した操作端末において、表示した前記撮像画像に対する手書き入力情報の入力を受け付け、
前記被操作対象が、前記操作端末のユーザとの間でテキストチャットによる対話を行い、
前記撮像画像に対して入力された前記手書き入力情報と、前記テキストチャットの対話履歴と、に基づいて、前記エンドエフェクタによる把持が要求されている把持対象物を推定すると共に、前記把持対象物に対して要求されている前記エンドエフェクタによる把持動作の仕方を推定する。

上述した本発明の態様によれば、より直感的な操作が可能な遠隔操作システム及び遠隔操作方法を提供できる。

本実施形態に係る遠隔操作システムが利用される全体環境の例を示す概念図である。遠隔端末の表示パネルに表示される表示画面の例を示す図である。遠隔端末の表示パネルに表示される表示画面の例を示す図である。遠隔端末の表示パネルに表示される表示画面の例を示す図である。ロボットの外観構成例を示す外観斜視図である。ロボットのブロック構成例を示すブロック図である。ロボットが取得した撮像画像の例を示す図である。学習済みモデルが出力する把持可能領域の例を示す図である。遠隔端末のブロック構成例を示すブロック図である。本実施形態に係る遠隔操作システムの全体的な処理の流れの例を示すフロー図である。遠隔端末の表示パネルに表示される表示画面の例を示す図である。遠隔端末の表示パネルに表示される表示画面の例を示す図である。

以下、発明の実施形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。また、以下の実施形態では、被操作対象として、アームの先端のハンドをエンドエフェクタとして備えるロボットを例に挙げて説明するが、被操作対象はこれに限定されるものではない。

図１は、本実施形態に係る遠隔操作システム１０が利用される全体環境の例を示す概念図である。第１環境において様々な動作を実行するロボット１００は、第１環境から離れた第２環境に居る遠隔操作者たるユーザが遠隔端末３００（操作端末）を操作することにより、インターネット６００に接続されたシステムサーバ５００を介して、遠隔操作される。

ロボット１００は、第１環境において、無線ルータ７００を介してインターネット６００と接続されている。また、遠隔端末３００は、第２環境において、無線ルータ７００を介してインターネット６００と接続されている。システムサーバ５００は、インターネット６００に接続されている。ロボット１００は、遠隔端末３００の操作に従って、ハンド１２４による把持動作等を実行する。

なお、本実施形態においては、ハンド１２４による把持動作には、把持対象物を単に把持する（つかむ）動作に限らず、例えば、以下の動作等も含むとする。
・把持対象物をつかんで持ち上げる動作
・把持対象物がタンス等の扉や引き出しのつまみである場合、つまみをつかんで扉や引き出しを開閉する動作
・把持対象物がドアのドアノブである場合、ドアノブをつかんでドアを開閉する動作

ロボット１００は、ステレオカメラ１３１（撮像部）によって、ロボット１００が存在する第１環境を撮像し、インターネット６００を介して、撮像画像を遠隔端末３００に送信する。図１の例は、ロボット１００が、第１環境に存在するテーブル４００を撮像している様子を示している。

遠隔端末３００は、例えば、タブレット端末であり、タッチパネルが重畳して配置された表示パネル３４１を有する。表示パネル３４１には、ロボット１００から受信した撮像画像が表示され、ユーザは、ロボット１００が存在する第１環境を間接的に視認することができる。また、ユーザは、表示パネル３４１に表示された撮像画像に対して手書き入力情報を手書きで入力することができる。手書き入力情報は、例えば、ハンド１２４による把持を要求する把持対象物や、把持対象物に対する把持動作の仕方等を指示する情報である。手書き入力情報の入力方法としては、ユーザの指やタッチペン等を用いて、表示パネル３４１に重畳して配置されたタッチパネルをタッチする方法等があるが、これには限定されない。ユーザが撮像画像に対して入力した手書き入力情報は、インターネット６００を介してロボット１００へ送信される。

また、遠隔端末３００は、ユーザがロボット１００との間でテキストチャットによる対話を行うための機能を備える。テキストチャットのユーザの発話文のテキスト情報の入力方法としては、表示パネル３４１にテキスト入力用のキーボード画面を表示し、表示パネル３４１に重畳して配置されたタッチパネル上で、ユーザの指やタッチペン等を用いて、キーボード画面の該当キーをタッチする方法等があるが、これには限定されない。ユーザが入力した発話文のテキスト情報は、インターネット６００を介してロボット１００へ送信される。また、ロボット１００が生成した、ユーザの発話文に対する応答発話文のテキスト情報は、インターネット６００を介してロボット１００から受信される。

図２は、遠隔端末３００の表示パネル３４１に表示される表示画面３１０の例を示す図である。図２の例では、表示画面３１０は、ロボット１００が撮像した撮像画像３１１と、チャット画面３１２と、が横に並べて配置されている。

撮像画像３１１には、テーブル４００、テーブル４００に載置されたカップ４０１、電卓４０２、スマートフォン４０３、紙４０４が写っている。また、カップ４０１、電卓４０２、スマートフォン４０３、紙４０４は、ハンド１２４が把持可能な把持可能物である。そのため、撮像画像３１１は、ユーザが把持可能物を視認できるように、把持可能物の名称を吹き出しで表示するように加工されている。また、撮像画像３１１に対する手書き入力情報９３１が、ユーザにより手書きで入力されている。

チャット画面３１２には、遠隔端末３００のユーザとロボット１００間でテキストチャットの形式で対話したテキスト情報が表示される。詳細には、ユーザが遠隔端末３００に入力した発話文のテキスト情報は、ユーザを模した画像９０１から伸びた吹き出し形式のテキストボックス９１１～９１３に、文字として表示される。また、ロボット１００が生成した、ユーザの発話文に対する応答発話文のテキスト情報は、ロボット１００を模した画像９０２から伸びた吹き出し形式のテキストボックス９２１～９２３に、文字として表示される。

ロボット１００は、撮像画像に対してユーザが入力した手書き入力情報と、テキストチャットの対話履歴と、に基づいて、ハンド１２４による把持が要求されている把持対象物を推定すると共に、推定した把持対象物に対して要求されているハンド１２４による把持動作の仕方を推定する。

図２の例では、手書き入力情報９３１が、撮像画像３１１上のスマートフォン４０３の位置において入力されている。また、テキストボックス９１１，９２１，９１２に入力されたテキスト情報によれば、把持対象物をつかんで持ち上げる把持動作が要求されている（詳細は後述する）。そのため、ロボット１００は、手書き入力情報９３１と、テキストボックス９１１，９２１，９１２に入力されたテキスト情報と、に基づいて、把持対象物が、テーブル４００に載置されたスマートフォン４０３であり、把持動作の仕方が、スマートフォン４０３をつかんで持ち上げることであると推定することができる。なお、図２の例では、手書き入力情報９３１は、スマートフォン４０３を上からつかむことを模擬した画像になっているが、これには限定されない。手書き入力情報９３１は、単にスマートフォン４０３が把持対象物であることを指示する画像とし、把持動作の仕方は、テキストチャットによる対話においてユーザが指示しても良い。スマートフォン４０３が把持対象物であることを指示する手書き入力情報９３１の画像としては、例えば、図３に示されるように、スマートフォン４０３を矢印で指した画像や、図４に示されるように、スマートフォン４０３を任意の図形（図４では、丸）で囲んだ画像等とすることができる。

また、ロボット１００は、テキストチャットの対話履歴に基づいて、ロボット１００に追加で要求されている動作があるか否かを判断し、ロボット１００に追加で要求されている動作があれば、その動作の仕方を推定しても良い。

図２の例では、テキストボックス９１２，９２２，９２３，９１３に入力されたテキスト情報によれば、スマートフォン４０３をリビングルームに搬送することが要求されている（詳細は後述する）。そのため、ロボット１００は、テキストボックス９１２，９２２，９２３，９１３に入力されたテキスト情報に基づいて、把持動作によってつかんだスマートフォン４０３をリビングルームに搬送することが、ロボット１００に対して追加で要求されていると推定することができる。

そのため、図２の例では、ロボット１００は、ロボット１００に要求されている全体的な動作は、スマートフォン４０３をつかんでリビングルームに搬送することであると推定することができる。

図５は、ロボット１００の外観構成例を示す外観斜視図である。ロボット１００は、大きく分けて、台車部１１０と本体部１２０とによって構成される。台車部１１０は、円筒形状の筐体内に、それぞれが走行面に接地する２つの駆動輪１１１と１つのキャスター１１２とを支持している。２つの駆動輪１１１は、互いに回転軸芯が一致するように配設されている。それぞれの駆動輪１１１は、不図示のモータによって独立して回転駆動される。キャスター１１２は、従動輪であり、台車部１１０から鉛直方向に延びる旋回軸が車輪の回転軸から離れて車輪を軸支するように設けられており、台車部１１０の移動方向に倣うように追従する。

台車部１１０は、上面の周縁部にレーザスキャナ１３３を備える。レーザスキャナ１３３は、水平面内の一定の範囲をステップ角ごとにスキャンして、それぞれの方向に障害物が存在するか否かを出力する。さらに、レーザスキャナ１３３は、障害物が存在する場合には、その障害物までの距離を出力する。

本体部１２０は、主に、台車部１１０の上面に搭載された胴部１２１、胴部１２１の上面に載置された頭部１２２、胴部１２１の側面に支持されたアーム１２３、及びアーム１２３の先端部に設置されたハンド１２４を備える。アーム１２３とハンド１２４は、不図示のモータを介して駆動され、把持対象物を把持する。胴部１２１は、不図示のモータの駆動力により、台車部１１０に対して鉛直軸周りに回転することができる。

頭部１２２は、主に、ステレオカメラ１３１及び表示パネル１４１を備える。ステレオカメラ１３１は、同じ画角を有する２つのカメラユニットが互いに離間して配置された構成を有し、それぞれのカメラユニットで撮像された撮像信号を出力する。

表示パネル１４１は、例えば液晶パネルであり、設定されたキャラクターの顔をアニメーションで表示したり、ロボット１００に関する情報をテキストやアイコンで表示したりする。表示パネル１４１にキャラクターの顔を表示すれば、表示パネル１４１が擬似的な顔部であるかの印象を周囲の人達に与えることができる。

頭部１２２は、不図示のモータの駆動力により、胴部１２１に対して鉛直軸周りに回転することができる。そのため、ステレオカメラ１３１は、任意の方向を撮像することができ、また、表示パネル１４１は、任意の方向へ向けて表示内容を呈示することができる。

図６は、ロボット１００のブロック構成例を示すブロック図である。ここでは、把持対象物及び把持動作の仕方の推定に関係する主な要素について説明するが、ロボット１００の構成としては他の要素も備え、また、把持対象物及び把持動作の仕方の推定に寄与する他の要素が加えられることもあり得る。

制御部１５０は、例えばＣＰＵであり、例えば胴部１２１に備えられたコントロールユニットに格納されている。台車駆動ユニット１４５は、駆動輪１１１と、駆動輪１１１を駆動するための駆動回路やモータと、を含む。制御部１５０は、台車駆動ユニット１４５へ駆動信号を送ることにより、駆動輪の回転制御を実行する。また、制御部１５０は、台車駆動ユニット１４５からエンコーダ等のフィードバック信号を受け取って、台車部１１０の移動方向や移動速度を把握する。

上体駆動ユニット１４６は、アーム１２３及びハンド１２４と、胴部１２１及び頭部１２２と、これらを駆動するための駆動回路やモータと、を含む。制御部１５０は、上体駆動ユニット１４６へ駆動信号を送ることにより、把持動作やジェスチャーを実現する。また、制御部１５０は、上体駆動ユニット１４６からエンコーダ等のフィードバック信号を受け取って、アーム１２３及びハンド１２４の位置や移動速度、胴部１２１及び頭部１２２の向きや回転速度を把握する。

表示パネル１４１は、制御部１５０が生成した画像信号を受信して表示する。また、制御部１５０は、上述のように、キャラクター等の画像信号を生成して、表示パネル１４１へ表示させる。

ステレオカメラ１３１は、制御部１５０からの要求に従って、ロボット１００が存在する第１環境を撮像し、撮像信号を制御部１５０へ引き渡す。制御部１５０は、撮像信号を用いて画像処理を実行したり、予め定められたフォーマットに従って撮像信号を撮像画像に変換したりする。レーザスキャナ１３３は、制御部１５０からの要求に従って移動方向に障害物が存在するか否かを検出し、その検出結果である検出信号を制御部１５０へ引き渡す。

ハンドカメラ１３５は、例えば距離画像センサであり、把持対象物の距離、形状、方向等を認識するために用いられる。ハンドカメラ１３５は、対象空間から入射する光学像を光電変換するピクセルが二次元状に配列された撮像素子を含み、ピクセルごとに被写体までの距離を制御部１５０へ出力する。具体的には、ハンドカメラ１３５は、パターン光を対象空間に照射する照射ユニットを含み、その反射光を撮像素子で受光して、画像におけるパターンの歪みや大きさから各ピクセルが捉えた被写体までの距離を出力する。なお、制御部１５０は、より広い周辺環境の様子をステレオカメラ１３１で把握し、把持対象物近傍の様子をハンドカメラ１３５で把握する。

メモリ１８０は、不揮発性の記憶媒体であり、例えばソリッドステートドライブが用いられる。メモリ１８０は、ロボット１００を制御するための制御プログラムの他にも、制御や演算に用いられる様々なパラメータ値、関数、ルックアップテーブル等を記憶している。特に、メモリ１８０は、学習済みモデル１８１と、発話ＤＢ１８２と、地図ＤＢ１８３と、を記憶している。

学習済みモデル１８１は、撮像画像を入力画像として、その撮像画像に写っている把持可能物を出力する学習済みモデルである。
発話ＤＢ１８２は、例えばハードディスクドライブの記録媒体によって構成されており、コーパスとして体系化された個々の用語が、再生可能な発話データを伴って格納されているデータベースである。

地図ＤＢ１８３は、例えばハードディスクドライブの記録媒体によって構成されており、ロボット１００が存在する第１環境における空間を記述した地図情報が格納されているデータベースである。

通信ユニット１９０は、例えば無線ＬＡＮユニットであり、無線ルータ７００との間で無線通信を行う。通信ユニット１９０は、遠隔端末３００から送られてくる、撮像画像に対する手書き入力情報やユーザの発話文のテキスト情報を受信して制御部１５０へ引き渡す。また、通信ユニット１９０は、制御部１５０の制御に従って、ステレオカメラ１３１で撮像された撮像画像や、制御部１５０で生成された、ユーザの発話文に対する応答発話文のテキスト情報を遠隔端末３００へ送信する。

制御部１５０は、メモリ１８０から読み出した制御プログラムを実行することによりロボット１００全体の制御と様々な演算処理とを実行する。また、制御部１５０は、制御に関わる様々な演算や制御を実行する機能実行部としての役割も担う。このような機能実行部として、制御部１５０は、認識部１５１及び推定部１５２を含む。

認識部１５１は、ステレオカメラ１３１のいずれか一方のカメラユニットで撮像された撮像画像を入力画像とし、メモリ１８０から読み出した学習済みモデル１８１から、その撮像画像に写っている、ハンド１２４が把持可能な把持可能領域を得て、把持可能部を認識する。

図７は、ロボット１００がステレオカメラ１３１により取得した、第１環境の撮像画像３１１の例を示す図である。図７の撮像画像３１１には、テーブル４００、テーブル４００に載置されたカップ４０１、電卓４０２、スマートフォン４０３、及び紙４０４が写っている。認識部１５１は、このような撮像画像３１１を入力画像として学習済みモデル１８１に与える。

図８は、図７の撮像画像３１１を入力画像とした場合に、学習済みモデル１８１が出力する把持可能領域の例を示す図である。具体的には、カップ４０１を囲む領域が把持可能領域８０１として、電卓４０２を囲む領域が把持可能領域８０２として、スマートフォン４０３を囲む領域が把持可能領域８０３として、紙４０４を囲む領域が把持可能領域８０４として、それぞれ検出される。そのため、認識部１５１は、把持可能領域８０１～８０４にそれぞれ囲まれたカップ４０１、電卓４０２、スマートフォン４０３、及び紙４０４を、把持可能部として認識する。

学習済みモデル１８１は、ハンド１２４が把持可能な把持可能部が写る画像と、その画像のうちどの領域が把持可能部であるかの正解値と、の組み合わせである教師データにより学習を行ったニューラルネットワークである。このとき、教師データを、画像中の把持可能部の名称、距離、方向をさらに示す教師データとすることにより、学習済みモデル１８１を、撮像画像を入力画像として、把持可能部を出力するだけでなく、その把持可能部の名称、距離、方向をも出力する学習済みモデルとすることもできる。なお、学習済みモデル１８１は、深層学習により学習を行ったニューラルネットワークであると良い。また、学習済みモデル１８１は、教師データを随時追加して、追加学習をさせても良い。

また、認識部１５１は、把持可能部を認識すると、ユーザが把持可能物を視認できるように、撮像画像を加工しても良い。撮像画像の加工方法としては、図２の例のように、把持可能物の名称を吹き出しで表示する方法等があるが、これには限定されない。

推定部１５２は、遠隔端末３００のユーザとテキストチャットの形式で対話する機能を担う。具体的には、推定部１５２は、発話ＤＢ１８２を参照して、ユーザが遠隔端末３００に入力した発話文に対して相応しい応答発話文のテキスト情報を生成する。このとき、ユーザが遠隔端末３００に撮像画像に対する手書き入力情報も入力している場合は、推定部１５２は、手書き入力情報も参照して、応答発話文のテキスト情報を生成する。

推定部１５２は、撮像画像に対してユーザが入力した手書き入力情報と、テキストチャットの対話履歴と、に基づいて、ハンド１２４による把持が要求されている把持対象物を推定すると共に、推定した把持対象物に対して要求されているハンド１２４による把持動作の仕方を推定する。また、推定部１５２は、テキストチャットの対話履歴に基づいて、ロボット１００に追加で要求されている動作があるか否かを判断し、ロボット１００に追加で要求されている動作があれば、その動作の仕方を推定しても良い。このとき、推定部１５２は、手書き入力情報の内容及びテキストチャットの対話履歴の内容を解析し、解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００に確認しながら、上記推定を行っていくのが良い。

以下、図２を例に挙げて、ロボット１００の推定部１５２において、把持対象物及び把持動作の仕方等を推定する推定方法について詳細に説明する。
図２の例では、まず、ロボット１００には、遠隔端末３００から、ユーザの発話文「これ取って」のテキスト情報（テキストボックス９１１）が受信される。このとき、ロボット１００が撮像している撮像画像３１１に写っている把持可能物は、認識部１５１が認識したカップ４０１、電卓４０２、スマートフォン４０３、及び紙４０４である。また、ロボット１００には、遠隔端末３００から、この撮像画像３１１上のスマートフォン４０３の位置において入力された手書き入力情報９３１も受信される。

そのため、推定部１５２は、「これ取って」のテキスト情報に基づいて、把持動作の仕方が、把持対象物をつかんで持ち上げる動作であると解析する。さらに、推定部１５２は、手書き入力情報９３１に基づいて、把持対象物が、認識部１５１が認識した把持可能物のうち、手書き入力情報９３１の入力位置になっているスマートフォン４０３であると解析する。なお、推定部１５２は、撮像画像３１１上の手書き入力情報９３１の入力位置を任意の方法で認識することができる。例えば、遠隔端末３００が、撮像画像３１１上の手書き入力情報９３１の入力位置を示す位置情報を、手書き入力情報９３１に含めて送信することとすれば、推定部１５２は、その位置情報に基づいて、手書き入力情報９３１の入力位置を認識できる。又は、遠隔端末３００が、手書き入力情報９３１が入力された状態に加工された撮像画像３１１を送信することとすれば、推定部１５２は、その撮像画像３１１に基づいて、手書き入力情報９３１の入力位置を認識できる。

そして、推定部１５２は、把持対象物がスマートフォン４０３であることをユーザに確認するために、「了解。スマホかな？」という応答発話文のテキスト情報（テキストボックス９２１）を生成し、生成したテキスト情報を遠隔端末３００に送信する。

続いて、ロボット１００には、遠隔端末３００から、ユーザの発話文「そうだよ。僕のところに持ってきて」のテキスト情報（テキストボックス９１２）が受信される。そのため、推定部１５２は、ハンド１２４による把持が要求されている把持対象物は、スマートフォン４０３であり、把持動作の仕方が、スマートフォン４０３をつかんで持ち上げることであると推定する。

また、推定部１５２は、把持対象物及び把持動作の仕方を推定できたため、「了解」という応答発話文のテキスト情報（テキストボックス９２２）を生成し、生成したテキスト情報を遠隔端末３００に送信する。

さらに、推定部１５２は、「僕のところに持ってきて」のテキスト情報に基づいて、把持動作によってつかんだスマートフォン４０３を「僕のところ」に搬送する動作が、ロボット１００に対して追加で要求されていると解析する。

そして、推定部１５２は、「僕のところ」がどこであるかを確認するために、「リビングルームにいるの？」という応答発話文のテキスト情報（テキストボックス９２３）を生成し、生成したテキスト情報を遠隔端末３００に送信する。

続いて、ロボット１００には、遠隔端末３００から、ユーザの発話文「そうだよ。ありがとう」のテキスト情報（テキストボックス９１３）が受信される。そのため、推定部１５２は、スマートフォン４０３をリビングルームに搬送する動作が、ロボット１００に対して追加で要求されていると推定する。
その結果、推定部１５２は、ロボット１００に要求されている全体的な動作が、スマートフォン４０３をつかんでリビングルームに搬送することであると推定することになる。

以上のようにして、推定部１５２は、ハンド１２４による把持が要求されている把持対象物と、把持対象物に対して要求されているハンド１２４による把持動作の仕方と、を推定することができる。さらに、推定部１５２は、ロボット１００に対して追加で要求されている動作があれば、その動作の仕方も推定することができる。

制御部１５０は、推定部１５２による上記の推定が終了すると、把持対象物に対して要求されているハンド１２４による把持動作を開始するための準備を行う。具体的には、まず、制御部１５０は、ハンドカメラ１３５が把持対象物を観察できる位置へアーム１２３を駆動する。続いて、制御部１５０は、ハンドカメラ１３５に把持対象物を撮像させ、把持対象物の状態を認識する。

そして、制御部１５０は、把持対象物の状態と、把持対象物に対して要求されているハンド１２４による把持動作の仕方と、に基づいて、把持対象物に対して要求されている把持動作を実現するためのハンド１２４の軌道を生成する。このとき、制御部１５０は、所定の把持条件を満たすように、ハンド１２４の軌道を生成する。所定の把持条件は、ハンド１２４が把持対象物を把持するときの条件や、ハンド１２４が把持対象物を把持するまでの軌道の条件等を含む。ハンド１２４が把持対象物を把持するときの条件は、例えば、ハンド１２４が把持対象物を把持するときに、アーム１２３を伸ばし過ぎないようにする等である。また、ハンド１２４が把持対象物を把持するまでの軌道の条件は、例えば、把持対象物が引き出しのつまみである場合、ハンド１２４が直線軌道を取ること等である。

制御部１５０は、ハンド１２４の軌道を生成すると、生成した軌道に応じた駆動信号を上体駆動ユニット１４６へ送信する。ハンド１２４は、その駆動信号に応じて、把持対象部に対する把持動作を行う。

なお、推定部１５２において、ロボット１００に追加で要求されている動作の仕方を推定した場合には、制御部１５０は、ハンド１２４の軌道生成及び把持動作の前又は後において、ロボット１００に追加で要求されている動作を実行させる。このとき、ロボット１００に対して追加で要求されている動作によっては、ロボット１００を移動させる動作が必要となる場合がある。例えば、図２の例のように、把持対象物をつかんで搬送する動作が追加で要求されている場合には、搬送先にロボット１００を移動させる必要がある。また、ロボット１００の現在位置から把持対象物までの距離がある場合には、把持対象物の近傍にロボット１００を移動させる必要がある。

ロボット１００を移動させる動作が必要である場合には、制御部１５０は、ロボット１００を移動させる経路を生成するために、地図ＤＢ１８３から、ロボット１００が存在する第１環境における空間を記述した地図情報を取得する。地図情報は、例えば、第１環境における各部屋の位置、各部屋の間取り等を記述したものであると良い。また、地図情報は、各部屋に存在するタンス、テーブル等の障害物を記述したものでも良い。ただし、障害物に関しては、レーザスキャナ１３３からの検出信号によりロボット１００の移動方向に障害物が存在するか否かを検出することもできる。また、ロボット１００の現在位置から把持対象物までの距離がある場合、学習済みモデル１８１によっては、ステレオカメラ１３１により取得した撮像画像から、把持対象物の距離、方向を得ることができる。なお、把持対象物の距離、方向は、第１環境の撮像画像を画像解析して得ても良いし、その他のセンサからの情報により得ても良い。

そのため、制御部１５０は、把持対象物の近傍にロボット１００を移動させる場合は、地図情報、把持対象物の距離、方向、障害物の存在の有無等に基づいて、ロボット１００が、現在位置から、障害物を回避しつつ、把持対象物の近傍に移動させるための経路を生成する。また、制御部１５０は、搬送先にロボット１００を移動させる場合は、地図情報、障害物の存在の有無等に基づいて、ロボット１００が、現在位置から、障害物を回避しつつ、搬送先に移動させるための経路を生成する。そして、制御部１５０は、生成した経路に応じた駆動信号を、台車駆動ユニット１４５へ送信する。台車駆動ユニット１４５は、その駆動信号に応じて、ロボット１００を移動させる。なお、制御部１５０は、搬送先の経路中に、例えば、ドアがある場合には、ドアの近傍でドアノブをつかんでドアを開閉するためのハンド１２４の軌道を生成し、生成した軌道に応じたハンド１２４の制御も合わせて行う必要がある。この場合の軌道の生成及びハンド１２４の制御は、例えば、上述した方法と同様の方法を用いれば良い。

図９は、遠隔端末３００のブロック構成例を示すブロック図である。ここでは、ロボット１００から受信した撮像画像に対してユーザが手書き入力情報を入力する処理や、ユーザがテキストチャットによる対話を行うための処理に関係する主な要素について説明するが、遠隔端末３００の構成としては他の要素も備え、また、ユーザが手書き入力情報を入力する処理やユーザがテキストチャットによる対話を行うための処理に寄与する他の要素が加えられることもあり得る。

演算部３５０は、例えばＣＰＵであり、メモリ３８０から読み出した制御プログラムを実行することにより遠隔端末３００全体の制御と様々な演算処理とを実行する。表示パネル３４１は、例えば液晶パネルであり、例えばロボット１００から送られてきた撮像画像やテキストチャットのチャット画面を表示する。また、表示パネル３４１は、チャット画面には、ユーザが入力した発話文のテキスト情報や、ロボット１００から送られてくる応答発話文のテキスト情報を表示する。

入力ユニット３４２は、表示パネル１４１に重畳して配置されたタッチパネルや、表示パネル１４１の周縁部に設けられた押しボタン等を含む。入力ユニット３４２は、ユーザがタッチパネルへのタッチによって入力した手書き入力情報や発話文のテキスト情報を、演算部３５０へ引き渡す。手書き入力情報やテキスト情報の例は、例えば図２に示した通りである。

メモリ３８０は、不揮発性の記憶媒体であり、例えばソリッドステートドライブが用いられる。メモリ３８０は、遠隔端末３００を制御するための制御プログラムの他にも、制御や演算に用いられる様々なパラメータ値、関数、ルックアップテーブル等を記憶している。

通信ユニット３９０は、例えば無線ＬＡＮユニットであり、無線ルータ７００との間で無線通信を行う。通信ユニット３９０は、ロボット１００から送られてくる撮像画像や応答発話文のテキスト情報を受信して演算部３５０へ引き渡す。また、通信ユニット３９０は、演算部３５０と協働して、手書き入力情報やユーザの発話文のテキスト情報をロボット１００へ送信する。

次に、本実施形態に係る遠隔操作システム１０の全体的な処理について説明する。図１０は、本実施形態に係る遠隔操作システム１０の全体的な処理の流れの例を示すフロー図である。左側のフローはロボット１００の処理フローを表し、右側のフローは遠隔端末３００の処理フローを表す。また、システムサーバ５００を介して行う手書き入力情報や撮像画像やテキストチャットのテキスト情報のやり取りを、点線の矢印で示している。

ロボット１００の制御部１５０は、ロボット１００が存在する第１環境を、ステレオカメラ１３１に撮像させ（ステップＳ１１）、その撮像画像を、通信ユニット１９０を介して遠隔端末３００へ送信する（ステップＳ１２）。

遠隔端末３００の演算部３５０は、ロボット１００から通信ユニット３９０を介して撮像画像を受信すると、受信した撮像画像を表示パネル３４１に表示する。
以降、ユーザは、遠隔端末３００上で、ロボット１００との間で、テキストチャットによる対話を行う（ステップＳ２１）。具体的には、遠隔端末３００の演算部３５０は、ユーザが、タッチパネルである入力ユニット３４２を介して、発話文のテキスト情報を入力すると、そのテキスト情報を表示パネル３４１のチャット画面に表示すると共に、通信ユニット３９０を介してロボット１００へ送信する。また、演算部３５０は、ロボット１００から通信ユニット３９０を介して応答発話文のテキスト情報を受信すると、そのテキスト情報を表示パネル３４１のチャット画面に表示する。

また、遠隔端末３００の演算部３５０は、撮像画像に対する手書き入力情報の入力を受け付ける状態に遷移する（ステップＳ３１）。ユーザが、タッチパネルである入力ユニット３４２を介して、撮像画像に対して手書き入力情報を入力すると（ステップＳ３１のＹｅｓ）、演算部３５０は、その手書き入力情報を、通信ユニット３９０を介してロボット１００へ送信する（ステップＳ３２）。

ロボット１００の推定部１５２は、遠隔端末３００から、ユーザが撮像画像に対して入力した手書き入力情報を受信すると、その手書き入力情報と、テキストチャットの対話履歴と、に基づいて、ハンド１２４による把持が要求されている把持対象物を推定すると共に、推定した把持対象物に対して要求されているハンド１２４による把持動作の仕方を推定する（ステップＳ１３）。このとき、把持対象物に関しては、推定部１５２は、手書き入力情報が入力された撮像画像に写っている把持可能部の情報を、認識部１５１から取得し、把持可能部の中から、手書き入力情報と、テキストチャットの対話履歴と、に基づいて、把持対象物を推定する。また、推定部１５２は、手書き入力情報の内容及びテキストチャットの対話履歴の内容を解析し、解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００に確認しながら、上記推定を行っていく。

以降、ロボット１００の制御部１５０は、把持対象物に対して要求されている把持動作を実現するためのハンド１２４の軌道を生成する（ステップＳ１４）。制御部１５０は、ハンド１２４の軌道を生成すると、生成した軌道に応じて上体駆動ユニット１４６を制御し、ハンド１２４によって把持対象部に対する把持動作が行われる（ステップＳ１５）。

なお、ステップＳ１３において、推定部１５２は、テキストチャットの対話履歴に基づいて、ロボット１００に追加で要求されている動作があるか否かを判断し、ロボット１００に追加で要求されている動作があれば、その動作の仕方を推定しても良い。この推定は、テキストチャットの対話履歴の内容を解析し、解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００に確認しながら、行っても良い。

推定部１５２において、ロボット１００に追加で要求されている動作の仕方を推定した場合には、制御部１５０は、ステップＳ１４，Ｓ１５の前又は後において、ロボット１００に追加で要求されている動作を実行させる。このような動作の実行に際して、ロボット１００を移動させる動作が必要となる場合には、制御部１５０は、ロボット１００を移動させる経路を生成する。そして、制御部１５０は、生成した経路に応じた駆動信号を、台車駆動ユニット１４５へ送信する。台車駆動ユニット１４５は、その駆動信号に応じて、ロボット１００を移動させる。

以上説明したように本実施形態によれば、推定部１５２は、ロボット１００が存在する環境を撮像した撮像画像に対してユーザが入力した手書き入力情報と、テキストチャットの対話履歴と、に基づいて、ハンド１２４による把持が要求されている把持対象物を推定すると共に、推定した把持対象物に対して要求されているハンド１２４による把持動作の仕方を推定する。

これにより、ユーザは、予め設定された指示図形を思い出しながら手書き入力をしなくても、遠隔操作によってロボット１００に把持動作を実行させることができる。従って、より直感的な操作が可能な遠隔操作システム１０を実現することができる。

また、本実施形態によれば、推定部１５２は、撮像画像に対して入力された手書き入力情報の内容及びテキストチャットの対話履歴の内容を解析し、解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００（ユーザ）に確認しても良い。

これにより、ユーザの意図をテキストチャットで確認しながら、把持動作の操作に係るコミュニケーションをユーザと取ることができる。従って、ユーザの意図をより反映させた直感的な操作が可能な遠隔操作システム１０を実現することができる。

なお、本発明は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上記実施の形態では、遠隔端末３００の表示パネル３４１に表示する表示画面３１０は、例えば、図２のように、撮像画像３１１と、チャット画面３１２と、が横に並べて配置された画面であったが、これには限定されない。表示画面３１０は、例えば、撮像画像に重ねてチャット画面が配置された画面でも良い。図１１は、撮像画像３１１に重ねてチャット画面３１２が配置された表示画面３１０の例を示す図である。

また、上記実施の形態では、推定部１５２は、撮像画像に対して入力された手書き入力情報について解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００（ユーザ）に確認していた。このとき、手書き入力情報から解析した把持対象物については、その把持対象物の画像を撮像画像から切り出し、チャット画面に表示することで、遠隔端末３００（ユーザ）に確認しても良い。図１２は、手書き入力情報から解析した把持対象物の画像をチャット画面に表示した例を示す図である。図１２の例では、推定部１５２は、手書き入力情報９３１から解析した把持対象物がスマートフォン４０３であることをユーザに確認するために、「了解。このスマホかな？」という応答発話文のテキスト情報（テキストボックス９２４）と共に、撮像画像３１１から切り出したスマートフォン４０３の画像（テキストボックス９２５）を遠隔端末３００に送信し、これらを表示パネル３４１のチャット画面３１２に表示させる。

また、上記実施の形態では、撮像画像に対して１つの手書き入力情報が入力される例を説明したが、これには限定されない。撮像画像に対しては複数の手書き入力情報が入力されても良い。撮像画像に対して複数の手書き入力情報が入力された場合、推定部１５２は、複数の手書き入力情報の各々について、解析を行い、解析した内容をテキストチャットのテキスト情報を用いて遠隔端末３００（ユーザ）に確認しながら、把持対象物及び把持動作の仕方を推定すれば良い。このとき、推定部１５２は、把持動作の順番を、把持動作に対応する手書き入力情報が入力された順番と推定しても良い。又は、推定部１５２は、把持動作の順番を、テキストチャットのテキスト情報を用いて遠隔端末３００（ユーザ）に確認しながら、推定しても良い。

また、上記実施の形態では、認識部１５１及び推定部１５２がロボット１００に備えられていたが、これには限定されない。認識部１５１、及び、推定部１５２のうちの遠隔端末３００のユーザと対話する機能を除く機能は、遠隔端末３００に備えられていても良いし、システムサーバ５００に備えられていても良い。

また、上記実施の形態では、ユーザは、遠隔端末３００の表示パネル３４１に重畳して配置されたタッチパネルへのタッチによって、対話文のテキスト情報を入力していたが、これには限定されない。例えば、ユーザは、遠隔端末３００のマイク等に発話を行い、遠隔端末３００は、一般的な音声認識技術を用いてユーザの発話内容を認識してテキスト情報に変換し、変換したテキスト情報を、ユーザの対話文のテキスト情報としても良い。

また、上記実施の形態では、ロボット１００と遠隔端末３００とがインターネット６００及びシステムサーバ５００を介して、撮像画像や手書き入力情報やテキストチャットのテキスト情報をやり取りしていたが、これには限定されない。ロボット１００と遠隔端末３００とは、直接通信によって、撮像画像や手書き入力情報やテキストチャットのテキスト情報をやり取りしても良い。

また、上記実施の形態では、ロボット１００に備えられている撮像部（ステレオカメラ１３１）を用いていたが、これには限定されない。撮像部は、ロボット１００が存在する第１環境の任意の場所に備えられた任意の撮像部であれば良い。また、撮像部は、ステレオカメラに限定されず、単眼カメラ等であっても良い。

また、上記実施の形態では、被操作対象が、アーム１２３の先端のハンド１２４をエンドエフェクタとして備えるロボット１００である例を説明したが、これには限定されない。被操作対象は、エンドエフェクタを備え、エンドエフェクタを用いて把持動作を実行するものであれば良い。また、エンドエフェクタは、ハンド以外の他の把持部（例えば、吸着部等）であっても良い。

１０遠隔操作システム、１００ロボット、１１０台車部、１１１駆動輪、１１２キャスター、１２０本体部、１２１胴部、１２２頭部、１２３アーム、１２４ハンド、１３１ステレオカメラ、１３３レーザスキャナ、１３５ハンドカメラ、１４１表示パネル、１４５台車駆動ユニット、１４６上体駆動ユニット、１５０制御部、１５１認識部、１５２推定部、１８０メモリ、１８１学習済みモデル、１８２発話ＤＢ、１８３地図ＤＢ、１９０通信ユニット、３００遠隔端末、３１０表示画面、３１１撮像画像、３１２チャット画面、３４１表示パネル、３４２入力ユニット、３５０演算部、３８０メモリ、３９０通信ユニット、４００テーブル、４０１カップ、４０２電卓、４０３スマートフォン、４０４紙、５００システムサーバ、６００インターネット、７００無線ルータ、８０１～８０４把持可能領域、９０１画像（ユーザ）、９０２画像（ロボット）、９１１～９１３，９２１～９２５テキストボックス、９３１手書き入力情報

Claims

エンドエフェクタを備える被操作対象を遠隔操作する遠隔操作システムであって、
前記被操作対象が存在する環境を撮像する撮像部と、
前記撮像部が撮像した前記環境の撮像画像を表示し、表示した前記撮像画像に対する手書き入力情報の入力を受け付けると共に、ユーザが前記被操作対象との間でテキストチャットによる対話を行うための機能を具備する操作端末と、
前記撮像画像に対して入力された前記手書き入力情報と、前記テキストチャットの対話履歴と、に基づいて、前記エンドエフェクタによる把持が要求されている把持対象物を推定すると共に、前記把持対象物に対して要求されている前記エンドエフェクタによる把持動作を推定する推定部と、
を備え、
前記把持動作は、以下の動作のうち、少なくとも１つである、
（Ａ）前記把持対象物を単に把持する動作、
（Ｂ）前記把持対象物をつかんで持ち上げる動作、
（Ｃ）前記把持対象物が扉又は引き出しのつまみである場合は前記つまみをつかんで前記扉又は引き出しを開閉する動作、
（Ｄ）前記把持対象物がドアのドアノブである場合は前記ドアノブをつかんで前記ドアを開閉する動作、
遠隔操作システム。
前記推定部は、前記撮像画像に対して入力された前記手書き入力情報の内容を解析し、解析した内容を前記テキストチャットのテキスト情報を用いて前記操作端末に確認する、
請求項１に記載の遠隔操作システム。
前記撮像画像に基づいて、前記エンドエフェクタが把持可能な把持可能部を認識する認識部をさらに備え、
前記推定部は、前記認識部が認識した前記把持可能部の中から前記把持対象物を推定する、
請求項１又は２に記載の遠隔操作システム。
エンドエフェクタを備える被操作対象を遠隔操作する遠隔操作システムによる遠隔操作方法であって、
前記被操作対象が存在する環境を撮像し、
前記環境の撮像画像を表示した操作端末において、表示した前記撮像画像に対する手書き入力情報の入力を受け付け、
前記被操作対象が、前記操作端末のユーザとの間でテキストチャットによる対話を行い、
前記撮像画像に対して入力された前記手書き入力情報と、前記テキストチャットの対話履歴と、に基づいて、前記エンドエフェクタによる把持が要求されている把持対象物を推定すると共に、前記把持対象物に対して要求されている前記エンドエフェクタによる把持動作を推定し、
前記把持動作は、以下の動作のうち、少なくとも１つである、
（Ａ）前記把持対象物を単に把持する動作、
（Ｂ）前記把持対象物をつかんで持ち上げる動作、
（Ｃ）前記把持対象物が扉又は引き出しのつまみである場合は前記つまみをつかんで前記扉又は引き出しを開閉する動作、
（Ｄ）前記把持対象物がドアのドアノブである場合は前記ドアノブをつかんで前記ドアを開閉する動作、
遠隔操作方法。