以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.遠隔作業支援システムの概要>
まず、図1を参照して、本発明の一実施形態による遠隔作業支援システム(情報処理システム)の全体構成について説明する。図1は、本発明の一実施形態による遠隔作業支援システムの全体構成の一例を示す図である。
図1に示すように、本実施形態による遠隔作業支援システム1aは、例えば遠隔地で何らかの作業を行っている作業者U2に対して、作業者U2の視界方向を撮像した映像(作業者U2の作業対象を含む画角の映像)を見ながら、リアルタイムで指示者U1が作業者U2に対して作業等に関する指示を行う場合に適用され得る。なお、ここでは「遠隔地」と表現したが、本システムは、指示者U1と作業者U2が遠く離れた場所に居る場合に限られず、別の場所に居る場合や、また、同じ場所に居る場合であってもよい。
図1に示すように、本実施形態による遠隔作業支援システム1aは、情報処理装置10と、センサ部120と、マイク130と、撮像装置20と、表示装置30と、を含む。情報処理装置10は、指示者U1が利用する端末であって、作業者U2側の映像(撮像画像)が表示される。作業者U2側の映像とは、例えば図1に示すように作業者U2の頭部などに装着されたウェアラブルデバイスである撮像装置20により、作業者U2の視界を撮影した映像である。撮像装置20は、ユーザの視界方向を撮影し得る。なお、撮像装置20は、図1に示すような作業者U2に装着される装置に限定されず、作業者U2周辺の天井や後方の壁などに、作業者U2の視界方向を撮影できるよう設置された装置であってもよい。
また、図1では、作業者U2の作業対象として、オブジェクトObj1~Obj3を図示している。作業内容や作業対象は特に限定しないが、例えば、工場における機械の操作や部品の組み立て、画面操作など、様々な場合が想定される。
情報処理装置10は、撮像装置20で撮影され、送信された撮像画像を、表示部150に表示する。指示者U1は、表示部150に表示された撮像画像を見ながら、作業者U2に対して指示を行い得る。
(課題の整理)
ここで、作業者U2に対する指示は、例えば音声で行うことが考え得る。具体的には、指示者U1の音声を収音し、収音した音声データを、ネットワークを介して作業者U2側(例えば情報処理端末)に送信し、作業者U2が装着するイヤホンやヘッドホンから再生することで、映像を見ながらの音声の指示が可能となる。
しかしながら、作業場の騒音により音声が聞こえ難い場合や、言葉が分からない場合も想定され、音声では円滑な作業支援が出来ない場合がある。
そこで、非言語コミュニケーションであるハンドジェスチャを用いて指示することが考え得る。例えば、図1に示すように、指示者U1の手や指の動き(3次元空間の動き)をセンサ部120で検知して、検知結果から手や指の動きを表現するジェスチャ画像60をCG(Computer Graphics)などで生成し、生成したジェスチャ画像60を作業者U2側で撮影された撮像画像に重畳した画像(重畳画像とも称す)を、表示部150に表示する。これにより、指示者U1は、画面の中で手を動かすことが可能となり、指差しなどのハンドジェスチャを行うことが可能となる。また、かかるジェスチャ画像60が重畳された画像(重畳画像)は、作業者U2側に送信され、例えば作業者U2が装着する表示装置30(ウェアラブルディスプレイなど)に表示される。作業者U2から見ると、自身の視界(視野範囲)を少なくとも含むカメラ画像に、ジェスチャ画像60が重畳表示され、所謂AR(Augmented Reality)表示が行われている状態となる。このように、作業者U2側で撮影された撮像画像(実空間の映像)にジェスチャ画像60が重畳された画像が作業者U2に提示されることで、指示者U1は、ハンドジェスチャを介してより直感的に作業者U2に指示を伝えることが可能となる。
なお、ここでは一例としてウェアラブルディスプレイを用いているが、表示装置30は作業者U2に装着されるデバイスに限定されず、例えば作業者U2の周囲に設置された大型のディスプレイなどであってもよいし、作業台の天板に設置されるディスプレイであってもよい。また、表示装置30は、プロジェクタであってもよい。例えばプロジェクタにより作業台の天板や壁などに、ジェスチャ画像60が重畳された画像を投影してもよい。
また、ここでは一例としてジェスチャ画像60をAR表示する旨を説明したが、本システムはこれに限定されず、例えば作業者U2が装着する表示装置30において、ジェスチャ画像60をMR(Mixed Reality)表示してもよい。これにより、作業者U2は、ジェスチャ画像60を自由角度から観察することができる。また、複数の作業員が表示装置30をそれぞれ装着し、MR表示されたジェスチャ画像60を共有しながら指示を確認したりすることができる。
このようにハンドジェスチャを用いてより直感的な指示を行うことが可能となるが、例えば指示者U1が画面内のある場所を指した場合に、そのジェスチャが「ここを操作してください」という肯定の指示の場合と、「ここは操作しないでください」という否定の指示の場合があり、ジェスチャによっては誤解が生じてしまう場合も想定される。
したがって、本発明では、指示者U1によるジェスチャを用いて行った指示の意図を、より正確に明示的に伝える仕組みを提案する。具体的には、本実施形態による遠隔作業支援システム1aは、例えばマイク130により収音した指示者U1の音声などから指示の意図を判定し、判定した意図に応じて必要があればジェスチャ画像を修正して提示するよう制御することで、指示者U1の指示の意図をより正確に、明示的に伝えることを可能とする。
続いて、本実施形態による遠隔作業支援システム1aに含まれる情報処理装置10の構成例について具体的に説明する。
<2.構成例>
図2は、本実施形態による遠隔作業支援システム1aに含まれる情報処理装置10の構成の一例を主に示すブロック図である。図2に示すように、情報処理装置10は、制御部100と、通信部110と、センサ部120と、マイク130と、操作入力部140と、表示部150と、記憶部160と、を有する。
(制御部100)
制御部100は、例えば、CPU(Central Processing Unit)等を中心に構成されており、各種プログラムに従って情報処理装置10の各機能を制御する。例えば制御部100は、撮像装置20から受信した撮像画像を、表示部150に表示する制御を行う。
また、本実施形態による制御部100は、指示意図判定部101、ジェスチャ画像生成部102、ジェスチャ画像修正部103、重畳画像生成部104、および表示制御部105としても機能し得る。
・指示意図判定部101
指示意図判定部101は、指示者U1による指示の意図を判定する。例えば、指示意図判定部101は、マイク130により収音した音声データの解析結果に基づいて、指示の意図を判定してもよい。指示意図判定部101は、指示の意図として、「~を行ってください」、「~してください」といった肯定(許可、ポジティブ)の意図、または、「~を行ってはいけません」、「~しないでください」といった否定(禁止、ネガティブ)の意図を判定する(ネガポジ判定とも称される)。指示の意図の判定は、マイク130により収音した指示者U1の音声データの解析結果に基づいて行われてもよいし、操作入力部140からの指示者U1による操作入力結果に基づいて行われてもよい。
すなわち、指示意図判定部101は、マイク130により収音した音声データに対して音声認識処理を行って文字列化し、文字列化したデータに対して、例えば、形態素解析、構文解析、意味解析、および文脈解析等の自然言語処理を行い得る。また、指示意図判定部101は、文字列化したデータから、所定のキーワード(例えば肯定または否定を表現する文言)の抽出等を行ってもよい。これにより、指示意図判定部101は、指示者U1の発話音声に基づいて、指示の意図を判定することができる。なお指示意図判定部101は、センサ部120により指示者U1のジェスチャが検知された際(前後を含んでもよい)に検知した発話音声に基づいて意図の判定することで、当該ジェスチャの意図を判定することが可能となる。また、指示意図判定部101は、肯定や否定の意図だけに限らず、指示者U1の発話音声に基づいて、さらに具体的な指示の意図を判定することも可能である。また、指示意図判定部101は、肯定(ポジティブ)と否定(ネガティブ)の意図の判定において、両者の度合いを判定してもよい(例えば、自然言語処理の結果に基づいて、肯定を示す要素の数値と、否定を示す要素の数値をそれぞれ算出してもよい)。
また、指示者U1の発話音声に基づく意図判定のアルゴリズムは特に限定せず、既存の技術を用いてもよい。例えば、指示意図判定部101は、予め登録した辞書ベースで行ってもよいし、機械学習を用いてもよい。また、指示意図判定部101は、発話音声を文字列化したデータに対して、機械学習を用いた感情分析を行い、感情の有無や大きさや、ポジティブな感情とネガティブな感情の評価(数値の算出など)を取得してもよい。また、指示意図判定部101は、さらに、収音した指示者U1の発話音声における声のトーンや、テンポ、声の大きさ、口調などを考慮し、感情分析を行うようにしてもよい。
また、指示意図判定部101は、上述したように、操作入力部140からの指示者U1による操作入力結果に基づいて、指示の意図を判定することも可能である。具体的には、図1には図示していないが、例えば操作入力部140としてボタン、スイッチ、キーボード、マウス、タッチパッド、カメラ、その他センサ等を用意し、ボタン操作やスイッチ操作、キーボードやマウス等による画面操作、若しくはジェスチャ入力等により、肯定または否定の意図を入力(例えば選択入力)できるようにしてもよい。
また、指示意図判定部101は、指示者U1の顔の表情をカメラ(不図示)により撮像し、撮像画像から顔の表情を解析することで、指示者U1の指示の意図(肯定か否定か)を判定することも可能である。
以上、本実施形態による指示意図の判定についていくつかの方法を挙げたが、本実施形態はこれに限定されず、指示意図判定部101は、他の方法により指示意図を判定してもよい。また、指示意図判定部101は、上述した方法の少なくともいずれかを用いた組み合わせで指示意図を判定してもよい。
・ジェスチャ画像生成部102
ジェスチャ画像生成部102は、センサ部120により検知されたデータに基づいて、指示者U1のジェスチャ(手指の動き)を表現するジェスチャ画像を、例えばCG等により生成する。例えば、ジェスチャ画像生成部102は、センサ部120により検知(計測)された、指示者U1の手や指、また、指の関節などの三次元位置座標や、その変化のデータに基づいて、手や指の形や動きを表現する3D画像または2D画像を、ジェスチャ画像として生成する。
・ジェスチャ画像修正部103
ジェスチャ画像修正部103は、指示意図判定部101により判定された、指示者U1による指示の意図に対応するジェスチャが、ジェスチャ画像生成部102により生成されたジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、判定された指示の意図を示すようジェスチャ画像を修正する処理を行う。例えば、ジェスチャ画像修正部103は、予め登録された肯定または否定を表現する1以上のジェスチャ画像と、ジェスチャ画像生成部102により生成されたジェスチャ画像とを比較し、指示の意図(肯定または否定の意図)に対応する(合致する)ジェスチャ画像が含まれているか否かを判断し得る。そして、対応するジェスチャ画像が含まれていない場合、ジェスチャ画像修正部103は、指示の意図に対応するよう、予め登録されたジェスチャ画像やアイコンを追加したり、生成したジェスチャ画像を削除したり等の修正を行う。ここで、ジェスチャ画像修正部103によるジェスチャ画像の修正例について、図3および図4を参照して具体的に説明する。
図3は、本実施形態によるジェスチャ画像の修正例を示す図である。図3に示す例では、例えば指示者U1が、「これは操作しないでください。」と話しながら、表示部150に表示される撮像画像に写るオブジェクト50を指差すジェスチャ動作を行った場合について説明する。表示部150には、リアルタイムで(出来るだけ遅延なく)、指示者U1のジェスチャ動作のセンシングデータ(例えば3次元位置データ)に基づいて生成されたジェスチャ画像60が、重畳表示される。
ここで、指示者U1は、「これは操作しないでください。」と、否定の指示を音声で行いながらハンドジェスチャを行っているが、音声が聞こえ難かったり、言葉が分からなかったりした場合、ジェスチャ画像60の形を見て、操作してはダメなのか良いのかがはっきりせず、肯定の指示と誤解される恐れもある。したがって、マイク130は、図3右側に示すように、指示者U1の指示の意図に対応するようジェスチャ画像60を修正する。具体的には、まず、ジェスチャ画像修正部103は、生成されたジェスチャ画像60と、予め登録された否定のジェスチャ画像とを比較し、否定のジェスチャ画像が含まれているか否かを判断する。含まれていない場合、ジェスチャ画像修正部103は、ジェスチャ画像の削除や追加等を行って修正する。例えば図3右側に示すように、否定を示すジェスチャ画像62(例えば指でバツを作るハンドジェスチャ)や、否定を示すアイコン画像64(例えばバツマーク)を、ジェスチャ画像60を表示した直後に追加表示する修正を行う。追加するジェスチャ画像62や、アイコン画像64は、情報処理装置10などに予め登録され得る。これにより、ジェスチャ画像60で、オブジェクト50を指し示した上で、「否定」の意図を明確に示すことが可能となる。
なお、図3に示す修正例は一例であって、本実施形態による、否定の意図に対応するようジェスチャ画像を修正する例はこれに限定されない。また、生成されたジェスチャ画像60に、予め登録された否定のジェスチャ画像が含まれている場合、ジェスチャ画像修正部103は、ジェスチャ画像60の修正は行わないようにしてもよいし、さらに、予め登録された否定のジェスチャ画像または否定のアイコン画像等を追加するようにしてもよい。
図4は、本実施形態によるジェスチャ画像の他の修正例を示す図である。図4に示す例では、例えば指示者U1が、「これを操作してください。」と話しながら、表示部150に表示される撮像画像に写るオブジェクト50を指差すジェスチャ動作を行った場合について説明する。
ここで、指示者U1は、「これを操作してください。」と、肯定の指示を音声で行いながらハンドジェスチャを行っているが、音声が聞こえ難かったり、言葉が分からなかったりした場合、ジェスチャ画像60の形を見て、操作しても良いのかダメなのかがはっきりせず、否定の指示と誤解される恐れもある。したがって、マイク130は、図4右側に示すように、指示者U1の指示の意図に対応するようジェスチャ画像60を修正する。具体的には、まず、ジェスチャ画像修正部103は、生成されたジェスチャ画像60と、予め登録された肯定のジェスチャ画像とを比較し、肯定のジェスチャ画像が含まれているか否かを判断する。含まれていない場合、ジェスチャ画像修正部103は、ジェスチャ画像の削除や追加等を行って修正する。例えば図4右側に示すように、肯定を示すジェスチャ画像66(例えば指で丸を作るハンドジェスチャ)や、肯定を示すアイコン画像68(例えば丸マーク)を、ジェスチャ画像60を表示した直後に追加表示する修正を行う。追加するジェスチャ画像66や、アイコン画像68は、情報処理装置10などに予め登録され得る。これにより、ジェスチャ画像60で、オブジェクト50を指し示した上で、「肯定」の意図を明確に示すことが可能となる。
なお、図4に示す修正例は一例であって、本実施形態による、肯定の意図に対応するようジェスチャ画像を修正する例はこれに限定されない。また、生成されたジェスチャ画像60に、予め登録された肯定のジェスチャ画像が含まれている場合、ジェスチャ画像修正部103は、ジェスチャ画像60の修正は行わないようにしてもよいし、さらに、予め登録された肯定のジェスチャ画像または肯定のアイコン画像等を追加するようにしてもよい。
なお、情報処理装置10は、否定のジェスチャ画像のみを予め登録しておいてもよい。ジェスチャ画像修正部103は、生成されたジェスチャ画像に、予め登録された否定のジェスチャ画像が含まれているか否かを判断し、含まれていない場合は、当該生成されたジェスチャ画像を肯定のジェスチャ画像であるとみなしてもよい。この場合、指示の意図も「肯定」である場合は、特に修正は行わない。一方、指示の意図が「否定」である場合は、当該生成されたジェスチャ画像を削除し、若しくは当該生成された画像に追加して、予め登録された否定のジェスチャ画像を表示するようにしてもよい。また、ジェスチャ画像修正部103は、予め登録された否定のジェスチャ画像が含まれている場合は、当該生成されたジェスチャ画像を「否定」に対応するものと判断する。この場合、指示の意図も「否定」である場合は、特に修正は行わない。一方、指示の意図が「肯定」である場合は、当該生成されたジェスチャ画像を削除し、若しくは当該生成された画像に追加して、予め登録された肯定のジェスチャ画像を表示するようにしてもよい。
・重畳画像生成部104
重畳画像生成部104は、指示者U1の指示の意図に対応するジェスチャ画像を、撮像装置20で撮像された作業者U2側の撮像画像に重畳する処理を行う。指示者U1の指示の意図に対応するジェスチャ画像は、ジェスチャ画像生成部102により生成されたジェスチャ画像の場合もあるし、ジェスチャ画像修正部103により修正されたジェスチャ画像(修正ジェスチャ画像)の場合もある。重畳画像生成部104は、センサ部120により検知された位置や動きに対応するよう、ジェスチャ画像を撮像画像に重畳表示する。
・表示制御部105
表示制御部105は、ジェスチャ画像が重畳された画像(重畳画像とも称す)を、作業者U2の表示装置30に表示するよう制御する。具体的には、表示制御部105は、重畳画像を、通信部110を介して、表示装置30に送信する制御を行う。重畳画像の表示装置30での表示は、リアルタイムに(出来るだけ遅延なく)行われることが望ましい。また、表示制御部105は、修正を行っていないジェスチャ画像を重畳した画像を、表示部150に表示し、指示者U1に提示する制御を行う。これにより、指示者U1は、フィードバックを受けながら、ジェスチャ動作を行うことが可能となる。また、表示制御部105は、さらに作業者U2側に送信する重畳画像も併せて(例えば並列して、若しくは小さい表示領域で)表示部150に表示するよう制御してもよい。これにより、システムによるジェスチャ画像の修正の有無や、作業者U2側ではどのように見えているかを指示者U1に提示することが可能となる。
(通信部110)
通信部110は、ネットワーク40(例えば専用回線)を介して、撮像装置20および表示装置30と通信接続し、データの送受信を行う。例えば通信部110は、撮像装置20から撮像画像を受信したり、表示装置30に、指示意図に対応するジェスチャ画像を撮像画像に重畳した重畳画像を送信したりする。これらのデータの送受信は、継続的に行われ得る。
(センサ部120)
センサ部120は、ジェスチャ動作を検知する機能を有する。センサ部120は、例えば赤外線発光部と2つの赤外線カメラとが搭載された、三次元空間を検知できるセンサにより実現されてもよい。これにより、センサ部120は、手や指、指の関節などの3次元位置(座標)や動き(座標の変化)を検知し、ジェスチャ動作を計測する。なお、センサ部120は赤外線カメラなどの光学式に限定されず、例えば音波式や磁気式でもよい。また、センサ部120は、非接触計測に限定されず、手指にセンサを取り付けて計測する接触計測であってもよい。センサ部120は、検知したセンシングデータ(指示動作データ、例えば、3次元位置座標など)を、制御部100に出力する。
(マイク130)
マイクロホン(本明細書では、マイクと省略して称する)130は、周囲の音を収音し、収音した音データを制御部100に出力する。また、マイク130は、複数のマイクロホンを設置したマイクアレイにより実現されてもよい。また、マイク130は、収音した音データから雑音を除去する処理を行った上で、音声データを制御部100に出力してもよい。
(操作入力部140)
操作入力部140は、指示者U1の操作入力を受け付ける操作部の機能を有する。例えば操作入力部140は、マウス、キーボード、ボタン、レバー、スイッチ等の物理的な構成により実現されてもよい。また、操作入力部140は、タッチパネルディスプレイにより実現されてもよい。また、操作入力部140は、複数あってもよい。
(表示部150)
表示部150は、画像を表示する表示部の機能を有する。表示部150は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置により実現される。本実施形態による表示部150は、表示制御部105の制御に従って、撮像装置20から送信された撮像画像を表示する。また、表示部150は、指示者U1のハンドジェスチャを表現したジェスチャ画像が撮像画像に重畳された重畳画像を、表示する。また、表示部150は、複数あってもよい。
(記憶部160)
記憶部160は、ROM(Read Only Memory)およびRAM(Random Access Memory)等から実現され、情報処理装置10の動作を制御するための制御プログラムや各種パラメータ、データ等を格納する。例えば、記憶部160には、ジェスチャ画像修正部103が、ジェスチャ画像生成部102により生成されたジェスチャ画像が肯定か否定かを判断するためのデータなどが記憶されている。
以上、本実施形態による情報処理装置10の構成について具体的に説明した。なお、図1に示す情報処理装置10の構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置10は、カメラやスピーカ等をさらに備えていてもよい。これにより、情報処理装置10の指示意図判定部101は、カメラにより指示者U1の顔を撮像し、その表情から、指示意図を判定することも可能である。また、情報処理装置10の制御部100は、作業者U2側で収音され、送信された音声データ(作業者U2の音声)を、スピーカから出力して指示者U1に提示することも可能である。
また、情報処理装置10の各構成のうち、少なくとも一部が別体により構成されていてもよい。
<3.動作処理>
続いて、本実施形態による遠隔作業支援システム1aの動作処理について、図5を参照して具体的に説明する。図5は、本実施形態による遠隔作業支援システム1aの動作処理の流れの一例を示すシーケンス図である。
図5に示すように、まず、撮像装置20は、作業者U2の視界を撮像した撮像画像を、情報処理装置10に送信する(ステップS103)。
次に、情報処理装置10の表示制御部105は、撮像装置20から送信された撮像画像を、表示部150に表示する制御を行う(ステップS106)。
次いで、ジェスチャ画像生成部102は、センサ部120により検知された、指示者U1の指示動作(具体的には、ハンドジェスチャ動作)のセンシングデータ(3次元位置データなど)に基づいて、ジェスチャ画像を生成する(ステップS109)。
次に、ジェスチャ画像生成部102は、生成したジェスチャ画像を、ジェスチャ画像修正部103および重畳画像生成部104に出力する(ステップS112)。
一方、指示意図判定部101は、指示者U1の指示の意図を判定し(ステップS115)、判定した指示意図の情報を、ジェスチャ画像修正部103に出力する(ステップS118)。なお、ステップS115およびステップS118の処理は、上記ステップS109およびステップS112の処理と並行して行われてもよい。指示意図判定部101は、上述したように、例えば指示動作を行っている際の(指示動作を行っている時間帯の前後を含めてもよい)指示者U1の発話音声を解析して指示の意図(肯定か否定か)を判定する。
続いて、ジェスチャ画像修正部103は、生成されたジェスチャ画像に、指示意図に対応するジェスチャ画像(肯定または否定を示すジェスチャ画像)が含まれているか否かを判断する(ステップS121)。
次いで、ジェスチャ画像修正部103は、指示意図に対応するジェスチャ画像が含まれていない場合は、当該ジェスチャ画像を、指示意図に対応するよう修正する処理(例えばジェスチャ画像の一部削除や追加など)を行い(ステップS124)、修正したジェスチャ画像(修正ジェスチャ画像)を、重畳画像生成部104に出力する(ステップS127)。
次に、重畳画像生成部104は、撮像装置20から送信された撮像画像に、指示者U1の指示意図に対応するジェスチャ画像(修正ジェスチャ画像の場合もあれば、ジェスチャ画像生成部102により生成されたジェスチャ画像(修正無し)の場合もある)を重畳した画像を生成する(ステップS130)。この際、重畳画像生成部104は、ジェスチャ画像の3次元位置データを考慮して重畳表示の位置を決定し得る。
次いで、重畳画像生成部104は、生成した重畳画像を表示制御部105に出力し、表示制御部105は、通信部110から、作業者U2に装着された表示装置30に重畳画像を送信する制御を行う(ステップS133)。
そして、表示装置30は、受信した重畳画像を表示し、作業者U2に提示する(ステップS136)。作業者U2は、自身の視界を撮像した撮像画像に、指示者U1による指示を示すジェスチャ画像が重畳された画像(所謂AR表示)を見ることで、直感的に、指示者U1による指示を理解することが可能となる。また、重畳表示されるジェスチャ画像は、必要に応じて、指示者U1による指示意図に対応するよう修正されたものであるため、作業者U2は、誤解無く、より正確に、指示を理解することが可能となる。
また、表示制御部105は、重畳画像生成部104により生成された重畳画像を表示部150に表示して指示者U1に提示する制御を行う(ステップS139)。表示制御部105は、修正されていないジェスチャ画像を重畳した画像を(フィードバックとしてリアルタイムに)表示するようにしてもよいし、修正を行ったジェスチャ画像を重畳した画像を表示するようにしてもよいし、両者を表示するようにしてもよい。
以上、本実施形態による遠隔作業支援システム1aの動作処理について具体的に説明した。なお、本実施形態では、指示者U1による指示音声が作業者U2側では(周りの騒音などにより)聞き取りにくい場合や、言葉が分からない場合などを想定し、より有効な伝達手段として、ジェスチャ画像を用いた作業支援を行う場合について説明したが、本発明はこれに限定されない。例えば、指示者U1の指示音声も併せて作業者U2側で出力するようにしてもよい。作業者U2は、例えばイヤホンやヘッドホンなどを装着し、指示者U1の指示音声が聞こえるようにしてもよい。
<4.変形例>
続いて、本実施形態による遠隔作業支援システムの変形例について、図6~図8を参照して説明する。
上述した実施形態では、一人の作業者に対して、その作業者への指示をジェスチャ画像で提示する場合について説明したが、作業者が複数居る場合も想定される。この場合、複数の作業者がそれぞれ表示装置30を装着し、すべての作業者にジェスチャ画像を提示することも想定される(すなわち、同じ空間に複数の作業者がいて、同じ空間の映像と同じジェスチャ画像を共有している状況を想定する)。しかしながら、複数の作業者のうち一部の作業者に対してのみ指示を行いたい場合、すべての作業者に同じジェスチャ画像が提示されると、指示対象者ではない作業者が、自身への指示であると誤解する恐れがある。
そこで、本実施形態の変形例として、作業者が複数居る場合でもジェスチャ画像により指示を明示的に伝えることができる仕組みについて提案する。
(4-1.システム構成)
図6は、本実施形態の変形例による遠隔作業支援システム1bの全体構成の一例を示す図である。図6に示すように、複数の作業者がいる場合において、作業者側の空間の映像は、例えば天井や壁などに設置された撮像装置20により取得される。撮像装置20は、同じ空間に居る複数の作業者の視界(複数の作業者の視界は概ね共通しているものとする)を撮像し得る。なお、同じ空間に居る複数の作業者のいずれか一人に装着された撮像装置20により、複数の作業者の共通する視界を撮像するようにしてもよい。
撮像装置20により取得された撮像画像は、情報処理装置10に送信され、表示部150に表示される。情報処理装置10の構成は、図2を参照して説明した通りである。情報処理装置10は、図1を参照して説明した実施形態と同様に、指示者U1によるジェスチャ動作をセンサ部120によりセンシングし、センシングデータに基づいてジェスチャ画像生成部102によりジェスチャ画像60を生成し、重畳画像生成部104により撮像画像にジェスチャ画像60を重畳し、表示部150に表示する。また、情報処理装置10は、上述した実施形態と同様に、例えばマイク130により指示者U1の発話音声(指示音声)を収音し、収音した音声データを解析して、指示者U1の指示の意図を判定し、指示意図に対応するよう、ジェスチャ画像60を修正する。指示意図の判定は、上述した実施形態と同様に、音声データの解析の他、ボタンなどの操作入力部140(図6では不図示)における操作入力に基づいて行ってもよい。
ここで、本変形例による情報処理装置10の指示意図判定部101は、当該指示の対象者を、音声データや操作入力情報から判定する。すなわち、指示意図判定部101は、指示者U1の指示が、複数の作業者のうち誰に向けての指示であるかを、指示意図の一つとして判定する。例えば、指示者U1が、「Bさんはここを操作してください」と発話しながらジェスチャを行っていた場合、情報処理装置10は、指示の対象者が「Bさん」(作業者U2)であると判定することができる。そして情報処理装置10は、指示意図に対応するジェスチャ画像が重畳された画像(重畳画像)を、指示対象者(例えば、作業者U2)の表示装置30(表示装置30b)に送信する。
さらに、本変形例による情報処理装置10は、指示意図と反対の意図(以下、反対意図と称す)を示すジェスチャ画像を重畳した画像を生成し、指示対象者以外の者(例えば、作業者U3)の表示装置30(表示装置30c)に送信する。例えば、指示者U1が、「Bさんはここを操作してください」と発話しながらジェスチャを行っていた場合、情報処理装置10のジェスチャ画像修正部103は、指示の意図(ここでは、「肯定」)と反対の意図(ここでは、「否定」)を示すジェスチャ画像、すなわち「操作を禁止すること」を明確に示すジェスチャ画像を生成する。具体的には、ジェスチャ画像修正部103は、反対意図を示すジェスチャ画像や反対意図を示すアイコン画像を追加する修正を行う。また、ジェスチャ画像修正部103は、指示意図を明確に示すジェスチャ画像を削除した上で、反対意図を示すジェスチャ画像等を追加するようにしてもよい。また、もともと生成されたジェスチャ画像に、反対意図を示すジェスチャ画像が含まれていた場合は、このまま利用することが可能である。
このように、本変形例では、指示意図を示すジェスチャ画像と、指示意図と反対の意図を示すジェスチャ画像との両者を用意し、指示意図を示すジェスチャ画像は指示対象者に提示し、指示意図と反対の意図を示すジェスチャ画像を指示対象者以外に提示することで、指示対象者以外に誤解されることを回避し、作業のミスなどを防止することができる。
ここで、ジェスチャ画像修正部103によるジェスチャ画像の修正例について、図7を参照して具体的に説明する。図7は、本変形例によるジェスチャ画像の修正例について説明する図である。図7に示すように、例えば指示者U1が、「Bさんはこれを操作しないでください」と話しながら、表示部150に表示される撮像画像に写るオブジェクト50を指差した上で、禁止を示すジェスチャ動作を行った場合について説明する。
情報処理装置10のマイク130は、指示対象者に向けては、指示意図に対応するジェスチャ画像を用意する。図7に示す例では、「Bさんはこれを操作しないでください」といった否定の意図を明確に示すジェスチャ画像70(指でバツを作るハンドジェスチャ)が、ジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれているため、修正無しで、当該ジェスチャ画像を、指示意図に対応するジェスチャ画像として用いることができる。なお、否定の意図を明確に示すジェスチャ画像が含まれていない場合は、ジェスチャ画像修正部103は、予め登録された否定のジェスチャ画像を追加するなどの修正を行い、指示意図に対応するジェスチャ画像を生成する。
また、情報処理装置10のジェスチャ画像修正部103は、指示対象者以外に向けて、指示意図と反対の意図を示すジェスチャ画像を用意する。図7に示す例では、「Bさんはこれを操作しないでください」といった否定の意図を明確に示すジェスチャ画像70が、ジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれているため、ジェスチャ画像修正部103は、かかるジェスチャ画像70を削除し、指示意図と反対の意図、すなわち「これを操作してください」といった肯定の意図を明確に示すジェスチャ画像72を追加する修正を行う。なお、ジェスチャ画像修正部103は、ジェスチャ画像60は、「これ」という発話に対応する、場所を示すジェスチャであると判断し、残すようにしてもよい。
以上により、Bさんにだけ操作を禁止し、他の作業者に対しては操作を許可する指示を行うことが可能となる。
図7に示す例では、一例として、指示意図が否定の場合について説明したが、指示意図が肯定の場合も同様に、ジェスチャ画像修正部103は、指示意図に対応するジェスチャ画像(すなわち、肯定を示すジェスチャ画像)と、指示意図と反対の意図に対応するジェスチャ画像(すなわち、否定を示すジェスチャ画像)とを生成する。例えば、指示者U1が、「Bさんはこれを操作してください」と話しながらジェスチャ動作を行った場合、ジェスチャ画像修正部103は、指示対象者であるBさん用に、肯定を示すジェスチャ画像(例えば指で丸を作るハンドジェスチャ)を生成する。また、ジェスチャ画像修正部103は、指示対象者以外用に、否定を示すジェスチャ画像(例えば指でバツを作るハンドジェスチャ)を生成する。これにより、Bさん以外が操作してしまうことを回避することができる。
そして、情報処理装置10は、指示対象者用のジェスチャ画像を重畳した画像を、指示対象者の表示装置30に送信し、指示対象者以外用のジェスチャ画像を重畳した画像を、指示対象者以外の表示装置30に送信する。
図6に示すように、本変形例において、複数の作業者(作業者U2、作業者U3)は、それぞれ表示装置30を装着し、各表示装置30(表示装置30a、30b)は、情報処理装置10から送信される、ジェスチャ画像が重畳された画像を表示する。各表示装置30は、ウェアラブルディスプレイに限定されず、上述した実施形態と同様に、壁や作業台に設置されたディスプレイであってもよいし、プロジェクタにより画像が投影されるものであってもよい。本変形例では、一の作業者に対して一の表示装置30を割り当て、各作業者向けの重畳画像を提示することを想定しているが、1つのディスプレイに各作業者向けの重畳画像を表示し、どの重畳画像がどの作業者向けのものであるかを示すようにしてもよい。
(4-2.動作処理)
続いて、本変形例による動作処理について図8を参照して具体的に説明する。図8は、本変形例による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。
図8のステップS203~S212に示す処理は、図5のステップS103~S112に示す処理と同様である。すなわち、情報処理装置10は、撮像装置20で撮像された、作業対象を含む作業者(作業者U2、作業者U3)の視界方向の映像(撮像画像)を表示部150に表示して指示者U1に提示し(ステップS203~S206)、ジェスチャ画像生成部102により、指示者U1の指示動作に基づいてジェスチャ画像を生成し、ジェスチャ画像修正部103および重畳画像生成部104に出力する(ステップS209~S212)。
次いで、指示意図判定部101は、指示者U1の指示意図(指示対象者を含む)を、指示者U1の発話音声や操作入力情報などから判定し(ステップS215)、判定した指示意図(指示対象者を含む)をジェスチャ画像修正部103に出力する(ステップS218)。
次に、ジェスチャ画像修正部103は、指示意図および反対意図にそれぞれ対応するジェスチャ画像を必要に応じて生成し(ステップS221)、生成したジェスチャ画像を重畳画像生成部104に出力する(ステップS224)。
具体的には、ジェスチャ画像修正部103は、指示意図に対応するジェスチャ画像が、ジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれていない場合に、予め登録された、指示意図に対応するジェスチャ画像を追加する等の修正を行って、指示意図に対応するジェスチャ画像を生成する。なお、指示意図に対応するジェスチャ画像が、ジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれている場合は、当該元のジェスチャ画像を指示意図に対応するジェスチャ画像として用いることができるため、ここでの新たな生成は不要となる。
また、ジェスチャ画像修正部103は、指示意図と反対の意図に対応するジェスチャ画像が、ジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれていない場合に、予め登録された、反対意図に対応するジェスチャ画像を追加する等の修正を行って、反対意図に対応するジェスチャ画像を生成する。この際、ジェスチャ画像修正部103は、元のジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれている場合は、これを削除する修正も併せて行う。指示意図と反対の意図に対応するジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれていると、指示が不明確となるためである。なお、反対意図に対応するジェスチャ画像がジェスチャ画像生成部102により生成された元のジェスチャ画像に含まれている場合は、当該元のジェスチャ画像を反対意図に対応するジェスチャ画像として用いることができるため、ここでの新たな生成は不要となる(ただし、この際も、元のジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれている場合は、これを削除する修正を行う)。
また、ジェスチャ画像修正部103は、他の方法として、元のジェスチャ画像から否定を示すジェスチャ画像の検出を行い、検出された場合は、当該元のジェスチャ画像を、否定を示すジェスチャ画像として扱うようにしてもよい。指示意図が「否定」の場合は、当該元のジェスチャ画像が指示意図に対応するジェスチャ画像となり、指示意図が「肯定」の場合は、当該元のジェスチャ画像が指示意図に反対する意図に対応するジェスチャ画像となる。この方法の場合、ジェスチャ画像修正部103は、元のジェスチャ画像から否定を示すジェスチャ画像が検出されなかった場合は、当該元のジェスチャ画像を、肯定を示すジェスチャ画像として扱うようにしてもよい。この場合、指示意図が「肯定」の場合は、当該元のジェスチャ画像が指示意図に対応するジェスチャ画像となり、指示意図が「否定」の場合は、当該元のジェスチャ画像が指示意図に反対する意図に対応するジェスチャ画像となる。さらに、ジェスチャ画像修正部103は、検出された否定のジェスチャ画像を削除する修正や、さらに肯定のジェスチャ画像を追加する修正等により、極性(ネガポジ)を反転したジェスチャ画像(この場合は、肯定のジェスチャ画像)を生成することが可能となる。また、ジェスチャ画像修正部103は、否定のジェスチャ画像が検出されなかった元のジェスチャ画像(肯定のジェスチャ画像とみなされる)に、否定のジェスチャ画像を追加する修正等を行うことで、極性(ネガポジ)を反転したジェスチャ画像(この場合は、否定のジェスチャ画像)を生成することが可能となる。
続いて、重畳画像生成部104は、撮像画像に、指示意図に対応するジェスチャ画像を重畳した画像を生成する(ステップS227)。
次に、重畳画像生成部104は、生成した重畳画像を表示制御部105に出力し、表示制御部105は、通信部110から、指示対象者の表示装置30(ここでは、一例として表示装置30b)に、重畳画像を送信する制御を行う(ステップS230)。
そして、表示装置30bは、指示意図に対応するジェスチャ画像が重畳された画像を表示し、指示対象者(作業者U2)に提示する(ステップS233)。これにより、本システムでは、指示対象に対して、指示に対応するジェスチャ画像を提示することができる。当該ジェスチャ画像は、上述した実施形態と同様に、指示に対応するよう、必要に応じて修正されているため、指示対象者が指示を誤認することを回避することができる。
また、重畳画像生成部104は、撮像画像に、指示意図と反対の意図に対応するジェスチャ画像を重畳した画像を生成する(ステップS236)。
次に、重畳画像生成部104は、生成した重畳画像を表示制御部105に出力し、表示制御部105は、通信部110から、指示対象者以外の表示装置30(ここでは、一例として表示装置30c)に、重畳画像を送信する制御を行う(ステップS239)。
そして、表示装置30cは、指示意図と反対の意図に対応するジェスチャ画像が重畳された画像を表示し、指示対象者以外(作業者U3)に提示する(ステップS242)。これにより、本システムでは、指示対象以外に対して、指示意図と反対の意図に対応するジェスチャ画像を提示することで、指示対象以外の者が、指示対象への指示を自分への指示と誤解することを回避することができる。
また、表示制御部105は、重畳画像生成部104により生成された重畳画像を表示部150に表示して指示者U1に提示する制御を行う(ステップS245)。表示制御部105は、修正されていないジェスチャ画像を重畳した画像を(フィードバックとしてリアルタイムに)表示するようにしてもよいし、各作業者に送信した重畳画像を表示するようにしてもよいし、これらをすべて表示するようにしてもよい。
以上、本実施形態の変形例による遠隔作業支援システム1bの動作処理について具体的に説明した。
<5.補足>
また、本実施形態による遠隔作業支援システムの構成は、図1や図6に示す例に限定されない。以下、本実施形態による遠隔作業支援システムの構成について、補足する。
・補足1・・・図9は、本実施形態の補足にかかる遠隔作業支援システム1cの全体構成の一例を示す図である。図9に示すように、遠隔作業支援システム1cでは、複数の作業者がいる場合において、作業者側の空間の映像として、各作業者に装着された撮像装置20(20b、20c)により各作業者の視界方向の映像をそれぞれ取得し、情報処理装置10に送信する。そして、指示者U1側では、例えば情報処理装置10の表示部150に、各作業者の視界方向の映像(撮像装置20bにより取得された撮像画像210b、撮像装置20cにより取得された210c)がそれぞれ表示される。複数の作業者は同じ空間でほぼ同じ方向を向いて作業をしている場合、両者の映像は、図9に示すように、多少の画角の差が有る程度の映像となることが想定される。
指示者U1は、各撮像画像を見ながら、上述した実施形態と同様に、ハンドジェスチャにより、作業等に関する指示を行い得る。情報処理装置10は、指示者U1のジェスチャ動作を、センサ部120により検知し、生成したジェスチャ画像を、撮像画像に重畳表示する。この際、情報処理装置10は、作業者U2の撮像装置20bにより取得された撮像画像210bには、作業者U2に提示するジェスチャ画像を重畳表示し、作業者U3の撮像装置20cにより取得された撮像画像210cには、作業者U3に提示するジェスチャ画像を重畳表示する。また、図6を参照して説明した場合と同様に、指示対象者に対しては指示意図に対応するジェスチャ画像を重畳し、指示対象者以外に対しては、指示意図と反対の意図に対応するジェスチャ画像を重畳するよう制御する。
例えば図9に示す例では、指示者U1が、「Bさんはこれを操作してください」と話しながら、表示部150に表示される撮像画像210bに写るオブジェクトObj1を指差すジェスチャ動作を行った場合について説明する。この場合、情報処理装置10のジェスチャ画像生成部102は、センサ部120により検知したジェスチャ画像のセンシングデータ(3次元位置データ)に基づいてジェスチャ画像を生成する。また、指示意図判定部101は、指示者U1の発話音声「Bさんはこれを操作してください」に基づいて、指示対象者が「Bさん」であると判定する。なお、指示意図判定部101は、カメラ170により撮像した指示者U1の顔画像から検出される視線方向(眼の画像における黒目の位置、頭部の方向、顔の向きなどから視線方向を検出し得る)に基づいて、指示者U1が見ている映像が撮像画像210bと撮像画像210cのどちらであるかを判断し、指示対象者を判定してもよい。例えば指示者U1が撮像画像210bを見ながらジェスチャ動作を行っている場合、指示意図判定部101は、作業者U2(Bさん)に対する指示であると判定し得る。
次いで、情報処理装置10のジェスチャ画像修正部103は、図6を参照して説明した場合と同様に、指示意図に対応するジェスチャ画像75と、指示意図と反対の意図に対応するジェスチャ画像77を生成する。次に、重畳画像生成部104は、指示意図に対応するジェスチャ画像75は指示対象者である作業者U2(Bさん)の視界を撮像した撮像画像210bに重畳表示し、指示意図と反対の意図に対応するジェスチャ画像77は指示対象者以外である作業者U3(Cさん)の視界を撮像した撮像画像210cに重畳表示するよう制御する(すなわち、重畳画像の生成)。この際、重畳画像生成部104は、各撮像画像210に写るオブジェクトを認識し、両撮像画像においてジェスチャ画像がそれぞれ同じオブジェクト(図9に示す例では、オブジェクトObj1)を指差すよう調整してもよい。具体的には、例えば重畳画像生成部104は、ジェスチャ動作の3次元位置データや、指示者U1の視線方向、および指示者U1が見ている撮像画像210bにおける各オブジェクトとジェスチャ画像75の位置関係などから、撮像画像210cにおけるジェスチャ画像77の重畳位置を調整してもよい。
また、図9に示すように、情報処理装置10は、表示部150に、作業者U2(Bさん)用の重畳画像(撮像画像210bにジェスチャ画像75が重畳された画像)と、作業者U3(Cさん)用の重畳画像(撮像画像210cにジェスチャ画像77が重畳された画像)とを表示し、各作業者にどのようなジェスチャ画像が提示されているかを指示者U1にフィードバックしてもよい。ここでは、既に指示意図に対応するよう修正されたジェスチャ画像が重畳表示されている。
そして、情報処理装置10は、生成した各重畳画像を、それぞれ表示装置30b、表示装置30cに送信し(指示対象者用の重畳画像は指示対象者に、指示対象者以外用の重畳画像は指示対象者以外に送信)、表示させる。これにより、周囲の騒音などで音声が聞こえ難い現場や、言葉が分からない状況においても、ジェスチャ画像により、指示対象者に明確に指示を伝達することができ、また、指示対象者以外には、指示意図と反対の意図のジェスチャ画像を提示することで、指示が誤解されることを防止することができる。
また、本システムでは、各作業者にそれぞれ装着された撮像装置20により視界方向の撮像画像を取得することで、各作業者の実際の視界方向とのずれが少ない映像を取得し、ジェスチャ画像を重畳表示することができる。実際の視界とのずれが少ないため、各作業者は、実空間にあるオブジェクトのどの部分に対する指示であるかを、より容易に理解することが可能となる。
・補足2・・・本実施形態による遠隔作業視線システムは、さらにサーバを備える構成であってもよい。かかるサーバに、図2に示す制御部100の少なくとも1以上の機能を持たせて、ネットワーク上で主な処理を行うようにしてもよい。この場合、情報処理装置10は、ネットワーク40を介してサーバと接続し、センサ部120により検知したセンシングデータやマイク130により収音した音声データをサーバに送信する。また、サーバは、ネットワーク40を介して、撮像装置20および表示装置30と接続し、撮像装置20から撮像画像を受信して情報処理装置10に送信したり、指示者U1の指示の意図に対応するジェスチャ画像を撮像画像に重畳した画像を表示装置30に送信したりする。
・補足3・・・撮像装置20は複数であってもよく、作業対象をいくつかの視点から撮像していてもよい。各撮像装置20の撮像画像は情報処理装置10に送信され、指示者U1が任意で選択し得る。指示者U1は、選択した撮像画像に対してジェスチャ動作による指示を行うことが可能である。
・補足4・・・指示意図判定部101は、1つの指示ごとに意図判定を行うが、指示の訂正が隣接して発生した場合は、かかる訂正にも対応することが可能である。例えば、指示者U1が、「Bさんはここを操作して・・・いや、操作しないでください」など、後から訂正する場合も想定される。指示意図判定部101は、発話音声の認識および解析を継続的に行い、訂正が生じた場合には意図判定に即時反映させることで、より正確に指示意図を判定することが可能となる。
・補足5・・・指示対象者の判定は、氏名の呼びかけや操作入力による指定に基づく場合に限定されず、例えば役職や権限の指定に基づいて行われてもよい。
・補足6・・・指示対象者が、複数の作業者全員の場合も想定される。指示意図判定部101は、例えば特に指示対象者の特定が行われなかった場合は、作業者全員を対象としていると判定してもよい。
・補足7・・・情報処理装置10は、指示者U1の音声(指示音声)も併せて作業者U2や作業者U3に提示することが可能である。ここで、指示対象者以外に、指示意図と反対の意図に対応するジェスチャ画像を提示する場合、当該ジェスチャ画像は、指示音声とは矛盾する指示となるため(例えば音声では「操作してください」と言っているが、指示対象者以外には、操作を禁止するジェスチャ画像を提示するため)、矛盾する部分の指示音声を削除した上で提示するようにしてもよい(若しくはすべての指示音声を削除し、提示しないようにしてもよい)。
・補足8・・・また、本実施形態による情報処理装置10は、ジェスチャ画像のみを指示対象者である作業者U2に送信し、表示装置30において、撮像画像に重畳表示する作業を行うようにしてもよい。情報処理装置10は、撮像画像に対するジェスチャ画像の重畳位置に関する情報(位置座標など)も併せて表示装置30に送信するようにしてもよい。
<6.まとめ>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本実施形態による情報処理システムは、一例として、工場や倉庫などでの作業を他の場所から支援する遠隔作業支援システムについて説明したが、本実施形態は工場や倉庫などでの作業の支援に限定されない。例えば、様々な分野における教育に用いてもよい。何らかの練習をしている1以上の対象者に対して、他の場所から、ジェスチャ画像により教示する際に本システムを用いることが可能である。
また、情報処理装置10、撮像装置20、または表示装置30に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置10、撮像装置20、または表示装置30の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体も提供される。