JP7243541B2

JP7243541B2 - 情報処理装置、情報処理方法、プログラム、および、情報処理システム

Info

Publication number: JP7243541B2
Application number: JP2019168165A
Authority: JP
Inventors: 大明山根
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2023-03-22
Anticipated expiration: 2039-09-17
Also published as: JP2021047499A

Description

本発明は、情報処理装置、情報処理方法、プログラム、および、情報処理システムに関する。

従来、ネットワークを介して遠隔地の音声や撮像画像を送受信し、離れた場所にいる指示者が映像を見ながら遠隔地に居る作業者に対して指示を行うシステムが提案されている。

例えば下記特許文献１では、工場等の作業現場において、指示者が遠隔から作業者に作業の指示をする遠隔作業支援が行われる場合に、作業者が装着しているカメラ（ウェアラブル端末）で撮影した映像を指示者側に表示することで指示者が作業の状況を把握できるようにしている。さらに、指示者の音声を収集して文字データに変換し、当該文字データを指示情報（画像データ）として作業者側に送信し、作業者側において、撮影された映像に指示情報を重ねて表示することが開示されている。

特開２００８－１０７８７１号公報

しかしながら、音声や文字データでは十分に指示が伝わらない場合がある。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、指示者の意図をより正確に明示的に伝えることが可能な、新規かつ改良された情報処理装置、情報処理方法、プログラム、および、情報処理システムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正したジェスチャ画像を生成する、制御部を備える、情報処理装置が提供される。

前記制御部は、前記修正したジェスチャ画像を、前記指示の対象となる対象者に出力するよう制御してもよい。

前記制御部は、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれている場合は、当該ジェスチャ画像を、前記指示の対象者に出力するよう制御してもよい。

前記制御部は、前記ジェスチャ画像または前記修正したジェスチャ画像を、前記対象者が所有する撮像装置により撮像された撮像画像に重畳した重畳画像を、前記対象者に出力するよう制御してもよい。

前記制御部は、前記対象者が所有する撮像装置により撮像された撮像画像を表示部に表示し、前記表示した前記撮像画像に含まれるオブジェクトに対する前記指示者による指示の動作を検知してもよい。

前記制御部は、前記ジェスチャ画像を、前記指示者による前記指示の意図と反対の意図を示すよう修正したジェスチャ画像を生成してもよい。

前記制御部は、前記修正したジェスチャ画像を、前記指示の対象者となる作業者に出力し、前記反対の意図を示すよう修正したジェスチャ画像を、前記指示の対象者となる作業者以外の作業者に出力するよう制御してもよい。

前記制御部は、前記指示者の発話音声または操作入力情報に基づいて、前記指示の対象者を判定してもよい。

前記制御部は、前記指示者の発話音声または操作入力情報に基づいて、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定してもよい。

前記制御部は、前記ジェスチャ画像に、予め登録された否定のジェスチャ画像が含まれているか否かを判断し、前記否定のジェスチャ画像が含まれている場合は、否定的な意図に対応するジェスチャ画像であると判断し、前記否定のジェスチャ画像が含まれていない場合は、肯定的な意図に対応するジェスチャ画像であると判断してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、プロセッサが、指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正した修正ジェスチャ画像を生成するよう制御することを含む、情報処理方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正した修正ジェスチャ画像を生成する、制御部として機能させる、プログラムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正したジェスチャ画像を生成し、前記指示の対象となる対象者に、前記指示の意図に対応するジェスチャが含まれているジェスチャ画像を送信するよう制御する制御部を有する情報処理装置と、前記情報処理装置から送信されたジェスチャ画像を、前記対象者に提示する表示部を有する表示装置と、を備える、情報処理システムが提供される。

以上説明したように本発明によれば、指示者の意図をより正確に明示的に伝えることを可能とする。

本発明の一実施形態による遠隔作業支援システムの全体構成の一例を示す図である。本実施形態による遠隔作業支援システムに含まれる情報処理装置の構成の一例を主に示すブロック図である。本実施形態によるジェスチャ画像の修正例について説明する図である。本実施形態によるジェスチャ画像の他の修正例について説明する図である。本実施形態による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。本実施形態の変形例による遠隔作業支援システムの全体構成の一例を示す図である。本実施形態の変形例によるジェスチャ画像の修正例について説明する図である。本実施形態の変形例による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。本実施形態の補足にかかる遠隔作業支援システムの全体構成の一例を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．遠隔作業支援システムの概要＞
まず、図１を参照して、本発明の一実施形態による遠隔作業支援システム（情報処理システム）の全体構成について説明する。図１は、本発明の一実施形態による遠隔作業支援システムの全体構成の一例を示す図である。

図１に示すように、本実施形態による遠隔作業支援システム１ａは、例えば遠隔地で何らかの作業を行っている作業者Ｕ２に対して、作業者Ｕ２の視界方向を撮像した映像（作業者Ｕ２の作業対象を含む画角の映像）を見ながら、リアルタイムで指示者Ｕ１が作業者Ｕ２に対して作業等に関する指示を行う場合に適用され得る。なお、ここでは「遠隔地」と表現したが、本システムは、指示者Ｕ１と作業者Ｕ２が遠く離れた場所に居る場合に限られず、別の場所に居る場合や、また、同じ場所に居る場合であってもよい。

図１に示すように、本実施形態による遠隔作業支援システム１ａは、情報処理装置１０と、センサ部１２０と、マイク１３０と、撮像装置２０と、表示装置３０と、を含む。情報処理装置１０は、指示者Ｕ１が利用する端末であって、作業者Ｕ２側の映像（撮像画像）が表示される。作業者Ｕ２側の映像とは、例えば図１に示すように作業者Ｕ２の頭部などに装着されたウェアラブルデバイスである撮像装置２０により、作業者Ｕ２の視界を撮影した映像である。撮像装置２０は、ユーザの視界方向を撮影し得る。なお、撮像装置２０は、図１に示すような作業者Ｕ２に装着される装置に限定されず、作業者Ｕ２周辺の天井や後方の壁などに、作業者Ｕ２の視界方向を撮影できるよう設置された装置であってもよい。

また、図１では、作業者Ｕ２の作業対象として、オブジェクトObj１～Obj３を図示している。作業内容や作業対象は特に限定しないが、例えば、工場における機械の操作や部品の組み立て、画面操作など、様々な場合が想定される。

情報処理装置１０は、撮像装置２０で撮影され、送信された撮像画像を、表示部１５０に表示する。指示者Ｕ１は、表示部１５０に表示された撮像画像を見ながら、作業者Ｕ２に対して指示を行い得る。

（課題の整理）
ここで、作業者Ｕ２に対する指示は、例えば音声で行うことが考え得る。具体的には、指示者Ｕ１の音声を収音し、収音した音声データを、ネットワークを介して作業者Ｕ２側（例えば情報処理端末）に送信し、作業者Ｕ２が装着するイヤホンやヘッドホンから再生することで、映像を見ながらの音声の指示が可能となる。

しかしながら、作業場の騒音により音声が聞こえ難い場合や、言葉が分からない場合も想定され、音声では円滑な作業支援が出来ない場合がある。

そこで、非言語コミュニケーションであるハンドジェスチャを用いて指示することが考え得る。例えば、図１に示すように、指示者Ｕ１の手や指の動き（３次元空間の動き）をセンサ部１２０で検知して、検知結果から手や指の動きを表現するジェスチャ画像６０をＣＧ（Computer Graphics）などで生成し、生成したジェスチャ画像６０を作業者Ｕ２側で撮影された撮像画像に重畳した画像（重畳画像とも称す）を、表示部１５０に表示する。これにより、指示者Ｕ１は、画面の中で手を動かすことが可能となり、指差しなどのハンドジェスチャを行うことが可能となる。また、かかるジェスチャ画像６０が重畳された画像（重畳画像）は、作業者Ｕ２側に送信され、例えば作業者Ｕ２が装着する表示装置３０（ウェアラブルディスプレイなど）に表示される。作業者Ｕ２から見ると、自身の視界（視野範囲）を少なくとも含むカメラ画像に、ジェスチャ画像６０が重畳表示され、所謂ＡＲ（Augmented Reality）表示が行われている状態となる。このように、作業者Ｕ２側で撮影された撮像画像（実空間の映像）にジェスチャ画像６０が重畳された画像が作業者Ｕ２に提示されることで、指示者Ｕ１は、ハンドジェスチャを介してより直感的に作業者Ｕ２に指示を伝えることが可能となる。

なお、ここでは一例としてウェアラブルディスプレイを用いているが、表示装置３０は作業者Ｕ２に装着されるデバイスに限定されず、例えば作業者Ｕ２の周囲に設置された大型のディスプレイなどであってもよいし、作業台の天板に設置されるディスプレイであってもよい。また、表示装置３０は、プロジェクタであってもよい。例えばプロジェクタにより作業台の天板や壁などに、ジェスチャ画像６０が重畳された画像を投影してもよい。

また、ここでは一例としてジェスチャ画像６０をＡＲ表示する旨を説明したが、本システムはこれに限定されず、例えば作業者Ｕ２が装着する表示装置３０において、ジェスチャ画像６０をＭＲ（Mixed Reality）表示してもよい。これにより、作業者Ｕ２は、ジェスチャ画像６０を自由角度から観察することができる。また、複数の作業員が表示装置３０をそれぞれ装着し、ＭＲ表示されたジェスチャ画像６０を共有しながら指示を確認したりすることができる。

このようにハンドジェスチャを用いてより直感的な指示を行うことが可能となるが、例えば指示者Ｕ１が画面内のある場所を指した場合に、そのジェスチャが「ここを操作してください」という肯定の指示の場合と、「ここは操作しないでください」という否定の指示の場合があり、ジェスチャによっては誤解が生じてしまう場合も想定される。

したがって、本発明では、指示者Ｕ１によるジェスチャを用いて行った指示の意図を、より正確に明示的に伝える仕組みを提案する。具体的には、本実施形態による遠隔作業支援システム１ａは、例えばマイク１３０により収音した指示者Ｕ１の音声などから指示の意図を判定し、判定した意図に応じて必要があればジェスチャ画像を修正して提示するよう制御することで、指示者Ｕ１の指示の意図をより正確に、明示的に伝えることを可能とする。

続いて、本実施形態による遠隔作業支援システム１ａに含まれる情報処理装置１０の構成例について具体的に説明する。

＜２．構成例＞
図２は、本実施形態による遠隔作業支援システム１ａに含まれる情報処理装置１０の構成の一例を主に示すブロック図である。図２に示すように、情報処理装置１０は、制御部１００と、通信部１１０と、センサ部１２０と、マイク１３０と、操作入力部１４０と、表示部１５０と、記憶部１６０と、を有する。

（制御部１００）
制御部１００は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を中心に構成されており、各種プログラムに従って情報処理装置１０の各機能を制御する。例えば制御部１００は、撮像装置２０から受信した撮像画像を、表示部１５０に表示する制御を行う。

また、本実施形態による制御部１００は、指示意図判定部１０１、ジェスチャ画像生成部１０２、ジェスチャ画像修正部１０３、重畳画像生成部１０４、および表示制御部１０５としても機能し得る。

・指示意図判定部１０１
指示意図判定部１０１は、指示者Ｕ１による指示の意図を判定する。例えば、指示意図判定部１０１は、マイク１３０により収音した音声データの解析結果に基づいて、指示の意図を判定してもよい。指示意図判定部１０１は、指示の意図として、「～を行ってください」、「～してください」といった肯定（許可、ポジティブ）の意図、または、「～を行ってはいけません」、「～しないでください」といった否定（禁止、ネガティブ）の意図を判定する（ネガポジ判定とも称される）。指示の意図の判定は、マイク１３０により収音した指示者Ｕ１の音声データの解析結果に基づいて行われてもよいし、操作入力部１４０からの指示者Ｕ１による操作入力結果に基づいて行われてもよい。

すなわち、指示意図判定部１０１は、マイク１３０により収音した音声データに対して音声認識処理を行って文字列化し、文字列化したデータに対して、例えば、形態素解析、構文解析、意味解析、および文脈解析等の自然言語処理を行い得る。また、指示意図判定部１０１は、文字列化したデータから、所定のキーワード（例えば肯定または否定を表現する文言）の抽出等を行ってもよい。これにより、指示意図判定部１０１は、指示者Ｕ１の発話音声に基づいて、指示の意図を判定することができる。なお指示意図判定部１０１は、センサ部１２０により指示者Ｕ１のジェスチャが検知された際（前後を含んでもよい）に検知した発話音声に基づいて意図の判定することで、当該ジェスチャの意図を判定することが可能となる。また、指示意図判定部１０１は、肯定や否定の意図だけに限らず、指示者Ｕ１の発話音声に基づいて、さらに具体的な指示の意図を判定することも可能である。また、指示意図判定部１０１は、肯定（ポジティブ）と否定（ネガティブ）の意図の判定において、両者の度合いを判定してもよい（例えば、自然言語処理の結果に基づいて、肯定を示す要素の数値と、否定を示す要素の数値をそれぞれ算出してもよい）。

また、指示者Ｕ１の発話音声に基づく意図判定のアルゴリズムは特に限定せず、既存の技術を用いてもよい。例えば、指示意図判定部１０１は、予め登録した辞書ベースで行ってもよいし、機械学習を用いてもよい。また、指示意図判定部１０１は、発話音声を文字列化したデータに対して、機械学習を用いた感情分析を行い、感情の有無や大きさや、ポジティブな感情とネガティブな感情の評価（数値の算出など）を取得してもよい。また、指示意図判定部１０１は、さらに、収音した指示者Ｕ１の発話音声における声のトーンや、テンポ、声の大きさ、口調などを考慮し、感情分析を行うようにしてもよい。

また、指示意図判定部１０１は、上述したように、操作入力部１４０からの指示者Ｕ１による操作入力結果に基づいて、指示の意図を判定することも可能である。具体的には、図１には図示していないが、例えば操作入力部１４０としてボタン、スイッチ、キーボード、マウス、タッチパッド、カメラ、その他センサ等を用意し、ボタン操作やスイッチ操作、キーボードやマウス等による画面操作、若しくはジェスチャ入力等により、肯定または否定の意図を入力（例えば選択入力）できるようにしてもよい。

また、指示意図判定部１０１は、指示者Ｕ１の顔の表情をカメラ（不図示）により撮像し、撮像画像から顔の表情を解析することで、指示者Ｕ１の指示の意図（肯定か否定か）を判定することも可能である。

以上、本実施形態による指示意図の判定についていくつかの方法を挙げたが、本実施形態はこれに限定されず、指示意図判定部１０１は、他の方法により指示意図を判定してもよい。また、指示意図判定部１０１は、上述した方法の少なくともいずれかを用いた組み合わせで指示意図を判定してもよい。

・ジェスチャ画像生成部１０２
ジェスチャ画像生成部１０２は、センサ部１２０により検知されたデータに基づいて、指示者Ｕ１のジェスチャ（手指の動き）を表現するジェスチャ画像を、例えばＣＧ等により生成する。例えば、ジェスチャ画像生成部１０２は、センサ部１２０により検知（計測）された、指示者Ｕ１の手や指、また、指の関節などの三次元位置座標や、その変化のデータに基づいて、手や指の形や動きを表現する３Ｄ画像または２Ｄ画像を、ジェスチャ画像として生成する。

・ジェスチャ画像修正部１０３
ジェスチャ画像修正部１０３は、指示意図判定部１０１により判定された、指示者Ｕ１による指示の意図に対応するジェスチャが、ジェスチャ画像生成部１０２により生成されたジェスチャ画像に含まれているか否かを判断し、含まれていない場合は、判定された指示の意図を示すようジェスチャ画像を修正する処理を行う。例えば、ジェスチャ画像修正部１０３は、予め登録された肯定または否定を表現する１以上のジェスチャ画像と、ジェスチャ画像生成部１０２により生成されたジェスチャ画像とを比較し、指示の意図（肯定または否定の意図）に対応する（合致する）ジェスチャ画像が含まれているか否かを判断し得る。そして、対応するジェスチャ画像が含まれていない場合、ジェスチャ画像修正部１０３は、指示の意図に対応するよう、予め登録されたジェスチャ画像やアイコンを追加したり、生成したジェスチャ画像を削除したり等の修正を行う。ここで、ジェスチャ画像修正部１０３によるジェスチャ画像の修正例について、図３および図４を参照して具体的に説明する。

図３は、本実施形態によるジェスチャ画像の修正例を示す図である。図３に示す例では、例えば指示者Ｕ１が、「これは操作しないでください。」と話しながら、表示部１５０に表示される撮像画像に写るオブジェクト５０を指差すジェスチャ動作を行った場合について説明する。表示部１５０には、リアルタイムで（出来るだけ遅延なく）、指示者Ｕ１のジェスチャ動作のセンシングデータ（例えば３次元位置データ）に基づいて生成されたジェスチャ画像６０が、重畳表示される。

ここで、指示者Ｕ１は、「これは操作しないでください。」と、否定の指示を音声で行いながらハンドジェスチャを行っているが、音声が聞こえ難かったり、言葉が分からなかったりした場合、ジェスチャ画像６０の形を見て、操作してはダメなのか良いのかがはっきりせず、肯定の指示と誤解される恐れもある。したがって、マイク１３０は、図３右側に示すように、指示者Ｕ１の指示の意図に対応するようジェスチャ画像６０を修正する。具体的には、まず、ジェスチャ画像修正部１０３は、生成されたジェスチャ画像６０と、予め登録された否定のジェスチャ画像とを比較し、否定のジェスチャ画像が含まれているか否かを判断する。含まれていない場合、ジェスチャ画像修正部１０３は、ジェスチャ画像の削除や追加等を行って修正する。例えば図３右側に示すように、否定を示すジェスチャ画像６２（例えば指でバツを作るハンドジェスチャ）や、否定を示すアイコン画像６４（例えばバツマーク）を、ジェスチャ画像６０を表示した直後に追加表示する修正を行う。追加するジェスチャ画像６２や、アイコン画像６４は、情報処理装置１０などに予め登録され得る。これにより、ジェスチャ画像６０で、オブジェクト５０を指し示した上で、「否定」の意図を明確に示すことが可能となる。

なお、図３に示す修正例は一例であって、本実施形態による、否定の意図に対応するようジェスチャ画像を修正する例はこれに限定されない。また、生成されたジェスチャ画像６０に、予め登録された否定のジェスチャ画像が含まれている場合、ジェスチャ画像修正部１０３は、ジェスチャ画像６０の修正は行わないようにしてもよいし、さらに、予め登録された否定のジェスチャ画像または否定のアイコン画像等を追加するようにしてもよい。

図４は、本実施形態によるジェスチャ画像の他の修正例を示す図である。図４に示す例では、例えば指示者Ｕ１が、「これを操作してください。」と話しながら、表示部１５０に表示される撮像画像に写るオブジェクト５０を指差すジェスチャ動作を行った場合について説明する。

ここで、指示者Ｕ１は、「これを操作してください。」と、肯定の指示を音声で行いながらハンドジェスチャを行っているが、音声が聞こえ難かったり、言葉が分からなかったりした場合、ジェスチャ画像６０の形を見て、操作しても良いのかダメなのかがはっきりせず、否定の指示と誤解される恐れもある。したがって、マイク１３０は、図４右側に示すように、指示者Ｕ１の指示の意図に対応するようジェスチャ画像６０を修正する。具体的には、まず、ジェスチャ画像修正部１０３は、生成されたジェスチャ画像６０と、予め登録された肯定のジェスチャ画像とを比較し、肯定のジェスチャ画像が含まれているか否かを判断する。含まれていない場合、ジェスチャ画像修正部１０３は、ジェスチャ画像の削除や追加等を行って修正する。例えば図４右側に示すように、肯定を示すジェスチャ画像６６（例えば指で丸を作るハンドジェスチャ）や、肯定を示すアイコン画像６８（例えば丸マーク）を、ジェスチャ画像６０を表示した直後に追加表示する修正を行う。追加するジェスチャ画像６６や、アイコン画像６８は、情報処理装置１０などに予め登録され得る。これにより、ジェスチャ画像６０で、オブジェクト５０を指し示した上で、「肯定」の意図を明確に示すことが可能となる。

なお、図４に示す修正例は一例であって、本実施形態による、肯定の意図に対応するようジェスチャ画像を修正する例はこれに限定されない。また、生成されたジェスチャ画像６０に、予め登録された肯定のジェスチャ画像が含まれている場合、ジェスチャ画像修正部１０３は、ジェスチャ画像６０の修正は行わないようにしてもよいし、さらに、予め登録された肯定のジェスチャ画像または肯定のアイコン画像等を追加するようにしてもよい。

なお、情報処理装置１０は、否定のジェスチャ画像のみを予め登録しておいてもよい。ジェスチャ画像修正部１０３は、生成されたジェスチャ画像に、予め登録された否定のジェスチャ画像が含まれているか否かを判断し、含まれていない場合は、当該生成されたジェスチャ画像を肯定のジェスチャ画像であるとみなしてもよい。この場合、指示の意図も「肯定」である場合は、特に修正は行わない。一方、指示の意図が「否定」である場合は、当該生成されたジェスチャ画像を削除し、若しくは当該生成された画像に追加して、予め登録された否定のジェスチャ画像を表示するようにしてもよい。また、ジェスチャ画像修正部１０３は、予め登録された否定のジェスチャ画像が含まれている場合は、当該生成されたジェスチャ画像を「否定」に対応するものと判断する。この場合、指示の意図も「否定」である場合は、特に修正は行わない。一方、指示の意図が「肯定」である場合は、当該生成されたジェスチャ画像を削除し、若しくは当該生成された画像に追加して、予め登録された肯定のジェスチャ画像を表示するようにしてもよい。

・重畳画像生成部１０４
重畳画像生成部１０４は、指示者Ｕ１の指示の意図に対応するジェスチャ画像を、撮像装置２０で撮像された作業者Ｕ２側の撮像画像に重畳する処理を行う。指示者Ｕ１の指示の意図に対応するジェスチャ画像は、ジェスチャ画像生成部１０２により生成されたジェスチャ画像の場合もあるし、ジェスチャ画像修正部１０３により修正されたジェスチャ画像（修正ジェスチャ画像）の場合もある。重畳画像生成部１０４は、センサ部１２０により検知された位置や動きに対応するよう、ジェスチャ画像を撮像画像に重畳表示する。

・表示制御部１０５
表示制御部１０５は、ジェスチャ画像が重畳された画像（重畳画像とも称す）を、作業者Ｕ２の表示装置３０に表示するよう制御する。具体的には、表示制御部１０５は、重畳画像を、通信部１１０を介して、表示装置３０に送信する制御を行う。重畳画像の表示装置３０での表示は、リアルタイムに（出来るだけ遅延なく）行われることが望ましい。また、表示制御部１０５は、修正を行っていないジェスチャ画像を重畳した画像を、表示部１５０に表示し、指示者Ｕ１に提示する制御を行う。これにより、指示者Ｕ１は、フィードバックを受けながら、ジェスチャ動作を行うことが可能となる。また、表示制御部１０５は、さらに作業者Ｕ２側に送信する重畳画像も併せて（例えば並列して、若しくは小さい表示領域で）表示部１５０に表示するよう制御してもよい。これにより、システムによるジェスチャ画像の修正の有無や、作業者Ｕ２側ではどのように見えているかを指示者Ｕ１に提示することが可能となる。

（通信部１１０）
通信部１１０は、ネットワーク４０（例えば専用回線）を介して、撮像装置２０および表示装置３０と通信接続し、データの送受信を行う。例えば通信部１１０は、撮像装置２０から撮像画像を受信したり、表示装置３０に、指示意図に対応するジェスチャ画像を撮像画像に重畳した重畳画像を送信したりする。これらのデータの送受信は、継続的に行われ得る。

（センサ部１２０）
センサ部１２０は、ジェスチャ動作を検知する機能を有する。センサ部１２０は、例えば赤外線発光部と２つの赤外線カメラとが搭載された、三次元空間を検知できるセンサにより実現されてもよい。これにより、センサ部１２０は、手や指、指の関節などの３次元位置（座標）や動き（座標の変化）を検知し、ジェスチャ動作を計測する。なお、センサ部１２０は赤外線カメラなどの光学式に限定されず、例えば音波式や磁気式でもよい。また、センサ部１２０は、非接触計測に限定されず、手指にセンサを取り付けて計測する接触計測であってもよい。センサ部１２０は、検知したセンシングデータ（指示動作データ、例えば、３次元位置座標など）を、制御部１００に出力する。

（マイク１３０）
マイクロホン（本明細書では、マイクと省略して称する）１３０は、周囲の音を収音し、収音した音データを制御部１００に出力する。また、マイク１３０は、複数のマイクロホンを設置したマイクアレイにより実現されてもよい。また、マイク１３０は、収音した音データから雑音を除去する処理を行った上で、音声データを制御部１００に出力してもよい。

（操作入力部１４０）
操作入力部１４０は、指示者Ｕ１の操作入力を受け付ける操作部の機能を有する。例えば操作入力部１４０は、マウス、キーボード、ボタン、レバー、スイッチ等の物理的な構成により実現されてもよい。また、操作入力部１４０は、タッチパネルディスプレイにより実現されてもよい。また、操作入力部１４０は、複数あってもよい。

（表示部１５０）
表示部１５０は、画像を表示する表示部の機能を有する。表示部１５０は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置により実現される。本実施形態による表示部１５０は、表示制御部１０５の制御に従って、撮像装置２０から送信された撮像画像を表示する。また、表示部１５０は、指示者Ｕ１のハンドジェスチャを表現したジェスチャ画像が撮像画像に重畳された重畳画像を、表示する。また、表示部１５０は、複数あってもよい。

（記憶部１６０）
記憶部１６０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等から実現され、情報処理装置１０の動作を制御するための制御プログラムや各種パラメータ、データ等を格納する。例えば、記憶部１６０には、ジェスチャ画像修正部１０３が、ジェスチャ画像生成部１０２により生成されたジェスチャ画像が肯定か否定かを判断するためのデータなどが記憶されている。

以上、本実施形態による情報処理装置１０の構成について具体的に説明した。なお、図１に示す情報処理装置１０の構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置１０は、カメラやスピーカ等をさらに備えていてもよい。これにより、情報処理装置１０の指示意図判定部１０１は、カメラにより指示者Ｕ１の顔を撮像し、その表情から、指示意図を判定することも可能である。また、情報処理装置１０の制御部１００は、作業者Ｕ２側で収音され、送信された音声データ（作業者Ｕ２の音声）を、スピーカから出力して指示者Ｕ１に提示することも可能である。

また、情報処理装置１０の各構成のうち、少なくとも一部が別体により構成されていてもよい。

＜３．動作処理＞
続いて、本実施形態による遠隔作業支援システム１ａの動作処理について、図５を参照して具体的に説明する。図５は、本実施形態による遠隔作業支援システム１ａの動作処理の流れの一例を示すシーケンス図である。

図５に示すように、まず、撮像装置２０は、作業者Ｕ２の視界を撮像した撮像画像を、情報処理装置１０に送信する（ステップＳ１０３）。

次に、情報処理装置１０の表示制御部１０５は、撮像装置２０から送信された撮像画像を、表示部１５０に表示する制御を行う（ステップＳ１０６）。

次いで、ジェスチャ画像生成部１０２は、センサ部１２０により検知された、指示者Ｕ１の指示動作（具体的には、ハンドジェスチャ動作）のセンシングデータ（３次元位置データなど）に基づいて、ジェスチャ画像を生成する（ステップＳ１０９）。

次に、ジェスチャ画像生成部１０２は、生成したジェスチャ画像を、ジェスチャ画像修正部１０３および重畳画像生成部１０４に出力する（ステップＳ１１２）。

一方、指示意図判定部１０１は、指示者Ｕ１の指示の意図を判定し（ステップＳ１１５）、判定した指示意図の情報を、ジェスチャ画像修正部１０３に出力する（ステップＳ１１８）。なお、ステップＳ１１５およびステップＳ１１８の処理は、上記ステップＳ１０９およびステップＳ１１２の処理と並行して行われてもよい。指示意図判定部１０１は、上述したように、例えば指示動作を行っている際の（指示動作を行っている時間帯の前後を含めてもよい）指示者Ｕ１の発話音声を解析して指示の意図（肯定か否定か）を判定する。

続いて、ジェスチャ画像修正部１０３は、生成されたジェスチャ画像に、指示意図に対応するジェスチャ画像（肯定または否定を示すジェスチャ画像）が含まれているか否かを判断する（ステップＳ１２１）。

次いで、ジェスチャ画像修正部１０３は、指示意図に対応するジェスチャ画像が含まれていない場合は、当該ジェスチャ画像を、指示意図に対応するよう修正する処理（例えばジェスチャ画像の一部削除や追加など）を行い（ステップＳ１２４）、修正したジェスチャ画像（修正ジェスチャ画像）を、重畳画像生成部１０４に出力する（ステップＳ１２７）。

次に、重畳画像生成部１０４は、撮像装置２０から送信された撮像画像に、指示者Ｕ１の指示意図に対応するジェスチャ画像（修正ジェスチャ画像の場合もあれば、ジェスチャ画像生成部１０２により生成されたジェスチャ画像（修正無し）の場合もある）を重畳した画像を生成する（ステップＳ１３０）。この際、重畳画像生成部１０４は、ジェスチャ画像の３次元位置データを考慮して重畳表示の位置を決定し得る。

次いで、重畳画像生成部１０４は、生成した重畳画像を表示制御部１０５に出力し、表示制御部１０５は、通信部１１０から、作業者Ｕ２に装着された表示装置３０に重畳画像を送信する制御を行う（ステップＳ１３３）。

そして、表示装置３０は、受信した重畳画像を表示し、作業者Ｕ２に提示する（ステップＳ１３６）。作業者Ｕ２は、自身の視界を撮像した撮像画像に、指示者Ｕ１による指示を示すジェスチャ画像が重畳された画像（所謂ＡＲ表示）を見ることで、直感的に、指示者Ｕ１による指示を理解することが可能となる。また、重畳表示されるジェスチャ画像は、必要に応じて、指示者Ｕ１による指示意図に対応するよう修正されたものであるため、作業者Ｕ２は、誤解無く、より正確に、指示を理解することが可能となる。

また、表示制御部１０５は、重畳画像生成部１０４により生成された重畳画像を表示部１５０に表示して指示者Ｕ１に提示する制御を行う（ステップＳ１３９）。表示制御部１０５は、修正されていないジェスチャ画像を重畳した画像を（フィードバックとしてリアルタイムに）表示するようにしてもよいし、修正を行ったジェスチャ画像を重畳した画像を表示するようにしてもよいし、両者を表示するようにしてもよい。

以上、本実施形態による遠隔作業支援システム１ａの動作処理について具体的に説明した。なお、本実施形態では、指示者Ｕ１による指示音声が作業者Ｕ２側では（周りの騒音などにより）聞き取りにくい場合や、言葉が分からない場合などを想定し、より有効な伝達手段として、ジェスチャ画像を用いた作業支援を行う場合について説明したが、本発明はこれに限定されない。例えば、指示者Ｕ１の指示音声も併せて作業者Ｕ２側で出力するようにしてもよい。作業者Ｕ２は、例えばイヤホンやヘッドホンなどを装着し、指示者Ｕ１の指示音声が聞こえるようにしてもよい。

＜４．変形例＞
続いて、本実施形態による遠隔作業支援システムの変形例について、図６～図８を参照して説明する。

上述した実施形態では、一人の作業者に対して、その作業者への指示をジェスチャ画像で提示する場合について説明したが、作業者が複数居る場合も想定される。この場合、複数の作業者がそれぞれ表示装置３０を装着し、すべての作業者にジェスチャ画像を提示することも想定される（すなわち、同じ空間に複数の作業者がいて、同じ空間の映像と同じジェスチャ画像を共有している状況を想定する）。しかしながら、複数の作業者のうち一部の作業者に対してのみ指示を行いたい場合、すべての作業者に同じジェスチャ画像が提示されると、指示対象者ではない作業者が、自身への指示であると誤解する恐れがある。

そこで、本実施形態の変形例として、作業者が複数居る場合でもジェスチャ画像により指示を明示的に伝えることができる仕組みについて提案する。

（４－１．システム構成）
図６は、本実施形態の変形例による遠隔作業支援システム１ｂの全体構成の一例を示す図である。図６に示すように、複数の作業者がいる場合において、作業者側の空間の映像は、例えば天井や壁などに設置された撮像装置２０により取得される。撮像装置２０は、同じ空間に居る複数の作業者の視界（複数の作業者の視界は概ね共通しているものとする）を撮像し得る。なお、同じ空間に居る複数の作業者のいずれか一人に装着された撮像装置２０により、複数の作業者の共通する視界を撮像するようにしてもよい。

撮像装置２０により取得された撮像画像は、情報処理装置１０に送信され、表示部１５０に表示される。情報処理装置１０の構成は、図２を参照して説明した通りである。情報処理装置１０は、図１を参照して説明した実施形態と同様に、指示者Ｕ１によるジェスチャ動作をセンサ部１２０によりセンシングし、センシングデータに基づいてジェスチャ画像生成部１０２によりジェスチャ画像６０を生成し、重畳画像生成部１０４により撮像画像にジェスチャ画像６０を重畳し、表示部１５０に表示する。また、情報処理装置１０は、上述した実施形態と同様に、例えばマイク１３０により指示者Ｕ１の発話音声（指示音声）を収音し、収音した音声データを解析して、指示者Ｕ１の指示の意図を判定し、指示意図に対応するよう、ジェスチャ画像６０を修正する。指示意図の判定は、上述した実施形態と同様に、音声データの解析の他、ボタンなどの操作入力部１４０（図６では不図示）における操作入力に基づいて行ってもよい。

ここで、本変形例による情報処理装置１０の指示意図判定部１０１は、当該指示の対象者を、音声データや操作入力情報から判定する。すなわち、指示意図判定部１０１は、指示者Ｕ１の指示が、複数の作業者のうち誰に向けての指示であるかを、指示意図の一つとして判定する。例えば、指示者Ｕ１が、「Ｂさんはここを操作してください」と発話しながらジェスチャを行っていた場合、情報処理装置１０は、指示の対象者が「Ｂさん」（作業者Ｕ２）であると判定することができる。そして情報処理装置１０は、指示意図に対応するジェスチャ画像が重畳された画像（重畳画像）を、指示対象者（例えば、作業者Ｕ２）の表示装置３０（表示装置３０ｂ）に送信する。

さらに、本変形例による情報処理装置１０は、指示意図と反対の意図（以下、反対意図と称す）を示すジェスチャ画像を重畳した画像を生成し、指示対象者以外の者（例えば、作業者Ｕ３）の表示装置３０（表示装置３０ｃ）に送信する。例えば、指示者Ｕ１が、「Ｂさんはここを操作してください」と発話しながらジェスチャを行っていた場合、情報処理装置１０のジェスチャ画像修正部１０３は、指示の意図（ここでは、「肯定」）と反対の意図（ここでは、「否定」）を示すジェスチャ画像、すなわち「操作を禁止すること」を明確に示すジェスチャ画像を生成する。具体的には、ジェスチャ画像修正部１０３は、反対意図を示すジェスチャ画像や反対意図を示すアイコン画像を追加する修正を行う。また、ジェスチャ画像修正部１０３は、指示意図を明確に示すジェスチャ画像を削除した上で、反対意図を示すジェスチャ画像等を追加するようにしてもよい。また、もともと生成されたジェスチャ画像に、反対意図を示すジェスチャ画像が含まれていた場合は、このまま利用することが可能である。

このように、本変形例では、指示意図を示すジェスチャ画像と、指示意図と反対の意図を示すジェスチャ画像との両者を用意し、指示意図を示すジェスチャ画像は指示対象者に提示し、指示意図と反対の意図を示すジェスチャ画像を指示対象者以外に提示することで、指示対象者以外に誤解されることを回避し、作業のミスなどを防止することができる。

ここで、ジェスチャ画像修正部１０３によるジェスチャ画像の修正例について、図７を参照して具体的に説明する。図７は、本変形例によるジェスチャ画像の修正例について説明する図である。図７に示すように、例えば指示者Ｕ１が、「Ｂさんはこれを操作しないでください」と話しながら、表示部１５０に表示される撮像画像に写るオブジェクト５０を指差した上で、禁止を示すジェスチャ動作を行った場合について説明する。

情報処理装置１０のマイク１３０は、指示対象者に向けては、指示意図に対応するジェスチャ画像を用意する。図７に示す例では、「Ｂさんはこれを操作しないでください」といった否定の意図を明確に示すジェスチャ画像７０（指でバツを作るハンドジェスチャ）が、ジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれているため、修正無しで、当該ジェスチャ画像を、指示意図に対応するジェスチャ画像として用いることができる。なお、否定の意図を明確に示すジェスチャ画像が含まれていない場合は、ジェスチャ画像修正部１０３は、予め登録された否定のジェスチャ画像を追加するなどの修正を行い、指示意図に対応するジェスチャ画像を生成する。

また、情報処理装置１０のジェスチャ画像修正部１０３は、指示対象者以外に向けて、指示意図と反対の意図を示すジェスチャ画像を用意する。図７に示す例では、「Ｂさんはこれを操作しないでください」といった否定の意図を明確に示すジェスチャ画像７０が、ジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれているため、ジェスチャ画像修正部１０３は、かかるジェスチャ画像７０を削除し、指示意図と反対の意図、すなわち「これを操作してください」といった肯定の意図を明確に示すジェスチャ画像７２を追加する修正を行う。なお、ジェスチャ画像修正部１０３は、ジェスチャ画像６０は、「これ」という発話に対応する、場所を示すジェスチャであると判断し、残すようにしてもよい。

以上により、Ｂさんにだけ操作を禁止し、他の作業者に対しては操作を許可する指示を行うことが可能となる。

図７に示す例では、一例として、指示意図が否定の場合について説明したが、指示意図が肯定の場合も同様に、ジェスチャ画像修正部１０３は、指示意図に対応するジェスチャ画像（すなわち、肯定を示すジェスチャ画像）と、指示意図と反対の意図に対応するジェスチャ画像（すなわち、否定を示すジェスチャ画像）とを生成する。例えば、指示者Ｕ１が、「Ｂさんはこれを操作してください」と話しながらジェスチャ動作を行った場合、ジェスチャ画像修正部１０３は、指示対象者であるＢさん用に、肯定を示すジェスチャ画像（例えば指で丸を作るハンドジェスチャ）を生成する。また、ジェスチャ画像修正部１０３は、指示対象者以外用に、否定を示すジェスチャ画像（例えば指でバツを作るハンドジェスチャ）を生成する。これにより、Ｂさん以外が操作してしまうことを回避することができる。

そして、情報処理装置１０は、指示対象者用のジェスチャ画像を重畳した画像を、指示対象者の表示装置３０に送信し、指示対象者以外用のジェスチャ画像を重畳した画像を、指示対象者以外の表示装置３０に送信する。

図６に示すように、本変形例において、複数の作業者（作業者Ｕ２、作業者Ｕ３）は、それぞれ表示装置３０を装着し、各表示装置３０（表示装置３０ａ、３０ｂ）は、情報処理装置１０から送信される、ジェスチャ画像が重畳された画像を表示する。各表示装置３０は、ウェアラブルディスプレイに限定されず、上述した実施形態と同様に、壁や作業台に設置されたディスプレイであってもよいし、プロジェクタにより画像が投影されるものであってもよい。本変形例では、一の作業者に対して一の表示装置３０を割り当て、各作業者向けの重畳画像を提示することを想定しているが、１つのディスプレイに各作業者向けの重畳画像を表示し、どの重畳画像がどの作業者向けのものであるかを示すようにしてもよい。

（４－２．動作処理）
続いて、本変形例による動作処理について図８を参照して具体的に説明する。図８は、本変形例による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。

図８のステップＳ２０３～Ｓ２１２に示す処理は、図５のステップＳ１０３～Ｓ１１２に示す処理と同様である。すなわち、情報処理装置１０は、撮像装置２０で撮像された、作業対象を含む作業者（作業者Ｕ２、作業者Ｕ３）の視界方向の映像（撮像画像）を表示部１５０に表示して指示者Ｕ１に提示し（ステップＳ２０３～Ｓ２０６）、ジェスチャ画像生成部１０２により、指示者Ｕ１の指示動作に基づいてジェスチャ画像を生成し、ジェスチャ画像修正部１０３および重畳画像生成部１０４に出力する（ステップＳ２０９～Ｓ２１２）。

次いで、指示意図判定部１０１は、指示者Ｕ１の指示意図（指示対象者を含む）を、指示者Ｕ１の発話音声や操作入力情報などから判定し（ステップＳ２１５）、判定した指示意図（指示対象者を含む）をジェスチャ画像修正部１０３に出力する（ステップＳ２１８）。

次に、ジェスチャ画像修正部１０３は、指示意図および反対意図にそれぞれ対応するジェスチャ画像を必要に応じて生成し（ステップＳ２２１）、生成したジェスチャ画像を重畳画像生成部１０４に出力する（ステップＳ２２４）。

具体的には、ジェスチャ画像修正部１０３は、指示意図に対応するジェスチャ画像が、ジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれていない場合に、予め登録された、指示意図に対応するジェスチャ画像を追加する等の修正を行って、指示意図に対応するジェスチャ画像を生成する。なお、指示意図に対応するジェスチャ画像が、ジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれている場合は、当該元のジェスチャ画像を指示意図に対応するジェスチャ画像として用いることができるため、ここでの新たな生成は不要となる。

また、ジェスチャ画像修正部１０３は、指示意図と反対の意図に対応するジェスチャ画像が、ジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれていない場合に、予め登録された、反対意図に対応するジェスチャ画像を追加する等の修正を行って、反対意図に対応するジェスチャ画像を生成する。この際、ジェスチャ画像修正部１０３は、元のジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれている場合は、これを削除する修正も併せて行う。指示意図と反対の意図に対応するジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれていると、指示が不明確となるためである。なお、反対意図に対応するジェスチャ画像がジェスチャ画像生成部１０２により生成された元のジェスチャ画像に含まれている場合は、当該元のジェスチャ画像を反対意図に対応するジェスチャ画像として用いることができるため、ここでの新たな生成は不要となる（ただし、この際も、元のジェスチャ画像に、指示意図に対応するジェスチャ画像が含まれている場合は、これを削除する修正を行う）。

また、ジェスチャ画像修正部１０３は、他の方法として、元のジェスチャ画像から否定を示すジェスチャ画像の検出を行い、検出された場合は、当該元のジェスチャ画像を、否定を示すジェスチャ画像として扱うようにしてもよい。指示意図が「否定」の場合は、当該元のジェスチャ画像が指示意図に対応するジェスチャ画像となり、指示意図が「肯定」の場合は、当該元のジェスチャ画像が指示意図に反対する意図に対応するジェスチャ画像となる。この方法の場合、ジェスチャ画像修正部１０３は、元のジェスチャ画像から否定を示すジェスチャ画像が検出されなかった場合は、当該元のジェスチャ画像を、肯定を示すジェスチャ画像として扱うようにしてもよい。この場合、指示意図が「肯定」の場合は、当該元のジェスチャ画像が指示意図に対応するジェスチャ画像となり、指示意図が「否定」の場合は、当該元のジェスチャ画像が指示意図に反対する意図に対応するジェスチャ画像となる。さらに、ジェスチャ画像修正部１０３は、検出された否定のジェスチャ画像を削除する修正や、さらに肯定のジェスチャ画像を追加する修正等により、極性（ネガポジ）を反転したジェスチャ画像（この場合は、肯定のジェスチャ画像）を生成することが可能となる。また、ジェスチャ画像修正部１０３は、否定のジェスチャ画像が検出されなかった元のジェスチャ画像（肯定のジェスチャ画像とみなされる）に、否定のジェスチャ画像を追加する修正等を行うことで、極性（ネガポジ）を反転したジェスチャ画像（この場合は、否定のジェスチャ画像）を生成することが可能となる。

続いて、重畳画像生成部１０４は、撮像画像に、指示意図に対応するジェスチャ画像を重畳した画像を生成する（ステップＳ２２７）。

次に、重畳画像生成部１０４は、生成した重畳画像を表示制御部１０５に出力し、表示制御部１０５は、通信部１１０から、指示対象者の表示装置３０（ここでは、一例として表示装置３０ｂ）に、重畳画像を送信する制御を行う（ステップＳ２３０）。

そして、表示装置３０ｂは、指示意図に対応するジェスチャ画像が重畳された画像を表示し、指示対象者（作業者Ｕ２）に提示する（ステップＳ２３３）。これにより、本システムでは、指示対象に対して、指示に対応するジェスチャ画像を提示することができる。当該ジェスチャ画像は、上述した実施形態と同様に、指示に対応するよう、必要に応じて修正されているため、指示対象者が指示を誤認することを回避することができる。

また、重畳画像生成部１０４は、撮像画像に、指示意図と反対の意図に対応するジェスチャ画像を重畳した画像を生成する（ステップＳ２３６）。

次に、重畳画像生成部１０４は、生成した重畳画像を表示制御部１０５に出力し、表示制御部１０５は、通信部１１０から、指示対象者以外の表示装置３０（ここでは、一例として表示装置３０ｃ）に、重畳画像を送信する制御を行う（ステップＳ２３９）。

そして、表示装置３０ｃは、指示意図と反対の意図に対応するジェスチャ画像が重畳された画像を表示し、指示対象者以外（作業者Ｕ３）に提示する（ステップＳ２４２）。これにより、本システムでは、指示対象以外に対して、指示意図と反対の意図に対応するジェスチャ画像を提示することで、指示対象以外の者が、指示対象への指示を自分への指示と誤解することを回避することができる。

また、表示制御部１０５は、重畳画像生成部１０４により生成された重畳画像を表示部１５０に表示して指示者Ｕ１に提示する制御を行う（ステップＳ２４５）。表示制御部１０５は、修正されていないジェスチャ画像を重畳した画像を（フィードバックとしてリアルタイムに）表示するようにしてもよいし、各作業者に送信した重畳画像を表示するようにしてもよいし、これらをすべて表示するようにしてもよい。

以上、本実施形態の変形例による遠隔作業支援システム１ｂの動作処理について具体的に説明した。

＜５．補足＞
また、本実施形態による遠隔作業支援システムの構成は、図１や図６に示す例に限定されない。以下、本実施形態による遠隔作業支援システムの構成について、補足する。

・補足１・・・図９は、本実施形態の補足にかかる遠隔作業支援システム１ｃの全体構成の一例を示す図である。図９に示すように、遠隔作業支援システム１ｃでは、複数の作業者がいる場合において、作業者側の空間の映像として、各作業者に装着された撮像装置２０（２０ｂ、２０ｃ）により各作業者の視界方向の映像をそれぞれ取得し、情報処理装置１０に送信する。そして、指示者Ｕ１側では、例えば情報処理装置１０の表示部１５０に、各作業者の視界方向の映像（撮像装置２０ｂにより取得された撮像画像２１０ｂ、撮像装置２０ｃにより取得された２１０ｃ）がそれぞれ表示される。複数の作業者は同じ空間でほぼ同じ方向を向いて作業をしている場合、両者の映像は、図９に示すように、多少の画角の差が有る程度の映像となることが想定される。

指示者Ｕ１は、各撮像画像を見ながら、上述した実施形態と同様に、ハンドジェスチャにより、作業等に関する指示を行い得る。情報処理装置１０は、指示者Ｕ１のジェスチャ動作を、センサ部１２０により検知し、生成したジェスチャ画像を、撮像画像に重畳表示する。この際、情報処理装置１０は、作業者Ｕ２の撮像装置２０ｂにより取得された撮像画像２１０ｂには、作業者Ｕ２に提示するジェスチャ画像を重畳表示し、作業者Ｕ３の撮像装置２０ｃにより取得された撮像画像２１０ｃには、作業者Ｕ３に提示するジェスチャ画像を重畳表示する。また、図６を参照して説明した場合と同様に、指示対象者に対しては指示意図に対応するジェスチャ画像を重畳し、指示対象者以外に対しては、指示意図と反対の意図に対応するジェスチャ画像を重畳するよう制御する。

例えば図９に示す例では、指示者Ｕ１が、「Ｂさんはこれを操作してください」と話しながら、表示部１５０に表示される撮像画像２１０ｂに写るオブジェクトObj１を指差すジェスチャ動作を行った場合について説明する。この場合、情報処理装置１０のジェスチャ画像生成部１０２は、センサ部１２０により検知したジェスチャ画像のセンシングデータ（３次元位置データ）に基づいてジェスチャ画像を生成する。また、指示意図判定部１０１は、指示者Ｕ１の発話音声「Ｂさんはこれを操作してください」に基づいて、指示対象者が「Ｂさん」であると判定する。なお、指示意図判定部１０１は、カメラ１７０により撮像した指示者Ｕ１の顔画像から検出される視線方向（眼の画像における黒目の位置、頭部の方向、顔の向きなどから視線方向を検出し得る）に基づいて、指示者Ｕ１が見ている映像が撮像画像２１０ｂと撮像画像２１０ｃのどちらであるかを判断し、指示対象者を判定してもよい。例えば指示者Ｕ１が撮像画像２１０ｂを見ながらジェスチャ動作を行っている場合、指示意図判定部１０１は、作業者Ｕ２（Ｂさん）に対する指示であると判定し得る。

次いで、情報処理装置１０のジェスチャ画像修正部１０３は、図６を参照して説明した場合と同様に、指示意図に対応するジェスチャ画像７５と、指示意図と反対の意図に対応するジェスチャ画像７７を生成する。次に、重畳画像生成部１０４は、指示意図に対応するジェスチャ画像７５は指示対象者である作業者Ｕ２（Ｂさん）の視界を撮像した撮像画像２１０ｂに重畳表示し、指示意図と反対の意図に対応するジェスチャ画像７７は指示対象者以外である作業者Ｕ３（Ｃさん）の視界を撮像した撮像画像２１０ｃに重畳表示するよう制御する（すなわち、重畳画像の生成）。この際、重畳画像生成部１０４は、各撮像画像２１０に写るオブジェクトを認識し、両撮像画像においてジェスチャ画像がそれぞれ同じオブジェクト（図９に示す例では、オブジェクトObj１）を指差すよう調整してもよい。具体的には、例えば重畳画像生成部１０４は、ジェスチャ動作の３次元位置データや、指示者Ｕ１の視線方向、および指示者Ｕ１が見ている撮像画像２１０ｂにおける各オブジェクトとジェスチャ画像７５の位置関係などから、撮像画像２１０ｃにおけるジェスチャ画像７７の重畳位置を調整してもよい。

また、図９に示すように、情報処理装置１０は、表示部１５０に、作業者Ｕ２（Ｂさん）用の重畳画像（撮像画像２１０ｂにジェスチャ画像７５が重畳された画像）と、作業者Ｕ３（Ｃさん）用の重畳画像（撮像画像２１０ｃにジェスチャ画像７７が重畳された画像）とを表示し、各作業者にどのようなジェスチャ画像が提示されているかを指示者Ｕ１にフィードバックしてもよい。ここでは、既に指示意図に対応するよう修正されたジェスチャ画像が重畳表示されている。

そして、情報処理装置１０は、生成した各重畳画像を、それぞれ表示装置３０ｂ、表示装置３０ｃに送信し（指示対象者用の重畳画像は指示対象者に、指示対象者以外用の重畳画像は指示対象者以外に送信）、表示させる。これにより、周囲の騒音などで音声が聞こえ難い現場や、言葉が分からない状況においても、ジェスチャ画像により、指示対象者に明確に指示を伝達することができ、また、指示対象者以外には、指示意図と反対の意図のジェスチャ画像を提示することで、指示が誤解されることを防止することができる。

また、本システムでは、各作業者にそれぞれ装着された撮像装置２０により視界方向の撮像画像を取得することで、各作業者の実際の視界方向とのずれが少ない映像を取得し、ジェスチャ画像を重畳表示することができる。実際の視界とのずれが少ないため、各作業者は、実空間にあるオブジェクトのどの部分に対する指示であるかを、より容易に理解することが可能となる。

・補足２・・・本実施形態による遠隔作業視線システムは、さらにサーバを備える構成であってもよい。かかるサーバに、図２に示す制御部１００の少なくとも１以上の機能を持たせて、ネットワーク上で主な処理を行うようにしてもよい。この場合、情報処理装置１０は、ネットワーク４０を介してサーバと接続し、センサ部１２０により検知したセンシングデータやマイク１３０により収音した音声データをサーバに送信する。また、サーバは、ネットワーク４０を介して、撮像装置２０および表示装置３０と接続し、撮像装置２０から撮像画像を受信して情報処理装置１０に送信したり、指示者Ｕ１の指示の意図に対応するジェスチャ画像を撮像画像に重畳した画像を表示装置３０に送信したりする。

・補足３・・・撮像装置２０は複数であってもよく、作業対象をいくつかの視点から撮像していてもよい。各撮像装置２０の撮像画像は情報処理装置１０に送信され、指示者Ｕ１が任意で選択し得る。指示者Ｕ１は、選択した撮像画像に対してジェスチャ動作による指示を行うことが可能である。

・補足４・・・指示意図判定部１０１は、１つの指示ごとに意図判定を行うが、指示の訂正が隣接して発生した場合は、かかる訂正にも対応することが可能である。例えば、指示者Ｕ１が、「Ｂさんはここを操作して・・・いや、操作しないでください」など、後から訂正する場合も想定される。指示意図判定部１０１は、発話音声の認識および解析を継続的に行い、訂正が生じた場合には意図判定に即時反映させることで、より正確に指示意図を判定することが可能となる。

・補足５・・・指示対象者の判定は、氏名の呼びかけや操作入力による指定に基づく場合に限定されず、例えば役職や権限の指定に基づいて行われてもよい。

・補足６・・・指示対象者が、複数の作業者全員の場合も想定される。指示意図判定部１０１は、例えば特に指示対象者の特定が行われなかった場合は、作業者全員を対象としていると判定してもよい。

・補足７・・・情報処理装置１０は、指示者Ｕ１の音声（指示音声）も併せて作業者Ｕ２や作業者Ｕ３に提示することが可能である。ここで、指示対象者以外に、指示意図と反対の意図に対応するジェスチャ画像を提示する場合、当該ジェスチャ画像は、指示音声とは矛盾する指示となるため（例えば音声では「操作してください」と言っているが、指示対象者以外には、操作を禁止するジェスチャ画像を提示するため）、矛盾する部分の指示音声を削除した上で提示するようにしてもよい（若しくはすべての指示音声を削除し、提示しないようにしてもよい）。

・補足８・・・また、本実施形態による情報処理装置１０は、ジェスチャ画像のみを指示対象者である作業者Ｕ２に送信し、表示装置３０において、撮像画像に重畳表示する作業を行うようにしてもよい。情報処理装置１０は、撮像画像に対するジェスチャ画像の重畳位置に関する情報（位置座標など）も併せて表示装置３０に送信するようにしてもよい。

＜６．まとめ＞
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、本実施形態による情報処理システムは、一例として、工場や倉庫などでの作業を他の場所から支援する遠隔作業支援システムについて説明したが、本実施形態は工場や倉庫などでの作業の支援に限定されない。例えば、様々な分野における教育に用いてもよい。何らかの練習をしている１以上の対象者に対して、他の場所から、ジェスチャ画像により教示する際に本システムを用いることが可能である。

また、情報処理装置１０、撮像装置２０、または表示装置３０に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１０、撮像装置２０、または表示装置３０の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体も提供される。

１遠隔作業支援システム
１０情報処理装置
１００制御部
１０１指示意図判定部
１０２ジェスチャ画像生成部
１０３ジェスチャ画像修正部
１０４重畳画像生成部
１０５表示制御部
１１０通信部
１２０ジェスチャセンサ部
１３０マイク（マイクロホン）
１４０操作入力部
１５０表示部
１６０記憶部
２０撮像装置
３０表示装置
４０ネットワーク

Claims

指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、
前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、
前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、
含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正したジェスチャ画像を生成する、制御部を備える、情報処理装置。
前記制御部は、前記修正したジェスチャ画像を、前記指示の対象となる対象者に出力するよう制御する、請求項１に記載の情報処理装置。
前記制御部は、前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれている場合は、当該ジェスチャ画像を、前記指示の対象者に出力するよう制御する、請求項１または２に記載の情報処理装置。
前記制御部は、前記ジェスチャ画像または前記修正したジェスチャ画像を、前記対象者が所有する撮像装置により撮像された撮像画像に重畳した重畳画像を、前記対象者に出力するよう制御する、請求項２または３に記載の情報処理装置。
前記制御部は、
前記対象者が所有する撮像装置により撮像された撮像画像を表示部に表示し、
前記表示した前記撮像画像に含まれるオブジェクトに対する前記指示者による指示の動作を検知する、請求項２～４のいずれか１項に記載の情報処理装置。
前記制御部は、前記ジェスチャ画像を、前記指示者による前記指示の意図と反対の意図を示すよう修正したジェスチャ画像を生成する、請求項１～５のいずれか１項に記載の情報処理装置。
前記制御部は、
前記修正したジェスチャ画像を、前記指示の対象者となる作業者に出力し、
前記反対の意図を示すよう修正したジェスチャ画像を、前記指示の対象者となる作業者以外の作業者に出力するよう制御する、請求項６に記載の情報処理装置。
前記制御部は、前記指示者の発話音声または操作入力情報に基づいて、前記指示の対象者を判定する、請求項７に記載の情報処理装置。
前記制御部は、前記指示者の発話音声または操作入力情報に基づいて、前記指示者による指示の意図が、肯定的であるか否定的であるかを判定する、請求項１～８のいずれか１項に記載の情報処理装置。
前記制御部は、
前記ジェスチャ画像に、予め登録された否定のジェスチャ画像が含まれているか否かを判断し、
前記否定のジェスチャ画像が含まれている場合は、否定的な意図に対応するジェスチャ画像であると判断し、
前記否定のジェスチャ画像が含まれていない場合は、肯定的な意図に対応するジェスチャ画像であると判断する、請求項１～９のいずれか１項に記載の情報処理装置。
プロセッサが、
指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、
前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、
前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、
含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正した修正ジェスチャ画像を生成するよう制御することを含む、情報処理方法。
コンピュータを、
指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、
前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、
前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、
含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正した修正ジェスチャ画像を生成する、制御部として機能させる、プログラム。
指示者による指示の動作を検知した指示動作データに基づいて、前記指示動作を表現するジェスチャ画像を生成し、
前記指示者による指示の意図が、肯定的であるか否定的であるかを判定し、
前記判定した前記指示の意図に対応するジェスチャが、前記ジェスチャ画像に含まれているか否かを判断し、
含まれていない場合は、前記ジェスチャ画像を、前記指示の意図を示すよう修正したジェスチャ画像を生成し、
前記指示の対象となる対象者に、前記指示の意図に対応するジェスチャが含まれているジェスチャ画像を送信するよう制御する制御部を有する情報処理装置と、
前記情報処理装置から送信されたジェスチャ画像を、前記対象者に提示する表示部を有する表示装置と、
を備える、情報処理システム。