JP2015060579A

JP2015060579A - 情報処理システム、情報処理方法および情報処理プログラム

Info

Publication number: JP2015060579A
Application number: JP2013196199A
Authority: JP
Inventors: 満陸口; Mitsuru Rikuguchi; 孝文田村; Takafumi Tamura; 直弘橘; Naohiro Tachibana; 千惠菊池; Chie Kikuchi
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2013-09-20
Filing date: 2013-09-20
Publication date: 2015-03-30
Anticipated expiration: 2033-09-20
Also published as: JP5877824B2

Abstract

【課題】利用者が意図する処理対象に対応する処理を実行すること。
【解決手段】本願に係る情報処理システム１は、利用者の視界に対応した撮像画像を取得するヘッドマウント装置１０と、ヘッドマウント装置１０と通信可能な処理サーバ３０とを有する。また、情報処理システム１は、撮像画像から、利用者が操作する第１の物体を認識する認識手段を有する。また、情報処理システム１は、画像から、第１の物体が指示する第２の物体を特定して認識する特定手段を有する。また、情報処理システム１は、認識された第２の物体に対応する処理を実行する処理手段を有する。
【選択図】図１

Description

本発明は、情報処理システム、情報処理方法および情報処理プログラムに関する。

従来、利用者が視界内に捉えた光景を主観画像として撮影し、撮影した主観画像を用いて各種処理を実行する技術が知られている。このような技術の一例として、主観画像に含まれる処理対象を自動認識し、認識した処理対象に対応する処理を実行するヘッドマウント装置が知られている。

例えば、このようなヘッドマウント装置は、主観画像内に含まれる単語を自動認識し、識別した単語を利用者の視界内に強調表示する。そして、ヘッドマウント装置は、強調表示された単語のうち、利用者が選択した単語の関連情報を取得し、取得した関連情報を利用者の視界内に表示する。

特開２０１１−１１８５３１号公報特開２０１２−１７３７７２号公報特開２０１３−０８８９０６号公報

しかしながら、従来の技術では、利用者の意図を考慮せずに、主観画像内に含まれる処理対象を自動認識し、認識した処理対象に対応する処理を実行するので、利用者が意図しない処理を実行してしまうという問題がある。

本願は、上記に鑑みてなされたものであって、利用者が意図する処理対象に対応する処理を実行することを目的とする。

本願に係る情報処理システムは、利用者の視界に対応した撮像画像を取得する端末装置と、前記端末装置と通信可能な情報処理装置とを有する。また、情報処理システムは、前記撮像画像から、前記利用者が操作する第１の物体を認識する認識手段を有する。また、情報処理システムは、前記撮像画像から、前記第１の物体が指示する第２の物体を特定して認識する特定手段を有する。また、情報処理システムは、前記認識された第２の物体に対応する処理を実行する処理手段を有する。

実施形態の一態様によれば、利用者が意図する処理対象に対応する処理を実行することができる。

図１は、実施形態に係る情報処理システムが発揮する機能の一例を示す説明図である。図２は、実施形態に係るヘッドマウント装置の機能構成の一例を説明する図である。図３は、実施形態に係る処理対応テーブルの一例を説明する図である。図４は、実施形態に係る処理サーバの機能構成の一例を説明する図である。図５は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第１の図である。図６は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第２の図である。図７は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第３の図である。図８は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第４の図である。図９は、実施形態に係る情報処理システムが利用者の視界内に出力する情報のバリエーションを説明する第１の図である。図１０は、実施形態に係る情報処理システムが利用者の視界内に出力する情報のバリエーションを説明する第２の図である。図１１は、実施形態に係る情報処理システムが実行する処理の流れを説明するフローチャートである。図１２は、情報処理プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理システム、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理システム、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［１．情報処理システム］
まず、図１を用いて、実施形態に係る情報処理システムが実行する処理の一例について説明する。図１は、実施形態に係る情報処理システムが発揮する機能の一例を示す説明図である。図１に示す例では、情報処理システム１は、ヘッドマウント装置１０、処理サーバ３０をネットワークで接続した形態を有する。なお、情報処理システム１は、他にも複数のヘッドマウント装置が含まれるものとする。

ヘッドマウント装置１０は、利用者の視界を撮影した撮像画像である主観画像を取得するウェアラブルデバイスである。例えば、ヘッドマウント装置１０は、眼鏡型のデバイスである。また、ヘッドマウント装置１０は、利用者の視野内に任意の情報を表示することができる。また、ヘッドマウント装置１０は、カメラを有しており、主観画像を撮影することができる。また、ヘッドマウント装置１０は、ヘッドマウント装置１０と、カメラが撮影した主観画像に含まれる各種物体との距離を測定する深度センサを有する。

また、ヘッドマウント装置１０は、３Ｇ（Generation）、４Ｇ、ＬＴＥ（Long Term Evolution）、ＧＳＭ（登録商標）（Global System for Mobile Communications）等の無線通信網を介してネットワークに接続することができる。なお、ヘッドマウント装置１０は、ｂｌｕｅｔｏｏｔｈ（登録商標）や無線ＬＡＮ（Local Area Network）等の近距離無線通信を用いて、図示を省略した携帯電話等の端末装置に接続し、接続した端末装置を介してネットワークに接続してもよい。

また、ヘッドマウント装置１０は、同様の機能を発揮できる構成であれば、複数の装置を連携させて発揮させてもよい。例えば、ヘッドマウント装置１０は、主観画像を撮影する主観画像取得装置と、主観画像取得装置と近距離無線通信を行い、主観画像を処理サーバ３０へ送信する端末装置との組み合わせで実現してもよい。なお、かかる端末装置は、ヘッドマウント装置１０のように、利用者の視野内に画像を表示する機能を有していなくともよく、任意の情報を表示する画面を有していればよい。

ここで、ヘッドマウント装置１０は、以下の処理を実行する。まず、ヘッドマウント装置１０は、所定の時間間隔で、主観画像を取得する。また、ヘッドマウント装置１０は、深度センサを用いて、主観画像に写る各種物体と、ヘッドマウント装置１０との距離、すなわち、主観画像における奥行き方向の距離を測定し、測定した距離を示す深度情報を生成する。

また、ヘッドマウント装置１０は、主観画像と深度情報とを用いて、処理の対象である対象物体を利用者が指定する際に用いる指示物体を検出する。例えば、ヘッドマウント装置１０は、指示物体として、利用者の指やスタイラス、ペン、鉛筆等の指し棒を画像内から特定する。また、ヘッドマウント装置１０は、主観画像から指示物体を検出すると、検出した指示物体が示す領域を特定する。

そして、ヘッドマウント装置１０は、特定した領域を表示する図形を、利用者の視界内に出力する。この結果、ヘッドマウント装置１０は、利用者に処理対象を直感的に選択させることができる。なお、かかる処理は、継続して行なわれるため、情報処理システム１は、利用者が指示物体を視界内で移動させた際、指示物体が示す領域を表示する図形を、指示物体の動きに追従させる。

ここで、ヘッドマウント装置１０は、主観画像に含まれる物体の何れかを、指示物体が指示した場合は、指示された物体を処理対象として特定する。例えば、ヘッドマウント装置１０は、指示物体が所定の時間停止した場合には、主観画像のうち、指示物体が示す領域内に含まれる物体の形状、大きさ、色等に基づいて、指示物体が示す領域内に含まれる物体を特定する。そして、処理サーバ３０は、特定した物体を処理対象として認識する。

例えば、ヘッドマウント装置１０は、指示物体が示す領域内に含まれる物体が、端末装置、情報処理装置、印刷物、紙、植物、動物、食器、雑貨、人物等のいずれであるかを認識する。また、ヘッドマウント装置１０は、指示物体が示す領域内に、印刷あるいは立体で形成された文字列が含まれる場合には、指示物体が文字列であると認識する。その後、ヘッドマウント装置１０は、認識した処理対象に対応する処理を実行する。

例えば、ヘッドマウント装置１０は、認識した処理対象が端末装置等の静物である場合は、処理対象をマウスやキーボード等の入力装置として取り扱う。詳細な例を説明すると、ヘッドマウント装置１０は、処理対象が端末装置である場合は、端末装置の位置や、端末装置に触れる利用者の手の甲の位置をトラッキングすることで、端末装置をヘッドマウント装置１０のマウスとして取り扱う。

また、例えば、ヘッドマウント装置１０は、キーボードが印刷された紙が処理対象である場合は、かかる紙をヘッドマウント装置１０のキーボードとして取り扱う。詳細な例を説明すると、ヘッドマウント装置１０は、キーボードが印刷された紙のうち、利用者が指を置いた位置に基づいて、利用者が仮想的に押下したキーを特定する。そして、ヘッドマウント装置１０は、特定したキーに対応する文字の入力を受け付ける。

また、例えば、ヘッドマウント装置１０は、紙やノートが処理対象である場合は、かかる紙やノートをモニタ等の出力装置として取り扱う。詳細な例を説明すると、ヘッドマウント装置１０は、主観画像のうち、紙やノートが含まれる領域を検出し、検出した領域にＷｅｂブラウザ等のウインドウを重ねて表示する。この際、ヘッドマウント装置１０は、紙やノートが主観画像内で移動した場合は、ウインドウの位置を紙やノートの移動に追従させることで、利用者が、モニタを持っているようなＵＩ（User Interface）を提供できる。

また、ヘッドマウント装置１０は、認識した処理対象が文字列である場合は、かかる文字列の翻訳を行い、翻訳結果を処理対象に重ねて表示する。詳細には、ヘッドマウント装置１０は、文字列を処理サーバ３０に送信し、処理サーバ３０から処理結果を受信する。そして、ヘッドマウント装置１０は、処理対象となる文字列に翻訳文を重ね合わせて表示する。つまり、ヘッドマウント装置１０は、利用者が指示した文字列のみを翻訳する。

なお、上述した処理対象に対応する所定の処理は、あくまで一例であり、実施形態は、これに限定されるものではない。すなわち、情報処理システム１は、認識した処理対象にに対応する任意の処理を実行することができる。

また、上述した例では、ヘッドマウント装置１０が、主観画像から指示物体の認識、処理対象の特定、認識した処理対象に対応する処理の実行を行なう例について説明したが、実施形態はこれに限定されるものではない。すなわち、本願の各処理は、ヘッドマウント装置１０および処理サーバ３０のどちらで実施されてもよく、例えば、ヘッドマウント装置１０が主観画像を処理サーバ３０に送信し、処理サーバ３０が指示物体の認識、処理対象の特定および認識、認識した処理対象に対応する処理を実行してもよい。

次に、情報処理システム１が実行する処理の流れについて説明する。なお、以下の例では、情報処理システム１は、利用者の指を指示物体として認識し、利用者が指差した物体を処理対象として特定する例について説明する。まず、図１中（Ａ）に示すように、ヘッドマウント装置１０は、利用者の視界を撮影した主観画像を取得する。図１中（Ａ）に示す例では、主観画像には、コーヒーカップ、端末装置、本が含まれる。また、図１中（Ｂ）に示すように、主観画像には、ヘッドマウント装置１０の利用者の指が含まれている。

また、ヘッドマウント装置１０は、図１中（Ａ）に示す主観画像の画像解析を行い、図１中（Ｂ）に示すように、指が主観画像に含まれていると判定する。また、ヘッドマウント装置１０は、深度情報を用いて、主観画像に含まれている指が、ヘッドマウント装置１０を装着した利用者の指であると判定する。このため、ヘッドマウント装置１０は、図１中（Ｂ）に示す利用者の指が、指示物体であると認識する。

また、ヘッドマウント装置１０は、主観画像内において、指示物体である利用者の指が指し示す範囲を特定し、図１中（Ｃ）に示すように、特定した領域を示す図形を利用者の視界内に表示する。この結果、利用者は、直感的に処理の対象を指示することができる。例えば、利用者は、端末装置を処理対象として指示したい場合は、図１中（Ｄ）に示すように、表示された図形が示す範囲に端末装置が含まれるよう、指を動かせばよい。このように、情報処理システム１は、処理対象を選択するための指標となる図形を利用者の視界内に出力するので、直感的に処理対象を選択させることができる。なお、上述した処理は、繰り返し実行されるため、情報処理システム１は、図１中（Ｂ）に示す指が移動した場合は、図１中（Ｃ）に示す図形を指の移動に追従して移動させる。

また、ヘッドマウント装置１０は、処理対象が端末装置である場合は、端末装置をヘッドマウント装置１０の入力装置とする。例えば、ヘッドマウント装置１０は、主観画像内における端末装置の位置の変化量を算出し、算出した変化量に基づいて、利用者の視界内に表示するカーソルの位置を変更する。すなわち、情報処理システム１は、指定された端末装置をヘッドマウント装置１０のマウスとする。

また、例えば、ヘッドマウント装置１０は、処理対象が文字列である場合は、図１中（Ｅ）に示すように、文字列を処理サーバ３０へ送信する。かかる場合、処理サーバ３０は、文字列の翻訳を行い、図１中（Ｆ）に示すように、翻訳結果をヘッドマウント装置１０へ送信する。その後、ヘッドマウント装置１０は、翻訳結果を利用者の視界に出力する。

このように、情報処理システム１は、利用者の主観画像から利用者が処理対象を指示する指示物体を認識し、認識した指示物体が示す処理対象を特定および認識する。そして、情報処理システム１は、認識した処理対象に対応する処理を実行する。このため、情報処理システム１は、利用者が意図する処理対象に対応する処理を実行できる。

また、情報処理システム１は、指示物体が指示する領域を表す図形を利用者の視界内に出力する。このため、情報処理システム１は、利用者に処理対象の選択を促すとともに、選択を補助し、利用者が処理対象として選択したい物体を確実に特定できる。また、情報処理システム１は、利用者による処理対象の選択を直感的にすることができる。

なお、上述した例では、ヘッドマウント装置１０が利用者の主観画像から利用者が処理対象を指示する指示物体を認識し、認識した指示物体が示す処理対象を認識し、認識した処理対象に対応する処理を実行する例について説明した。しかしながら、実施形態は、これに限定されるものではない。すなわち、上述した処理は、ヘッドマウント装置１０もしくは処理サーバ３０のいずれが実行しても良い。

［２．ヘッドマウント装置の機能構成］
次に、図２を用いて、実施形態に係るヘッドマウント装置１０の機能構成について説明する。図２は、実施形態に係るヘッドマウント装置の機能構成の一例を説明する図である。図２に示す例では、ヘッドマウント装置１０は、カメラ１１、深度センサ１２、表示部１３、通信部１４、制御部１５、記憶部１６を有する。記憶部１６は、指示物体データベース１７、処理対象データベース１８を有する。また、制御部１５は、収集部２０、認識部２１、特定部２２、制御部２３を有する。

まず、記憶部１６が記憶する指示物体データベース１７および処理対象データベース１８、処理対応テーブル１９について説明する。指示物体データベース１７は、画像から指示物体を認識するための情報が格納されている。例えば、指示物体データベース１７には、画像から利用者の指、スタイラス、ペン等を認識するためのデータが格納されている。なお、かかるデータの具体例としては、画像から特定の色、形状、模様等を認識するための特徴量ベクトル等であり、例えば、利用者が物体を指し示した際の手の形状や色を認識するための特徴量ベクトルである。

処理対象データベース１８は、指示物体が指示する物体を特定するための情報が格納されている。例えば、処理対象データベース１８には、物体が、端末装置、情報処理装置、印刷物、紙、植物、動物、食器、雑貨、人物等のいずれであるかを特定するための特徴量ベクトル、および、印刷あるいは立体で形成された文字列を判定するためのＯＣＲ（Optical Character Recognition）データが格納されている。

処理対応テーブル１９は、指示物体が指示する処理対象と、処理対象に対応する処理とが対応付けて格納されている。例えば、図３は、実施形態に係る処理対応テーブルの一例を説明する図である。図３に示すように、処理対象テーブル１９には、処理対象と、処理対象に対応する処理の内容とが対応付けて格納されている。

詳細な例を説明すると、図３に示す例では、処理対応テーブル１９には、処理対象「端末装置」と対応処理「仮想マウス処理」とが対応付けて格納され、処理対象「ノート」と対応処理「仮想ウインドウ処理」とが対応付けて格納されている。また、処理対応テーブル１９には、処理対象「書籍の裏表紙」と対応処理「書籍情報表示処理」とが対応付けて格納され、処理対象「文字列」と対応処理「書籍情報表示処理」とが対応付けて格納されている。処理対応テーブル１９には、処理対象「印刷キーボード」と対応処理「仮想キーボード処理」とが対応付けて格納されている。

なお、「仮想マウス処理」とは、対応する処理対象をヘッドマウント装置１０の仮想的なマウスとする処理であり、「仮想ウインドウ処理」とは、対応する処理対象とヘッドマウント装置１０の仮想的なウインドウ表示装置とする処理である。また、「書籍情報表示処理」とは、対応する処理対象である書籍の各種情報を表示する処理であり、「翻訳処理」とが対応する処理対象である文字列を翻訳する処理である。また、「仮想キーボード処理」とは、対応する処理対象をヘッドマウント装置１０の仮想的なキーボードとする処理である。

図２に戻り、説明を続ける。カメラ１１は、利用者の視界に対応した撮像画像である主観画像を取得する画像取得装置である。例えば、カメラ１１は、利用者の目の横に設置された画像取得装置であり、ＣＣＤ（Charge Coupled Device）イメージセンサやＣＭＯＳ（Complementary Metal-Oxide Semiconductor）イメージセンサを用いて、ヘッドマウント装置１０を装着した利用者の主観画像を取得する。

深度センサ１２は、主観画像内の各物体と、ヘッドマウント装置１０との距離を測定するためのセンサである。例えば、深度センサ１２は、所定の波長の光を出力するＬＥＤ（Light Emitting Diode）と、ＬＥＤが出力した光を受信するＣＭＯＳ（Complementary Metal Oxide Semiconductor）とを有する。そして、深度センサ１２は、利用者の視界を複数の領域に分割し、ＬＥＤが光を出力してから、ＣＭＯＳが反射光を受信するまでの時間を、領域ごとに計測する。そして、深度センサ１２は、計測した時間と光の速度とを用いて、利用者の視覚の各領域と、ヘッドマウント装置１０との距離、すなわち、主観画像に含まれる各物体の奥行き方向の距離を測定する。

表示部１３は、特定部２２、制御部２３の制御に応じて、利用者の視界内に任意の情報を出力可能な表示装置である。例えば、表示部１３は、利用者の視線上に設置された自由曲面プリズムに画像を入力することで、利用者の視界内に情報の表示を行う。ここで、表示部１３が出力する情報としては、例えば、指示物体が示す領域を示す図形、文字列、Ｗｅｂブラウザのウインドウ等である。

通信部１４は、ヘッドマウント装置１０と処理サーバ３０との通信を制御する。具体的には、通信部１４は、制御部２３から受信した各種情報を処理サーバ３０に送信し、処理サーバ３０から受信した各種情報を制御部２３に出力する。

次に、制御部１５が実行する処理について説明する。収集部２０は、所定の時間間隔で、カメラ１１と深度センサ１２とを作動させ、カメラ１１が取得した主観画像と、深度センサ１２が取得した深度情報とを収集する。そして、収集部２０は、収集した主観画像と深度情報とを認識部２１と制御部２３に出力する。なお、収集部２０が主観画像と深度情報とを収集する時間間隔は、任意のものを採用できるが、表示部１３が各種情報を表示する際のリフレッシュレートと同程度であることが望ましい。

認識部２１は、画像から、指示物体を特定する。具体的には、認識部２１は、主観画像と深度情報とを受信すると、指示物体データベース１７に格納されたデータを用いて、主観画像から指示物体の候補を検出する。また、認識部２１は、指示物体の候補が含まれる領域の深度情報を用いて、指示物体の候補とヘッドマウント装置１０との距離を取得する。

そして、認識部２１は、指示物体の候補とヘッドマウント装置１０との距離が所定の閾値に収まる場合は、かかる指示物体の候補を指示物体として認識する。例えば、認識部２１は、利用者が物体を指し示した際の手の形状や色を認識するための特徴量ベクトルを用いて検出した指示物体の候補と、ヘッドマウント装置１０との距離が３０センチメートル以内に収まる場合は、かかる指示物体の候補が、利用者の指であると認識する。その後、認識部２１は、主観画像と深度情報と認識した指示物体の位置座標と指示物体の種別を示す情報とを特定部２２に出力する。

特定部２２は、指示物体が指示する物体を特定し、特定した物体の認識を行なう。例えば、特定部２２は、認識部２１から、主観画像と深度情報と認識した指示物体の位置座標と指示物体の種別を示す情報とを受信する。かかる場合は、特定部２２は、受信した各情報を用いて、主観画像において指示物体が指し示す領域を特定する。例えば、特定部２２は、識別した指示物体が利用者の指である場合は、利用者の指の先端を中心とした円形の領域を、指示物体が指し示す領域として特定する。なお、以下の説明では、主観画像のうち指示物体が指し示す領域を指示領域と記載する。

次に、特定部２２は、指示領域に含まれる物体とヘッドマウント装置１０との距離や、指示領域に含まれる物体が主観画像に占める割合に応じて、指示領域の大きさを変更する。例えば、特定部２２は、深度情報を用いて、指示領域に含まれる物体とヘッドマウント装置１０との距離を取得し、取得した距離が所定の閾値よりも遠い場合は、指示領域を所定の大きさよりも小さくする。また、特定部２２は、指示領域に含まれる物体とヘッドマウント装置１０との距離が所定の閾値よりも近い場合は、指示領域を所定の大きさよりも大きくする。

また、特定部２２は、指示領域に物体の一部のみが含まれている場合は、かかる物体の大きさと指示領域の大きさとを比較し、指示領域よりも物体が大きい場合は、指示領域をかかる物体よりも大きくする。また、特定部２２は、指示領域に複数の物体が含まれる場合は、指示領域の大きさを所定の大きさよりも小さくする。

続いて、特定部２２は、処理対象データベース１８を用いて、主観画像のうち、指示領域に文字列が含まれているか否かを判定する。ここで、特定部２２は、指示領域に文字列が含まれていない場合、すなわち、指示領域に文字列以外の物体が含まれている場合、または、指示領域に何らかの物体が含まれていない場合は、指示領域を囲む円形の図形を利用者の視界に表示させるための図形データと図形を出力する座標とを算出する。一方、特定部２２は、指示領域に文字列が含まれる場合は、かかる文字列を囲む四角形の形状に指示領域の形状を変更する。そして、特定部２２は、変更後の指示領域を囲む四角形の図形を利用者の視界に表示させるための図形データと図形を表示する座標とを算出する。

その後、特定部２２は、算出した図形データと図形を表示する座標とを含む図形表示指示を生成し、生成した図形表示指示を表示部１３に出力する。この結果、表示部１３は、指示領域を示す図形を利用者の視界に出力する。また表示部１３は、指示領域内に含まれる物体に応じて、異なる図形を利用者の視界に出力する。例えば、表示部１３は、指示領域内に文字列が含まれる場合は、文字列を囲んだ四角形の図形を出力し、他の場合には、指示領域を示す図形を出力する。

また、特定部２２は、指示領域に同一の物体が、所定の時間、連続して含まれた場合は、処理対象データベース１８を用いて、かかる物体の画像認識を行なう。例えば、特定部２２は、指示領域に含まれる物体が、文字列であるか、端末装置であるか、ノートであるか等、処理対象の認識を行なう。そして、特定部２２は、認識した処理対象を制御部２３に通知する。なお、特定部２２は、処理対象が文字列である場合は、主観画像のうち、かかる文字列が含まれる位置座標を合わせて制御部２３に出力する。

制御部２３は、認識された処理対象に対応する各種処理を実行する。具体的には、制御部２３は、収集部２０から主観画像と深度情報とを受信する。また、制御部２３は、特定部２２から、認識した処理対象の通知を受信する。かかる場合は、制御部２３は、受信した処理対象に対応する各種処理を実行する。詳細には、制御部２３は、処理対応テーブル１９に、受信した処理対象と対応付けて格納された対応処理を特定し、特定した対応処理を実行する。

例えば、制御部２３は、処理対象が端末装置である旨の通知を受信した場合は、図３に例示する処理対応テーブル１９から、端末装置と対応付けられた対応処理「仮想マウス処理」を特定する。そして、制御部２３は、以下の「仮想マウス処理」を実行する。例えば、制御部２３は、収集部２０から主観画像を受信する度に、主観画像から端末装置、端末装置の一部、または利用者の手の甲が含まれる位置座標を算出する。そして、制御部２３は、算出した位置座標の変化量を算出し、算出した変化量に応じて、表示部１３に表示するカーソルを移動させる。すなわち、制御部２３は、主観画像内に含まれる端末装置を、ヘッドマウント装置１０のマウスとする。なお、制御部２３は、利用者の指の動きを検出することで、クリック操作やホイール操作等が行なわれたか否かを判定し、クリック操作やホイール操作等が行なわれたと判定した場合は、クリック操作がホイール操作等が行われた際に実行する処理を行ってもよい。

また、制御部２３は、処理対象がノートである旨の通知を受信した場合は、図３に例示する処理対応テーブル１９から、ノートと対応付けられた対応処理「仮想ウインドウ処理」を特定する。そして、制御部２３は、以下の「仮想ウインドウ処理」を実行する。例えば、制御部２３は、収集部２０から主観画像を受信する度に、主観画像からノートが含まれる領域を特定する。そして、制御部２３は、表示部１３を制御し、特定した領域にＷｅｂブラウザや任意の情報を表示させる。すなわち、制御部２３は、利用者の視界に含まれるノートと重ね合わせるように、Ｗｅｂブラウザや任意の情報を表示することで、かかるノートを出力装置とする。また、制御部２３は、主観画像を受信する度に、主観画像からノートが含まれる領域を特定するので、利用者がノートを移動させた場合は、Ｗｅｂブラウザや任意の情報をノートと合せて移動させる。この結果、ヘッドマウント装置１０は、Ｗｅｂブラウザや任意の情報を表示させるウインドウを、物理的に所持するような操作感を提供することができる。

また、制御部２３は、処理対象が書籍の裏表紙である旨の通知を受信した場合は、図３に例示する処理対応テーブル１９から、書籍の裏表紙と対応付けられた対応処理「書籍情報表示処理」を特定する。そして、制御部２３は、以下の「書籍情報表示処理」を実行する。例えば、制御部２３は、主観画像から、かかる書籍のバーコード、ＩＳＢＮ（International Standard Book Number）、タイトル等、書籍情報を取得する。そして、制御部２３は、インターネット等を用いて、取得した書籍情報の検索を行い、利用者の視界のうち、書籍の横に検索結果を表示する。また、他の例では、制御部２３は、書籍の横に、内容の一部を表示してもよい。

また、制御部２３は、処理対象が文字列である場合は、図３に例示する処理対応テーブル１９から、文字列と対応付けられた対応処理「翻訳処理」を特定する。そして、制御部２３は、以下の「翻訳処理」を実行する。例えば、制御部２３は、通信部１４を介して、かかる文字列の翻訳依頼を処理サーバ３０へ送信する。また、制御部２３は、通信部１４を介して、処理サーバ３０から翻訳文を受信した場合は、利用者の視界のうち、特定部２２から通知された位置座標、すなわち、処理対象である文字列が含まれる領域に、受信した翻訳文を表示する。なお、制御部２３は、処理対象である文字列が含まれる領域に翻訳文を表示する必要は無く、例えば、処理対象である文字列の情報に翻訳文を表示してもよい。かかる処理を実行することで、ヘッドマウント装置１０は、利用者が意図する文字列の翻訳結果のみを表示することができる。

また、例えば、制御部２３は、処理対象が紙にキーボードが印刷された印刷キーボードである旨の通知を受信した場合は、図３に例示する処理対応テーブル１９から、印刷キーボードと対応付けられた対応処理「仮想キーボード処理」を特定する。そして、制御部２３は、以下の「仮想キーボード処理」を実行する。例えば、制御部２３は、収集部２０から主観画像を受信する度に、主観画像から利用者の指の位置座標と、印刷キーボード上に印刷されたキーの位置座標とを算出する。そして、制御部２３は、算出した位置座標に基づいて、印刷されたキーのうち、利用者が指で押下したキーを特定し、特定したキーに割当てられた文字、数字、記号等が入力されたと判定する。

［３．処理サーバ３０の機能構成］
次に、図４を用いて、実施形態に係る処理サーバ３０の機能構成について説明する。図４は、実施形態に係る処理サーバの機能構成の一例を説明する図である。図４に示す例では、処理サーバ３０は、通信部３１、制御部３２、記憶部３３を有する。また、記憶部３３は、翻訳データベース３４を有する。また、制御部３２は、処理部３５を有する。

まず、記憶部３３が記憶する翻訳データベース３４に格納された情報について説明する。翻訳データベース３４は、翻訳処理を実行するための情報が格納されており、例えば、英語と日本語とを相互に翻訳するための辞書データが格納されている。

通信部３１は、処理サーバ３０とヘッドマウント装置１０との間の通信を制御する。例えば、ネットワークを介して、ヘッドマウント装置１０から翻訳依頼を受信すると、受信した翻訳依頼を処理部３５に出力する。また、通信部３１は、処理部３５から翻訳文を受信すると、ネットワークを介して、ヘッドマウント装置１０へ翻訳文を送信する。

処理部３５は、処理対象が文字列である際の処理を実行する。例えば、処理部３５は、処理対象が文字列である場合は、かかる文字列をヘッドマウント装置１０から受信する。かかる場合は、処理部３５は、翻訳データベース３４を用いて、特定した文字列の翻訳を行なう。そして、処理部３５は、通信部３１を介して、翻訳文をヘッドマウント装置１０に送信する。

なお、上述した実施形態では、処理部３５が翻訳を行なう例について記載したが、実施形態は、これに限定されるものではない。例えば、処理部３５は、受信した文字列をキーワードとしたインターネット検索、画像検索、関連情報検索等の処理を行い、処理結果をヘッドマウント装置１０に表示させてもよい。

［４．ヘッドマウント装置１０の表示例］
以下、図５〜図８を用いて、ヘッドマウント装置１０が利用者の視界内に出力する情報の一例について説明する。まず、図５を用いて、利用者が処理対象を選択する際に出力される情報、および、利用者が処理対象として端末装置を選択した際に行われる処理の一例について説明する。

図５は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第１の図である。なお、図５に示す例では、ヘッドマウント装置１０が取得する主観画像の一例を、太線の枠内に記載した。例えば、情報処理システム１は、図５中（Ｇ）に示すように、主観画像から利用者の指を識別する。かかる場合、情報処理システム１は、図５中（Ｈ）に示すように、利用者の指が指示する指示領域を点線で囲んだ円形の図形を利用者の視界内に出力する。また、情報処理システム１は、図５中（Ｉ）に示すように、利用者の指が移動した場合は、利用者の指に追従するように、指示領域を囲んだ図形を移動させる。

ここで、図５中（Ｊ）に示すように、利用者が指を動かして、端末装置を連続して指示領域内に含めた場合は、情報処理システム１は、処理対象が端末装置であると判定する。かかる場合は、図５中（Ｋ）に示すように、情報処理システム１は、主観画像から、処理対象である端末装置の主観画像における位置座標を検出する。そして、情報処理システム１は、検出した位置座標を用いて、図５中（Ｌ）に示すように、利用者の視界内に表示したカーソルを移動させる仮想マウス処理を実行する。

この結果、情報処理システム１は、利用者が指定した端末装置等の物体をマウス等の入力装置とすることができる。なお、図５に示す例では、カーソルとともにＷｅｂブラウザを利用者の視界内に出力する例について記載したが、実施形態はこれに限定されるものではなく、例えば、情報処理システム１は、カーソルを用いて利用者の入力を受け付ける画面を出力してもよい。また、情報処理システム１は、端末装置の動きだけではなく、利用者の手の動きを主観画像から取得し、取得した手の動きに応じて、クリックやカーソルの移動を再現してもよい。

次に、図６を用いて、利用者が処理対象としてノートを選択した際に出力する情報の一例について説明する。図６は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第２の図である。例えば、図６中（Ｍ）に示すように、利用者がノートを示した場合は、情報処理システム１は、図６中（Ｎ）に示すように、ノートを囲む円形の図形を出力する。そして、情報処理システム１は、所定の時間、指示領域内にノートが含まれた場合は、図６中（Ｏ）に示すように、ノート上にＷｅｂブラウザのウインドウを重ねて表示する仮想ウインドウ処理を実行する。

かかる場合、情報処理システム１は、利用者がノートを動かした場合は、かかるノートの動きを追従するように、Ｗｅｂブラウザのウインドウを移動させる。この結果、情報処理システム１は、利用者が指定したノート等の物体を、あたかもＷｅｂブラウザを表示させるタブレットにすることができる。なお、かかる場合、情報処理システム１は、利用者のジェスチャーを主観画像から取得し、取得したジェスチャーに応じて、表示するＷｅｂブラウザを操作してもよい。

次に、図７、図８を用いて、利用者が処理対象として文字列を選択した際に出力する情報の一例について説明する。図７は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第３の図である。例えば、利用者が文字列を示した場合は、情報処理システム１は、図７中（Ｐ）に示すように、利用者が示した文字列を囲む四角い図形を利用者の視界に出力する。そして、情報処理システム１は、所定の時間、指示領域内に文字列が含まれた場合は、翻訳処理を実行し、図７中（Ｑ）に示すように、利用者が示した文字列の翻訳文を出力する。

また、図８は、実施形態に係る情報処理システムが利用者の視界内に出力する情報の一例を説明する第４の図である。例えば、利用者が文字列を示した場合は、情報処理システム１は、図８中（Ｒ）に示すように、利用者が示した文字列を囲む四角い図形を利用者の視界に出力する。そして、情報処理システム１は、所定の時間、指示領域内に文字列が含まれた場合は、翻訳処理を実行し、図８中（Ｓ）に示すように、利用者が示した文字列の翻訳文を作成し、作成した翻訳文を、文字列に重ね合わせるように出力する。

［５．ヘッドマウント装置１０が表示する図形のバリエーション］
上述した例では、情報処理システム１は、指示領域を示す図形として、円形または四角形の図形を利用者の視界内に表示した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報処理システム１は、主観画像内から指示物体を認識した場合は、利用者の視界を複数の領域に分割し、各領域を示すグリッド状の図形を表示してもよい。また、情報処理システム１は、指示物体が指し示す指示領域がわかるように、指示領域を所定の色で塗りつぶしても良い。

例えば、図９は、実施形態に係る情報処理システムが利用者の視界内に出力する情報のバリエーションを説明する第１の図である。例えば、情報処理システム１は、図９中（Ｔ）に示すように、主観画像内から指示物体である利用者の指を認識した場合は、図９中（Ｕ）に示すように、利用者の視界内にグリッド状の図形を出力することで、利用者の視界を複数の領域に分割する。また、情報処理システム１は、図９中（Ｖ）に示すように、出力したグリッド状の図形のうち、利用者の指が指示する領域を所定の色で塗りつぶした図形を表示する。この結果、情報処理システム１は、利用者がどこを指示しているかを直感的に示すことができる。

また、図１０は、実施形態に係る情報処理システムが利用者の視界内に出力する情報のバリエーションを説明する第２の図である。例えば、情報処理システム１は、主観画像内から指示物体である利用者の指を認識した場合は、図１０中（Ｗ）に示すように、利用者の視界内にグリッド状の図形を出力する。また、情報処理システム１は、図１０中（Ｘ）に示すように、出力したグリッド状の図形のうち、利用者の指が指示する領域を所定の色で塗りつぶした図形を出力する。

ここで、図１０に示す例では、利用者の指が指示する領域に複数の物体、すなわち本と端末装置とが含まれている。かかる場合、情報処理システム１は、図１０中（Ｙ）に示すように、利用者の指が指示する領域をさらに小さい領域に分割するグリッド状の図形を表示する。そして、情報処理システム１は、図１０中（Ｚ）に示すように、本が含まれる領域を利用者が指し示した場合は、本を処理対象とする各種処理を実行する。

［６．変形例］
上記した実施形態に係る情報処理システム１は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の情報処理システム１の他の実施形態について説明する。

［６−１．処理の主体について］
上述した実施形態では、情報処理システム１は、利用者の主観画像を取得し、取得した主観画像から指示物体を認識し、認識した指示物体が示す処理対象を特定し、認識した処理対象に対応する処理を実行するヘッドマウント装置１０を有していた。しかしながら、実施形態は、これに限定されるものではない。例えば、ヘッドマウント装置１０が発揮する機能の全て、若しくは一部は、処理サーバ３０が発揮しても良い。

例えば、ヘッドマウント装置１０の制御部１５は、図２に例示した収集部２０および制御部２３を有する。一方、図４に示す処理サーバ３０の制御部３２は、図２に示す指示物体データベース１７、処理対象データベース１８、認識部２１、特定部２２を有しても良い。かかる場合、ヘッドマウント装置１０は、利用者の主観画像を取得し、取得した主観画像を処理サーバ３０へ送信する。一方、処理サーバ３０は、主観画像から、指示物体の認識と、指示物体が示す処理対象の特定及び認識とを行い、認識した処理対象をヘッドマウント装置１０へ送信する。その後、ヘッドマウント装置１０は、認識した処理対象に対応する処理を実行する。

すなわち、情報処理システム１は、利用者の主観画像を取得し、取得した主観画像から指示物体を認識し、認識した指示物体が示す処理対象を特定および認識し、認識した処理対象に対応する処理を実行するのであれば、各処理をヘッドマウント装置１０と処理サーバ３０とのどちらが実行しても良い。例えば、処理サーバ３０は、指示領域を示す図形を表示する座標や、各種情報を表示する座標の算出を行い、かかる座標をヘッドマウント装置１０に送信してもよい。かかる場合、情報処理システム１は、ヘッドマウント装置１０が実行する処理を、主観画像の取得と、各種情報の表示処理のみ削減できる。

［６−２．指示領域を示す図形の表示について］
上述した実施形態では、情報処理システム１は、ヘッドマウント装置１０に利用者の視界に指示領域を示す図形を表示させた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報処理システム１は、プロジェクター等の出力装置を用いて、利用者の視界に、指示領域を示す図形を表示させても良い。

［６−３．処理対象に対応する処理について］
上述した実施形態では、処理対象に対応する処理の一例として、処理対象が端末装置である場合は、かかる端末装置をヘッドマウント装置１０のマウスとし、処理対象がノートである場合は、かかるノートをヘッドマウント装置１０の出力装置とし、処理対象が文字列である場合は、かかる文字列の翻訳結果を利用者の視界内に出力した。しかしながら、実施形態は、これに限定されるものではなく、情報処理システム１は、処理対象に対応する任意の処理を実行することができる。

例えば、情報処理システム１は、認識した処理対象が端末装置である場合は、かかる端末装置の型番を取得し、インターネット上の検索システム等を用いて、かかる型番の検索を行い、検索結果を利用者の視界に出力してもよい。また、情報処理システム１は、認識した処理対象のマニュアル、価格情報、口コミ等の評価情報等をインターネット上から収集し、収集した情報を利用者の視界に出力してもよい。また、情報処理システム１は認識した処理対象が文字列である場合は、インターネットを用いて、かかる文字列をキーワードとした検索を行い、検索結果を利用者の視界に出力してもよい。また、情報処理システム１は、顔認証用のデータベースを備え、処理対象が人物の顔である場合には、かかる人物の顔認証を行い、認証結果としてかかる人物の名称等を利用者の視界内に出力してもよい。

すなわち、情報処理システム１は、利用者が用いる指示物体を認識し、認識した指示物体が示す処理対象を特定することができるのであれば、認識した処理対象に対応する任意の処理を実行することができる。なお、情報処理システム１は、例えば、指示物体が示す処理対象をマウス等の入力装置として利用する場合等、処理の実行に処理対象の種別を特定する必要が無い場合は、指示物体が示す処理対象が具体的にどのような物体であるかまでは認識せずとも良い。

［６−４．処理対象の候補について］
上述した情報処理システム１は、指示領域を示す図形を利用者の視界に表示することで、処理対象の選択を直感的に行わせることができた。しかしながら、実施例は、これに限定されるものではない。例えば、情報処理システム１は、主観画像から、処理対象の候補となる物体である認識物体を抽出し、抽出した認識物体を囲む図形を表示したり、抽出した認識物体と重ね合わせるように所定の画像を表示することで、利用者の視界内で処理対象の候補を強調表示する。また、情報処理システム１は、処理対象の候補となる認識物体が文字列である場合は、かかる文字列をＷｅｂブラウザのリンク表示のように、強調表示する。そして、情報処理システム１は、強調表示させた認識物体のうち、利用者の指示物体が指示する認識物体を処理対象として認識し、認識した処理対象に対応する各種処理を実行してもよい。

［６−５．その他］
上記したヘッドマウント装置１０および処理サーバ３０が発揮する機能は、いわゆるクラウドの機能を用いて、複数のサーバ装置によって実現されることとしてもよい。例えば、収集部２０、認識部２１、特定部２２、制御部２３、処理部３５が発揮する機能は、それぞれ異なるサーバ装置によって実現されても良い。また、指示物体データベース１７、処理対象データベース１８、翻訳データベース３４は、それぞれ異なるサーバ装置が記憶しても良い。また、収集部２０、認識部２１、特定部２２、制御部２３、処理部３５が発揮する機能は、任意の態様で結合、分離が可能である。また、ヘッドマウント装置１０は、利用者の主観画像を取得する機能、および、利用者の視界に各種情報を表示できる装置であれば、任意の装置を適用することができる。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。また、例えば、各図に示したアプリケーションのＵＩ（User Interface）は、これに限定されるものではない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

［７．情報処理システム１が実行する処理の流れ］
次に、図１１を用いて、情報処理システム１が実行する処理の流れの一例について説明する。図１１は、実施形態に係る情報処理システムが実行する処理の流れを説明するフローチャートである。なお、図１１に示す例では、利用者の指を指示物体として認識する例について記載した。

まず、情報処理システム１は、主観画像を取得し、取得した主観画像から利用者の指を認識したか否かを判定する（ステップＳ１０１）。そして、情報処理システム１は、主観画像から利用者の指を認識した場合は（ステップＳ１０１：Ｙｅｓ）、利用者の指が指示する処理対象の候補、すなわち、指示領域に含まれる物体が文字であるか否かを判定する（ステップＳ１０２）。

また、情報処理システム１は、処理対象の候補が文字ではない場合は（ステップＳ１０２：Ｎｏ）、静物用の画像、例えば指示領域を囲む円形の画像を表示する（ステップＳ１０３）。一方、情報処理システム１は、処理対象の候補が文字である場合は（ステップＳ１０２：Ｙｅｓ）、文字用の画像、例えば処理対象の候補となる文字列を囲む四角形の画像を表示する（ステップＳ１０４）。

次に、情報処理システム１は、利用者の指が動いたか否かを判定する（ステップＳ１０５）。そして、情報処理システム１は、利用者の指が動いた場合は（ステップＳ１０５：Ｙｅｓ）、ステップＳ１０３またはステップＳ１０４にて表示した画像を指の動きに追従させる（ステップＳ１０６）。

続いて、情報処理システム１は、利用者の指が止まってから所定の時間が経過したか否かを判定する（ステップＳ１０７）。そして、情報処理システム１は、利用者の指が止まってから所定の時間が経過した場合は（ステップＳ１０７：Ｙｅｓ）、指示領域に含まれる物体、すなわち、処理対象を特定する（ステップＳ１０８）。次に、情報処理システム１は、特定された処理対象が文字であるか否かを判定し（ステップＳ１０９）、処理対象が文字ではない場合は（ステップＳ１０９：Ｎｏ）、処理対象に対応する処理を実行して（ステップＳ１１０）、処理を終了する。一方、情報処理システム１は、特定された処理対象が文字である場合は（ステップＳ１０９：Ｙｅｓ）、翻訳結果を表示し（ステップＳ１１１）、処理を終了する。

なお、情報処理システム１は、主観画像から利用者の指を認識しなかった場合は（ステップＳ１０１：Ｎｏ）、次に取得された主観画像から利用者の指を認識したか判定する（ステップＳ１０１）。また、情報処理システム１は、利用者の指が動いていない場合は（ステップＳ１０５：Ｎｏ）、ステップＳ１０６の実行をスキップする。また、情報処理システム１は、利用者の指が止まってから所定の時間が経過していない場合は（ステップＳ１０７：Ｎｏ）、ステップＳ１０２を実行する。

［８．効果］
上述したように、情報処理システム１は、主観画像を取得するヘッドマウント装置１０と、ヘッドマウント装置１０と通信可能な処理サーバ３０とを有する。また、情報処理システム１は、ヘッドマウント装置１０が取得した主観画像から、利用者が操作する指示物体を認識する。また、情報処理システム１は、認識した指示物体が指示する処理対象を特定および認識する。そして、情報処理システム１は、認識した処理対象に対応する処理を実行する。このため、情報処理システム１は、利用者が意図する処理対象に対応する処理を実行することができる。この結果、例えば、情報処理システム１は、利用者が意図しない処理の実行を削減するとともに、不要な情報の表示を防止できる。

また、情報処理システム１は、指示物体により指示される領域を示す図形を利用者の視界内に表示する。そして、情報処理システム１は、かかる領域に含まれる物体を処理対象として認識する。このため、情報処理システム１は、利用者に対し、選択される処理対象を直感的に示すことができる。また、情報処理システム１は、利用者が処理対象として選択しようとする物体の認識を補助する結果、利用者が選択しようとする処理対象を正確に認識することができる。

また、情報処理システム１は、指示領域に含まれる物体に応じて、指示領域を示す図形の形状を変更する。例えば、情報処理システム１は、指示領域に端末装置等の静物が含まれる場合は、円形の図形を出力し、指示領域に文字列が含まれる場合は、四角形の図形を出力する。また、情報処理システム１は、指示領域に含まれる物体の大きさやヘッドマウント装置１０との距離等に応じて、表示する図形の大きさを変更する。このため、情報処理システム１は、利用者に対し、選択される処理対象を直感的に示すことができる。

また、情報処理システム１は、指示領域に複数の物体が含まれる場合は、表示中の図形をより小さい図形に変更する。このため、情報処理システム１は、複数の物体が狭い領域に配置されている場合にも、利用者が処理対象として選択しようとする物体を正確に特定することができる。

また、情報処理システム１は、利用者の視界内に含まれる認識物体を強調表示し、強調表示された物体の中から利用者が選択した物体を処理対象として認識する。このため、情報処理システム１は、利用者による処理対象の選択を容易にすることができる。

また、情報処理システム１は、処理対象に文字列が含まれる場合は、かかる文字列の翻訳、または、かかる文字列をキーワードとした検索処理を実行する。このため、情報処理システム１は、利用者が指定する文字列の情報を利用者に提供することができる。

また、情報処理システム１は、処理対象が端末装置等の所定の物体である場合は、かかる物体をヘッドマウント装置１０に対する操作を受け付ける入力装置とする。このため、情報処理システム１は、マウス等の入力装置を有さないヘッドマウント装置１０に対する操作を容易にすることができる。

また、情報処理システム１は、処理対象がノート等所定の物体である場合は、かかる物体に所定の画面を重ね合わせて出力する。このため、例えば、情報処理システム１は、ノート等の任意の物体を、仮想的なタブレットとして利用者に提供することができる。すなわち、情報処理システム１は、任意の物体をヘッドマウント装置１０の出力装置とすることができる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、特許請求の範囲に記載した「手段」は、「部（section、module、unit）」や「回路」などに読み替えることができる。例えば、収集手段は、収集部や収集回路に読み替えることができる。

［９．プログラム］
なお、上述した実施形態におけるヘッドマウント装置１０は、例えば図１２に示すような構成のコンピュータ７０が情報処理プログラムを実行することによって実現される。図１２は、情報処理プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。コンピュータ７０は、ＣＰＵ（Central Processing Unit）７１、ＲＡＭ（Random Access Memory）７２、ＲＯＭ（Read Only Memory）７３、ＨＤＤ（Hard Disk Drive）７４、通信インターフェイス（Ｉ／Ｆ）７５、入出力インターフェイス（Ｉ／Ｆ）７６、およびメディアインターフェイス（Ｉ／Ｆ）７７を備える。

ＣＰＵ７１は、ＲＯＭ７３またはＨＤＤ７４に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ７３は、コンピュータ７０の起動時にＣＰＵ７１によって実行されるブートプログラムや、コンピュータ７０のハードウェアに依存するプログラム等を格納する。

ＨＤＤ７４は、ＣＰＵ７１によって実行される情報処理プログラム、および、情報処理プログラムによって使用されるデータ等を格納する。例えば、ＨＤＤ７４は、図２に記載した指示物体データベース１７、処理対象データベース１８等と同様のデータを記憶する。通信インターフェイス７５は、ネットワーク２を介して他の機器からデータを受信してＣＰＵ７１へ送り、ＣＰＵ７１が生成したデータを、ネットワーク２を介して他の機器へ送信する。

ＣＰＵ７１は、入出力インターフェイス７６を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ７１は、入出力インターフェイス７６を介して、入力装置からデータを取得する。また、ＣＰＵ７１は、生成したデータを、入出力インターフェイス７６を介して出力装置へ出力する。

メディアインターフェイス７７は、記録媒体７８に格納されたプログラムまたはデータを読み取り、ＲＡＭ７２を介してＣＰＵ７１に提供する。ＣＰＵ７１は、当該プログラムを、メディアインターフェイス７７を介して記録媒体７８からＲＡＭ７２上にロードし、ロードしたプログラムを実行する。記録媒体７８は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

コンピュータ７０が上述した実施形態に係るヘッドマウント装置１０として機能する場合、コンピュータ７０のＣＰＵ７１は、ＲＡＭ７２上にロードされたプログラムを実行することにより、収集部２０、認識部２１、特定部２２、制御部２３の各機能を実現する。

コンピュータ７０のＣＰＵ７１は、情報処理プログラムを、記録媒体７８から読み取って実行するが、他の例として、他の装置から、ネットワーク２を介してこれらのプログラムを取得してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に多様な変更または改良を加えることが可能であることが当業者には明らかである。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

１情報処理システム
１０ヘッドマウント装置
１１カメラ
１２深度センサ
１３表示部
１４、３１通信部
１５、３２制御部
１６、３３記憶部
１７指示物体データベース
１８処理対象データベース
１９収集部
２０認識部
２１特定部
２２制御部
３０処理サーバ
３４翻訳データベース
３５処理部

Claims

利用者の視界に対応した撮像画像を取得する端末装置と、前記端末装置と通信可能な情報処理装置とを有する情報処理システムであって、
前記撮像画像から、前記利用者が操作する第１の物体を認識する認識手段と、
前記撮像画像から、前記第１の物体が指示する第２の物体を特定して認識する特定手段と、
前記認識された第２の物体に対応する処理を実行する処理手段と
を有することを特徴とする情報処理システム。
前記撮像画像のうち、前記第１の物体により指示される領域を表す図形を出力する出力手段を備え、
前記特定手段は、前記撮像画像のうち、前記図形が表す領域に含まれる物体を第２の物体として特定することを特徴とする請求項１に記載の情報処理システム。
前記出力手段は、前記図形が示す領域に含まれる物体に応じて、出力する図形の形状を変更することを特徴とする請求項２に記載の情報処理システム。
前記出力手段は、前記図形が示す領域に複数の物体が含まれる場合は、当該図形が示す領域よりも狭い領域を表す新たな図形を出力することを特徴とする請求項２または３に記載の情報処理システム。
前記撮像画像に含まれる認識物体を強調して出力する出力手段を備え、
前記特定手段は、前記出力手段が強調して出力した認識物体のうち、前記第１の物体が指示する認識物体を前記第２の物体として特定することを特徴とする請求項１〜４のいずれか１つに記載の情報処理システム。
前記処理手段は、前記第２の物体が文字を含む場合は、当該文字を認識し、翻訳処理、または、当該文字をキーワードとした検索処理を実行することを特徴とする請求項１〜５のいずれか１つに記載の情報処理システム。
前記処理手段は、前記第２の物体が所定の物体である場合は、前記第２の物体を前記端末装置の操作を受け付ける入力装置とすることを特徴とする請求項１〜６のいずれか１つに記載の情報処理システム。
前記処理手段は、前記第２の物体が所定の物体である場合は、前記利用者の視界内に、所定の画面を前記第２の物体と重ね合わせて出力させることを特徴とする請求項１〜７のいずれか１つに記載の情報処理システム。
利用者の視界に対応した撮像画像を取得する端末装置と、前記端末装置と通信可能な情報処理装置とを有する情報処理システムが、
前記撮像画像から、前記利用者が操作する第１の物体を認識する認識工程と、
前記撮像画像から、前記第１の物体が指示する第２の物体を特定する特定工程と、
前記認識された第２の物体に対応する処理を実行する処理工程と
を実行することを特徴とする情報処理方法。
利用者の視界に対応した撮像画像から、前記利用者が操作する第１の物体を認識する認識手順と、
前記撮像画像から、前記第１の物体が指示する第２の物体を特定し認識する特定手順と、
前記認識された第２の物体に対応する処理を実行する処理手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。