JP7373068B2

JP7373068B2 - 情報処理システム

Info

Publication number: JP7373068B2
Application number: JP2022524333A
Authority: JP
Inventors: 貴則野村
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-05-18
Filing date: 2021-04-15
Publication date: 2023-11-01
Anticipated expiration: 2041-04-15
Also published as: WO2021235147A1; JPWO2021235147A1

Description

本発明の一態様は、情報処理システムに関する。

ユーザに装着されたスマートグラス等のデバイスに表示されている画像中のオブジェクトについて、当該ユーザのハンドジェスチャによる操作を受付け、該ハンドジェスチャに応じて、オブジェクトに係る情報表示を行う技術が知られている（例えば特許文献１参照）。

特開２０１３－５４６６１号公報

ここで、上述したような技術において、ユーザが情報を表示したいオブジェクトについて、例えば画像中に占める領域が小さい場合や、動的なオブジェクトである場合等においては、ハンドジェスチャによる選択が困難になることがある。すなわち、従来の技術では、スマートグラス等のデバイスに表示されている画像中のオブジェクトに対するハンドジェスチャ等による選択操作が困難となる場合がある。

本発明の一態様は上記実情に鑑みてなされたものであり、ユーザによる画像中のオブジェクト選択を容易化することを目的とする。

本発明の一態様に係る情報処理システムは、ユーザが発した音声であるユーザ音声を認識する音声認識部と、ユーザに装着された端末において表示されてユーザに視認されている視認画像、及び、音声認識部によって認識されたユーザ音声を取得する情報取得部と、視認画像においてユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、情報取得部によって取得されたユーザ音声、及び、ジェスチャ特定部によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定するオブジェクト特定部と、対象オブジェクトを、ユーザが選択し易い表示態様とした選択用画像を視認画像に重畳した重畳画像を生成する画像生成部と、重畳画像を出力する出力部と、を備える。

本発明の一態様に係る情報処理システムでは、ユーザ音声と視認画像におけるユーザのジェスチャ領域とに基づいて視認画像における対象オブジェクトが特定されている。ユーザが発するユーザ音声及びユーザのジェスチャ領域は、いずれもユーザの意思が反映された情報であると推定される。このため、ユーザ音声及びジェスチャ領域に基づいて対象オブジェクトが特定されることにより、ユーザが関心を示している可能性が高いオブジェクトが対象オブジェクトとして特定されることとなる。そして、本発明の一態様に係る情報処理システムでは、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像が、視認画像に重畳して出力される。このように、ユーザが関心を示していると考えられる対象オブジェクトが、ユーザに選択され易い表示態様とされて、視認画像と共に出力されることにより、ユーザがジェスチャ等によって選択しようとしている（選択する可能性が高い）オブジェクトを、ユーザに選択され易い表示態様で表示することができる。これにより、例えばユーザが情報を得るために選択しようとしているオブジェクトが選択しにくい状況（小さい、動いている等）である場合においても、当該オブジェクトがユーザに選択され易い表示態様で表示されるので、ユーザはジェスチャ等によって当該オブジェクトを容易に選択することができる。以上のように、本発明の一態様に係る情報処理システムによれば、ユーザによる画像中のオブジェクト選択を容易化することができる。

本発明の一態様によれば、ユーザによる画像中のオブジェクト選択を容易化することができる。

本実施形態に係る情報処理システムの概要を説明する図である。図１の情報処理システムに含まれる画像処理サーバの機能構成を示すブロック図である。情報処理システムによる情報表示の一例を説明する図である。情報処理システムによる情報表示の一例を説明する図である。情報処理システムによる情報表示の一例を説明する図である。情報処理システムが行う処理を示すフローチャートである。情報処理システムに含まれる画像処理サーバのハードウェア構成を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

図１は、本実施形態に係る情報処理システム１の概要を説明する図である。図１に示されるように、情報処理システム１は、スマートグラス２（ユーザに装着された端末）と、画像処理サーバ１０と、音声認識サーバ５０（音声認識部）と、を備えている。情報処理システム１では、スマートグラス２と、画像処理サーバ１０と、音声認識サーバ５０とが相互に通信可能に構成されている。情報処理システム１では、スマートグラス２を介してユーザに視認されている視認画像に関するユーザ音声及びユーザのハンドジェスチャに基づいて、視認画像においてユーザが更なる情報を要望している対象オブジェクトが特定され、該対象オブジェクトがユーザ選択し易い態様の選択用画像とされて、視認画像に重畳表示される。そして、情報処理システム１では、対象オブジェクトが選択し易い態様の選択用画像で表示された重畳画像において、対象オブジェクトに対するユーザの選択操作が受け付けられることにより、対象オブジェクトに対するユーザの選択操作の容易化を実現している。

スマートグラス２は、ユーザに装着されるゴーグル型のウェアラブル機器であり、無線通信を行うように構成された端末である。スマートグラス２は、ユーザに視認される視認画像を表示可能に構成されている。スマートグラス２は、撮像機能を有しており、例えば、撮像した画像（撮像画像）を上述した視認画像としてリアルタイムに表示する。なお、スマートグラス２は、撮像画像以外の画像を視認画像として表示するものであってもよい。以下では、スマートグラス２が撮像画像を視認画像として表示するとして説明する。スマートグラス２は、画像処理サーバ１０から、視認画像に画像処理サーバ１０において生成された画像を重畳した重畳画像を受信し、該重畳画像を表示する。

スマートグラス２は、自身で又は他のサーバ（不図示）と通信を行うことによって、測位を行うものであってもよい。以下では、スマートグラス２が測位を行うとして説明する。スマートグラス２の測位方法は、限定されず、ＧＰＳ（Global Positioning System）測位であってもよいし、基地局測位であってもよいし、撮像した画像と他のサーバ（不図示）において記憶されているマップデータとを突合させて行う測位であってもよい。また、スマートグラス２は、例えば方向を検知するセンサを有しており、該センサによりスマートグラス２が現在向いている方向を取得してもよい。スマートグラス２は、ユーザが視認している視認画像（撮像画像）と、測位結果及び現在向いている方向とを、継続的に画像処理サーバ１０に送信する。

スマートグラス２は、ユーザが発した音声であるユーザ音声を取得する機能を有している。スマートグラス２は、取得したユーザ音声を音声認識サーバ５０に送信する。なお、本実施形態ではスマートグラス２がユーザ音声を取得するとして説明するが、例えばユーザが保持する他の端末によってユーザ音声が取得され、該他の端末から音声認識サーバ５０にユーザ音声が送信されてもよい。

音声認識サーバ５０は、ユーザ音声を認識する音声認識部として機能する。音声認識サーバ５０は、単にユーザ音声を文字列に変換する機能を有していればよく、ユーザ音声に基づくユーザの識別等の機能を有していなくてもよい。音声認識サーバ５０は、周知の音声認識技術を利用してもよい。音声認識サーバ５０は、音声認識結果（すなわち、ユーザ音声を文字列に変換した情報）を画像処理サーバ１０に送信する。なお、本実施形態では、画像処理サーバ１０が音声認識サーバ５０より音声認識結果を取得するとして説明するが、例えば、画像処理サーバ１０がユーザ音声を認識する音声認識部として機能してもよい。

画像処理サーバ１０は、スマートグラス２及び音声認識サーバ５０から取得した情報に基づき所定の画像処理を行うサーバである。以下、画像処理サーバ１０の詳細な機能について、図２を参照して説明する。

図２は、図１の情報処理システム１に含まれる画像処理サーバ１０の機能構成を示すブロック図である。図２に示されるように、画像処理サーバ１０は、機能構成として、情報取得部１１と、記憶部１２と、ジェスチャ特定部１３と、オブジェクト特定部１４と、表示内容決定部１５と、画像生成部１６と、出力部１７と、を備えている。

情報取得部１１は、スマートグラス２において表示されてユーザに視認されている視認画像をスマートグラス２から取得すると共に、音声認識サーバ５０によって認識されたユーザ音声（詳細には音声認識結果である文字列の情報）を音声認識サーバ５０から取得する。また、情報取得部１１は、スマートグラス２における測位結果及び現在向いている方向の情報を取得する。情報取得部１１は、継続的に、視認画像及びユーザ音声認識結果等を取得する。情報取得部１１は、取得した情報を記憶部１２に格納する。

記憶部１２は、情報取得部１１によって格納された情報、すなわち、視認画像、ユーザ音声認識結果、スマートグラス２の測位結果及び現在向いている方向の情報等を記憶するデータベースである。また、記憶部１２は、複数のオブジェクトに係るオブジェクト情報を記憶している。オブジェクト情報とは、現実空間に存在する物体の情報である。オブジェクト情報では、例えば、オブジェクトを一意に特定する情報（オブジェクトＩＤ）と、オブジェクトの種別を特定する情報（オブジェクト種別）と、オブジェクトが存在する位置情報と、オブジェクトの画像と、オブジェクトに係る詳細情報と、が対応付けて記憶されている。なお、オブジェクト情報では、上述した情報の一部だけが対応付けて記憶されていてもよい。すなわち、例えば、オブジェクトの種別を特定する情報（オブジェクト種別）、オブジェクトの画像、及びオブジェクトに係る詳細情報のみが対応付けて記憶されていてもよい。

オブジェクトに係る詳細情報とは、例えばオブジェクトの内容に関する情報であり、例えばオブジェクトが店の看板である場合には、当該店の営業時間、店で販売する商品・サービスの料金、店の電話番号、店のＵＲＬ等である。また、オブジェクトが商品そのものである場合には、オブジェクトに係る詳細情報とは、例えば当該商品の料金、当該商品の価格、当該商品のスペック、当該商品が説明されたＵＲＬ等である。オブジェクトに係る詳細情報の各項目は、ハンドジェスチャ又はユーザ音声と紐づけられていてもよい。すなわち、例えば、オブジェクトが店の看板である場合において、拳を握りしめたハンドジェスチャに対して店自体の情報（店の営業時間、店の電話番号等）が紐づけられ、拳を開いたハンドジェスチャに対して店の商品の情報（商品の価格、商品のスペック等）が紐づけられる、というように、ハンドジェスチャの種別と詳細情報の項目とが紐づけられていてもよい。また、例えば、オブジェクトが店の看板である場合において、「店」を含んだユーザ音声に対して店自体の情報（店の営業時間、店の電話番号等）が紐づけられ、「（商品名）」を含んだユーザ音声に対して店の商品の情報（商品の価格、商品のスペック等）が紐づけられ、「情報表示」とのユーザ音声に対して全ての詳細情報の項目が紐づけられる、というように、ユーザ音声の種別と詳細情報の項目とが紐づけられていてもよい。また、ハンドジェスチャの種別及びユーザ音声の種別の組み合わせと、詳細情報の項目とが紐づけられていてもよい。なお、記憶部１２は、オブジェクト情報として仮想空間に存在する物体の情報を記憶していてもよい。

ジェスチャ特定部１３は、情報取得部１１によって取得されて記憶部１２に記憶されている視認画像において、ユーザのハンドジェスチャが示されたジェスチャ領域を特定する。ジェスチャ特定部１３は、例えば従来から周知の画像認識技術を利用することにより、ユーザの手が写っている領域を抽出し、該領域をジェスチャ領域として特定する。ジェスチャ領域を特定する処理においては、ジェスチャ特定部１３は、単にユーザの手が写っている領域であるジェスチャ領域を特定できればよく、ハンドジェスチャの種別（例えば拳を握りしめているか、拳を開いているか等）までは特定しなくてもよい。なお、ジェスチャ特定部１３は、ジェスチャ領域を特定する処理においてもハンドジェスチャの種別を特定し、所定のハンドジェスチャの場合にのみジェスチャ領域を特定してもよい。

また、ジェスチャ特定部１３は、対象オブジェクトが特定されて対象オブジェクトの選択用画像が重畳表示されている状態（詳細は後述）においては、ユーザのハンドジェスチャの種別を認識することを更に実行してもよい。

オブジェクト特定部１４は、情報取得部１１によって取得されて記憶部１２に記憶されているユーザ音声、及び、ジェスチャ特定部１３によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定する。対象オブジェクトとは、選択用画像（詳細は後述）においてユーザが選択し易い表示態様で表示されるオブジェクトである。

オブジェクト特定部１４は、ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されているオブジェクトを対象オブジェクトとして特定する。視認できるオブジェクトを対象とした音声とは、ユーザが、視認していることを前提として発するであろうと想定される音声である。視認できるオブジェクトを対象とした音声とは、例えば、動的オブジェクトの停止を要求する音声（視認できている動的オブジェクトを停止させるために発せられると想定される音声）、距離的に離れた領域を示す音声（視認できているものの表示が小さいオブジェクトに関して発せられると想定される音声）等である。動的オブジェクトとは、動いているオブジェクトであり、例えば車、自転車等である。動的オブジェクトの停止を要求する音声とは、例えば「ストップ」「止めて」等である。距離的に離れた領域を示す音声とは、例えば「遠く」「離れている」等である。

オブジェクト特定部１４は、ユーザ音声が、視認できるオブジェクトを対象とした音声であって、動的オブジェクトの停止を要求する音声である場合には、ジェスチャ領域に示されている動的オブジェクトを対象オブジェクトとして特定する。すなわち、例えば図３（ｂ）に示されるように、ジェスチャ領域ＨＪ（ユーザの手が写っている領域）に動的オブジェクトである車ＣＡが示されている状態において、「ストップ」という動的オブジェクトの停止を要求する音声が入力されている場合には、オブジェクト特定部１４は、ジェスチャ領域ＨＪに示されている動的オブジェクトである車ＣＡを対象オブジェクトとして特定する。

オブジェクト特定部１４は、ユーザ音声が、距離的に離れた領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトのうち比較的ユーザから離れているオブジェクトを対象オブジェクトとして特定する。「比較的ユーザから離れているオブジェクト」とは、例えば、ジェスチャ領域に示されているオブジェクトが５つある場合にはその中で最もユーザから離れているオブジェクトである。ジェスチャ領域に示されている各オブジェクトの位置情報は、例えば、記憶部１２に記憶されているスマートグラス２の測位結果、現在向いている方向の情報、及び視認画像と、オブジェクト情報とに基づき導出される。すなわち、オブジェクト特定部１４は、測位結果及び現在向いている方向の情報から位置及び方向の絞り込みを行うと共に、視認画像とオブジェクト情報のオブジェクトの画像とから、ジェスチャ領域に示されているオブジェクトを特定し、オブジェクト情報におけるオブジェクトが存在する位置情報に基づいて、ジェスチャ領域に示されている各オブジェクトの位置情報を特定する。そして、オブジェクト特定部１４は、ジェスチャ領域に示されている各オブジェクトの位置を比較し、例えば最もユーザから離れているオブジェクトを対象オブジェクトとして特定する。すなわち、例えば図４（ｂ）に示されるように、ジェスチャ領域ＨＪ（ユーザの手が写っている領域）に複数のオブジェクトが示されている状態において、「遠く」という距離的に離れた領域を示す音声が入力されている場合には、オブジェクト特定部１４は、ジェスチャ領域に示されているオブジェクトのうち最もユーザから離れているオブジェクトである看板ＢＩ（イタリアンレストランの看板）を対象オブジェクトとして特定する。

オブジェクト特定部１４は、ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定する。視認できないオブジェクトを対象とした音声とは、ユーザが、視認できていないことを前提として発するであろうと想定される音声である。視認できないオブジェクトを対象とした音声とは、例えば、隠れている領域を示す音声（隠れて視認できていない場合に発せられると想定される音声）等である。隠れている領域を示す音声とは、例えば「後ろ」「背後」等である。

オブジェクト特定部１４は、ユーザ音声が、隠れている領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを対象オブジェクトとして特定する。オブジェクト特定部１４は、例えば、記憶部１２に記憶されているスマートグラス２の測位結果、現在向いている方向の情報、及び視認画像と、オブジェクト情報とに基づき、視認できていないオブジェクトを特定する。すなわち、オブジェクト特定部１４は、測位結果及び現在向いている方向の情報から位置及び方向の絞り込みを行うと共に、視認画像とオブジェクト情報のオブジェクトの画像とから、ジェスチャ領域に示されているオブジェクトを特定する。そして、オブジェクト特定部１４は、オブジェクト情報におけるオブジェクトが存在する位置情報に基づいて、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを特定し、該オブジェクトを対象オブジェクトとする。すなわち、例えば図５（ｂ）に示されるように、ジェスチャ領域ＨＪにオブジェクトである木Ｔｒが存在している場合において「後ろ」という、隠れている領域を示す音声が入力されている場合には、オブジェクト特定部１４は、ジェスチャ領域に示されている木Ｔｒの後ろに隠れているホテルの看板（図４（ｃ）参照）を対象オブジェクトとして特定する。

画像生成部１６は、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像を、視認画像に重畳した重畳画像を生成する。ユーザが選択し易いとは、ユーザがハンドジェスチャにより或いはユーザ音声により選択し易いことをいう。ユーザが選択し易い表示態様とは、具体的には、例えば十分な大きさで静止した状態で表示されていることをいう。

画像生成部１６は、対象オブジェクトである動的オブジェクトを停止させた選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部１６は、図３（ｃ）に示されるように、対象オブジェクトが動的オブジェクトである車ＣＡであると特定されている場合には、ジェスチャ領域ＨＪにおいて車ＣＡが停止している残像を描画した選択用画像Ｓｅｉを生成し、選択用画像Ｓｅｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成してもよい。画像生成部１６は、選択用画像Ｓｅｉを生成するに際しては、視認画像における車ＣＡから生成してもよいし、記憶部１２に記憶されているオブジェクト情報のオブジェクトの画像（車ＣＡの画像）から生成してもよい。図３（ｃ）に示されるように、車ＣＡは動的オブジェクトであるので、視認画像においては時間の経過と共に位置が変わるが、車ＣＡの残像を描画した選択用画像Ｓｅｉは一定の位置に重畳され続ける。

画像生成部１６は、対象オブジェクトであるユーザから離れているオブジェクトを拡大した選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部１６は、図４（ｃ）に示されるように、対象オブジェクトが遠く離れた看板ＢＩ（図４（ｂ）参照）であると特定されている場合には、ジェスチャ領域ＨＪにおいて看板ＢＩを拡大した選択用画像Ｓｅｉを生成し、選択用画像Ｓｅｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成してもよい。画像生成部１６は、記憶部１２に記憶されているオブジェクト情報のオブジェクトの画像（看板ＢＩの画像）を用いて選択用画像Ｓｅｉを生成する。

画像生成部１６は、対象オブジェクトである、視認できていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部１６は、図５（ｃ）に示されるように、対象オブジェクトが、木Ｔｒに隠れているホテルの看板であると特定されている場合には、当該ホテルの看板の情報を示す選択用画像Ｓｅｉを生成し、選択用画像Ｓｅｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成してもよい。画像生成部１６は、記憶部１２に記憶されているオブジェクト情報のオブジェクトの画像（ホテルの看板の画像）を用いて選択用画像Ｓｅｉを生成する。

表示内容決定部１５は、対象オブジェクトの選択用画像が出力された後における、ユーザからの情報（選択に係る情報）に基づいて、対象オブジェクトに係る表示内容を決定する。表示内容決定部１５は、対象オブジェクトの選択用画像が出力された後において、ジェスチャ特定部１３によって認識されたユーザのハンドジェスチャの種別に応じて、表示内容を決定してもよい。すなわち、表示内容決定部１５は、記憶部１２に記憶されている、ハンドジェスチャの種別とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、ジェスチャ特定部１３によって認識されたハンドジェスチャの種別に応じた上記詳細情報の項目を特定し、該詳細情報の項目を表示内容に決定してもよい。

表示内容決定部１５は、対象オブジェクトの選択用画像が出力された後において、音声認識サーバ５０によって認識されたユーザ音声に応じて、表示内容を決定してもよい。すなわち、表示内容決定部１５は、記憶部１２に記憶されている、ユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、新たに取得されたユーザ音声に応じたオブジェクトに係る詳細情報の項目を特定し、該詳細情報の項目を表示内容に決定してもよい。また、表示内容決定部１５は、記憶部１２に記憶されている情報と、認識されたハンドジェスチャ及びユーザ音声の組み合わせとに基づいて、表示内容を決定してもよい。

表示内容決定部１５は、例えば選択用画像がユーザのジェスチャ領域にある場合において、ユーザ音声に応じて表示内容を決定してもよい。図３（ｄ）に示される例では、ジェスチャ領域ＨＪに選択用画像Ｓｅｉがある状態において、「情報表示」とのユーザ音声が入力され、記憶部１２に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目（車の名称、車の価格、車のスペック（シート数）、車が説明されたＵＲＬ）が表示内容に決定される。そして、画像生成部１６が、選択用画像Ｓｅｉに加えて、表示内容決定部１５によって決定された表示内容Ｏｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成する。同様に、図４（ｄ）に示される例では、ジェスチャ領域ＨＪに選択用画像Ｓｅｉがある状態において、「情報表示」とのユーザ音声が入力され、記憶部１２に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目（レストランの名称、レストランの本日の営業時間、レストランの電話番号、レストランのＵＲＬ）が表示内容に決定される。そして、画像生成部１６が、選択用画像Ｓｅｉに加えて、表示内容決定部１５によって決定された表示内容Ｏｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成する。同様に、図５（ｄ）に示される例では、ジェスチャ領域ＨＪに選択用画像Ｓｅｉがある状態において、「情報表示」とのユーザ音声が入力され、記憶部１２に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目（ホテルの名称、本日の宿泊可否、宿泊料金、ホテルのＵＲＬ）が表示内容に決定される。そして、画像生成部１６が、選択用画像Ｓｅｉに加えて、表示内容決定部１５によって決定された表示内容Ｏｉを視認画像Ｖｉに重畳した重畳画像Ｓｉを生成する。

出力部１７は、重畳画像を出力する機能である。出力部１７は、重畳画像をスマートグラス２に出力（送信）する。

次に、本実施形態に係る情報処理システム１の処理を、図６を参照して説明する。図６は、情報処理システム１が行う処理を示すフローチャートである。

図６に示されるように、情報処理システム１では、最初に音声認識サーバ５０がユーザ音声を認識する（ステップＳ１）。つづいて、画像処理サーバ１０が、スマートグラス２から視認画像を取得すると共に、音声認識サーバ５０からユーザ音声を取得する（ステップＳ２）。

つづいて、画像処理サーバ１０が視認画像におけるジェスチャ領域を特定する（ステップＳ３）。つづいて、画像処理サーバ１０が、取得されたユーザ音声及びジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定する（ステップＳ４）。

つづいて、画像処理サーバ１０が、対象オブジェクトを選択し易い態様（拡大、停止等）とした選択用画像を視認画像に重畳した重畳画像を生成する（ステップＳ５）。最後に、画像処理サーバ１０が当該重畳画像を出力する（ステップＳ６）。これにより、ユーザは、選択され易い表示態様で表示された対象オブジェクトについて、容易に選択することができる。

次に、本実施形態に係る情報処理システム１の作用効果について説明する。

本実施形態に係る情報処理システム１は、ユーザが発した音声であるユーザ音声を認識する音声認識サーバ５０と、スマートグラス２において表示されてユーザに視認されている視認画像、及び、音声認識サーバ５０によって認識されたユーザ音声を取得する情報取得部１１と、視認画像においてユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部１３と、情報取得部１１によって取得されたユーザ音声、及び、ジェスチャ特定部１３によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定するオブジェクト特定部１４と、対象オブジェクトを、ユーザが選択し易い表示態様とした選択用画像を視認画像に重畳した重畳画像を生成する画像生成部１６と、重畳画像を出力する出力部１７と、有する画像処理サーバ１０と、を備える。

本実施形態に係る情報処理システム１では、ユーザ音声と視認画像におけるユーザのジェスチャ領域とに基づいて視認画像における対象オブジェクトが特定されている。ユーザが発するユーザ音声及びユーザのジェスチャ領域は、いずれもユーザの意思が反映された情報であると推定される。このため、ユーザ音声及びジェスチャ領域に基づいて対象オブジェクトが特定されることにより、ユーザが関心を示している可能性が高いオブジェクトが対象オブジェクトとして特定されることとなる。そして、本実施形態に係る情報処理システム１では、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像が、視認画像に重畳して出力される。このように、ユーザが関心を示していると考えられる対象オブジェクトが、ユーザに選択され易い表示態様とされて、視認画像と共に出力されることにより、ユーザがジェスチャ等によって選択しようとしている（選択する可能性が高い）オブジェクトを、ユーザに選択され易い表示態様で表示することができる。これにより、例えばユーザが情報を得るために選択しようとしているオブジェクトが選択しにくい状況（小さい、動いている等）である場合においても、当該オブジェクトがユーザに選択され易い表示態様で表示されるので、ユーザはジェスチャ等によって当該オブジェクトを容易に選択することができる。以上のように、本実施形態に係る情報処理システム１によれば、ユーザによる画像中のオブジェクト選択を容易化することができる。また、ユーザに選択される可能性が高いオブジェクトがユーザに選択され易い表示態様で表示されるため、ユーザによる選択操作が短期間で完了することとなり、例えばユーザによる選択誤り等が発生して選択処理が長期間行われる場合と比較して、システムの処理負荷を軽減することができる。

オブジェクト特定部１４は、ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されているオブジェクトを対象オブジェクトとして特定してもよい。認識されたユーザ音声が、視認できるオブジェクトに対してユーザが用いると推定される用語である場合には、ユーザが、視認できているオブジェクトに対して関心を示していると考えられる。このため、ユーザ音声が視認できるオブジェクトを対象とした音声である場合においてジェスチャ領域に示されているオブジェクトが対象オブジェクトとして特定されることにより、ユーザが関心を示している可能性が高いオブジェクトを対象オブジェクトとして特定し、適切なオブジェクトをユーザが選択し易い表示態様とすることができる。

オブジェクト特定部１４は、ユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、ジェスチャ領域に示されている動的オブジェクトを対象オブジェクトとして特定し、画像生成部１６は、対象オブジェクトである動的オブジェクトを停止させた選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、ユーザが、ジェスチャ領域に示されている動的オブジェクトに対して関心を示し、且つ、当該動的オブジェクトを停止させることにより当該動的オブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されている動的オブジェクトが対象オブジェクトとして特定され、動的オブジェクトを停止させた選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い動的オブジェクトをユーザが選択し易い状態で表示することができる。これにより、ユーザによる画像中の動的オブジェクトの選択を容易化することができる。

オブジェクト特定部１４は、ユーザ音声が、距離的に離れた領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトのうち比較的ユーザから離れているオブジェクトを対象オブジェクトとして特定し、画像生成部１６は、対象オブジェクトであるユーザから離れているオブジェクトを拡大した選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、距離的に離れた領域を示す音声である場合には、ユーザが、ジェスチャ領域に示されているオブジェクトのうち距離的に離れたオブジェクト（距離的に離れていることにより小さく表示されているオブジェクト）に対して関心を示し、且つ、当該距離的に離れたオブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されている距離的に離れたオブジェクトが対象オブジェクトとして特定され、当該オブジェクトを拡大した選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い、距離的に離れたオブジェクトをユーザが選択し易い状態で表示することができる。これにより、ユーザによる画像中の距離的に離れたオブジェクトの選択を容易化することができる。

オブジェクト特定部１４は、ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定してもよい。認識されたユーザ音声が、視認できないオブジェクトに対してユーザが用いると推定される用語である場合には、ユーザが、視認できていないオブジェクトに対して関心を示していると考えられる。このため、ユーザ音声が視認できないオブジェクトを対象とした音声である場合においてジェスチャ領域に示されていないオブジェクトが対象オブジェクトとして特定されることにより、ユーザが関心を示している可能性が高いオブジェクトを対象オブジェクトとして特定し、適切なオブジェクトをユーザが選択し易い表示態様とすることができる。

オブジェクト特定部１４は、ユーザ音声が、隠れている領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを対象オブジェクトとして特定し、画像生成部１６は、対象オブジェクトである視認できていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、隠れている領域を示す音声（例えば「後ろ」等）である場合には、ユーザが、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクト（隠れているオブジェクト）に対して関心を示し、且つ、当該隠れているオブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されているオブジェクトと重なることにより視認的できていないオブジェクトが対象オブジェクトとして特定され、当該視認できてきていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い、隠れているオブジェクトをユーザが選択可能な状態で表示することができる。これにより、ユーザによる画像中の隠れているオブジェクトの選択を容易化することができる。

情報処理システム１は、対象オブジェクトの選択用画像が出力された後における、ユーザからの情報に基づいて、対象オブジェクトに係る表示内容を決定する表示内容決定部１５を更に備え、画像生成部１６は、選択用画像に加えて、表示内容決定部１５により決定された表示内容を視認画像に重畳した重畳画像を生成してもよい。対象オブジェクトが選択され易い表示態様とされた選択用画像が出力された後において、ユーザからの情報に基づき対象オブジェクトに係る表示内容が決定され、該表示内容が視認画像等に重畳表示されることにより、ユーザによるオブジェクト選択が容易な状態において、ユーザからの情報に基づき対象オブジェクトの表示内容が決定されることになる。これにより、ユーザ所望の対象オブジェクトについての情報表示を容易且つ適切に行うことができる。

ジェスチャ特定部１３は、ユーザのジェスチャの種別を認識することを更に実行し、表示内容決定部１５は、対象オブジェクトの選択用画像が出力された後においてジェスチャ特定部１３によって認識されたユーザのジェスチャの種別に応じて、表示内容を決定してもよい。ユーザによるオブジェクト選択が容易な状態においてユーザのジェスチャの種別に応じて表示内容が決定されることにより、ユーザ所望の対象オブジェクトについての情報表示をジェスチャによって容易に行うことができる。

表示内容決定部１５は、対象オブジェクトの選択用画像が出力された後において音声認識サーバ５０によって認識されたユーザ音声に応じて、表示内容を決定してもよい。ユーザによるオブジェクト選択が容易な状態においてユーザ音声に応じて表示内容が決定されることにより、ユーザ所望の対象オブジェクトについての情報表示を、音声を利用してより確実に行うことができる。

最後に、情報処理システム１を構成する画像処理サーバ１０のハードウェア構成について、図７を参照して説明する。上述の画像処理サーバ１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。画像処理サーバ１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

画像処理サーバ１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、画像処理サーバ１０の情報取得部１１等の制御機能はプロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、画像処理サーバ１０の情報取得部１１等の制御機能は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、画像処理サーバ１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broad-band）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-Wide Band）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。

本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)（例えば、テーブル、データベースまたは別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

１…情報処理システム、２…スマートグラス（端末）、１１…情報取得部、１３…ジェスチャ特定部、１４…オブジェクト特定部、１５…表示内容決定部、１６…画像生成部、１７…出力部、５０…音声認識サーバ（音声認識部）。

Claims

ユーザが発した音声であるユーザ音声を認識する音声認識部と、
前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
前記重畳画像を出力する出力部と、を備え、
前記オブジェクト特定部は、前記ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されているオブジェクトを前記対象オブジェクトとして特定し、
前記オブジェクト特定部は、前記ユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、前記ジェスチャ領域に示されている動的オブジェクトを前記対象オブジェクトとして特定し、
前記画像生成部は、前記対象オブジェクトである前記動的オブジェクトを停止させた前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、情報処理システム。
ユーザが発した音声であるユーザ音声を認識する音声認識部と、
前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
前記重畳画像を出力する出力部と、を備え、
前記オブジェクト特定部は、前記ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されているオブジェクトを前記対象オブジェクトとして特定し、
前記オブジェクト特定部は、前記ユーザ音声が、距離的に離れた領域を示す音声である場合には、前記ジェスチャ領域に示されているオブジェクトのうち比較的前記ユーザから離れているオブジェクトを前記対象オブジェクトとして特定し、
前記画像生成部は、前記対象オブジェクトである前記ユーザから離れているオブジェクトを拡大した前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、情報処理システム。
前記オブジェクト特定部は、前記ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定する、請求項１記載の情報処理システム。
前記オブジェクト特定部は、前記ユーザ音声が、隠れている領域を示す音声である場合には、前記ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを前記対象オブジェクトとして特定し、
前記画像生成部は、前記対象オブジェクトである前記視認できていないオブジェクトの、前記ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、請求項３記載の情報処理システム。
ユーザが発した音声であるユーザ音声を認識する音声認識部と、
前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
前記重畳画像を出力する出力部と、を備え、
前記対象オブジェクトの前記選択用画像が出力された後における、前記ユーザからの情報に基づいて、前記対象オブジェクトに係る表示内容を決定する表示内容決定部を更に備え、
前記画像生成部は、前記選択用画像に加えて、前記表示内容決定部により決定された表示内容を前記視認画像に重畳した前記重畳画像を生成し、
前記表示内容決定部は、前記対象オブジェクトの前記選択用画像が出力された後において前記音声認識部によって認識された前記ユーザ音声に応じて、前記表示内容を決定する、情報処理システム。
前記ジェスチャ特定部は、前記ユーザのジェスチャの種別を認識することを更に実行し、
前記表示内容決定部は、前記対象オブジェクトの前記選択用画像が出力された後において前記ジェスチャ特定部によって認識された前記ユーザのジェスチャの種別に応じて、前記表示内容を決定する、請求項５記載の情報処理システム。