JP7373068B2 - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
JP7373068B2
JP7373068B2 JP2022524333A JP2022524333A JP7373068B2 JP 7373068 B2 JP7373068 B2 JP 7373068B2 JP 2022524333 A JP2022524333 A JP 2022524333A JP 2022524333 A JP2022524333 A JP 2022524333A JP 7373068 B2 JP7373068 B2 JP 7373068B2
Authority
JP
Japan
Prior art keywords
user
image
unit
voice
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022524333A
Other languages
English (en)
Other versions
JPWO2021235147A1 (ja
Inventor
貴則 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2021235147A1 publication Critical patent/JPWO2021235147A1/ja
Application granted granted Critical
Publication of JP7373068B2 publication Critical patent/JP7373068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の一態様は、情報処理システムに関する。
ユーザに装着されたスマートグラス等のデバイスに表示されている画像中のオブジェクトについて、当該ユーザのハンドジェスチャによる操作を受付け、該ハンドジェスチャに応じて、オブジェクトに係る情報表示を行う技術が知られている(例えば特許文献1参照)。
特開2013-54661号公報
ここで、上述したような技術において、ユーザが情報を表示したいオブジェクトについて、例えば画像中に占める領域が小さい場合や、動的なオブジェクトである場合等においては、ハンドジェスチャによる選択が困難になることがある。すなわち、従来の技術では、スマートグラス等のデバイスに表示されている画像中のオブジェクトに対するハンドジェスチャ等による選択操作が困難となる場合がある。
本発明の一態様は上記実情に鑑みてなされたものであり、ユーザによる画像中のオブジェクト選択を容易化することを目的とする。
本発明の一態様に係る情報処理システムは、ユーザが発した音声であるユーザ音声を認識する音声認識部と、ユーザに装着された端末において表示されてユーザに視認されている視認画像、及び、音声認識部によって認識されたユーザ音声を取得する情報取得部と、視認画像においてユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、情報取得部によって取得されたユーザ音声、及び、ジェスチャ特定部によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定するオブジェクト特定部と、対象オブジェクトを、ユーザが選択し易い表示態様とした選択用画像を視認画像に重畳した重畳画像を生成する画像生成部と、重畳画像を出力する出力部と、を備える。
本発明の一態様に係る情報処理システムでは、ユーザ音声と視認画像におけるユーザのジェスチャ領域とに基づいて視認画像における対象オブジェクトが特定されている。ユーザが発するユーザ音声及びユーザのジェスチャ領域は、いずれもユーザの意思が反映された情報であると推定される。このため、ユーザ音声及びジェスチャ領域に基づいて対象オブジェクトが特定されることにより、ユーザが関心を示している可能性が高いオブジェクトが対象オブジェクトとして特定されることとなる。そして、本発明の一態様に係る情報処理システムでは、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像が、視認画像に重畳して出力される。このように、ユーザが関心を示していると考えられる対象オブジェクトが、ユーザに選択され易い表示態様とされて、視認画像と共に出力されることにより、ユーザがジェスチャ等によって選択しようとしている(選択する可能性が高い)オブジェクトを、ユーザに選択され易い表示態様で表示することができる。これにより、例えばユーザが情報を得るために選択しようとしているオブジェクトが選択しにくい状況(小さい、動いている等)である場合においても、当該オブジェクトがユーザに選択され易い表示態様で表示されるので、ユーザはジェスチャ等によって当該オブジェクトを容易に選択することができる。以上のように、本発明の一態様に係る情報処理システムによれば、ユーザによる画像中のオブジェクト選択を容易化することができる。
本発明の一態様によれば、ユーザによる画像中のオブジェクト選択を容易化することができる。
本実施形態に係る情報処理システムの概要を説明する図である。 図1の情報処理システムに含まれる画像処理サーバの機能構成を示すブロック図である。 情報処理システムによる情報表示の一例を説明する図である。 情報処理システムによる情報表示の一例を説明する図である。 情報処理システムによる情報表示の一例を説明する図である。 情報処理システムが行う処理を示すフローチャートである。 情報処理システムに含まれる画像処理サーバのハードウェア構成を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
図1は、本実施形態に係る情報処理システム1の概要を説明する図である。図1に示されるように、情報処理システム1は、スマートグラス2(ユーザに装着された端末)と、画像処理サーバ10と、音声認識サーバ50(音声認識部)と、を備えている。情報処理システム1では、スマートグラス2と、画像処理サーバ10と、音声認識サーバ50とが相互に通信可能に構成されている。情報処理システム1では、スマートグラス2を介してユーザに視認されている視認画像に関するユーザ音声及びユーザのハンドジェスチャに基づいて、視認画像においてユーザが更なる情報を要望している対象オブジェクトが特定され、該対象オブジェクトがユーザ選択し易い態様の選択用画像とされて、視認画像に重畳表示される。そして、情報処理システム1では、対象オブジェクトが選択し易い態様の選択用画像で表示された重畳画像において、対象オブジェクトに対するユーザの選択操作が受け付けられることにより、対象オブジェクトに対するユーザの選択操作の容易化を実現している。
スマートグラス2は、ユーザに装着されるゴーグル型のウェアラブル機器であり、無線通信を行うように構成された端末である。スマートグラス2は、ユーザに視認される視認画像を表示可能に構成されている。スマートグラス2は、撮像機能を有しており、例えば、撮像した画像(撮像画像)を上述した視認画像としてリアルタイムに表示する。なお、スマートグラス2は、撮像画像以外の画像を視認画像として表示するものであってもよい。以下では、スマートグラス2が撮像画像を視認画像として表示するとして説明する。スマートグラス2は、画像処理サーバ10から、視認画像に画像処理サーバ10において生成された画像を重畳した重畳画像を受信し、該重畳画像を表示する。
スマートグラス2は、自身で又は他のサーバ(不図示)と通信を行うことによって、測位を行うものであってもよい。以下では、スマートグラス2が測位を行うとして説明する。スマートグラス2の測位方法は、限定されず、GPS(Global Positioning System)測位であってもよいし、基地局測位であってもよいし、撮像した画像と他のサーバ(不図示)において記憶されているマップデータとを突合させて行う測位であってもよい。また、スマートグラス2は、例えば方向を検知するセンサを有しており、該センサによりスマートグラス2が現在向いている方向を取得してもよい。スマートグラス2は、ユーザが視認している視認画像(撮像画像)と、測位結果及び現在向いている方向とを、継続的に画像処理サーバ10に送信する。
スマートグラス2は、ユーザが発した音声であるユーザ音声を取得する機能を有している。スマートグラス2は、取得したユーザ音声を音声認識サーバ50に送信する。なお、本実施形態ではスマートグラス2がユーザ音声を取得するとして説明するが、例えばユーザが保持する他の端末によってユーザ音声が取得され、該他の端末から音声認識サーバ50にユーザ音声が送信されてもよい。
音声認識サーバ50は、ユーザ音声を認識する音声認識部として機能する。音声認識サーバ50は、単にユーザ音声を文字列に変換する機能を有していればよく、ユーザ音声に基づくユーザの識別等の機能を有していなくてもよい。音声認識サーバ50は、周知の音声認識技術を利用してもよい。音声認識サーバ50は、音声認識結果(すなわち、ユーザ音声を文字列に変換した情報)を画像処理サーバ10に送信する。なお、本実施形態では、画像処理サーバ10が音声認識サーバ50より音声認識結果を取得するとして説明するが、例えば、画像処理サーバ10がユーザ音声を認識する音声認識部として機能してもよい。
画像処理サーバ10は、スマートグラス2及び音声認識サーバ50から取得した情報に基づき所定の画像処理を行うサーバである。以下、画像処理サーバ10の詳細な機能について、図2を参照して説明する。
図2は、図1の情報処理システム1に含まれる画像処理サーバ10の機能構成を示すブロック図である。図2に示されるように、画像処理サーバ10は、機能構成として、情報取得部11と、記憶部12と、ジェスチャ特定部13と、オブジェクト特定部14と、表示内容決定部15と、画像生成部16と、出力部17と、を備えている。
情報取得部11は、スマートグラス2において表示されてユーザに視認されている視認画像をスマートグラス2から取得すると共に、音声認識サーバ50によって認識されたユーザ音声(詳細には音声認識結果である文字列の情報)を音声認識サーバ50から取得する。また、情報取得部11は、スマートグラス2における測位結果及び現在向いている方向の情報を取得する。情報取得部11は、継続的に、視認画像及びユーザ音声認識結果等を取得する。情報取得部11は、取得した情報を記憶部12に格納する。
記憶部12は、情報取得部11によって格納された情報、すなわち、視認画像、ユーザ音声認識結果、スマートグラス2の測位結果及び現在向いている方向の情報等を記憶するデータベースである。また、記憶部12は、複数のオブジェクトに係るオブジェクト情報を記憶している。オブジェクト情報とは、現実空間に存在する物体の情報である。オブジェクト情報では、例えば、オブジェクトを一意に特定する情報(オブジェクトID)と、オブジェクトの種別を特定する情報(オブジェクト種別)と、オブジェクトが存在する位置情報と、オブジェクトの画像と、オブジェクトに係る詳細情報と、が対応付けて記憶されている。なお、オブジェクト情報では、上述した情報の一部だけが対応付けて記憶されていてもよい。すなわち、例えば、オブジェクトの種別を特定する情報(オブジェクト種別)、オブジェクトの画像、及びオブジェクトに係る詳細情報のみが対応付けて記憶されていてもよい。
オブジェクトに係る詳細情報とは、例えばオブジェクトの内容に関する情報であり、例えばオブジェクトが店の看板である場合には、当該店の営業時間、店で販売する商品・サービスの料金、店の電話番号、店のURL等である。また、オブジェクトが商品そのものである場合には、オブジェクトに係る詳細情報とは、例えば当該商品の料金、当該商品の価格、当該商品のスペック、当該商品が説明されたURL等である。オブジェクトに係る詳細情報の各項目は、ハンドジェスチャ又はユーザ音声と紐づけられていてもよい。すなわち、例えば、オブジェクトが店の看板である場合において、拳を握りしめたハンドジェスチャに対して店自体の情報(店の営業時間、店の電話番号等)が紐づけられ、拳を開いたハンドジェスチャに対して店の商品の情報(商品の価格、商品のスペック等)が紐づけられる、というように、ハンドジェスチャの種別と詳細情報の項目とが紐づけられていてもよい。また、例えば、オブジェクトが店の看板である場合において、「店」を含んだユーザ音声に対して店自体の情報(店の営業時間、店の電話番号等)が紐づけられ、「(商品名)」を含んだユーザ音声に対して店の商品の情報(商品の価格、商品のスペック等)が紐づけられ、「情報表示」とのユーザ音声に対して全ての詳細情報の項目が紐づけられる、というように、ユーザ音声の種別と詳細情報の項目とが紐づけられていてもよい。また、ハンドジェスチャの種別及びユーザ音声の種別の組み合わせと、詳細情報の項目とが紐づけられていてもよい。なお、記憶部12は、オブジェクト情報として仮想空間に存在する物体の情報を記憶していてもよい。
ジェスチャ特定部13は、情報取得部11によって取得されて記憶部12に記憶されている視認画像において、ユーザのハンドジェスチャが示されたジェスチャ領域を特定する。ジェスチャ特定部13は、例えば従来から周知の画像認識技術を利用することにより、ユーザの手が写っている領域を抽出し、該領域をジェスチャ領域として特定する。ジェスチャ領域を特定する処理においては、ジェスチャ特定部13は、単にユーザの手が写っている領域であるジェスチャ領域を特定できればよく、ハンドジェスチャの種別(例えば拳を握りしめているか、拳を開いているか等)までは特定しなくてもよい。なお、ジェスチャ特定部13は、ジェスチャ領域を特定する処理においてもハンドジェスチャの種別を特定し、所定のハンドジェスチャの場合にのみジェスチャ領域を特定してもよい。
また、ジェスチャ特定部13は、対象オブジェクトが特定されて対象オブジェクトの選択用画像が重畳表示されている状態(詳細は後述)においては、ユーザのハンドジェスチャの種別を認識することを更に実行してもよい。
オブジェクト特定部14は、情報取得部11によって取得されて記憶部12に記憶されているユーザ音声、及び、ジェスチャ特定部13によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定する。対象オブジェクトとは、選択用画像(詳細は後述)においてユーザが選択し易い表示態様で表示されるオブジェクトである。
オブジェクト特定部14は、ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されているオブジェクトを対象オブジェクトとして特定する。視認できるオブジェクトを対象とした音声とは、ユーザが、視認していることを前提として発するであろうと想定される音声である。視認できるオブジェクトを対象とした音声とは、例えば、動的オブジェクトの停止を要求する音声(視認できている動的オブジェクトを停止させるために発せられると想定される音声)、距離的に離れた領域を示す音声(視認できているものの表示が小さいオブジェクトに関して発せられると想定される音声)等である。動的オブジェクトとは、動いているオブジェクトであり、例えば車、自転車等である。動的オブジェクトの停止を要求する音声とは、例えば「ストップ」「止めて」等である。距離的に離れた領域を示す音声とは、例えば「遠く」「離れている」等である。
オブジェクト特定部14は、ユーザ音声が、視認できるオブジェクトを対象とした音声であって、動的オブジェクトの停止を要求する音声である場合には、ジェスチャ領域に示されている動的オブジェクトを対象オブジェクトとして特定する。すなわち、例えば図3(b)に示されるように、ジェスチャ領域HJ(ユーザの手が写っている領域)に動的オブジェクトである車CAが示されている状態において、「ストップ」という動的オブジェクトの停止を要求する音声が入力されている場合には、オブジェクト特定部14は、ジェスチャ領域HJに示されている動的オブジェクトである車CAを対象オブジェクトとして特定する。
オブジェクト特定部14は、ユーザ音声が、距離的に離れた領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトのうち比較的ユーザから離れているオブジェクトを対象オブジェクトとして特定する。「比較的ユーザから離れているオブジェクト」とは、例えば、ジェスチャ領域に示されているオブジェクトが5つある場合にはその中で最もユーザから離れているオブジェクトである。ジェスチャ領域に示されている各オブジェクトの位置情報は、例えば、記憶部12に記憶されているスマートグラス2の測位結果、現在向いている方向の情報、及び視認画像と、オブジェクト情報とに基づき導出される。すなわち、オブジェクト特定部14は、測位結果及び現在向いている方向の情報から位置及び方向の絞り込みを行うと共に、視認画像とオブジェクト情報のオブジェクトの画像とから、ジェスチャ領域に示されているオブジェクトを特定し、オブジェクト情報におけるオブジェクトが存在する位置情報に基づいて、ジェスチャ領域に示されている各オブジェクトの位置情報を特定する。そして、オブジェクト特定部14は、ジェスチャ領域に示されている各オブジェクトの位置を比較し、例えば最もユーザから離れているオブジェクトを対象オブジェクトとして特定する。すなわち、例えば図4(b)に示されるように、ジェスチャ領域HJ(ユーザの手が写っている領域)に複数のオブジェクトが示されている状態において、「遠く」という距離的に離れた領域を示す音声が入力されている場合には、オブジェクト特定部14は、ジェスチャ領域に示されているオブジェクトのうち最もユーザから離れているオブジェクトである看板BI(イタリアンレストランの看板)を対象オブジェクトとして特定する。
オブジェクト特定部14は、ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定する。視認できないオブジェクトを対象とした音声とは、ユーザが、視認できていないことを前提として発するであろうと想定される音声である。視認できないオブジェクトを対象とした音声とは、例えば、隠れている領域を示す音声(隠れて視認できていない場合に発せられると想定される音声)等である。隠れている領域を示す音声とは、例えば「後ろ」「背後」等である。
オブジェクト特定部14は、ユーザ音声が、隠れている領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを対象オブジェクトとして特定する。オブジェクト特定部14は、例えば、記憶部12に記憶されているスマートグラス2の測位結果、現在向いている方向の情報、及び視認画像と、オブジェクト情報とに基づき、視認できていないオブジェクトを特定する。すなわち、オブジェクト特定部14は、測位結果及び現在向いている方向の情報から位置及び方向の絞り込みを行うと共に、視認画像とオブジェクト情報のオブジェクトの画像とから、ジェスチャ領域に示されているオブジェクトを特定する。そして、オブジェクト特定部14は、オブジェクト情報におけるオブジェクトが存在する位置情報に基づいて、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを特定し、該オブジェクトを対象オブジェクトとする。すなわち、例えば図5(b)に示されるように、ジェスチャ領域HJにオブジェクトである木Trが存在している場合において「後ろ」という、隠れている領域を示す音声が入力されている場合には、オブジェクト特定部14は、ジェスチャ領域に示されている木Trの後ろに隠れているホテルの看板(図4(c)参照)を対象オブジェクトとして特定する。
画像生成部16は、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像を、視認画像に重畳した重畳画像を生成する。ユーザが選択し易いとは、ユーザがハンドジェスチャにより或いはユーザ音声により選択し易いことをいう。ユーザが選択し易い表示態様とは、具体的には、例えば十分な大きさで静止した状態で表示されていることをいう。
画像生成部16は、対象オブジェクトである動的オブジェクトを停止させた選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部16は、図3(c)に示されるように、対象オブジェクトが動的オブジェクトである車CAであると特定されている場合には、ジェスチャ領域HJにおいて車CAが停止している残像を描画した選択用画像Seiを生成し、選択用画像Seiを視認画像Viに重畳した重畳画像Siを生成してもよい。画像生成部16は、選択用画像Seiを生成するに際しては、視認画像における車CAから生成してもよいし、記憶部12に記憶されているオブジェクト情報のオブジェクトの画像(車CAの画像)から生成してもよい。図3(c)に示されるように、車CAは動的オブジェクトであるので、視認画像においては時間の経過と共に位置が変わるが、車CAの残像を描画した選択用画像Seiは一定の位置に重畳され続ける。
画像生成部16は、対象オブジェクトであるユーザから離れているオブジェクトを拡大した選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部16は、図4(c)に示されるように、対象オブジェクトが遠く離れた看板BI(図4(b)参照)であると特定されている場合には、ジェスチャ領域HJにおいて看板BIを拡大した選択用画像Seiを生成し、選択用画像Seiを視認画像Viに重畳した重畳画像Siを生成してもよい。画像生成部16は、記憶部12に記憶されているオブジェクト情報のオブジェクトの画像(看板BIの画像)を用いて選択用画像Seiを生成する。
画像生成部16は、対象オブジェクトである、視認できていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像を視認画像に重畳した重畳画像を生成してもよい。すなわち、画像生成部16は、図5(c)に示されるように、対象オブジェクトが、木Trに隠れているホテルの看板であると特定されている場合には、当該ホテルの看板の情報を示す選択用画像Seiを生成し、選択用画像Seiを視認画像Viに重畳した重畳画像Siを生成してもよい。画像生成部16は、記憶部12に記憶されているオブジェクト情報のオブジェクトの画像(ホテルの看板の画像)を用いて選択用画像Seiを生成する。
表示内容決定部15は、対象オブジェクトの選択用画像が出力された後における、ユーザからの情報(選択に係る情報)に基づいて、対象オブジェクトに係る表示内容を決定する。表示内容決定部15は、対象オブジェクトの選択用画像が出力された後において、ジェスチャ特定部13によって認識されたユーザのハンドジェスチャの種別に応じて、表示内容を決定してもよい。すなわち、表示内容決定部15は、記憶部12に記憶されている、ハンドジェスチャの種別とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、ジェスチャ特定部13によって認識されたハンドジェスチャの種別に応じた上記詳細情報の項目を特定し、該詳細情報の項目を表示内容に決定してもよい。
表示内容決定部15は、対象オブジェクトの選択用画像が出力された後において、音声認識サーバ50によって認識されたユーザ音声に応じて、表示内容を決定してもよい。すなわち、表示内容決定部15は、記憶部12に記憶されている、ユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、新たに取得されたユーザ音声に応じたオブジェクトに係る詳細情報の項目を特定し、該詳細情報の項目を表示内容に決定してもよい。また、表示内容決定部15は、記憶部12に記憶されている情報と、認識されたハンドジェスチャ及びユーザ音声の組み合わせとに基づいて、表示内容を決定してもよい。
表示内容決定部15は、例えば選択用画像がユーザのジェスチャ領域にある場合において、ユーザ音声に応じて表示内容を決定してもよい。図3(d)に示される例では、ジェスチャ領域HJに選択用画像Seiがある状態において、「情報表示」とのユーザ音声が入力され、記憶部12に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目(車の名称、車の価格、車のスペック(シート数)、車が説明されたURL)が表示内容に決定される。そして、画像生成部16が、選択用画像Seiに加えて、表示内容決定部15によって決定された表示内容Oiを視認画像Viに重畳した重畳画像Siを生成する。同様に、図4(d)に示される例では、ジェスチャ領域HJに選択用画像Seiがある状態において、「情報表示」とのユーザ音声が入力され、記憶部12に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目(レストランの名称、レストランの本日の営業時間、レストランの電話番号、レストランのURL)が表示内容に決定される。そして、画像生成部16が、選択用画像Seiに加えて、表示内容決定部15によって決定された表示内容Oiを視認画像Viに重畳した重畳画像Siを生成する。同様に、図5(d)に示される例では、ジェスチャ領域HJに選択用画像Seiがある状態において、「情報表示」とのユーザ音声が入力され、記憶部12に記憶されているユーザ音声とオブジェクトに係る詳細情報の項目とが紐づけられている情報に基づき、「情報表示」とのユーザ音声に対応する詳細情報の項目(ホテルの名称、本日の宿泊可否、宿泊料金、ホテルのURL)が表示内容に決定される。そして、画像生成部16が、選択用画像Seiに加えて、表示内容決定部15によって決定された表示内容Oiを視認画像Viに重畳した重畳画像Siを生成する。
出力部17は、重畳画像を出力する機能である。出力部17は、重畳画像をスマートグラス2に出力(送信)する。
次に、本実施形態に係る情報処理システム1の処理を、図6を参照して説明する。図6は、情報処理システム1が行う処理を示すフローチャートである。
図6に示されるように、情報処理システム1では、最初に音声認識サーバ50がユーザ音声を認識する(ステップS1)。つづいて、画像処理サーバ10が、スマートグラス2から視認画像を取得すると共に、音声認識サーバ50からユーザ音声を取得する(ステップS2)。
つづいて、画像処理サーバ10が視認画像におけるジェスチャ領域を特定する(ステップS3)。つづいて、画像処理サーバ10が、取得されたユーザ音声及びジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定する(ステップS4)。
つづいて、画像処理サーバ10が、対象オブジェクトを選択し易い態様(拡大、停止等)とした選択用画像を視認画像に重畳した重畳画像を生成する(ステップS5)。最後に、画像処理サーバ10が当該重畳画像を出力する(ステップS6)。これにより、ユーザは、選択され易い表示態様で表示された対象オブジェクトについて、容易に選択することができる。
次に、本実施形態に係る情報処理システム1の作用効果について説明する。
本実施形態に係る情報処理システム1は、ユーザが発した音声であるユーザ音声を認識する音声認識サーバ50と、スマートグラス2において表示されてユーザに視認されている視認画像、及び、音声認識サーバ50によって認識されたユーザ音声を取得する情報取得部11と、視認画像においてユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部13と、情報取得部11によって取得されたユーザ音声、及び、ジェスチャ特定部13によって特定されたジェスチャ領域の情報に基づいて、視認画像における対象オブジェクトを特定するオブジェクト特定部14と、対象オブジェクトを、ユーザが選択し易い表示態様とした選択用画像を視認画像に重畳した重畳画像を生成する画像生成部16と、重畳画像を出力する出力部17と、有する画像処理サーバ10と、を備える。
本実施形態に係る情報処理システム1では、ユーザ音声と視認画像におけるユーザのジェスチャ領域とに基づいて視認画像における対象オブジェクトが特定されている。ユーザが発するユーザ音声及びユーザのジェスチャ領域は、いずれもユーザの意思が反映された情報であると推定される。このため、ユーザ音声及びジェスチャ領域に基づいて対象オブジェクトが特定されることにより、ユーザが関心を示している可能性が高いオブジェクトが対象オブジェクトとして特定されることとなる。そして、本実施形態に係る情報処理システム1では、対象オブジェクトをユーザが選択し易い表示態様とした選択用画像が、視認画像に重畳して出力される。このように、ユーザが関心を示していると考えられる対象オブジェクトが、ユーザに選択され易い表示態様とされて、視認画像と共に出力されることにより、ユーザがジェスチャ等によって選択しようとしている(選択する可能性が高い)オブジェクトを、ユーザに選択され易い表示態様で表示することができる。これにより、例えばユーザが情報を得るために選択しようとしているオブジェクトが選択しにくい状況(小さい、動いている等)である場合においても、当該オブジェクトがユーザに選択され易い表示態様で表示されるので、ユーザはジェスチャ等によって当該オブジェクトを容易に選択することができる。以上のように、本実施形態に係る情報処理システム1によれば、ユーザによる画像中のオブジェクト選択を容易化することができる。また、ユーザに選択される可能性が高いオブジェクトがユーザに選択され易い表示態様で表示されるため、ユーザによる選択操作が短期間で完了することとなり、例えばユーザによる選択誤り等が発生して選択処理が長期間行われる場合と比較して、システムの処理負荷を軽減することができる。
オブジェクト特定部14は、ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されているオブジェクトを対象オブジェクトとして特定してもよい。認識されたユーザ音声が、視認できるオブジェクトに対してユーザが用いると推定される用語である場合には、ユーザが、視認できているオブジェクトに対して関心を示していると考えられる。このため、ユーザ音声が視認できるオブジェクトを対象とした音声である場合においてジェスチャ領域に示されているオブジェクトが対象オブジェクトとして特定されることにより、ユーザが関心を示している可能性が高いオブジェクトを対象オブジェクトとして特定し、適切なオブジェクトをユーザが選択し易い表示態様とすることができる。
オブジェクト特定部14は、ユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、ジェスチャ領域に示されている動的オブジェクトを対象オブジェクトとして特定し、画像生成部16は、対象オブジェクトである動的オブジェクトを停止させた選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、ユーザが、ジェスチャ領域に示されている動的オブジェクトに対して関心を示し、且つ、当該動的オブジェクトを停止させることにより当該動的オブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されている動的オブジェクトが対象オブジェクトとして特定され、動的オブジェクトを停止させた選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い動的オブジェクトをユーザが選択し易い状態で表示することができる。これにより、ユーザによる画像中の動的オブジェクトの選択を容易化することができる。
オブジェクト特定部14は、ユーザ音声が、距離的に離れた領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトのうち比較的ユーザから離れているオブジェクトを対象オブジェクトとして特定し、画像生成部16は、対象オブジェクトであるユーザから離れているオブジェクトを拡大した選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、距離的に離れた領域を示す音声である場合には、ユーザが、ジェスチャ領域に示されているオブジェクトのうち距離的に離れたオブジェクト(距離的に離れていることにより小さく表示されているオブジェクト)に対して関心を示し、且つ、当該距離的に離れたオブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されている距離的に離れたオブジェクトが対象オブジェクトとして特定され、当該オブジェクトを拡大した選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い、距離的に離れたオブジェクトをユーザが選択し易い状態で表示することができる。これにより、ユーザによる画像中の距離的に離れたオブジェクトの選択を容易化することができる。
オブジェクト特定部14は、ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定してもよい。認識されたユーザ音声が、視認できないオブジェクトに対してユーザが用いると推定される用語である場合には、ユーザが、視認できていないオブジェクトに対して関心を示していると考えられる。このため、ユーザ音声が視認できないオブジェクトを対象とした音声である場合においてジェスチャ領域に示されていないオブジェクトが対象オブジェクトとして特定されることにより、ユーザが関心を示している可能性が高いオブジェクトを対象オブジェクトとして特定し、適切なオブジェクトをユーザが選択し易い表示態様とすることができる。
オブジェクト特定部14は、ユーザ音声が、隠れている領域を示す音声である場合には、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを対象オブジェクトとして特定し、画像生成部16は、対象オブジェクトである視認できていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像を視認画像に重畳した重畳画像を生成してもよい。認識されたユーザ音声が、隠れている領域を示す音声(例えば「後ろ」等)である場合には、ユーザが、ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクト(隠れているオブジェクト)に対して関心を示し、且つ、当該隠れているオブジェクトを選択したいと考えていると推定される。このため、ジェスチャ領域に示されているオブジェクトと重なることにより視認的できていないオブジェクトが対象オブジェクトとして特定され、当該視認できてきていないオブジェクトの、ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す選択用画像が視認画像に重畳されることにより、ユーザが関心を示している可能性が高い、隠れているオブジェクトをユーザが選択可能な状態で表示することができる。これにより、ユーザによる画像中の隠れているオブジェクトの選択を容易化することができる。
情報処理システム1は、対象オブジェクトの選択用画像が出力された後における、ユーザからの情報に基づいて、対象オブジェクトに係る表示内容を決定する表示内容決定部15を更に備え、画像生成部16は、選択用画像に加えて、表示内容決定部15により決定された表示内容を視認画像に重畳した重畳画像を生成してもよい。対象オブジェクトが選択され易い表示態様とされた選択用画像が出力された後において、ユーザからの情報に基づき対象オブジェクトに係る表示内容が決定され、該表示内容が視認画像等に重畳表示されることにより、ユーザによるオブジェクト選択が容易な状態において、ユーザからの情報に基づき対象オブジェクトの表示内容が決定されることになる。これにより、ユーザ所望の対象オブジェクトについての情報表示を容易且つ適切に行うことができる。
ジェスチャ特定部13は、ユーザのジェスチャの種別を認識することを更に実行し、表示内容決定部15は、対象オブジェクトの選択用画像が出力された後においてジェスチャ特定部13によって認識されたユーザのジェスチャの種別に応じて、表示内容を決定してもよい。ユーザによるオブジェクト選択が容易な状態においてユーザのジェスチャの種別に応じて表示内容が決定されることにより、ユーザ所望の対象オブジェクトについての情報表示をジェスチャによって容易に行うことができる。
表示内容決定部15は、対象オブジェクトの選択用画像が出力された後において音声認識サーバ50によって認識されたユーザ音声に応じて、表示内容を決定してもよい。ユーザによるオブジェクト選択が容易な状態においてユーザ音声に応じて表示内容が決定されることにより、ユーザ所望の対象オブジェクトについての情報表示を、音声を利用してより確実に行うことができる。
最後に、情報処理システム1を構成する画像処理サーバ10のハードウェア構成について、図7を参照して説明する。上述の画像処理サーバ10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。画像処理サーバ10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
画像処理サーバ10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、画像処理サーバ10の情報取得部11等の制御機能はプロセッサ1001で実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、画像処理サーバ10の情報取得部11等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、画像処理サーバ10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
1…情報処理システム、2…スマートグラス(端末)、11…情報取得部、13…ジェスチャ特定部、14…オブジェクト特定部、15…表示内容決定部、16…画像生成部、17…出力部、50…音声認識サーバ(音声認識部)。

Claims (6)

  1. ユーザが発した音声であるユーザ音声を認識する音声認識部と、
    前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
    前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
    前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
    前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
    前記重畳画像を出力する出力部と、を備え、
    前記オブジェクト特定部は、前記ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されているオブジェクトを前記対象オブジェクトとして特定し、
    前記オブジェクト特定部は、前記ユーザ音声が、動的オブジェクトの停止を要求する音声である場合には、前記ジェスチャ領域に示されている動的オブジェクトを前記対象オブジェクトとして特定し、
    前記画像生成部は、前記対象オブジェクトである前記動的オブジェクトを停止させた前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、報処理システム。
  2. ユーザが発した音声であるユーザ音声を認識する音声認識部と、
    前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
    前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
    前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
    前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
    前記重畳画像を出力する出力部と、を備え、
    前記オブジェクト特定部は、前記ユーザ音声が、視認できるオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されているオブジェクトを前記対象オブジェクトとして特定し、
    前記オブジェクト特定部は、前記ユーザ音声が、距離的に離れた領域を示す音声である場合には、前記ジェスチャ領域に示されているオブジェクトのうち比較的前記ユーザから離れているオブジェクトを前記対象オブジェクトとして特定し、
    前記画像生成部は、前記対象オブジェクトである前記ユーザから離れているオブジェクトを拡大した前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、報処理システム。
  3. 前記オブジェクト特定部は、前記ユーザ音声が、視認できないオブジェクトを対象とした音声である場合には、前記ジェスチャ領域に示されていないオブジェクトを対象オブジェクトとして特定する、請求項1記載の情報処理システム。
  4. 前記オブジェクト特定部は、前記ユーザ音声が、隠れている領域を示す音声である場合には、前記ジェスチャ領域に示されているオブジェクトと重なることによって視認できていないオブジェクトを前記対象オブジェクトとして特定し、
    前記画像生成部は、前記対象オブジェクトである前記視認できていないオブジェクトの、前記ジェスチャ領域に示されているオブジェクトと重なっている部分の情報を示す前記選択用画像を前記視認画像に重畳した前記重畳画像を生成する、請求項記載の情報処理システム。
  5. ユーザが発した音声であるユーザ音声を認識する音声認識部と、
    前記ユーザに装着された端末において表示されて前記ユーザに視認されている視認画像、及び、前記音声認識部によって認識された前記ユーザ音声を取得する情報取得部と、
    前記視認画像において前記ユーザのジェスチャが示されたジェスチャ領域を特定するジェスチャ特定部と、
    前記情報取得部によって取得された前記ユーザ音声、及び、前記ジェスチャ特定部によって特定された前記ジェスチャ領域の情報に基づいて、前記視認画像における対象オブジェクトを特定するオブジェクト特定部と、
    前記対象オブジェクトを、前記ユーザが選択し易い表示態様とした選択用画像を前記視認画像に重畳した重畳画像を生成する画像生成部と、
    前記重畳画像を出力する出力部と、を備え、
    前記対象オブジェクトの前記選択用画像が出力された後における、前記ユーザからの情報に基づいて、前記対象オブジェクトに係る表示内容を決定する表示内容決定部を更に備え、
    前記画像生成部は、前記選択用画像に加えて、前記表示内容決定部により決定された表示内容を前記視認画像に重畳した前記重畳画像を生成し、
    前記表示内容決定部は、前記対象オブジェクトの前記選択用画像が出力された後において前記音声認識部によって認識された前記ユーザ音声に応じて、前記表示内容を決定する、報処理システム。
  6. 前記ジェスチャ特定部は、前記ユーザのジェスチャの種別を認識することを更に実行し、
    前記表示内容決定部は、前記対象オブジェクトの前記選択用画像が出力された後において前記ジェスチャ特定部によって認識された前記ユーザのジェスチャの種別に応じて、前記表示内容を決定する、請求項記載の情報処理システム。
JP2022524333A 2020-05-18 2021-04-15 情報処理システム Active JP7373068B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020086547 2020-05-18
JP2020086547 2020-05-18
PCT/JP2021/015639 WO2021235147A1 (ja) 2020-05-18 2021-04-15 情報処理システム

Publications (2)

Publication Number Publication Date
JPWO2021235147A1 JPWO2021235147A1 (ja) 2021-11-25
JP7373068B2 true JP7373068B2 (ja) 2023-11-01

Family

ID=78708858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022524333A Active JP7373068B2 (ja) 2020-05-18 2021-04-15 情報処理システム

Country Status (2)

Country Link
JP (1) JP7373068B2 (ja)
WO (1) WO2021235147A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013175847A1 (ja) 2012-05-22 2013-11-28 ソニー株式会社 画像処理装置、画像処理方法、及びプログラム
JP2018036993A (ja) 2016-09-02 2018-03-08 オリンパス株式会社 表示システム、携帯情報機器、ウエラブル型端末、情報表示方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013175847A1 (ja) 2012-05-22 2013-11-28 ソニー株式会社 画像処理装置、画像処理方法、及びプログラム
JP2018036993A (ja) 2016-09-02 2018-03-08 オリンパス株式会社 表示システム、携帯情報機器、ウエラブル型端末、情報表示方法およびプログラム

Also Published As

Publication number Publication date
WO2021235147A1 (ja) 2021-11-25
JPWO2021235147A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
KR101337555B1 (ko) 객체 연관성을 이용한 증강 현실 제공 장치 및 방법
US10614172B2 (en) Method, apparatus, and system for providing translated content
KR102248474B1 (ko) 음성 명령 제공 방법 및 장치
US10146412B2 (en) Method and electronic device for providing information
EP3207757B1 (en) Method, electronic device and computer program for connecting to external devices
US9552140B2 (en) Method and apparatus for providing data entry content to a remote environment
US20120046072A1 (en) User terminal, remote terminal, and method for sharing augmented reality service
KR20160148260A (ko) 전자 장치 및 이의 제어 방법
WO2010136993A1 (en) Navigation indicator
US9429447B2 (en) Method of utilizing image based on location information of the image in electronic device and the electronic device thereof
KR20150037104A (ko) 클라우드 소싱 기반 관심 지점 정보 업데이트 방법, 이를 위한 시스템 및 장치
JP7373068B2 (ja) 情報処理システム
US9959598B2 (en) Method of processing image and electronic device thereof
KR20120011371A (ko) 프라이빗 태그를 제공하는 증강 현실 장치 및 방법
US9510167B2 (en) Electronic device and method for changing alarm mode
KR20150125338A (ko) 텍스트 입력 제어 방법 및 그 전자 장치
WO2021192873A1 (ja) 測位システム
EP4315663A2 (en) Broadcasting contextual information through modification of audio and video interfaces
US10482151B2 (en) Method for providing alternative service and electronic device thereof
JP7402322B2 (ja) 情報処理システム
KR102202648B1 (ko) 컨텐츠 처리 방법 및 그 전자 장치
WO2022210336A2 (en) Broadcasting contextual information through modification of audio and video interfaces
WO2022123922A1 (ja) 情報処理システム
WO2021172137A1 (ja) コンテンツ共有システム及び端末
CN116382492A (zh) 一种文本输入方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231020

R150 Certificate of patent or registration of utility model

Ref document number: 7373068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150