JP7402322B2 - information processing system - Google Patents
information processing system Download PDFInfo
- Publication number
- JP7402322B2 JP7402322B2 JP2022521806A JP2022521806A JP7402322B2 JP 7402322 B2 JP7402322 B2 JP 7402322B2 JP 2022521806 A JP2022521806 A JP 2022521806A JP 2022521806 A JP2022521806 A JP 2022521806A JP 7402322 B2 JP7402322 B2 JP 7402322B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- gesture
- user
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 62
- 238000000034 method Methods 0.000 claims description 79
- 230000008569 process Effects 0.000 claims description 70
- 230000004044 response Effects 0.000 claims description 7
- 239000004984 smart glass Substances 0.000 description 83
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明の一態様は、情報処理システムに関する。 One aspect of the present invention relates to an information processing system.
特許文献1には、画像形成装置及び携帯端末装置のそれぞれにおいて、入力が受け付けられた音声信号から変換された文字列に対応するコマンドが生成され、画像形成装置と携帯端末装置とで一致した当該コマンドを実行する画像形成装置が記載されている。
近年では、例えばユーザに装着される端末において、ユーザによる音声の入力に応じて、端末において表示される画像に係る処理、及び、当該画像に係る処理とは異なる処理が実行される技術が知られている。しかしながら、例えば、当該音声が、画像に係る処理及び画像に係る処理とは異なる処理のいずれにも適用され得る内容である場合、音声のみによってユーザがいずれの処理を要求しているのか判断が困難な場合がある。この場合、例えば、ユーザは画像に係る処理を意図して音声を発したにもかかわらず、画像に係る処理とは異なる処理が実行されてしまうおそれがあった。 In recent years, technology has become known in which, for example, in a terminal worn by a user, processing related to an image displayed on the terminal and processing different from the processing related to the image are executed in response to voice input by the user. ing. However, if, for example, the audio has content that can be applied to both an image-related process and a process different from an image-related process, it is difficult to determine which process the user is requesting based only on the audio. There are cases where In this case, for example, even though the user utters a voice with the intention of performing a process related to an image, there is a risk that a process different from the process related to the image will be executed.
本発明の一態様は上記実情に鑑みてなされたものであり、ユーザの要求に沿った適切な処理を行うことができる情報処理システムに関する。 One aspect of the present invention has been made in view of the above circumstances, and relates to an information processing system that can perform appropriate processing in accordance with user requests.
本発明の一態様に係る情報処理システムは、ユーザに装着される端末において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部と、取得部によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部と、取得部によって取得されたユーザ音声を認識する音声認識部と、視線情報及びジェスチャ認識部による認識結果に基づいて、音声認識部によって認識されたユーザ音声に応じて画像に係る第1処理を実行する第1モード、及び、音声認識部によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部と、決定部によって適用すると決定された第1モード又は第2モードの処理を実行する処理実行部と、を備える。 An information processing system according to one aspect of the present invention acquires an image that is displayed on a terminal worn by the user to be viewed by the user, line-of-sight information of the user, and user voice that is voice uttered by the user. a gesture recognition unit that recognizes the user's gestures shown in the image acquired by the acquisition unit; a voice recognition unit that recognizes the user's voice acquired by the acquisition unit; and a line-of-sight information and gesture recognition unit. A first mode in which a first process related to an image is executed in accordance with the user voice recognized by the voice recognition unit based on the result, and a process related to the image in response to the user voice recognized by the voice recognition unit. A determining unit that determines which of the second modes for performing different second processes is to be applied, and a processing execution unit that executes the process of the first mode or the second mode that is determined to be applied by the determining unit. .
本発明の一態様に係る情報処理システムでは、ユーザ音声、端末において表示されることでユーザに視認される画像、及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第1モード及び第2モードのいずれを適用するかが決定される。第1モードは、ユーザ音声に応じて画像に係る第1処理を実行するモードである。第2モードは、ユーザ音声に応じて画像に係る処理とは異なる第2処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第1モード及び第2モードのいずれを適用するかを決定する場合においては、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。この点、本発明の一態様に係る情報処理システムでは、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。 In the information processing system according to one aspect of the present invention, a user's voice, an image displayed on a terminal and viewed by the user, and line-of-sight information of the user are acquired, and the user's gestures and user voice are recognized. Then, it is determined which of the first mode and the second mode to apply, based on the user's line of sight information and the gesture recognition result. The first mode is a mode in which a first process related to an image is executed in response to a user's voice. The second mode is a mode in which a second process different from the image-related process is executed in response to the user's voice. For example, in a case where the information processing system determines whether to apply the first mode or the second mode solely by voice recognition, the information processing system recognizes the user's voice; In some cases, it is difficult to determine whether the audio is related to processing. In this case, for example, even if the sound is related to processing related to images, there is a risk that processing different from the processing related to images will be executed. In this regard, in the information processing system according to one aspect of the present invention, the mode in which image-related processing is executed, and the image-related Since it is determined which of the modes in which processes other than these processes are executed is applied, appropriate processes can be performed in accordance with the user's request.
本発明によれば、ユーザの要求に沿った適切な処理を行うことができる。 According to the present invention, it is possible to perform appropriate processing in accordance with user requests.
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same reference numerals are used for the same or equivalent elements, and overlapping description will be omitted.
図1は、本実施形態に係る情報処理システム1の概要を説明する図である。図2は、情報処理システムの機能構成を示すブロック図である。情報処理システム1は、ユーザに装着されるスマートグラス(端末)2において、ユーザが要求する処理にしたがって種々の情報処理を実施する。本実施形態に係る情報処理システム1では、スマートグラス2において、ユーザが要求する処理に係る画像が表示される。図1に示されるように、情報処理システム1は、スマートグラス2と、物体情報サーバ10(特定部、記憶部)と、音声認識サーバ50(音声認識部)と、を備えている。情報処理システム1では、スマートグラス2と、物体情報サーバ10と、音声認識サーバ50とが相互に通信可能に構成されている。
FIG. 1 is a diagram illustrating an overview of an
情報処理システム1では、スマートグラス2が、物体情報サーバ10及び音声認識サーバ50における処理結果を考慮して、ユーザ音声に応じた処理を実行し、ユーザ音声に応じて生成した情報を表示する。一例として、情報処理システム1では、物体情報サーバ10が、スマートグラス2が撮像した撮像画像において認識されたユーザのジェスチャ(第2ジェスチャ)が示す範囲に基づいて、ユーザ音声に応じた処理(第1処理)の対象のオブジェクトである対象オブジェトを特定する。なお、対象オブジェクトは、更に、音声認識サーバ50によるユーザ音声の認識結果に基づき特定されてもよい(絞り込まれてもよい)。また、情報処理システム1では、音声認識サーバ50が、ユーザ音声を認識する。そして、スマートグラス2は、音声認識サーバ50によって認識されたユーザ音声に含まれる処理内容に応じた処理を、物体情報サーバ10によって特定された対象オブジェクトに対して実行する。スマートグラス2は、例えば、ユーザ音声に応じて、対象オブジェクトに関する情報を対象オブジェクトに対応付けて重畳表示した重畳画像を生成し、該重畳画像を画面に表示する。
In the
図3には、スマートグラス2において撮像された画像P1が例示されている。画像P1には、看板H1及び椅子H2等のオブジェクトが表示されている。この場合、スマートグラス2は、ユーザのハンドジェスチャであるジェスチャHJ2(第2ジェスチャ)を認識する。そして、物体情報サーバ10は、ジェスチャHJ2が示す範囲に基づいて、画像P1に含まれる各オブジェクトのうち、例えばジェスチャHJ2と領域が重なる或いはジェスチャHJ2から所定の範囲内にあるオブジェクトである看板H1及び椅子H2を、対象オブジェクトとして特定する。さらに、音声認識サーバ50によって「看板、情報表示」とのユーザ音声が認識された場合には、スマートグラス2は、物体情報サーバ10によって特定された対象オブジェクトの候補のうち看板H1のみを対象オブジェクトとして絞り込み、看板H1に関する情報(看板H1が提示する情報である提示情報I)を表示すべく、提示情報Iを画像P1に重畳した(詳細には、提示情報Iを対象オブジェクトである看板H1に対応付けて表示した)画像P2を生成し、該画像P2を画面に表示する。
FIG. 3 shows an example of an image P1 captured by the
以上の処理を行うことにより、情報処理システム1では、ユーザに装着されるスマートグラス2において、ユーザが要求する処理(具体的には、ユーザが音声によって要求した画像に係る処理)が実行され、処理後の画像が画面に表示される。なお、図1及び図2に示されるスマートグラス2の数は1台であるが、スマートグラス2の数は複数であってもよい。
By performing the above processing, in the
図1に戻り、音声認識サーバ50は、ユーザ音声を認識する音声認識部として機能する。音声認識サーバ50は、単にユーザ音声を認識して文字列に変換する機能を有していればよく、ユーザ音声に基づくユーザの識別等の機能を有していなくてもよい。音声認識サーバ50は、周知の音声認識技術を利用してもよい。音声認識サーバ50は、音声認識結果(すなわち、ユーザ音声を文字列に変換した情報)を物体情報サーバ10に送信する。なお、本実施形態では、物体情報サーバ10が音声認識サーバ50より音声認識結果を取得するとして説明するが、例えば、物体情報サーバ10がユーザ音声を認識する音声認識部として機能してもよい。
Returning to FIG. 1, the
物体情報サーバ10は、スマートグラス2及び音声認識サーバ50から取得した情報に基づき、対象オブジェクト等を特定し、特定した情報をスマートグラス2に提供するサーバである。対象オブジェクトとは、スマートグラス2から取得した撮像画像に含まれるオブジェクトであって画像に係る第1処理の対象のオブジェクトである。
The
物体情報サーバ10は、スマートグラス2及び音声認識サーバ50から取得した各種情報、すなわち、撮像画像、ユーザ音声認識結果、スマートグラス2の測位結果等を記憶する。また、物体情報サーバ10は、複数のオブジェクトに係るオブジェクト情報を予め記憶する記憶部として機能する。オブジェクト情報とは、現実空間に存在する物体(オブジェクト)の情報である。オブジェクト情報では、例えば、複数のオブジェクトのそれぞれについて、オブジェクトを示す(一意に特定する)情報であるオブジェクトIDと、オブジェクトの種別を特定する情報である種別情報と、オブジェクトが存在する位置情報と、オブジェクトの画像と、オブジェクトに係る詳細情報(オブジェクトに関する情報)と、が対応付けられて記憶されている。種別情報は、オブジェクトの名称を含んでいてもよい。なお、オブジェクト情報では、上述した情報の一部だけが対応付けられて記憶されていてもよい。すなわち、例えば、種別情報、オブジェクトの画像、及びオブジェクトに係る詳細情報のみが対応付けられて記憶されていてもよい。
The
オブジェクトに係る詳細情報とは、例えばオブジェクトの内容に関する情報であり、例えばオブジェクトが店の看板である場合には、当該店の名称、店の営業時間、店で販売・提供する商品名、店で販売する商品・サービスの料金、店の電話番号、店のURL等である。また、オブジェクトが商品そのものである場合には、オブジェクトに係る詳細情報とは、例えば当該商品の料金、当該商品の価格、当該商品のスペック、当該商品が説明されたURL等である。 Detailed information related to an object is, for example, information related to the contents of the object. For example, if the object is a store sign, it may include the name of the store, business hours of the store, names of products sold/provided at the store, and information about the contents of the object. These include the prices of the products and services being sold, the store's phone number, and the store's URL. Furthermore, when the object is a product itself, the detailed information related to the object includes, for example, the price of the product, the price of the product, the specifications of the product, the URL explaining the product, and the like.
オブジェクトに係る詳細情報の各項目は、ユーザ音声と紐づけられていてもよい。すなわち、例えば、オブジェクトが店の看板である場合において、「店」を含んだユーザ音声に対して店自体の情報(店の営業時間、店の電話番号等)が紐づけられ、「(商品名)」を含んだユーザ音声に対して店の商品の情報(商品の価格、商品のスペック等)が紐づけられ、「情報表示」とのユーザ音声に対して全ての詳細情報の項目が紐づけられる、というように、ユーザ音声の種別と詳細情報の項目とが紐づけられていてもよい。なお、物体情報サーバ10は、オブジェクト情報として仮想空間に存在する物体の情報を記憶していてもよい。
Each item of detailed information regarding an object may be associated with user voice. That is, for example, when the object is a store signboard, information about the store itself (store business hours, store phone number, etc.) is linked to the user's voice that includes "store", and "(product name )” will be linked to store product information (product price, product specs, etc.), and user voices that say “information display” will be linked to all detailed information items. The type of user voice and the item of detailed information may be linked. Note that the
物体情報サーバ10は、対象オブジェクトを特定する特定部として機能する。物体情報サーバ10は、スマートグラス2から取得した撮像画像においてユーザのジェスチャ(第2ジェスチャ,図3に示されるジェスチャHJ2)が示す範囲に基づいて、対象オブジェクトを特定する。ユーザのジェスチャ(第2ジェスチャ)が示す範囲とは、撮像画像においてユーザが指定する指定範囲であり、例えばジェスチャと領域が重なる或いはジェスチャに近接する範囲である。物体情報サーバ10は、例えば、スマートグラス2からジェスチャ(第2ジェスチャ)が示す範囲(指定範囲)の情報を取得する。物体情報サーバ10は、スマートグラス2から、ユーザのジェスチャが示す範囲の撮像画像のみを取得してもよい。物体情報サーバ10は、撮像画像に含まれる各オブジェクトのうち例えばジェスチャと領域が重なる或いはジェスチャから所定の範囲内にあるオブジェクトを対象オブジェクトとして特定する。物体情報サーバ10は、従来から周知の画像認識処理を利用することによって、対象オブジェクトを特定する。物体情報サーバ10は、例えば、記憶しているオブジェクト情報に含まれる各オブジェクトの画像と、ユーザのジェスチャが示す範囲(指定範囲)の画像とを照合することによって、対象オブジェクトを特定する。この場合、物体情報サーバ10は、スマートグラス2における測位結果とオブジェクト情報に含まれるオブジェクトが存在する位置情報とを照合し、スマートグラス2に近い位置に存在するオブジェクトの画像(オブジェクト情報に含まれるオブジェクトの画像)のみを、ユーザの指定範囲の画像と照合してもよい。物体情報サーバ10は、対象オブジェクトを特定すると、オブジェクト情報に基づき、当該対象オブジェクトの名称を特定してもよい。
The
図5を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス2によって、枠F内が、ジェスチャHJ2が示す範囲(指定範囲A)であると特定されているとする。この場合、物体情報サーバ10は、記憶しているオブジェクト情報に基づいて、指定範囲A内にある対象オブジェクトを特定する。具体的には、物体情報サーバ10は、例えば、オブジェクト情報に含まれるオブジェクトの画像と、撮像画像のうち指定範囲Aに対応する画像とを照合することによって、対象オブジェクトを特定する。図5に示される例では、物体情報サーバ10は、看板H1及び椅子H2を対象オブジェクトとして特定する。物体情報サーバ10は、対象オブジェクトとして特定したオブジェクトを示す情報(スマートグラス2においてどれが対象オブジェクトであるかを判別できる情報)と、該オブジェクトの名称とを対応付けてスマートグラス2に送信する。
A method for specifying a target object will be described with reference to FIG. Now, assume that the
物体情報サーバ10は、音声認識サーバ50によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、上述したジェスチャ(第2ジェスチャ)が示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定してもよい。すなわち、例えば図6に示されるように、「看板」とのユーザ音声が音声認識サーバ50によって認識されている場合においては、物体情報サーバ10は、対象オブジェクトの候補である看板H1及び椅子H2のうち、看板H1のみを対象オブジェクトとして特定してもよい。物体情報サーバ10は、対象オブジェクトとして特定したオブジェクトを示す情報(スマートグラス2においてどれが対象オブジェクトであるかを判別できる情報)をスマートグラス2に送信する。
When the user voice recognized by the
物体情報サーバ10は、特定した対象オブジェクトについて、記憶しているオブジェクト情報に基づき、オブジェクトに係る詳細情報(オブジェクトに関する情報)を更に特定する。物体情報サーバ10は、例えば、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(具体的には、対象オブジェクトに係る詳細情報の表示)が含まれている場合において、記憶しているオブジェクト情報に基づき、対象オブジェクトに係る詳細情報の特定処理を行う。すなわち、例えば図6に示されるように看板H1が対象オブジェクトとして特定されている状況において、「情報表示」とのユーザ音声が音声認識サーバ50によって認識された場合においては、物体情報サーバ10は、記憶しているオブジェクト情報に基づき、看板H1に係る詳細情報を提示情報として特定する。図6に示される例では、物体情報サーバ10は、提示情報Iとして、店の名称(「XXXX」)、商品名及び商品の料金(「・ボロネーゼ:1,000円 ・ジェノベーゼ:1,100円 ・マルゲリータ:800円」)を特定している。物体情報サーバ10は、提示情報として特定した対象オブジェクトに係る詳細情報をスマートグラス2に送信する。
The
物体情報サーバ10は、例えば、音声認識サーバ50によって認識されたユーザ音声に表示態様の変更指示が含まれている場合には、当該変更指示に応じた処理要求をスマートグラス2に送信する。具体的には、物体情報サーバ10は、例えば、「拡大表示」とのユーザ音声が音声認識サーバ50によって認識された場合においては、スマートグラス2に対して、提示情報の拡大表示要求を送信する。
For example, if the user voice recognized by the
スマートグラス2は、ユーザに装着されるゴーグル型のウェアラブル機器であり、無線通信を行うように構成された端末である。スマートグラス2は、ユーザに視認される画像を表示可能に構成されている。スマートグラス2は、撮像機能を有しており、例えば、撮像した画像(撮像画像)をリアルタイムに表示する。なお、本実施形態ではスマートグラス2が撮像画像を表示するとして説明しているが、スマートグラス2は、撮像画像以外の画像を表示するものであってもよい。また、スマートグラス2は、装着したユーザの視線情報を取得する機能及び装着したユーザが発した音声(ユーザ音声)を取得する機能を有している。
The
スマートグラス2は、自身で又は他のサーバ(不図示)と通信を行うことによって、測位を行うものであってもよい。本実施形態では、スマートグラス2が測位を行うとして説明する。スマートグラス2の測位方法は、限定されず、GPS(Global Positioning System)測位であってもよいし、基地局測位であってもよいし、撮像した画像と他のサーバ(不図示)において記憶されているマップデータとを突合させて行う測位であってもよい。スマートグラス2は、測位結果を継続的に物体情報サーバ10に送信する。
The
スマートグラス2は、図2に示されるように、取得部21と、ジェスチャ認識部22と、決定部23と、生成部24及び出力部25(処理実行部)と、を備えている。なお、スマートグラス2は、取得部21が取得する各種情報等を記憶する記憶部(不図示)を更に備えていてもよい。
As shown in FIG. 2, the
取得部21は、ユーザに視認される撮像画像、ユーザの視線情報、及びユーザ音声を取得する。撮像画像とは、上述したようにスマートグラス2において撮像される画像であり、スマートグラス2の画面に表示されてユーザに視認される画像である。ユーザの視線情報とは、上述したようにスマートグラス2を装着したユーザの視線の情報である。ユーザ音声とは、上述したようにスマートグラス2を装着したユーザが発した音声である。取得部21は、取得したユーザ音声を音声認識サーバ50に送信する。
The
ジェスチャ認識部22は、取得部21によって取得された撮像画像に示されているユーザのジェスチャを認識する。本実施形態では、ジェスチャ認識部22は、例えば従来から周知の画像認識技術を利用することにより、ユーザのジェスチャを認識する。ジェスチャ認識部22は、第1処理に係るジェスチャとして予め定められた第1ジェスチャを認識する。第1ジェスチャは、画像に係る第1処理を実行するか、或いは、画像に係る処理とは異なる第2処理を実行するか、の決定に係るジェスチャである。第1ジェスチャは、例えば、ユーザが拳を握りしめているハンドジェスチャ(図4に示されるジェスチャHJ1)である。
The
また、ジェスチャ認識部22は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第2ジェスチャを更に認識する。第2ジェスチャは、例えば、ユーザが拳を握りしめている状態から開いた状態に変化する一連のハンドジェスチャ(図5に示されるジェスチャHJ2)である。第2ジェスチャは、拳の開き方によって対象オブジェクトが含まれる範囲を表している。すなわち、ジェスチャ認識部22は、図5に示されるように、ユーザが拳を握りしめている状態から徐々に拳を開くジェスチャHJ2を認識すると、ジェスチャHJ2における拳の開き具合(開き方)に応じて、ジェスチャHJ2が示す範囲(対象オブジェクトが含まれる範囲)を特定する。ジェスチャ認識部22によって特定されたジェスチャHJ2が示す範囲は、後述する生成部24によって生成される画像において「枠F」(図5参照)で示される。なお、第1ジェスチャ及び第2ジェスチャは、他のハンドジェスチャ、又はユーザの身体の他の部位のジェスチャであってもよい。ジェスチャ認識部22は、第2ジェスチャを認識した場合において、第2ジェスチャを認識した撮像画像と、該第2ジェスチャが示す範囲の情報とを物体情報サーバ10に送信する。なお、ジェスチャ認識部22は、第2ジェスチャが示す範囲の撮像画像のみを物体情報サーバ10に送信してもよい。
Furthermore, the
決定部23は、ユーザの視線情報及びジェスチャ認識部22による認識結果に基づいて、第1モード及び第2モードのいずれを適用するかを決定する。第1モードとは、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る第1処理を実行するモードである。第2モードとは、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行するモードである。
The determining
具体的には、決定部23は、視線情報及びジェスチャ認識部22による第1ジェスチャの認識結果に基づいて、ユーザが撮像画像に示されている第1ジェスチャを注視しているか否かを判定し、注視している場合に、第1モードを適用すると決定し、注視していない場合に、第2モードを適用すると決定する。すなわち、決定部23は、まず、ジェスチャ認識部22によって第1ジェスチャが認識されているか否かを判定する。そして、決定部23は、第1ジェスチャが認識されている場合において、視線情報に基づき撮像画像においてユーザが第1ジェスチャを注視しているか否かを判定する。決定部23は、第1ジェスチャからのユーザの視線のずれが所定の範囲内(例えば15°以内)である場合には、ユーザが第1ジェスチャを注視していると判定する。
Specifically, the
図4を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス2において、メッセージが受信されており、撮像画像である画像P3に「新着メッセージあり」との、ユーザがメッセージを受信した旨の情報が重畳された画像P4が表示されているとする。画像P3には、看板H1、椅子H2、及びユーザのジェスチャHJ1(第1ジェスチャ)が表示されている。この場合、ユーザにより撮像画像に係る処理(第1処理)が要求され得る状況であると共に、ユーザによりメッセージを画面に表示させる処理(第2処理に含まれる処理)が要求され得る状況であるといえる。
A method for specifying a target object will be described with reference to FIG. Now, in the
図4に示される例では、ユーザによって拳が握られたジェスチャHJ1が示されているため、ジェスチャ認識部22によって第1ジェスチャが認識される。そして、決定部23によって、視線情報に基づきユーザがジェスチャHJ1を注視していると判定された場合には、ユーザにより撮像画像に係る処理(第1処理)が要求されていると判断され、第1モードを適用することが決定される。一方で、決定部23によって、視線情報に基づきユーザがジェスチャHJ1を注視していないと判定された場合には、ユーザにより撮像画像に係る処理以外の第2処理(例えば、メッセージを画面に表示させる処理)が要求されていると判断され、第2モードを適用することが決定される。
In the example shown in FIG. 4, the gesture HJ1 in which the user clenches a fist is shown, so the
なお、決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって、第1処理に係る第2ジェスチャが認識されている間においては、第1モードの適用を継続する。これは、第1処理に係る第2ジェスチャをユーザが表している間は、ユーザは、第2処理ではなく第1処理を要求していると考えられるためである。一方、決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されなくなった場合においては、第2モードを適用することを決定する。これは、第1処理に係る第2ジェスチャをユーザが止めた場合は、ユーザは、第1処理を要求していないと考えられるためである。
Note that after determining to apply the first mode, the determining
生成部24は、物体情報サーバ10から取得した情報に基づいて、スマートグラス2の画面に表示(出力)する情報を生成する。生成部24は、物体情報サーバ10から対象オブジェクトとして特定したオブジェクトを示す情報及び該オブジェクトの名称を受信した場合において、撮像画像に対象オブジェクトの名称が重畳された第1画像を生成する。生成部24は、ジェスチャ認識部22によって第2ジェスチャが認識されている場合においては、第1画像において第2ジェスチャが示す範囲を示す枠を更に重畳させる。図5に示される例では、生成部24は、物体情報サーバ10から取得した情報及びジェスチャ認識部22による認識結果に基づいて、撮像画像である画像P5に、第2ジェスチャが示す範囲を示す枠F、対象オブジェクトである看板H1の名称「看板」及び椅子H2の名称「椅子」が重畳された画像P6(第1画像)を生成している。なお、生成部24は、各対象オブジェクトの名称が、対応する対象オブジェクトの近傍に位置するように第1画像を生成してもよい。
The
生成部24は、物体情報サーバ10から、対象オブジェクトとして特定したオブジェクトを示す情報、及び、提示情報として特定した対象オブジェクトに係る詳細情報を受信した場合において、撮像画像に提示情報が重畳された第2画像を生成する。図6に示される例では、生成部24は、物体情報サーバ10から取得した情報に基づいて、撮像画像である画像P7に、看板H1が提示する提示情報Iが重畳されると共に看板H1が強調表示された画像P8(第2画像)を生成している。なお、生成部24は、対象オブジェクトの提示情報が、対応する対象オブジェクトの近傍に位置するように第2画像を生成してもよい。
When the
生成部24は、物体情報サーバ10から、第2画像における提示情報の表示態様の変更要求を受信した場合において、第2画像の提示情報の表示態様を変更した第3画像を生成する。図7に示される例では、生成部24は、物体情報サーバ10から、提示情報の拡大表示要求を受信している。この場合、生成部24は、撮像画像である画像P9に、文字が拡大された態様の提示情報Iが重畳された画像P10(第3画像)を生成する。
When receiving a request from the
生成部24は、上述したように、決定部23によって適用すると決定された第1モードの処理を実行する処理実行部として機能している。すなわち、生成部24は、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(例えば、情報提示)が含まれている場合において、該処理内容に応じた処理である第2画像等の生成を第1処理として実行している。また、生成部24は、上述したように、物体情報サーバ10により特定された対象オブジェクトに関する情報に基づいて、出力情報を生成している。より具体的には、生成部24は、対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像である第2画像を出力情報として生成している。
As described above, the
出力部25は、生成部24が生成した情報を出力(スマートグラス2の画面に表示)する。すなわち、出力部25は、上述した第1画像、第2画像、及び第3画像をスマートグラス2の画面に表示する。出力部25は、このように、決定部23によって適用すると決定された第1モードの処理を実行する処理実行部として機能している。すなわち、出力部25は、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(例えば、情報提示)が含まれている場合において、該処理内容に応じた処理である第2画像等の出力を第1処理として実行している。
The
なお、生成部24及び出力部25は、決定部23によって第2モードの処理を実行する(すなわち、撮像画像に係る処理以外の第2処理を実行する)と決定された場合において、当該第2処理を実行する処理実行部として機能してもよい。すなわち、例えば、決定部23によって、新着メッセージを画面に表示させる処理(第2処理)を実行すると決定された場合において、生成部24が新着メッセージを重畳させた画像を生成し、出力部25が当該画像を出力してもよい。
Note that when the determining
次に、本実施形態に係る情報処理システム1が行う処理について、図8を参照して説明する。図8は、情報処理システム1が行う処理を示すシーケンス図である。
Next, processing performed by the
図8に示されるように、情報処理システム1では、最初にスマートグラス2がユーザの視線情報及び第1ジェスチャに基づき第1モードの適用を決定する(ステップS1)。具体的には、スマートグラス2は、第1ジェスチャをユーザが注視している場合に、第1モードの適用を決定する。
As shown in FIG. 8, in the
つづいて、スマートグラス2は、第2ジェスチャを認識し、第2ジェスチャが示す範囲に基づいて対象オブジェクトが存在し得る範囲を特定する(ステップS2)。つづいて、スマートグラス2は、物体情報サーバ10に、撮像画像を送信する(ステップS3)。スマートグラス2は、ステップS2において特定した対象オブジェクトが存在し得る範囲の撮像画像のみを物体情報サーバ10に送信してもよい。
Next, the
つづいて、物体情報サーバ10は、スマートグラス2から取得した撮像画像(第2ジェスチャが示す範囲の情報を含む)と、記憶している対象オブジェクト情報とに基づいて、対象オブジェクト及びその名称を特定する(ステップS4)。スマートグラス2は、特定した情報をスマートグラス2に送信する(ステップS5)。
Next, the
つづいて、スマートグラス2は、物体情報サーバ10から取得した情報(対象オブジェクト及びその名称)に基づいて、撮像画像に対象オブジェクトの名称が重畳された第1画像(図5に示される画像P6)を生成し、画面に表示する(ステップS6)。画像P6においては、第2ジェスチャが示す範囲を示す枠F、対象オブジェクトである看板H1の名称「看板」及び椅子H2の名称「椅子」が表示されている。
Next, the
この状態において、スマートグラス2は、ユーザが発する音声であるユーザ音声を取得し、音声認識サーバ50に送信する(ステップS7)。いま、スマートグラス2は、画像P6を閲覧したユーザから、対象オブジェクトを絞り込むための名称(「看板」)、及び、処理内容(「情報表示」)を含んだユーザ音声を取得したとする。この場合、音声認識サーバ50は、音声認識によって「看板」「情報表示」との用語を認識する(ステップS8)。そして、音声認識サーバ50は、音声認識結果を物体情報サーバ10に送信する(ステップS9)。
In this state, the
つづいて、物体情報サーバ10は、音声認識結果を受信し、「看板」とのオブジェクトを示す情報に基づき対象オブジェクトを看板H1に絞り込むと共に、「情報表示」との処理内容に基づき記憶しているオブジェクト情報から看板H1に係る詳細情報(提示情報)を特定し、特定した情報をスマートグラス2に送信する(ステップS10)。
Subsequently, the
つづいて、スマートグラス2は、物体情報サーバ10から取得した情報(対象オブジェクト及び提示情報)に基づいて、撮像画像に提示情報が重畳された第2画像(図6に示される画像P8)を生成し、画面に表示する(ステップS11)。画像P8においては、看板H1が提示する提示情報Iが表示されると共に看板H1が強調表示される。
Next, the
この状態において、スマートグラス2は、更なるユーザ音声を取得し、音声認識サーバ50に送信する(ステップS12)。いま、スマートグラス2は、画像P8を閲覧したユーザから、更なる処理内容(拡大表示)を含んだユーザ音声を取得したとする。この場合、音声認識サーバ50は、音声認識によって「拡大表示」との用語を認識する(ステップS13)。そして、音声認識サーバ50は、音声認識結果を物体情報サーバ10に送信する(ステップS14)。
In this state, the
つづいて、物体情報サーバ10は、音声認識結果を受信し、「拡大表示」との処理内容を特定し、拡大表示要求をスマートグラス2に送信する(ステップS15)。そして、スマートグラス2は、物体情報サーバ10から取得した情報(拡大表示要求)に基づいて、撮像画像に文字が拡大された態様の提示情報Iが重畳された画像(図7に示される画像P10)を生成し、画面に表示する(ステップS16)。
Subsequently, the
次に、本実施形態に係る情報処理システム1の作用効果について説明する。
Next, the effects of the
本実施形態に係る情報処理システム1は、ユーザに装着されるスマートグラス2において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部21と、取得部21によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部22と、取得部21によって取得されたユーザ音声を認識する音声認識サーバ50と、視線情報及びジェスチャ認識部22による認識結果に基づいて、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る第1処理を実行する第1モード、及び、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部23と、決定部23によって適用すると決定された第1モード又は第2モードの処理を実行する生成部24及び出力部25と、を備える。
The
本実施形態に係る情報処理システム1では、ユーザ音声、スマートグラス2において表示されることでユーザに視認される画像(撮像画像)及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第1モード及び第2モードのいずれを適用するかが決定される。第1モードは、ユーザ音声に応じて画像に係る処理を実行するモードである。第2モードは、ユーザ音声に応じて画像に係る処理とは異なる処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第1モード及び第2モードのいずれを適用するかを決定する場合において、まず、ユーザから音声の入力が受け付けられる。そして、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。
In the
この点、情報処理システム1では、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。また、情報処理システム1では、ユーザの意思に沿わない処理(すなわち、不要な処理)が行われることが抑制されるので、処理負荷を軽減することができるという技術的効果を奏する。
In this regard, in the
情報処理システム1では、ジェスチャ認識部22が、第1処理に係るジェスチャとして予め定められた第1ジェスチャを認識し、決定部23は、視線情報及びジェスチャ認識部22による第1ジェスチャの認識結果に基づいて、ユーザが、画像に示されている第1ジェスチャを注視しているか否かを判定し、第1ジェスチャをユーザが注視している場合に、第1モードを適用することを決定する。
In the
一般的に、ある領域をユーザが注視している場合、ユーザは当該領域に関心をもっていると考えられる。そして、第1処理に係るジェスチャとして予め定められた第1ジェスチャをユーザが注視している場合、ユーザは第1処理(画像に対する処理)を要求している可能性が高いと考えられる。情報処理システム1では第1ジェスチャをユーザが注視している場合に、ユーザ音声に応じて画像に対する処理を実行する第1モードが適用されるため、ユーザが画像に対する処理を要求している場合において、第1モードが適用される可能性を高めることができる。
Generally, when a user is gazing at a certain area, it is considered that the user is interested in that area. If the user is gazing at a first gesture that is predetermined as a gesture related to the first process, it is considered that the user is highly likely to request the first process (processing on an image). In the
情報処理システム1では、処理実行部として機能する生成部24及び出力部25が、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容が含まれている場合においては、当該処理内容に応じた処理を第1処理として実行する。このように、ユーザ音声に基づいてユーザが要求している処理内容が判断されて該処理内容に応じた画像の生成及び表示(出力)がなされることにより、ユーザの要求に沿った適切な処理を行うことができる。
In the
情報処理システム1は、画像に含まれるオブジェクトであって第1処理の対象のオブジェクトである対象オブジェクトを特定する処理を実行する物体情報サーバ10を備え、ジェスチャ認識部22は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第2ジェスチャを更に認識し、物体情報サーバ10は、画像において第2ジェスチャが示す範囲に基づいて、対象オブジェクトを特定する。このように、ユーザの意思が反映されているジェスチャが示す範囲に基づいて対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたい(処理の対象としたい)オブジェクトを適切に特定することができる。
The
情報処理システム1では、物体情報サーバ10が、複数のオブジェクトのそれぞれについてオブジェクトを示す情報とオブジェクトに関する情報とが少なくとも対応付けられたオブジェクト情報を記憶すると共に、特定した対象オブジェクトについてオブジェクト情報に基づきオブジェクトに関する情報を更に特定し、生成部24が、第1モードの第1処理として、物体情報サーバ10により特定された対象オブジェクトに関する情報に基づいて出力情報(図6の画像P8等)を生成し、出力部25が、生成部24が生成した出力情報をスマートグラス2の画面に表示する。このような構成によれば、ユーザがジェスチャを行うことによって対象オブジェクトに関する情報が容易に取得される。すなわち、このような構成によれば、ユーザにとって簡易な方法によってユーザが知りたい情報を取得することができる。
In the
情報処理システム1では、生成部24が、物体情報サーバ10により特定された対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像(図6の画像P8)を出力情報として生成する。このように、対象オブジェクトと対象オブジェクトに関する情報とが対応付けられて表示されることによって、対象オブジェクトに関する情報を、よりユーザが把握し易い態様で表示することができる。
In the
情報処理システム1では、物体情報サーバ10が、音声認識サーバ50によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、第2ジェスチャが示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定する。このように、ユーザ音声の情報を更に考慮して対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたいオブジェクトをより確実且つ容易に特定することができる。
In the
決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されている間においては、第1モードの適用を継続する。
After deciding to apply the first mode, the determining
ユーザの意思が反映されている第2ジェスチャをユーザが継続している状態においては、ユーザは、画像に係る処理を継続して要求している可能性が高いと考えられる。情報処理システム1では、そのような状態において第1モードを継続するため、ユーザの要求する処理を確実に実行することができる。
In a state where the user continues to perform the second gesture that reflects the user's intention, it is considered that the user is likely to continue requesting processing related to the image. Since the
決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されなくなった場合においては、第2モードを適用することを決定する。
If the second gesture is no longer recognized by the
ユーザの意思が反映されている第2ジェスチャをユーザが中断した場合には、ユーザは、画像に対する処理を要求しなくなった可能性が高いと考えられる。情報処理システム1では、そのような状態において、第1処理(画像に係る処理)を実行する第1モードから、第2処理(画像に係る処理とは異なる処理)を実行する第2モードに切り替えられるため、ユーザの要求する処理を確実に実行することができる。
If the user interrupts the second gesture that reflects the user's intention, it is highly likely that the user no longer requests processing on the image. In such a state, the
次に、情報処理システム1に含まれたスマートグラス2、音声認識サーバ50、及び物体情報サーバ10のハードウェア構成について、図9を参照して説明する。上述のスマートグラス2、音声認識サーバ50、及び物体情報サーバ10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
Next, the hardware configurations of the
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。スマートグラス2、音声認識サーバ50、及び物体情報サーバ10のハードウェア構成は、図9に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In addition, in the following description, the word "apparatus" can be read as a circuit, a device, a unit, etc. The hardware configurations of the
スマートグラス2、音声認識サーバ50、及び物体情報サーバ10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
Each function in the
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインタフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、スマートグラス2の取得部21等の制御機能はプロセッサ1001で実現されてもよい。
The
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。
Further, the
例えば、スマートグラス2の取得部21等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
For example, the control functions of the
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CDROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
The
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
Further, each device such as the
また、スマートグラス2、音声認識サーバ50、及び物体情報サーバ10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
In addition, the
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although this embodiment has been described in detail above, it is clear for those skilled in the art that this embodiment is not limited to the embodiment described in this specification. This embodiment can be implemented as modifications and changes without departing from the spirit and scope of the present invention as defined by the claims. Therefore, the description in this specification is for the purpose of illustrative explanation and does not have any restrictive meaning with respect to this embodiment.
例えば、情報処理システム1は、スマートグラス2、音声認識サーバ50、及び物体情報サーバ10を含んで構成されているとして説明したが、これに限定されず、情報処理システム1の各機能が、スマートグラス2のみによって実現されてもよい。また、情報処理システム1の各機能のうち、決定部23による第1モードの決定処理、及び第2ジェスチャに基づいた指定範囲の画定処理が物体情報サーバ10によって実現されてもよい。
For example, the
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect/embodiment described herein applies to LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA. (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broad-band), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide) The present invention may be applied to systems utilizing Bluetooth (registered trademark), Bluetooth (registered trademark), and other appropriate systems, and/or next-generation systems expanded based on these.
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The order of the processing procedures, sequences, flowcharts, etc. of each aspect/embodiment described in this specification may be changed as long as there is no contradiction. For example, the methods described herein present elements of the various steps in an exemplary order and are not limited to the particular order presented.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input/output information may be stored in a specific location (eg, memory) or may be managed in a management table. Information etc. to be input/output may be overwritten, updated, or additionally written. The output information etc. may be deleted. The input information etc. may be transmitted to other devices.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 Judgment may be made using a value expressed by 1 bit (0 or 1), a truth value (Boolean: true or false), or a comparison of numerical values (for example, a predetermined value). (comparison with a value).
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect/embodiment described in this specification may be used alone, may be used in combination, or may be switched and used in accordance with execution. In addition, notification of prescribed information (for example, notification of "X") is not limited to being done explicitly, but may also be done implicitly (for example, not notifying the prescribed information). Good too.
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software includes instructions, instruction sets, code, code segments, program code, programs, subprograms, software modules, whether referred to as software, firmware, middleware, microcode, hardware description language, or by any other name. , should be broadly construed to mean an application, software application, software package, routine, subroutine, object, executable, thread of execution, procedure, function, etc.
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Additionally, software, instructions, etc. may be sent and received via a transmission medium. For example, if the software uses wired technologies such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and/or wireless technologies such as infrared, radio and microwave to When transmitted from a remote source, these wired and/or wireless technologies are included within the definition of transmission medium.
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 The information, signals, etc. described herein may be represented using any of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc., which may be referred to throughout the above description, may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may also be represented by a combination of
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 Note that terms explained in this specification and/or terms necessary for understanding this specification may be replaced with terms having the same or similar meanings.
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 Further, the information, parameters, etc. described in this specification may be expressed as absolute values, relative values from a predetermined value, or other corresponding information. .
スマートグラス2は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
The
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used herein, the phrase "based on" does not mean "based solely on" unless expressly stated otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 Any reference to the elements herein, such as "first", "second", etc., does not generally limit the amount or order of those elements. These designations may be used herein as a convenient way of distinguishing between two or more elements. Thus, reference to a first and second element does not imply that only two elements may be employed therein or that the first element must precede the second element in any way.
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 To the extent that the words "include," "including," and variations thereof are used in this specification or in the claims, these terms are synonymous with the term "comprising." is intended to be comprehensive. Furthermore, the term "or" as used in this specification or in the claims is not intended to be exclusive or.
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In this specification, a plurality of devices is also included unless it is clear from the context or technology that only one device exists.
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。 Throughout this disclosure, the plural is intended to be included unless the context clearly dictates otherwise.
1…情報処理システム、2…スマートグラス(端末)、10…物体情報サーバ(特定部,記憶部)、21…取得部、22…ジェスチャ認識部、23…決定部、24…生成部(処理実行部)、25…出力部(処理実行部)、50…音声認識サーバ(音声認識部)、H1…看板(対象オブジェクト)、H2…椅子(対象オブジェクト)、HJ1…ジェスチャ(第1ジェスチャ)、HJ2…ジェスチャ(第2ジェスチャ)、P8…画像(重畳画像)。
DESCRIPTION OF
Claims (9)
前記取得部によって取得された前記画像に示されている前記ユーザのジェスチャを認識するジェスチャ認識部と、
前記取得部によって取得された前記ユーザ音声を認識する音声認識部と、
前記視線情報、及び前記ジェスチャ認識部による認識結果に基づいて、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る第1処理を実行する第1モード、及び、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部と、
前記決定部によって適用すると決定された前記第1モード又は前記第2モードの処理を実行する処理実行部と、を備える、情報処理システム。an acquisition unit that acquires an image visually recognized by the user by being displayed on a terminal worn by the user, line-of-sight information of the user, and user voice that is voice uttered by the user;
a gesture recognition unit that recognizes the user's gesture shown in the image acquired by the acquisition unit;
a voice recognition unit that recognizes the user voice acquired by the acquisition unit;
a first mode in which a first process related to the image is executed in response to the user voice recognized by the voice recognition unit based on the line of sight information and the recognition result by the gesture recognition unit; and the voice recognition unit a determining unit that determines which of a second mode to apply a second mode that executes a second process different from the process related to the image according to the user voice recognized by the user;
An information processing system, comprising: a processing execution unit that executes processing in the first mode or the second mode determined to be applied by the determination unit.
前記決定部は、
前記視線情報、及び前記ジェスチャ認識部による前記第1ジェスチャの認識結果に基づいて、前記ユーザが、前記画像に示されている前記第1ジェスチャを注視しているか否かを判定し、
前記第1ジェスチャを前記ユーザが注視している場合に、前記第1モードを適用すると決定する、請求項1に記載の情報処理システム。The gesture recognition unit recognizes a first gesture predetermined as the gesture related to the first process,
The determining unit is
Determining whether the user is gazing at the first gesture shown in the image based on the line of sight information and the recognition result of the first gesture by the gesture recognition unit;
The information processing system according to claim 1, wherein the information processing system determines to apply the first mode when the user is gazing at the first gesture.
前記ジェスチャ認識部は、前記対象オブジェクトが含まれ得る範囲を示す前記ジェスチャとして予め定められた第2ジェスチャを更に認識し、
前記特定部は、前記画像において前記第2ジェスチャが示す範囲に基づいて、前記対象オブジェクトを特定する、請求項1~3のいずれか一項に記載の情報処理システム。further comprising a specifying unit that specifies a target object that is included in the image and is a target object of the first process;
The gesture recognition unit further recognizes a second gesture predetermined as the gesture indicating a range in which the target object can be included,
The information processing system according to claim 1, wherein the specifying unit specifies the target object based on a range indicated by the second gesture in the image.
前記特定部は、特定した前記対象オブジェクトについて、前記オブジェクト情報に基づき前記オブジェクトに関する情報を更に特定し、
前記処理実行部は、前記第1モードの第1処理として、前記特定部により特定された前記対象オブジェクトに関する情報に基づいて出力情報を生成すると共に、生成した該出力情報を出力する、請求項4に記載の情報処理システム。Further comprising a storage unit that stores object information in which information indicating the object and information regarding the object are at least associated with each other for each of the plurality of objects,
The identifying unit further identifies information regarding the identified target object based on the object information,
5. The processing execution unit generates output information based on information regarding the target object specified by the identification unit as the first processing in the first mode, and outputs the generated output information. The information processing system described in .
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020085941 | 2020-05-15 | ||
JP2020085941 | 2020-05-15 | ||
PCT/JP2021/016515 WO2021230048A1 (en) | 2020-05-15 | 2021-04-23 | Information processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021230048A1 JPWO2021230048A1 (en) | 2021-11-18 |
JP7402322B2 true JP7402322B2 (en) | 2023-12-20 |
Family
ID=78525636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022521806A Active JP7402322B2 (en) | 2020-05-15 | 2021-04-23 | information processing system |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7402322B2 (en) |
WO (1) | WO2021230048A1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510239A (en) | 2000-09-20 | 2004-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | How to improve dictation and command distinction |
JP2015049721A (en) | 2013-09-02 | 2015-03-16 | ソニー株式会社 | Information processor, information processing method and program |
JP2017091433A (en) | 2015-11-17 | 2017-05-25 | セイコーエプソン株式会社 | Head-mounted type display device, method of controlling head-mounted type display device, and computer program |
JP2018516422A (en) | 2015-05-28 | 2018-06-21 | アイサイト モバイル テクノロジーズ エルティーディー. | Gesture control system and method for smart home |
WO2018195099A1 (en) | 2017-04-19 | 2018-10-25 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
WO2019026616A1 (en) | 2017-08-01 | 2019-02-07 | ソニー株式会社 | Information processing device and method |
US20190294252A1 (en) | 2018-03-26 | 2019-09-26 | Chian Chiu Li | Presenting Location Related Information and Implementing a Task Based on Gaze and Voice Detection |
US20190324279A1 (en) | 2016-12-19 | 2019-10-24 | Samsung Electronics Co., Ltd. | Electronic device, mobile electronic device, and display device, which are controlled on basis of user gaze and input |
-
2021
- 2021-04-23 WO PCT/JP2021/016515 patent/WO2021230048A1/en active Application Filing
- 2021-04-23 JP JP2022521806A patent/JP7402322B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510239A (en) | 2000-09-20 | 2004-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | How to improve dictation and command distinction |
JP2015049721A (en) | 2013-09-02 | 2015-03-16 | ソニー株式会社 | Information processor, information processing method and program |
JP2018516422A (en) | 2015-05-28 | 2018-06-21 | アイサイト モバイル テクノロジーズ エルティーディー. | Gesture control system and method for smart home |
JP2017091433A (en) | 2015-11-17 | 2017-05-25 | セイコーエプソン株式会社 | Head-mounted type display device, method of controlling head-mounted type display device, and computer program |
US20190324279A1 (en) | 2016-12-19 | 2019-10-24 | Samsung Electronics Co., Ltd. | Electronic device, mobile electronic device, and display device, which are controlled on basis of user gaze and input |
WO2018195099A1 (en) | 2017-04-19 | 2018-10-25 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
WO2019026616A1 (en) | 2017-08-01 | 2019-02-07 | ソニー株式会社 | Information processing device and method |
US20190294252A1 (en) | 2018-03-26 | 2019-09-26 | Chian Chiu Li | Presenting Location Related Information and Implementing a Task Based on Gaze and Voice Detection |
Also Published As
Publication number | Publication date |
---|---|
WO2021230048A1 (en) | 2021-11-18 |
JPWO2021230048A1 (en) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11120630B2 (en) | Virtual environment for sharing information | |
US20190318545A1 (en) | Command displaying method and command displaying device | |
US9762575B2 (en) | Method for performing communication via fingerprint authentication and electronic device thereof | |
EP2816554A2 (en) | Method of executing voice recognition of electronic device and electronic device using the same | |
EP3403371B1 (en) | Electronic device for authenticating based on biometric data and operating method thereof | |
KR102178892B1 (en) | Method for providing an information on the electronic device and electronic device thereof | |
EP2916202A1 (en) | Method and apparatus for detecting user input in an electronic device | |
EP4303798A2 (en) | Card registration method for payment service and mobile electronic device implementing the same | |
EP3190527A1 (en) | Multimedia data processing method of electronic device and electronic device thereof | |
US10034151B2 (en) | Method for providing point of interest and electronic device thereof | |
KR20160055337A (en) | Method for displaying text and electronic device thereof | |
US11394671B2 (en) | Method for providing transaction history-based service and electronic device therefor | |
EP2998855A1 (en) | Method and apparatus for inputting object in electronic device | |
US20180268383A1 (en) | Electronic device and method for detecting item in data associated with web | |
EP3001656A1 (en) | Method and apparatus for providing function by using schedule information in electronic device | |
KR20150065353A (en) | Apparatas and method for paying using for membership card in an electronic device | |
KR20150113572A (en) | Electronic Apparatus and Method for Acquiring of Image Data | |
KR20170060567A (en) | Electronic device and method for controlling thereof | |
JP7402322B2 (en) | information processing system | |
US9510167B2 (en) | Electronic device and method for changing alarm mode | |
US10482151B2 (en) | Method for providing alternative service and electronic device thereof | |
US10496715B2 (en) | Method and device for providing information | |
JP7373068B2 (en) | information processing system | |
CN108475367B (en) | Method and apparatus for displaying an indication of a payment method | |
EP3519773B1 (en) | Electronic device and location-based information service method therewith |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7402322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |