JP2021144259A - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2021144259A JP2021144259A JP2018108330A JP2018108330A JP2021144259A JP 2021144259 A JP2021144259 A JP 2021144259A JP 2018108330 A JP2018108330 A JP 2018108330A JP 2018108330 A JP2018108330 A JP 2018108330A JP 2021144259 A JP2021144259 A JP 2021144259A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- input
- sight
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims description 149
- 230000008569 process Effects 0.000 claims description 132
- 238000001514 detection method Methods 0.000 claims description 111
- 230000001186 cumulative effect Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 38
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 230000004044 response Effects 0.000 description 10
- 101000610557 Homo sapiens U4/U6 small nuclear ribonucleoprotein Prp31 Proteins 0.000 description 9
- 101001109965 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 60S ribosomal protein L7-A Proteins 0.000 description 9
- 101001109960 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 60S ribosomal protein L7-B Proteins 0.000 description 9
- 102100040118 U4/U6 small nuclear ribonucleoprotein Prp31 Human genes 0.000 description 9
- 230000004913 activation Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000007257 malfunction Effects 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 5
- 101000726148 Homo sapiens Protein crumbs homolog 1 Proteins 0.000 description 4
- 102100027331 Protein crumbs homolog 1 Human genes 0.000 description 4
- 101000825534 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 40S ribosomal protein S2 Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010041308 Soliloquy Diseases 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】より適切な音声認識の実行制御を実現する音声認識システムを提供する。【解決手段】音声認識システム11において、情報処理装置は、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える。ユーザの視線方向や顔の向き、体の向き、それらの組み合わせに基づいて、すなわちユーザの向きを示すユーザ方向情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現できるようにするものである。【選択図】図1
Description
本技術は、情報処理装置および方法、並びにプログラムに関し、特に、より適切な音声認識の実行制御を実現することができるようにした情報処理装置および方法、並びにプログラムに関する。
音声認識機能を搭載した対話型エージェントシステムでは、ユーザの独り言や周囲のノイズなどに反応して音声認識が誤作動することを防ぐため、音声認識機能を起動させるためのトリガを設けているものがある。
トリガを利用した音声認識機能の起動の代表的な例として、予め定められた特定の起動ワードが発話された場合に音声認識を開始する方法や、ボタンを押したときだけ音声入力を受け付ける方法がある。しかし、これらの方法では、対話を始める度に起動ワードを発声したり、ボタンを押したりしなければならないため、ユーザにとって負担となる。
一方、ユーザの視線や顔の向きをトリガにして対話を行うか否かを決定する方法も提案されている(例えば、特許文献1参照)。このような技術を用いれば、ユーザはいちいち起動ワードを発話したり、ボタンを押したりすることなく簡単に対話型エージェントとの対話を開始することができる。
ところが特許文献1に記載の技術では、ある時点の視線情報のみを用いているため、誤検知を起こす可能性がある。
例えば人間同士で会話をしているとき、対話型エージェントに話しかけるつもりは無いにもかかわらず、偶然、対話型エージェントの方に一時的に視線や顔を向けてしまった場合、意図せずに音声認識機能が作動してしまい、対話型エージェントから応答が返ってきてしまう。
このように、上述した技術では、適切に音声認識の実行を制御し、音声認識機能の誤作動を抑制することは困難であった。
本技術は、このような状況に鑑みてなされたものであり、より適切な音声認識の実行制御を実現することができるようにするものである。
本技術の一側面の情報処理装置は、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える。
本技術の一側面の情報処理方法またはプログラムは、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させるステップを含む。
本技術の一側面においては、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態が終了される。
本技術の一側面によれば、より適切な音声認識の実行制御を実現することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈音声認識システムの構成例〉
本技術は、ユーザの視線方向や顔の向き、体の向き、それらの組み合わせに基づいて、すなわちユーザの向きを示すユーザ方向情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現できるようにするものである。特に、本技術では、リアルタイムなユーザ方向情報を用いることで、より正確に音声認識機能を起動させたり終了させたりすることが可能である。
〈音声認識システムの構成例〉
本技術は、ユーザの視線方向や顔の向き、体の向き、それらの組み合わせに基づいて、すなわちユーザの向きを示すユーザ方向情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現できるようにするものである。特に、本技術では、リアルタイムなユーザ方向情報を用いることで、より正確に音声認識機能を起動させたり終了させたりすることが可能である。
図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示す図である。
図1に示す音声認識システム11は、情報処理装置21および音声認識部22を有している。また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、および入力制御部34を有している。
この例では、例えば情報処理装置21はスマートスピーカやスマートホンなどのユーザにより操作される機器などとされ、音声認識部22は情報処理装置21に有線または無線のネットワークを介して接続されたサーバ等に設けられている構成とされている。
なお、情報処理装置21に音声認識部22が設けられる構成としてもよいし、情報処理装置21に視線検出部31や音声入力部32が設けられていない構成としてもよい。また、音声区間検出部33がネットワークを介して接続されたサーバ等に設けられている構成とされてもよい。
視線検出部31は例えばカメラなどからなり、ユーザの視線方向を検出することでユーザ方向情報としての視線情報を生成し、入力制御部34に供給する。すなわち、視線検出部31はカメラにより撮像された画像に基づいて周囲にいるユーザの視線の方向、より詳細にはユーザの視線が向いている先を検出し、その検出結果を視線情報として出力する。
なお、ここでは視線検出部31と音声入力部32が情報処理装置21に設けられているが、視線検出部31は、音声入力部32が設けられたデバイスに組み込まれていてもよいし、音声入力部32が設けられたデバイスと異なるデバイスに設けられていてもよい。
また、ここではユーザ方向情報が視線情報である例について説明するが、視線検出部31がデプス画像に基づいてユーザの顔の向きなどを検出し、その検出結果をユーザ方向情報としてもよい。
音声入力部32は、例えば1または複数のマイクロホンなどからなり、周囲の音声の入力を受け付ける。すなわち、音声入力部32は、周囲の音声を収音し、その結果得られた音声信号を入力音声情報として音声区間検出部33に供給する。以下では、音声入力部32により収音された音声を入力音声とも称することとする。
音声区間検出部33は、音声入力部32から供給された入力音声情報に基づいて、入力音声のなかから実際にユーザが発話している区間を発話区間として検出し、入力音声情報のうちの発話区間を切り出して得られた検出音声情報を入力制御部34に供給する。以下では、入力音声のうちの発話区間の音声、つまり実際のユーザの発話部分の音声を特に検出音声とも称することとする。
入力制御部34は、視線検出部31から供給された視線情報に基づいて、音声区間検出部33から供給された検出音声情報の音声認識部22への入力、すなわち音声認識のための検出音声情報の入力の受付けを制御する。
例えば入力制御部34は、音声認識部22で音声認識を行うための音声入力が受付けられている状態を音声入力受付け状態とする。
この実施の形態では、検出音声情報の入力が受付けられている状態、すなわち検出音声情報を音声認識部22に供給(入力)可能な状態が音声入力受付け状態である。
入力制御部34は、視線検出部31から供給された視線情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりする。換言すれば、音声入力受付け状態の開始および終了が制御される。
入力制御部34は、音声入力受付け状態へと遷移すると、すなわち音声入力受付け状態が開始されると、供給された検出音声情報を音声認識部22へと供給し、音声入力受付け状態が終了すると、検出音声情報が供給されてもその検出音声情報を音声認識部22へと供給しない。このように入力制御部34は、音声認識部22への検出音声情報の入力開始および終了を制御することで、音声認識部22での音声認識の実行を制御する。
音声認識部22は、入力制御部34から供給された検出音声情報に対して音声認識を行って、検出音声情報を検出音声のテキスト情報へと変換し、得られたテキスト情報を出力する。
〈音声認識の開始および終了について〉
ところで、音声区間検出部33では入力音声情報の音圧に基づいて発話区間の検出が行われる。例えば図2に示す入力音声が供給された場合には、他の区間よりも音圧レベルが高い始端A11から終端A12までの区間T11が発話区間として検出される。そして、音声区間検出部33から入力制御部34には、この区間T11の部分が検出音声情報として供給される。
ところで、音声区間検出部33では入力音声情報の音圧に基づいて発話区間の検出が行われる。例えば図2に示す入力音声が供給された場合には、他の区間よりも音圧レベルが高い始端A11から終端A12までの区間T11が発話区間として検出される。そして、音声区間検出部33から入力制御部34には、この区間T11の部分が検出音声情報として供給される。
入力制御部34では、視線情報に基づいて検出音声情報の入力の受付けが制御される。
具体的には、例えばユーザの視線が予め定められた特定の場所に向けられたとき、入力制御部34は音声入力受付け状態とし、音声認識部22への検出音声情報の入力の受付けを開始する。
なお、この時点では検出音声情報の入力の受付けが開始されるだけであり、実際に音声認識部22へと検出音声情報が供給されるのは、音声区間検出部33によって発話区間が検出されたタイミングである。
また、ここでいう特定の場所とは、例えば音声入力部32が設けられた情報処理装置21等のデバイスなどとされる。以下では、ユーザの視線が向けられたときに音声入力受付け状態とされる特定の場所(位置)を、特に入力受付け視線位置とも称することとする。
情報処理装置21では、音声入力受付け状態であるか否かによらず、音声入力部32により継続的に収音が行われており、音声区間検出部33でも継続的に発話区間の検出が行われている。
また、視線検出部31では、ユーザの発話中であっても継続的に視線検出が行われ、ユーザが入力受付け視線位置へと視線を向け続けている限りは継続して音声入力受付け状態とされ、ユーザの視線が入力受付け視線位置から外れると音声入力受付け状態が終了する。
ここで、図3乃至図7を参照して、検出音声情報の入力の開始および終了の制御例について説明する。なお、図3乃至図7において、図中、横方向は時間方向を示している。
例えば図3に示す例では、期間T31はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T31の開始直後のタイミングである矢印A31に示すタイミング(時刻)において音声入力受付け状態となり、期間T31の終了直後のタイミングである矢印A32に示すタイミング(時刻)において音声入力受付け状態が終了する。つまり、期間T31と略同じ期間である期間T32の間、継続して音声入力受付け状態とされる。
また、この例では音声入力受付け状態とされている期間T32内において入力音声から発話区間T33が検出されている。そのため、入力音声情報のうちの発話区間T33の部分全てが検出音声情報として音声認識部22へと供給され、音声認識が行われる。すなわち、ここでは発話区間T33に対応する期間T34において継続して音声認識が行われ、その認識結果が出力される。
このように音声認識システム11では、音声入力受付け状態とされているときに、音声区間検出部33によってユーザの発話の始端が検出されると、その発話の始端以降の部分が検出音声情報として音声認識部22へと供給される。検出音声情報が音声認識部22へと供給される処理は、ユーザが発話すると同時にリアルタイムに開始され、音声入力受付け状態が終了しない限り、音声区間検出部33がユーザの発話の終端を検出するまで継続して行われる。
また、図4に示す例では、期間T41はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T41の開始直後のタイミングである矢印A41に示すタイミングにおいて音声入力受付け状態となり、期間T41の終了直後のタイミングである矢印A42に示すタイミングにおいて音声入力受付け状態が終了する。すなわち、期間T42の間、継続して音声入力受付け状態とされる。
この例では音声入力受付け状態とされている期間T42内において入力音声から発話区間T43の始端が検出されているが、発話区間T43の終端は期間T42外のタイミングとなっている。
音声区間検出部33では、入力音声情報のうちの発話区間T43の始端以降の部分が検出音声情報とされる。そして検出音声情報の音声認識部22への供給が開始されるが、発話区間T43の終端が検出される前に音声入力受付け状態が終了し、検出音声情報の音声認識部22への供給が中止される。すなわち、ここでは発話区間T43の一部の期間に対応する期間T44において音声認識が行われるが、音声入力受付け状態の終了とともに音声認識部22での音声認識の処理が中止(キャンセル)される。
ユーザの視線が入力受付け視線位置へと向けられて音声入力受付け状態とされた後、ユーザの視線が入力受付け視線位置とは異なる位置へと向けられた場合には、その時点で音声入力受付け状態が終了され、ユーザの発話中であっても音声認識処理も中止される。したがって、例えばユーザが他のユーザと会話しているときに、偶然、入力受付け視線位置へと視線を向けてしまった場合など、音声認識システム11での音声認識機能の起動を意図しない場合に音声認識が行われ、ユーザとの対話等が開始されてしまうという誤作動を防止することができる。
図5に示す例では、期間T51はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T51の開始直後の矢印A51に示すタイミングにおいて音声入力受付け状態となり、期間T51の終了直後の矢印A52に示すタイミングにおいて音声入力受付け状態が終了する。すなわち、期間T52の間、継続して音声入力受付け状態とされる。
この例では一部が期間T52内に含まれる期間が発話区間T53として検出されているが、その発話区間T53の始端は、音声入力受付け状態とされる矢印A51に示すタイミングよりも時間的に前のタイミングで検出されている。そのため、入力音声情報の発話区間T53に対応する部分は音声認識部22へと供給されず、音声認識も行われない。換言すれば、音声入力受付け状態とされている期間内で発話区間T53の始端が検出されなかった場合には、音声認識は行われない。
図6に示す例では、期間T61はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T62は音声入力受付け状態とされている期間を示している。この例では、入力音声情報から発話区間T63と発話区間T64という2つの発話区間が検出されている。
ここでは、音声入力受付け状態とされている期間T62内に発話区間T63全体が含まれているため、入力音声情報のうちの発話区間T63の部分が検出音声情報として音声認識部22へと供給され、音声認識が行われる。すなわち、発話区間T63に対応する期間T65において継続して音声認識が行われ、その認識結果が出力される。
これに対して発話区間T64は、その発話区間T64の始端部分は期間T62内に含まれているが、発話区間T64の終端部分は期間T62内に含まれていない。すなわち、ユーザは発話区間T64に対応する発話の途中で視線を入力受付け視線位置から逸らしてしまっている。
そのため、入力音声情報のうちの発話区間T64の始端以降の部分が検出音声情報として音声認識部22へと供給されるが、その検出音声情報の供給は期間T62の終端のタイミングで中止されることになる。すなわち、ここでは発話区間T64の一部の期間に対応する期間T66において音声認識が行われ、音声入力受付け状態の終了とともに音声認識の処理が中止(キャンセル)される。
図7に示す例では、期間T71はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T72は音声入力受付け状態とされている期間を示している。この例では、入力音声情報から発話区間T73と発話区間T74という2つの発話区間が検出されている。
ここでは、1つ目の発話区間T73については、その発話区間T73の始端は、音声入力受付け状態とされる期間T72の始端前のタイミングで検出されているため、図5における例と同様に入力音声情報の発話区間T73に対応する部分は音声認識部22へと供給されず、音声認識も行われない。
これに対して、2つ目の発話区間T74については、音声入力受付け状態とされている期間T72内に発話区間T74全体が含まれているため、入力音声情報のうちの発話区間T74の部分が検出音声情報として音声認識部22へと供給され、音声認識が行われる。すなわち、発話区間T74に対応する期間T75において継続して音声認識が行われている。
図6や図7の例のように、ユーザが入力受付け視線位置に視線を向けている状態で、ユーザの発話(発話区間)の終端が検出された後、さらにユーザが入力受付け視線位置に視線を向けたまま次の発話を行うと、その発話が音声認識の対象とされることになる。
以上のように、本技術ではユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とすることで、より適切な音声認識の実行制御を実現することができる。
特に、ユーザが入力受付け視線位置から視線を逸らした時点で音声入力受付け状態を終了させることで、ユーザが意図せず入力受付け視線位置へと視線を向けてしまった場合に、継続して音声認識が行われてしまうことを防止することができる。すなわち、例えば図4や図6に示した例のように、適切な音声認識の実行制御を行うことができる。また、例えば図6や図7に示した例のように、ユーザが複数の発話を行った場合でも、それらの発話のうち、ユーザが入力受付け視線位置へと視線を向けた状態でなされた発話について音声認識が行われる。
〈入力受付制御処理の説明〉
次に、音声認識システム11の動作について説明する。
次に、音声認識システム11の動作について説明する。
例えば音声認識システム11が起動している間、音声認識システム11では、音声入力の受付けを制御する入力受付制御処理と、入力された音声に対して音声認識を行う音声認識実行処理とが並行して行われる。
まず、図8のフローチャートを参照して、音声認識システム11により行われる入力受付制御処理について説明する。
ステップS11において視線検出部31は視線検出を行い、その検出結果として得られた視線情報を入力制御部34に供給する。
ステップS12において入力制御部34は音声入力受付け状態であるか否かを判定する。
ステップS12において音声入力受付け状態ではないと判定された場合、ステップS13において入力制御部34は、視線検出部31から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。すなわち、例えば視線情報により示されるユーザの視線方向が入力受付け視線位置のある方向であるか否かが判定される。
ステップS13において視線が入力受付け視線位置を向いていないと判定された場合、音声入力受付け状態ではない状態のままとされ、その後、処理はステップS17へと進む。
これに対してステップS13において視線が入力受付け視線位置を向いていると判定された場合、ステップS14において入力制御部34は音声入力受付け状態とする。ステップS14の処理が行われると、その後、処理はステップS17へと進む。
また、ステップS12において音声入力受付け状態であると判定された場合、ステップS15において入力制御部34は、視線検出部31から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。
ステップS15において視線が入力受付け視線位置を向いていると判定された場合、ユーザの視線は継続して入力受付け視線位置へと向けられているので音声入力受付け状態のままとされ、処理はステップS17へと進む。
これに対してステップS15において視線が入力受付け視線位置を向いていないと判定された場合、ユーザの視線が入力受付け視線位置から外されたので、ステップS16において入力制御部34は音声入力受付け状態を終了させる。ステップS16の処理が行われると、その後、処理はステップS17へと進む。
ステップS13において入力受付け視線位置を向いていないと判定されたか、ステップS14若しくはステップS16の処理が行われたか、またはステップS15において入力受付け視線位置を向いていると判定されると、ステップS17の処理が行われる。
ステップS17において入力制御部34は、処理を終了するか否かを判定する。例えばステップS17では、音声認識システム11の動作停止が指示された場合、処理を終了すると判定される。
ステップS17において処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS17において処理を終了すると判定された場合、音声認識システム11の各部は動作を停止させ、入力受付制御処理は終了する。
以上のようにして音声認識システム11は、ユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外されると音声入力受付け状態を終了させる。
このようにユーザの視線情報に基づいて音声入力受付け状態の開始や終了を制御することで、より適切な音声認識の実行制御を実現することができる。これにより、音声認識機能の誤作動を抑制し、音声認識システム11の使い勝手を向上させることができる。
〈音声認識実行処理の説明〉
続いて、図9のフローチャートを参照して、音声認識システム11により入力受付制御処理と同時に行われる音声認識実行処理について説明する。
続いて、図9のフローチャートを参照して、音声認識システム11により入力受付制御処理と同時に行われる音声認識実行処理について説明する。
ステップS41において、音声入力部32は周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部33に供給する。
ステップS42において、音声区間検出部33は音声入力部32から供給された入力音声情報に基づいて音声区間検出を行う。
すなわち、音声区間検出部33は音声区間検出によって入力音声情報のうちの発話区間を検出し、発話区間が検出された場合、入力音声情報の発話区間の部分を検出音声情報として入力制御部34に供給する。
ステップS43において、入力制御部34は音声入力受付け状態であるか否かを判定する。
ステップS43において音声入力受付け状態であると判定された場合、処理はステップS44へと進む。
ステップS44において、入力制御部34はステップS42における音声区間検出により発話区間の始端が検出されたか否かを判定する。
例えば入力制御部34は、音声入力受付け状態となっている状態で、音声区間検出部33から検出音声情報の供給が開始された場合、発話区間の始端が検出されたと判定する。
また、例えば入力制御部34は、既に発話区間の始端が検出されて音声認識中である場合や、音声入力受付け状態であるがまだ発話区間の始端が検出されておらず、音声認識が行われていない状態である場合、発話区間の始端が検出されていないと判定する。
その他、例えば音声入力受付け状態でないときに発話区間の始端が検出され、その後、音声入力受付け状態とされた状態となっている場合にも発話区間の始端が検出されていないと判定される。
ステップS44において発話区間の始端が検出されたと判定された場合、ステップS45において、入力制御部34は音声区間検出部33から供給された検出音声情報の音声認識部22への供給を開始し、これにより音声認識部22に音声認識を開始させる。
音声認識部22は、入力制御部34から検出音声情報が供給されると、その検出音声情報に対する音声認識を行う。このようにして音声認識が開始されると、その後、処理はステップS52へと進む。
例えば図3に示した例のように、音声入力受付け状態となっているときに発話区間T33の始端が検出されると、ステップS45で音声認識が開始される。
これに対して、ステップS44において発話区間の始端が検出されなかったと判定された場合、ステップS46において入力制御部34は音声認識中であるか否かを判定する。
ステップS46において音声認識中でないと判定された場合、音声認識部22への検出音声情報の供給は行われず、処理はステップS52へと進む。
ここでは、例えば音声入力受付け状態であるが、まだ発話区間の始端が検出されていない状態である場合や、図5の例のように音声入力受付け状態であるが、音声入力受付け状態となる前に発話区間の始端が検出された場合などに音声認識中でないと判定される。
これに対して、ステップS46において音声認識中であると判定された場合、ステップS47において入力制御部34はステップS42における音声区間検出により発話区間の終端が検出されたか否かを判定する。
例えば入力制御部34は、音声入力受付け状態となっている状態で、これまで継続的に行われていた音声区間検出部33からの検出音声情報の供給が終了した場合、発話区間の終端が検出されたと判定する。
ステップS47において発話区間の終端が検出されたと判定された場合、ステップS48において入力制御部34は検出音声情報の音声認識部22への供給を終了し、これにより音声認識部22に音声認識を終了させる。
例えば図3に示した例のように、音声入力受付け状態となっているときに発話区間T33の終端が検出されると、ステップS48で音声認識が終了される。この場合、発話区間全体に対して音声認識が行われたことになり、音声認識部22は音声認識の結果として得られたテキスト情報を出力する。
音声認識が終了すると、その後、処理はステップS52へと進む。
また、ステップS47において発話区間の終端が検出されなかったと判定された場合、処理はステップS49へと進む。
ステップS49において、入力制御部34は音声区間検出部33から供給される検出音声情報の音声認識部22への供給を継続して行い、これにより音声認識部22に音声認識を継続して行わせる。ステップS49の処理が行われると、その後、処理はステップS52へと進む。
また、ステップS43において音声入力受付け状態でないと判定された場合、ステップS50において入力制御部34は音声認識中であるか否かを判定する。
ステップS50において音声認識中であると判定された場合、ステップS51において入力制御部34は、音声区間検出部33から供給された検出音声情報の音声認識部22への供給を終了し、これにより音声認識部22に音声認識を終了させる。
例えば図4に示した例のように音声認識の途中で音声入力受付け状態が終了された場合、ステップS51の処理が行われ、音声認識の処理が中止される。すなわち、音声認識の処理が途中で終了される。ステップS51の処理が行われると、その後、処理はステップS52へと進む。
一方、ステップS50において音声認識中でないと判定された場合、ステップS51の処理は行われず、その後、処理はステップS52へと進む。
ステップS45、ステップS48、ステップS49、若しくはステップS51の処理が行われたか、またはステップS46若しくはステップS50において音声認識中でないと判定された場合、ステップS52の処理が行われる。
ステップS52において入力制御部34は、処理を終了するか否かを判定する。例えばステップS52では、音声認識システム11の動作停止が指示された場合、処理を終了すると判定される。
ステップS52において処理を終了しないと判定された場合、処理はステップS41に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS52において処理を終了すると判定された場合、音声認識システム11の各部は動作を停止させ、音声認識実行処理は終了する。
以上のようにして音声認識システム11は、継続的に収音と音声区間検出を行いながら、音声入力受付け状態であるか否かに応じて音声認識部22での音声認識の実行を制御する。このように音声入力受付け状態であるか否かに応じて音声認識を実行させることで、音声認識機能の誤作動を抑制し、音声認識システム11の使い勝手を向上させることができる。
〈第2の実施の形態〉
〈音声認識システムの構成例〉
なお、上述した第1の実施の形態では、音声認識システム11において音声区間検出部33から出力された検出音声情報が直接、入力制御部34に供給される例について説明した。しかし、音声区間検出部33から出力された検出音声情報が、一旦、バッファに保持されて、入力制御部34がバッファから逐次、検出音声情報を読み出すようにしてもよい。
〈音声認識システムの構成例〉
なお、上述した第1の実施の形態では、音声認識システム11において音声区間検出部33から出力された検出音声情報が直接、入力制御部34に供給される例について説明した。しかし、音声区間検出部33から出力された検出音声情報が、一旦、バッファに保持されて、入力制御部34がバッファから逐次、検出音声情報を読み出すようにしてもよい。
そのような場合、音声認識システム11は、例えば図10に示すように構成される。なお、図10において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図10に示す音声認識システム11は、情報処理装置21および音声認識部22を有しており、また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、音声バッファ61、および入力制御部34を有している。
図10に示す音声認識システム11の構成は、図1に示した音声認識システム11に新たに音声バッファ61を追加した構成となっており、その他の点では図1に示した音声認識システム11と同じ構成となっている。
音声バッファ61は、音声区間検出部33から供給された検出音声情報を一時的に保持し、保持している検出音声情報を入力制御部34に供給する。入力制御部34は、音声バッファ61に保持されている検出音声情報を読み出して音声認識部22へと供給する。
例えばユーザが発話中に、つまり発話開始後に視線を入力受付け視線位置へと向けた場合について考える。
この場合、第1の実施の形態では、発話区間の始端が検出されるのは音声入力受付け状態の開始前のタイミング、つまり音声入力受付け状態ではないタイミングであるので、その発話区間に対して音声認識は行われない。
これに対して、図10に示す音声認識システム11では、検出音声情報を一時的に保持(蓄積)しておく音声バッファ61が設けられている。
そのため、ユーザが発話開始後に視線を入力受付け視線位置へと向けた場合でも、音声バッファ61の大きさによっては、音声入力受付け状態となった時点で音声バッファ61に保持されている過去の検出音声情報をさかのぼり、発話区間の始端から検出音声情報を音声認識部22へと供給することが可能となる。
例えば図11に示すように、音声バッファ61において矩形状の枠W11の大きさの分だけ検出音声情報を保持しておくことができるものとする。なお、図11において図中、横方向は時間方向を示している。
図11に示す例では、期間T81はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T82は音声入力受付け状態とされている期間を示している。
また、この例では、発話区間T83の始端位置は期間T82の始端位置よりも時間的に前の位置(時刻)となっており、発話区間T83の終端位置は、期間T82の終端位置よりも時間的に前の位置(時刻)となっている。
換言すれば、ユーザは発話を開始した後で視線を入力受付け視線位置へと向けており、発話が終了してから視線を入力受付け視線位置から外している。
しかし、発話区間T83のうちの枠W11で囲まれる部分の検出音声情報が音声バッファ61に保持されている。特に、ここでは発話区間T83の始端部分を含む所定の長さの区間の検出音声情報が音声バッファ61に保持されている。
そのため、期間T82の始端位置のタイミング、すなわちユーザが視線を入力受付け視線位置へと向けたタイミングで、入力制御部34が音声バッファ61から検出音声情報を読み出して音声認識部22へと供給し、音声認識を開始させることができる。これにより、例えば期間T84において、発話区間T83全体に対する音声認識が行われる。
すなわち、この場合、入力制御部34は音声バッファ61に保持されている過去の検出音声情報をさかのぼり、発話区間T83の始端を検出する。そして、入力制御部34は発話区間T83の始端が検出されると、その始端部分に対応するものから順番に、音声バッファ61に保持されている検出音声情報を音声認識部22へと供給していく。
なお、音声バッファ61を参照して発話区間の始端を検出するのに過去のどれくらいの時間までさかのぼるかは、予め定められた設定値や音声バッファ61の大きさ(サイズ)などから定めておけばよい。
また、ユーザの1つの発話に対応する検出音声情報を全て格納可能な大きさの音声バッファ61を用意しておくようにしてもよい。そうすれば、例えば図12に示すように、発話終了後にユーザが入力受付け視線位置へと視線を向けた場合でも、発話区間の始端から検出音声情報を音声認識部22へと供給することが可能である。なお、図12において図中、横方向は時間方向を示している。
図12に示す例では、期間T91はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T92は音声入力受付け状態とされている期間を示している。
この例では、発話区間T93の終端位置は、音声入力受付け状態とされている期間T92の始端位置よりも時間的に前の位置(時刻)となっている。
しかし、音声認識システム11では、矩形状の枠W21で囲まれる部分の検出音声情報が音声バッファ61に保持されている。特に、ここでは発話区間T93全体の検出音声情報が音声バッファ61に保持されている。
したがって、ユーザが発話終了後に入力受付け視線位置へと視線を向けると、図11における場合と同様に、音声バッファ61に保持されている発話区間T93部分の検出音声情報が音声認識部22へと供給され、音声認識が開始される。これにより、例えば期間T94において、発話区間T93全体に対する音声認識が行われる。
但し、ユーザが入力受付け視線位置から視線を逸らすと音声入力受付け状態が終了されるため、発話区間T93全体に対する音声認識が行われている間は、ユーザは入力受付け視線位置へと視線を向け続けている必要がある。
以上のような音声バッファ61を有する音声認識システム11においても、図8を参照して説明した入力受付制御処理や、図9を参照して説明した音声認識実行処理が行われる。
但し、音声認識実行処理では、ステップS42の音声区間検出で発話区間が検出された場合には、その発話区間の検出音声情報が音声区間検出部33から音声バッファ61へと供給されて保持される。このとき音声バッファ61では、保持されている検出音声情報のうち、発話区間の始端部分がどの部分であるかが分かるようにされている。
また、ステップS44やステップS47では、入力制御部34は、音声バッファ61に保持されている検出音声情報から発話区間の始端や終端を検出し、音声バッファ61に保持されている検出音声情報を適宜、音声認識部22へと供給する。
このような図10に示した音声認識システム11によれば、ユーザの発話のタイミングと、ユーザが入力受付け視線位置へと視線を向けるタイミングとにずれが生じたときでも、ユーザの意図通り、音声認識を行わせることができる。
〈第3の実施の形態〉
〈音声認識システムの構成例〉
なお、上述した入力受付け視線位置は、1つであってもよいし、複数であってもよい。例えば入力受付け視線位置を複数用意することで、単一のシステム、すなわち1つの音声認識システム11で複数の機器を操作する場合に、ユーザがそれらの機器へと視線を移動させながら音声入力を継続して行うことができる。
〈音声認識システムの構成例〉
なお、上述した入力受付け視線位置は、1つであってもよいし、複数であってもよい。例えば入力受付け視線位置を複数用意することで、単一のシステム、すなわち1つの音声認識システム11で複数の機器を操作する場合に、ユーザがそれらの機器へと視線を移動させながら音声入力を継続して行うことができる。
また、音声認識システム11がユーザの発話の内容、すなわちコンテキストを理解して、動的に入力受付け視線位置を追加したり、入力受付け視線位置を削除したりしてもよい。
具体的には、例えばユーザが「テレビをつけて」と発話した場合、入力制御部34が音声認識部22で得られた認識結果、すなわちコンテキストに基づいて、テレビがある位置(領域)を入力受付け視線位置として追加する。逆に、例えばユーザが「テレビを消して」と発話した場合、テレビの位置が入力受付け視線位置ではなくなるように、入力受付け視線位置の更新が行われる。すなわち、入力受付け視線位置として登録されていたテレビの位置が削除される。
入力受付け視線位置の動的な削除を行うことで、入力受付け視線位置の数が増えすぎて、意図せずに音声認識部22へと検出音声情報の供給が開始されてしまうことを防止することができる。
なお、入力受付け視線位置の設定、すなわち入力受付け視線位置の追加や削除は、ユーザが手動で行うようにしてもよいし、音声認識システム11が画像認識技術等を利用して行うようにしてもよい。
また、入力受付け視線位置が複数ある場合、特に動的に入力受付け視線位置とする位置の追加や削除が行われる場合、現時点ではどの場所が入力受付け視線位置となっているのかをユーザが把握しにくいこともある。そこで、例えばディスプレイへの表示や、スピーカによる音声出力などによって、どの場所が入力受付け視線位置となっているのかを明示的に提示するようにしてもよい。
入力受付け視線位置の動的な追加および削除が行われる場合、例えば音声認識システム11は図13に示すように構成される。なお、図13において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13に示す音声認識システム11は、情報処理装置21および音声認識部22を有しており、また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、入力制御部34、撮像部91、画像認識部92、および提示部93を有している。
図13に示す音声認識システム11の構成は、図1に示した音声認識システム11に新たに撮像部91乃至提示部93を追加した構成となっており、その他の点では図1に示した音声認識システム11と同じ構成となっている。
撮像部91は、例えばカメラなどからなり、情報処理装置21の周囲を被写体として撮像し、その結果得られた画像を画像認識部92に供給する。
画像認識部92は、撮像部91から供給された画像に対して画像認識を行い、画像認識の結果として、情報処理装置21の周囲にある所定のデバイス等の位置(方向)を示す情報を入力制御部34に供給する。例えば画像認識部92では、予め定められた、入力受付け視線位置となり得るデバイス等の対象物が画像認識により検出される。
入力制御部34は、入力受付け視線位置とする1または複数の場所(位置)を示す登録情報を保持しており、音声認識部22から供給された音声認識の結果や、画像認識部92から供給された画像認識の結果に基づいて登録情報の管理を行う。換言すれば、入力制御部34は、入力受付け視線位置とする場所(位置)の追加や削除を動的に行う。なお、入力受付け視線位置の追加または削除の何れか一方のみが行われてもよい。
提示部93は、例えばディスプレイ等の表示部やスピーカ、発光部などからなり、入力制御部34の制御に従って、ユーザに対して入力受付け視線位置に関する提示を行う。
なお、撮像部91や画像認識部92、提示部93は、情報処理装置21とは異なるデバイスに設けられていてもよい。また、提示部93は設けられないようにしてもよく、さらに図13に示した音声認識システム11に、図10に示した音声バッファ61が設けられていてもよい。
〈更新処理の説明〉
図13に示す音声認識システム11では、図8を参照して説明した入力受付制御処理、および図9を参照して説明した音声認識実行処理が行われるが、これらの入力受付制御処理および音声認識実行処理と同時に、登録情報を更新する更新処理も行われる。
図13に示す音声認識システム11では、図8を参照して説明した入力受付制御処理、および図9を参照して説明した音声認識実行処理が行われるが、これらの入力受付制御処理および音声認識実行処理と同時に、登録情報を更新する更新処理も行われる。
以下、図14のフローチャートを参照して、音声認識システム11により行われる更新処理について説明する。
ステップS81において入力制御部34は、音声認識部22から音声認識の結果を取得する。ここでは、例えば音声認識の結果として検出音声のテキスト情報、つまりユーザの発話内容を示すテキスト情報が取得される。
ステップS82において入力制御部34は、ステップS81で取得した音声認識の結果と、保持している登録情報とに基づいて入力受付け視線位置を追加するか否かを判定する。
例えば音声認識の結果として取得したテキスト情報が「テレビをつけて」であり、登録情報においてテレビの位置が入力受付け視線位置として登録されていない場合、入力受付け視線位置を追加すると判定される。この場合、テレビの位置が新たな入力受付け視線位置として追加されることになる。
ステップS82において入力受付け視線位置を追加しないと判定された場合、ステップS83乃至ステップS86の処理は行われず、処理はステップS87へと進む。
これに対して、ステップS82において入力受付け視線位置を追加すると判定された場合、ステップS83において撮像部91は、情報処理装置21の周囲を被写体として撮像し、その結果得られた画像を画像認識部92に供給する。
ステップS84において画像認識部92は、撮像部91から供給された画像に対して画像認識を行い、その画像認識の結果を入力制御部34に供給する。
ステップS85において、入力制御部34は、新たな入力受付け視線位置を追加する。
すなわち、入力制御部34は、画像認識部92から供給された画像認識の結果に基づいて、ステップS82において追加するとされた位置が入力受付け視線位置として登録情報に登録(追加)されるように、保持している登録情報を更新する。
例えばテレビの位置を新たな入力受付け視線位置として追加する場合、画像認識の結果により示されるテレビの位置、すなわちテレビがある方向を示す情報が、新たな入力受付け視線位置を示す情報として登録情報に追加される。
新たな入力受付け視線位置が追加されると、入力制御部34は、適宜、追加した入力受付け視線位置を示すテキスト情報や音声情報、方向情報などを提示部93に供給し、新たに追加した入力受付け視線位置の提示を指示する。
ステップS86において提示部93は、入力制御部34の指示に応じて入力受付け視線位置の提示を行う。
例えば提示部93がディスプレイを有する場合、ディスプレイは入力制御部34から供給された、新たに追加した入力受付け視線位置を示すテキスト情報や、現時点で登録情報に登録されている入力受付け視線位置を示すテキスト情報等を表示する。
具体的には、例えば「テレビが入力受付け視線位置として追加されました」などのテキスト情報がディスプレイに表示されるようにすることができる。その他、例えばディスプレイに新たに追加された入力受付け視線位置の方向を表示させたり、提示部93としての複数の発光部のうち、新たに追加された入力受付け視線位置の方向にある発光部を発光させたりしてもよい。
また、例えば提示部93がスピーカを有する場合、スピーカは入力制御部34から供給された、新たに追加した入力受付け視線位置を示す音声情報や、現時点で登録情報に登録されている入力受付け視線位置を示す音声情報等に基づいて音声メッセージを出力する。
入力受付け視線位置の提示が行われると、その後、処理はステップS87へと進む。
ステップS86の処理が行われたか、またはステップS82において入力受付け視線位置を追加しないと判定された場合、ステップS87の処理が行われる。
ステップS87において入力制御部34は、ステップS81で取得した音声認識の結果と、保持している登録情報とに基づいて入力受付け視線位置を削除するか否かを判定する。
例えば音声認識の結果として取得したテキスト情報が「テレビを消して」であり、登録情報においてテレビの位置が入力受付け視線位置として登録されている場合、入力受付け視線位置を削除すると判定される。この場合、入力受付け視線位置として登録されていたテレビの位置が登録情報から削除されることになる。
ステップS87において入力受付け視線位置を削除しないと判定された場合、ステップS88およびステップS89の処理は行われず、処理はステップS90へと進む。
これに対して、ステップS87において入力受付け視線位置を削除すると判定された場合、ステップS88において入力制御部34は入力受付け視線位置を削除する。
すなわち、入力制御部34は、ステップS87において削除するとされた入力受付け視線位置を示す情報が登録情報から削除されるように、保持している登録情報を更新する。
例えば入力受付け視線位置として登録されていたテレビの位置が削除される場合、入力制御部34は登録情報に登録されている、すなわち登録情報に含まれているテレビの位置を示す情報を登録情報から削除する。
入力受付け視線位置が削除されると、入力制御部34は、適宜、削除した入力受付け視線位置を示すテキスト情報や音声情報、方向情報などを提示部93に供給し、削除した入力受付け視線位置の提示を指示する。
ステップS89において提示部93は、入力制御部34の指示に応じて、削除した入力受付け視線位置の提示を行う。
例えばステップS89ではステップS86における場合と同様に、ディスプレイに削除された入力受付け視線位置を示すテキスト情報が表示されたり、スピーカにより特定の位置(場所)が入力受付け視線位置から削除された旨の音声メッセージが出力されたりする。
なお、この場合、更新後の登録情報に登録されている入力受付け視線位置を示すテキスト情報や音声メッセージが提示されるようにしてもよい。
ステップS89の処理が行われたか、またはステップS87において入力受付け視線位置を削除しないと判定された場合、ステップS90の処理が行われる。
ステップS90において入力制御部34は、処理を終了するか否かを判定する。例えばステップS90では、音声認識システム11の動作停止が指示された場合、処理を終了すると判定される。
ステップS90において処理を終了しないと判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS90において処理を終了すると判定された場合、音声認識システム11の各部は動作を停止させ、更新処理は終了する。
以上のようにして音声認識システム11は、音声認識の結果、すなわちユーザの発話のコンテキストに基づいて、入力受付け視線位置を追加したり削除したりする。
このように動的に入力受付け視線位置を追加したり削除したりすることで、あると便利な位置を入力受付け視線位置として追加したり、不要となった入力受付け視線位置を削除したりして使い勝手を向上させることができる。また、追加または削除された入力受付け視線位置の提示を行うことで、ユーザは入力受付け視線位置の追加や削除を容易に把握することができる。
〈第4の実施の形態〉
〈音声入力受付け状態の終了について〉
ところで、音声認識システム11では、ユーザが入力受付け視線位置へと視線を向けると音声入力受付け状態へと遷移し、ユーザが入力受付け視線位置から視線を逸らすと音声入力受付け状態が終了されると説明した。すなわち、ユーザの視線が入力受付け視線位置の方向を向いていないという条件が満たされた場合、音声入力受付け状態が終了されると説明した。
〈音声入力受付け状態の終了について〉
ところで、音声認識システム11では、ユーザが入力受付け視線位置へと視線を向けると音声入力受付け状態へと遷移し、ユーザが入力受付け視線位置から視線を逸らすと音声入力受付け状態が終了されると説明した。すなわち、ユーザの視線が入力受付け視線位置の方向を向いていないという条件が満たされた場合、音声入力受付け状態が終了されると説明した。
しかし、視線検出ではユーザの意図に反して、ユーザが入力受付け視線位置から視線を逸らしたと判定されてしまう場合がある。
このようなユーザの意図に反した判定の要因としては、例えば視線検出の誤検出が生じた場合や、ユーザと視線検出部31の間を遮蔽物が通った場合、ユーザが一時的に入力受付け視線位置から視線を逸らした場合などが考えられる。
そのような場合に、ユーザの意図に反して音声認識が中止されないように、ユーザの視線が入力受付け視線位置から外されたと判定するときの条件を設けるようにしてもよい。換言すれば、視線情報に基づく所定条件が満たされた場合、入力制御部34が音声入力受付け状態を終了させるようにしてもよい。
具体的には、例えば図15や図16に示すようにユーザの視線が入力受付け視線位置から外れている継続時間が一定時間を超えた場合に音声入力受付け状態が終了されるようにしてもよい。なお、図15および図16において横方向は時間方向を示している。
図15に示す例では、期間T101および期間T103はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T102および期間T104はユーザの視線が入力受付け視線位置から外れている期間を示している。
また、音声入力受付け状態を終了させると判定される、ユーザの視線が入力受付け視線位置から継続して外れている時間(継続時間)を閾値th1と記すこととする。
この例では、入力制御部34において期間T101の間、ユーザの視線が入力受付け視線位置へと向けられていると判定される。したがって、期間T101の始端のタイミングで音声入力受付け状態となる。
また、入力制御部34では期間T101の後、期間T102の間、ユーザの視線が入力受付け視線位置から外れていると判定され、その期間T102後の期間T103の間、ユーザの視線が再び入力受付け視線位置へと向けられていると判定される。
音声入力受付け状態とされた後、期間T102ではユーザの視線が入力受付け視線位置から外れていると判定されているが、この期間T102の長さは閾値th1以下であるので、入力制御部34では継続して音声入力受付け状態とされる。
すなわち、音声入力受付け状態とされた後、ユーザは一時的に入力受付け視線位置から視線を外しているが、その視線を外していた継続時間が閾値th1よりも短かったため、音声入力受付け状態が維持される。
また、期間T103の終了後、ユーザの視線が入力受付け視線位置から外れていると判定され、その後、ユーザの視線が入力受付け視線位置から外れていると判定され続けている時間が閾値th1を超えた時点で、入力制御部34は音声入力受付け状態を終了させる。
すなわち、期間T103の後の期間T104は、ユーザの視線が入力受付け視線位置から外れている期間であり、この期間T104の長さは閾値th1よりも長いので、音声入力受付け状態が終了される。したがって、ここでは期間T101の始端直後から、期間T104の終端直後までの期間T105が音声入力受付け状態とされる期間となる。
この例では音声入力受付け状態とされている期間T105内において入力音声から発話区間T106が検出されており、期間T107において、発話区間T106全体に対する音声認識が行われ、その認識結果が出力される。
また、図16に示す例では期間T111および期間T113はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T112はユーザの視線が入力受付け視線位置から外れている期間を示している。
この例では、入力制御部34において期間T111の間、ユーザの視線が入力受付け視線位置へと向けられていると判定される。したがって、期間T111の始端のタイミングで音声入力受付け状態となる。
また、入力制御部34では期間T111の後、期間T112の間、ユーザの視線が入力受付け視線位置から外れていると判定され、その期間T112後の期間T113の間、ユーザの視線が入力受付け視線位置へと向けられていると判定されている。
期間T111に続く期間T112は閾値th1よりも長い期間となっているので、期間T112の開始後、ユーザの視線が入力受付け視線位置から外れていると判定され続けている継続時間が閾値th1を超えた時点で、入力制御部34は音声入力受付け状態を終了させる。
したがって、ここでは期間T111の始端直後から、期間T112の途中の時刻までの期間T114が音声入力受付け状態とされる期間となる。
また、この例では音声入力受付け状態とされている期間T111内のタイミングで、入力音声から発話区間T115の始端が検出されている。しかし、発話区間T115の終端は、音声入力受付け状態ではない期間T113内のタイミング(時刻)となっている。
ここでは、入力音声情報のうちの発話区間T115の始端以降の部分が検出音声情報とされ、検出音声情報の音声認識部22への供給が開始される。しかし、発話区間T115の終端が検出される前に音声入力受付け状態が終了し、検出音声情報の音声認識部22への供給が中止される。すなわち、発話区間T115の一部の期間に対応する期間T116において音声認識が行われ、音声入力受付け状態の終了とともに音声認識の処理が中止される。
このように音声入力受付け状態となっている場合、ユーザの視線が入力受付け視線位置から外されたときには、入力制御部34は、ユーザの視線が入力受付け視線位置から外されている継続時間を計測する。
そして入力制御部34は、計測された継続時間が閾値th1を超えた時点で、ユーザが視線を入力受付け視線位置から逸らした(外した)ものとし、音声入力受付け状態を終了させる。すなわち、ここでは、音声入力受付け状態の開始後、ユーザの視線が入力受付け視線位置の方向を向いていない状態の継続時間が閾値th1を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。
このようにすることで、例えばユーザが意図せずに一時的に視線を逸らしてしまった場合などにおいても音声入力受付け状態が維持され、適切な音声認識の実行制御を実現することができる。
なお、音声入力受付け状態となっている場合、ユーザの視線が入力受付け視線位置から外されている時間の合計、すなわち累計時間を入力制御部34が計測し、その累計時間が所定の閾値th2を超えた時点で音声入力受付け状態を終了させるようにしてもよい。
換言すれば、音声入力受付け状態の開始後、ユーザの視線が入力受付け視線位置の方向を向いていない状態の累計時間が閾値th2を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了されるようにしてもよい。そのような場合においても図15や図16に示した例と同様の制御が行われる。
また、例えば図17に示すように、ユーザの視線が入力受付け視線位置からわずかに外れただけでは音声入力受付け状態を終了させないようにしてもよい。
図17に示す例では、矢印LS11および矢印LS12は、ユーザの視線方向を示している。
ここでは、ユーザの目E11、すなわちユーザの視線が入力受付け視線位置RP11に向けられると音声入力受付け状態となる。
その後、音声入力受付け状態とされているときに、例えば矢印LS11に示すようにユーザが入力受付け視線位置RP11からわずかに外れた位置へと視線を逸らしたとする。すなわち、例えば入力受付け視線位置RP11の方向と矢印LS11に示す視線方向との差分が予め定めた閾値以下であるとする。この差分は、ユーザの視線が向いている方向と、入力受付け視線位置の方向とのずれを示している。
この場合、入力制御部34は音声入力受付け状態を終了させず、入力受付け視線位置RP11の方向とユーザの視線方向との差分が閾値を超えるまでは、音声入力受付け状態のままとする。
そして、例えば矢印LS12に示すようにユーザが入力受付け視線位置RP11から大きく外れた位置へと視線を向けたため、入力受付け視線位置RP11の方向と矢印LS12に示す視線方向との差分が閾値を超えると、入力制御部34はその時点で音声入力受付け状態を終了させる。換言すれば、ユーザの視線が向いている方向と、入力受付け視線位置の方向とのずれの大きさが所定の閾値を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。
このように図17に示す例では、入力制御部34はユーザの視線の入力受付け視線位置からのずれの大きさに応じて、音声入力受付け状態を終了させるか否かを決定する。これにより、視線検出の精度が低い場合や、ユーザの視線がわずかに入力受付け視線位置から外れている場合でも音声入力受付け状態が維持され、適切な音声認識の実行制御を実現することができる。
また、入力受付け視線位置が複数ある場合には、例えば図18に示すように、ユーザの視線が2つの入力受付け視線位置間にあるときには音声入力受付け状態のままとされるようにしてもよい。なお、図18において図17における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば図18に示す例において、ユーザが視線を入力受付け視線位置RP11に向けて音声入力受付け状態とされた後、さらにユーザが視線を入力受付け視線位置RP12へと向けたとする。
この場合、ユーザの視線が矢印LS21に示すように、入力受付け視線位置RP11と入力受付け視線位置RP12の間に向けられている間は、入力制御部34は音声入力受付け状態のままとする。
これに対して、例えば矢印LS22に示すようにユーザの視線が入力受付け視線位置RP11と入力受付け視線位置RP12の間でもなく、入力受付け視線位置RP11や入力受付け視線位置RP12からも外れている場合、入力制御部34は音声入力受付け状態を終了させる。
換言すれば、ユーザの視線の方向が、複数の入力受付け視線位置の方向のうちの何れの方向でもなく、かつ2つの入力受付け視線位置の間の方向でもない場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。
このようにすることで、ユーザが所定の入力受付け視線位置から他の入力受付け視線位置へと視線を移動させる場合に、ユーザの意図に反して音声入力受付け状態が終了されてしまうことを防止することができる。すなわち、適切な音声認識の実行制御を実現することができる。
さらに、以上において説明したようにユーザの視線が入力受付け視線位置から外れている継続時間や累計時間と閾値を比較する方法、ユーザの視線方向と入力受付け視線位置の方向との差分を閾値と比較する方法、ユーザの視線が2つの入力受付け視線位置間にある場合には音声入力受付け状態のままとする方法を適宜、組み合わせてもよい。
また、これらの方法等を用いる場合には、ユーザに対して適切な表示を行うとよい。
具体的には、ユーザの視線が入力受付け視線位置から外れている継続時間や累計時間と閾値を比較する場合には、例えば図19に示す表示が行われる。
図19に示す例では、ユーザに対して表示される表示画面には、視線が入力受付け視線位置から外れている旨の文字メッセージ「視線が外れています」が表示されている。これにより、ユーザは入力受付け視線位置から視線が外れていることを把握することができる。
また、表示画面にはゲージG11が表示されており、また、ユーザが視線を入力受付け視線位置から外したままである場合に、音声入力受付け状態が終了されるまでの残り時間を示す文字メッセージ「残り時間1.5秒」も表示画面に表示されている。
例えばゲージG11は、音声入力受付け状態が終了とされるまでの継続時間または累計時間、すなわち上述した閾値th1または閾値th2に対する、実際にユーザの視線が入力受付け視線位置から外れている継続時間または累計時間を示している。
ユーザは、このようなゲージG11や文字メッセージ「残り時間1.5秒」を見ることで、音声入力受付け状態が終了とされてしまうまでの時間的な猶予等を把握することができる。
さらに表示画面には、音声認識中である旨の文字「音声認識中」と、音声認識中であることを示すマイクロホンの画像が表示されている。
また、例えばユーザの視線が入力受付け視線位置から外れていることを示す表示として、図20に示す表示画面を表示させてもよい。
この例では、表示画面中の矢印Q11に示す円は視線検出部31が設けられているデバイス、すなわち情報処理装置21を表しており、文字「現在位置」が記された位置近傍にある矢印Q12に示す円は、現在のユーザの視線の位置を示している。また、表示画面にはユーザの視線が入力受付け視線位置から外れている旨の文字メッセージ「視線が外れています」も表示されている。
このような表示画面を提示することで、ユーザは自身の視線が入力受付け視線位置から外れていることや、その視線がどの方向にどれだけ外れているかを簡単に把握することができる。
〈音声認識システムの構成例〉
音声認識システム11において図19や図20に示した表示を行う場合、音声認識システム11は、例えば図21に示すように構成される。なお、図21において図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
音声認識システム11において図19や図20に示した表示を行う場合、音声認識システム11は、例えば図21に示すように構成される。なお、図21において図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図21に示す音声認識システム11は、情報処理装置21および音声認識部22を有しており、また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、入力制御部34、および提示部93を有している。
図21に示す音声認識システム11の構成は、図13に示した音声認識システム11にける撮像部91および画像認識部92が設けられていない構成とされている。
図21に示す音声認識システム11では、提示部93はディスプレイなどからなり、入力制御部34の指示に応じて図19や図20に示した表示画面等を表示する。すなわち提示部93は、ユーザの視線の向きが入力受付け視線位置の方向から外れている(逸れている)旨の提示等をユーザに対して行う。
〈入力受付制御処理の説明〉
図21に示す音声認識システム11では、入力受付制御処理として図22に示す処理が行われる。以下、図22のフローチャートを参照して、図21に示した音声認識システム11による入力受付制御処理について説明する。
図21に示す音声認識システム11では、入力受付制御処理として図22に示す処理が行われる。以下、図22のフローチャートを参照して、図21に示した音声認識システム11による入力受付制御処理について説明する。
なお、ステップS121乃至ステップS124の処理は、図8のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。但し、ステップS124の処理が行われたか、またはステップS123において入力受付け視線位置を向いていないと判定されると、その後、処理はステップS128へと進む。
また、ステップS122において音声入力受付け状態であると判定された場合、ステップS125において入力制御部34は、視線検出部31から供給された視線情報に基づいて音声入力受付け状態を終了させるか否かを判定する。
例えば入力制御部34は音声入力受付け状態となると、視線情報に基づいて、音声入力受付け状態とされた後における、ユーザの視線が入力受付け視線位置から外れている継続時間または累計時間を計測する。
そして入力制御部34は、例えば計測により得られた継続時間が上述した閾値th1を超えた場合や、計測により得られた累計時間が上述した閾値th2を超えた場合などに、音声入力受付け状態を終了させると判定する。
また、例えば入力制御部34は、視線情報により示されるユーザの視線の方向と入力受付け視線位置の方向との差分が予め定めた閾値を超えた場合に、音声入力受付け状態を終了させると判定するようにしてもよい。この場合、差分が閾値以下である間は、音声入力受付け状態を終了させないと判定される。
さらに、例えば入力受付け視線位置が複数ある場合、入力制御部34は視線情報により示されるユーザの視線の方向が何れかの入力受付け視線位置の方向である場合、または視線情報により示されるユーザの視線の方向が2つの入力受付け視線位置の間の方向である場合に、音声入力受付け状態を終了させないと判定してもよい。
この場合、入力制御部34は視線情報により示されるユーザの視線の方向が、何れの入力受付け視線位置の方向でもなく、かつ2つの入力受付け視線位置の間の方向でもない場合、音声入力受付け状態を終了させると判定する。
ステップS125において音声入力受付け状態を終了させると判定された場合、ステップS126において入力制御部34は音声入力受付け状態を終了させる。ステップS126の処理が行われると、その後、処理はステップS128へと進む。
これに対してステップS125において音声入力受付け状態を終了させないと判定された場合、入力制御部34は、必要に応じて提示部93に対して視線が外れている旨の表示を指示し、その後、処理はステップS127へと進む。
ステップS127において提示部93は、入力制御部34の指示に従って必要に応じた表示を行う。
すなわち、例えば音声入力受付け状態であるが、ユーザの視線が入力受付け視線位置から外れている場合、提示部93は、視線が外れている旨の表示画面を表示する。これにより、例えば図19や図20に示した表示が行われる。ステップS127の処理が行われると、その後、処理はステップS128へと進む。
ステップS123において入力受付け視線位置を向いていないと判定されたか、ステップS124の処理が行われたか、ステップS126の処理が行われたか、またはステップS127の処理が行われると、ステップS128の処理が行われる。
ステップS128において入力制御部34は、処理を終了するか否かを判定する。例えばステップS128では、音声認識システム11の動作停止が指示された場合、処理を終了すると判定される。
ステップS128において処理を終了しないと判定された場合、処理はステップS121に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS128において処理を終了すると判定された場合、音声認識システム11の各部は動作を停止させ、入力受付制御処理は終了する。
以上のようにして音声認識システム11は、ユーザの視線が入力受付け視線位置に向けられると音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外れている継続時間や累計時間などに応じて音声入力受付け状態を終了させる。
このようにすることで、ユーザの意図に反して音声入力受付け状態が終了されてしまうことを抑制することができ、より適切な音声認識の実行制御を実現することができる。また、適宜、視線が外れている旨の表示を行うことで、視線が入力受付け視線位置から外れていること等をユーザに提示することができ、使い勝手を向上させることができる。
図21に示した音声認識システム11では、図22を参照して説明した入力受付制御処理と同時に、図9を参照して説明した音声認識実行処理も行われる。
また、音声認識システム11が図13に示した構成とされ、入力受付け視線位置を動的に追加または削除することが可能とされているときには、入力受付制御処理および音声認識実行処理と同時に、図14を参照して説明した更新処理も行われる。
〈第5の実施の形態〉
〈音声認識システムの構成例〉
また、以上においては音声入力受付け状態、すなわち音声認識を行うための音声入力が受付けられている状態の具体的な例として、検出音声情報の入力が受付けられている状態について説明した。
〈音声認識システムの構成例〉
また、以上においては音声入力受付け状態、すなわち音声認識を行うための音声入力が受付けられている状態の具体的な例として、検出音声情報の入力が受付けられている状態について説明した。
この場合、音声入力受付け状態でないときには検出音声情報の音声認識部22への供給は行われないが、音声入力受付け状態であるか否かに関わらず、音声入力部32による収音と音声区間検出部33による音声区間検出は常に行われている。
そこで、例えば音声入力受付け状態、すなわち音声認識を行うための音声入力が受付けられている状態の他の具体的な例として、音声入力部32による収音が行われている状態を音声入力受付け状態としてもよい。換言すれば、音声入力部32による音声の入力が受付けられている状態が音声入力受付け状態であるとしてもよい。
そのような場合、音声認識システムは、例えば図23に示すように構成される。なお、図23において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図23に示す音声認識システム201は、情報処理装置21および音声認識部22を有している。また、情報処理装置21は、視線検出部31、入力制御部211、音声入力部32、および音声区間検出部33を有している。
音声認識システム201の構成は、入力制御部34に代えて、視線検出部31と音声入力部32の間に入力制御部211が設けられている点で図1の音声認識システム11と異なっており、その他の点では図1の音声認識システム11と同じ構成となっている。
音声認識システム201では、視線検出部31で得られた視線情報は、入力制御部211へと供給される。入力制御部211は、視線検出部31から供給された視線情報に基づいて、音声入力部32による収音の開始および終了、すなわち音声認識のための音声の入力の受付けを制御する。
音声入力部32は、入力制御部211の制御に従って周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部33に供給する。また、音声区間検出部33は、音声入力部32から供給された入力音声情報に基づいて発話区間を検出し、入力音声情報のうちの発話区間を切り出して得られた検出音声情報を音声認識部22に供給する。
〈音声認識実行処理の説明〉
次に音声認識システム201の動作について説明する。すなわち、以下、図24のフローチャートを参照して、音声認識システム201により行われる音声認識実行処理について説明する。
次に音声認識システム201の動作について説明する。すなわち、以下、図24のフローチャートを参照して、音声認識システム201により行われる音声認識実行処理について説明する。
ステップS161において視線検出部31は視線検出を行い、その検出結果として得られた視線情報を入力制御部211に供給する。
ステップS162において入力制御部211は、視線検出部31から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。
ステップS162においてユーザの視線が入力受付け視線位置を向いていると判定された場合、ステップS163において入力制御部211は音声入力受付け状態とし、音声入力部32に収音開始を指示する。なお、現時点で既に音声入力受付け状態とされている場合には、継続して音声入力受付け状態が維持される。
ステップS164において音声入力部32は周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部33に供給する。
ステップS165において、音声区間検出部33は音声入力部32から供給された入力音声情報に基づいて音声区間検出を行う。
すなわち、音声区間検出部33は音声区間検出によって入力音声情報のうちの発話区間を検出し、発話区間が検出された場合、入力音声情報の発話区間の部分を検出音声情報として音声認識部22に供給する。
ステップS166において音声認識部22は、音声区間検出部33から供給された検出音声情報に基づいて、発話区間の始端が検出されたか否かを判定する。
例えば音声認識部22は、音声区間検出部33から検出音声情報の供給が開始された場合、発話区間の始端が検出されたと判定する。
また、例えば音声認識部22は、既に発話区間の始端が検出されて音声認識中である場合や、音声入力受付け状態であるがまだ発話区間の始端が検出されておらず、音声認識が行われていない状態である場合、発話区間の始端が検出されていないと判定する。
ステップS166において発話区間の始端が検出されたと判定された場合、ステップS167において音声認識部22は音声認識を開始する。
すなわち、音声認識部22は、音声区間検出部33から供給された検出音声情報に対する音声認識を行う。このようにして音声認識が開始されると、その後、処理はステップS175へと進む。
これに対して、ステップS166において発話区間の始端が検出されなかったと判定された場合、ステップS168において、音声認識部22は音声認識中であるか否かを判定する。
ステップS168において音声認識中でないと判定された場合、音声認識部22へは検出音声情報が供給されていないので、処理はステップS175へと進む。
これに対して、ステップS168において音声認識中であると判定された場合、ステップS169において音声認識部22は発話区間の終端が検出されたか否かを判定する。
例えば音声認識部22は、これまで継続的に行われていた音声区間検出部33からの検出音声情報の供給が終了した場合、発話区間の終端が検出されたと判定する。
ステップS169において発話区間の終端が検出されたと判定された場合、ステップS170において音声認識部22は音声認識を終了する。
この場合、音声区間検出により検出された発話区間全体に対する音声認識が終了したことになり、音声認識部22は音声認識の結果として得られたテキスト情報を出力する。
音声認識が終了すると、その後、処理はステップS175へと進む。
また、ステップS169において発話区間の終端が検出されなかったと判定された場合、処理はステップS171へと進む。
ステップS171において、音声認識部22は音声区間検出部33から供給される検出音声情報に基づいて音声認識を継続して行う。ステップS171の処理が行われると、その後、処理はステップS175へと進む。
以上のステップS166乃至ステップS171では、音声認識部22は音声区間検出部33からの検出音声情報の供給が開始されると音声認識を開始し、検出音声情報の供給が終了すると音声認識を終了する。
また、ステップS162においてユーザの視線が入力受付け視線位置を向いていないと判定された場合、ステップS172において入力制御部211は、音声入力受付け状態であるか否かを判定する。
ステップS172において音声入力受付け状態でないと判定された場合、ステップS173およびステップS174の処理は行われず、処理はステップS175へと進む。この場合、音声入力部32による収音が停止されたままの状態となっている。
これに対して、ステップS172において音声入力受付け状態であると判定された場合、ステップS173において入力制御部211は、音声入力受付け状態を終了させる。
この場合、これまで音声入力受付け状態であったが、ユーザが視線を入力受付け視線位置から逸らしたので音声入力受付け状態が終了される。
ステップS174において入力制御部211は音声入力部32を制御し、音声入力部32による収音を中止させる。
すなわち、音声入力受付け状態が終了されたので、それに伴って音声入力部32での収音が中止される。これにより、後段にある音声区間検出部33による音声区間検出や、音声認識部22による音声認識も中止されることになる。
音声認識システム201では、音声入力受付け状態であるか否かに応じて音声入力部32での収音の開始と終了(中止)を制御することで、結果として音声認識部22での音声認識の実行制御が実現されている。
ステップS174の処理が行われると、その後、処理はステップS175へと進む。
ステップS167、ステップS170、ステップS171、若しくはステップS174の処理が行われたか、ステップS168で音声認識中でないと判定されたか、またはステップS172において音声入力受付け状態でないと判定された場合、ステップS175の処理が行われる。
ステップS175において入力制御部211は、処理を終了するか否かを判定する。例えばステップS175では、音声認識システム201の動作停止が指示された場合、処理を終了すると判定される。
ステップS175において処理を終了しないと判定された場合、処理はステップS161に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS175において処理を終了すると判定された場合、音声認識システム201の各部は動作を停止させ、音声認識実行処理は終了する。
以上のようにして音声認識システム201は、ユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外されると音声入力受付け状態を終了させる。また、音声認識システム201は、音声入力受付け状態である場合に収音を行うように音声入力部32を制御する。
このように音声入力受付け状態であるか否かに応じて収音の開始と中止を制御することでも、音声認識システム11における場合と同様に音声認識機能の誤作動を抑制し、使い勝手を向上させることができる。さらに音声入力受付け状態であるか否かに応じて収音の開始と中止を制御することで、必要なときだけ音声区間検出や音声認識などの信号処理が行われるようになり、消費電力を削減することができる。
その他、音声認識システム201においても第4の実施の形態で説明したように、ユーザが入力受付け視線位置から視線を外している継続時間や累計時間、ユーザの視線の入力受付け視線位置からのずれの大きさ等に応じて、音声入力受付け状態を終了させるか否かを決定するようにしてもよい。
〈第6の実施の形態〉
〈音声認識システムの構成例〉
また、例えば複数のユーザが同時に、単一の音声認識システム11や音声認識システム201を利用する場合、誤作動を防止するためには入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザのマッチングをとる必要がある。
〈音声認識システムの構成例〉
また、例えば複数のユーザが同時に、単一の音声認識システム11や音声認識システム201を利用する場合、誤作動を防止するためには入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザのマッチングをとる必要がある。
例えば2人のユーザが同時に音声認識システム11を利用しているときに、一方のユーザが入力受付け視線位置に視線を向けていて、他方のユーザが入力受付け視線位置に視線を向けていなかったとする。
この場合、入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザとのマッチングをとらないと、入力受付け視線位置に視線を向けていないユーザが発話した場合でも音声認識が行われてしまうことになる。
そこで、マッチングがとれたときに音声認識が行われるようにしてもよい。すなわち、入力制御部34は、音声入力受付け状態で発話区間が検出された場合、入力受付け視線位置に視線を向けているユーザが発話したと特定されたときにのみ、検出音声情報を音声認識部22へと供給し、音声認識を行わせる。
ここで、マッチングをとる方法としては、複数のマイクロホンを利用する方法や画像認識を利用する方法などが考えられる。
具体的には、複数のマイクロホンを利用する方法では、例えば音声入力部32等に2つのマイクロホンが設けられ、それらのマイクロホンで収音された音声に基づいて、ビームフォーミングなどにより音声が発せられた方向が特定される。
また、特定された各音声の到来方向と、周囲にいる複数の各ユーザの視線情報とが一時的に保持され、入力受付け視線位置に視線を向けているユーザの方向から到来した音声の音声認識が行われるようにされる。
そのような場合、音声認識システム11は、例えば図25に示すように構成される。なお、図25において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図25に示す音声認識システム11は、情報処理装置21および音声認識部22を有している。また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、方向特定部251、保持部252、入力制御部34、および提示部253を有している。
図25に示す音声認識システム11の構成は、図1に示した音声認識システム11に、新たに方向特定部251、保持部252、および提示部253が設けられた構成となっている。
この例では、音声入力部32は2以上のマイクロホンからなり、収音により得られた入力音声情報を音声区間検出部33だけでなく方向特定部251にも供給する。また、視線検出部31は、視線検出により得られた視線情報を保持部252に供給する。
方向特定部251は、音声入力部32から供給された入力音声情報に基づいて、ビームフォーミング等により、入力音声情報に含まれる1または複数の音声成分の到来方向を特定し、その特定結果を音声方向情報として保持部252に供給して一時的に保持させる。
保持部252は、方向特定部251から供給された音声方向情報と、視線検出部31から供給された視線情報とを一時的に保持し、それらの音声方向情報と視線情報を適宜、入力制御部34に供給する。
入力制御部34は、保持部252に保持されている音声方向情報と視線情報とから、視線を入力受付け視線位置に向けているユーザが発話をしたかを特定することができる。
すなわち、入力制御部34は、保持部252から取得した視線情報から、その視線情報に対応するユーザがいる大よその方向を特定することができる。また、音声方向情報はユーザにより発せられた発話音声の到来方向を示している。
したがって、入力制御部34は、視線を入力受付け視線位置に向けているユーザについて、そのユーザの視線情報により特定されるユーザの方向と、音声方向情報により示される到来方向とが一致する場合、そのユーザが発話を行ったとする。
入力制御部34は、音声入力受付け状態であるときに音声区間検出部33から検出音声情報が供給された場合、入力受付け視線位置に視線を向けているユーザが発話を行ったと特定されたときに、検出音声情報を音声認識部22へと供給する。
逆に、入力制御部34は、音声入力受付け状態であるときに音声区間検出部33から検出音声情報が供給された場合でも、入力受付け視線位置に視線を向けているユーザが発話を行っていないとの特定結果が得られたときには、検出音声情報を音声認識部22へと供給しない。
なお、入力受付け視線位置に視線を向けているユーザの発話部分の検出音声情報のみが音声認識部22へと供給されるように、入力音声情報または検出音声情報に対して、入力受付け視線位置に視線を向けているユーザの方向からの音声成分が強調される方向強調処理が行われるようにしてもよい。
さらに音声認識システム11には、提示部253も設けられている。提示部253は、例えばLED(Light Emitting Diode)等の複数の発光部からなり、入力制御部34の制御に従って発光する。
例えば提示部253は、複数の発光部のうちのいくつかの発光部を発光させることで、入力受付け視線位置に視線を向けているユーザを示す提示を行う。
この場合、入力制御部34は、保持部252から供給された視線情報に基づいて入力受付け視線位置に視線を向けているユーザを特定し、そのユーザのいる方向に対応する発光部が発光するように提示部253を制御する。
また、画像認識を利用して入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザとのマッチングをとる場合には、例えば画像認識を行うことでユーザの口の動きを検出し、発話を行っているユーザを特定すればよい。
そのような場合、音声認識システム11は、例えば図26に示すように構成される。なお、図26において図25における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図26に示す音声認識システム11は、情報処理装置21および音声認識部22を有している。また、情報処理装置21は、視線検出部31、音声入力部32、音声区間検出部33、撮像部281、画像認識部282、入力制御部34、および提示部253を有している。
図26に示す音声認識システム11の構成は、図25に示した音声認識システム11の方向特定部251および保持部252が設けられておらず、新たに撮像部281および画像認識部282が設けられた構成となっている。
撮像部281は例えばカメラからなり、周囲のユーザを被写体として含む画像を撮像し、画像認識部282に供給する。画像認識部282は、撮像部281から供給された画像に対して画像認識を行うことで、周囲にいるユーザの口の動きを検出し、その検出結果を入力制御部34に供給する。なお、画像認識部282では、画像に被写体として含まれるユーザの位置から、各ユーザがいる大よその方向を特定することが可能である。
入力制御部34は、画像認識部282から供給された検出結果、つまり画像認識の結果と、視線検出部31から供給された視線情報とから、入力受付け視線位置に視線を向けているユーザの口の動きが検出された場合、そのユーザが発話を行ったと特定する。
入力制御部34は、音声入力受付け状態であるときに音声区間検出部33から検出音声情報が供給された場合、入力受付け視線位置に視線を向けているユーザが発話を行ったと特定されたときに、検出音声情報を音声認識部22へと供給する。
逆に、入力制御部34は、音声入力受付け状態であるときに音声区間検出部33から検出音声情報が供給された場合でも、入力受付け視線位置に視線を向けているユーザが発話を行っていないとの特定結果が得られたときには、検出音声情報を音声認識部22へと供給しない。
さらに、図25や図26に示した音声認識システム11では、提示部253によって、複数のユーザのうち、入力受付け視線位置に視線を向けているユーザがどのユーザであるかの提示が行われると説明した。
この場合、例えば図27に示すようにして提示が行われる。
図27に示す例では、音声認識システム11の提示部253には、複数の発光部311−1乃至発光部311−8が設けられている。これらの発光部311−1乃至発光部311−8は、例えばLED等からなる。
なお、以下、発光部311−1乃至発光部311−8を特に区別する必要のない場合、単に発光部311とも称することとする。
この例では、8個の発光部311が円形状に並べられて配置されている。また、音声認識システム11の周囲には、3人のユーザU11乃至ユーザU13がいる。
ここでは、図中の矢印に表されているように、ユーザU11およびユーザU12は音声認識システム11の方向に視線を向けているが、ユーザU13は音声認識システム11とは異なる方向に視線を向けている。
例えば音声認識システム11の位置が入力受付け視線位置であるとすると、入力制御部34は、入力受付け視線位置の方向を向いているユーザU11とユーザU12がいる方向に対応する発光部311−1および発光部311−7のみを発光させる。
これにより各ユーザは、ユーザU11とユーザU12が入力受付け視線位置に視線を向けており、それらのユーザU11とユーザU12の発話が受付けられていることを容易に把握することができる。
〈変形例〉
ところで以上においてはユーザの視線情報のみを用いて、音声入力受付け状態の開始と終了を制御する例について説明したが、特定の起動ワードや起動ボタンなどの他の音声入力のトリガと組み合わせて制御を行うようにしてもよい。
ところで以上においてはユーザの視線情報のみを用いて、音声入力受付け状態の開始と終了を制御する例について説明したが、特定の起動ワードや起動ボタンなどの他の音声入力のトリガと組み合わせて制御を行うようにしてもよい。
具体的には、例えばユーザが入力受付け視線位置へと視線を向けて音声入力受付け状態とされた後、予め定められた特定ワードが発せられた場合、音声入力受付け状態が終了するようにしてもよい。
この場合、音声入力受付け状態とされた後、入力制御部34は音声認識部22から音声認識結果を取得し、ユーザによる特定ワードの発話を検出する。そして、特定ワードの発話が検出された場合、入力制御部34は音声入力受付け状態を終了させる。
このようにして特定ワードにより音声入力受付け状態を終了させる場合、音声認識システム11は、例えば図22を参照して説明した入力受付制御処理を行う。そして、入力制御部34は特定ワードの発話が検出された場合、ステップS125において音声入力受付け状態を終了させると判定する。
このようにすることで、ユーザは入力受付け視線位置から視線を外すことなく簡単に音声認識の実行を中止(キャンセル)させることができる。
また、所定の起動ワードを視線検出の補助として用いるようにしてもよい。
この場合、例えば入力制御部34や入力制御部211は、視線情報と起動ワードの検出結果とに基づいて音声入力受付け状態を開始させる。
具体的には、例えばユーザの視線が入力受付け視線位置からわずかに外れており、本来であれば音声入力受付け状態とされない状態となっているときでも、起動ワードが検出されたときには、音声入力受付け状態とされるようにしてもよい。
このようにすることで、起動ワードのみで音声入力受付け状態の開始と終了を制御する場合に生じる誤作動、つまり起動ワードの誤認識によって生じる誤作動を抑制することができる。但し、この場合、例えば情報処理装置21内に、周囲の音声を収音して得られた音声情報から所定の起動ワードのみを検出する音声認識部を設ける必要がある。
さらに、以上においては、ユーザが視線を入力受付け視線位置に向けているか否か、つまりユーザが入力受付け視線位置の方向を向いているか否かを特定するためにユーザ方向情報として視線情報を用いる例について説明した。
しかし、ユーザ方向情報はユーザの向きを示すものであれば、ユーザの顔の向きを示す情報やユーザの体の向きを示す情報など、どのようなものであってもよい。
また、視線情報、ユーザの顔の向きを示す情報、ユーザの体の向きを示す情報などの各情報を組み合わせてユーザ方向情報として用い、ユーザの向いている方向を特定してもよい。すなわち、例えば視線情報、ユーザの顔の向きを示す情報、およびユーザの体の向きを示す情報のうちの少なくとも何れか1つをユーザ方向情報として用いるようにすることができる。
具体的には、例えばユーザが視線と顔の両方を入力受付け視線位置に向けていると入力制御部34が特定した場合に、音声入力受付け状態とされるようにすることができる。
〈応用例1〉
以上において説明した音声認識システム11や音声認識システム201は、ユーザの音声入力に対して適切な情報提示等を音声での応答により行う対話エージェントシステムに適用することができる。
以上において説明した音声認識システム11や音声認識システム201は、ユーザの音声入力に対して適切な情報提示等を音声での応答により行う対話エージェントシステムに適用することができる。
そのような対話エージェントシステムは、例えばユーザの視線情報を用いて音声認識を行うための音声入力の受付けの制御を行う。これにより、対話エージェントシステムに対して話しかけられた内容にだけ反応し、その他の周囲の会話やテレビの音声などには反応しないようになされる。
例えばユーザの視線が対話エージェントシステムに向けられると、対話エージェントシステムに取り付けられたLEDが発話を受付けていることを表すために発光し、受付け開始を知らせる音が出力される。ここでは、対話エージェントシステムが入力受付け視線位置とされている。
ユーザは、LEDの発光や受付け開始を知らせる音により、受付けが開始されたこと、つまり音声入力受付け状態となったことを知ると自身の発話を開始する。このとき、例えばユーザが「明日の天気を教えて」と発話したとする。
この場合、対話エージェントシステムは、ユーザの発話に対する音声認識および意味解析を行い、その認識結果および解析結果に対して適切な応答メッセージを生成して音声により応答する。ここでは、例えば応答メッセージとして「明日の天気は雨です」などの音声が出力される。
また、ユーザは視線を対話エージェントシステムに向けたまま次の発話をする。例えばユーザが「週末の天気は?」と発話したとする。
すると対話エージェントシステムは、ユーザの発話に対する音声認識および意味解析を行い、例えば応答メッセージとして「週末の天気は晴れです」などの音声を出力する。
その後、ユーザの視線が対話エージェントシステムから離れたため、対話エージェントシステムは音声入力受付け状態を終了させる。
〈応用例2〉
さらに、音声認識システム11や音声認識システム201を対話エージェントシステムに適用し、対話エージェントシステムでテレビやスマートフォンなどの機器を操作することができるようにしてもよい。
さらに、音声認識システム11や音声認識システム201を対話エージェントシステムに適用し、対話エージェントシステムでテレビやスマートフォンなどの機器を操作することができるようにしてもよい。
具体的には、例えば図28に示すように対話エージェントシステム341、テレビ342、およびスマートフォン343がユーザU21のいるリビング等に配置されており、対話エージェントシステム341乃至スマートフォン343が連携して動作するとする。
この場合、例えばユーザU21が入力受付け視線位置である対話エージェントシステム341へと視線を向けた後に「テレビをつけて」と発話したとする。すると対話エージェントシステム341は、その発話に応じてテレビ342を制御し、テレビ342の電源をオンさせて番組を表示させる。
また、それと同時に対話エージェントシステム341は、「テレビで音声入力を受付けます」と発話し、テレビ342の位置を入力受付け視線位置として追加する。
そして、ユーザU21がテレビ342に視線を移すと、対話エージェントシステム341からの指示によって、テレビ342には文字「音声入力受付中」の表示がされている。
このようにテレビ342で音声入力が受付けられている旨の表示を行うことで、ユーザU21は、テレビ342が入力受付け視線位置となっていることを容易に把握することができる。また、この例では、対話エージェントシステム341の表示画面DP11にもテレビ342が入力受付け視線位置となっていることを示す文字「音声入力受付中」および「テレビ」が表示されている。
なお、テレビ342が入力受付け視線位置として追加された旨の音声メッセージ等が出力されるようにしてもよい。
テレビ342が入力受付け視線位置として追加されると、ユーザU21が対話エージェントシステム341から視線を外しても、テレビ342に視線を向けている限り、対話エージェントシステム341により音声入力が受付けられている状態、つまり音声入力受付け状態のままとなる。
この状態で、ユーザU21が所定の番組名である番組Aについて、「番組Aに変えて」と発話すると、対話エージェントシステム341とテレビ342の連携動作が行われる。
例えば対話エージェントシステム341は、ユーザU21の発話に対して「4chに変更します」と応答するとともに、テレビ342を制御し、テレビ342で番組Aが表示されるように、チャンネルを番組Aに対応するチャンネルに切り替えさせる。この例では、番組Aが4チャンネルであるので、ユーザU21に対して「4chに変更します」が発話される。
その後、ユーザU21が発話せずに一定時間経過すると、テレビ342における文字「音声入力受付中」の表示が消え、対話エージェントシステム341は音声入力の受付けを終了する。すなわち、音声入力受付け状態が終了する。
さらに、ユーザU21が再び対話エージェントシステム341に視線を向け、「おすすめのレストランの情報をスマートフォンに送って」と発話したとする。
すると、対話エージェントシステム341は、音声入力受付け状態とし、ユーザの発話に対して応答メッセージとして「スマートフォンにおすすめのレストラン情報を送信しました。スマートフォンで音声入力を受付けます」と発話する。
そして対話エージェントシステム341は、テレビ342における場合と同様に、スマートフォン343との連携動作を行う。
このとき対話エージェントシステム341は、スマートフォン343の位置を入力受付け視線位置として追加し、スマートフォン343に文字「音声入力受付中」を表示させる。また、対話エージェントシステム341は、自身の表示画面DP11にもスマートフォン343が入力受付け視線位置となっていることを示す文字「スマートフォン」を表示させる。
このようにすることで、ユーザU21がスマートフォン343に視線を移しても、対話エージェントシステム341が継続して音声入力を受付けている状態、つまり音声入力受付け状態のままとなる。
さらに、この場合、ユーザU21の視線検出はスマートフォン343で行われるように切り替えられ、対話エージェントシステム341はスマートフォン343から視線情報を取得する。また、例えばユーザU21がスマートフォン343の表示画面を消灯したタイミングなど、ユーザU21によるスマートフォン343の使用が終了したタイミングで、対話エージェントシステム341は音声入力の受付けを終了する。すなわち、音声入力受付け状態が終了する。
〈応用例3〉
また、音声認識システム11や音声認識システム201は、複数のユーザと対話するロボットなどにも適用することができる。
また、音声認識システム11や音声認識システム201は、複数のユーザと対話するロボットなどにも適用することができる。
例えば音声認識システム11や音声認識システム201が適用された1台のロボットと、複数人のユーザとが対話する場合について考える。
そのようなロボットは複数のマイクロホンを有しており、ロボットはマイクロホンによる収音で得られた入力音声情報に基づいて、ユーザの発話音声がどの方向から到来したものであるかを特定することが可能である。
また、ロボットは、ユーザの視線情報を常に解析しており、自身の方を向いているユーザの方向から到来した発話音声のみに応答することができる。
したがって、ロボットは、ユーザ同士の会話には応答せず、自身に向けられた発話に対してのみ反応し、ユーザの発話に対する応答を行うことができる。
以上において説明した本技術によれば、ユーザの向きに基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現することができる。
特に、本技術ではユーザに起動ワードを発話させることなく、またボタンなどの物理的な機構を用いることなく、視線等のユーザの向きを利用して自然に音声入力の開始および終了を制御することができる。
また、ユーザの向きに基づいて音声入力受付け状態を終了させることで、ユーザが誤って一時的に視線を向けてしまった場合など、ユーザの意図に反して音声入力が開始されてしまう、つまり音声認識が開始されてしまうことを抑制することができる。
その他、例えば第4の実施の形態のように、ユーザの視線が2つの入力受付け視線位置の間にある場合には音声入力受付け状態のままとすることで、ユーザが複数の機器のうちの所定のものから他の機器へと視線を移動させたときでも音声入力を継続して行うことができるようになる。
さらに、第6の実施の形態によれば、本技術を適用した音声認識システムを複数のユーザが使用する場合に、入力受付け視線位置へと視線を向けているユーザの発話だけを認識することができる。
なお、以上において説明した各実施の形態や変形例を適宜、組み合わせて行うことも勿論可能である。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図29は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える
情報処理装置。
(2)
前記制御部は、前記ユーザ方向情報に基づいて、前記音声入力受付け状態の開始および終了を制御する
(1)に記載の情報処理装置。
(3)
前記制御部は、前記ユーザ方向情報に基づく所定条件が満たされた場合、前記音声入力受付け状態を終了させる
(1)または(2)に記載の情報処理装置。
(4)
前記制御部は、前記ユーザが特定位置の方向を向いていない場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(5)
前記制御部は、前記音声入力受付け状態の開始後、前記ユーザが特定位置の方向を向いていない状態の継続時間または累計時間が閾値を超えた場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(6)
前記制御部は、前記ユーザが向いている方向と特定位置の方向とのずれが閾値を超えた場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(7)
前記制御部は、前記ユーザが向いている方向が、複数の特定位置の方向のうちの何れの方向でもなく、かつ2つの前記特定位置の間の方向でもない場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(8)
前記ユーザの向きが特定位置の方向から逸れている旨の提示を行う提示部をさらに備える
(3)に記載の情報処理装置。
(9)
前記制御部は、前記ユーザが特定位置の方向を向いた場合、前記音声入力受付け状態とする
(2)乃至(8)の何れか一項に記載の情報処理装置。
(10)
1または複数の位置が前記特定位置とされる
(9)に記載の情報処理装置。
(11)
前記制御部は、前記特定位置とする位置の追加または削除を行う
(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声入力受付け状態とされている場合、収音により得られた音声情報から発話区間が検出されたとき、音声認識を開始させる
(1)乃至(11)の何れか一項に記載の情報処理装置。
(13)
前記音声情報を保持するバッファをさらに備え、
前記制御部は、前記音声入力受付け状態とされている場合、前記バッファに保持されている前記音声情報から前記発話区間が検出されたとき、前記音声認識を開始させる
(12)に記載の情報処理装置。
(14)
前記制御部は、前記音声入力受付け状態で前記発話区間が検出された場合、特定位置の方向を向いている前記ユーザが発話したとき、前記音声認識を開始させる
(12)または(13)に記載の情報処理装置。
(15)
前記制御部は、音声の到来方向、または周囲の前記ユーザを被写体として含む画像に対する画像認識結果と、前記ユーザ方向情報とに基づいて、前記特定位置の方向を向いている前記ユーザが発話したかを特定する
(14)に記載の情報処理装置。
(16)
前記制御部は、前記音声入力受付け状態である場合、音声入力部に周囲の音声を収音させる
(1)乃至(11)の何れか一項に記載の情報処理装置。
(17)
前記制御部は、前記ユーザ方向情報、および収音された音声情報からの所定ワードの検出結果に基づいて、前記音声入力受付け状態を開始させる
(2)乃至(8)の何れか一項に記載の情報処理装置。
(18)
前記ユーザ方向情報は、前記ユーザの視線情報、前記ユーザの顔の向きを示す情報、および前記ユーザの体の向きを示す情報のうちの少なくとも何れか1つである
(1)乃至(17)の何れか一項に記載の情報処理装置。
(19)
情報処理装置が、
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
情報処理方法。
(20)
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
ステップを含む処理をコンピュータに実行させるプログラム。
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える
情報処理装置。
(2)
前記制御部は、前記ユーザ方向情報に基づいて、前記音声入力受付け状態の開始および終了を制御する
(1)に記載の情報処理装置。
(3)
前記制御部は、前記ユーザ方向情報に基づく所定条件が満たされた場合、前記音声入力受付け状態を終了させる
(1)または(2)に記載の情報処理装置。
(4)
前記制御部は、前記ユーザが特定位置の方向を向いていない場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(5)
前記制御部は、前記音声入力受付け状態の開始後、前記ユーザが特定位置の方向を向いていない状態の継続時間または累計時間が閾値を超えた場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(6)
前記制御部は、前記ユーザが向いている方向と特定位置の方向とのずれが閾値を超えた場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(7)
前記制御部は、前記ユーザが向いている方向が、複数の特定位置の方向のうちの何れの方向でもなく、かつ2つの前記特定位置の間の方向でもない場合、前記所定条件が満たされたとする
(3)に記載の情報処理装置。
(8)
前記ユーザの向きが特定位置の方向から逸れている旨の提示を行う提示部をさらに備える
(3)に記載の情報処理装置。
(9)
前記制御部は、前記ユーザが特定位置の方向を向いた場合、前記音声入力受付け状態とする
(2)乃至(8)の何れか一項に記載の情報処理装置。
(10)
1または複数の位置が前記特定位置とされる
(9)に記載の情報処理装置。
(11)
前記制御部は、前記特定位置とする位置の追加または削除を行う
(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声入力受付け状態とされている場合、収音により得られた音声情報から発話区間が検出されたとき、音声認識を開始させる
(1)乃至(11)の何れか一項に記載の情報処理装置。
(13)
前記音声情報を保持するバッファをさらに備え、
前記制御部は、前記音声入力受付け状態とされている場合、前記バッファに保持されている前記音声情報から前記発話区間が検出されたとき、前記音声認識を開始させる
(12)に記載の情報処理装置。
(14)
前記制御部は、前記音声入力受付け状態で前記発話区間が検出された場合、特定位置の方向を向いている前記ユーザが発話したとき、前記音声認識を開始させる
(12)または(13)に記載の情報処理装置。
(15)
前記制御部は、音声の到来方向、または周囲の前記ユーザを被写体として含む画像に対する画像認識結果と、前記ユーザ方向情報とに基づいて、前記特定位置の方向を向いている前記ユーザが発話したかを特定する
(14)に記載の情報処理装置。
(16)
前記制御部は、前記音声入力受付け状態である場合、音声入力部に周囲の音声を収音させる
(1)乃至(11)の何れか一項に記載の情報処理装置。
(17)
前記制御部は、前記ユーザ方向情報、および収音された音声情報からの所定ワードの検出結果に基づいて、前記音声入力受付け状態を開始させる
(2)乃至(8)の何れか一項に記載の情報処理装置。
(18)
前記ユーザ方向情報は、前記ユーザの視線情報、前記ユーザの顔の向きを示す情報、および前記ユーザの体の向きを示す情報のうちの少なくとも何れか1つである
(1)乃至(17)の何れか一項に記載の情報処理装置。
(19)
情報処理装置が、
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
情報処理方法。
(20)
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
ステップを含む処理をコンピュータに実行させるプログラム。
11 音声認識システム, 21 情報処理装置, 22 音声認識部, 31 視線検出部, 32 音声入力部, 33 音声区間検出部, 34 入力制御部
Claims (20)
- ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える
情報処理装置。 - 前記制御部は、前記ユーザ方向情報に基づいて、前記音声入力受付け状態の開始および終了を制御する
請求項1に記載の情報処理装置。 - 前記制御部は、前記ユーザ方向情報に基づく所定条件が満たされた場合、前記音声入力受付け状態を終了させる
請求項1に記載の情報処理装置。 - 前記制御部は、前記ユーザが特定位置の方向を向いていない場合、前記所定条件が満たされたとする
請求項3に記載の情報処理装置。 - 前記制御部は、前記音声入力受付け状態の開始後、前記ユーザが特定位置の方向を向いていない状態の継続時間または累計時間が閾値を超えた場合、前記所定条件が満たされたとする
請求項3に記載の情報処理装置。 - 前記制御部は、前記ユーザが向いている方向と特定位置の方向とのずれが閾値を超えた場合、前記所定条件が満たされたとする
請求項3に記載の情報処理装置。 - 前記制御部は、前記ユーザが向いている方向が、複数の特定位置の方向のうちの何れの方向でもなく、かつ2つの前記特定位置の間の方向でもない場合、前記所定条件が満たされたとする
請求項3に記載の情報処理装置。 - 前記ユーザの向きが特定位置の方向から逸れている旨の提示を行う提示部をさらに備える
請求項3に記載の情報処理装置。 - 前記制御部は、前記ユーザが特定位置の方向を向いた場合、前記音声入力受付け状態とする
請求項2に記載の情報処理装置。 - 1または複数の位置が前記特定位置とされる
請求項9に記載の情報処理装置。 - 前記制御部は、前記特定位置とする位置の追加または削除を行う
請求項10に記載の情報処理装置。 - 前記制御部は、前記音声入力受付け状態とされている場合、収音により得られた音声情報から発話区間が検出されたとき、音声認識を開始させる
請求項1に記載の情報処理装置。 - 前記音声情報を保持するバッファをさらに備え、
前記制御部は、前記音声入力受付け状態とされている場合、前記バッファに保持されている前記音声情報から前記発話区間が検出されたとき、前記音声認識を開始させる
請求項12に記載の情報処理装置。 - 前記制御部は、前記音声入力受付け状態で前記発話区間が検出された場合、特定位置の方向を向いている前記ユーザが発話したとき、前記音声認識を開始させる
請求項12に記載の情報処理装置。 - 前記制御部は、音声の到来方向、または周囲の前記ユーザを被写体として含む画像に対する画像認識結果と、前記ユーザ方向情報とに基づいて、前記特定位置の方向を向いている前記ユーザが発話したかを特定する
請求項14に記載の情報処理装置。 - 前記制御部は、前記音声入力受付け状態である場合、音声入力部に周囲の音声を収音させる
請求項1に記載の情報処理装置。 - 前記制御部は、前記ユーザ方向情報、および収音された音声情報からの所定ワードの検出結果に基づいて、前記音声入力受付け状態を開始させる
請求項2に記載の情報処理装置。 - 前記ユーザ方向情報は、前記ユーザの視線情報、前記ユーザの顔の向きを示す情報、および前記ユーザの体の向きを示す情報のうちの少なくとも何れか1つである
請求項1に記載の情報処理装置。 - 情報処理装置が、
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
情報処理方法。 - ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108330A JP2021144259A (ja) | 2018-06-06 | 2018-06-06 | 情報処理装置および方法、並びにプログラム |
PCT/JP2019/020380 WO2019235229A1 (ja) | 2018-06-06 | 2019-05-23 | 情報処理装置および方法、並びにプログラム |
CN201980036326.0A CN112204507A (zh) | 2018-06-06 | 2019-05-23 | 信息处理装置和方法及程序 |
US17/058,931 US20210216134A1 (en) | 2018-06-06 | 2019-05-23 | Information processing apparatus and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018108330A JP2021144259A (ja) | 2018-06-06 | 2018-06-06 | 情報処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144259A true JP2021144259A (ja) | 2021-09-24 |
Family
ID=68769328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018108330A Pending JP2021144259A (ja) | 2018-06-06 | 2018-06-06 | 情報処理装置および方法、並びにプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210216134A1 (ja) |
JP (1) | JP2021144259A (ja) |
CN (1) | CN112204507A (ja) |
WO (1) | WO2019235229A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
EP4281854A1 (en) * | 2021-02-23 | 2023-11-29 | Apple Inc. | Digital assistant interactions in extended reality |
US11955137B2 (en) * | 2021-03-11 | 2024-04-09 | Apple Inc. | Continuous dialog with a digital assistant |
GB2608997B (en) * | 2021-07-15 | 2024-02-07 | Sony Interactive Entertainment Inc | Alert system and method for virtual reality headset |
EP4198711A1 (en) * | 2021-12-16 | 2023-06-21 | InterDigital CE Patent Holdings, SAS | System and method for time management in voice control applications |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178339A (ja) * | 2011-06-03 | 2014-09-25 | Nec Corp | 音声処理システム、発話者の音声取得方法、音声処理装置およびその制御方法と制御プログラム |
EP2920673A1 (en) * | 2012-11-16 | 2015-09-23 | Aether Things, Inc. | Unified framework for device configuration, interaction and control, and associated methods, devices and systems |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
JP6221535B2 (ja) * | 2013-09-11 | 2017-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6233650B2 (ja) * | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
JP6459330B2 (ja) * | 2014-09-17 | 2019-01-30 | 株式会社デンソー | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP6562790B2 (ja) * | 2015-09-11 | 2019-08-21 | 株式会社Nttドコモ | 対話装置および対話プログラム |
JP6312184B2 (ja) * | 2017-10-25 | 2018-04-18 | 株式会社コナミデジタルエンタテインメント | 端末装置、及びプログラム |
-
2018
- 2018-06-06 JP JP2018108330A patent/JP2021144259A/ja active Pending
-
2019
- 2019-05-23 WO PCT/JP2019/020380 patent/WO2019235229A1/ja active Application Filing
- 2019-05-23 CN CN201980036326.0A patent/CN112204507A/zh not_active Withdrawn
- 2019-05-23 US US17/058,931 patent/US20210216134A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20210216134A1 (en) | 2021-07-15 |
CN112204507A (zh) | 2021-01-08 |
WO2019235229A1 (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021144259A (ja) | 情報処理装置および方法、並びにプログラム | |
US11043231B2 (en) | Speech enhancement method and apparatus for same | |
US11430428B2 (en) | Method, apparatus, and storage medium for segmenting sentences for speech recognition | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
US20170229121A1 (en) | Information processing device, method of information processing, and program | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
EP2911149A1 (en) | Determination of an operational directive based at least in part on a spatial audio property | |
KR102463806B1 (ko) | 이동이 가능한 전자 장치 및 그 동작 방법 | |
EP3091753A1 (en) | Method and device of optimizing sound signal | |
US9437188B1 (en) | Buffered reprocessing for multi-microphone automatic speech recognition assist | |
KR20150133586A (ko) | 음성 명령 인식 장치 및 방법 | |
CN107430856B (zh) | 信息处理系统和信息处理方法 | |
KR20150112337A (ko) | 디스플레이 장치 및 그 사용자 인터랙션 방법 | |
US10325600B2 (en) | Locating individuals using microphone arrays and voice pattern matching | |
JP2009166184A (ja) | ガイドロボット | |
US20200380959A1 (en) | Real time speech translating communication system | |
US20140015952A1 (en) | Automatic Un-Muting of a Telephone Call | |
JP2018060322A (ja) | 音声対話装置及びその制御方法 | |
US20180033430A1 (en) | Information processing system and information processing method | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
KR102613040B1 (ko) | 영상 통화 방법 및 이를 구현하는 로봇 | |
KR102168812B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
JP2021197658A (ja) | 収音装置、収音システム及び収音方法 | |
WO2018056169A1 (ja) | 対話装置、処理方法、プログラム | |
US20240012599A1 (en) | Information processing apparatus, information processing method, and program |