JP2021144259A

JP2021144259A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2021144259A
Application number: JP2018108330A
Authority: JP
Inventors: 大輔福永; Daisuke Fukunaga; 義己田中; Yoshimi Tanaka; 久浩菅沼; Hisahiro Suganuma; 悠二西牧; Yuji Nishimaki
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2021-09-24
Also published as: US20210216134A1; CN112204507A; WO2019235229A1

Abstract

【課題】より適切な音声認識の実行制御を実現する音声認識システムを提供する。【解決手段】音声認識システム１１において、情報処理装置は、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える。ユーザの視線方向や顔の向き、体の向き、それらの組み合わせに基づいて、すなわちユーザの向きを示すユーザ方向情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現できるようにするものである。【選択図】図１

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、より適切な音声認識の実行制御を実現することができるようにした情報処理装置および方法、並びにプログラムに関する。

音声認識機能を搭載した対話型エージェントシステムでは、ユーザの独り言や周囲のノイズなどに反応して音声認識が誤作動することを防ぐため、音声認識機能を起動させるためのトリガを設けているものがある。

トリガを利用した音声認識機能の起動の代表的な例として、予め定められた特定の起動ワードが発話された場合に音声認識を開始する方法や、ボタンを押したときだけ音声入力を受け付ける方法がある。しかし、これらの方法では、対話を始める度に起動ワードを発声したり、ボタンを押したりしなければならないため、ユーザにとって負担となる。

一方、ユーザの視線や顔の向きをトリガにして対話を行うか否かを決定する方法も提案されている（例えば、特許文献１参照）。このような技術を用いれば、ユーザはいちいち起動ワードを発話したり、ボタンを押したりすることなく簡単に対話型エージェントとの対話を開始することができる。

特開２０１４−９２６２７号公報

ところが特許文献１に記載の技術では、ある時点の視線情報のみを用いているため、誤検知を起こす可能性がある。

例えば人間同士で会話をしているとき、対話型エージェントに話しかけるつもりは無いにもかかわらず、偶然、対話型エージェントの方に一時的に視線や顔を向けてしまった場合、意図せずに音声認識機能が作動してしまい、対話型エージェントから応答が返ってきてしまう。

このように、上述した技術では、適切に音声認識の実行を制御し、音声認識機能の誤作動を抑制することは困難であった。

本技術は、このような状況に鑑みてなされたものであり、より適切な音声認識の実行制御を実現することができるようにするものである。

本技術の一側面の情報処理装置は、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える。

本技術の一側面の情報処理方法またはプログラムは、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させるステップを含む。

本技術の一側面においては、ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態が終了される。

本技術の一側面によれば、より適切な音声認識の実行制御を実現することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

音声認識システムの構成例を示す図である。音声区間検出について説明する図である。検出音声情報の入力の開始および終了の制御例を示す図である。検出音声情報の入力の開始および終了の制御例を示す図である。検出音声情報の入力の開始および終了の制御例を示す図である。検出音声情報の入力の開始および終了の制御例を示す図である。検出音声情報の入力の開始および終了の制御例を示す図である。入力受付制御処理を説明するフローチャートである。音声認識実行処理を説明するフローチャートである。音声認識システムの構成例を示す図である。検出音声情報の入力例を示す図である。検出音声情報の入力例を示す図である。音声認識システムの構成例を示す図である。更新処理を説明するフローチャートである。検出音声情報の入力の開始および終了の制御例を示す図である。検出音声情報の入力の開始および終了の制御例を示す図である。音声入力受付け状態の終了について説明する図である。音声入力受付け状態の終了について説明する図である。視線が入力受付け視線位置から外れている場合の表示例を示す図である。視線が入力受付け視線位置から外れている場合の表示例を示す図である。音声認識システムの構成例を示す図である。入力受付制御処理を説明するフローチャートである。音声認識システムの構成例を示す図である。音声認識実行処理を説明するフローチャートである。音声認識システムの構成例を示す図である。音声認識システムの構成例を示す図である。視線を向けているユーザを示す提示例を示す図である。他の機器との連携例について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈音声認識システムの構成例〉
本技術は、ユーザの視線方向や顔の向き、体の向き、それらの組み合わせに基づいて、すなわちユーザの向きを示すユーザ方向情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現できるようにするものである。特に、本技術では、リアルタイムなユーザ方向情報を用いることで、より正確に音声認識機能を起動させたり終了させたりすることが可能である。

図１は、本技術を適用した音声認識システムの一実施の形態の構成例を示す図である。

図１に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有している。また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、および入力制御部３４を有している。

この例では、例えば情報処理装置２１はスマートスピーカやスマートホンなどのユーザにより操作される機器などとされ、音声認識部２２は情報処理装置２１に有線または無線のネットワークを介して接続されたサーバ等に設けられている構成とされている。

なお、情報処理装置２１に音声認識部２２が設けられる構成としてもよいし、情報処理装置２１に視線検出部３１や音声入力部３２が設けられていない構成としてもよい。また、音声区間検出部３３がネットワークを介して接続されたサーバ等に設けられている構成とされてもよい。

視線検出部３１は例えばカメラなどからなり、ユーザの視線方向を検出することでユーザ方向情報としての視線情報を生成し、入力制御部３４に供給する。すなわち、視線検出部３１はカメラにより撮像された画像に基づいて周囲にいるユーザの視線の方向、より詳細にはユーザの視線が向いている先を検出し、その検出結果を視線情報として出力する。

なお、ここでは視線検出部３１と音声入力部３２が情報処理装置２１に設けられているが、視線検出部３１は、音声入力部３２が設けられたデバイスに組み込まれていてもよいし、音声入力部３２が設けられたデバイスと異なるデバイスに設けられていてもよい。

また、ここではユーザ方向情報が視線情報である例について説明するが、視線検出部３１がデプス画像に基づいてユーザの顔の向きなどを検出し、その検出結果をユーザ方向情報としてもよい。

音声入力部３２は、例えば１または複数のマイクロホンなどからなり、周囲の音声の入力を受け付ける。すなわち、音声入力部３２は、周囲の音声を収音し、その結果得られた音声信号を入力音声情報として音声区間検出部３３に供給する。以下では、音声入力部３２により収音された音声を入力音声とも称することとする。

音声区間検出部３３は、音声入力部３２から供給された入力音声情報に基づいて、入力音声のなかから実際にユーザが発話している区間を発話区間として検出し、入力音声情報のうちの発話区間を切り出して得られた検出音声情報を入力制御部３４に供給する。以下では、入力音声のうちの発話区間の音声、つまり実際のユーザの発話部分の音声を特に検出音声とも称することとする。

入力制御部３４は、視線検出部３１から供給された視線情報に基づいて、音声区間検出部３３から供給された検出音声情報の音声認識部２２への入力、すなわち音声認識のための検出音声情報の入力の受付けを制御する。

例えば入力制御部３４は、音声認識部２２で音声認識を行うための音声入力が受付けられている状態を音声入力受付け状態とする。

この実施の形態では、検出音声情報の入力が受付けられている状態、すなわち検出音声情報を音声認識部２２に供給（入力）可能な状態が音声入力受付け状態である。

入力制御部３４は、視線検出部３１から供給された視線情報に基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりする。換言すれば、音声入力受付け状態の開始および終了が制御される。

入力制御部３４は、音声入力受付け状態へと遷移すると、すなわち音声入力受付け状態が開始されると、供給された検出音声情報を音声認識部２２へと供給し、音声入力受付け状態が終了すると、検出音声情報が供給されてもその検出音声情報を音声認識部２２へと供給しない。このように入力制御部３４は、音声認識部２２への検出音声情報の入力開始および終了を制御することで、音声認識部２２での音声認識の実行を制御する。

音声認識部２２は、入力制御部３４から供給された検出音声情報に対して音声認識を行って、検出音声情報を検出音声のテキスト情報へと変換し、得られたテキスト情報を出力する。

〈音声認識の開始および終了について〉
ところで、音声区間検出部３３では入力音声情報の音圧に基づいて発話区間の検出が行われる。例えば図２に示す入力音声が供給された場合には、他の区間よりも音圧レベルが高い始端A11から終端A12までの区間T11が発話区間として検出される。そして、音声区間検出部３３から入力制御部３４には、この区間T11の部分が検出音声情報として供給される。

入力制御部３４では、視線情報に基づいて検出音声情報の入力の受付けが制御される。

具体的には、例えばユーザの視線が予め定められた特定の場所に向けられたとき、入力制御部３４は音声入力受付け状態とし、音声認識部２２への検出音声情報の入力の受付けを開始する。

なお、この時点では検出音声情報の入力の受付けが開始されるだけであり、実際に音声認識部２２へと検出音声情報が供給されるのは、音声区間検出部３３によって発話区間が検出されたタイミングである。

また、ここでいう特定の場所とは、例えば音声入力部３２が設けられた情報処理装置２１等のデバイスなどとされる。以下では、ユーザの視線が向けられたときに音声入力受付け状態とされる特定の場所（位置）を、特に入力受付け視線位置とも称することとする。

情報処理装置２１では、音声入力受付け状態であるか否かによらず、音声入力部３２により継続的に収音が行われており、音声区間検出部３３でも継続的に発話区間の検出が行われている。

また、視線検出部３１では、ユーザの発話中であっても継続的に視線検出が行われ、ユーザが入力受付け視線位置へと視線を向け続けている限りは継続して音声入力受付け状態とされ、ユーザの視線が入力受付け視線位置から外れると音声入力受付け状態が終了する。

ここで、図３乃至図７を参照して、検出音声情報の入力の開始および終了の制御例について説明する。なお、図３乃至図７において、図中、横方向は時間方向を示している。

例えば図３に示す例では、期間T31はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T31の開始直後のタイミングである矢印A31に示すタイミング（時刻）において音声入力受付け状態となり、期間T31の終了直後のタイミングである矢印A32に示すタイミング（時刻）において音声入力受付け状態が終了する。つまり、期間T31と略同じ期間である期間T32の間、継続して音声入力受付け状態とされる。

また、この例では音声入力受付け状態とされている期間T32内において入力音声から発話区間T33が検出されている。そのため、入力音声情報のうちの発話区間T33の部分全てが検出音声情報として音声認識部２２へと供給され、音声認識が行われる。すなわち、ここでは発話区間T33に対応する期間T34において継続して音声認識が行われ、その認識結果が出力される。

このように音声認識システム１１では、音声入力受付け状態とされているときに、音声区間検出部３３によってユーザの発話の始端が検出されると、その発話の始端以降の部分が検出音声情報として音声認識部２２へと供給される。検出音声情報が音声認識部２２へと供給される処理は、ユーザが発話すると同時にリアルタイムに開始され、音声入力受付け状態が終了しない限り、音声区間検出部３３がユーザの発話の終端を検出するまで継続して行われる。

また、図４に示す例では、期間T41はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T41の開始直後のタイミングである矢印A41に示すタイミングにおいて音声入力受付け状態となり、期間T41の終了直後のタイミングである矢印A42に示すタイミングにおいて音声入力受付け状態が終了する。すなわち、期間T42の間、継続して音声入力受付け状態とされる。

この例では音声入力受付け状態とされている期間T42内において入力音声から発話区間T43の始端が検出されているが、発話区間T43の終端は期間T42外のタイミングとなっている。

音声区間検出部３３では、入力音声情報のうちの発話区間T43の始端以降の部分が検出音声情報とされる。そして検出音声情報の音声認識部２２への供給が開始されるが、発話区間T43の終端が検出される前に音声入力受付け状態が終了し、検出音声情報の音声認識部２２への供給が中止される。すなわち、ここでは発話区間T43の一部の期間に対応する期間T44において音声認識が行われるが、音声入力受付け状態の終了とともに音声認識部２２での音声認識の処理が中止（キャンセル）される。

ユーザの視線が入力受付け視線位置へと向けられて音声入力受付け状態とされた後、ユーザの視線が入力受付け視線位置とは異なる位置へと向けられた場合には、その時点で音声入力受付け状態が終了され、ユーザの発話中であっても音声認識処理も中止される。したがって、例えばユーザが他のユーザと会話しているときに、偶然、入力受付け視線位置へと視線を向けてしまった場合など、音声認識システム１１での音声認識機能の起動を意図しない場合に音声認識が行われ、ユーザとの対話等が開始されてしまうという誤作動を防止することができる。

図５に示す例では、期間T51はユーザの視線が入力受付け視線位置へと向けられている期間を示している。したがって、期間T51の開始直後の矢印A51に示すタイミングにおいて音声入力受付け状態となり、期間T51の終了直後の矢印A52に示すタイミングにおいて音声入力受付け状態が終了する。すなわち、期間T52の間、継続して音声入力受付け状態とされる。

この例では一部が期間T52内に含まれる期間が発話区間T53として検出されているが、その発話区間T53の始端は、音声入力受付け状態とされる矢印A51に示すタイミングよりも時間的に前のタイミングで検出されている。そのため、入力音声情報の発話区間T53に対応する部分は音声認識部２２へと供給されず、音声認識も行われない。換言すれば、音声入力受付け状態とされている期間内で発話区間T53の始端が検出されなかった場合には、音声認識は行われない。

図６に示す例では、期間T61はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T62は音声入力受付け状態とされている期間を示している。この例では、入力音声情報から発話区間T63と発話区間T64という２つの発話区間が検出されている。

ここでは、音声入力受付け状態とされている期間T62内に発話区間T63全体が含まれているため、入力音声情報のうちの発話区間T63の部分が検出音声情報として音声認識部２２へと供給され、音声認識が行われる。すなわち、発話区間T63に対応する期間T65において継続して音声認識が行われ、その認識結果が出力される。

これに対して発話区間T64は、その発話区間T64の始端部分は期間T62内に含まれているが、発話区間T64の終端部分は期間T62内に含まれていない。すなわち、ユーザは発話区間T64に対応する発話の途中で視線を入力受付け視線位置から逸らしてしまっている。

そのため、入力音声情報のうちの発話区間T64の始端以降の部分が検出音声情報として音声認識部２２へと供給されるが、その検出音声情報の供給は期間T62の終端のタイミングで中止されることになる。すなわち、ここでは発話区間T64の一部の期間に対応する期間T66において音声認識が行われ、音声入力受付け状態の終了とともに音声認識の処理が中止（キャンセル）される。

図７に示す例では、期間T71はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T72は音声入力受付け状態とされている期間を示している。この例では、入力音声情報から発話区間T73と発話区間T74という２つの発話区間が検出されている。

ここでは、１つ目の発話区間T73については、その発話区間T73の始端は、音声入力受付け状態とされる期間T72の始端前のタイミングで検出されているため、図５における例と同様に入力音声情報の発話区間T73に対応する部分は音声認識部２２へと供給されず、音声認識も行われない。

これに対して、２つ目の発話区間T74については、音声入力受付け状態とされている期間T72内に発話区間T74全体が含まれているため、入力音声情報のうちの発話区間T74の部分が検出音声情報として音声認識部２２へと供給され、音声認識が行われる。すなわち、発話区間T74に対応する期間T75において継続して音声認識が行われている。

図６や図７の例のように、ユーザが入力受付け視線位置に視線を向けている状態で、ユーザの発話（発話区間）の終端が検出された後、さらにユーザが入力受付け視線位置に視線を向けたまま次の発話を行うと、その発話が音声認識の対象とされることになる。

以上のように、本技術ではユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とすることで、より適切な音声認識の実行制御を実現することができる。

特に、ユーザが入力受付け視線位置から視線を逸らした時点で音声入力受付け状態を終了させることで、ユーザが意図せず入力受付け視線位置へと視線を向けてしまった場合に、継続して音声認識が行われてしまうことを防止することができる。すなわち、例えば図４や図６に示した例のように、適切な音声認識の実行制御を行うことができる。また、例えば図６や図７に示した例のように、ユーザが複数の発話を行った場合でも、それらの発話のうち、ユーザが入力受付け視線位置へと視線を向けた状態でなされた発話について音声認識が行われる。

〈入力受付制御処理の説明〉
次に、音声認識システム１１の動作について説明する。

例えば音声認識システム１１が起動している間、音声認識システム１１では、音声入力の受付けを制御する入力受付制御処理と、入力された音声に対して音声認識を行う音声認識実行処理とが並行して行われる。

まず、図８のフローチャートを参照して、音声認識システム１１により行われる入力受付制御処理について説明する。

ステップＳ１１において視線検出部３１は視線検出を行い、その検出結果として得られた視線情報を入力制御部３４に供給する。

ステップＳ１２において入力制御部３４は音声入力受付け状態であるか否かを判定する。

ステップＳ１２において音声入力受付け状態ではないと判定された場合、ステップＳ１３において入力制御部３４は、視線検出部３１から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。すなわち、例えば視線情報により示されるユーザの視線方向が入力受付け視線位置のある方向であるか否かが判定される。

ステップＳ１３において視線が入力受付け視線位置を向いていないと判定された場合、音声入力受付け状態ではない状態のままとされ、その後、処理はステップＳ１７へと進む。

これに対してステップＳ１３において視線が入力受付け視線位置を向いていると判定された場合、ステップＳ１４において入力制御部３４は音声入力受付け状態とする。ステップＳ１４の処理が行われると、その後、処理はステップＳ１７へと進む。

また、ステップＳ１２において音声入力受付け状態であると判定された場合、ステップＳ１５において入力制御部３４は、視線検出部３１から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。

ステップＳ１５において視線が入力受付け視線位置を向いていると判定された場合、ユーザの視線は継続して入力受付け視線位置へと向けられているので音声入力受付け状態のままとされ、処理はステップＳ１７へと進む。

これに対してステップＳ１５において視線が入力受付け視線位置を向いていないと判定された場合、ユーザの視線が入力受付け視線位置から外されたので、ステップＳ１６において入力制御部３４は音声入力受付け状態を終了させる。ステップＳ１６の処理が行われると、その後、処理はステップＳ１７へと進む。

ステップＳ１３において入力受付け視線位置を向いていないと判定されたか、ステップＳ１４若しくはステップＳ１６の処理が行われたか、またはステップＳ１５において入力受付け視線位置を向いていると判定されると、ステップＳ１７の処理が行われる。

ステップＳ１７において入力制御部３４は、処理を終了するか否かを判定する。例えばステップＳ１７では、音声認識システム１１の動作停止が指示された場合、処理を終了すると判定される。

ステップＳ１７において処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ１７において処理を終了すると判定された場合、音声認識システム１１の各部は動作を停止させ、入力受付制御処理は終了する。

以上のようにして音声認識システム１１は、ユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外されると音声入力受付け状態を終了させる。

このようにユーザの視線情報に基づいて音声入力受付け状態の開始や終了を制御することで、より適切な音声認識の実行制御を実現することができる。これにより、音声認識機能の誤作動を抑制し、音声認識システム１１の使い勝手を向上させることができる。

〈音声認識実行処理の説明〉
続いて、図９のフローチャートを参照して、音声認識システム１１により入力受付制御処理と同時に行われる音声認識実行処理について説明する。

ステップＳ４１において、音声入力部３２は周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部３３に供給する。

ステップＳ４２において、音声区間検出部３３は音声入力部３２から供給された入力音声情報に基づいて音声区間検出を行う。

すなわち、音声区間検出部３３は音声区間検出によって入力音声情報のうちの発話区間を検出し、発話区間が検出された場合、入力音声情報の発話区間の部分を検出音声情報として入力制御部３４に供給する。

ステップＳ４３において、入力制御部３４は音声入力受付け状態であるか否かを判定する。

ステップＳ４３において音声入力受付け状態であると判定された場合、処理はステップＳ４４へと進む。

ステップＳ４４において、入力制御部３４はステップＳ４２における音声区間検出により発話区間の始端が検出されたか否かを判定する。

例えば入力制御部３４は、音声入力受付け状態となっている状態で、音声区間検出部３３から検出音声情報の供給が開始された場合、発話区間の始端が検出されたと判定する。

また、例えば入力制御部３４は、既に発話区間の始端が検出されて音声認識中である場合や、音声入力受付け状態であるがまだ発話区間の始端が検出されておらず、音声認識が行われていない状態である場合、発話区間の始端が検出されていないと判定する。

その他、例えば音声入力受付け状態でないときに発話区間の始端が検出され、その後、音声入力受付け状態とされた状態となっている場合にも発話区間の始端が検出されていないと判定される。

ステップＳ４４において発話区間の始端が検出されたと判定された場合、ステップＳ４５において、入力制御部３４は音声区間検出部３３から供給された検出音声情報の音声認識部２２への供給を開始し、これにより音声認識部２２に音声認識を開始させる。

音声認識部２２は、入力制御部３４から検出音声情報が供給されると、その検出音声情報に対する音声認識を行う。このようにして音声認識が開始されると、その後、処理はステップＳ５２へと進む。

例えば図３に示した例のように、音声入力受付け状態となっているときに発話区間T33の始端が検出されると、ステップＳ４５で音声認識が開始される。

これに対して、ステップＳ４４において発話区間の始端が検出されなかったと判定された場合、ステップＳ４６において入力制御部３４は音声認識中であるか否かを判定する。

ステップＳ４６において音声認識中でないと判定された場合、音声認識部２２への検出音声情報の供給は行われず、処理はステップＳ５２へと進む。

ここでは、例えば音声入力受付け状態であるが、まだ発話区間の始端が検出されていない状態である場合や、図５の例のように音声入力受付け状態であるが、音声入力受付け状態となる前に発話区間の始端が検出された場合などに音声認識中でないと判定される。

これに対して、ステップＳ４６において音声認識中であると判定された場合、ステップＳ４７において入力制御部３４はステップＳ４２における音声区間検出により発話区間の終端が検出されたか否かを判定する。

例えば入力制御部３４は、音声入力受付け状態となっている状態で、これまで継続的に行われていた音声区間検出部３３からの検出音声情報の供給が終了した場合、発話区間の終端が検出されたと判定する。

ステップＳ４７において発話区間の終端が検出されたと判定された場合、ステップＳ４８において入力制御部３４は検出音声情報の音声認識部２２への供給を終了し、これにより音声認識部２２に音声認識を終了させる。

例えば図３に示した例のように、音声入力受付け状態となっているときに発話区間T33の終端が検出されると、ステップＳ４８で音声認識が終了される。この場合、発話区間全体に対して音声認識が行われたことになり、音声認識部２２は音声認識の結果として得られたテキスト情報を出力する。

音声認識が終了すると、その後、処理はステップＳ５２へと進む。

また、ステップＳ４７において発話区間の終端が検出されなかったと判定された場合、処理はステップＳ４９へと進む。

ステップＳ４９において、入力制御部３４は音声区間検出部３３から供給される検出音声情報の音声認識部２２への供給を継続して行い、これにより音声認識部２２に音声認識を継続して行わせる。ステップＳ４９の処理が行われると、その後、処理はステップＳ５２へと進む。

また、ステップＳ４３において音声入力受付け状態でないと判定された場合、ステップＳ５０において入力制御部３４は音声認識中であるか否かを判定する。

ステップＳ５０において音声認識中であると判定された場合、ステップＳ５１において入力制御部３４は、音声区間検出部３３から供給された検出音声情報の音声認識部２２への供給を終了し、これにより音声認識部２２に音声認識を終了させる。

例えば図４に示した例のように音声認識の途中で音声入力受付け状態が終了された場合、ステップＳ５１の処理が行われ、音声認識の処理が中止される。すなわち、音声認識の処理が途中で終了される。ステップＳ５１の処理が行われると、その後、処理はステップＳ５２へと進む。

一方、ステップＳ５０において音声認識中でないと判定された場合、ステップＳ５１の処理は行われず、その後、処理はステップＳ５２へと進む。

ステップＳ４５、ステップＳ４８、ステップＳ４９、若しくはステップＳ５１の処理が行われたか、またはステップＳ４６若しくはステップＳ５０において音声認識中でないと判定された場合、ステップＳ５２の処理が行われる。

ステップＳ５２において入力制御部３４は、処理を終了するか否かを判定する。例えばステップＳ５２では、音声認識システム１１の動作停止が指示された場合、処理を終了すると判定される。

ステップＳ５２において処理を終了しないと判定された場合、処理はステップＳ４１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ５２において処理を終了すると判定された場合、音声認識システム１１の各部は動作を停止させ、音声認識実行処理は終了する。

以上のようにして音声認識システム１１は、継続的に収音と音声区間検出を行いながら、音声入力受付け状態であるか否かに応じて音声認識部２２での音声認識の実行を制御する。このように音声入力受付け状態であるか否かに応じて音声認識を実行させることで、音声認識機能の誤作動を抑制し、音声認識システム１１の使い勝手を向上させることができる。

〈第２の実施の形態〉
〈音声認識システムの構成例〉
なお、上述した第１の実施の形態では、音声認識システム１１において音声区間検出部３３から出力された検出音声情報が直接、入力制御部３４に供給される例について説明した。しかし、音声区間検出部３３から出力された検出音声情報が、一旦、バッファに保持されて、入力制御部３４がバッファから逐次、検出音声情報を読み出すようにしてもよい。

そのような場合、音声認識システム１１は、例えば図１０に示すように構成される。なお、図１０において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有しており、また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、音声バッファ６１、および入力制御部３４を有している。

図１０に示す音声認識システム１１の構成は、図１に示した音声認識システム１１に新たに音声バッファ６１を追加した構成となっており、その他の点では図１に示した音声認識システム１１と同じ構成となっている。

音声バッファ６１は、音声区間検出部３３から供給された検出音声情報を一時的に保持し、保持している検出音声情報を入力制御部３４に供給する。入力制御部３４は、音声バッファ６１に保持されている検出音声情報を読み出して音声認識部２２へと供給する。

例えばユーザが発話中に、つまり発話開始後に視線を入力受付け視線位置へと向けた場合について考える。

この場合、第１の実施の形態では、発話区間の始端が検出されるのは音声入力受付け状態の開始前のタイミング、つまり音声入力受付け状態ではないタイミングであるので、その発話区間に対して音声認識は行われない。

これに対して、図１０に示す音声認識システム１１では、検出音声情報を一時的に保持（蓄積）しておく音声バッファ６１が設けられている。

そのため、ユーザが発話開始後に視線を入力受付け視線位置へと向けた場合でも、音声バッファ６１の大きさによっては、音声入力受付け状態となった時点で音声バッファ６１に保持されている過去の検出音声情報をさかのぼり、発話区間の始端から検出音声情報を音声認識部２２へと供給することが可能となる。

例えば図１１に示すように、音声バッファ６１において矩形状の枠W11の大きさの分だけ検出音声情報を保持しておくことができるものとする。なお、図１１において図中、横方向は時間方向を示している。

図１１に示す例では、期間T81はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T82は音声入力受付け状態とされている期間を示している。

また、この例では、発話区間T83の始端位置は期間T82の始端位置よりも時間的に前の位置（時刻）となっており、発話区間T83の終端位置は、期間T82の終端位置よりも時間的に前の位置（時刻）となっている。

換言すれば、ユーザは発話を開始した後で視線を入力受付け視線位置へと向けており、発話が終了してから視線を入力受付け視線位置から外している。

しかし、発話区間T83のうちの枠W11で囲まれる部分の検出音声情報が音声バッファ６１に保持されている。特に、ここでは発話区間T83の始端部分を含む所定の長さの区間の検出音声情報が音声バッファ６１に保持されている。

そのため、期間T82の始端位置のタイミング、すなわちユーザが視線を入力受付け視線位置へと向けたタイミングで、入力制御部３４が音声バッファ６１から検出音声情報を読み出して音声認識部２２へと供給し、音声認識を開始させることができる。これにより、例えば期間T84において、発話区間T83全体に対する音声認識が行われる。

すなわち、この場合、入力制御部３４は音声バッファ６１に保持されている過去の検出音声情報をさかのぼり、発話区間T83の始端を検出する。そして、入力制御部３４は発話区間T83の始端が検出されると、その始端部分に対応するものから順番に、音声バッファ６１に保持されている検出音声情報を音声認識部２２へと供給していく。

なお、音声バッファ６１を参照して発話区間の始端を検出するのに過去のどれくらいの時間までさかのぼるかは、予め定められた設定値や音声バッファ６１の大きさ（サイズ）などから定めておけばよい。

また、ユーザの１つの発話に対応する検出音声情報を全て格納可能な大きさの音声バッファ６１を用意しておくようにしてもよい。そうすれば、例えば図１２に示すように、発話終了後にユーザが入力受付け視線位置へと視線を向けた場合でも、発話区間の始端から検出音声情報を音声認識部２２へと供給することが可能である。なお、図１２において図中、横方向は時間方向を示している。

図１２に示す例では、期間T91はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T92は音声入力受付け状態とされている期間を示している。

この例では、発話区間T93の終端位置は、音声入力受付け状態とされている期間T92の始端位置よりも時間的に前の位置（時刻）となっている。

しかし、音声認識システム１１では、矩形状の枠W21で囲まれる部分の検出音声情報が音声バッファ６１に保持されている。特に、ここでは発話区間T93全体の検出音声情報が音声バッファ６１に保持されている。

したがって、ユーザが発話終了後に入力受付け視線位置へと視線を向けると、図１１における場合と同様に、音声バッファ６１に保持されている発話区間T93部分の検出音声情報が音声認識部２２へと供給され、音声認識が開始される。これにより、例えば期間T94において、発話区間T93全体に対する音声認識が行われる。

但し、ユーザが入力受付け視線位置から視線を逸らすと音声入力受付け状態が終了されるため、発話区間T93全体に対する音声認識が行われている間は、ユーザは入力受付け視線位置へと視線を向け続けている必要がある。

以上のような音声バッファ６１を有する音声認識システム１１においても、図８を参照して説明した入力受付制御処理や、図９を参照して説明した音声認識実行処理が行われる。

但し、音声認識実行処理では、ステップＳ４２の音声区間検出で発話区間が検出された場合には、その発話区間の検出音声情報が音声区間検出部３３から音声バッファ６１へと供給されて保持される。このとき音声バッファ６１では、保持されている検出音声情報のうち、発話区間の始端部分がどの部分であるかが分かるようにされている。

また、ステップＳ４４やステップＳ４７では、入力制御部３４は、音声バッファ６１に保持されている検出音声情報から発話区間の始端や終端を検出し、音声バッファ６１に保持されている検出音声情報を適宜、音声認識部２２へと供給する。

このような図１０に示した音声認識システム１１によれば、ユーザの発話のタイミングと、ユーザが入力受付け視線位置へと視線を向けるタイミングとにずれが生じたときでも、ユーザの意図通り、音声認識を行わせることができる。

〈第３の実施の形態〉
〈音声認識システムの構成例〉
なお、上述した入力受付け視線位置は、１つであってもよいし、複数であってもよい。例えば入力受付け視線位置を複数用意することで、単一のシステム、すなわち１つの音声認識システム１１で複数の機器を操作する場合に、ユーザがそれらの機器へと視線を移動させながら音声入力を継続して行うことができる。

また、音声認識システム１１がユーザの発話の内容、すなわちコンテキストを理解して、動的に入力受付け視線位置を追加したり、入力受付け視線位置を削除したりしてもよい。

具体的には、例えばユーザが「テレビをつけて」と発話した場合、入力制御部３４が音声認識部２２で得られた認識結果、すなわちコンテキストに基づいて、テレビがある位置（領域）を入力受付け視線位置として追加する。逆に、例えばユーザが「テレビを消して」と発話した場合、テレビの位置が入力受付け視線位置ではなくなるように、入力受付け視線位置の更新が行われる。すなわち、入力受付け視線位置として登録されていたテレビの位置が削除される。

入力受付け視線位置の動的な削除を行うことで、入力受付け視線位置の数が増えすぎて、意図せずに音声認識部２２へと検出音声情報の供給が開始されてしまうことを防止することができる。

なお、入力受付け視線位置の設定、すなわち入力受付け視線位置の追加や削除は、ユーザが手動で行うようにしてもよいし、音声認識システム１１が画像認識技術等を利用して行うようにしてもよい。

また、入力受付け視線位置が複数ある場合、特に動的に入力受付け視線位置とする位置の追加や削除が行われる場合、現時点ではどの場所が入力受付け視線位置となっているのかをユーザが把握しにくいこともある。そこで、例えばディスプレイへの表示や、スピーカによる音声出力などによって、どの場所が入力受付け視線位置となっているのかを明示的に提示するようにしてもよい。

入力受付け視線位置の動的な追加および削除が行われる場合、例えば音声認識システム１１は図１３に示すように構成される。なお、図１３において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有しており、また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、入力制御部３４、撮像部９１、画像認識部９２、および提示部９３を有している。

図１３に示す音声認識システム１１の構成は、図１に示した音声認識システム１１に新たに撮像部９１乃至提示部９３を追加した構成となっており、その他の点では図１に示した音声認識システム１１と同じ構成となっている。

撮像部９１は、例えばカメラなどからなり、情報処理装置２１の周囲を被写体として撮像し、その結果得られた画像を画像認識部９２に供給する。

画像認識部９２は、撮像部９１から供給された画像に対して画像認識を行い、画像認識の結果として、情報処理装置２１の周囲にある所定のデバイス等の位置（方向）を示す情報を入力制御部３４に供給する。例えば画像認識部９２では、予め定められた、入力受付け視線位置となり得るデバイス等の対象物が画像認識により検出される。

入力制御部３４は、入力受付け視線位置とする１または複数の場所（位置）を示す登録情報を保持しており、音声認識部２２から供給された音声認識の結果や、画像認識部９２から供給された画像認識の結果に基づいて登録情報の管理を行う。換言すれば、入力制御部３４は、入力受付け視線位置とする場所（位置）の追加や削除を動的に行う。なお、入力受付け視線位置の追加または削除の何れか一方のみが行われてもよい。

提示部９３は、例えばディスプレイ等の表示部やスピーカ、発光部などからなり、入力制御部３４の制御に従って、ユーザに対して入力受付け視線位置に関する提示を行う。

なお、撮像部９１や画像認識部９２、提示部９３は、情報処理装置２１とは異なるデバイスに設けられていてもよい。また、提示部９３は設けられないようにしてもよく、さらに図１３に示した音声認識システム１１に、図１０に示した音声バッファ６１が設けられていてもよい。

〈更新処理の説明〉
図１３に示す音声認識システム１１では、図８を参照して説明した入力受付制御処理、および図９を参照して説明した音声認識実行処理が行われるが、これらの入力受付制御処理および音声認識実行処理と同時に、登録情報を更新する更新処理も行われる。

以下、図１４のフローチャートを参照して、音声認識システム１１により行われる更新処理について説明する。

ステップＳ８１において入力制御部３４は、音声認識部２２から音声認識の結果を取得する。ここでは、例えば音声認識の結果として検出音声のテキスト情報、つまりユーザの発話内容を示すテキスト情報が取得される。

ステップＳ８２において入力制御部３４は、ステップＳ８１で取得した音声認識の結果と、保持している登録情報とに基づいて入力受付け視線位置を追加するか否かを判定する。

例えば音声認識の結果として取得したテキスト情報が「テレビをつけて」であり、登録情報においてテレビの位置が入力受付け視線位置として登録されていない場合、入力受付け視線位置を追加すると判定される。この場合、テレビの位置が新たな入力受付け視線位置として追加されることになる。

ステップＳ８２において入力受付け視線位置を追加しないと判定された場合、ステップＳ８３乃至ステップＳ８６の処理は行われず、処理はステップＳ８７へと進む。

これに対して、ステップＳ８２において入力受付け視線位置を追加すると判定された場合、ステップＳ８３において撮像部９１は、情報処理装置２１の周囲を被写体として撮像し、その結果得られた画像を画像認識部９２に供給する。

ステップＳ８４において画像認識部９２は、撮像部９１から供給された画像に対して画像認識を行い、その画像認識の結果を入力制御部３４に供給する。

ステップＳ８５において、入力制御部３４は、新たな入力受付け視線位置を追加する。

すなわち、入力制御部３４は、画像認識部９２から供給された画像認識の結果に基づいて、ステップＳ８２において追加するとされた位置が入力受付け視線位置として登録情報に登録（追加）されるように、保持している登録情報を更新する。

例えばテレビの位置を新たな入力受付け視線位置として追加する場合、画像認識の結果により示されるテレビの位置、すなわちテレビがある方向を示す情報が、新たな入力受付け視線位置を示す情報として登録情報に追加される。

新たな入力受付け視線位置が追加されると、入力制御部３４は、適宜、追加した入力受付け視線位置を示すテキスト情報や音声情報、方向情報などを提示部９３に供給し、新たに追加した入力受付け視線位置の提示を指示する。

ステップＳ８６において提示部９３は、入力制御部３４の指示に応じて入力受付け視線位置の提示を行う。

例えば提示部９３がディスプレイを有する場合、ディスプレイは入力制御部３４から供給された、新たに追加した入力受付け視線位置を示すテキスト情報や、現時点で登録情報に登録されている入力受付け視線位置を示すテキスト情報等を表示する。

具体的には、例えば「テレビが入力受付け視線位置として追加されました」などのテキスト情報がディスプレイに表示されるようにすることができる。その他、例えばディスプレイに新たに追加された入力受付け視線位置の方向を表示させたり、提示部９３としての複数の発光部のうち、新たに追加された入力受付け視線位置の方向にある発光部を発光させたりしてもよい。

また、例えば提示部９３がスピーカを有する場合、スピーカは入力制御部３４から供給された、新たに追加した入力受付け視線位置を示す音声情報や、現時点で登録情報に登録されている入力受付け視線位置を示す音声情報等に基づいて音声メッセージを出力する。

入力受付け視線位置の提示が行われると、その後、処理はステップＳ８７へと進む。

ステップＳ８６の処理が行われたか、またはステップＳ８２において入力受付け視線位置を追加しないと判定された場合、ステップＳ８７の処理が行われる。

ステップＳ８７において入力制御部３４は、ステップＳ８１で取得した音声認識の結果と、保持している登録情報とに基づいて入力受付け視線位置を削除するか否かを判定する。

例えば音声認識の結果として取得したテキスト情報が「テレビを消して」であり、登録情報においてテレビの位置が入力受付け視線位置として登録されている場合、入力受付け視線位置を削除すると判定される。この場合、入力受付け視線位置として登録されていたテレビの位置が登録情報から削除されることになる。

ステップＳ８７において入力受付け視線位置を削除しないと判定された場合、ステップＳ８８およびステップＳ８９の処理は行われず、処理はステップＳ９０へと進む。

これに対して、ステップＳ８７において入力受付け視線位置を削除すると判定された場合、ステップＳ８８において入力制御部３４は入力受付け視線位置を削除する。

すなわち、入力制御部３４は、ステップＳ８７において削除するとされた入力受付け視線位置を示す情報が登録情報から削除されるように、保持している登録情報を更新する。

例えば入力受付け視線位置として登録されていたテレビの位置が削除される場合、入力制御部３４は登録情報に登録されている、すなわち登録情報に含まれているテレビの位置を示す情報を登録情報から削除する。

入力受付け視線位置が削除されると、入力制御部３４は、適宜、削除した入力受付け視線位置を示すテキスト情報や音声情報、方向情報などを提示部９３に供給し、削除した入力受付け視線位置の提示を指示する。

ステップＳ８９において提示部９３は、入力制御部３４の指示に応じて、削除した入力受付け視線位置の提示を行う。

例えばステップＳ８９ではステップＳ８６における場合と同様に、ディスプレイに削除された入力受付け視線位置を示すテキスト情報が表示されたり、スピーカにより特定の位置（場所）が入力受付け視線位置から削除された旨の音声メッセージが出力されたりする。

なお、この場合、更新後の登録情報に登録されている入力受付け視線位置を示すテキスト情報や音声メッセージが提示されるようにしてもよい。

ステップＳ８９の処理が行われたか、またはステップＳ８７において入力受付け視線位置を削除しないと判定された場合、ステップＳ９０の処理が行われる。

ステップＳ９０において入力制御部３４は、処理を終了するか否かを判定する。例えばステップＳ９０では、音声認識システム１１の動作停止が指示された場合、処理を終了すると判定される。

ステップＳ９０において処理を終了しないと判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ９０において処理を終了すると判定された場合、音声認識システム１１の各部は動作を停止させ、更新処理は終了する。

以上のようにして音声認識システム１１は、音声認識の結果、すなわちユーザの発話のコンテキストに基づいて、入力受付け視線位置を追加したり削除したりする。

このように動的に入力受付け視線位置を追加したり削除したりすることで、あると便利な位置を入力受付け視線位置として追加したり、不要となった入力受付け視線位置を削除したりして使い勝手を向上させることができる。また、追加または削除された入力受付け視線位置の提示を行うことで、ユーザは入力受付け視線位置の追加や削除を容易に把握することができる。

〈第４の実施の形態〉
〈音声入力受付け状態の終了について〉
ところで、音声認識システム１１では、ユーザが入力受付け視線位置へと視線を向けると音声入力受付け状態へと遷移し、ユーザが入力受付け視線位置から視線を逸らすと音声入力受付け状態が終了されると説明した。すなわち、ユーザの視線が入力受付け視線位置の方向を向いていないという条件が満たされた場合、音声入力受付け状態が終了されると説明した。

しかし、視線検出ではユーザの意図に反して、ユーザが入力受付け視線位置から視線を逸らしたと判定されてしまう場合がある。

このようなユーザの意図に反した判定の要因としては、例えば視線検出の誤検出が生じた場合や、ユーザと視線検出部３１の間を遮蔽物が通った場合、ユーザが一時的に入力受付け視線位置から視線を逸らした場合などが考えられる。

そのような場合に、ユーザの意図に反して音声認識が中止されないように、ユーザの視線が入力受付け視線位置から外されたと判定するときの条件を設けるようにしてもよい。換言すれば、視線情報に基づく所定条件が満たされた場合、入力制御部３４が音声入力受付け状態を終了させるようにしてもよい。

具体的には、例えば図１５や図１６に示すようにユーザの視線が入力受付け視線位置から外れている継続時間が一定時間を超えた場合に音声入力受付け状態が終了されるようにしてもよい。なお、図１５および図１６において横方向は時間方向を示している。

図１５に示す例では、期間T101および期間T103はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T102および期間T104はユーザの視線が入力受付け視線位置から外れている期間を示している。

また、音声入力受付け状態を終了させると判定される、ユーザの視線が入力受付け視線位置から継続して外れている時間（継続時間）を閾値th1と記すこととする。

この例では、入力制御部３４において期間T101の間、ユーザの視線が入力受付け視線位置へと向けられていると判定される。したがって、期間T101の始端のタイミングで音声入力受付け状態となる。

また、入力制御部３４では期間T101の後、期間T102の間、ユーザの視線が入力受付け視線位置から外れていると判定され、その期間T102後の期間T103の間、ユーザの視線が再び入力受付け視線位置へと向けられていると判定される。

音声入力受付け状態とされた後、期間T102ではユーザの視線が入力受付け視線位置から外れていると判定されているが、この期間T102の長さは閾値th1以下であるので、入力制御部３４では継続して音声入力受付け状態とされる。

すなわち、音声入力受付け状態とされた後、ユーザは一時的に入力受付け視線位置から視線を外しているが、その視線を外していた継続時間が閾値th1よりも短かったため、音声入力受付け状態が維持される。

また、期間T103の終了後、ユーザの視線が入力受付け視線位置から外れていると判定され、その後、ユーザの視線が入力受付け視線位置から外れていると判定され続けている時間が閾値th1を超えた時点で、入力制御部３４は音声入力受付け状態を終了させる。

すなわち、期間T103の後の期間T104は、ユーザの視線が入力受付け視線位置から外れている期間であり、この期間T104の長さは閾値th1よりも長いので、音声入力受付け状態が終了される。したがって、ここでは期間T101の始端直後から、期間T104の終端直後までの期間T105が音声入力受付け状態とされる期間となる。

この例では音声入力受付け状態とされている期間T105内において入力音声から発話区間T106が検出されており、期間T107において、発話区間T106全体に対する音声認識が行われ、その認識結果が出力される。

また、図１６に示す例では期間T111および期間T113はユーザの視線が入力受付け視線位置へと向けられている期間を示しており、期間T112はユーザの視線が入力受付け視線位置から外れている期間を示している。

この例では、入力制御部３４において期間T111の間、ユーザの視線が入力受付け視線位置へと向けられていると判定される。したがって、期間T111の始端のタイミングで音声入力受付け状態となる。

また、入力制御部３４では期間T111の後、期間T112の間、ユーザの視線が入力受付け視線位置から外れていると判定され、その期間T112後の期間T113の間、ユーザの視線が入力受付け視線位置へと向けられていると判定されている。

期間T111に続く期間T112は閾値th1よりも長い期間となっているので、期間T112の開始後、ユーザの視線が入力受付け視線位置から外れていると判定され続けている継続時間が閾値th1を超えた時点で、入力制御部３４は音声入力受付け状態を終了させる。

したがって、ここでは期間T111の始端直後から、期間T112の途中の時刻までの期間T114が音声入力受付け状態とされる期間となる。

また、この例では音声入力受付け状態とされている期間T111内のタイミングで、入力音声から発話区間T115の始端が検出されている。しかし、発話区間T115の終端は、音声入力受付け状態ではない期間T113内のタイミング（時刻）となっている。

ここでは、入力音声情報のうちの発話区間T115の始端以降の部分が検出音声情報とされ、検出音声情報の音声認識部２２への供給が開始される。しかし、発話区間T115の終端が検出される前に音声入力受付け状態が終了し、検出音声情報の音声認識部２２への供給が中止される。すなわち、発話区間T115の一部の期間に対応する期間T116において音声認識が行われ、音声入力受付け状態の終了とともに音声認識の処理が中止される。

このように音声入力受付け状態となっている場合、ユーザの視線が入力受付け視線位置から外されたときには、入力制御部３４は、ユーザの視線が入力受付け視線位置から外されている継続時間を計測する。

そして入力制御部３４は、計測された継続時間が閾値th1を超えた時点で、ユーザが視線を入力受付け視線位置から逸らした（外した）ものとし、音声入力受付け状態を終了させる。すなわち、ここでは、音声入力受付け状態の開始後、ユーザの視線が入力受付け視線位置の方向を向いていない状態の継続時間が閾値th1を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。

このようにすることで、例えばユーザが意図せずに一時的に視線を逸らしてしまった場合などにおいても音声入力受付け状態が維持され、適切な音声認識の実行制御を実現することができる。

なお、音声入力受付け状態となっている場合、ユーザの視線が入力受付け視線位置から外されている時間の合計、すなわち累計時間を入力制御部３４が計測し、その累計時間が所定の閾値th2を超えた時点で音声入力受付け状態を終了させるようにしてもよい。

換言すれば、音声入力受付け状態の開始後、ユーザの視線が入力受付け視線位置の方向を向いていない状態の累計時間が閾値th2を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了されるようにしてもよい。そのような場合においても図１５や図１６に示した例と同様の制御が行われる。

また、例えば図１７に示すように、ユーザの視線が入力受付け視線位置からわずかに外れただけでは音声入力受付け状態を終了させないようにしてもよい。

図１７に示す例では、矢印LS11および矢印LS12は、ユーザの視線方向を示している。

ここでは、ユーザの目E11、すなわちユーザの視線が入力受付け視線位置RP11に向けられると音声入力受付け状態となる。

その後、音声入力受付け状態とされているときに、例えば矢印LS11に示すようにユーザが入力受付け視線位置RP11からわずかに外れた位置へと視線を逸らしたとする。すなわち、例えば入力受付け視線位置RP11の方向と矢印LS11に示す視線方向との差分が予め定めた閾値以下であるとする。この差分は、ユーザの視線が向いている方向と、入力受付け視線位置の方向とのずれを示している。

この場合、入力制御部３４は音声入力受付け状態を終了させず、入力受付け視線位置RP11の方向とユーザの視線方向との差分が閾値を超えるまでは、音声入力受付け状態のままとする。

そして、例えば矢印LS12に示すようにユーザが入力受付け視線位置RP11から大きく外れた位置へと視線を向けたため、入力受付け視線位置RP11の方向と矢印LS12に示す視線方向との差分が閾値を超えると、入力制御部３４はその時点で音声入力受付け状態を終了させる。換言すれば、ユーザの視線が向いている方向と、入力受付け視線位置の方向とのずれの大きさが所定の閾値を超えた場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。

このように図１７に示す例では、入力制御部３４はユーザの視線の入力受付け視線位置からのずれの大きさに応じて、音声入力受付け状態を終了させるか否かを決定する。これにより、視線検出の精度が低い場合や、ユーザの視線がわずかに入力受付け視線位置から外れている場合でも音声入力受付け状態が維持され、適切な音声認識の実行制御を実現することができる。

また、入力受付け視線位置が複数ある場合には、例えば図１８に示すように、ユーザの視線が２つの入力受付け視線位置間にあるときには音声入力受付け状態のままとされるようにしてもよい。なお、図１８において図１７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば図１８に示す例において、ユーザが視線を入力受付け視線位置RP11に向けて音声入力受付け状態とされた後、さらにユーザが視線を入力受付け視線位置RP12へと向けたとする。

この場合、ユーザの視線が矢印LS21に示すように、入力受付け視線位置RP11と入力受付け視線位置RP12の間に向けられている間は、入力制御部３４は音声入力受付け状態のままとする。

これに対して、例えば矢印LS22に示すようにユーザの視線が入力受付け視線位置RP11と入力受付け視線位置RP12の間でもなく、入力受付け視線位置RP11や入力受付け視線位置RP12からも外れている場合、入力制御部３４は音声入力受付け状態を終了させる。

換言すれば、ユーザの視線の方向が、複数の入力受付け視線位置の方向のうちの何れの方向でもなく、かつ２つの入力受付け視線位置の間の方向でもない場合、上述の所定条件が満たされたとされ、音声入力受付け状態が終了される。

このようにすることで、ユーザが所定の入力受付け視線位置から他の入力受付け視線位置へと視線を移動させる場合に、ユーザの意図に反して音声入力受付け状態が終了されてしまうことを防止することができる。すなわち、適切な音声認識の実行制御を実現することができる。

さらに、以上において説明したようにユーザの視線が入力受付け視線位置から外れている継続時間や累計時間と閾値を比較する方法、ユーザの視線方向と入力受付け視線位置の方向との差分を閾値と比較する方法、ユーザの視線が２つの入力受付け視線位置間にある場合には音声入力受付け状態のままとする方法を適宜、組み合わせてもよい。

また、これらの方法等を用いる場合には、ユーザに対して適切な表示を行うとよい。

具体的には、ユーザの視線が入力受付け視線位置から外れている継続時間や累計時間と閾値を比較する場合には、例えば図１９に示す表示が行われる。

図１９に示す例では、ユーザに対して表示される表示画面には、視線が入力受付け視線位置から外れている旨の文字メッセージ「視線が外れています」が表示されている。これにより、ユーザは入力受付け視線位置から視線が外れていることを把握することができる。

また、表示画面にはゲージG11が表示されており、また、ユーザが視線を入力受付け視線位置から外したままである場合に、音声入力受付け状態が終了されるまでの残り時間を示す文字メッセージ「残り時間1.5秒」も表示画面に表示されている。

例えばゲージG11は、音声入力受付け状態が終了とされるまでの継続時間または累計時間、すなわち上述した閾値th1または閾値th2に対する、実際にユーザの視線が入力受付け視線位置から外れている継続時間または累計時間を示している。

ユーザは、このようなゲージG11や文字メッセージ「残り時間1.5秒」を見ることで、音声入力受付け状態が終了とされてしまうまでの時間的な猶予等を把握することができる。

さらに表示画面には、音声認識中である旨の文字「音声認識中」と、音声認識中であることを示すマイクロホンの画像が表示されている。

また、例えばユーザの視線が入力受付け視線位置から外れていることを示す表示として、図２０に示す表示画面を表示させてもよい。

この例では、表示画面中の矢印Q11に示す円は視線検出部３１が設けられているデバイス、すなわち情報処理装置２１を表しており、文字「現在位置」が記された位置近傍にある矢印Q12に示す円は、現在のユーザの視線の位置を示している。また、表示画面にはユーザの視線が入力受付け視線位置から外れている旨の文字メッセージ「視線が外れています」も表示されている。

このような表示画面を提示することで、ユーザは自身の視線が入力受付け視線位置から外れていることや、その視線がどの方向にどれだけ外れているかを簡単に把握することができる。

〈音声認識システムの構成例〉
音声認識システム１１において図１９や図２０に示した表示を行う場合、音声認識システム１１は、例えば図２１に示すように構成される。なお、図２１において図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２１に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有しており、また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、入力制御部３４、および提示部９３を有している。

図２１に示す音声認識システム１１の構成は、図１３に示した音声認識システム１１にける撮像部９１および画像認識部９２が設けられていない構成とされている。

図２１に示す音声認識システム１１では、提示部９３はディスプレイなどからなり、入力制御部３４の指示に応じて図１９や図２０に示した表示画面等を表示する。すなわち提示部９３は、ユーザの視線の向きが入力受付け視線位置の方向から外れている（逸れている）旨の提示等をユーザに対して行う。

〈入力受付制御処理の説明〉
図２１に示す音声認識システム１１では、入力受付制御処理として図２２に示す処理が行われる。以下、図２２のフローチャートを参照して、図２１に示した音声認識システム１１による入力受付制御処理について説明する。

なお、ステップＳ１２１乃至ステップＳ１２４の処理は、図８のステップＳ１１乃至ステップＳ１４の処理と同様であるので、その説明は省略する。但し、ステップＳ１２４の処理が行われたか、またはステップＳ１２３において入力受付け視線位置を向いていないと判定されると、その後、処理はステップＳ１２８へと進む。

また、ステップＳ１２２において音声入力受付け状態であると判定された場合、ステップＳ１２５において入力制御部３４は、視線検出部３１から供給された視線情報に基づいて音声入力受付け状態を終了させるか否かを判定する。

例えば入力制御部３４は音声入力受付け状態となると、視線情報に基づいて、音声入力受付け状態とされた後における、ユーザの視線が入力受付け視線位置から外れている継続時間または累計時間を計測する。

そして入力制御部３４は、例えば計測により得られた継続時間が上述した閾値th1を超えた場合や、計測により得られた累計時間が上述した閾値th2を超えた場合などに、音声入力受付け状態を終了させると判定する。

また、例えば入力制御部３４は、視線情報により示されるユーザの視線の方向と入力受付け視線位置の方向との差分が予め定めた閾値を超えた場合に、音声入力受付け状態を終了させると判定するようにしてもよい。この場合、差分が閾値以下である間は、音声入力受付け状態を終了させないと判定される。

さらに、例えば入力受付け視線位置が複数ある場合、入力制御部３４は視線情報により示されるユーザの視線の方向が何れかの入力受付け視線位置の方向である場合、または視線情報により示されるユーザの視線の方向が２つの入力受付け視線位置の間の方向である場合に、音声入力受付け状態を終了させないと判定してもよい。

この場合、入力制御部３４は視線情報により示されるユーザの視線の方向が、何れの入力受付け視線位置の方向でもなく、かつ２つの入力受付け視線位置の間の方向でもない場合、音声入力受付け状態を終了させると判定する。

ステップＳ１２５において音声入力受付け状態を終了させると判定された場合、ステップＳ１２６において入力制御部３４は音声入力受付け状態を終了させる。ステップＳ１２６の処理が行われると、その後、処理はステップＳ１２８へと進む。

これに対してステップＳ１２５において音声入力受付け状態を終了させないと判定された場合、入力制御部３４は、必要に応じて提示部９３に対して視線が外れている旨の表示を指示し、その後、処理はステップＳ１２７へと進む。

ステップＳ１２７において提示部９３は、入力制御部３４の指示に従って必要に応じた表示を行う。

すなわち、例えば音声入力受付け状態であるが、ユーザの視線が入力受付け視線位置から外れている場合、提示部９３は、視線が外れている旨の表示画面を表示する。これにより、例えば図１９や図２０に示した表示が行われる。ステップＳ１２７の処理が行われると、その後、処理はステップＳ１２８へと進む。

ステップＳ１２３において入力受付け視線位置を向いていないと判定されたか、ステップＳ１２４の処理が行われたか、ステップＳ１２６の処理が行われたか、またはステップＳ１２７の処理が行われると、ステップＳ１２８の処理が行われる。

ステップＳ１２８において入力制御部３４は、処理を終了するか否かを判定する。例えばステップＳ１２８では、音声認識システム１１の動作停止が指示された場合、処理を終了すると判定される。

ステップＳ１２８において処理を終了しないと判定された場合、処理はステップＳ１２１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ１２８において処理を終了すると判定された場合、音声認識システム１１の各部は動作を停止させ、入力受付制御処理は終了する。

以上のようにして音声認識システム１１は、ユーザの視線が入力受付け視線位置に向けられると音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外れている継続時間や累計時間などに応じて音声入力受付け状態を終了させる。

このようにすることで、ユーザの意図に反して音声入力受付け状態が終了されてしまうことを抑制することができ、より適切な音声認識の実行制御を実現することができる。また、適宜、視線が外れている旨の表示を行うことで、視線が入力受付け視線位置から外れていること等をユーザに提示することができ、使い勝手を向上させることができる。

図２１に示した音声認識システム１１では、図２２を参照して説明した入力受付制御処理と同時に、図９を参照して説明した音声認識実行処理も行われる。

また、音声認識システム１１が図１３に示した構成とされ、入力受付け視線位置を動的に追加または削除することが可能とされているときには、入力受付制御処理および音声認識実行処理と同時に、図１４を参照して説明した更新処理も行われる。

〈第５の実施の形態〉
〈音声認識システムの構成例〉
また、以上においては音声入力受付け状態、すなわち音声認識を行うための音声入力が受付けられている状態の具体的な例として、検出音声情報の入力が受付けられている状態について説明した。

この場合、音声入力受付け状態でないときには検出音声情報の音声認識部２２への供給は行われないが、音声入力受付け状態であるか否かに関わらず、音声入力部３２による収音と音声区間検出部３３による音声区間検出は常に行われている。

そこで、例えば音声入力受付け状態、すなわち音声認識を行うための音声入力が受付けられている状態の他の具体的な例として、音声入力部３２による収音が行われている状態を音声入力受付け状態としてもよい。換言すれば、音声入力部３２による音声の入力が受付けられている状態が音声入力受付け状態であるとしてもよい。

そのような場合、音声認識システムは、例えば図２３に示すように構成される。なお、図２３において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２３に示す音声認識システム２０１は、情報処理装置２１および音声認識部２２を有している。また、情報処理装置２１は、視線検出部３１、入力制御部２１１、音声入力部３２、および音声区間検出部３３を有している。

音声認識システム２０１の構成は、入力制御部３４に代えて、視線検出部３１と音声入力部３２の間に入力制御部２１１が設けられている点で図１の音声認識システム１１と異なっており、その他の点では図１の音声認識システム１１と同じ構成となっている。

音声認識システム２０１では、視線検出部３１で得られた視線情報は、入力制御部２１１へと供給される。入力制御部２１１は、視線検出部３１から供給された視線情報に基づいて、音声入力部３２による収音の開始および終了、すなわち音声認識のための音声の入力の受付けを制御する。

音声入力部３２は、入力制御部２１１の制御に従って周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部３３に供給する。また、音声区間検出部３３は、音声入力部３２から供給された入力音声情報に基づいて発話区間を検出し、入力音声情報のうちの発話区間を切り出して得られた検出音声情報を音声認識部２２に供給する。

〈音声認識実行処理の説明〉
次に音声認識システム２０１の動作について説明する。すなわち、以下、図２４のフローチャートを参照して、音声認識システム２０１により行われる音声認識実行処理について説明する。

ステップＳ１６１において視線検出部３１は視線検出を行い、その検出結果として得られた視線情報を入力制御部２１１に供給する。

ステップＳ１６２において入力制御部２１１は、視線検出部３１から供給された視線情報に基づいて、ユーザの視線が入力受付け視線位置を向いているか否かを判定する。

ステップＳ１６２においてユーザの視線が入力受付け視線位置を向いていると判定された場合、ステップＳ１６３において入力制御部２１１は音声入力受付け状態とし、音声入力部３２に収音開始を指示する。なお、現時点で既に音声入力受付け状態とされている場合には、継続して音声入力受付け状態が維持される。

ステップＳ１６４において音声入力部３２は周囲の音声を収音し、その結果得られた入力音声情報を音声区間検出部３３に供給する。

ステップＳ１６５において、音声区間検出部３３は音声入力部３２から供給された入力音声情報に基づいて音声区間検出を行う。

すなわち、音声区間検出部３３は音声区間検出によって入力音声情報のうちの発話区間を検出し、発話区間が検出された場合、入力音声情報の発話区間の部分を検出音声情報として音声認識部２２に供給する。

ステップＳ１６６において音声認識部２２は、音声区間検出部３３から供給された検出音声情報に基づいて、発話区間の始端が検出されたか否かを判定する。

例えば音声認識部２２は、音声区間検出部３３から検出音声情報の供給が開始された場合、発話区間の始端が検出されたと判定する。

また、例えば音声認識部２２は、既に発話区間の始端が検出されて音声認識中である場合や、音声入力受付け状態であるがまだ発話区間の始端が検出されておらず、音声認識が行われていない状態である場合、発話区間の始端が検出されていないと判定する。

ステップＳ１６６において発話区間の始端が検出されたと判定された場合、ステップＳ１６７において音声認識部２２は音声認識を開始する。

すなわち、音声認識部２２は、音声区間検出部３３から供給された検出音声情報に対する音声認識を行う。このようにして音声認識が開始されると、その後、処理はステップＳ１７５へと進む。

これに対して、ステップＳ１６６において発話区間の始端が検出されなかったと判定された場合、ステップＳ１６８において、音声認識部２２は音声認識中であるか否かを判定する。

ステップＳ１６８において音声認識中でないと判定された場合、音声認識部２２へは検出音声情報が供給されていないので、処理はステップＳ１７５へと進む。

これに対して、ステップＳ１６８において音声認識中であると判定された場合、ステップＳ１６９において音声認識部２２は発話区間の終端が検出されたか否かを判定する。

例えば音声認識部２２は、これまで継続的に行われていた音声区間検出部３３からの検出音声情報の供給が終了した場合、発話区間の終端が検出されたと判定する。

ステップＳ１６９において発話区間の終端が検出されたと判定された場合、ステップＳ１７０において音声認識部２２は音声認識を終了する。

この場合、音声区間検出により検出された発話区間全体に対する音声認識が終了したことになり、音声認識部２２は音声認識の結果として得られたテキスト情報を出力する。

音声認識が終了すると、その後、処理はステップＳ１７５へと進む。

また、ステップＳ１６９において発話区間の終端が検出されなかったと判定された場合、処理はステップＳ１７１へと進む。

ステップＳ１７１において、音声認識部２２は音声区間検出部３３から供給される検出音声情報に基づいて音声認識を継続して行う。ステップＳ１７１の処理が行われると、その後、処理はステップＳ１７５へと進む。

以上のステップＳ１６６乃至ステップＳ１７１では、音声認識部２２は音声区間検出部３３からの検出音声情報の供給が開始されると音声認識を開始し、検出音声情報の供給が終了すると音声認識を終了する。

また、ステップＳ１６２においてユーザの視線が入力受付け視線位置を向いていないと判定された場合、ステップＳ１７２において入力制御部２１１は、音声入力受付け状態であるか否かを判定する。

ステップＳ１７２において音声入力受付け状態でないと判定された場合、ステップＳ１７３およびステップＳ１７４の処理は行われず、処理はステップＳ１７５へと進む。この場合、音声入力部３２による収音が停止されたままの状態となっている。

これに対して、ステップＳ１７２において音声入力受付け状態であると判定された場合、ステップＳ１７３において入力制御部２１１は、音声入力受付け状態を終了させる。

この場合、これまで音声入力受付け状態であったが、ユーザが視線を入力受付け視線位置から逸らしたので音声入力受付け状態が終了される。

ステップＳ１７４において入力制御部２１１は音声入力部３２を制御し、音声入力部３２による収音を中止させる。

すなわち、音声入力受付け状態が終了されたので、それに伴って音声入力部３２での収音が中止される。これにより、後段にある音声区間検出部３３による音声区間検出や、音声認識部２２による音声認識も中止されることになる。

音声認識システム２０１では、音声入力受付け状態であるか否かに応じて音声入力部３２での収音の開始と終了（中止）を制御することで、結果として音声認識部２２での音声認識の実行制御が実現されている。

ステップＳ１７４の処理が行われると、その後、処理はステップＳ１７５へと進む。

ステップＳ１６７、ステップＳ１７０、ステップＳ１７１、若しくはステップＳ１７４の処理が行われたか、ステップＳ１６８で音声認識中でないと判定されたか、またはステップＳ１７２において音声入力受付け状態でないと判定された場合、ステップＳ１７５の処理が行われる。

ステップＳ１７５において入力制御部２１１は、処理を終了するか否かを判定する。例えばステップＳ１７５では、音声認識システム２０１の動作停止が指示された場合、処理を終了すると判定される。

ステップＳ１７５において処理を終了しないと判定された場合、処理はステップＳ１６１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ１７５において処理を終了すると判定された場合、音声認識システム２０１の各部は動作を停止させ、音声認識実行処理は終了する。

以上のようにして音声認識システム２０１は、ユーザの視線が入力受付け視線位置に向けられている間、継続して音声入力受付け状態とし、ユーザの視線が入力受付け視線位置から外されると音声入力受付け状態を終了させる。また、音声認識システム２０１は、音声入力受付け状態である場合に収音を行うように音声入力部３２を制御する。

このように音声入力受付け状態であるか否かに応じて収音の開始と中止を制御することでも、音声認識システム１１における場合と同様に音声認識機能の誤作動を抑制し、使い勝手を向上させることができる。さらに音声入力受付け状態であるか否かに応じて収音の開始と中止を制御することで、必要なときだけ音声区間検出や音声認識などの信号処理が行われるようになり、消費電力を削減することができる。

その他、音声認識システム２０１においても第４の実施の形態で説明したように、ユーザが入力受付け視線位置から視線を外している継続時間や累計時間、ユーザの視線の入力受付け視線位置からのずれの大きさ等に応じて、音声入力受付け状態を終了させるか否かを決定するようにしてもよい。

〈第６の実施の形態〉
〈音声認識システムの構成例〉
また、例えば複数のユーザが同時に、単一の音声認識システム１１や音声認識システム２０１を利用する場合、誤作動を防止するためには入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザのマッチングをとる必要がある。

例えば２人のユーザが同時に音声認識システム１１を利用しているときに、一方のユーザが入力受付け視線位置に視線を向けていて、他方のユーザが入力受付け視線位置に視線を向けていなかったとする。

この場合、入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザとのマッチングをとらないと、入力受付け視線位置に視線を向けていないユーザが発話した場合でも音声認識が行われてしまうことになる。

そこで、マッチングがとれたときに音声認識が行われるようにしてもよい。すなわち、入力制御部３４は、音声入力受付け状態で発話区間が検出された場合、入力受付け視線位置に視線を向けているユーザが発話したと特定されたときにのみ、検出音声情報を音声認識部２２へと供給し、音声認識を行わせる。

ここで、マッチングをとる方法としては、複数のマイクロホンを利用する方法や画像認識を利用する方法などが考えられる。

具体的には、複数のマイクロホンを利用する方法では、例えば音声入力部３２等に２つのマイクロホンが設けられ、それらのマイクロホンで収音された音声に基づいて、ビームフォーミングなどにより音声が発せられた方向が特定される。

また、特定された各音声の到来方向と、周囲にいる複数の各ユーザの視線情報とが一時的に保持され、入力受付け視線位置に視線を向けているユーザの方向から到来した音声の音声認識が行われるようにされる。

そのような場合、音声認識システム１１は、例えば図２５に示すように構成される。なお、図２５において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２５に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有している。また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、方向特定部２５１、保持部２５２、入力制御部３４、および提示部２５３を有している。

図２５に示す音声認識システム１１の構成は、図１に示した音声認識システム１１に、新たに方向特定部２５１、保持部２５２、および提示部２５３が設けられた構成となっている。

この例では、音声入力部３２は２以上のマイクロホンからなり、収音により得られた入力音声情報を音声区間検出部３３だけでなく方向特定部２５１にも供給する。また、視線検出部３１は、視線検出により得られた視線情報を保持部２５２に供給する。

方向特定部２５１は、音声入力部３２から供給された入力音声情報に基づいて、ビームフォーミング等により、入力音声情報に含まれる１または複数の音声成分の到来方向を特定し、その特定結果を音声方向情報として保持部２５２に供給して一時的に保持させる。

保持部２５２は、方向特定部２５１から供給された音声方向情報と、視線検出部３１から供給された視線情報とを一時的に保持し、それらの音声方向情報と視線情報を適宜、入力制御部３４に供給する。

入力制御部３４は、保持部２５２に保持されている音声方向情報と視線情報とから、視線を入力受付け視線位置に向けているユーザが発話をしたかを特定することができる。

すなわち、入力制御部３４は、保持部２５２から取得した視線情報から、その視線情報に対応するユーザがいる大よその方向を特定することができる。また、音声方向情報はユーザにより発せられた発話音声の到来方向を示している。

したがって、入力制御部３４は、視線を入力受付け視線位置に向けているユーザについて、そのユーザの視線情報により特定されるユーザの方向と、音声方向情報により示される到来方向とが一致する場合、そのユーザが発話を行ったとする。

入力制御部３４は、音声入力受付け状態であるときに音声区間検出部３３から検出音声情報が供給された場合、入力受付け視線位置に視線を向けているユーザが発話を行ったと特定されたときに、検出音声情報を音声認識部２２へと供給する。

逆に、入力制御部３４は、音声入力受付け状態であるときに音声区間検出部３３から検出音声情報が供給された場合でも、入力受付け視線位置に視線を向けているユーザが発話を行っていないとの特定結果が得られたときには、検出音声情報を音声認識部２２へと供給しない。

なお、入力受付け視線位置に視線を向けているユーザの発話部分の検出音声情報のみが音声認識部２２へと供給されるように、入力音声情報または検出音声情報に対して、入力受付け視線位置に視線を向けているユーザの方向からの音声成分が強調される方向強調処理が行われるようにしてもよい。

さらに音声認識システム１１には、提示部２５３も設けられている。提示部２５３は、例えばLED（Light Emitting Diode）等の複数の発光部からなり、入力制御部３４の制御に従って発光する。

例えば提示部２５３は、複数の発光部のうちのいくつかの発光部を発光させることで、入力受付け視線位置に視線を向けているユーザを示す提示を行う。

この場合、入力制御部３４は、保持部２５２から供給された視線情報に基づいて入力受付け視線位置に視線を向けているユーザを特定し、そのユーザのいる方向に対応する発光部が発光するように提示部２５３を制御する。

また、画像認識を利用して入力受付け視線位置に視線を向けているユーザと、発話を行っているユーザとのマッチングをとる場合には、例えば画像認識を行うことでユーザの口の動きを検出し、発話を行っているユーザを特定すればよい。

そのような場合、音声認識システム１１は、例えば図２６に示すように構成される。なお、図２６において図２５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２６に示す音声認識システム１１は、情報処理装置２１および音声認識部２２を有している。また、情報処理装置２１は、視線検出部３１、音声入力部３２、音声区間検出部３３、撮像部２８１、画像認識部２８２、入力制御部３４、および提示部２５３を有している。

図２６に示す音声認識システム１１の構成は、図２５に示した音声認識システム１１の方向特定部２５１および保持部２５２が設けられておらず、新たに撮像部２８１および画像認識部２８２が設けられた構成となっている。

撮像部２８１は例えばカメラからなり、周囲のユーザを被写体として含む画像を撮像し、画像認識部２８２に供給する。画像認識部２８２は、撮像部２８１から供給された画像に対して画像認識を行うことで、周囲にいるユーザの口の動きを検出し、その検出結果を入力制御部３４に供給する。なお、画像認識部２８２では、画像に被写体として含まれるユーザの位置から、各ユーザがいる大よその方向を特定することが可能である。

入力制御部３４は、画像認識部２８２から供給された検出結果、つまり画像認識の結果と、視線検出部３１から供給された視線情報とから、入力受付け視線位置に視線を向けているユーザの口の動きが検出された場合、そのユーザが発話を行ったと特定する。

さらに、図２５や図２６に示した音声認識システム１１では、提示部２５３によって、複数のユーザのうち、入力受付け視線位置に視線を向けているユーザがどのユーザであるかの提示が行われると説明した。

この場合、例えば図２７に示すようにして提示が行われる。

図２７に示す例では、音声認識システム１１の提示部２５３には、複数の発光部３１１−１乃至発光部３１１−８が設けられている。これらの発光部３１１−１乃至発光部３１１−８は、例えばLED等からなる。

なお、以下、発光部３１１−１乃至発光部３１１−８を特に区別する必要のない場合、単に発光部３１１とも称することとする。

この例では、８個の発光部３１１が円形状に並べられて配置されている。また、音声認識システム１１の周囲には、３人のユーザU11乃至ユーザU13がいる。

ここでは、図中の矢印に表されているように、ユーザU11およびユーザU12は音声認識システム１１の方向に視線を向けているが、ユーザU13は音声認識システム１１とは異なる方向に視線を向けている。

例えば音声認識システム１１の位置が入力受付け視線位置であるとすると、入力制御部３４は、入力受付け視線位置の方向を向いているユーザU11とユーザU12がいる方向に対応する発光部３１１−１および発光部３１１−７のみを発光させる。

これにより各ユーザは、ユーザU11とユーザU12が入力受付け視線位置に視線を向けており、それらのユーザU11とユーザU12の発話が受付けられていることを容易に把握することができる。

〈変形例〉
ところで以上においてはユーザの視線情報のみを用いて、音声入力受付け状態の開始と終了を制御する例について説明したが、特定の起動ワードや起動ボタンなどの他の音声入力のトリガと組み合わせて制御を行うようにしてもよい。

具体的には、例えばユーザが入力受付け視線位置へと視線を向けて音声入力受付け状態とされた後、予め定められた特定ワードが発せられた場合、音声入力受付け状態が終了するようにしてもよい。

この場合、音声入力受付け状態とされた後、入力制御部３４は音声認識部２２から音声認識結果を取得し、ユーザによる特定ワードの発話を検出する。そして、特定ワードの発話が検出された場合、入力制御部３４は音声入力受付け状態を終了させる。

このようにして特定ワードにより音声入力受付け状態を終了させる場合、音声認識システム１１は、例えば図２２を参照して説明した入力受付制御処理を行う。そして、入力制御部３４は特定ワードの発話が検出された場合、ステップＳ１２５において音声入力受付け状態を終了させると判定する。

このようにすることで、ユーザは入力受付け視線位置から視線を外すことなく簡単に音声認識の実行を中止（キャンセル）させることができる。

また、所定の起動ワードを視線検出の補助として用いるようにしてもよい。

この場合、例えば入力制御部３４や入力制御部２１１は、視線情報と起動ワードの検出結果とに基づいて音声入力受付け状態を開始させる。

具体的には、例えばユーザの視線が入力受付け視線位置からわずかに外れており、本来であれば音声入力受付け状態とされない状態となっているときでも、起動ワードが検出されたときには、音声入力受付け状態とされるようにしてもよい。

このようにすることで、起動ワードのみで音声入力受付け状態の開始と終了を制御する場合に生じる誤作動、つまり起動ワードの誤認識によって生じる誤作動を抑制することができる。但し、この場合、例えば情報処理装置２１内に、周囲の音声を収音して得られた音声情報から所定の起動ワードのみを検出する音声認識部を設ける必要がある。

さらに、以上においては、ユーザが視線を入力受付け視線位置に向けているか否か、つまりユーザが入力受付け視線位置の方向を向いているか否かを特定するためにユーザ方向情報として視線情報を用いる例について説明した。

しかし、ユーザ方向情報はユーザの向きを示すものであれば、ユーザの顔の向きを示す情報やユーザの体の向きを示す情報など、どのようなものであってもよい。

また、視線情報、ユーザの顔の向きを示す情報、ユーザの体の向きを示す情報などの各情報を組み合わせてユーザ方向情報として用い、ユーザの向いている方向を特定してもよい。すなわち、例えば視線情報、ユーザの顔の向きを示す情報、およびユーザの体の向きを示す情報のうちの少なくとも何れか１つをユーザ方向情報として用いるようにすることができる。

具体的には、例えばユーザが視線と顔の両方を入力受付け視線位置に向けていると入力制御部３４が特定した場合に、音声入力受付け状態とされるようにすることができる。

〈応用例１〉
以上において説明した音声認識システム１１や音声認識システム２０１は、ユーザの音声入力に対して適切な情報提示等を音声での応答により行う対話エージェントシステムに適用することができる。

そのような対話エージェントシステムは、例えばユーザの視線情報を用いて音声認識を行うための音声入力の受付けの制御を行う。これにより、対話エージェントシステムに対して話しかけられた内容にだけ反応し、その他の周囲の会話やテレビの音声などには反応しないようになされる。

例えばユーザの視線が対話エージェントシステムに向けられると、対話エージェントシステムに取り付けられたLEDが発話を受付けていることを表すために発光し、受付け開始を知らせる音が出力される。ここでは、対話エージェントシステムが入力受付け視線位置とされている。

ユーザは、LEDの発光や受付け開始を知らせる音により、受付けが開始されたこと、つまり音声入力受付け状態となったことを知ると自身の発話を開始する。このとき、例えばユーザが「明日の天気を教えて」と発話したとする。

この場合、対話エージェントシステムは、ユーザの発話に対する音声認識および意味解析を行い、その認識結果および解析結果に対して適切な応答メッセージを生成して音声により応答する。ここでは、例えば応答メッセージとして「明日の天気は雨です」などの音声が出力される。

また、ユーザは視線を対話エージェントシステムに向けたまま次の発話をする。例えばユーザが「週末の天気は？」と発話したとする。

すると対話エージェントシステムは、ユーザの発話に対する音声認識および意味解析を行い、例えば応答メッセージとして「週末の天気は晴れです」などの音声を出力する。

その後、ユーザの視線が対話エージェントシステムから離れたため、対話エージェントシステムは音声入力受付け状態を終了させる。

〈応用例２〉
さらに、音声認識システム１１や音声認識システム２０１を対話エージェントシステムに適用し、対話エージェントシステムでテレビやスマートフォンなどの機器を操作することができるようにしてもよい。

具体的には、例えば図２８に示すように対話エージェントシステム３４１、テレビ３４２、およびスマートフォン３４３がユーザU21のいるリビング等に配置されており、対話エージェントシステム３４１乃至スマートフォン３４３が連携して動作するとする。

この場合、例えばユーザU21が入力受付け視線位置である対話エージェントシステム３４１へと視線を向けた後に「テレビをつけて」と発話したとする。すると対話エージェントシステム３４１は、その発話に応じてテレビ３４２を制御し、テレビ３４２の電源をオンさせて番組を表示させる。

また、それと同時に対話エージェントシステム３４１は、「テレビで音声入力を受付けます」と発話し、テレビ３４２の位置を入力受付け視線位置として追加する。

そして、ユーザU21がテレビ３４２に視線を移すと、対話エージェントシステム３４１からの指示によって、テレビ３４２には文字「音声入力受付中」の表示がされている。

このようにテレビ３４２で音声入力が受付けられている旨の表示を行うことで、ユーザU21は、テレビ３４２が入力受付け視線位置となっていることを容易に把握することができる。また、この例では、対話エージェントシステム３４１の表示画面DP11にもテレビ３４２が入力受付け視線位置となっていることを示す文字「音声入力受付中」および「テレビ」が表示されている。

なお、テレビ３４２が入力受付け視線位置として追加された旨の音声メッセージ等が出力されるようにしてもよい。

テレビ３４２が入力受付け視線位置として追加されると、ユーザU21が対話エージェントシステム３４１から視線を外しても、テレビ３４２に視線を向けている限り、対話エージェントシステム３４１により音声入力が受付けられている状態、つまり音声入力受付け状態のままとなる。

この状態で、ユーザU21が所定の番組名である番組Ａについて、「番組Ａに変えて」と発話すると、対話エージェントシステム３４１とテレビ３４２の連携動作が行われる。

例えば対話エージェントシステム３４１は、ユーザU21の発話に対して「4chに変更します」と応答するとともに、テレビ３４２を制御し、テレビ３４２で番組Ａが表示されるように、チャンネルを番組Ａに対応するチャンネルに切り替えさせる。この例では、番組Ａが４チャンネルであるので、ユーザU21に対して「4chに変更します」が発話される。

その後、ユーザU21が発話せずに一定時間経過すると、テレビ３４２における文字「音声入力受付中」の表示が消え、対話エージェントシステム３４１は音声入力の受付けを終了する。すなわち、音声入力受付け状態が終了する。

さらに、ユーザU21が再び対話エージェントシステム３４１に視線を向け、「おすすめのレストランの情報をスマートフォンに送って」と発話したとする。

すると、対話エージェントシステム３４１は、音声入力受付け状態とし、ユーザの発話に対して応答メッセージとして「スマートフォンにおすすめのレストラン情報を送信しました。スマートフォンで音声入力を受付けます」と発話する。

そして対話エージェントシステム３４１は、テレビ３４２における場合と同様に、スマートフォン３４３との連携動作を行う。

このとき対話エージェントシステム３４１は、スマートフォン３４３の位置を入力受付け視線位置として追加し、スマートフォン３４３に文字「音声入力受付中」を表示させる。また、対話エージェントシステム３４１は、自身の表示画面DP11にもスマートフォン３４３が入力受付け視線位置となっていることを示す文字「スマートフォン」を表示させる。

このようにすることで、ユーザU21がスマートフォン３４３に視線を移しても、対話エージェントシステム３４１が継続して音声入力を受付けている状態、つまり音声入力受付け状態のままとなる。

さらに、この場合、ユーザU21の視線検出はスマートフォン３４３で行われるように切り替えられ、対話エージェントシステム３４１はスマートフォン３４３から視線情報を取得する。また、例えばユーザU21がスマートフォン３４３の表示画面を消灯したタイミングなど、ユーザU21によるスマートフォン３４３の使用が終了したタイミングで、対話エージェントシステム３４１は音声入力の受付けを終了する。すなわち、音声入力受付け状態が終了する。

〈応用例３〉
また、音声認識システム１１や音声認識システム２０１は、複数のユーザと対話するロボットなどにも適用することができる。

例えば音声認識システム１１や音声認識システム２０１が適用された１台のロボットと、複数人のユーザとが対話する場合について考える。

そのようなロボットは複数のマイクロホンを有しており、ロボットはマイクロホンによる収音で得られた入力音声情報に基づいて、ユーザの発話音声がどの方向から到来したものであるかを特定することが可能である。

また、ロボットは、ユーザの視線情報を常に解析しており、自身の方を向いているユーザの方向から到来した発話音声のみに応答することができる。

したがって、ロボットは、ユーザ同士の会話には応答せず、自身に向けられた発話に対してのみ反応し、ユーザの発話に対する応答を行うことができる。

以上において説明した本技術によれば、ユーザの向きに基づいて音声入力受付け状態としたり、音声入力受付け状態を終了させたりすることで、適切な音声認識の実行制御を実現することができる。

特に、本技術ではユーザに起動ワードを発話させることなく、またボタンなどの物理的な機構を用いることなく、視線等のユーザの向きを利用して自然に音声入力の開始および終了を制御することができる。

また、ユーザの向きに基づいて音声入力受付け状態を終了させることで、ユーザが誤って一時的に視線を向けてしまった場合など、ユーザの意図に反して音声入力が開始されてしまう、つまり音声認識が開始されてしまうことを抑制することができる。

その他、例えば第４の実施の形態のように、ユーザの視線が２つの入力受付け視線位置の間にある場合には音声入力受付け状態のままとすることで、ユーザが複数の機器のうちの所定のものから他の機器へと視線を移動させたときでも音声入力を継続して行うことができるようになる。

さらに、第６の実施の形態によれば、本技術を適用した音声認識システムを複数のユーザが使用する場合に、入力受付け視線位置へと視線を向けているユーザの発話だけを認識することができる。

なお、以上において説明した各実施の形態や変形例を適宜、組み合わせて行うことも勿論可能である。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図２９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える
情報処理装置。
（２）
前記制御部は、前記ユーザ方向情報に基づいて、前記音声入力受付け状態の開始および終了を制御する
（１）に記載の情報処理装置。
（３）
前記制御部は、前記ユーザ方向情報に基づく所定条件が満たされた場合、前記音声入力受付け状態を終了させる
（１）または（２）に記載の情報処理装置。
（４）
前記制御部は、前記ユーザが特定位置の方向を向いていない場合、前記所定条件が満たされたとする
（３）に記載の情報処理装置。
（５）
前記制御部は、前記音声入力受付け状態の開始後、前記ユーザが特定位置の方向を向いていない状態の継続時間または累計時間が閾値を超えた場合、前記所定条件が満たされたとする
（３）に記載の情報処理装置。
（６）
前記制御部は、前記ユーザが向いている方向と特定位置の方向とのずれが閾値を超えた場合、前記所定条件が満たされたとする
（３）に記載の情報処理装置。
（７）
前記制御部は、前記ユーザが向いている方向が、複数の特定位置の方向のうちの何れの方向でもなく、かつ２つの前記特定位置の間の方向でもない場合、前記所定条件が満たされたとする
（３）に記載の情報処理装置。
（８）
前記ユーザの向きが特定位置の方向から逸れている旨の提示を行う提示部をさらに備える
（３）に記載の情報処理装置。
（９）
前記制御部は、前記ユーザが特定位置の方向を向いた場合、前記音声入力受付け状態とする
（２）乃至（８）の何れか一項に記載の情報処理装置。
（１０）
１または複数の位置が前記特定位置とされる
（９）に記載の情報処理装置。
（１１）
前記制御部は、前記特定位置とする位置の追加または削除を行う
（１０）に記載の情報処理装置。
（１２）
前記制御部は、前記音声入力受付け状態とされている場合、収音により得られた音声情報から発話区間が検出されたとき、音声認識を開始させる
（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１３）
前記音声情報を保持するバッファをさらに備え、
前記制御部は、前記音声入力受付け状態とされている場合、前記バッファに保持されている前記音声情報から前記発話区間が検出されたとき、前記音声認識を開始させる
（１２）に記載の情報処理装置。
（１４）
前記制御部は、前記音声入力受付け状態で前記発話区間が検出された場合、特定位置の方向を向いている前記ユーザが発話したとき、前記音声認識を開始させる
（１２）または（１３）に記載の情報処理装置。
（１５）
前記制御部は、音声の到来方向、または周囲の前記ユーザを被写体として含む画像に対する画像認識結果と、前記ユーザ方向情報とに基づいて、前記特定位置の方向を向いている前記ユーザが発話したかを特定する
（１４）に記載の情報処理装置。
（１６）
前記制御部は、前記音声入力受付け状態である場合、音声入力部に周囲の音声を収音させる
（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１７）
前記制御部は、前記ユーザ方向情報、および収音された音声情報からの所定ワードの検出結果に基づいて、前記音声入力受付け状態を開始させる
（２）乃至（８）の何れか一項に記載の情報処理装置。
（１８）
前記ユーザ方向情報は、前記ユーザの視線情報、前記ユーザの顔の向きを示す情報、および前記ユーザの体の向きを示す情報のうちの少なくとも何れか１つである
（１）乃至（１７）の何れか一項に記載の情報処理装置。
（１９）
情報処理装置が、
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
情報処理方法。
（２０）
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
ステップを含む処理をコンピュータに実行させるプログラム。

１１音声認識システム，２１情報処理装置，２２音声認識部，３１視線検出部，３２音声入力部，３３音声区間検出部，３４入力制御部

Claims

ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる制御部を備える
情報処理装置。
前記制御部は、前記ユーザ方向情報に基づいて、前記音声入力受付け状態の開始および終了を制御する
請求項１に記載の情報処理装置。
前記制御部は、前記ユーザ方向情報に基づく所定条件が満たされた場合、前記音声入力受付け状態を終了させる
請求項１に記載の情報処理装置。
前記制御部は、前記ユーザが特定位置の方向を向いていない場合、前記所定条件が満たされたとする
請求項３に記載の情報処理装置。
前記制御部は、前記音声入力受付け状態の開始後、前記ユーザが特定位置の方向を向いていない状態の継続時間または累計時間が閾値を超えた場合、前記所定条件が満たされたとする
請求項３に記載の情報処理装置。
前記制御部は、前記ユーザが向いている方向と特定位置の方向とのずれが閾値を超えた場合、前記所定条件が満たされたとする
請求項３に記載の情報処理装置。
前記制御部は、前記ユーザが向いている方向が、複数の特定位置の方向のうちの何れの方向でもなく、かつ２つの前記特定位置の間の方向でもない場合、前記所定条件が満たされたとする
請求項３に記載の情報処理装置。
前記ユーザの向きが特定位置の方向から逸れている旨の提示を行う提示部をさらに備える
請求項３に記載の情報処理装置。
前記制御部は、前記ユーザが特定位置の方向を向いた場合、前記音声入力受付け状態とする
請求項２に記載の情報処理装置。
１または複数の位置が前記特定位置とされる
請求項９に記載の情報処理装置。
前記制御部は、前記特定位置とする位置の追加または削除を行う
請求項１０に記載の情報処理装置。
前記制御部は、前記音声入力受付け状態とされている場合、収音により得られた音声情報から発話区間が検出されたとき、音声認識を開始させる
請求項１に記載の情報処理装置。
前記音声情報を保持するバッファをさらに備え、
前記制御部は、前記音声入力受付け状態とされている場合、前記バッファに保持されている前記音声情報から前記発話区間が検出されたとき、前記音声認識を開始させる
請求項１２に記載の情報処理装置。
前記制御部は、前記音声入力受付け状態で前記発話区間が検出された場合、特定位置の方向を向いている前記ユーザが発話したとき、前記音声認識を開始させる
請求項１２に記載の情報処理装置。
前記制御部は、音声の到来方向、または周囲の前記ユーザを被写体として含む画像に対する画像認識結果と、前記ユーザ方向情報とに基づいて、前記特定位置の方向を向いている前記ユーザが発話したかを特定する
請求項１４に記載の情報処理装置。
前記制御部は、前記音声入力受付け状態である場合、音声入力部に周囲の音声を収音させる
請求項１に記載の情報処理装置。
前記制御部は、前記ユーザ方向情報、および収音された音声情報からの所定ワードの検出結果に基づいて、前記音声入力受付け状態を開始させる
請求項２に記載の情報処理装置。
前記ユーザ方向情報は、前記ユーザの視線情報、前記ユーザの顔の向きを示す情報、および前記ユーザの体の向きを示す情報のうちの少なくとも何れか１つである
請求項１に記載の情報処理装置。
情報処理装置が、
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
情報処理方法。
ユーザの向きを示すユーザ方向情報に基づいて、音声入力受付け状態を終了させる
ステップを含む処理をコンピュータに実行させるプログラム。