JP2017161637A

JP2017161637A - 発話装置、発話装置の制御方法、制御プログラム、および記録媒体

Info

Publication number: JP2017161637A
Application number: JP2016044555A
Authority: JP
Inventors: 高明勝浦; Takaaki Katsuura; 毅江原; Takeshi Ebara; 昌史山本; Masashi Yamamoto
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2017-09-14
Anticipated expiration: 2036-03-08
Also published as: JP6599803B2

Abstract

【課題】通常の対話時に意図せず抑止モードに遷移させてしまう可能性を低減しつつ、必要なときには速やかに抑止モードに遷移させる。【解決手段】発話装置（１）は、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出部（１０３）と、所定のコマンドが検出されたときに、通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御部（１０４）と、を備えている。【選択図】図１

Description

本発明は、音声発話する発話装置に関し、より詳細には発話を抑止する抑止モードを有する発話装置等に関する。

従来から音声発話する発話装置の研究・開発が進められており、様々な観点から発話装置の改良がなされている。例えば、下記の特許文献１には、ユーザが対話装置に対して発した音声ではない音声が誤検知され得る場合に、対話装置によって返答音声が出力されないように制御する対話システムが開示されている。この対話システムによれば、テレビが発する音声等をユーザが発した音声であると誤検知して対話装置が発話することを防ぐことができる。

特開２０１５−１４８６４８号公報（２０１５年８月２０日公開）

しかしながら、上述のような従来技術は、誤検知の可能性がある状況において、対話装置による返答を行わないようにするためのものであり、ユーザの意図に従って対話装置による返答を抑止するものではない。このため、上述のような従来技術では、例えばユーザが他のユーザと会話しているときなどのように、対話装置に発話させたくないときに、対話装置の発話を抑止することはできない。

ユーザの所望のタイミングで対話装置に発話を抑止させる方策として、対話装置に、発話を抑止する動作モード（抑止モードと呼ぶ）を設け、所定のコマンドを入力することによって、適時対話装置を抑止モードに遷移させることが考えられる。しかし、上記のコマンドを「静かにして」等の音声入力とした場合、ユーザが通常の対話時に意図せず発した音声によって、ユーザの気付かないうちに対話装置の発話が抑止されてしまうという問題が生じる。なお、このような問題は、対話装置に限られず、音声発話機能を備えた発話装置に共通して生じる問題である。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザが通常の対話時に意図せず抑止モードに遷移させてしまう可能性を低減しつつ、必要なときには速やかに抑止モードに遷移させることができる発話装置等を実現することにある。

上記の課題を解決するために、本発明の一態様に係る発話装置は、音声発話する発話装置であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出部と、上記コマンド検出部が上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御部と、を備えている。

上記の課題を解決するために、本発明の一態様に係る発話装置の制御方法は、音声発話する発話装置の制御方法であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出ステップと、上記コマンド検出ステップにて上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御ステップと、を含む。

上記各態様によれば、通常の対話時にユーザが意図せず抑止モードに遷移させてしまう可能性を低減しつつ、必要なときには速やかに抑止モードに遷移させることができるという効果を奏する。

本発明の実施形態１に係る発話装置の要部構成の一例を示すブロック図である。上記発話装置の発話抑止の際のモード遷移の一例を示す図である。上記発話装置の発話抑止解除の際のモード遷移の一例を示す図である。上記発話装置の抑止モードへの遷移例を示す図である。節電モードと通常モードとの間で遷移する際に上記発話装置が実行する処理の一例を示すフローチャートである。通常モードと抑止モードとの間で遷移する際に上記発話装置が実行する処理の一例を示すフローチャートである。本発明の実施形態２に係る発話装置が受け付ける直接抑止コマンドの例を示す図である。本発明の実施形態３に係る発話装置が画像解析機能により検出する直接抑止コマンドおよび直接復帰コマンドの例を示す図である。本発明の実施形態４に係る発話装置が音声認識結果とセンサの検出結果の双方を用いて検出する直接抑止コマンドの例を示す図である。本発明の実施形態５に係る発話装置が、衝撃が与えられたことを直接抑止コマンドとして検出する例を示す図である。

〔実施形態１〕
以下、本発明の実施形態１について、図１〜図６を用いて詳細に説明する。

〔発話装置の動作モード〕
まず、図２および図３に基づいて、本実施形態に係る発話装置１の動作モードを説明する。図２は、発話装置１の発話抑止の際のモード遷移の一例を示す図であり、図３は、発話抑止解除の際のモード遷移の一例を示す図である。

発話装置１は、音声で発話する機能を備えた装置である。また、発話装置１は、音声認識機能も備えており、これらの機能によりユーザとの対話を行うことができる。図示のように、発話装置１は、表示部１２、接触センサ１３、照度センサ１４、イメージセンサ１５、および人感センサ１６を備えている。

表示部１２は、発話装置１の顔を表示するものである。つまり、発話装置１は、表示部１２の表示内容により、発話装置１の表情を表現することができる。また、接触センサ１３は、ユーザの接触を検出するセンサである。そして、照度センサ１４は、発話装置１の周囲の明るさを検出するセンサであり、イメージセンサ１５は発話装置１の周囲の映像を取得するセンサであり、人感センサ１６は発話装置１の周囲の人を検知するセンサである。発話装置１は、これらのセンサの検出結果に応じて動作する。

図２および図３に示すように、発話装置１は、複数の動作モードを有しており、所定のコマンドによって、異なる動作モードへ遷移させることが可能である。具体的には、図示のように、発話装置１は、通常モード、節電モード、準備モード、および第１〜第３抑止モードの６つの動作モードを有している。なお、第１〜第３抑止モードのそれぞれを区別する必要がないときには、単に抑止モードと呼ぶ。

通常モードは、発話装置１がユーザと対話するモードである。つまり、通常モードにおいてユーザが発話装置１に話し掛けると、発話装置１はその音声を認識して、認識結果に応じた応答音声を出力する。発話装置１の電源を入れると発話装置１は通常モードで起動する。

節電モードは、通常モードと比較して消費電力の少ないモードである。節電モードでは、表示部１２の表示は停止し、音声認識機能も停止する。図２に示すように、通常モード中に所定の節電コマンドを入力することで節電モードに遷移させることができ、また、図３に示すように節電モード中に所定の節電解除コマンドを入力することで通常モードに戻すことができる。節電コマンドは、例えば「おやすみ」との発話であってもよく、節電解除コマンドは、例えば接触センサ１３へのユーザの接触であってもよい。

準備モードは、発話装置１を抑止モードに遷移させる前段階として設けられたモードであり、基本的には、抑止モードへは準備モードを経て遷移する。図２に示すように、通常モード中に所定の準備コマンドを入力することで準備モードに遷移する。このように、一度準備モードを経て抑止モードに遷移させることにより、ユーザが意図しないタイミングで発話装置１を抑止モードに遷移させることを防ぐことができる。準備コマンドは、例えば、「ちょっと」のような呼び掛けの発話であってもよい。

抑止モードは、通常モードと比べて発話装置１の発話の頻度が抑制されたモードである。そして、第１〜第３抑止モードは、抑制の程度がそれぞれ異なっている。具体的には、第１抑止モードが最も抑制の程度が低く、第３抑止モードが最も抑制の程度が高く、第２抑止モードはこれらの中間的な抑制の程度となっている。より詳細には、第３抑止モードでは発話装置１は発話を行わず、第１抑止モードでは通常モードよりも発話の頻度が下がってあまり発話しなくなり、第２抑止モードでは第１抑止モードよりもさらに発話の頻度が下がってほとんど発話しなくなる。また、第２抑止モードでは、発話の音量が第１抑止モードよりも低下する。

なお、抑止モードは１種類であってもよい。ただし、上記の例のように抑止モードを複数設けることにより、ユーザの状況等に応じた適切な頻度で発話させることが可能になるので、抑止モードは段階的に複数設けることが好ましい。また、抑止の態様は、発話の頻度や音量の低減に限られず、例えばおよび発話するメッセージの長さを短くする等の態様であってもよいし、これらの各態様の組合せた態様であってもよい。

また、発話装置１が何れの動作モードで動作しているかがユーザに認識できるように、各動作モードではその動作モードに応じた表情が表示部１２に表示される。具体的には、図示のように、準備モードでは、ユーザの音声による指示を受付可能であることを示すように両耳の付近にマークを表示させる。また、第１抑止モードでは、発話が抑制されているが、ある程度の発話は行うことを示すために、口の部分に小さなテープを表示させる。そして、第２抑止モードでは、発話がより強く抑制されていることを示すために、口の部分に大きなテープを表示させ、第３抑止モードでは、全く発話しないように抑止されていることを示すために、口の部分にファスナーを表示させている。

続いて動作モードの遷移について説明する。図２に示すように、準備モード中に所定の抑止コマンドを入力することによって、発話装置１は第１抑止モードに遷移する。そして、第１抑止モード中に所定の抑止コマンドを入力することによって発話装置１は第２抑止モードに遷移し、第２抑止モード中に所定の抑止コマンドを入力することによって発話装置１は第３抑止モードに遷移する。抑止コマンドは、例えば「静かに」のような発話の抑止を命じる語句の発話であってもよい。また、抑止モード間の遷移は、何れも同じ抑止コマンドによって行われてもよいし、異なる抑止コマンドによって行われてもよい。

上述のように、抑止モードへは基本的には準備モードを経て遷移するが、所定のコマンド（直接抑止コマンドと呼ぶ）により、準備モードを経ることなく抑止モードに遷移させることもできる。具体的には、図２に示すように、通常モード中に第１直接抑止コマンドを入力することによって発話装置１を第１抑止モードに遷移させることができる。同様に、通常モード中に第２直接抑止コマンドを入力することによって発話装置１を第２抑止モードに遷移させることができ、通常モード中に第３直接抑止コマンドを入力することによって発話装置１を第３抑止モードに遷移させることができる。直接抑止コマンドとしては、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかが用いられるから、ユーザが他のユーザと対話しているとき等に意図せず発話装置１を抑止モードに遷移させる可能性は低くなっている。

このように、抑止モードへの遷移の態様は、準備モードを経由した遷移と、経由しない遷移との２通りある。これについて、図４に基づいて説明する。図４は発話装置１の抑止モードへの遷移例を示す図である。同図の左側に示すように、発話装置１が準備モードであれば、ユーザは「静かに」と発話することによって、発話装置１を第１抑止モードへ遷移させることができる。なお、「静かに」は予め定められた抑止コマンドである。

一方、同図の右側に示すように、発話装置１が通常モードである場合には、抑止コマンドである「静かに」との発話では抑止モードには遷移しない。その代わりに、ユーザは「コマンド静かに」と発話することによって、発話装置１を第１抑止モードへ遷移させることができる。この「コマンド静かに」は予め定められた第１直接抑止コマンドである。「コマンド」のような語句は、通常の対話時には発話される可能性が低く、一般的には対話を構成しないため、ユーザが発話装置１と対話したいときや、他のユーザと会話しているときに、意図せず発話装置を抑止モードに遷移させてしまうことを防ぐことができる。また、ユーザは、発話装置１を速やかに抑止モードに遷移させたい場合に、準備モードを経ることなく、１つの直接抑止コマンドで抑止モードに遷移させることができる。

同様に、「コマンド」と発話の抑止を命じる語句とを含む発話が、第２および第３直接抑止コマンドとして規定されている。第３直接抑止コマンドによれば、発話装置１に発話させない動作モードである第３抑止モードに遷移させることができるので、発話の抑止を命じる語句は、第１直接抑止コマンドよりも強い抑止を命じる語句とすることが好ましい。例えば、第３直接抑止コマンドを「コマンド黙って」としてもよい。また、第２直接抑止コマンドは、第１抑止モードと第２抑止モードの中間的な発話頻度となる第２抑止コマンドに遷移させるものである。このため、第２直接抑止コマンドは、第１直接抑止コマンドと第３直接抑止コマンドの中間的なニュアンスの、発話の抑止を命じる語句を含むものとしてもよい。このように、直接抑止コマンドを複数パターン規定しておくことにより、検出されたパターンに応じた抑止モードに遷移させることができる。

なお、直接抑止コマンドには、対話を構成しない語句が少なくとも１つ含まれていればよい。例えば、「コマンド」の代わりに「命令」等の語句を含む発話を直接抑止コマンドとしてもよい。

また、所定の復帰コマンドによって発話装置１を抑止モードから通常モードに復帰させることができる。具体的には、図３に示すように、第３抑止モード中に復帰コマンドを入力することによって、発話装置１は第２抑止モードに遷移する。同様に、第２抑止モード中に復帰コマンドを入力することによって、発話装置１は第１抑止モードに遷移し、第１抑止モード中に復帰コマンドを入力することによって、発話装置１は通常モードに遷移する。復帰コマンドは、例えば「話をしよう」のような発話装置１に発話を促す発話であってもよい。

さらに、図３に示すように、所定の直接復帰コマンドにより、発話装置１を第２または第３抑止モードから、直接通常モードに復帰させることもできる。直接復帰コマンドは、復帰コマンドと異なるコマンドであればよく、例えば「もういいよ」のような発話であってもよい。

〔発話装置１の要部構成〕
次に、発話装置１の要部構成を図１に基づいて説明する。図１は、発話装置１の要部構成の一例を示すブロック図である。図示の例において、発話装置１は、制御部１０、記憶部１１、表示部１２、接触センサ１３、照度センサ１４、イメージセンサ１５、人感センサ１６、加速度センサ１７、音声入力部１８、音声出力部１９、および通信部２０を備えている。なお、表示部１２、接触センサ１３、照度センサ１４、イメージセンサ１５、および人感センサ１６については、図２に基づいて説明済みであるから、ここでは説明を繰り返さない。

記憶部１１は、発話装置１にて扱われる各種データを記憶するものである。加速度センサ１７は、加速度を検出して出力するセンサであり、加速度センサ１７の出力値から、発話装置１が動かされたこと等を検出することができる。音声入力部１８は、発話装置１の外部からの音声入力を受け付けるものである。音声出力部１９は、制御部１０の制御に従って音声を出力するものである。通信部２０は、発話装置１が他の装置と通信を行うためのものである。

制御部１０は、発話装置１の各部を統括して制御するものであり、音声認識部１００、周波数解析部１０１、画像解析部１０２、コマンド検出部１０３、動作モード制御部１０４、表示制御部１０５、および発話制御部１０６を備えている。

音声認識部１００は、音声入力部１８が入力を受け付けた音声を認識して、音声認識結果を出力する。具体的には、音声認識部１００は、入力された音声に含まれるユーザの発話した言葉をテキストデータとして出力する。

周波数解析部１０１は、音声入力部１８が入力を受け付けた音（主に可聴音の音声）の周波数帯を解析し、解析結果を出力する。具体的には、周波数解析部１０１は、上記解析によって所定の周波数帯の音が所定時間継続していることを検出し、その旨をコマンド検出部１０３に通知する。より詳細には、周波数解析部１０１は、４０００Ｈｚ以上５０００Ｈｚ未満の周波数帯の音が所定時間継続していることを検出する。また、周波数解析部１０１は、１００Ｈｚ以下の周波数帯の音が断続的あるいは周期的に、所定時間以上継続していることを検出する。なお、周波数解析部１０１を用いる例は後記実施形態２で説明する。

画像解析部１０２は、イメージセンサ１５が取得した、発話装置１の周囲の画像を解析し、ユーザが所定の所作を行ったことを検出し、その旨をコマンド検出部１０３に通知する。なお、画像解析部１０２を用いる例は後記実施形態３で説明する。

コマンド検出部１０３は、図２および図３に示したような各種コマンドを検出する。そして、動作モード制御部１０４は、コマンド検出部１０３が検出したコマンドに応じて動作モードの遷移を制御する。

表示制御部１０５は、表示部１２に画像を表示する。例えば、表示制御部１０５は、動作モード制御部１０４が動作モードを遷移させたときに、遷移後の動作モードに応じた表情の画像を表示部に表示させる。

発話制御部１０６は、発話装置１の発話を制御する。より詳細には、発話制御部１０６は、上述の各センサの検出結果や、音声認識部１００の音声認識結果に応じて、発話させるメッセージを特定し、該特定したメッセージを音声出力部１９に出力させる。なお、発話装置１が抑止モードに遷移している場合、発話制御部１０６は、通常モードと比較して音声発話の頻度を低くする。音声発話の頻度を低くする方法は特に限定されないが、例えばユーザの発話を検出した場合に、所定の確率でその発話に対する応答音声の出力を中止してもよい。この場合、上記所定の確率は、第１〜第３抑止モードに応じたものとすればよく、例えば第１抑止モードでは５０％、第２抑止モードでは１０％、第３抑止モードでは０％としてもよい。なお、頻度の調整の対象とする発話は、ユーザの発話に対する応答音声の出力に限られず、発話装置１の自発的な発話（例えば人感センサ１６にてユーザを検出したことを契機として発話制御部１０６が行わせる発話等）の頻度を抑制してもよい。

〔処理の流れ（節電モードと通常モードとの間の遷移）〕
次に、図５に基づいて、発話装置１が節電モードと通常モードとの間で遷移する際の処理について説明する。図５は、節電モードと通常モードとの間で遷移する際に発話装置１が実行する処理（発話装置の制御方法）の一例を示すフローチャートである。なお、同図では、抑止モードが第１および第２抑止モードの２つである場合の例を示している。

ユーザが発話装置１の電源をＯＮにすると、発話装置１は通常モードで起動する（Ｓ１）。通常モードにおいては、動作モード制御部１０４は、表示制御部１０５を介して、表示部１２に通常モードに対応する表情を表示する。また、音声入力部１８にてユーザの音声入力を待ち受ける。

また、動作モード制御部１０４は、通常モードにおいて、ユーザの発話を検出していない発話非検出状態が所定時間継続したか否かを監視する（Ｓ２）。ここで、所定時間継続したと判定した場合（Ｓ２でＹＥＳ）、動作モード制御部１０４は、発話装置１を節電モードに遷移させる（Ｓ３）。具体的には、動作モード制御部１０４は、表示部１２の表示を停止させ、音声入力部１８による音声入力の受け付けも停止させる。

一方、所定時間継続していないと判定した場合（Ｓ２でＮＯ）、動作モード制御部１０４は、コマンド検出部１０３が節電コマンドを検出したか否かを判定する（Ｓ５）。ここで検出したと判定した場合（Ｓ５でＹＥＳ）、動作モード制御部１０４は、発話装置１を節電モードに遷移させる（Ｓ３）。一方、検出していないと判定した場合（Ｓ５でＮＯ）、処理はＳ１に戻って通常モードが継続する。

また、節電モードに遷移した後は、動作モード制御部１０４は、コマンド検出部１０３による節電解除コマンドの検出を待ち受ける（Ｓ４）。そして、検出したと判定した場合（Ｓ４でＹＥＳ）、動作モード制御部１０４は、発話装置１を通常モードに遷移させる（Ｓ１）。一方、検出していないと判定した場合（Ｓ４でＮＯ）、処理はＳ３に戻って節電モードが継続する。

〔処理の流れ（通常モードと抑止モードとの間の遷移）〕
続いて、図６に基づいて、発話装置１が通常モードと抑止モードとの間で遷移する際の処理について説明する。図６は、通常モードと抑止モードとの間で遷移する際に発話装置１が実行する処理の一例を示すフローチャートである。

上述のように、ユーザが発話装置１の電源をＯＮにすると、発話装置１は通常モードで起動する（Ｓ１０）。そして、動作モード制御部１０４は、コマンド検出部１０３が準備コマンドを検出したか否かを判定する（Ｓ１１）。ここで検出したと判定した場合（Ｓ１１でＹＥＳ）、動作モード制御部１０４は、発話装置１を準備モードに遷移させる（Ｓ１２）。準備モードに遷移した後、動作モード制御部１０４は所定時間が経過したか否かを判定する（Ｓ１３）ここで、所定時間が経過したと判定した場合（Ｓ１３でＹＥＳ）、動作モード制御部１０４は、発話装置１を通常モードに遷移させる（Ｓ１０）。一方、所定時間が経過していないと判定した場合（Ｓ１３でＮＯ）、動作モード制御部１０４は、コマンド検出部１０３が抑止コマンドを検出したか否かを判定する（Ｓ１４）。ここで検出したと判定（Ｓ１４でＹＥＳ）、動作モード制御部１０４は、発話装置１を第１抑止モードに遷移させる（Ｓ１５）。一方、検出していないと判定した場合（Ｓ１４でＮＯ）、処理はＳ１２に戻って準備モードが継続する。

第１抑止モードにおいて、動作モード制御部１０４は、コマンド検出部１０３が抑止コマンドを検出したか否かを判定する（Ｓ１６）。ここで検出したと判定した場合（Ｓ１６でＹＥＳ）、動作モード制御部１０４は、発話装置１を第２抑止モードに遷移させる（Ｓ１７）。一方、検出していないと判定した場合（Ｓ１６でＮＯ）、動作モード制御部１０４は、コマンド検出部１０３が復帰コマンドを検出したか否かを判定する（Ｓ１９）。ここで検出したと判定された場合（Ｓ１９でＹＥＳ）、動作モード制御部１０４は、発話装置１を通常モードに遷移させる。一方、検出していないと判定した場合（Ｓ１９でＮＯ）、処理はＳ１５に戻って第１抑止モードが継続する。

また、第２抑止モードにおいて、動作モード制御部１０４は、コマンド検出部１０３が直接復帰コマンドを検出したか否かを判定する（Ｓ１８）。ここで検出したと判定した場合（Ｓ１８でＹＥＳ）、動作モード制御部１０４は、発話装置１を通常モードに遷移させる。一方、検出していないと判定した場合（Ｓ１８でＮＯ）、処理はＳ１７に戻って第２抑止モードが継続する。

なお、通常モードにおいて、動作モード制御部１０４は、コマンド検出部１０３が準備コマンドを検出しなかったと判定した場合（Ｓ１１でＮＯ）、コマンド検出部１０３が第１直接抑止コマンドを検出したか否かを判定する（Ｓ２０、コマンド検出ステップ）。

ここで検出したと判定した場合（Ｓ２０でＹＥＳ）、処理はＳ１５（動作モード制御ステップ）に進み、動作モード制御部１０４は、発話装置１を第１抑止モードに遷移させる。一方、検出しなかったと判定した場合（Ｓ２０でＮＯ）、動作モード制御部１０４は、コマンド検出部１０３が第２直接抑止コマンドを検出したか否かを判定する（Ｓ２１、コマンド検出ステップ）。ここで検出したと判定した場合（Ｓ２１でＹＥＳ）、処理はＳ１７（動作モード制御ステップ）に進み、動作モード制御部１０４は、発話装置１を第２抑止モードに遷移させる。一方、検出しなかったと判定した場合、処理はＳ１０に戻って通常モードが継続する。

〔実施形態２〕
本実施形態では、発話装置１が音声認識機能により検出する直接抑止コマンドの他の例を図７に基づいて説明する。図７は、本実施形態の発話装置１が音声認識機能により検出する直接抑止コマンドの例を示す図である。

同図の（ａ）に示すように、「もしもし」との発話を直接抑止コマンドとして検出してもよい。この場合、コマンド検出部１０３は、音声認識部１００による音声認識結果に「もしもし」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第１〜第３抑止モードの何れとしてもよい。

「もしもし」は、電話による通信相手との対話時において、典型的な呼びかけ語として使用される語句であり、通常の対話（ユーザ同士の対面での対話やユーザと発話装置１との対話）時に使用される頻度は低い。よって、「もしもし」との発話を直接抑止コマンドとして検出して、抑止モードに遷移することにより、電話中における発話装置１の発話を抑止することができる。なお、本例において直接抑止コマンドとして検出する音声は、通信相手との対話時に特異的に発せられる音声であればよく、「もしもし」に限られない。例えば、インターホンの音や、電話の着信音などを直接抑止コマンドとして検出してもよい。

また、同図の（ｂ）に示すように、テレビ等から流れるＢＧＭを直接抑止コマンドとして検出してもよい。上述のように、周波数解析部１０１は、１００Ｈｚ以下の周波数帯の音が断続的あるいは周期的に所定時間（例えば１０秒）以上継続していることを検出し、その旨をコマンド検出部１０３に通知する。このため、コマンド検出部１０３は、周波数解析部１０１からの上記通知により直接抑止コマンドが入力されたと判定してもよい。

ＢＧＭ等の音楽には、楽器などの発する音が継続的（断続的あるいは周期的であってもよい）に含まれている。そして、その中には、ドラム等の打楽器による音などの人の発することのできない１００Ｈｚ以下の周波数帯の音が含まれているから、上記の判定によりＢＧＭ等が流れているときに抑止モードに遷移させることができる。

なお、同図の（ｂ）の例で抑止モードに遷移させた場合、動作モード制御部１０４は、人の発することのできない周波数の音が検出されなくなったときに、通常モードに遷移させてもよい。これにより、テレビ等の視聴中には発話装置１の発話を抑止し、視聴終了後には抑止することなく発話装置１に発話させることができる。また、この場合、通常モードへの遷移時に、その旨をユーザに認識させるメッセージを発話させてもよい。例えば、「音楽に聞き入ってしまいました」等と発話させることにより、ＢＧＭの検出により抑止モードとなっていたが、通常モードに戻ったことをユーザに認識させることができる。

さらに、同図の（ｃ）に示すように、静かにして欲しいときに発する「シー」との音声を直接抑止コマンドとして検出してもよい。この場合、コマンド検出部１０３は、周波数解析部１０１による周波数解析結果から、「シー」との音声に対応する周波数帯の音が、所定時間継続して音声入力部１８に入力されたと判定したときに、直接抑止コマンドを検出したと判定する。

上述のように、周波数解析部１０１は、４０００Ｈｚ以上５０００Ｈｚ未満の周波数帯の音が所定時間（例えば１秒）以上継続していることを検出し、その旨をコマンド検出部１０３に通知する。そして、「シー」との音声には、母音が含まれていないため、母音を含む通常の発話よりも周波数帯が高くなり、典型的には上記範囲内の周波数帯となる。このため、コマンド検出部１０３は、周波数解析部１０１からの上記通知により直接抑止コマンドが入力されたと判定してもよい。これにより、「シー」との音声が発せられたときに抑止モードに遷移させることができる。なお、上記範囲は判定基準の一例であり、この例に限られない。例えば、一般的に人が会話するときに発する声の周波数帯は、数１００〜１０００Ｈｚ前後であるから、１０００Ｈｚを超える周波数帯の音が所定時間継続して入力されたときに、直接抑止コマンドを検出したと判定してもよい。

「シー」との音声は、静かにして欲しいときに発する音声であるから、その音声が発話装置１に向けられた場合はもちろんのこと、他のユーザに向けられたものであっても、発話装置１の発話を抑止することは妥当と考えられる。よって、上記の構成によれば、適切なタイミングで発話装置１の発話を抑止することができる。

〔実施形態３〕
本実施形態では、発話装置１が画像解析機能により検出する直接抑止コマンドの例を図８に基づいて説明する。図８は、発話装置１が画像解析機能により検出する直接抑止コマンドおよび直接復帰コマンドの例を示す図である。

同図の（ａ）に示すように、ユーザが口の前に人差し指を立てるジェスチャを直接抑止コマンドとして検出してもよい。この場合、画像解析部１０２が、イメージセンサ１５が取得した画像の解析により、ユーザが口の前に人差し指を立てるジェスチャ（所作）を行ったことを検出して、その旨をコマンド検出部１０３に通知する。そして、コマンド検出部１０３は、この通知の受信により、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第１〜第３抑止モードの何れとしてもよい。

口の前に人差し指を立てるジェスチャは、静かにして欲しいときに行われるジェスチャであり、通常の対話時に使用される頻度は低い。よって、口の前に人差し指を立てるジェスチャを直接抑止コマンドとして検出して、抑止モードに遷移することにより、ユーザの意図に沿ったタイミングで発話装置１の発話を抑止することができる。

なお、誤検出を防ぐという観点からは、ジェスチャが所定時間（例えば１秒）継続している場合に、直接抑止コマンドを検出したと判定することが好ましい。また、上述の実施形態で説明した「シー」という発話の検出を併用してもよい。つまり、所定の周波数の音声が検出され、かつ口の前に人差し指を立てるジェスチャが検出されたときに、直接抑止コマンドを検出したと判定してもよい。

そして、静かにして欲しいときに行われるジェスチャとしては、上記以外にも、例えば口の前でファスナーを閉める動作を行うジェスチャや、口の前で指にて口を閉じる動作を行うジェスチャ、あるいは口の前で指を交差させるジェスチャ等が知られている。よって、このようなジェスチャを直接抑止コマンドとして検出してもよい。

また、発話装置１と対面していたユーザが顔を背けたことを直接抑止コマンドとして検出してもよい。なお、遷移先は第１〜第３抑止モードの何れとしてもよい。この場合、同図の（ｂ）に示すように、ユーザが発話装置１に対面していることを直接復帰コマンドとして検出してもよい。つまり、この例では、上述の各例とは異なり、発話装置１は起動時に抑止モードとなり、ユーザが発話装置１に対面している期間のみ通常モードとなる。

上記の直接抑止コマンドおよび直接復帰コマンドの検出は、画像解析部１０２による画像解析結果に基づいて行うことができる。例えば、ユーザが発話装置１に対面しているときには、ユーザの両耳が発話装置１から見える状態となるので、画像解析部１０２は、イメージセンサ１５が取得した画像中においてユーザの両耳を検出したときに、その旨をコマンド検出部１０３に通知してもよい。そして、コマンド検出部１０３は、この通知の受信により、直接復帰コマンドを検出したと判定すればよい。

同様に、画像解析部１０２は、イメージセンサ１５が取得した画像中においてユーザの両耳を検出することができなくなったときに、その旨をコマンド検出部１０３に通知してもよい。そして、コマンド検出部１０３は、この通知の受信により、直接抑止コマンドを検出したと判定してもよい。なお、画像解析は、人感センサ１６がユーザを検出したことを契機として開始すればよい。

ユーザが発話装置１に対面している場合は、ユーザが該発話装置１との対話を所望している可能性が高く、一方、対面していない場合は、ユーザが該発話装置１との対話を所望していない可能性が高い。よって、適切なタイミングで発話装置１の発話を抑止することができる。

なお、上記では、両耳の検出によりユーザが発話装置１と対面していること、あるいは発話装置１から顔を背ける所作を行ったことを検出する例を説明したが、対面状態および顔を背ける所作の検出方法は特に限定されない。例えば、画像解析によりユーザの目線が発話装置１に向いているか否かを特定することにより、対面状態および顔を背ける所作を検出することもできる。

〔実施形態４〕
本実施形態では、音声認識結果とセンサの検出結果の双方を用いて検出する直接抑止コマンドの例を図９に基づいて説明する。図９は、発話装置１が音声認識結果とセンサの検出結果の双方を用いて検出する直接抑止コマンドの例を示す図である。

同図の（ａ）は、接触センサ１３の検出結果と音声認識結果とを用いて検出する直接抑止コマンドの例を示しており、本例において、ユーザは、接触センサ１３に触れた状態で「静かに」と発話することにより、発話装置１を抑止モードに遷移させている。つまり、本例の発話装置１は、自装置の頭部（接触センサ１３の位置）にユーザが触れるという所作と、発話の抑止を命じる発話との双方を検出した場合に、抑止モードに遷移する。

この場合、コマンド検出部１０３は、接触センサ１３がユーザの接触を検知しており、かつ、音声認識部１００による音声認識結果に「静かに」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第１〜第３抑止モードの何れとしてもよい。

また、同図の（ｂ）は、照度センサ１４の検出結果と音声認識結果とを用いて検出する直接抑止コマンドの例を示しており、本例において、ユーザは、照度センサ１４を覆った状態で「静かに」と発話することにより、発話装置１を抑止モードに遷移させている。つまり、本例の発話装置１は、照度センサ１４の位置にユーザが手をかざすという所作と、発話の抑止を命じる発話との双方を検出した場合に、抑止モードに遷移する。

この場合、コマンド検出部１０３は、照度センサ１４が検出した照度の値が所定の閾値を下回っており、かつ、音声認識部１００による音声認識結果に「静かに」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第１〜第３抑止モードの何れとしてもよい。

上記の構成によれば、接触センサ１３に触れる、照度センサ１４を覆う等のユーザの所作を、直接抑止コマンドの検出条件に含めている。これにより、通常の対話時にも使用され得る「静かに」の語を用いつつ、ユーザの意図しないタイミングで抑止モードに遷移することを防いでいる。

〔実施形態５〕
本実施形態では、発話装置１に衝撃が与えられたことを直接抑止コマンドとして検出する例を図１０に基づいて説明する。図１０は、発話装置１に衝撃が与えられたことを直接抑止コマンドとして検出する例を示す図である。

同図の（ａ）に示すように、ユーザの発話中に発話装置１に対して衝撃が与えられた（外力が加えられた）ことを直接抑止コマンドとして検出してもよい。これにより、ユーザは、直感的な操作にて、自身の発話が発話装置１の発話によって妨げられることを防ぐことができる。

この場合、コマンド検出部１０３は、音声認識部１００の音声認識結果にユーザの発話が含まれ、かつ加速度センサ１７が検出した加速度の値が所定の閾値以上である場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。

また、同図の（ｂ）に示すように、発話装置１の発話中に発話装置１に対して衝撃が与えられた（外力が加えられた）ことを直接抑止コマンドとして検出してもよい。これにより、ユーザの意に沿わないタイミングで発話装置１が発話を始めたときに、ユーザは直感的な操作で速やかに発話装置１を抑止モードに遷移させることができる。

この場合、コマンド検出部１０３は、発話制御部１０６が音声出力部１９を介して音声を出力している間に加速度センサ１７が検出した加速度の値が所定の閾値以上である場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部１０４は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。また、この場合、発話装置１は発話中のメッセージを中断してもよいし、発話中のメッセージは最後まで発話して、その後で抑止モードに遷移してもよい。

なお、本実施形態の例において、ユーザが発話装置１に加える力はそれほど強いものである必要はなく、発話装置１が揺れる程度の力であればよい。このため、上記閾値は発話装置１の少なくとも一部が動いたことを検出できる程度の値としてもよい。また、発話装置１に外力が加えられたことを検出するための構成は加速度センサ１７に限られず、例えば接触センサ１３への接触にて検出してもよい。また、遷移先は第１〜第３抑止モードの何れとしてもよい。

〔変形例〕
上記各実施形態の直接抑止コマンドは併用してもよい。つまり、１つの発話装置１が、上記各実施形態の何れの直接抑止コマンドをも受け付ける構成としてもよい。この場合、何れの直接抑止コマンドにて抑止モードに遷移したかに応じて、復帰コマンドまたは直接復帰コマンドを変更してもよい。例えば、実施形態５のように衝撃を与えて抑止モードに遷移した場合、「もういいよ」等の発話のみでは通常モードに復帰せず、接触センサ１３に触れながら「ごめんね」等のお詫びのメッセージを発話することで復帰するようにしてもよい。これにより、発話装置１が感情を持っているかのような感覚をユーザに与えることができる。

また、上記各実施形態では、発話装置１が抑止コマンドおよび復帰コマンドによって、第１抑止モードから第３抑止モードまで段階的に動作モードを遷移することを示したが、第１抑止モードと第３抑止モードとの間を直接遷移させるコマンドを定義してもよい。これによれば、通常モードまたは第２抑止モードを経由することなく直接遷移できるため、ユーザの利用状況に応じた、より柔軟な抑止および復帰が可能となる。

そして、上述の各実施形態では、１つのコマンドに対してユーザの入力内容が１つだけ存在する例を示したが、１つのコマンドに対してユーザの入力内容が複数定義される構成であってもよい。特に、発話によるコマンドは、ユーザによってばらつきが生じやすいので、発話内容を複数定義しておくことが好ましい。例えば、「静かに」、「静かにして」、「黙って」、「うるさいよ」等の発話の何れであっても抑止コマンドや直接抑止コマンドとして検出するようにしてもよい。

また、上記実施形態では、ユーザとの対話機能を主機能とした発話装置１を例に説明を行ったが、本発明は音声発話機能を備えた装置であれば、任意の装置に適用することができる。例えば、スマートフォン等の情報処理端末や、パーソナルコンピュータ等にも適用可能である。さらに、近年では、音声発話機能を搭載した家庭用電気機器（例えば冷蔵庫、空調装置、ロボット掃除機、テレビ等）も普及しつつあるので、このような家庭用電気器に本発明を適用することもできる。具体的には、上記の各装置に図１の各ブロックに相当する構成を設けることにより、上記発話装置１と同様の機能を実現できる。

さらに、上記各実施形態の発話装置１の機能は、１または複数のサーバを利用したクライアントサーバシステムによって実現することもできる。例えば、音声認識部１００の機能を有するサーバを設けた場合、発話装置１は該サーバに音声入力部１８に入力された音声のデータを送信して、該サーバから音声認識結果を取得することができる。同様にして、図１の制御部１０に含まれる他のブロックの機能もサーバに持たせることが可能である。

また、上記各実施形態の直接抑止コマンドと同様のコマンドを直接復帰コマンドとしてもよい。例えば「コマンド話をしよう」のように、対話を構成しない所定の語句と、発話の開始を命じる語句とを含む発話を直接復帰コマンドとしてもよい。また、例えばユーザの口の前で、口を開く様子を手の動きで表現した所作を行う等の所定のジェスチャを直接復帰コマンドとしてもよい。さらに、例えばユーザの所作（発話装置１の頭に触れる、照度センサ１４の位置にユーザが手をかざす等）と発話の開始を命じる語句との双方を検出したことを直接復帰コマンドとしてもよい。

〔ソフトウェアによる実現例〕
発話装置１の制御ブロック（特に制御部１０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、発話装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る発話装置（１）は、音声発話する発話装置であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出部（１０３）と、上記コマンド検出部が上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御部（１０４）と、を備えている構成である。

上記の構成によれば、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出し、該コマンドを検出したときに発話装置を音声発話の抑止モードに遷移させる。よって、ユーザが通常の対話時に意図せず発話装置を抑止モードに遷移させてしまう可能性を低減しつつ、必要なときには所定のコマンドにより速やかに発話装置を抑止モードに遷移させることができるという効果を奏する。

本発明の態様２に係る発話装置は、上記態様１において、上記発話装置の動作モードには、対話を構成する所定の音声をコマンドとして検出する準備モードが含まれており、上記動作モード制御部は、上記発話装置を上記通常モードから準備モードに遷移させた状態にて、上記コマンド検出部が発話の抑止を命じるユーザの発話を検出した場合に、上記発話装置を上記抑止モードに遷移させる構成としてもよい。

上記の構成によれば、通常モードにおいては、所定のコマンドにより抑止モードに遷移すると共に、準備モードにおいては、発話の抑止を命じるユーザの発話により抑止モードに遷移する。

準備モードを経て抑止モードに遷移させる場合、発話の抑止を命じる発話を行うという、人と人とのコミュニケーションと同様の行為で抑止モードに遷移させることができる。また、このような発話で抑止モードに遷移させる前提として、発話装置を準備モードとする必要がある。このため、発話装置に向けられていない音声（例えば、人と人との会話やテレビの音声など）を誤検出して抑止モードに遷移する可能性は低くなっている。

一方、所定のコマンドにより抑止モードに遷移させる場合、準備モードを経ることがないので、速やかに発話装置の発話を抑止することができる。つまり、上記の構成によれば、ユーザは、自身の好みや、そのときの状況などに応じた経路で発話装置を抑止モードに遷移させることができる。

本発明の態様３に係る発話装置は、上記態様１または２において、上記コマンド検出部は、対話を構成しない所定の語句と、発話の抑止を命じる語句とを含む発話を上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、対話を構成しない語句が所定のコマンドに含まれているので、ユーザが通常の対話時に意図せず発話装置を抑止モードに遷移させてしまう可能性を低減することができる。また、所定のコマンドには、発話の抑止を命じる語句が含まれているので、所定のコマンドをユーザが覚えやすく、また該所定のコマンドが発話を抑止させるためのコマンドであることをユーザが容易に認識することができる。

本発明の態様４に係る発話装置は、上記態様１から３の何れかにおいて、上記抑止モードには、抑止の程度が異なる複数の抑止モードが含まれており、上記所定のコマンドは、複数の上記抑止モードに応じて複数パターン規定されており、上記動作モード制御部は、複数の上記抑止モードのうち、上記コマンド検出部が検出した所定のコマンドのパターンに応じた抑止モードに上記発話装置を遷移させてもよい。

上記の構成によれば、複数の抑止モードのうち、検出した所定のコマンドのパターンに応じた抑止モードに発話装置を遷移させるので、所定のコマンドを使い分けることにより、所望の程度で発話装置の発話を抑止することができる。

本発明の態様５に係る発話装置は、上記態様１から４の何れかにおいて、上記コマンド検出部は、通信相手との対話時に使用される所定の語句の発話を上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、通信相手との対話時に使用される所定の語句の発話を所定のコマンドとして検出するので、ユーザが通信相手と対話しているときに、意図せず発話装置を抑止モードに遷移させてしまう可能性を低減することができる。また、ユーザの通信相手との対話が、発話装置の発話によって妨げられることを防ぐことができる。

本発明の態様６に係る発話装置は、上記態様１から５の何れかにおいて、上記コマンド検出部は、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続したことを上記所定のコマンドとして検出する構成としてもよい。

ここで、発話装置の周囲にあるテレビや音楽プレイヤー等から音楽が流れているときには、打楽器等によって発せられた、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続して発話装置に検出される。このため、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続したことを所定のコマンドとして検出する上記の構成によれば、発話装置の周囲で音楽が流されているときに発話装置を抑止モードに遷移させることができる。これにより、ユーザのテレビや音楽の視聴を発話装置の発話で妨げてしまうことを防ぐことができる。また、テレビの音声や音楽の歌詞等をユーザの発話と誤認して発話装置が動作することも防ぐことができる。

本発明の態様７に係る発話装置は、上記態様１から６の何れかにおいて、上記コマンド検出部は、４０００Ｈｚ以上５０００Ｈｚ未満の周波数帯の音が所定時間継続したことを上記所定のコマンドとして検出する構成としてもよい。

人が静かにして欲しいときに発する「シー」との音声は、４０００から５０００Ｈｚの周波数となる。よって、上記の構成によれば、ユーザは、「シー」と発話することで発話装置を抑止モードに遷移させて、静かにさせることができる。

本発明の態様８に係る発話装置は、上記態様１から７の何れかにおいて、上記コマンド検出部は、上記発話装置のユーザが所定の所作を行ったことを上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、発話装置のユーザが所定の所作を行ったことを上記所定のコマンドとして検出する。よって、会話中のユーザが意図せず発話装置を抑止モードに遷移させてしまったり、テレビなどの音声により発話装置が抑止モードに遷移してしまったりする可能性を低減することができる。

本発明の態様９に係る発話装置は、上記態様８において、上記動作モード制御部は、上記コマンド検出部が、上記ユーザが上記発話装置に対面していることを検出したときに、上記発話装置を上記通常モードに遷移させ、上記コマンド検出部が、上記ユーザが上記発話装置から顔を背ける所作を行ったことを上記所定のコマンドとして検出したときに、上記発話装置を上記抑止モードに遷移させる構成としてもよい。

ここで、ユーザが発話装置に対面しているときには、ユーザには発話装置と対話する意図があると考えられ、顔を背けたときには発話装置と対話する意図がなくなったと考えられる。よって、上記の構成によれば、ユーザが発話装置と対話する意図があると考えられる期間は通常モードにて対話し、対話する意図がなくなったときには抑止モードにて発話を抑止することができる。

本発明の態様１０に係る発話装置は、上記態様１から９の何れかにおいて、上記コマンド検出部は、ユーザが所定の所作を行い、かつ、発話の抑止を命じる発話を行ったことを、上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、ユーザが所定の所作を行い、かつ、発話の抑止を命じる発話を行ったことを、上記所定のコマンドとして判定する。よって、通常の対話時にも行われ得る発話の抑止を命じる発話を利用しつつ、ユーザの意図しないタイミングで抑止モードに遷移することを防ぐことができる。

本発明の態様１１に係る発話装置は、上記態様１から１０の何れかにおいて、上記コマンド検出部は、ユーザの発話中に上記発話装置に外力が加えられたことを、上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、ユーザの発話中に発話装置に外力が加えられたことを、所定のコマンドとして検出する。よって、ユーザは、直感的な操作にて、自身の発話が発話装置の発話によって妨げられることを防ぐことができる。

本発明の態様１２に係る発話装置は、上記態様１から１１の何れかにおいて、上記コマンド検出部は、上記発話装置の発話中に当該発話装置に外力が加えられたことを、上記所定のコマンドとして検出する構成としてもよい。

上記の構成によれば、発話装置の発話中に当該発話装置に外力が加えられたことを、所定のコマンドとして検出する。よって、ユーザの意に沿わないタイミングで発話装置が発話を始めたときに、ユーザは直感的な操作で速やかに発話装置を抑止モードに遷移させることができる。

本発明の態様１３に係る発話装置の制御方法は、音声発話する発話装置の制御方法であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出ステップ（Ｓ２０／Ｓ２１）と、上記コマンド検出ステップにて上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御ステップ（Ｓ１５／Ｓ１７）と、を含む発話装置の制御方法である。該制御方法によれば、上記態様１と同様の作用効果を奏する。

本発明の各態様に係る発話装置（１）は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話装置が備える各部（ソフトウェア要素）として動作させることにより上記発話装置をコンピュータにて実現させる発話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１発話装置
１０３コマンド検出部
１０４動作モード制御部

Claims

音声発話する発話装置であって、
対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出部と、
上記コマンド検出部が上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御部と、を備えていることを特徴とする発話装置。
上記発話装置の動作モードには、対話を構成する所定の音声をコマンドとして検出する準備モードが含まれており、
上記動作モード制御部は、上記発話装置を上記通常モードから準備モードに遷移させた状態にて、上記コマンド検出部が発話の抑止を命じるユーザの発話を検出した場合に、上記発話装置を上記抑止モードに遷移させることを特徴とする請求項１に記載の発話装置。
上記コマンド検出部は、上記発話装置のユーザが所定の所作を行ったことを上記所定のコマンドとして検出し、
上記動作モード制御部は、上記コマンド検出部が、上記ユーザが上記発話装置に対面していることを検出したときに、上記発話装置を上記通常モードに遷移させ、上記コマンド検出部が、上記ユーザが上記発話装置から顔を背ける所作を行ったことを上記所定のコマンドとして検出したときに、上記発話装置を上記抑止モードに遷移させる、ことを特徴とする請求項１または２に記載の発話装置。
上記コマンド検出部は、ユーザが所定の所作を行い、かつ、発話の抑止を命じる発話を行ったことを、上記所定のコマンドとして検出する、ことを特徴とする請求項１から３の何れか１項に記載の発話装置。
上記コマンド検出部は、ユーザの発話中に上記発話装置に外力が加えられたことを、上記所定のコマンドとして検出する、ことを特徴とする請求項１から４の何れか１項に記載の発話装置。