〔実施形態1〕
以下、本発明の実施形態1について、図1〜図6を用いて詳細に説明する。
〔発話装置の動作モード〕
まず、図2および図3に基づいて、本実施形態に係る発話装置1の動作モードを説明する。図2は、発話装置1の発話抑止の際のモード遷移の一例を示す図であり、図3は、発話抑止解除の際のモード遷移の一例を示す図である。
発話装置1は、音声で発話する機能を備えた装置である。また、発話装置1は、音声認識機能も備えており、これらの機能によりユーザとの対話を行うことができる。図示のように、発話装置1は、表示部12、接触センサ13、照度センサ14、イメージセンサ15、および人感センサ16を備えている。
表示部12は、発話装置1の顔を表示するものである。つまり、発話装置1は、表示部12の表示内容により、発話装置1の表情を表現することができる。また、接触センサ13は、ユーザの接触を検出するセンサである。そして、照度センサ14は、発話装置1の周囲の明るさを検出するセンサであり、イメージセンサ15は発話装置1の周囲の映像を取得するセンサであり、人感センサ16は発話装置1の周囲の人を検知するセンサである。発話装置1は、これらのセンサの検出結果に応じて動作する。
図2および図3に示すように、発話装置1は、複数の動作モードを有しており、所定のコマンドによって、異なる動作モードへ遷移させることが可能である。具体的には、図示のように、発話装置1は、通常モード、節電モード、準備モード、および第1〜第3抑止モードの6つの動作モードを有している。なお、第1〜第3抑止モードのそれぞれを区別する必要がないときには、単に抑止モードと呼ぶ。
通常モードは、発話装置1がユーザと対話するモードである。つまり、通常モードにおいてユーザが発話装置1に話し掛けると、発話装置1はその音声を認識して、認識結果に応じた応答音声を出力する。発話装置1の電源を入れると発話装置1は通常モードで起動する。
節電モードは、通常モードと比較して消費電力の少ないモードである。節電モードでは、表示部12の表示は停止し、音声認識機能も停止する。図2に示すように、通常モード中に所定の節電コマンドを入力することで節電モードに遷移させることができ、また、図3に示すように節電モード中に所定の節電解除コマンドを入力することで通常モードに戻すことができる。節電コマンドは、例えば「おやすみ」との発話であってもよく、節電解除コマンドは、例えば接触センサ13へのユーザの接触であってもよい。
準備モードは、発話装置1を抑止モードに遷移させる前段階として設けられたモードであり、基本的には、抑止モードへは準備モードを経て遷移する。図2に示すように、通常モード中に所定の準備コマンドを入力することで準備モードに遷移する。このように、一度準備モードを経て抑止モードに遷移させることにより、ユーザが意図しないタイミングで発話装置1を抑止モードに遷移させることを防ぐことができる。準備コマンドは、例えば、「ちょっと」のような呼び掛けの発話であってもよい。
抑止モードは、通常モードと比べて発話装置1の発話の頻度が抑制されたモードである。そして、第1〜第3抑止モードは、抑制の程度がそれぞれ異なっている。具体的には、第1抑止モードが最も抑制の程度が低く、第3抑止モードが最も抑制の程度が高く、第2抑止モードはこれらの中間的な抑制の程度となっている。より詳細には、第3抑止モードでは発話装置1は発話を行わず、第1抑止モードでは通常モードよりも発話の頻度が下がってあまり発話しなくなり、第2抑止モードでは第1抑止モードよりもさらに発話の頻度が下がってほとんど発話しなくなる。また、第2抑止モードでは、発話の音量が第1抑止モードよりも低下する。
なお、抑止モードは1種類であってもよい。ただし、上記の例のように抑止モードを複数設けることにより、ユーザの状況等に応じた適切な頻度で発話させることが可能になるので、抑止モードは段階的に複数設けることが好ましい。また、抑止の態様は、発話の頻度や音量の低減に限られず、例えばおよび発話するメッセージの長さを短くする等の態様であってもよいし、これらの各態様の組合せた態様であってもよい。
また、発話装置1が何れの動作モードで動作しているかがユーザに認識できるように、各動作モードではその動作モードに応じた表情が表示部12に表示される。具体的には、図示のように、準備モードでは、ユーザの音声による指示を受付可能であることを示すように両耳の付近にマークを表示させる。また、第1抑止モードでは、発話が抑制されているが、ある程度の発話は行うことを示すために、口の部分に小さなテープを表示させる。そして、第2抑止モードでは、発話がより強く抑制されていることを示すために、口の部分に大きなテープを表示させ、第3抑止モードでは、全く発話しないように抑止されていることを示すために、口の部分にファスナーを表示させている。
続いて動作モードの遷移について説明する。図2に示すように、準備モード中に所定の抑止コマンドを入力することによって、発話装置1は第1抑止モードに遷移する。そして、第1抑止モード中に所定の抑止コマンドを入力することによって発話装置1は第2抑止モードに遷移し、第2抑止モード中に所定の抑止コマンドを入力することによって発話装置1は第3抑止モードに遷移する。抑止コマンドは、例えば「静かに」のような発話の抑止を命じる語句の発話であってもよい。また、抑止モード間の遷移は、何れも同じ抑止コマンドによって行われてもよいし、異なる抑止コマンドによって行われてもよい。
上述のように、抑止モードへは基本的には準備モードを経て遷移するが、所定のコマンド(直接抑止コマンドと呼ぶ)により、準備モードを経ることなく抑止モードに遷移させることもできる。具体的には、図2に示すように、通常モード中に第1直接抑止コマンドを入力することによって発話装置1を第1抑止モードに遷移させることができる。同様に、通常モード中に第2直接抑止コマンドを入力することによって発話装置1を第2抑止モードに遷移させることができ、通常モード中に第3直接抑止コマンドを入力することによって発話装置1を第3抑止モードに遷移させることができる。直接抑止コマンドとしては、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかが用いられるから、ユーザが他のユーザと対話しているとき等に意図せず発話装置1を抑止モードに遷移させる可能性は低くなっている。
このように、抑止モードへの遷移の態様は、準備モードを経由した遷移と、経由しない遷移との2通りある。これについて、図4に基づいて説明する。図4は発話装置1の抑止モードへの遷移例を示す図である。同図の左側に示すように、発話装置1が準備モードであれば、ユーザは「静かに」と発話することによって、発話装置1を第1抑止モードへ遷移させることができる。なお、「静かに」は予め定められた抑止コマンドである。
一方、同図の右側に示すように、発話装置1が通常モードである場合には、抑止コマンドである「静かに」との発話では抑止モードには遷移しない。その代わりに、ユーザは「コマンド 静かに」と発話することによって、発話装置1を第1抑止モードへ遷移させることができる。この「コマンド 静かに」は予め定められた第1直接抑止コマンドである。「コマンド」のような語句は、通常の対話時には発話される可能性が低く、一般的には対話を構成しないため、ユーザが発話装置1と対話したいときや、他のユーザと会話しているときに、意図せず発話装置を抑止モードに遷移させてしまうことを防ぐことができる。また、ユーザは、発話装置1を速やかに抑止モードに遷移させたい場合に、準備モードを経ることなく、1つの直接抑止コマンドで抑止モードに遷移させることができる。
同様に、「コマンド」と発話の抑止を命じる語句とを含む発話が、第2および第3直接抑止コマンドとして規定されている。第3直接抑止コマンドによれば、発話装置1に発話させない動作モードである第3抑止モードに遷移させることができるので、発話の抑止を命じる語句は、第1直接抑止コマンドよりも強い抑止を命じる語句とすることが好ましい。例えば、第3直接抑止コマンドを「コマンド 黙って」としてもよい。また、第2直接抑止コマンドは、第1抑止モードと第2抑止モードの中間的な発話頻度となる第2抑止コマンドに遷移させるものである。このため、第2直接抑止コマンドは、第1直接抑止コマンドと第3直接抑止コマンドの中間的なニュアンスの、発話の抑止を命じる語句を含むものとしてもよい。このように、直接抑止コマンドを複数パターン規定しておくことにより、検出されたパターンに応じた抑止モードに遷移させることができる。
なお、直接抑止コマンドには、対話を構成しない語句が少なくとも1つ含まれていればよい。例えば、「コマンド」の代わりに「命令」等の語句を含む発話を直接抑止コマンドとしてもよい。
また、所定の復帰コマンドによって発話装置1を抑止モードから通常モードに復帰させることができる。具体的には、図3に示すように、第3抑止モード中に復帰コマンドを入力することによって、発話装置1は第2抑止モードに遷移する。同様に、第2抑止モード中に復帰コマンドを入力することによって、発話装置1は第1抑止モードに遷移し、第1抑止モード中に復帰コマンドを入力することによって、発話装置1は通常モードに遷移する。復帰コマンドは、例えば「話をしよう」のような発話装置1に発話を促す発話であってもよい。
さらに、図3に示すように、所定の直接復帰コマンドにより、発話装置1を第2または第3抑止モードから、直接通常モードに復帰させることもできる。直接復帰コマンドは、復帰コマンドと異なるコマンドであればよく、例えば「もういいよ」のような発話であってもよい。
〔発話装置1の要部構成〕
次に、発話装置1の要部構成を図1に基づいて説明する。図1は、発話装置1の要部構成の一例を示すブロック図である。図示の例において、発話装置1は、制御部10、記憶部11、表示部12、接触センサ13、照度センサ14、イメージセンサ15、人感センサ16、加速度センサ17、音声入力部18、音声出力部19、および通信部20を備えている。なお、表示部12、接触センサ13、照度センサ14、イメージセンサ15、および人感センサ16については、図2に基づいて説明済みであるから、ここでは説明を繰り返さない。
記憶部11は、発話装置1にて扱われる各種データを記憶するものである。加速度センサ17は、加速度を検出して出力するセンサであり、加速度センサ17の出力値から、発話装置1が動かされたこと等を検出することができる。音声入力部18は、発話装置1の外部からの音声入力を受け付けるものである。音声出力部19は、制御部10の制御に従って音声を出力するものである。通信部20は、発話装置1が他の装置と通信を行うためのものである。
制御部10は、発話装置1の各部を統括して制御するものであり、音声認識部100、周波数解析部101、画像解析部102、コマンド検出部103、動作モード制御部104、表示制御部105、および発話制御部106を備えている。
音声認識部100は、音声入力部18が入力を受け付けた音声を認識して、音声認識結果を出力する。具体的には、音声認識部100は、入力された音声に含まれるユーザの発話した言葉をテキストデータとして出力する。
周波数解析部101は、音声入力部18が入力を受け付けた音(主に可聴音の音声)の周波数帯を解析し、解析結果を出力する。具体的には、周波数解析部101は、上記解析によって所定の周波数帯の音が所定時間継続していることを検出し、その旨をコマンド検出部103に通知する。より詳細には、周波数解析部101は、4000Hz以上5000Hz未満の周波数帯の音が所定時間継続していることを検出する。また、周波数解析部101は、100Hz以下の周波数帯の音が断続的あるいは周期的に、所定時間以上継続していることを検出する。なお、周波数解析部101を用いる例は後記実施形態2で説明する。
画像解析部102は、イメージセンサ15が取得した、発話装置1の周囲の画像を解析し、ユーザが所定の所作を行ったことを検出し、その旨をコマンド検出部103に通知する。なお、画像解析部102を用いる例は後記実施形態3で説明する。
コマンド検出部103は、図2および図3に示したような各種コマンドを検出する。そして、動作モード制御部104は、コマンド検出部103が検出したコマンドに応じて動作モードの遷移を制御する。
表示制御部105は、表示部12に画像を表示する。例えば、表示制御部105は、動作モード制御部104が動作モードを遷移させたときに、遷移後の動作モードに応じた表情の画像を表示部に表示させる。
発話制御部106は、発話装置1の発話を制御する。より詳細には、発話制御部106は、上述の各センサの検出結果や、音声認識部100の音声認識結果に応じて、発話させるメッセージを特定し、該特定したメッセージを音声出力部19に出力させる。なお、発話装置1が抑止モードに遷移している場合、発話制御部106は、通常モードと比較して音声発話の頻度を低くする。音声発話の頻度を低くする方法は特に限定されないが、例えばユーザの発話を検出した場合に、所定の確率でその発話に対する応答音声の出力を中止してもよい。この場合、上記所定の確率は、第1〜第3抑止モードに応じたものとすればよく、例えば第1抑止モードでは50%、第2抑止モードでは10%、第3抑止モードでは0%としてもよい。なお、頻度の調整の対象とする発話は、ユーザの発話に対する応答音声の出力に限られず、発話装置1の自発的な発話(例えば人感センサ16にてユーザを検出したことを契機として発話制御部106が行わせる発話等)の頻度を抑制してもよい。
〔処理の流れ(節電モードと通常モードとの間の遷移)〕
次に、図5に基づいて、発話装置1が節電モードと通常モードとの間で遷移する際の処理について説明する。図5は、節電モードと通常モードとの間で遷移する際に発話装置1が実行する処理(発話装置の制御方法)の一例を示すフローチャートである。なお、同図では、抑止モードが第1および第2抑止モードの2つである場合の例を示している。
ユーザが発話装置1の電源をONにすると、発話装置1は通常モードで起動する(S1)。通常モードにおいては、動作モード制御部104は、表示制御部105を介して、表示部12に通常モードに対応する表情を表示する。また、音声入力部18にてユーザの音声入力を待ち受ける。
また、動作モード制御部104は、通常モードにおいて、ユーザの発話を検出していない発話非検出状態が所定時間継続したか否かを監視する(S2)。ここで、所定時間継続したと判定した場合(S2でYES)、動作モード制御部104は、発話装置1を節電モードに遷移させる(S3)。具体的には、動作モード制御部104は、表示部12の表示を停止させ、音声入力部18による音声入力の受け付けも停止させる。
一方、所定時間継続していないと判定した場合(S2でNO)、動作モード制御部104は、コマンド検出部103が節電コマンドを検出したか否かを判定する(S5)。ここで検出したと判定した場合(S5でYES)、動作モード制御部104は、発話装置1を節電モードに遷移させる(S3)。一方、検出していないと判定した場合(S5でNO)、処理はS1に戻って通常モードが継続する。
また、節電モードに遷移した後は、動作モード制御部104は、コマンド検出部103による節電解除コマンドの検出を待ち受ける(S4)。そして、検出したと判定した場合(S4でYES)、動作モード制御部104は、発話装置1を通常モードに遷移させる(S1)。一方、検出していないと判定した場合(S4でNO)、処理はS3に戻って節電モードが継続する。
〔処理の流れ(通常モードと抑止モードとの間の遷移)〕
続いて、図6に基づいて、発話装置1が通常モードと抑止モードとの間で遷移する際の処理について説明する。図6は、通常モードと抑止モードとの間で遷移する際に発話装置1が実行する処理の一例を示すフローチャートである。
上述のように、ユーザが発話装置1の電源をONにすると、発話装置1は通常モードで起動する(S10)。そして、動作モード制御部104は、コマンド検出部103が準備コマンドを検出したか否かを判定する(S11)。ここで検出したと判定した場合(S11でYES)、動作モード制御部104は、発話装置1を準備モードに遷移させる(S12)。準備モードに遷移した後、動作モード制御部104は所定時間が経過したか否かを判定する(S13)ここで、所定時間が経過したと判定した場合(S13でYES)、動作モード制御部104は、発話装置1を通常モードに遷移させる(S10)。一方、所定時間が経過していないと判定した場合(S13でNO)、動作モード制御部104は、コマンド検出部103が抑止コマンドを検出したか否かを判定する(S14)。ここで検出したと判定(S14でYES)、動作モード制御部104は、発話装置1を第1抑止モードに遷移させる(S15)。一方、検出していないと判定した場合(S14でNO)、処理はS12に戻って準備モードが継続する。
第1抑止モードにおいて、動作モード制御部104は、コマンド検出部103が抑止コマンドを検出したか否かを判定する(S16)。ここで検出したと判定した場合(S16でYES)、動作モード制御部104は、発話装置1を第2抑止モードに遷移させる(S17)。一方、検出していないと判定した場合(S16でNO)、動作モード制御部104は、コマンド検出部103が復帰コマンドを検出したか否かを判定する(S19)。ここで検出したと判定された場合(S19でYES)、動作モード制御部104は、発話装置1を通常モードに遷移させる。一方、検出していないと判定した場合(S19でNO)、処理はS15に戻って第1抑止モードが継続する。
また、第2抑止モードにおいて、動作モード制御部104は、コマンド検出部103が直接復帰コマンドを検出したか否かを判定する(S18)。ここで検出したと判定した場合(S18でYES)、動作モード制御部104は、発話装置1を通常モードに遷移させる。一方、検出していないと判定した場合(S18でNO)、処理はS17に戻って第2抑止モードが継続する。
なお、通常モードにおいて、動作モード制御部104は、コマンド検出部103が準備コマンドを検出しなかったと判定した場合(S11でNO)、コマンド検出部103が第1直接抑止コマンドを検出したか否かを判定する(S20、コマンド検出ステップ)。
ここで検出したと判定した場合(S20でYES)、処理はS15(動作モード制御ステップ)に進み、動作モード制御部104は、発話装置1を第1抑止モードに遷移させる。一方、検出しなかったと判定した場合(S20でNO)、動作モード制御部104は、コマンド検出部103が第2直接抑止コマンドを検出したか否かを判定する(S21、コマンド検出ステップ)。ここで検出したと判定した場合(S21でYES)、処理はS17(動作モード制御ステップ)に進み、動作モード制御部104は、発話装置1を第2抑止モードに遷移させる。一方、検出しなかったと判定した場合、処理はS10に戻って通常モードが継続する。
〔実施形態2〕
本実施形態では、発話装置1が音声認識機能により検出する直接抑止コマンドの他の例を図7に基づいて説明する。図7は、本実施形態の発話装置1が音声認識機能により検出する直接抑止コマンドの例を示す図である。
同図の(a)に示すように、「もしもし」との発話を直接抑止コマンドとして検出してもよい。この場合、コマンド検出部103は、音声認識部100による音声認識結果に「もしもし」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第1〜第3抑止モードの何れとしてもよい。
「もしもし」は、電話による通信相手との対話時において、典型的な呼びかけ語として使用される語句であり、通常の対話(ユーザ同士の対面での対話やユーザと発話装置1との対話)時に使用される頻度は低い。よって、「もしもし」との発話を直接抑止コマンドとして検出して、抑止モードに遷移することにより、電話中における発話装置1の発話を抑止することができる。なお、本例において直接抑止コマンドとして検出する音声は、通信相手との対話時に特異的に発せられる音声であればよく、「もしもし」に限られない。例えば、インターホンの音や、電話の着信音などを直接抑止コマンドとして検出してもよい。
また、同図の(b)に示すように、テレビ等から流れるBGMを直接抑止コマンドとして検出してもよい。上述のように、周波数解析部101は、100Hz以下の周波数帯の音が断続的あるいは周期的に所定時間(例えば10秒)以上継続していることを検出し、その旨をコマンド検出部103に通知する。このため、コマンド検出部103は、周波数解析部101からの上記通知により直接抑止コマンドが入力されたと判定してもよい。
BGM等の音楽には、楽器などの発する音が継続的(断続的あるいは周期的であってもよい)に含まれている。そして、その中には、ドラム等の打楽器による音などの人の発することのできない100Hz以下の周波数帯の音が含まれているから、上記の判定によりBGM等が流れているときに抑止モードに遷移させることができる。
なお、同図の(b)の例で抑止モードに遷移させた場合、動作モード制御部104は、人の発することのできない周波数の音が検出されなくなったときに、通常モードに遷移させてもよい。これにより、テレビ等の視聴中には発話装置1の発話を抑止し、視聴終了後には抑止することなく発話装置1に発話させることができる。また、この場合、通常モードへの遷移時に、その旨をユーザに認識させるメッセージを発話させてもよい。例えば、「音楽に聞き入ってしまいました」等と発話させることにより、BGMの検出により抑止モードとなっていたが、通常モードに戻ったことをユーザに認識させることができる。
さらに、同図の(c)に示すように、静かにして欲しいときに発する「シー」との音声を直接抑止コマンドとして検出してもよい。この場合、コマンド検出部103は、周波数解析部101による周波数解析結果から、「シー」との音声に対応する周波数帯の音が、所定時間継続して音声入力部18に入力されたと判定したときに、直接抑止コマンドを検出したと判定する。
上述のように、周波数解析部101は、4000Hz以上5000Hz未満の周波数帯の音が所定時間(例えば1秒)以上継続していることを検出し、その旨をコマンド検出部103に通知する。そして、「シー」との音声には、母音が含まれていないため、母音を含む通常の発話よりも周波数帯が高くなり、典型的には上記範囲内の周波数帯となる。このため、コマンド検出部103は、周波数解析部101からの上記通知により直接抑止コマンドが入力されたと判定してもよい。これにより、「シー」との音声が発せられたときに抑止モードに遷移させることができる。なお、上記範囲は判定基準の一例であり、この例に限られない。例えば、一般的に人が会話するときに発する声の周波数帯は、数100〜1000Hz前後であるから、1000Hzを超える周波数帯の音が所定時間継続して入力されたときに、直接抑止コマンドを検出したと判定してもよい。
「シー」との音声は、静かにして欲しいときに発する音声であるから、その音声が発話装置1に向けられた場合はもちろんのこと、他のユーザに向けられたものであっても、発話装置1の発話を抑止することは妥当と考えられる。よって、上記の構成によれば、適切なタイミングで発話装置1の発話を抑止することができる。
〔実施形態3〕
本実施形態では、発話装置1が画像解析機能により検出する直接抑止コマンドの例を図8に基づいて説明する。図8は、発話装置1が画像解析機能により検出する直接抑止コマンドおよび直接復帰コマンドの例を示す図である。
同図の(a)に示すように、ユーザが口の前に人差し指を立てるジェスチャを直接抑止コマンドとして検出してもよい。この場合、画像解析部102が、イメージセンサ15が取得した画像の解析により、ユーザが口の前に人差し指を立てるジェスチャ(所作)を行ったことを検出して、その旨をコマンド検出部103に通知する。そして、コマンド検出部103は、この通知の受信により、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第1〜第3抑止モードの何れとしてもよい。
口の前に人差し指を立てるジェスチャは、静かにして欲しいときに行われるジェスチャであり、通常の対話時に使用される頻度は低い。よって、口の前に人差し指を立てるジェスチャを直接抑止コマンドとして検出して、抑止モードに遷移することにより、ユーザの意図に沿ったタイミングで発話装置1の発話を抑止することができる。
なお、誤検出を防ぐという観点からは、ジェスチャが所定時間(例えば1秒)継続している場合に、直接抑止コマンドを検出したと判定することが好ましい。また、上述の実施形態で説明した「シー」という発話の検出を併用してもよい。つまり、所定の周波数の音声が検出され、かつ口の前に人差し指を立てるジェスチャが検出されたときに、直接抑止コマンドを検出したと判定してもよい。
そして、静かにして欲しいときに行われるジェスチャとしては、上記以外にも、例えば口の前でファスナーを閉める動作を行うジェスチャや、口の前で指にて口を閉じる動作を行うジェスチャ、あるいは口の前で指を交差させるジェスチャ等が知られている。よって、このようなジェスチャを直接抑止コマンドとして検出してもよい。
また、発話装置1と対面していたユーザが顔を背けたことを直接抑止コマンドとして検出してもよい。なお、遷移先は第1〜第3抑止モードの何れとしてもよい。この場合、同図の(b)に示すように、ユーザが発話装置1に対面していることを直接復帰コマンドとして検出してもよい。つまり、この例では、上述の各例とは異なり、発話装置1は起動時に抑止モードとなり、ユーザが発話装置1に対面している期間のみ通常モードとなる。
上記の直接抑止コマンドおよび直接復帰コマンドの検出は、画像解析部102による画像解析結果に基づいて行うことができる。例えば、ユーザが発話装置1に対面しているときには、ユーザの両耳が発話装置1から見える状態となるので、画像解析部102は、イメージセンサ15が取得した画像中においてユーザの両耳を検出したときに、その旨をコマンド検出部103に通知してもよい。そして、コマンド検出部103は、この通知の受信により、直接復帰コマンドを検出したと判定すればよい。
同様に、画像解析部102は、イメージセンサ15が取得した画像中においてユーザの両耳を検出することができなくなったときに、その旨をコマンド検出部103に通知してもよい。そして、コマンド検出部103は、この通知の受信により、直接抑止コマンドを検出したと判定してもよい。なお、画像解析は、人感センサ16がユーザを検出したことを契機として開始すればよい。
ユーザが発話装置1に対面している場合は、ユーザが該発話装置1との対話を所望している可能性が高く、一方、対面していない場合は、ユーザが該発話装置1との対話を所望していない可能性が高い。よって、適切なタイミングで発話装置1の発話を抑止することができる。
なお、上記では、両耳の検出によりユーザが発話装置1と対面していること、あるいは発話装置1から顔を背ける所作を行ったことを検出する例を説明したが、対面状態および顔を背ける所作の検出方法は特に限定されない。例えば、画像解析によりユーザの目線が発話装置1に向いているか否かを特定することにより、対面状態および顔を背ける所作を検出することもできる。
〔実施形態4〕
本実施形態では、音声認識結果とセンサの検出結果の双方を用いて検出する直接抑止コマンドの例を図9に基づいて説明する。図9は、発話装置1が音声認識結果とセンサの検出結果の双方を用いて検出する直接抑止コマンドの例を示す図である。
同図の(a)は、接触センサ13の検出結果と音声認識結果とを用いて検出する直接抑止コマンドの例を示しており、本例において、ユーザは、接触センサ13に触れた状態で「静かに」と発話することにより、発話装置1を抑止モードに遷移させている。つまり、本例の発話装置1は、自装置の頭部(接触センサ13の位置)にユーザが触れるという所作と、発話の抑止を命じる発話との双方を検出した場合に、抑止モードに遷移する。
この場合、コマンド検出部103は、接触センサ13がユーザの接触を検知しており、かつ、音声認識部100による音声認識結果に「静かに」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第1〜第3抑止モードの何れとしてもよい。
また、同図の(b)は、照度センサ14の検出結果と音声認識結果とを用いて検出する直接抑止コマンドの例を示しており、本例において、ユーザは、照度センサ14を覆った状態で「静かに」と発話することにより、発話装置1を抑止モードに遷移させている。つまり、本例の発話装置1は、照度センサ14の位置にユーザが手をかざすという所作と、発話の抑止を命じる発話との双方を検出した場合に、抑止モードに遷移する。
この場合、コマンド検出部103は、照度センサ14が検出した照度の値が所定の閾値を下回っており、かつ、音声認識部100による音声認識結果に「静かに」との語が含まれていた場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。なお、遷移先は第1〜第3抑止モードの何れとしてもよい。
上記の構成によれば、接触センサ13に触れる、照度センサ14を覆う等のユーザの所作を、直接抑止コマンドの検出条件に含めている。これにより、通常の対話時にも使用され得る「静かに」の語を用いつつ、ユーザの意図しないタイミングで抑止モードに遷移することを防いでいる。
〔実施形態5〕
本実施形態では、発話装置1に衝撃が与えられたことを直接抑止コマンドとして検出する例を図10に基づいて説明する。図10は、発話装置1に衝撃が与えられたことを直接抑止コマンドとして検出する例を示す図である。
同図の(a)に示すように、ユーザの発話中に発話装置1に対して衝撃が与えられた(外力が加えられた)ことを直接抑止コマンドとして検出してもよい。これにより、ユーザは、直感的な操作にて、自身の発話が発話装置1の発話によって妨げられることを防ぐことができる。
この場合、コマンド検出部103は、音声認識部100の音声認識結果にユーザの発話が含まれ、かつ加速度センサ17が検出した加速度の値が所定の閾値以上である場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。
また、同図の(b)に示すように、発話装置1の発話中に発話装置1に対して衝撃が与えられた(外力が加えられた)ことを直接抑止コマンドとして検出してもよい。これにより、ユーザの意に沿わないタイミングで発話装置1が発話を始めたときに、ユーザは直感的な操作で速やかに発話装置1を抑止モードに遷移させることができる。
この場合、コマンド検出部103は、発話制御部106が音声出力部19を介して音声を出力している間に加速度センサ17が検出した加速度の値が所定の閾値以上である場合に、直接抑止コマンドを検出したと判定する。そして、動作モード制御部104は、上記判定に応じて動作モードを通常モードから抑止モードに遷移させる。また、この場合、発話装置1は発話中のメッセージを中断してもよいし、発話中のメッセージは最後まで発話して、その後で抑止モードに遷移してもよい。
なお、本実施形態の例において、ユーザが発話装置1に加える力はそれほど強いものである必要はなく、発話装置1が揺れる程度の力であればよい。このため、上記閾値は発話装置1の少なくとも一部が動いたことを検出できる程度の値としてもよい。また、発話装置1に外力が加えられたことを検出するための構成は加速度センサ17に限られず、例えば接触センサ13への接触にて検出してもよい。また、遷移先は第1〜第3抑止モードの何れとしてもよい。
〔変形例〕
上記各実施形態の直接抑止コマンドは併用してもよい。つまり、1つの発話装置1が、上記各実施形態の何れの直接抑止コマンドをも受け付ける構成としてもよい。この場合、何れの直接抑止コマンドにて抑止モードに遷移したかに応じて、復帰コマンドまたは直接復帰コマンドを変更してもよい。例えば、実施形態5のように衝撃を与えて抑止モードに遷移した場合、「もういいよ」等の発話のみでは通常モードに復帰せず、接触センサ13に触れながら「ごめんね」等のお詫びのメッセージを発話することで復帰するようにしてもよい。これにより、発話装置1が感情を持っているかのような感覚をユーザに与えることができる。
また、上記各実施形態では、発話装置1が抑止コマンドおよび復帰コマンドによって、第1抑止モードから第3抑止モードまで段階的に動作モードを遷移することを示したが、第1抑止モードと第3抑止モードとの間を直接遷移させるコマンドを定義してもよい。これによれば、通常モードまたは第2抑止モードを経由することなく直接遷移できるため、ユーザの利用状況に応じた、より柔軟な抑止および復帰が可能となる。
そして、上述の各実施形態では、1つのコマンドに対してユーザの入力内容が1つだけ存在する例を示したが、1つのコマンドに対してユーザの入力内容が複数定義される構成であってもよい。特に、発話によるコマンドは、ユーザによってばらつきが生じやすいので、発話内容を複数定義しておくことが好ましい。例えば、「静かに」、「静かにして」、「黙って」、「うるさいよ」等の発話の何れであっても抑止コマンドや直接抑止コマンドとして検出するようにしてもよい。
また、上記実施形態では、ユーザとの対話機能を主機能とした発話装置1を例に説明を行ったが、本発明は音声発話機能を備えた装置であれば、任意の装置に適用することができる。例えば、スマートフォン等の情報処理端末や、パーソナルコンピュータ等にも適用可能である。さらに、近年では、音声発話機能を搭載した家庭用電気機器(例えば冷蔵庫、空調装置、ロボット掃除機、テレビ等)も普及しつつあるので、このような家庭用電気器に本発明を適用することもできる。具体的には、上記の各装置に図1の各ブロックに相当する構成を設けることにより、上記発話装置1と同様の機能を実現できる。
さらに、上記各実施形態の発話装置1の機能は、1または複数のサーバを利用したクライアントサーバシステムによって実現することもできる。例えば、音声認識部100の機能を有するサーバを設けた場合、発話装置1は該サーバに音声入力部18に入力された音声のデータを送信して、該サーバから音声認識結果を取得することができる。同様にして、図1の制御部10に含まれる他のブロックの機能もサーバに持たせることが可能である。
また、上記各実施形態の直接抑止コマンドと同様のコマンドを直接復帰コマンドとしてもよい。例えば「コマンド 話をしよう」のように、対話を構成しない所定の語句と、発話の開始を命じる語句とを含む発話を直接復帰コマンドとしてもよい。また、例えばユーザの口の前で、口を開く様子を手の動きで表現した所作を行う等の所定のジェスチャを直接復帰コマンドとしてもよい。さらに、例えばユーザの所作(発話装置1の頭に触れる、照度センサ14の位置にユーザが手をかざす等)と発話の開始を命じる語句との双方を検出したことを直接復帰コマンドとしてもよい。
〔ソフトウェアによる実現例〕
発話装置1の制御ブロック(特に制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、発話装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る発話装置(1)は、音声発話する発話装置であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出部(103)と、上記コマンド検出部が上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御部(104)と、を備えている構成である。
上記の構成によれば、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出し、該コマンドを検出したときに発話装置を音声発話の抑止モードに遷移させる。よって、ユーザが通常の対話時に意図せず発話装置を抑止モードに遷移させてしまう可能性を低減しつつ、必要なときには所定のコマンドにより速やかに発話装置を抑止モードに遷移させることができるという効果を奏する。
本発明の態様2に係る発話装置は、上記態様1において、上記発話装置の動作モードには、対話を構成する所定の音声をコマンドとして検出する準備モードが含まれており、上記動作モード制御部は、上記発話装置を上記通常モードから準備モードに遷移させた状態にて、上記コマンド検出部が発話の抑止を命じるユーザの発話を検出した場合に、上記発話装置を上記抑止モードに遷移させる構成としてもよい。
上記の構成によれば、通常モードにおいては、所定のコマンドにより抑止モードに遷移すると共に、準備モードにおいては、発話の抑止を命じるユーザの発話により抑止モードに遷移する。
準備モードを経て抑止モードに遷移させる場合、発話の抑止を命じる発話を行うという、人と人とのコミュニケーションと同様の行為で抑止モードに遷移させることができる。また、このような発話で抑止モードに遷移させる前提として、発話装置を準備モードとする必要がある。このため、発話装置に向けられていない音声(例えば、人と人との会話やテレビの音声など)を誤検出して抑止モードに遷移する可能性は低くなっている。
一方、所定のコマンドにより抑止モードに遷移させる場合、準備モードを経ることがないので、速やかに発話装置の発話を抑止することができる。つまり、上記の構成によれば、ユーザは、自身の好みや、そのときの状況などに応じた経路で発話装置を抑止モードに遷移させることができる。
本発明の態様3に係る発話装置は、上記態様1または2において、上記コマンド検出部は、対話を構成しない所定の語句と、発話の抑止を命じる語句とを含む発話を上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、対話を構成しない語句が所定のコマンドに含まれているので、ユーザが通常の対話時に意図せず発話装置を抑止モードに遷移させてしまう可能性を低減することができる。また、所定のコマンドには、発話の抑止を命じる語句が含まれているので、所定のコマンドをユーザが覚えやすく、また該所定のコマンドが発話を抑止させるためのコマンドであることをユーザが容易に認識することができる。
本発明の態様4に係る発話装置は、上記態様1から3の何れかにおいて、上記抑止モードには、抑止の程度が異なる複数の抑止モードが含まれており、上記所定のコマンドは、複数の上記抑止モードに応じて複数パターン規定されており、上記動作モード制御部は、複数の上記抑止モードのうち、上記コマンド検出部が検出した所定のコマンドのパターンに応じた抑止モードに上記発話装置を遷移させてもよい。
上記の構成によれば、複数の抑止モードのうち、検出した所定のコマンドのパターンに応じた抑止モードに発話装置を遷移させるので、所定のコマンドを使い分けることにより、所望の程度で発話装置の発話を抑止することができる。
本発明の態様5に係る発話装置は、上記態様1から4の何れかにおいて、上記コマンド検出部は、通信相手との対話時に使用される所定の語句の発話を上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、通信相手との対話時に使用される所定の語句の発話を所定のコマンドとして検出するので、ユーザが通信相手と対話しているときに、意図せず発話装置を抑止モードに遷移させてしまう可能性を低減することができる。また、ユーザの通信相手との対話が、発話装置の発話によって妨げられることを防ぐことができる。
本発明の態様6に係る発話装置は、上記態様1から5の何れかにおいて、上記コマンド検出部は、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続したことを上記所定のコマンドとして検出する構成としてもよい。
ここで、発話装置の周囲にあるテレビや音楽プレイヤー等から音楽が流れているときには、打楽器等によって発せられた、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続して発話装置に検出される。このため、人の発することのできる周波数帯よりも低い所定の周波数帯の音が所定時間継続したことを所定のコマンドとして検出する上記の構成によれば、発話装置の周囲で音楽が流されているときに発話装置を抑止モードに遷移させることができる。これにより、ユーザのテレビや音楽の視聴を発話装置の発話で妨げてしまうことを防ぐことができる。また、テレビの音声や音楽の歌詞等をユーザの発話と誤認して発話装置が動作することも防ぐことができる。
本発明の態様7に係る発話装置は、上記態様1から6の何れかにおいて、上記コマンド検出部は、4000Hz以上5000Hz未満の周波数帯の音が所定時間継続したことを上記所定のコマンドとして検出する構成としてもよい。
人が静かにして欲しいときに発する「シー」との音声は、4000から5000Hzの周波数となる。よって、上記の構成によれば、ユーザは、「シー」と発話することで発話装置を抑止モードに遷移させて、静かにさせることができる。
本発明の態様8に係る発話装置は、上記態様1から7の何れかにおいて、上記コマンド検出部は、上記発話装置のユーザが所定の所作を行ったことを上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、発話装置のユーザが所定の所作を行ったことを上記所定のコマンドとして検出する。よって、会話中のユーザが意図せず発話装置を抑止モードに遷移させてしまったり、テレビなどの音声により発話装置が抑止モードに遷移してしまったりする可能性を低減することができる。
本発明の態様9に係る発話装置は、上記態様8において、上記動作モード制御部は、上記コマンド検出部が、上記ユーザが上記発話装置に対面していることを検出したときに、上記発話装置を上記通常モードに遷移させ、上記コマンド検出部が、上記ユーザが上記発話装置から顔を背ける所作を行ったことを上記所定のコマンドとして検出したときに、上記発話装置を上記抑止モードに遷移させる構成としてもよい。
ここで、ユーザが発話装置に対面しているときには、ユーザには発話装置と対話する意図があると考えられ、顔を背けたときには発話装置と対話する意図がなくなったと考えられる。よって、上記の構成によれば、ユーザが発話装置と対話する意図があると考えられる期間は通常モードにて対話し、対話する意図がなくなったときには抑止モードにて発話を抑止することができる。
本発明の態様10に係る発話装置は、上記態様1から9の何れかにおいて、上記コマンド検出部は、ユーザが所定の所作を行い、かつ、発話の抑止を命じる発話を行ったことを、上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、ユーザが所定の所作を行い、かつ、発話の抑止を命じる発話を行ったことを、上記所定のコマンドとして判定する。よって、通常の対話時にも行われ得る発話の抑止を命じる発話を利用しつつ、ユーザの意図しないタイミングで抑止モードに遷移することを防ぐことができる。
本発明の態様11に係る発話装置は、上記態様1から10の何れかにおいて、上記コマンド検出部は、ユーザの発話中に上記発話装置に外力が加えられたことを、上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、ユーザの発話中に発話装置に外力が加えられたことを、所定のコマンドとして検出する。よって、ユーザは、直感的な操作にて、自身の発話が発話装置の発話によって妨げられることを防ぐことができる。
本発明の態様12に係る発話装置は、上記態様1から11の何れかにおいて、上記コマンド検出部は、上記発話装置の発話中に当該発話装置に外力が加えられたことを、上記所定のコマンドとして検出する構成としてもよい。
上記の構成によれば、発話装置の発話中に当該発話装置に外力が加えられたことを、所定のコマンドとして検出する。よって、ユーザの意に沿わないタイミングで発話装置が発話を始めたときに、ユーザは直感的な操作で速やかに発話装置を抑止モードに遷移させることができる。
本発明の態様13に係る発話装置の制御方法は、音声発話する発話装置の制御方法であって、対話を構成しない所定の音声およびユーザの所定の所作の少なくとも何れかを所定のコマンドとして検出するコマンド検出ステップ(S20/S21)と、上記コマンド検出ステップにて上記所定のコマンドを検出したときに、上記発話装置を音声発話が抑止されていない通常モードから音声発話が抑止された抑止モードに遷移させる動作モード制御ステップ(S15/S17)と、を含む発話装置の制御方法である。該制御方法によれば、上記態様1と同様の作用効果を奏する。
本発明の各態様に係る発話装置(1)は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話装置が備える各部(ソフトウェア要素)として動作させることにより上記発話装置をコンピュータにて実現させる発話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。