JP2017201348A - 音声対話装置、音声対話装置の制御方法、および制御プログラム - Google Patents
音声対話装置、音声対話装置の制御方法、および制御プログラム Download PDFInfo
- Publication number
- JP2017201348A JP2017201348A JP2016092465A JP2016092465A JP2017201348A JP 2017201348 A JP2017201348 A JP 2017201348A JP 2016092465 A JP2016092465 A JP 2016092465A JP 2016092465 A JP2016092465 A JP 2016092465A JP 2017201348 A JP2017201348 A JP 2017201348A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- dialogue
- user
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Toys (AREA)
Abstract
【課題】ユーザとの対話が終了した後で迅速に省電力状態に遷移することが可能な音声対話装置を提供する。
【解決手段】音声対話装置(1)は、音声入力部(10)が検出したユーザの発話に基づく音声を認識する音声認識部(21)と、音声認識部(21)が所定の対話終了語を認識した場合、音声対話装置(1)を省電力状態に遷移させる状態制御部と、を備える。
【選択図】図1
【解決手段】音声対話装置(1)は、音声入力部(10)が検出したユーザの発話に基づく音声を認識する音声認識部(21)と、音声認識部(21)が所定の対話終了語を認識した場合、音声対話装置(1)を省電力状態に遷移させる状態制御部と、を備える。
【選択図】図1
Description
本発明は、ユーザと対話する機能を備えた音声対話装置、音声対話装置の制御方法、および制御プログラムに関する。
従来、ユーザと対話(すなわち音声によるコミュニケーション)をする対話機能を備えた音声対話装置が存在する。音声対話装置は、ユーザの発話に基づく音声を検出し、検出した音声の解析処理をすることによって、ユーザの発話の内容を認識する。また、音声対話装置は、認識した発話の内容に応じて、適切な返答をする。
従来の音声対話装置は、音および音声を一定時間以上検出しなかった場合、ユーザとの対話が終了したと判定して、省電力状態(待機状態)に遷移する。音声対話装置の省電力状態とは、具体的には、音声対話装置が音および音声の解析処理の一部または全部を停止している状態である。
例えば、特許文献1には、音声対話装置がユーザに質問を発してから、ユーザからの返答が一定時間以上なかった場合、音声対話装置は、ユーザとの対話が終了したと判定して、省電力状態に遷移することが記載されている。
従来の音声対話装置は、ユーザの発話に基づく音声を検出しなくなってから、ユーザとの対話が終了したと判定するまで、一定時間、マイクロホンで検出した音および(ユーザの発話によらない)音声の解析処理を続行している。したがって、従来の音声対話装置は、上記一定時間の解析処理を行うために、無駄な電力を消費している。
本発明は、前記の問題点に鑑みてなされたものであり、その目的は、ユーザとの対話が終了した後で迅速に省電力状態に遷移することが可能な音声対話装置を提供することにある。
上記の課題を解決するために、本発明の一態様に係る音声対話装置は、ユーザと音声で対話する音声対話装置であって、ユーザの発話に基づく音声を検出する音声検出部と、上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部と、上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部と、を備えている。
また、上記の課題を解決するために、本発明の一態様に係る音声対話装置の制御方法は、ユーザと音声で対話する音声対話装置の制御方法であって、音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含む。
本発明の一態様によれば、ユーザとの対話が終了した後で迅速に省電力状態に遷移することができる。
〔実施形態1〕
以下、本発明の実施の形態について詳細に説明する。
以下、本発明の実施の形態について詳細に説明する。
(音声対話装置1)
図1を参照して、本実施形態に係る音声対話装置1の構成を説明する。図1は、音声対話装置1の構成を示すブロック図である。図1に示すように、音声対話装置1は、音声入力部10(音声検出部)、制御部20、音声出力部30、および記憶部40を備えている。音声入力部10は、具体的にはマイクロホンであってよい。音声出力部30は、具体的にはスピーカであってよい。音声対話装置1は、例えば、人型や動物型のロボットであってよい。
図1を参照して、本実施形態に係る音声対話装置1の構成を説明する。図1は、音声対話装置1の構成を示すブロック図である。図1に示すように、音声対話装置1は、音声入力部10(音声検出部)、制御部20、音声出力部30、および記憶部40を備えている。音声入力部10は、具体的にはマイクロホンであってよい。音声出力部30は、具体的にはスピーカであってよい。音声対話装置1は、例えば、人型や動物型のロボットであってよい。
音声対話装置1は、ユーザの発話を認識する音声認識機能、および、ユーザと対話する対話機能を備えている。音声対話装置1は、音声入力部10が検出したユーザの発話の内容を認識して(音声認識機能)、その内容に基づいて、音声によりユーザに応答する(対話機能)。なお、音声対話装置1は、音声だけでなく、表示、発光、動作等により、ユーザの発話に応答することができてもよい。さらに、音声対話装置1は、ユーザに重要な情報を報知したり、ユーザに自発的に発話をしたりすることができてもよい。
音声対話装置1は、ユーザと対話をしていない間、音声対話装置1の対話機能が制限される待機状態(省電力状態)になる。音声対話装置1は、待機状態である間、音声入力部10で検出された音声の解析処理を行わないか、あるいは、特定の音声パターンのみを認識するが、音声入力部10が検出したユーザの発話の全部の内容は認識しない。音声対話装置1は、特定の音声パターンを認識した場合に、待機状態から、ユーザの発話の内容を全て認識する状態に復帰してよい。
(記憶部40)
記憶部40は、音声認識用辞書41、対話終了語データベース42、対話終了語候補データベース43、および応答音声データベース44を記憶している。音声認識用辞書41は、ユーザの発話に基づく音声と、その発話の内容との対応関係を示す。応答音声データベース44は、ユーザの発話に対する応答の音声データを含む。
記憶部40は、音声認識用辞書41、対話終了語データベース42、対話終了語候補データベース43、および応答音声データベース44を記憶している。音声認識用辞書41は、ユーザの発話に基づく音声と、その発話の内容との対応関係を示す。応答音声データベース44は、ユーザの発話に対する応答の音声データを含む。
対話終了語データベース42は、音声対話装置1が取得した対話終了語を含む(図2の(a)参照)。対話終了語として、人間同士が対話を終了する際に一般的に発する語(例えば、「またね」や「バイバイ」)が、予め対話終了語として記憶部40に登録されてよい。しかしながら、音声対話装置1は、学習によって、対話終了語を習得してもよい。例えば、音声対話装置1は、ユーザが対話を終了する直前に発した頻度(対話終了回数)が所定の閾値よりも高い語を、対話終了語として習得してもよい。音声対話装置1が学習によって習得した対話終了語は、対話終了語データベース42に登録される。
対話終了語候補データベース43は、音声対話装置1が登録または学習によって取得中の対話終了語の候補を含む(図2の(b)参照)。対話終了語候補は、ユーザが対話を終了する直前に発話した頻度、すなわち対話終了回数が、1以上かつ上記閾値以下の語であってよい。
(制御部20)
制御部20は、音声対話装置1の各部を統合的に制御する。制御部20は、音声認識部21、対話終了語判定部22、および応答部23を含む。音声認識部21は、記憶部40の音声認識用辞書41を参照して、ユーザの発話に基づく音声を解析する。これにより、音声認識部21は、ユーザの発話の内容を認識する。応答部23は、記憶部40の応答音声データベース44を参照して、音声出力部30から、ユーザの発話に対する応答の音声データを出力する。例えば、音声認識部21が「ただいま」という発話を認識した場合、応答部23は、「おかえり」という音声データを応答音声データベース44から取得して、取得した音声データを音声出力部30から出力してよい。
制御部20は、音声対話装置1の各部を統合的に制御する。制御部20は、音声認識部21、対話終了語判定部22、および応答部23を含む。音声認識部21は、記憶部40の音声認識用辞書41を参照して、ユーザの発話に基づく音声を解析する。これにより、音声認識部21は、ユーザの発話の内容を認識する。応答部23は、記憶部40の応答音声データベース44を参照して、音声出力部30から、ユーザの発話に対する応答の音声データを出力する。例えば、音声認識部21が「ただいま」という発話を認識した場合、応答部23は、「おかえり」という音声データを応答音声データベース44から取得して、取得した音声データを音声出力部30から出力してよい。
また、音声認識部21および対話終了語判定部22は、ユーザが発話した語に基づいて、ユーザとの対話が終了したか否かを判定する対話終了判定処理を実行する。より詳細には、音声認識部21および対話終了語判定部22は、所定の対話終了語が発話されたことを認識した場合、ユーザとの対話が終了したと判定する。加えて、音声認識部21および対話終了語判定部22は、別の判定条件に基づいて、ユーザとの対話が終了したか否かを判定してもよい。本実施形態では、音声認識部21および対話終了語判定部22は、音声入力部10がユーザの発話を所定時間以上検出しなかった場合にも、ユーザとの対話が終了したと判定する。なお、音声認識部21および対話終了語判定部22が対話終了判定処理において実行する処理の詳細を後で説明する。
(対話終了語データベース42および対話終了語候補データベース43)
図2の(a)は、記憶部40が記憶する対話終了語データベース42のデータ構造の一例を示す。また、図2の(b)は、記憶部40が記憶する対話終了語候補データベース43のデータ構造の一例を示す。
図2の(a)は、記憶部40が記憶する対話終了語データベース42のデータ構造の一例を示す。また、図2の(b)は、記憶部40が記憶する対話終了語候補データベース43のデータ構造の一例を示す。
図2の(a)に示すように、対話終了語データベース42には、対話終了語が記憶されている。対話終了語には、それぞれ、対話終了回数が紐付けられている。対話終了語と紐付けられた対話終了回数は、ユーザが音声対話装置1との対話を終了する直前に、その対話終了語を発話した頻度(回数)である。換言すれば、対話終了語の対話終了回数は、ユーザがその対話終了語を発話した直後に対話を終了した(つまり、ユーザがタイムアウト時間T以上、次の語を発話しなかった)頻度である。
なお、音声対話装置1は学習によって対話終了語を取得せず、記憶部40には、対話終了語候補が記憶されていなくてもよい。この構成では、記憶部40は、対話終了語を予め記憶している。
(対話終了判定処理の流れ)
図3を参照して、制御部20の音声認識部21および対話終了語判定部22が実行する対話終了判定処理の流れを説明する。図3は、対話終了判定処理の流れを示すフローチャートである。なお、音声対話装置1は、図3に示すフローの最初のステップの前に、ユーザの発話の内容を全て認識する状態になっている。
図3を参照して、制御部20の音声認識部21および対話終了語判定部22が実行する対話終了判定処理の流れを説明する。図3は、対話終了判定処理の流れを示すフローチャートである。なお、音声対話装置1は、図3に示すフローの最初のステップの前に、ユーザの発話の内容を全て認識する状態になっている。
図3に示すように、対話終了判定処理では、まず、音声認識部21は、音声入力部10から、ユーザの発話に基づく音声を受信する(S201)。状態制御部24は、音声入力部10が音声を検出したときから、時間のカウントを開始する。
次に、音声認識部21は、音声(波形)の解析処理を実行することによって、受信した音声を音声データに変換する(S202)。音声認識部21は、記憶部40の音声認識用辞書41を参照し、音声データに含まれているユーザの発話の内容を認識する。そして、音声認識部21は、音声認識部21による認識結果、すなわち認識したユーザの発話の内容に基づいて、認識結果を示すテキストデータを生成する(S203、音声認識ステップ)。音声認識部21は、生成したテキストデータすなわち認識結果を、対話終了語判定部22に出力する。
対話終了語判定部22は、対話終了語データベース42に、対話終了回数が所定の閾値を超える対話終了語が含まれるかどうかを判定する(S204)。対話終了回数が閾値を超える対話終了語がない場合(S204でNO)、対話終了判定処理は、後述するS206に進む。
対話終了回数が閾値を超える対話終了語がある場合(S204でYES)、対話終了語判定部22は、音声認識部21から取得した認識結果と一致する対話終了語を、対話終了回数が閾値を超える対話終了語の中から検索する(S205)。いずれかの対話終了語と、認識結果とが一致した場合(S205でYES)、対話終了判定処理は、後述するS209に進む。なお、対話終了語判定部22が対話終了語として認識する語は、ユーザごとに異なっていてもよい。また、この構成では、対話終了語判定部22は、ユーザの声紋に基づいて、だれが発話したのかを特定してもよい。
認識結果と一致する対話終了語が存在しない場合(S205でNO)、状態制御部24は、時間のカウントを開始してから、所定のタイムアウト時間T(例えば、T=60秒)が経過したか否かを判定する(S206)。タイムアウト時間Tが経過するまでに、音声入力部10が次の音声を検出した場合(S206でNO)、対話終了判定処理はS201に戻る。
音声入力部10が次の音声を検出せずに、タイムアウト時間Tが経過した場合(S206でYES)、対話終了語判定部22は、音声認識部21による認識結果を、対話終了語候補として、対話終了語候補データベース43に登録する(S207)。また、認識結果と一致する対話終了語候補が対話終了語候補データベース43に既に含まれていた場合、対話終了語判定部22は、対話終了語候補データベース43において、その対話終了語候補と紐付けられている対話終了回数(図2の(b)参照)をカウントアップ(+1)する。
S207において、対話終了語判定部22が対話終了語候補データベース43を更新した後、対話終了語候補データベース43に登録されている対話終了語候補の中に、その対話終了語候補と対応付けられている対話終了回数が所定の閾値よりも大きい対話終了語候補がある場合、対話終了語判定部22は、その対話終了語候補を、対話終了語として、対話終了語データベース42に登録する(S208)。
対話終了語判定部22が対話終了語データベース42を更新した後、状態制御部24は、時間のカウント値がタイムアウト時間Tに到達した後で、音声対話装置1を、前述した待機状態に遷移させる(S209、状態制御ステップ)。また、対話終了語データベース42に登録されているいずれかの対話終了語と、ユーザの発話の認識結果とが一致した場合(S205でYES)、状態制御部24は、時間のカウント値が調整時間T´(0≦T´<T)に到達した後で、音声対話装置1を、前述した待機状態に遷移させる(S209、状態制御ステップ)。以上で、対話終了判定処理は終了する。
上述した対話終了判定処理によれば、ユーザは、対話終了のボタンを押下するなどの手動操作を行わず、特定の語またはフレーズ(すなわち対話終了語)を発話するだけで、音声対話装置1との対話を簡単に終了することができる。そのため、ユーザの利便性が向上する。また、対話が終了した後、音声対話装置1が迅速に待機状態に遷移するので、音声対話装置1を省電力化することができる。
さらに、音声対話装置1は、ユーザがどのような語の発話をした後に対話が終了する可能性が高いのかを学習することによって、ユーザの発話の内容に基づいて、対話の終了を精度よく判定することができる。また、音声対話装置1は、ユーザが習慣的によく使うフレーズを、対話終了語として学習するので、ユーザは音声対話装置1に愛着を感じられる。
〔実施形態2〕
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
前記実施形態1では、調整時間T´が対話終了語によらない場合を説明した。他の実施形態では、調整時間T´は、対話終了語ごとに、あるいは、対話終了語の種別ごとに、異なっていてもよい。例えば、調整時間T´がほぼ0秒である対話終了語(完全対話終了語)と、調整時間T´が数秒である対話終了語(準対話終了語)とがあってよい。
つまり、完全対話終了語とは、音声認識部21が当該完全対話終了語を認識した後、状態制御部24が音声対話装置1を即時に待機状態に遷移させる対話終了語である。また、準対話終了語とは、音声認識部21が当該準対話終了語を認識した後、状態制御部24が音声対話装置1を一定時間後に待機状態に遷移させる対話終了語である。
完全対話終了語には、対話終了回数が第1の閾値よりも多い対話終了語が含まれてよい。また、準対話終了語には、対話終了回数が第2の閾値よりも多い対話終了語が含まれてよい。あるいは、完全対話終了語には、対話終了回数が最も多い対話終了語から、対話終了回数が第m番目に多い対話終了語までが含まれてよい。一方、準対話終了語には、前述した対話終了回数が第m+1番目から第n番目(n>m)までに多い対話終了語が含まれてよい。
完全対話終了語の対話終了回数の第1の閾値は、準対話終了語の対話終了回数の第2の閾値よりも大きいことが好ましい。換言すれば、第1の閾値は比較的大きく、第2の閾値は比較的小さいことが好ましい。あるいは、対話終了語データベース42において、完全対話終了語と紐付けられている対話終了回数については、その対話終了回数に所定の値を予め加算しておいてもよい。また、ある対話終了語候補が、対話終了語データベース42に準対話終了語として追加された後(つまり、その対話終了語候補の対話終了回数が第2の閾値を超えた後)で、その対話終了語候補の対話終了回数が増大して第1の閾値を超えた場合、その準対話終了語は、対話終了語データベース42に完全対話終了語として登録されることが好ましい。
本実施形態の構成によれば、ユーザが完全対話終了語を発話した後、状態制御部24が音声対話装置1を即時に待機状態に遷移させるので、音声対話装置1を省電力化することができる。また、ユーザが準対話終了語を発話した後、調整時間T´が経過するまで、音声認識部21が音声の解析処理を続行するので、ユーザが調整時間T´以内にさらに発話した場合、音声認識部21はその発話の内容を認識することができる。
〔実施形態3〕
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
他の実施形態では、対話終了語は、時間帯またはユーザの状況に応じて異なっていてもよい。本実施形態では、前述した対話終了判定処理において、対話終了語判定部22は、時間帯(例えば、朝、昼、夜等)またはユーザの状況(例えば、電話中、通勤中など)に応じて、異なる語を対話終了語であると判定する。本実施形態では、対話終了語は、時間帯またはユーザの状況ごとに、対話終了語データベース42に登録される。また、対話終了語候補も、時間帯またはユーザの状況ごとに、対話終了語候補データベース43に登録される。
本実施形態の構成によれば、時間帯またはユーザの状況、および、ユーザの発話の内容に基づいて、対話の終了をより精度よく判定することができる。例えば、朝には、音声対話装置1は、「行ってきます」という語を対話終了語として認識してもよい。一方、夜には、音声対話装置1は、「お休み」という語を対話終了語として認識してもよい。
〔ソフトウェアによる実現例〕
音声対話装置1の制御部20は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
音声対話装置1の制御部20は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、音声対話装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声対話装置(1)は、ユーザと音声で対話する音声対話装置であって、ユーザの発話に基づく音声を検出する音声検出部(音声入力部10)と、上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部(21)と、上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部(24)と、を備えている。
本発明の態様1に係る音声対話装置(1)は、ユーザと音声で対話する音声対話装置であって、ユーザの発話に基づく音声を検出する音声検出部(音声入力部10)と、上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部(21)と、上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部(24)と、を備えている。
上記の構成によれば、ユーザは、所定の対話終了語を発話するだけで、音声対話装置を省電力状態に遷移させることができる。したがって、音声対話装置の省電力化を簡単に実現することができる。
本発明の態様2に係る音声対話装置は、上記態様1において、上記音声認識部は、ユーザごとに異なる語を上記対話終了語として認識してもよい。
上記の構成によれば、ユーザは、習慣や好みに応じた語を対話終了語として使用することができる。
本発明の態様3に係る音声対話装置は、上記態様1または2において、上記音声認識部は、時間帯およびユーザの状況のうち少なくとも一方に応じて、上記対話終了語として認識する語を変えてもよい。
上記の構成によれば、時間帯(朝、昼、夜等)やユーザの状況(電話中、通勤中など)に応じて、適切な対話終了語で対話を終了することができる。
本発明の態様4に係る音声対話装置は、上記態様1から3のいずれかにおいて、上記対話終了語は、(i)上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を即時に上記省電力状態に遷移させる完全対話終了語と、(ii)上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を一定時間後に上記省電力状態に遷移させる準対話終了語と、を含んでいてもよい。
上記の構成によれば、対話終了語の種類(完全対話終了語、準対話終了語)に応じて、異なるタイミングで、音声対話装置を省電力状態に遷移させることができる。
本発明の態様5に係る音声対話装置は、上記態様1から4のいずれかにおいて、上記状態制御部は、上記音声認識部が上記音声認識機能を実施するために実行する演算処理の全部または一部を停止することによって、当該音声対話装置を省電力状態に遷移させてもよい。
上記の構成によれば、対話が終了した後には必要のない音声認識機能を制限することによって、音声対話装置を省電力化することができる。
本発明の態様6に係る音声対話装置の制御方法は、ユーザと音声で対話する音声対話装置の制御方法であって、音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含む。
上記の構成によれば、態様1に係る音声対話装置と同様の効果を奏することができる。
本発明の各態様に係る音声対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話装置が備える各部(ソフトウェア要素)として動作させることにより上記音声対話装置をコンピュータにて実現させる音声対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 音声対話装置
10 音声入力部(音声検出部)
21 音声認識部
24 状態制御部
10 音声入力部(音声検出部)
21 音声認識部
24 状態制御部
Claims (7)
- ユーザと音声で対話する音声対話装置であって、
ユーザの発話に基づく音声を検出する音声検出部と、
上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部と、
上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部と、を備えたことを特徴とする音声対話装置。 - 上記音声認識部は、ユーザごとに異なる語を上記対話終了語として認識することを特徴とする請求項1に記載の音声対話装置。
- 上記音声認識部は、時間帯およびユーザの状況のうち少なくとも一方に応じて、上記対話終了語として認識する語を変えることを特徴とする請求項1または2に記載の音声対話装置。
- 上記対話終了語は、
(i)上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を即時に上記省電力状態に遷移させる完全対話終了語と、
(ii)上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を一定時間後に上記省電力状態に遷移させる準対話終了語と、を含む
ことを特徴とする請求項1〜3のいずれか1項に記載の音声対話装置。 - 上記状態制御部は、上記音声認識部が上記音声認識機能を実施するために実行する演算処理の全部または一部を停止することによって、当該音声対話装置を省電力状態に遷移させることを特徴とする請求項1〜4のいずれか1項に記載の音声対話装置。
- ユーザと音声で対話する音声対話装置の制御方法であって、
音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、
上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含むことを特徴とする制御方法。 - 請求項1〜5のいずれか1項に記載の音声対話装置としてコンピュータを機能させるための制御プログラムであって、上記各部としてコンピュータを機能させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016092465A JP2017201348A (ja) | 2016-05-02 | 2016-05-02 | 音声対話装置、音声対話装置の制御方法、および制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016092465A JP2017201348A (ja) | 2016-05-02 | 2016-05-02 | 音声対話装置、音声対話装置の制御方法、および制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017201348A true JP2017201348A (ja) | 2017-11-09 |
Family
ID=60264407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016092465A Pending JP2017201348A (ja) | 2016-05-02 | 2016-05-02 | 音声対話装置、音声対話装置の制御方法、および制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017201348A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109107195A (zh) * | 2018-10-30 | 2019-01-01 | 上海葡萄纬度科技有限公司 | 积木主控构件模块省电方法和积木主控构件模块 |
-
2016
- 2016-05-02 JP JP2016092465A patent/JP2017201348A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109107195A (zh) * | 2018-10-30 | 2019-01-01 | 上海葡萄纬度科技有限公司 | 积木主控构件模块省电方法和积木主控构件模块 |
CN109107195B (zh) * | 2018-10-30 | 2020-08-18 | 上海葡萄纬度科技有限公司 | 积木主控构件模块省电方法和积木主控构件模块 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11756563B1 (en) | Multi-path calculations for device energy levels | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US9373321B2 (en) | Generation of wake-up words | |
US11600269B2 (en) | Techniques for wake-up word recognition and related systems and methods | |
US20200066258A1 (en) | Methods and devices for selectively ignoring captured audio data | |
US9015048B2 (en) | Incremental speech recognition for dialog systems | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
CN111971742A (zh) | 与语言无关的唤醒词检测的技术 | |
WO2010084881A1 (ja) | 音声対話装置、対話制御方法及び対話制御プログラム | |
US11258671B1 (en) | Functionality management for devices | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
KR20120111510A (ko) | 대화형 음성 인식을 통한 로봇 제어 시스템 | |
JP2017201348A (ja) | 音声対話装置、音声対話装置の制御方法、および制御プログラム | |
KR20230118165A (ko) | 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기 | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP7449070B2 (ja) | 音声入力装置、音声入力方法及びそのプログラム | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
KR100281582B1 (ko) | 인식기 자원을 효율적으로 사용하는 음성인식 방법 | |
WO2017191710A1 (ja) | 対話装置、対話装置の制御方法、および制御プログラム | |
JP2021032912A (ja) | 音声認識システム、及び、音声認識方法 |