JP2017201348A

JP2017201348A - 音声対話装置、音声対話装置の制御方法、および制御プログラム

Info

Publication number: JP2017201348A
Application number: JP2016092465A
Authority: JP
Inventors: 耕市山口; Koichi Yamaguchi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-05-02
Filing date: 2016-05-02
Publication date: 2017-11-09

Abstract

【課題】ユーザとの対話が終了した後で迅速に省電力状態に遷移することが可能な音声対話装置を提供する。
【解決手段】音声対話装置（１）は、音声入力部（１０）が検出したユーザの発話に基づく音声を認識する音声認識部（２１）と、音声認識部（２１）が所定の対話終了語を認識した場合、音声対話装置（１）を省電力状態に遷移させる状態制御部と、を備える。
【選択図】図１

Description

本発明は、ユーザと対話する機能を備えた音声対話装置、音声対話装置の制御方法、および制御プログラムに関する。

従来、ユーザと対話（すなわち音声によるコミュニケーション）をする対話機能を備えた音声対話装置が存在する。音声対話装置は、ユーザの発話に基づく音声を検出し、検出した音声の解析処理をすることによって、ユーザの発話の内容を認識する。また、音声対話装置は、認識した発話の内容に応じて、適切な返答をする。

従来の音声対話装置は、音および音声を一定時間以上検出しなかった場合、ユーザとの対話が終了したと判定して、省電力状態（待機状態）に遷移する。音声対話装置の省電力状態とは、具体的には、音声対話装置が音および音声の解析処理の一部または全部を停止している状態である。

例えば、特許文献１には、音声対話装置がユーザに質問を発してから、ユーザからの返答が一定時間以上なかった場合、音声対話装置は、ユーザとの対話が終了したと判定して、省電力状態に遷移することが記載されている。

特開２００５−２２０６５号公報（２００５年１月２７日公開）

従来の音声対話装置は、ユーザの発話に基づく音声を検出しなくなってから、ユーザとの対話が終了したと判定するまで、一定時間、マイクロホンで検出した音および（ユーザの発話によらない）音声の解析処理を続行している。したがって、従来の音声対話装置は、上記一定時間の解析処理を行うために、無駄な電力を消費している。

本発明は、前記の問題点に鑑みてなされたものであり、その目的は、ユーザとの対話が終了した後で迅速に省電力状態に遷移することが可能な音声対話装置を提供することにある。

上記の課題を解決するために、本発明の一態様に係る音声対話装置は、ユーザと音声で対話する音声対話装置であって、ユーザの発話に基づく音声を検出する音声検出部と、上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部と、上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部と、を備えている。

また、上記の課題を解決するために、本発明の一態様に係る音声対話装置の制御方法は、ユーザと音声で対話する音声対話装置の制御方法であって、音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含む。

本発明の一態様によれば、ユーザとの対話が終了した後で迅速に省電力状態に遷移することができる。

実施形態１に係る音声対話装置の構成を示すブロック図である。（ａ）は、実施形態１に係る音声対話装置の記憶部に記憶された対話終了語データベースのデータ構造の一例を示し、（ｂ）は、記憶部が記憶する対話終了語候補データベースのデータ構造の一例を示す。実施形態１に係る音声対話装置の制御部が実行する対話終了判定処理の流れを示すフローチャートである。

〔実施形態１〕
以下、本発明の実施の形態について詳細に説明する。

（音声対話装置１）
図１を参照して、本実施形態に係る音声対話装置１の構成を説明する。図１は、音声対話装置１の構成を示すブロック図である。図１に示すように、音声対話装置１は、音声入力部１０（音声検出部）、制御部２０、音声出力部３０、および記憶部４０を備えている。音声入力部１０は、具体的にはマイクロホンであってよい。音声出力部３０は、具体的にはスピーカであってよい。音声対話装置１は、例えば、人型や動物型のロボットであってよい。

音声対話装置１は、ユーザの発話を認識する音声認識機能、および、ユーザと対話する対話機能を備えている。音声対話装置１は、音声入力部１０が検出したユーザの発話の内容を認識して（音声認識機能）、その内容に基づいて、音声によりユーザに応答する（対話機能）。なお、音声対話装置１は、音声だけでなく、表示、発光、動作等により、ユーザの発話に応答することができてもよい。さらに、音声対話装置１は、ユーザに重要な情報を報知したり、ユーザに自発的に発話をしたりすることができてもよい。

音声対話装置１は、ユーザと対話をしていない間、音声対話装置１の対話機能が制限される待機状態（省電力状態）になる。音声対話装置１は、待機状態である間、音声入力部１０で検出された音声の解析処理を行わないか、あるいは、特定の音声パターンのみを認識するが、音声入力部１０が検出したユーザの発話の全部の内容は認識しない。音声対話装置１は、特定の音声パターンを認識した場合に、待機状態から、ユーザの発話の内容を全て認識する状態に復帰してよい。

（記憶部４０）
記憶部４０は、音声認識用辞書４１、対話終了語データベース４２、対話終了語候補データベース４３、および応答音声データベース４４を記憶している。音声認識用辞書４１は、ユーザの発話に基づく音声と、その発話の内容との対応関係を示す。応答音声データベース４４は、ユーザの発話に対する応答の音声データを含む。

対話終了語データベース４２は、音声対話装置１が取得した対話終了語を含む（図２の（ａ）参照）。対話終了語として、人間同士が対話を終了する際に一般的に発する語（例えば、「またね」や「バイバイ」）が、予め対話終了語として記憶部４０に登録されてよい。しかしながら、音声対話装置１は、学習によって、対話終了語を習得してもよい。例えば、音声対話装置１は、ユーザが対話を終了する直前に発した頻度（対話終了回数）が所定の閾値よりも高い語を、対話終了語として習得してもよい。音声対話装置１が学習によって習得した対話終了語は、対話終了語データベース４２に登録される。

対話終了語候補データベース４３は、音声対話装置１が登録または学習によって取得中の対話終了語の候補を含む（図２の（ｂ）参照）。対話終了語候補は、ユーザが対話を終了する直前に発話した頻度、すなわち対話終了回数が、１以上かつ上記閾値以下の語であってよい。

（制御部２０）
制御部２０は、音声対話装置１の各部を統合的に制御する。制御部２０は、音声認識部２１、対話終了語判定部２２、および応答部２３を含む。音声認識部２１は、記憶部４０の音声認識用辞書４１を参照して、ユーザの発話に基づく音声を解析する。これにより、音声認識部２１は、ユーザの発話の内容を認識する。応答部２３は、記憶部４０の応答音声データベース４４を参照して、音声出力部３０から、ユーザの発話に対する応答の音声データを出力する。例えば、音声認識部２１が「ただいま」という発話を認識した場合、応答部２３は、「おかえり」という音声データを応答音声データベース４４から取得して、取得した音声データを音声出力部３０から出力してよい。

また、音声認識部２１および対話終了語判定部２２は、ユーザが発話した語に基づいて、ユーザとの対話が終了したか否かを判定する対話終了判定処理を実行する。より詳細には、音声認識部２１および対話終了語判定部２２は、所定の対話終了語が発話されたことを認識した場合、ユーザとの対話が終了したと判定する。加えて、音声認識部２１および対話終了語判定部２２は、別の判定条件に基づいて、ユーザとの対話が終了したか否かを判定してもよい。本実施形態では、音声認識部２１および対話終了語判定部２２は、音声入力部１０がユーザの発話を所定時間以上検出しなかった場合にも、ユーザとの対話が終了したと判定する。なお、音声認識部２１および対話終了語判定部２２が対話終了判定処理において実行する処理の詳細を後で説明する。

（対話終了語データベース４２および対話終了語候補データベース４３）
図２の（ａ）は、記憶部４０が記憶する対話終了語データベース４２のデータ構造の一例を示す。また、図２の（ｂ）は、記憶部４０が記憶する対話終了語候補データベース４３のデータ構造の一例を示す。

図２の（ａ）に示すように、対話終了語データベース４２には、対話終了語が記憶されている。対話終了語には、それぞれ、対話終了回数が紐付けられている。対話終了語と紐付けられた対話終了回数は、ユーザが音声対話装置１との対話を終了する直前に、その対話終了語を発話した頻度（回数）である。換言すれば、対話終了語の対話終了回数は、ユーザがその対話終了語を発話した直後に対話を終了した（つまり、ユーザがタイムアウト時間Ｔ以上、次の語を発話しなかった）頻度である。

なお、音声対話装置１は学習によって対話終了語を取得せず、記憶部４０には、対話終了語候補が記憶されていなくてもよい。この構成では、記憶部４０は、対話終了語を予め記憶している。

（対話終了判定処理の流れ）
図３を参照して、制御部２０の音声認識部２１および対話終了語判定部２２が実行する対話終了判定処理の流れを説明する。図３は、対話終了判定処理の流れを示すフローチャートである。なお、音声対話装置１は、図３に示すフローの最初のステップの前に、ユーザの発話の内容を全て認識する状態になっている。

図３に示すように、対話終了判定処理では、まず、音声認識部２１は、音声入力部１０から、ユーザの発話に基づく音声を受信する（Ｓ２０１）。状態制御部２４は、音声入力部１０が音声を検出したときから、時間のカウントを開始する。

次に、音声認識部２１は、音声（波形）の解析処理を実行することによって、受信した音声を音声データに変換する（Ｓ２０２）。音声認識部２１は、記憶部４０の音声認識用辞書４１を参照し、音声データに含まれているユーザの発話の内容を認識する。そして、音声認識部２１は、音声認識部２１による認識結果、すなわち認識したユーザの発話の内容に基づいて、認識結果を示すテキストデータを生成する（Ｓ２０３、音声認識ステップ）。音声認識部２１は、生成したテキストデータすなわち認識結果を、対話終了語判定部２２に出力する。

対話終了語判定部２２は、対話終了語データベース４２に、対話終了回数が所定の閾値を超える対話終了語が含まれるかどうかを判定する（Ｓ２０４）。対話終了回数が閾値を超える対話終了語がない場合（Ｓ２０４でＮＯ）、対話終了判定処理は、後述するＳ２０６に進む。

対話終了回数が閾値を超える対話終了語がある場合（Ｓ２０４でＹＥＳ）、対話終了語判定部２２は、音声認識部２１から取得した認識結果と一致する対話終了語を、対話終了回数が閾値を超える対話終了語の中から検索する（Ｓ２０５）。いずれかの対話終了語と、認識結果とが一致した場合（Ｓ２０５でＹＥＳ）、対話終了判定処理は、後述するＳ２０９に進む。なお、対話終了語判定部２２が対話終了語として認識する語は、ユーザごとに異なっていてもよい。また、この構成では、対話終了語判定部２２は、ユーザの声紋に基づいて、だれが発話したのかを特定してもよい。

認識結果と一致する対話終了語が存在しない場合（Ｓ２０５でＮＯ）、状態制御部２４は、時間のカウントを開始してから、所定のタイムアウト時間Ｔ（例えば、Ｔ＝６０秒）が経過したか否かを判定する（Ｓ２０６）。タイムアウト時間Ｔが経過するまでに、音声入力部１０が次の音声を検出した場合（Ｓ２０６でＮＯ）、対話終了判定処理はＳ２０１に戻る。

音声入力部１０が次の音声を検出せずに、タイムアウト時間Ｔが経過した場合（Ｓ２０６でＹＥＳ）、対話終了語判定部２２は、音声認識部２１による認識結果を、対話終了語候補として、対話終了語候補データベース４３に登録する（Ｓ２０７）。また、認識結果と一致する対話終了語候補が対話終了語候補データベース４３に既に含まれていた場合、対話終了語判定部２２は、対話終了語候補データベース４３において、その対話終了語候補と紐付けられている対話終了回数（図２の（ｂ）参照）をカウントアップ（＋１）する。

Ｓ２０７において、対話終了語判定部２２が対話終了語候補データベース４３を更新した後、対話終了語候補データベース４３に登録されている対話終了語候補の中に、その対話終了語候補と対応付けられている対話終了回数が所定の閾値よりも大きい対話終了語候補がある場合、対話終了語判定部２２は、その対話終了語候補を、対話終了語として、対話終了語データベース４２に登録する（Ｓ２０８）。

対話終了語判定部２２が対話終了語データベース４２を更新した後、状態制御部２４は、時間のカウント値がタイムアウト時間Ｔに到達した後で、音声対話装置１を、前述した待機状態に遷移させる（Ｓ２０９、状態制御ステップ）。また、対話終了語データベース４２に登録されているいずれかの対話終了語と、ユーザの発話の認識結果とが一致した場合（Ｓ２０５でＹＥＳ）、状態制御部２４は、時間のカウント値が調整時間Ｔ´（０≦Ｔ´＜Ｔ）に到達した後で、音声対話装置１を、前述した待機状態に遷移させる（Ｓ２０９、状態制御ステップ）。以上で、対話終了判定処理は終了する。

上述した対話終了判定処理によれば、ユーザは、対話終了のボタンを押下するなどの手動操作を行わず、特定の語またはフレーズ（すなわち対話終了語）を発話するだけで、音声対話装置１との対話を簡単に終了することができる。そのため、ユーザの利便性が向上する。また、対話が終了した後、音声対話装置１が迅速に待機状態に遷移するので、音声対話装置１を省電力化することができる。

さらに、音声対話装置１は、ユーザがどのような語の発話をした後に対話が終了する可能性が高いのかを学習することによって、ユーザの発話の内容に基づいて、対話の終了を精度よく判定することができる。また、音声対話装置１は、ユーザが習慣的によく使うフレーズを、対話終了語として学習するので、ユーザは音声対話装置１に愛着を感じられる。

〔実施形態２〕
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

前記実施形態１では、調整時間Ｔ´が対話終了語によらない場合を説明した。他の実施形態では、調整時間Ｔ´は、対話終了語ごとに、あるいは、対話終了語の種別ごとに、異なっていてもよい。例えば、調整時間Ｔ´がほぼ０秒である対話終了語（完全対話終了語）と、調整時間Ｔ´が数秒である対話終了語（準対話終了語）とがあってよい。

つまり、完全対話終了語とは、音声認識部２１が当該完全対話終了語を認識した後、状態制御部２４が音声対話装置１を即時に待機状態に遷移させる対話終了語である。また、準対話終了語とは、音声認識部２１が当該準対話終了語を認識した後、状態制御部２４が音声対話装置１を一定時間後に待機状態に遷移させる対話終了語である。

完全対話終了語には、対話終了回数が第１の閾値よりも多い対話終了語が含まれてよい。また、準対話終了語には、対話終了回数が第２の閾値よりも多い対話終了語が含まれてよい。あるいは、完全対話終了語には、対話終了回数が最も多い対話終了語から、対話終了回数が第ｍ番目に多い対話終了語までが含まれてよい。一方、準対話終了語には、前述した対話終了回数が第ｍ＋１番目から第ｎ番目（ｎ＞ｍ）までに多い対話終了語が含まれてよい。

完全対話終了語の対話終了回数の第１の閾値は、準対話終了語の対話終了回数の第２の閾値よりも大きいことが好ましい。換言すれば、第１の閾値は比較的大きく、第２の閾値は比較的小さいことが好ましい。あるいは、対話終了語データベース４２において、完全対話終了語と紐付けられている対話終了回数については、その対話終了回数に所定の値を予め加算しておいてもよい。また、ある対話終了語候補が、対話終了語データベース４２に準対話終了語として追加された後（つまり、その対話終了語候補の対話終了回数が第２の閾値を超えた後）で、その対話終了語候補の対話終了回数が増大して第１の閾値を超えた場合、その準対話終了語は、対話終了語データベース４２に完全対話終了語として登録されることが好ましい。

本実施形態の構成によれば、ユーザが完全対話終了語を発話した後、状態制御部２４が音声対話装置１を即時に待機状態に遷移させるので、音声対話装置１を省電力化することができる。また、ユーザが準対話終了語を発話した後、調整時間Ｔ´が経過するまで、音声認識部２１が音声の解析処理を続行するので、ユーザが調整時間Ｔ´以内にさらに発話した場合、音声認識部２１はその発話の内容を認識することができる。

〔実施形態３〕
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

他の実施形態では、対話終了語は、時間帯またはユーザの状況に応じて異なっていてもよい。本実施形態では、前述した対話終了判定処理において、対話終了語判定部２２は、時間帯（例えば、朝、昼、夜等）またはユーザの状況（例えば、電話中、通勤中など）に応じて、異なる語を対話終了語であると判定する。本実施形態では、対話終了語は、時間帯またはユーザの状況ごとに、対話終了語データベース４２に登録される。また、対話終了語候補も、時間帯またはユーザの状況ごとに、対話終了語候補データベース４３に登録される。

本実施形態の構成によれば、時間帯またはユーザの状況、および、ユーザの発話の内容に基づいて、対話の終了をより精度よく判定することができる。例えば、朝には、音声対話装置１は、「行ってきます」という語を対話終了語として認識してもよい。一方、夜には、音声対話装置１は、「お休み」という語を対話終了語として認識してもよい。

〔ソフトウェアによる実現例〕
音声対話装置１の制御部２０は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、音声対話装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声対話装置（１）は、ユーザと音声で対話する音声対話装置であって、ユーザの発話に基づく音声を検出する音声検出部（音声入力部１０）と、上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部（２１）と、上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部（２４）と、を備えている。

上記の構成によれば、ユーザは、所定の対話終了語を発話するだけで、音声対話装置を省電力状態に遷移させることができる。したがって、音声対話装置の省電力化を簡単に実現することができる。

本発明の態様２に係る音声対話装置は、上記態様１において、上記音声認識部は、ユーザごとに異なる語を上記対話終了語として認識してもよい。

上記の構成によれば、ユーザは、習慣や好みに応じた語を対話終了語として使用することができる。

本発明の態様３に係る音声対話装置は、上記態様１または２において、上記音声認識部は、時間帯およびユーザの状況のうち少なくとも一方に応じて、上記対話終了語として認識する語を変えてもよい。

上記の構成によれば、時間帯（朝、昼、夜等）やユーザの状況（電話中、通勤中など）に応じて、適切な対話終了語で対話を終了することができる。

本発明の態様４に係る音声対話装置は、上記態様１から３のいずれかにおいて、上記対話終了語は、（ｉ）上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を即時に上記省電力状態に遷移させる完全対話終了語と、（ｉｉ）上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を一定時間後に上記省電力状態に遷移させる準対話終了語と、を含んでいてもよい。

上記の構成によれば、対話終了語の種類（完全対話終了語、準対話終了語）に応じて、異なるタイミングで、音声対話装置を省電力状態に遷移させることができる。

本発明の態様５に係る音声対話装置は、上記態様１から４のいずれかにおいて、上記状態制御部は、上記音声認識部が上記音声認識機能を実施するために実行する演算処理の全部または一部を停止することによって、当該音声対話装置を省電力状態に遷移させてもよい。

上記の構成によれば、対話が終了した後には必要のない音声認識機能を制限することによって、音声対話装置を省電力化することができる。

本発明の態様６に係る音声対話装置の制御方法は、ユーザと音声で対話する音声対話装置の制御方法であって、音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含む。

上記の構成によれば、態様１に係る音声対話装置と同様の効果を奏することができる。

本発明の各態様に係る音声対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話装置が備える各部（ソフトウェア要素）として動作させることにより上記音声対話装置をコンピュータにて実現させる音声対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１音声対話装置
１０音声入力部（音声検出部）
２１音声認識部
２４状態制御部

Claims

ユーザと音声で対話する音声対話装置であって、
ユーザの発話に基づく音声を検出する音声検出部と、
上記音声検出部が検出したユーザの発話を音声認識機能によって認識する音声認識部と、
上記音声認識部が所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御部と、を備えたことを特徴とする音声対話装置。
上記音声認識部は、ユーザごとに異なる語を上記対話終了語として認識することを特徴とする請求項１に記載の音声対話装置。
上記音声認識部は、時間帯およびユーザの状況のうち少なくとも一方に応じて、上記対話終了語として認識する語を変えることを特徴とする請求項１または２に記載の音声対話装置。
上記対話終了語は、
（ｉ）上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を即時に上記省電力状態に遷移させる完全対話終了語と、
（ｉｉ）上記音声認識部が当該対話終了語を認識した後、上記状態制御部が当該音声対話装置を一定時間後に上記省電力状態に遷移させる準対話終了語と、を含む
ことを特徴とする請求項１〜３のいずれか１項に記載の音声対話装置。
上記状態制御部は、上記音声認識部が上記音声認識機能を実施するために実行する演算処理の全部または一部を停止することによって、当該音声対話装置を省電力状態に遷移させることを特徴とする請求項１〜４のいずれか１項に記載の音声対話装置。
ユーザと音声で対話する音声対話装置の制御方法であって、
音声検出部が検出したユーザの発話に基づく音声を、音声認識機能によって認識する音声認識ステップと、
上記音声認識ステップにおいて所定の対話終了語を認識した場合、当該音声対話装置を省電力状態に遷移させる状態制御ステップと、を含むことを特徴とする制御方法。
請求項１〜５のいずれか１項に記載の音声対話装置としてコンピュータを機能させるための制御プログラムであって、上記各部としてコンピュータを機能させるための制御プログラム。