JP5271330B2

JP5271330B2 - 音声対話システム、方法、及びプログラム

Info

Publication number: JP5271330B2
Application number: JP2010219986A
Authority: JP
Inventors: 政秀蟻生
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2013-08-21
Anticipated expiration: 2030-09-29
Also published as: JP2012073536A; US8719036B2; US20120078634A1

Description

本発明の実施形態は、音声対話システム、方法、及びプログラムに関する。

入力されたユーザの音声を認識し、当該音声に対応する音声応答を選択制御し、当該音声応答を出力することにより、ユーザとシステムとの間で対話を行なう音声対話システムがある。

このような音声対話システムでは、効率よく音声対話を行なうことが可能なものが望まれている。

特開２００４−３３３５４３号公報

本発明が解決しようとする課題は、効率よく音声対話を行なうことが可能な音声対話システム、方法、及びプログラムを提供することである。

上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、取得部と、生成部と、出力部と、キャンセル判定部と、実行部と、履歴記憶部と、音声記憶部とを備える。

履歴記憶部は、現在までに実行された動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する。音声記憶部は、各々の前記動作名に対応する音声データを記憶する。

検出部は、ユーザからの音声入力を省略することを示す省音声信号を検出する。取得部は、前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得する。生成部は、取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成する。出力部は、前記音声信号を音声に変換して出力する。キャンセル判定部は、前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定する。実行部は、前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行することを特徴とする。

第１の実施の形態に係る音声対話システム１の構成を表すブロック図。音声対話システム１の処理を表すフローチャート。第１の実施の形態における履歴記憶部５１が記憶する動作履歴を表す図。第１の実施の形態における音声記憶部５２が記憶する音声データを表す図。第２の実施の形態に係る音声対話システム２の構成を表すブロック図。第２の実施形態における「対話状態」を説明するための概念図。第２の実施の形態における履歴記憶部５１が記憶する動作履歴を表す図。第２の実施の形態における音声記憶部５２が記憶する音声データを表す図。第２の実施の形態に係る音声対話システム２の処理を表すフローチャート。算出部２３の処理を説明するため図。

（第１の実施の形態）
第１の実施の形態に係る音声対話システム１は、例えば、カーナビゲーションシステム等に用いられる。

音声対話システム１は、ユーザからの音声入力の内容に応じて、異なる動作（例えば、「目的地を自宅に設定する」動作や、「現在位置を表示する」動作等）を実行する。音声対話システム１は、過去に実行した動作の実行回数の履歴を、動作毎に記憶する。音声対話システム１は、ユーザから入力された、音声入力を省略することを意図する信号である省音声信号を検出した場合、各動作の過去の実行回数に基づいて、実行する動作を決定する。音声対話システム１は、省音声信号が一定時間継続されている場合、当該動作を実行する。

これにより、音声対話システム１が現在までに多く行なっている動作であれば、ユーザは音声入力をすることなしに、音声対話システム１が行う動作を指定することできる。

図１は、音声対話システム１の構成を表すブロック図である。音声対話システム１は、検出部１１と、計測部１２と、取得部１３と、回数判定部１４と、生成部１５と、出力部１６と、キャンセル判定部１７と、実行部１８と、履歴記憶部５１と、音声記憶部５２とを備える。

履歴記憶部５１は、後述する実行部１８が現在までに実行した各動作の動作名と、その実行回数とを対応付けた履歴を記憶する。音声記憶部５２は、各動作名に対応した音声データを記憶する。また、音声記憶部５２は、音声対話システム１の操作方法を説明する操作説明の音声データを記憶する。

検出部１１は、省音声信号を検出する。計測部１２は、省音声信号が検出され始めた時刻を開始時刻とし、省音声信号の継続時間を計測する。

取得部１３は、実行回数が最多である動作（以下、最多動作）の動作名とその実行回数とを履歴記憶部５１から取得する。また、取得部１３は、全ての動作の実行回数を履歴記憶部５１から取得し、それらを合計した総実行回数を求める。回数判定部１４は、総実行回数が、所定の閾値以上であるか否かを判定する。

総実行回数が所定の閾値以上である場合、生成部１５は、最多動作の動作名に対応する音声データを音声記憶部５２から読み出し、その音声信号を生成する。総実行回数が所定の閾値未満である場合、生成部１５は、操作説明の音声データを音声記憶部５２から読み出し、その音声信号を生成する。出力部１６は、音声信号を音声として出力する。

キャンセル判定部１７は、出力部１６が音声を出力が終了するまでに、ユーザにより省音声信号がキャンセルされたか否かを判定する。本実施形態において、キャンセル判定部１７は、出力部１６が音声を出力が終了するまでに、省音声信号が継続しているか否かを、計測部１２を参照することにより判定する。省音声信号が継続している場合、実行部１８は、最多動作又は操作説明を実行する。

検出部１１と、計測部１２と、取得部１３と、回数判定部１４と、生成部１５と、出力部１６と、キャンセル判定部１７と、実行部１８と、履歴記憶部５１と、音声記憶部５２とは、中央演算処理装置（ＣＰＵ）及びＣＰＵが用いるメモリにより実現されてよい。また、履歴記憶部５１と、音声記憶部５２とは、補助記憶装置を用いて実現されてよい。

図２は、音声対話システム１の処理を表すフローチャートである。検出部１１は、省音声信号を検出したか否かを判定する（Ｓ２０１）。例えば、検出部１１は、ユーザにより発話ボタン（ユーザが、発話による音声入力をする際に押下するボタン）（不図示）が一定時間押下されたことを判定することにより、省音声信号を検出したか否かを判定してよい。

また、発声ボタンが単位時間あたり一定回数以上押下されたことを判定することにより、省音声信号を検出したか否かを判定してよい。また、ユーザの視線を検出する公知の技術を用いて、ユーザが所定の方向を一定時間見ていた場合に、省音声信号を検出したと判定してもよい。

なお、検出部１１は、省音声信号が終了したことも検出できることが望ましい。すなわち、発声ボタンを再度の押下することや、所定時間以上に押下された発話ボタンの押下の終了や、発声ボタンが単位時間あたりに一定回数以上押されなくなったことや、ユーザの視線が所定の方向以外の方向を向いたことを、撮像装置等を用いて検出することにより、省音声信号が終了したと判定することができる。

ステップＳ２０１における判定がＮＯの場合、検出部１１は、省音声信号を検出するまで、ステップＳ２０１の処理を行なう。

ステップＳ２０１における判定がＹＥＳの場合、計測部１２は、省音声信号が入力されたと検出部１１が判定した時刻を開始時刻とし、開始時刻以降の省音声信号の継続時間を計測し始める（Ｓ２０２）。

図３は、履歴記憶部５１が記憶する動作履歴を表す図である。図３に示すように、履歴記憶部５１には動作を識別するための動作名と、当該動作名に対応する動作と、当該動作内容の現在までの利用回数とが対応付けられて記憶されている。ただし、操作説明の実行回数はカウントしないため、操作説明の動作についての履歴は記憶されない。

取得部１３は、最多動作の動作名と実行回数とを履歴記憶部５１から読み出す（Ｓ２０３）。この際、取得部１３は、総実行回数を求める。図３の例において、最多動作の動作名は「自宅」であるため、取得部１３は、動作名「自宅」と、利用回数「２０」とを履歴記憶部５１から読み出す。また、取得部１３は、各動作（「自宅」、「現在地」、「承認」）の実行回数を合計し、総実行回数を「４２（２０+１５+７）回」と求める。

また、図３では動作は３つしか表されていないが、ユーザからの音声を認識する認識部（不図示）がユーザの音声を認識し、新たな動作が実行部１８により実行された場合、実行部１８は、履歴記憶部５１に当該動作を追加して書き込んでもよい。また、既に履歴記憶部５１が記憶している動作が実行された場合、制御部１７は、その動作の利用回数を加算してもよい。

回数判定部１４は、総実行回数が所定閾値以上であるか否かを判定する（Ｓ２０４）。所定閾値は、予め定められていても構わない。本例において所定閾値は「１０回」としている。

ステップＳ２０４における判定がＹＥＳの場合、生成部１５は、最多動作に対応する音声データを音声記憶部５２から読み出し、その音声信号を生成する（Ｓ２０５）。ステップＳ２０４における判定がＮＯの場合、生成部１５は、操作説明の動作に対応する音声データを音声記憶部５２から読み出し、その音声信号を生成する（Ｓ２０６）。

図４は、音声記憶部５２が記憶する音声データを表す図である。音声記憶部５２は、各動作の動作名について、出力される音声を対応付けて記憶している。

本例の場合、総実行回数は４２回である。よって、ステップＳ２０４における判定はＹＥＳとなるため、生成部１５は、最多動作「自宅」に対応する音声データ「自宅を目的地に設定します」を音声記憶部５２から読み出し、その音声信号を生成する。

なお、音声データは、文字データ列の形式で記憶されていてもよい。この場合、生成部１５は、公知の音声合成技術を用いて、文字データ列から音声信号を生成してよい。

生成部１５は、音声信号を出力部１６に供給する。出力部１６は、音声信号を音声として出力する（Ｓ２０７）。

キャンセル判定部１７は、出力部１６が音声信号を出力し終わった時点において、省音声信号が継続しているか否かを、計測部１２を参照することにより判定する（Ｓ２０８）。ステップＳ２０８における判定がＹＥＳの場合、実行部１８は、最多動作又は操作説明の動作を実行する（Ｓ２０９）。本例の場合、実行部１８は、「自宅を目的地に設定」という動作を実行する。ステップＳ２０８における判定がＮＯの場合、実行部１８は、最多動作又は操作説明の動作を実行せず、ステップＳ２０１に遷移する。

なお、キャンセル判定部１７は、出力部１６が音声信号を出力し終わった時点から、所定の時間経過した時点において、省音声信号が継続しているか否かを、計測部１２を参照することにより判定しても構わない。

また、本実施形態において、取得部１３は最多動作の動作名とその実行回数を取得し、総実行回数を求めたが、最多動作の動作名のみを取得して生成部１５へ供給しても構わない。

また、本実施形態において、取得部は履歴数に対する重みも設定することができ、最多の実行回数を決める際に「重み×履歴数」を用いて最多動作を決定しても構わない。この重みは動作に応じて予め与えられていても構わないし、対応する動作と現在地との距離（物理的な距離や費用的なコストでも構わない。距離の取得方法は公知の技術で実現できるとする）の関数で得られても構わない。

また、本実施形態において、取得部は実行回数において降順の、複数の動作名とその実行回数を取得しても構わない。この場合の回数判定部での判定の実施例については後述する。

また、本実施形態において、回数判定部１４は、履歴記憶部５１に記憶されている動作の総実行回数に基づいて、図２におけるステップＳ２０４〜Ｓ２０６を行なっていたが、これに限られない。前述のように取得部において実行回数で降順の複数の動作名とその実行回数が得られた場合に、最多とその次に実行回数が多い動作の、その実行回数の差が設定された閾値より大きいか否かで判定を行うことも考えられる。この場合、１位と２位の実行回数の差が所定の閾値以上かの判定（Ｓ２０４に対応）を行い、ＹＥＳ判定ならば最多動作についての音声信号の生成（Ｓ２０５に対応）に進み、NO判定ならば操作説明の代わりに“省音声信号に対応する動作はない”動作、つまり省音声で処理を行わずに通常通りの操作を促す（Ｓ２０６を変更）ことも考えられる。いずれにせよ、回数判定部１４は、履歴記憶部５１に記憶されている各動作の実行回数に基づいて判定を行なうものであればよい。

本実施形態によれば、ユーザは、自らが意図する動作の内容を音声対話システム１が、音声出力している場合、省音声信号の入力を続けることにより、音声対話システム１に当該動作を実行させることができる。これにより、音声対話を省略することができる。また、過去の利用回数から決定される動作をユーザに音声で提示する一方、ユーザは当該音声を聞きながら省音声信号の入力を継続することで決定された動作を音声対話システム１が行なってもよいか否かの判断を音声対話システム１に伝えることができる。すなわち、音声対話システム１が多く行う動作であれば、ユーザは音声入力をすることなしに、音声対話システム１が行う動作を指定することできる。

また、本実施形態では、ユーザが、一の発話ボタンを用いて省音声信号を入力し、当該発話ボタンを離すことにより、省音声信号の入力を終了する例について説明したが、これに限られない。例えば、音声対話システム１は、省音声信号を入力する第１のボタン（不図示）と、省音声信号の入力をキャンセルする第２のボタン（不図示）を有していても構わない。

この場合、計測部１２は、第１のボタンが押下されてから、第２のボタンが押下されるまで、継続時間を計測してよい。この例において、ユーザは、第１のボタンを押下することにより、省音声信号を入力する。そして、ユーザは、出力部１６から出力される音声が、自らの意図しない動作の内容である場合、第２のボタンを押下する。

これにより、ユーザは、決定された動作を音声対話システム１が行なってもよいか否かの判断を音声対話システム１に伝えることができる。

（第２の実施の形態）
第２の実施の形態に係る音声対話システム２は、ユーザとの対話の進捗の状態を表す「対話状態」に応じて、省音声信号に対する動作を決定できる点が、第１の実施の形態と異なる。

図５は、音声対話システム２の構成を表すブロック図である。音声対話システム２は、第１の実施の形態の音声対話装置１に対して、認識部２１と、管理部２２と、算出部２３と、状態記憶部５３とをさらに備える。また、音声対話システム２は、音声対話システム１と比較して、履歴記憶部５１と、音声記憶部５２が記憶する内容が異なる。また、キャンセル判定部１７が、音声出力における参照点（後述）をさらに用いて、判定を行なう点が異なる。

認識部２１は、マイク（不図示）等を通して入力されたユーザの音声（音声信号）を認識する。状態記憶部５３は、ユーザとシステムとの現在の対話状態を記憶する。管理部２２は、状態記憶部５３を用いて、ユーザとシステムとの現在の対話状態を管理する。算出部２３は、検出部１１が、省音声信号を検出しなくなった時点において、出力部１６が出力している音声を、「参照点」の情報を基に算出する。詳細は後述する。

ここで、「対話状態」について説明する。図６は、本実施形態における「対話状態」を説明するための概念図である。ここでは、カーナビゲーションの音声対話システムを例として説明する。図６において、白丸印（○）が「対話状態」を表す。ここでは説明のために、対話状態を木構造で表現している。

状態記憶部５３は、対話状態を記憶する。管理部２２は、状態記憶部５３を用いて、対話状態を管理する。

最初の対話開始時は「ルート」という状態（状態A）にあるものとする。この状態で、ユーザが「住所検索」あるいは「電話をかける」と発声すると、認識部２１が音声認識を行う。管理部２２が、各々の認識結果に応じた状態（例えば、「住所検索」なら状態B）に、現在の対話状態を遷移させる。

また、図６には、対話状態の他に動作の状態も記載している。例えば、図６における「動作B」の状態には、ルートの状態から、「住所検索」→「神奈川県」→「川崎市」→「幸区」→「小向東芝町１」→「目的地にする」という発声で到達することができ、動作としては「神奈川県川崎市幸区小向東芝町１」の地点をカーナビゲーションの目的地に設定する動作である。図６における三角括弧（＜＞）の内容は、その状態に遷移した際に、出力部１６が出力する音声の内容を表す。

また、図６中の動作に対応する状態には、履歴記憶部５１が記憶する、動作の実行回数も記載している。例えば、動作Bに対応する動作は１５回行なっているものとして記載している。

本実施形態における履歴記憶部５１は、第１の実施形態に対して、対話状態についても履歴を記憶できる点が異なる。図７は、本実施形態における履歴記憶部５１が記憶する動作履歴を表す図である。履歴記憶部５１は、各状態（状態Ａ、Ｂ、Ｃ等）に対して、行われた一又は複数の動作と、その実行回数が記憶されている。

図８は、本実施形態における音声記憶部５２が記憶する音声データを表す図である。音声記憶部５２は、各状態と、各状態から実行され得る一又は複数の動作の動作名と、各動作における音声データとを対応付けて記憶している。音声記憶部５２は、各状態の遷移によって出力される出力音声を連ねたものを音声データの内容としている。

また、音声記憶部５２は、音声データの中で、現在どの状態を出力部１６が出力しているのかを表す参照点も音声データの一要素として記憶していてよい。図８におけるピリオドが参照点を表している。また各参照点は対応する「対話状態」に関する情報を持っていても構わない。参照点に対応する対話状態の情報を持つことで、後述するように参照点が選ばれた時に、管理部を用いて対応する対話状態に遷移することができる。ここでの実施形態の説明では、図６と図８から、各参照点が図６の各状態に対応する旨で説明しているため、図８の各参照点が対応する対話状態については、明示はしていないが存在するものとする。

図９は、音声対話システム２の処理を表すフローチャートである。検出部１１は、省音声信号を検出したか否かを判定する（Ｓ９０１）。ステップＳ９０１における判定がＮＯの場合、検出部１１は、省音声信号を検出するまで、ステップＳ９０１の処理を行なう。

ステップＳ９０１における判定がＹＥＳの場合、計測部１２は、省音声信号が入力されたと検出部１１が判定した時刻を開始時刻とし、開始時刻以降の省音声信号の継続時間を計測し始める（Ｓ９０２）。

管理部２２は、省音声信号が検出された時点における対話状態を状態記憶部５３から読み出し、取得部１３に通知する（Ｓ９０３）。例えば、省音声信号が検出された時点における対話状態が「状態B」である場合、管理部２２は、現在の対話状態が「状態B」であることを取得部１３に通知する。

取得部１３は、履歴記憶部５１を参照し、通知された状態に対応する動作の中で、最も実行回数の多い動作（最多動作）の動作名と、その実行回数を取得する。また、通知された状態に対応する全ての動作を合計した総実行回数を求める（Ｓ９０４）。

例えば、取得部１３は、履歴記憶部５１を参照し、「状態Ｂ」に対応する動作において、最多動作である「動作Ｂ」と、その実行回数「１５」とを取得する。また、「状態Ｂ」に対応する動作の総実行回数（３７回（１５＋１０＋１２））を求める。

回数判定部１４は、総実行回数が所定閾値以上であるか否かを判定する（Ｓ９０５）。所定閾値は、予め定められていても構わない。本例において所定閾値は「１０回」としている。

ステップＳ９０５における判定がＹＥＳの場合、生成部１５は、最多動作に対応する音声データを音声記憶部５２から読み出し、その音声信号を生成する（Ｓ９０６）。ステップＳ２０４における判定がＮＯの場合、生成部１５は、操作説明の動作に対応する音声データを音声記憶部５２から読み出し、その音声信号を生成する（Ｓ９０７）。出力部１６は、音声信号を音声として出力する（Ｓ９０８）。

キャンセル判定部１７は、出力部１６が音声信号を出力し終わった時点において、省音声信号が継続しているか否かを、計測部１２を参照することにより判定する（Ｓ９０９）。ステップＳ９０９における判定がＹＥＳの場合、実行部１８は、最多動作又は操作説明の動作を実行する（Ｓ９１０）。本例の場合、実行部１８は、「「神奈川県川崎市幸区小向東芝町１」を目的地に設定」という動作を実行する。

ステップＳ９０９における判定がＮＯの場合、算出部２３は、省音声信号の検出が終了した時点で、出力部１６が出力していた音声を参照点の位置を基に求め、管理部２２に通知する。管理部２２は、当該音声に対応する状態に、現在の対話状態を遷移させ、状態記憶部５３を更新する（Ｓ９１１）。

算出部２３について説明する。図１０は、算出部２３の処理を説明するため図である。例えば、上記例のように、出力される音声の内容が「神奈川県．川崎市．幸区．小向東芝町１．この住所を目的地に設定します」となったとする（ピリオドは参照点を表す）。そして出力部１６からこの音声が出力されている途中の「幸区」の辺りで省音声信号の検出が終了されたとする。すなわち、これは、ユーザがシステムに「動作C」を行うことを意図していたのにも関わらず、「川崎市」の後に出力される音声が「川崎区」ではなく「幸区」であったことから、省音声信号をここでキャンセルしたことに相当する。

このとき、ステップＳ９０９における判定はＮＯとなるので、算出部２３は、省音声信号の検出終了時点の直前にある音声信号の参照点を取り出す。これは、出力中の音声の各時点で、現在どの参照点が過去に通過した中で最新のものかを管理することで実現できる。このようにして、算出部２３は、省音声信号の終了直前の参照点を求めることができる。

また、ここでは単に省音声信号の検出終了時点の直前の参照点としたが、所定のバッファを設けることもできる。この場合、省音声信号の検出終了時点から、その直前の参照点まで時間の長さが所定の時間以内ならば、さらにひとつ前の参照点を求めるようにすることができる。これにより、ユーザが出力音声を聞いてから、その内容を判断するまでの時間を考慮することができる。

本実施形態の音声対話システム２は、対話状態を管理することにより、各対話状態に応じて実行する動作を決定することができる。

上述の実施形態により、効率よく音声対話を行なうことができる。

また、取得部１３は、第１の実施形態でも説明したように、履歴記憶部５１を参照し、通知された状態に対応する動作の中で、最も実行回数の多い動作（最多動作）の動作名と、その次に実行回数の多い動作（第２動作と呼ぶ）の動作名と、それらの実行回数を取得してもよい。

この場合、認識部１１は、第２動作の音声データに対応する音声を認識の対象とする（これは、公知の音声認識技術により実現することができる）。そして、ユーザは、出力部１６から出力される最多動作の音声が、自らの意図するものでない場合、第２動作に対応する音声を発声することにより、実行部１８が実行する動作を最多動作から第２動作に修正するようにしてもよい。これにより、ユーザは、音声により実行部１８が実行する動作を変更させることができる。

これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１、２音声対話システム
１１検出部
１２計測部
１３取得部
１４回数判定部
１５生成部
１６出力部
１７キャンセル判定部
１８実行部
５１履歴記憶部
５２音声記憶部

Claims

ユーザとの音声対話により、動作を実行する音声対話システムであって、
現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する履歴記憶部と、
各々の前記動作名に対応する音声データを記憶する音声記憶部と、
ユーザからの音声入力を省略することを示す省音声信号を検出する検出部と、
前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得する取得部と、
取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成する生成部と、
前記音声信号を音声に変換して出力する出力部と、
前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定するキャンセル判定部と、
前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する実行部と
を備える音声対話システム。
前記キャンセル判定部は、
前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを、前記検出部が前記省音声信号の検出を継続しているか否かで判定する、
請求項１記載の音声対話システム。
前記検出部が前記省音声信号の検出を開始した時刻から、前記省音声信号の継続時間を計測する計測部をさらに備え、
前記キャンセル判定部は、
前記音声の出力が終了した時点において、前記省音声信号が継続されているか否かを前記継続時間に基づいて判定する、
請求項２記載の音声対話システム。
前記取得部は、
前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、各動作の実行回数を取得し、それらを合計した値である総実行回数を求め、
前記総実行回数が所定の閾値以下であるか否かを判定する回数判定部をさらに備え、
前記実行部は、
前記回数判定部における判定が真の場合に、前記動作名に対応する動作を実行する、
請求項３記載の音声対話システム。
省音声信号を発生させるボタンをさらに有し、
前記ボタンは、
押下された状態では省音声信号を発生し、押下されない状態では省音声信号を発生しない、
請求項１〜４記載の音声対話システム。
前記音声記憶部は、
前記音声データを前記対話状態に対応させて記憶し、
前記管理部は、
前記検出部が、前記省音声信号の検出を終了した時刻に前記出力部が出力している音声の前記音声データに対応する状態に、前記対話状態を遷移させる
請求項５記載の音声対話システム。
ユーザとの音声対話により、動作を実行する音声対話方法であって、
履歴記憶部が、現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶し、
音声記憶部が、各々の前記動作名に対応する音声データを記憶し、
検出部が、ユーザからの音声入力を省略することを示す省音声信号を検出し、
取得部が、前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得し、
生成部が、取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成し、
出力部が、前記音声信号を音声に変換して出力し、
キャンセル判定部が、前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定し、
実行部が、前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する
音声対話方法。
コンピュータを、
現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する手段と、
各々の前記動作名に対応する音声データを記憶する手段と、
ユーザからの音声入力を省略することを示す省音声信号を検出する手段と、
前記省音声信号を検出した場合、前記動作履歴を記憶する手段から、最も実行回数の多い動作名を取得する手段と、
取得された前記動作名に対応する音声データを、前記音声データを記憶する手段から読み出し、音声信号を生成する手段と、
前記音声信号を音声に変換して出力する手段と、
前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定する
手段と、
前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する手段と
して機能させるための音声対話プログラム。