JP2005309185A

JP2005309185A - 音声入力装置、および音声入力方法

Info

Publication number: JP2005309185A
Application number: JP2004127870A
Authority: JP
Inventors: Kengo Suzuki; 堅悟鈴木
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-04-23
Filing date: 2004-04-23
Publication date: 2005-11-04

Abstract

【課題】音声入力の再開時に中断前の対話履歴を出力して発話者に提供すること。
【解決手段】履歴生成部１０５ｂ−１は、音声入力中断前の対話内容が複雑な場合は、対話履歴記憶部１０５ａ−２に格納された発話者と音声認識コントローラ１０５との対話履歴をキーワードとして要約文を生成することにより、中断前の発話者と音声認識コントローラ１０５との対話履歴を要約して、スピーカー１０３、およびモニタ１０４を介して出力する。音声入力中断前の対話内容が単純な場合は、対話履歴記憶部１０５ａ−２に格納された発話者と音声認識コントローラ１０５との対話履歴に基づいて、中断前の発話者による最後の発話を抽出して、スピーカー１０３、およびモニタ１０４を介して出力する。
【選択図】図１

Description

本発明は、各種機器を音声によって操作するための音声入力装置、および音声入力方法に関する。

対話による音声入力の途中で音声入力を中断した場合、対話の再開時に発話者が円滑な音声入力を行えるよう、中断前の最後の対話履歴を出力して発話者に提示する音声対話装置が特許文献１によって知られている。

特開平１１−１２６０８９号公報

しかしながら、従来の音声対話装置においては、中断前の対話内容が複雑であった場合、対話再開時に中断前の最後の対話履歴を出力するだけでは発話者が中断前の対話内容を思い出せないという問題が生じていた。

本発明は、音声案内と発話者の音声入力との対話履歴を記憶するとともに、発話者からの音声入力の中断指示と再開指示を検出し、発話者からの音声入力の中断指示が検出された後、発話者からの音声入力の再開指示が検出された場合に、対話履歴の要約を生成して出力することを特徴とする。

本発明によれば、音声入力の再開時に、中断前の発話者と音声案内の対話履歴から、対話履歴の要約を生成して発話者に提示することとした。これにより、中断前の対話内容が複雑であった場合であっても、発話者は音声入力中断前の対話の内容を的確に把握することができる。

図１は、本発明における音声入力装置の一実施の形態を示し、音声入力装置をカーナビゲーションシステムに適用した場合のブロック図である。運転者（発話者）が発話したナビゲーション装置２００に対する操作コマンドは音声入力装置１００で認識され、ナビゲーション装置２００へ出力される。ナビゲーション装置２００は、音声入力装置１００から出力されたコマンドにしたがって処理を実行する。

音声入力装置１００は、運転者の発話を入力するマイク１０１と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ１０２と、ガイダンス音声やビープ音を出力するスピーカー１０３と、ガイダンス画像や音声信号の認識結果を表示するモニタ１０４と、入力された音声信号を分析し内容を認識する音声認識コントローラ１０５とを備えている。マイク１０１は車両のルームミラー近傍、あるいはステアリングコラム等、ドライバーの口元に接近した位置に設置される。音声入力操作スイッチ１０２は車両のステアリングホイール等に設置される。また、スピーカー１０３はナビゲーション装置２００から出力される経路誘導の音声ガイダンスを出力し、モニタ１０４はナビゲーション装置２００から出力される地図情報、および誘導経路情報を画像表示する。

音声認識コントローラ１０５は、メモリ１０５ａと、ＣＰＵ１０５ｂとを有している。メモリ１０５ａはマイク１０１から入力された音声信号を一時的に記憶し、さらに音声認識用辞書１０５ａ−１と、対話履歴記憶部１０５ａ−２とを有している。音声認識用辞書１０５ａ−１は音声認識実行時の音声待受け単語を格納する。対話履歴記憶部１０５ａ−２は、運転者による発話内容を音声認識した結果の履歴と、音声入力が中断した際に中断直前に音声認識コントローラ１０５が出力したガイダンスによって運転者に要求した操作を示す単語とを対話履歴として記憶する。

ＣＰＵ１０５ｂは、ソフトウェア形態により構成される履歴生成部１０５ｂ−１を有している。履歴生成部１０５ｂ−１は、運転者によって音声入力が一時的に中断され、その後再開された場合、対話履歴記憶部１０５ａ−２に格納された対話履歴に基づいて、中断前に行っていた音声入力内容の履歴を生成して運転者に対して出力する。これにより、運転者は音声入力再開時に中断前に行った音声入力の内容を思い出すことができ、継続して音声入力を行うことができる。

なお、本実施の形態においては、履歴生成部１０５ｂ−１は、対話履歴記憶部１０５ａ−２に格納された中断前の対話履歴に基づいて、以下の２パターンのいずれかの方法で、音声入力内容の履歴を生成して出力する。なお、運転者に対して履歴を出力するに当たっては、スピーカー１０３を介した音声による出力と、モニタ１０４を介した画像による出力とを併用する。
（１）要約生成
要約生成では、履歴生成部１０５ｂ−１は対話履歴記憶部１０５ａ−２に格納された対話履歴に含まれるキーワードを抽出して要約文を生成することにより、中断前の運転者と音声認識コントローラ１０５との対話履歴を要約する。なお、履歴生成部１０５ｂ−１は、あらかじめ定義され、メモリ１０５ａに格納された要約文の作成ルールに基づいて、キーワードを結合して要約文を生成する。
（２）最終発話抽出
最終発話抽出では、履歴生成部１０５ｂ−１は対話履歴記憶部１０５ａ−２に格納された対話履歴に基づいて、中断前の運転者による最後の発話内容（音声入力）を抽出する。

履歴生成部１０５ｂ−１は、上記２つのパターンの方法のうち、いずれの方法により履歴を作成するかを、中断前に運転者が行っていた操作カテゴリ（操作の種類）に基づいて判定する。すなわち、音声入力再開時に運転者に対して対話履歴の要約の出力が必要か、あるいは中断前の運転者による最後の発話の出力が必要かを、各操作カテゴリごとにあらかじめ設定して履歴生成方法としてメモリ１０５ａに格納しておく。履歴生成部１０５ｂ−１は、音声入力が再開された場合、中断前の操作カテゴリに対応する履歴生成方法をメモリ１０５ａから読み出して、当該履歴生成方法で履歴を生成し、運転者に提示する。

なお、操作カテゴリは、例えばナビゲーション装置２００において渋滞情報等の交通情報を確認する「交通情報確認」や目的地を設定するために住所を検索する「住所検索」等が設定されている。操作カテゴリが「交通情報確認」の場合、一般には音声認識コントローラ１０５と運転者とが対話を行いながら、交通情報を確認したい区間の指定や、交通情報を取得するために情報センターへ接続するか否かの指定等を行うため、複雑な対話が発生する。音声入力の中断前にこのような複雑な対話が行われた場合、運転者に対しては単に中断前の最後の発話を出力しただけでは、運転者は中断前の対話内容を把握しにくいと考えられる。したがって、このような複雑な対話が発生する操作カテゴリに対しては、履歴生成方法として「要約生成」が設定される。

これに対して、操作カテゴリが「住所検索」の場合、運転者は音声認識コントローラ１０５からのガイダンスにしたがって、県、市、町、番地といった情報を順番に入力して住所を絞り込んでいく。このため、運転者と音声認識コントローラ１０５との対話は単純なものとなる。音声入力の中断前にこのような単純な対話が行われた場合、運転者に対して中断前にどこまで音声入力が完了しているかを提示して「続きをどうぞ」等のガイダンスを出力するだけで、運転者は音声入力を再開することができる。したがって、このような単純な対話が発生する操作カテゴリに対しては、履歴生成方法として「最終発話抽出」が設定される。

以下、操作カテゴリが「交通情報確認」の場合に、履歴生成部１０５ｂ−１が「要約生成」によって対話履歴の要約を生成する場合の具体例について説明する。運転者が音声入力操作スイッチ１０２を押下することにより音声入力が開始される。そして、音声認識コントローラ１０５は、スピーカー１０３、およびモニタ１０４を介して、運転者に対して発話を促すガイダンス、例えば「コマンドを入力してください」を出力して、音声入力待受け状態となる。運転者が、交通情報を確認するためのコマンドとして「交通情報を見たい」と発話すると、運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。

メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語、例えば「交通情報確認」が音声認識結果として決定される。そして、認識された単語「交通情報確認」は、運転者による発話の履歴として対話履歴記憶部１０５ａ−２に格納される。また、履歴生成部１０５ｂ−１は現在の操作カテゴリは「交通情報確認」であると判断する。

音声認識コントローラ１０５は、運転者に引き続き確認する交通情報を絞り込むための発話を促すガイダンス、例えば「どの交通情報を見ますか？」をスピーカー１０３、およびモニタ１０４を介して出力する。運転者がナビゲーション装置２００によって経路誘導されている経路上の交通情報を見るためのコマンドとして「ルート上の渋滞情報」と発話すると、運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。

メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語、例えば「ルート上」が音声認識結果として決定される。そして、認識された単語「ルート上」は、運転者による発話の履歴として対話履歴記憶部１０５ａ−２に格納される。

ナビゲーション装置２００は、運転者に対してルート上の交通情報を提供するために、不図示の情報センターへ接続して交通情報を取得する必要がある。このため、音声認識コントローラ１０５は、運転者に対して情報センターへ接続することに同意を求めるガイダンス、例えば「ネットワークにつないで情報を取得しますか？」をスピーカー１０３、およびモニタ１０４を介して出力する。

ここで、運転者は都合により音声入力を中断したいと考え、音声入力を中断するためのコマンドとして「ちょっと待って」と発話したとする。運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。そして、メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。

これにより、音声認識コントローラ１０５は運転者によって音声入力の中断指示が出されたと判断する。この場合、音声認識コントローラ１０５は、音声入力の中断直前に出力したガイダンスによって運転者に要求した操作を示す単語、すなわち音声入力再開時に運転者に入力を促す必要がある操作を示す単語を対話履歴記憶部１０５ａ−２に格納する。ここでは中断直前に運転者に出力したガイダンス「ネットワークにつないで情報を取得しますか？」を示す「要接続確認」が対話履歴記憶部１０５ａ−２に格納される。

そして、音声認識コントローラ１０５は、音声入力を中断し、音声入力を中断した旨のガイダンス、例えば「音声入力を中断します」をスピーカー１０３、およびモニタ１０４を介して出力する。続けて音声入力を再開するときの再開方法を案内するガイダンス、例えば「音声入力を再開するときは操作スイッチを押してください」をスピーカー１０３、およびモニタ１０４を介して出力する。

その後、運転者によって音声入力操作スイッチ１０２が押下され、音声入力が再開されると、履歴生成部１０５ｂ−１は対話履歴記憶部１０５ａ−２から音声入力中断前の履歴を読み込む。すなわち、本実施の形態においては、「交通情報確認」、「ルート上」、および「要接続確認」が読み込まれる。そして、履歴生成部１０５ｂ−１は、操作カテゴリが「交通情報確認」の場合の履歴生成方法をメモリ１０５ａから読み込む。

操作カテゴリが「交通情報確認」の場合、上述したように、音声認識コントローラ１０５と運転者との対話が複雑であることから、履歴生成方法として「要約生成」が設定されている。したがって、履歴生成部１０５ｂ−１は、対話履歴記憶部１０５ａ−２に格納された中断前の対話履歴に基づいて対話履歴の要約、例えば「ルート上の交通情報を取得するためにネットワークに接続します。よろしいですか？」を生成する。生成した対話履歴の要約はスピーカー１０３から音声出力され、モニタ１０４に図２（ａ）に示すように表示される。

上記ガイダンスに対して、運転者が「はい」もしくは「いいえ」で応答すると、運転者の発話はマイク１０１を介して入力され、音声認識用辞書１０５ａ−１に格納された待受け単語とマッチング処理されることによって音声認識される。運転者の発話内容が「はい」であった場合、ナビゲーション装置２００は不図示の情報センターから通信網を介してルート中の交通情報を取得し、運転者に情報を提供する。

次に、操作カテゴリが「住所検索」の場合に、履歴生成部１０５ｂ−１が「最終発話抽出」によって音声入力中断前の運転者による最後の発話を抽出する場合の具体例について説明する。運転者が音声入力操作スイッチ１０２を押下することにより音声入力が開始される。そして、音声認識コントローラ１０５は、スピーカー１０３、およびモニタ１０４を介して、運転者に対して発話を促すガイダンス、例えば「コマンドを入力してください」を出力して、音声入力待受け状態となる。運転者が、住所を検索するためのコマンドとして「住所検索」と発話すると、運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。

メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語、例えば「住所検索」が音声認識結果として決定される。そして、認識された単語「住所検索」は、運転者による発話の履歴として対話履歴記憶部１０５ａ−２に格納される。また、履歴生成部１０５ｂ−１は現在の操作カテゴリは「住所検索」であると判断する。

音声認識コントローラ１０５は、運転者に引き続き住所を絞り込むために都道府県名の入力を促すガイダンス、例えば「都道府県名をどうぞ」をスピーカー１０３、およびモニタ１０４を介して出力する。運転者が都道府県名として「神奈川県」と発話すると、運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。

メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。そして、認識された単語「神奈川県」は、運転者による発話の履歴として対話履歴記憶部１０５ａ−２に格納される。

音声認識コントローラ１０５は、さらに住所を絞り込むために市町村名の入力を促すガイダンス、例えば「市町村名をどうぞ」をスピーカー１０３、およびモニタ１０４を介して出力する。ここで、運転者は都合により音声入力を中断したいと考え、音声入力を中断するためのコマンドとして「ちょっと待って」と発話したとする。運転者の発話はマイク１０１を介して入力され、音声信号がメモリ１０５ａに一時的に格納される。そして、メモリ１０５ａに格納された音声信号と、音声認識用辞書１０５ａ−１に格納された待受け単語とが、音声認識コントローラ１０５によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。

これにより、音声認識コントローラ１０５は運転者によって音声入力の中断指示が出されたと判断する。この場合、音声認識コントローラ１０５は、音声入力の中断直前に出力したガイダンスによって運転者に要求した操作を示す単語を対話履歴記憶部１０５ａ−２に格納する。すなわち中断直前に運転者に出力したガイダンス「市町村名をどうぞ」を示す「要市町村名」が対話履歴記憶部１０５ａ−２に格納される。

その後、運転者によって音声入力操作スイッチ１０２が押下され、音声入力が再開されると、履歴生成部１０５ｂ−１は、対話履歴記憶部１０５ａ−２から音声入力中断前の対話履歴を読み込む。すなわち、本実施の形態においては、「住所検索」、「神奈川県」、および「要市町村名」が読み込まれる。そして、履歴生成部１０５ｂ−１は、操作カテゴリが「住所検索」の場合の履歴生成方法をメモリ１０５ａから読み込む。

操作カテゴリが「住所検索」の場合、上述したように、音声認識コントローラ１０５と運転者との対話が単純であることから、履歴生成方法として「最終発話抽出」が設定されている。したがって、履歴生成部１０５ｂ−１は、対話履歴記憶部１０５ａ−２から読み込んだ対話履歴から中断前の運転者による最後の発話、すなわち「神奈川県」を抽出する。また、履歴生成部１０５ｂ−１は、「要市町村名」から音声入力再開後は運転者に対して市町村名の入力を促す必要があると判断できるため、抽出した最後の発話に運転者の発話を促すガイダンス、例えば「続きをどうぞ」を付加する。抽出した最後の発話とガイダンス、すなわち「神奈川県続きをどうぞ」は、スピーカー１０３から音声出力され、モニタ１０４に図２（ｂ）に示すように表示される。これにより、運転者は市町村名の入力から再開すれば良いことを把握することができ、住所検索を続行することができる。

以上説明した処理の流れを、図３に示すフローチャートにしたがって詳細に説明する。ステップＳ１０において、運転者によって音声入力操作スイッチ１０２が押下されたか否かが判断される。運転者によって音声入力操作スイッチ１０２が押下されたと判断された場合、音声認識コントローラ１０５は音声入力を開始してステップＳ２０へ進む。ステップＳ２０において、音声認識コントローラ１０５は、スピーカー１０３、およびモニタ１０４を介して、運転者に対して発話を促すガイダンスを出力すると、ステップＳ３０で音声待ち受け状態となる。

ステップＳ４０において、音声入力があったか否か、すなわち運転者の発話がマイク１０１を介して入力されたか否かが判断される。音声入力があったと判断された場合は、ステップＳ５０へ進む。ステップＳ５０において、音声認識コントローラ１０５は発話派の発話によって入力された音声信号をメモリ１０５ａに格納し、音声認識用辞書１０５ａ−１に格納された待受け単語とマッチング処理することにより音声認識を実行する。

ステップＳ６０において、運転者によって音声入力の中断が指示されたか否かが判断される。運転者によって音声入力が指示されないと判断された場合には、ステップＳ７０へ進む。ステップＳ７０において、上記音声認識した単語を対話履歴として対話履歴記憶部１０５ａ−２に格納する。

ステップＳ８０において、音声入力が終了したか否かが判断される。すなわち、各操作カテゴリにおけるすべての音声入力が完了したか否かが判断される。例えば、操作カテゴリが「交通情報確認」である場合には、運転者が交通情報取得のために情報センターへ接続することに同意した場合に、すべての音声入力が完了したと判断する。また、操作カテゴリが「住所検索」である場合には、運転者が番地の入力を完了し、目的の住所が特定できた場合に、すべての音声入力が完了したと判断する。

ステップＳ８０において、音声入力が終了しないと判断された場合にはステップＳ２０へ戻り、音声認識コントローラ１０５は音声入力を継続するために運転者に対して次の発話を促すガイダンスをスピーカー１０３、およびモニタ１０４を介して出力して処理を継続する。一方、音声入力が終了したと判断された場合には、処理を終了する。

なお、上記音声入力によって認識されたコマンドは、ナビゲーション装置２００へ出力され、ナビゲーション装置２００は当該コマンドに基づいて処理を実行する。例えば、音声認識の結果、運転者が交通情報取得のために情報センターへ接続することに同意したことを認識した場合には、ナビゲーション装置２００は情報センターに所定の通信網を介して接続し、ルート上の交通情報を取得する。そして、取得した交通情報に基づいて、渋滞区間等を地図上に表示しモニタ１０４に出力する。

次に、ステップＳ６０で運転者によって音声入力の中断が指示されたと判断された場合の処理について説明する。ステップＳ６０で運転者によって音声入力の中断が指示されたと判断された場合、ステップＳ９０へ進む。ステップＳ９０において、音声認識コントローラ１０５は、音声入力中断直前に音声認識コントローラ１０５が出力したガイダンスによって運転者に要求した操作を示す単語、例えば「要接続確認」や「要市町村名」を対話履歴記憶部１０５ａ−２に格納する。

ステップＳ１００において、音声入力を中断した旨のガイダンスをスピーカー１０３、およびモニタ１０４を介して出力する。続けて音声入力を再開するときの再開方法を案内するガイダンスをスピーカー１０３、およびモニタ１０４を介して出力する。その後、ステップＳ１１０で運転者によって音声入力操作スイッチ１０２が押下され、音声入力が再開されたか否かが判断される。音声入力が再開されたと判断した場合には、ステップＳ１２０へ進む。

ステップＳ１２０において、履歴生成部１０５ｂ−１は対話履歴記憶部１０５ａ−２から音声入力中断前の履歴を読み込み、ステップＳ１３０で履歴生成部１０５ｂ−１は現在の操作カテゴリに対応した履歴生成方法をメモリ１０５ａから読み込む。ステップＳ１４０において、読み込んだ履歴生成方法が「要約生成」であるか、あるいは「最終発話抽出」であるかが判断される。

履歴生成方法が「要約生成」であると判断された場合はステップＳ１５０へ進む。ステップＳ１５０において、履歴生成部１０５ｂ−１はステップＳ１２０で読み込んだ対話履歴に基づいて、対話履歴の要約を生成する。その後ステップＳ２０に戻り、音声認識コントローラ１０５は、生成した対話履歴の要約をスピーカー１０３、およびモニタ１０４を介して出力する。

一方、ステップＳ１４０において、履歴生成方法が「最終発話抽出」であると判断された場合は、ステップＳ１６０へ進む。ステップＳ１６０において、履歴生成部１０５ｂ−１はステップＳ１２０で読み込んだ対話履歴から中断前の運転者による最後の発話を抽出する。そして、音声認識再開時に運転者に対して要求する操作に基づいたガイダンス、例えば「続きをどうぞ」を付加する。その後ステップＳ２０に戻り、音声認識コントローラ１０５は、抽出した最後の発話と付加したガイダンスをスピーカー１０３、およびモニタ１０４を介して出力する。

以上、本実施の形態によれば、以下のような作用効果を得ることができる。
（１）操作カテゴリごとに運転者と音声認識コントローラ１０５との対話の複雑度に応じて履歴提示方法を予め設定することとした。これにより、音声入力中断前の対話の複雑度に応じて、音声入力再開時に出力する履歴の内容を変化させることができる。
（２）音声入力中断前の対話が複雑な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の対話履歴の要約を提示することとした。これにより、運転者は音声入力の再開時において、中断前の対話の内容を的確に把握することができ、音声入力をスムーズに再開することができる。
（３）一方、音声入力中断前の対話が単純な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の最後の発話内容を提示することとした。これにより、中断前の対話内容が単純で対話履歴の要約を出力する必要がない場合には、煩雑な要約処理を省略することができ、直ちに音声入力を再開することができる。

なお、上述した実施の形態においては、運転者に対するガイダンスをスピーカー１０３、およびモニタ１０４を併用して出力することとした。しかし、スピーカー１０３、およびモニタ１０４のいずれか一方を用いて出力することとしてもよい。

運転者が音声入力を中断する際、音声で音声入力装置１０５へ中断の指示を出すこととした。しかし、運転者は音声入力操作スイッチ１０２を押下することで音声入力を中断してもよい。

上述した実施の形態では、本発明をカーナビゲーションシステムに適用した例を示したが、本発明はカーナビゲーションシステムに限定されず、例えば、オーディオシステム等のあらゆる装置に適用することが可能である。

上述した実施の形態では、音声案内と発話者の音声入力との対話の複雑さに応じて音声入力再開時の対話履歴の提示方法を選択する例を示したが、対話の長さや音声入力による操作の重要度に応じて対話履歴の提示方法を選択するようにしてもよい。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声入力操作スイッチ１０２は検出手段に、履歴生成部１０５ｂ−１は要約生成手段、最終音声入力抽出手段、および履歴提示方法選択手段に、スピーカー１０３、およびモニタ１０４は出力手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

本発明における音声入力装置の一実施の形態を示し、音声入力装置をカーナビゲーションシステムに適用した場合のブロック図である。対話再開時にモニタ１０４に表示されるガイダンス画面の具体例を示した図である。本実施の形態における処理の流れを示すフローチャート図である。

符号の説明

１００音声入力装置
１０１マイク
１０２音声入力操作スイッチ
１０３スピーカー
１０４モニタ
１０５音声認識コントローラ
１０５ａメモリ
１０５ａ−１音声認識用辞書
１０５ａ−２対話履歴記憶部
１０５ｂＣＰＵ
１０５ｂ−１履歴生成部
２００ナビゲーション装置

Claims

音声案内にしたがって発話者が音声入力を行い、発話者によって入力された音声信号を認識する音声入力装置において、
音声案内と発話者の音声入力との対話履歴を記憶する対話履歴記憶手段と、
発話者からの音声入力の中断指示と再開指示を検出する検出手段と、
前記検出手段によって発話者からの音声入力の中断指示が検出された後、前記検出手段によって発話者からの音声入力の再開指示が検出された場合に、前記対話履歴記憶手段に記憶された前記対話履歴の要約を生成する要約生成手段と、
前記要約生成手段によって生成された前記対話履歴の要約を発話者に出力する出力手段とを有することを特徴とする音声入力装置。
請求項１に記載の音声入力装置において、
前記要約生成手段は、前記対話履歴記憶手段に記憶されている対話履歴の中からキーワードを抽出して要約を生成することを特徴とする音声入力装置。
請求項１または２に記載の音声入力装置において、
前記検出手段によって発話者からの音声入力の中断指示が検出された後、前記検出手段によって発話者からの音声入力の再開指示が検出された場合に、前記対話履歴記憶手段に記憶された前記対話履歴から発話者による最後の音声入力を抽出する最終音声入力抽出手段と、
前記発話者の音声入力による操作の種類に応じて、前記要約生成手段により前記対話履歴を要約するか、または前記最終音声入力抽出手段により最後の音声入力を抽出するかを選択する履歴提示方法選択手段とをさらに有し、
前記出力手段は、前記履歴提示方法選択手段により選択された前記対話履歴の要約、または前記最後の音声入力を出力することを特徴とする音声入力装置。
請求項３に記載の音声入力装置において、
前記履歴提示方法選択手段は、音声案内と発話者の音声入力との対話が複雑な種類の操作に対しては、前記要約生成手段による前記対話履歴の要約を選択し、音声案内と発話者の音声入力との対話が単純な種類の操作に対しては、前記最終音声入力抽出手段による最後の音声入力の抽出を選択することを特徴とする音声入力装置。
請求項１〜４のいずれか一項に記載の音声入力装置において、
前記出力手段は、画像を表示するモニタ、および音声を出力するスピーカーのうち、少なくともいずれか一方であることを特徴とする音声入力装置。
音声案内にしたがって発話者が音声入力を行い、発話者によって入力された音声信号を認識する音声入力方法において、
音声案内と発話者の音声入力との対話履歴を記憶するとともに、発話者からの音声入力の中断指示と再開指示を検出し、
発話者からの音声入力の中断指示が検出された後、発話者からの音声入力の再開指示が検出された場合に、前記対話履歴の要約を生成し、
生成された前記対話履歴の要約を発話者に出力することを特徴とする音声入力方法。