JP2005121966A

JP2005121966A - 音声認識装置、および音声認識方法

Info

Publication number: JP2005121966A
Application number: JP2003357893A
Authority: JP
Inventors: Hiroshi Saito; 浩斎藤; Shinpei Sato; 真平佐藤
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-10-17
Filing date: 2003-10-17
Publication date: 2005-05-12

Abstract

【課題】
音声認識の際に待ち受ける語彙数を、システムが同時に待ち受け可能な語彙数の範囲内に絞り込み、音声認識にかかる時間を短縮し、音声認識性能を向上することができる音声認識装置を提供すること。
【解決手段】
発話者によって発話された都市名は、マイク１０１より入力され、メモリ１０４上でセットしたコマンドリストとマッチング処理され、最も一致度の高いコマンドが認識結果として認識される。誤認識が発生した場合、都市名の先頭から２文字の入力を促す。マイク１０１から入力された２文字のアルファベットから始まる都市名を音声地図データ１０８から抽出し、音声認識用辞書１０７に格納し、同時にコマンドリストとしてメモリ１０４にセットし、マッチング処理される。
【選択図】図１

Description

本発明は、車両に搭載されたナビゲーションシステム、オーディオシステム、ハンズフリー電話システム等の情報機器を、音声によって操作するための音声認識装置、および音声認識方法に関する。

音声入力を利用した車載用ナビゲーション装置は特許文献１によって知られている。この車載用ナビゲーション装置においては、検索したい住所を入力装置に向けて発話することにより、ナビゲーション装置が住所を認識し、当該住所地点を目的地として検索することができる。

特開平１１−３２５９４６号公報

しかしながら、このような音声入力を活用した住所入力方法では、一般にシステムが同時に待ち受け可能な語彙数には制限があり、制限を超えた数の語彙は同時に待ち受けできないという問題があった。また、この待ち受け語彙の制限を緩め、多くの語彙を待ち受け可能とした場合には、音声認識にかかる時間が長くなり、さらに音声認識性能が低下するという問題が発生していた。

本発明は、発話者の発話を入力し、音声認識語としてあらかじめ記憶されている音声データの中から、入力された所定の文字数の文字を先頭に含む音声データを抽出し、抽出された音声データを音声認識用待ち受け単語として格納し、入力された発話内容と音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする。また、本発明は、発話者の発話を入力し、音声認識語としてあらかじめ記憶されている音声データの中から、所定の条件に合致した第１の音声データを抽出し、第１の音声データを音声認識用待ち受け単語として第１の音声認識用辞書に格納し、入力された発話内容と第１の音声認識用辞書に格納された音声認識用待ち受け単語とに基づいて音声認識を行い、音声認識の結果が、誤認識であると判断された場合に、音声認識語としてあらかじめ記憶されている音声データの中から、発話者によって入力された所定の文字数の文字を先頭に含む第２の音声データを抽出し、第２の音声データを音声認識用待ち受け単語として第２の音声認識用辞書に格納し、入力された発話内容と前記第２の音声認識用辞書に格納された音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする。

本発明によれば、音声認識の際に待ち受ける語彙数を、あらかじめシステムが同時に待ち受け可能な語彙数の範囲内に絞り込むことができ、さらには音声認識にかかる時間を短縮し、音声認識性能を向上することができる。

図１は、本発明による音声認識装置の一実施の形態を示し、音声認識装置をカーナビゲーションシステムへと適用した場合のブロック図である。ナビゲーションシステム１００は、操作者の発話を入力するマイク１０１と、音声入力の開始、キャンセルを指示するための操作スイッチ１０２と、入力された音声信号を分析し内容を認識する音声認識装置１０６とを有する。マイク１０１は車両のルームミラー近傍、あるいはステアリングコラム等、ドライバーの口元に接近した位置に設置される。また、操作スイッチ１０２は通常は車両のステアリングホイール等に設置される。ガイダンス音声やビープ音はスピーカー１０３から出力される。ナビゲーションシステム１００はまた、ナビゲーションシステムの動作をコントロールするナビゲーションシステム制御装置１０９と、音声信号の認識結果や周辺地図を表示するモニタ１１０とを有する。

音声認識装置１０６は、マイク１０１から入力された音声信号を一時的に記憶しておくメモリ１０４と、音声認識装置１０６を制御するＣＰＵ１０５と、音声認識実行時の待ち受け単語を格納する音声認識用辞書１０７と、住所や目的地名称などの地図データの音声データが全て格納されている音声地図データ格納装置１０８とを有する。

以下、フランスの住所を音声で入力して目的地の設定を行う場合を一例として、本実施の形態のナビゲーションシステム１００を詳細に説明する。本発明に直接関わりのない所定時間発話が無かった時の処理や発話のキャンセル処理についての記載は省略する。なお、本実施の形態における発話のキャンセル方法は、以下に説明する各画面が表示されている状態で、操作スイッチ１０２を短押しすることにより最新の１発話のみキャンセルすることができ、操作スイッチ１０２を長押しすることにより音声入力を全てキャンセルすることができる。

図２〜図５は、カーナビゲーションシステムで音声によって住所を入力し、使用者の発話を音声認識用辞書１０７とマッチングさせることによって、発話された言葉を認識する処理のフローチャートである。図６〜図８は、図２〜図５に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。

図２のステップＳ１０において、図６に示す音声入力開始前の画面０がモニタ１１０に表示され、ステップＳ２０において操作スイッチ１０２が短押しされたと判断されると、ステップＳ３０へ進む。ステップＳ３０において画面１−１がモニタ１１０に表示される。画面１−１においては、「コマンドをどうぞ」のように発話を促すガイダンスが画面１−１上に表示され、同時にガイダンス音声がスピーカー１０３より出力される。

ステップＳ４０において、音声認識用辞書１０７からコマンドリストが選択され、メモリ１０４にセットされる。ここでコマンドリストとは、発話者が発話する可能性のあるコマンド、例えば目的地設定を行うために発話する可能性がある「住所」や「施設名」や「最近の目的地」などのリストである。このコマンドリストのコマンドと発話者から入力される音声情報とがマッチング処理され、音声の認識が行われる。

コマンドリストのセットが完了すると、ステップＳ５０にて画面１−２がモニタ１１０に表示され、スピーカー１０３よりビープ音が出力され、ビープ音が終了するとステップＳ６０へ進み、音声入力待ち受け状態となる。

ステップＳ７０で使用者が住所検索を行うためのコマンド「住所」を発話したと判断されると、ステップＳ８０にて音声認識を行う。すなわち、使用者の発話はマイク１０１を通して入力される。受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ４０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。

コマンドが認識されると、ステップＳ９０において画面Ａ−１がモニタ１１０に表示される。画面Ａ−１においては、発話者に対して次のコマンドの発話を促すガイダンスがスピーカー１０３より出力される。ここでは、都市名の入力を行うため「都市名をどうぞ」のようにガイダンスが出力される。

ステップＳ１００において、音声地図データ格納装置１０８から都市名の音声データが読み込まれる。すなわち、次に発話者が発話する都市名を待ち受けるために、あらかじめ音声地図データ格納装置１０８に格納されている都市名の音声データを音声認識用辞書１０７に読み込んでおく。しかし、一般に音声認識装置が同時に待ち受けることができる語彙数には制限がある。すなわち、音声認識用辞書１０７にセットできる都市名の音声データの数は限られており、音声地図データ格納装置１０８に格納されている都市名の音声データが、音声認識用辞書１０７にセット可能な音声データの数を超えている場合は、全てを読み込むことができない。

そこで、ステップＳ１１０において、音声地図データ格納装置１０８に格納されている都市名の音声データの総数と同時待ち受け可能な語彙数の比較が行われる。そして、音声地図データ格納装置１０８に格納されている都市名の音声データの総数が同時待ち受け可能な語彙数よりも少ないと判断された場合には、ステップＳ１３０に進み、全ての都市の音声データを音声認識用辞書１０７にセットする。逆に音声地図データ格納装置１０８に格納されている都市名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合には、ステップＳ１２０に進み、同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書１０７にセットする。

ステップＳ１２０において、同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書１０７にセットする場合に、音声認識用辞書１０７にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように、セットする対象を選択する必要がある。例えば人口の多い都市を上位から選択しても良いし、自車位置に近い順に都市を選択しても良い。これらの条件は、システムにあらかじめ設定されており、ユーザーが自由に変更できるようにしても良い。なお、後に詳細に説明するとおり、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、認識率を上げるために、その文字から始まる都市名を優先的に選択するようにする。

なお、本実施の形態においては、上述したとおりフランスの住所を入力するため、音声地図データ格納装置１０８にはフランスの地図データの音声データが格納されているものとする。よってここでは、フランスの都市名の音声データが音声認識用辞書１０７にセットされ、コマンドリストとしてメモリ１０４にセットされる。そして、図３のステップＳ１４０において、音声認識用辞書１０７にセットした都市名の音声データはコマンドリストとしてメモリ１０４にセットされる。

ステップＳ１５０において画面Ａ−２がモニタ１１０に表示され、同時にスピーカー１０３よりビープ音が出力された後、ステップＳ１６０にて音声入力待ち受け状態となる。

ステップＳ１７０にて発話者がフランスの都市「Ｐａｒｉｓ」を発話したと判断されると、ステップＳ１８０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ１４０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い都市名が選択され、認識結果として決定される。

都市名が認識されると、ステップＳ１９０において図７に示す画面Ｂ−１がモニタ１１０に表示される。画面Ｂ−１においては、認識結果と認識結果が正しいか否かを問うメッセージが画面Ｂ−１上に表示され、同時にスピーカー１０３より認識結果が出力される。

ステップＳ２００において、音声認識用辞書１０７からコマンドリストが選択され、メモリ１０４にセットされる。ここではユーザーに対してステップＳ１７０で発話した内容とステップＳ１９０で画面表示、および音声出力された認識結果とが一致しているか否かの返答を「はい」か「いいえ」で返答するように求めているので、コマンドリストには「はい」と「いいえ」がセットされる。

ステップＳ２１０にて、画面Ｂ−２がモニタ１１０に表示され、ビープ音がスピーカー１０３より出力されると、ステップＳ２２０にて音声待ち受け状態となる。

ステップＳ２３０で発話者が「はい」か「いいえ」を発話したと判断されると、ステップＳ２４０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ２００でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。

ステップ２５０にて、ステップＳ２４０で認識した発話内容が「はい」であったか「いいえ」であったかの判断がされる。発話内容が「いいえ」であったと判断されると、ステップＳ１８０において認識された結果が間違っていたことになるため、ステップＳ２６０に進み後述する都市名のアルファベット入力処理が行われる。発話内容が「はい」であったと判断された場合は、ステップＳ１８０において認識された結果は正しかったと判断され、図４のステップＳ２７０に進む。

ステップＳ２７０においては、画面Ｃ−１がモニタ１１０に表示され、発話者に対して次のコマンドの発話を促すガイダンスがスピーカー１０３より出力される。ここでは、道路名の入力を行うため「道路名をどうぞ」のようにガイダンスが出力される。

ステップＳ２８０において、音声地図データ格納装置１０８から道路名の音声データが読み込まれる。すなわち、ステップＳ１００において都市名を読み込んだときと同様に、次に発話者が発話する道路名を待ち受けるために、あらかじめ音声地図データ格納装置１０８に格納されている道路名を音声認識用辞書１０７に読み込んでおく。ここでも音声認識装置が同時に待ち受けることができる語彙数には制限があるため、音声地図データ格納装置１０８に格納されている道路名の音声データが、音声認識用辞書１０７にセット可能な音声データの数を超えている場合は、全てを読み込むことができない。

そこで、ステップＳ２９０において、音声地図データ格納装置１０８に格納されている道路名の音声データの総数と同時待ち受け可能な語彙数の比較が行われる。そして、音声地図データ格納装置１０８に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも少ないと判断された場合には、ステップＳ３１０に進み、全ての道路名の音声データを音声認識用辞書１０７にセットする。逆に音声地図データ格納装置１０８に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合には、ステップＳ３００に進み、後述する道路名のアルファベット入力処理を行う。

なお、ステップＳ３００においては、ステップＳ１２０において、都市名の音声データを音声地図データ格納装置１０８から読み込み、音声認識用辞書１０７にセットした時と同様に処理を行っても良い。すなわち、同時待ち受け可能な語彙数分の道路名の音声データのみを所定の条件に基づいて選択し、音声認識用辞書１０７にセットしても良い。例えば自車位置に近い順に道路を選択しても良く、これらの条件は、システムにあらかじめ設定されており、ユーザーが自由に変更できるようにしても良い。この場合は、ステップＳ１９０〜ステップＳ２５０と同様の処理を、道路名の認識結果に対して行い、誤認識が発生した場合には、ステップＳ２６０における都市名のアルファベット入力処理を道路名に対して行う必要がある。

ステップＳ３２０にて音声認識用辞書１０７にセットされた道路名の音声データがコマンドリストとしてメモリ１０４にセットされる。ステップＳ３３０において画面Ｃ−２がモニタ１１０に表示され、同時にスピーカー１０３よりビープ音が出力された後、ステップＳ３４０にて音声入力待ち受け状態となる。

ステップＳ３５０において、発話者がパリの道路「ＲｕｅＰａｊｏｕ」を発話したと判断されると、ステップＳ３６０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ３２０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い道路名が選択され、認識結果として決定される。

道路名が認識されると、図５のステップＳ３７０において図８に示す画面Ｄ−１がモニタ１１０に表示される。画面Ｄ−１においては、認識結果が画面Ｄ−１上に表示され、続けて発話者に対して次のコマンドの発話を促すガイダンスがスピーカー１０３より出力される。ここでは、番地の入力を行うため「番地をどうぞ」のようにガイダンスが出力される。

ステップＳ３８０において、音声認識用辞書１０７からコマンドリストが選択され、メモリ１０４にセットされる。ここでは番地の候補として０〜９の数字がコマンドリストとしてセットされる。ステップＳ３９０において、画面Ｄ−２がモニタ１１０に表示され、ビープ音がスピーカー１０３より出力されると、ステップＳ４００にて音声待ち受け状態となる。

ステップＳ４１０で使用者が「１２３４５」という番地を発話したと判断されると、ステップＳ４２０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ３８０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い番地が選択され、認識結果として決定される。

番地が認識されると、ステップＳ４３０において画面Ｅ−１がモニタ１１０に表示される。画面Ｅ−１においては、認識結果が画面Ｅ−１上に表示される。そして、続けて上記で確定した目的利までの経路探索を行うか否かを発話者に対して問うガイダンスが「経路探索を開始しますか？」のようにスピーカー１０３より出力される。

ステップＳ４４０において、音声認識用辞書１０７からコマンドリストが選択され、メモリ１０４にセットされる。ここではユーザーに対して経路探索を行うか否かを問い、「はい」か「いいえ」で返答するように求めているので、コマンドリストには「はい」と「いいえ」がセットされる。

ステップＳ４５０にて、画面Ｅ−２がモニタ１１０に表示され、ビープ音がスピーカー１０３より出力されると、ステップＳ４６０にて音声待ち受け状態となる。

ステップＳ４７０で発話者が「はい」か「いいえ」を発話したと判断されると、ステップＳ４８０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ４４０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。

ステップＳ４９０にて、ステップＳ４７０で認識した発話内容が「はい」であったか「いいえ」であったかの判断がされる。発話内容が「いいえ」とであったと判断されると、発話者は決定した目的地までの経路案内を望んでいないと考えられることから、ステップＳ３７０へ戻り、再度番地を入力し直し、目的地を決定するよう処理を続ける。また、発話内容が「はい」であったと判断されると、ステップＳ５００において、上記で設定した住所を目的地として経路の探索が行われる。そして、経路の探索が完了すると、スピーカー１０３より出力される音声、およびモニタ１１０に表示される地図による目的地までの経路案内が開始される。

図３のステップＳ２６０における都市名のアルファベット入力処理について、図９、図１０を用いて詳細に説明する。図９はステップＳ２４０で認識された都市名がステップＳ２５０で間違っていると判断された時に処理される都市名のアルファベット入力処理の流れを示すフローチャートである。また、図１０は、図９に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。

ここで、都市名が誤認識される理由としては、図３のステップＳ１７０にて発話された都市名が、図２のステップＳ１２０にて音声認識用辞書１０７にセットした都市名に含まれておらず認識できなかったことが考えられる。あるいは、ステップＳ１２０やステップＳ１３０で音声認識用辞書１０７にセットした同時待ち受け可能な語彙数が多いため認識率の低下を招いて誤認識が発生したことも考えられる。上記いずれのケースにおいても、音声認識用辞書１０７にセットする都市名の音声データの数を、あらかじめ発話者が発話する可能性のあるもののみに絞り込んでおくことにより、誤認識の発生を回避することができる。

よって、都市名のアルファベット入力処理においては、都市名の発話を行う前に、目的地の都市名の先頭から所定の文字数分のアルファベットを発話者に発話させ、その文字を含む都市名を音声認識用辞書１０７にセットするようにする。これにより、セットする都市名をあらかじめ絞り込んでおくことができ、誤認識の発生を回避することが可能となる。

ステップＳ６００において、図１０に示す画面Ｈ−１がモニタ１１０に表示され、続けて発話者に対して都市名の先頭から所定の文字数分のアルファベットを発話するようガイダンスがスピーカー１０３より出力される。ここでは、発話者は都市名の先頭２文字のアルファベットを発話するものとし、「都市名の先頭２文字を発話してください」のようにガイダンスが出力される。

なお、ここで発話させる文字数は２文字に限定されるものではなく、１文字でも３文字以上でも良い。ただし、音声認識用辞書１０７にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように都市名の音声データの絞込みが行えるよう、先頭からの文字数を発話させることとする。また、発話者に発話させる文字数は、音声地図データ格納装置１０８に格納されている都市名の音声データの数から判断して、音声認識装置１０６が上記要件を満たすように自動で設定しても良いし、発話者の判断により不図示の発話文字数設定手段によりあらかじめ設定しておいてもよい。

ステップＳ６１０において、都市名の先頭から所定の文字数分のアルファベットの音声データが音声地図データ格納装置１０８から読み込まれ、音声認識用辞書１０７にセットされる。本実施の形態においては、都市名の先頭から２文字のアルファベットの音声データが音声認識用辞書１０７にセットされる。そして、ステップＳ６２０において、音声認識用辞書１０７にセットした都市名の先頭から２文字のアルファベットの音声データはコマンドリストとしてメモリ１０４にセットされる。

ステップＳ６３０において画面Ｈ−２がモニタ１１０に表示され、同時にスピーカー１０３よりビープ音が出力された後、ステップＳ６４０にて音声入力待ち受け状態となる。

ステップＳ６５０において、発話者が都市名の先頭２文字のアルファベット「ＰＡ」を発話したと判断されると、ステップＳ６６０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ６２０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い都市名の先頭２文字のアルファベットが選択され、認識結果として決定される。

都市名の先頭２文字のアルファベットが認識されると、ステップＳ６７０において画面Ｊ−１がモニタ１１０に表示される。画面Ｊ−１においては、認識結果が画面上に表示され、同時にスピーカー１０３より認識結果が出力される。その後続けて「都市名をどうぞ」のように次の発話を促すメッセージが出力される。

ステップＳ６８０において、ステップＳ６６０で認識されたアルファベット２文字を都市名の先頭２文字に含む音声データ、すなわち「ＰＡ」で始まる都市名の音声データが音声地図データ格納装置１０８から読み込まれ、音声認識用辞書１０７にセットされる。そして、ステップＳ６９０において、音声認識用辞書１０７にセットした「ＰＡ」で始まる都市名の音声データはコマンドリストとしてメモリ１０４にセットされる。

ステップＳ７００において画面Ｊ−２がモニタ１１０に表示され、同時にスピーカー１０３よりビープ音が出力された後、図３のステップＳ１６０に戻り音声入力待ち受け状態となる。その後、図３のステップＳ１６０に戻り音声入力待ち受け状態となり、発話者による都市名の発話が行われる。

以上により、都市名の誤認識が発生した場合に、発話者が発話した所定の文字数のアルファベットにより、音声認識用辞書１０７にセットする都市名の絞込みを行うことができる。

なお、以上で説明した都市名のアルファベット入力処理の効率化を図るために、図２のステップ１２０において、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その文字から始まる都市名を優先的に選択するようにする。これは、都市名のアルファベット入力処理を行う際に、ある特定のアルファベットの組み合わせで始まる都市名が数多く存在する場合には、同時待ち受け可能な語彙数の範囲内で都市名の音声データを抽出するために、入力するアルファベットの文字数を多くする必要があり、処理が複雑化するためである。

例えば、発話者に対してアルファベット２文字を発話させ、その２文字で始まる都市名の音声データを読み込むことによって、音声認識用辞書１０７にセットする音声データを絞り込む場合について考える。この場合、発話者が「ＡＵ」と発話した時に、「ＡＵ」で始まる都市が同時待ち受け可能な語彙数よりも多い場合は、「あと３文字発話してください」のように先頭２文字に続く文字の発話を行うようガイダンスをする必要が生じ、システム構成が複雑化することとなる。これを避けるために、ステップＳ１２０において都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その文字から始まる都市名を優先的に選択するようにする。これにより、これら先頭から所定の文字数分の文字の重複度が高い都市名については、アルファベット入力に移行することなく処理を完了することができ、音声入力の効率化を図ることができる。さらに、誤認識が発生した際にアルファベット入力に移行した際には、所定の文字数分の文字の重複度が低い都市名についてアルファベット入力処理を行えば良いため、認識率を上げることができる。

次に、図４のステップＳ３００における道路名のアルファベット入力処理について、図１１、図１２を用いて詳細に説明する。図１１はステップＳ２９０で音声地図データ格納装置１０８に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された時に処理される道路名のアルファベット入力処理の流れを示すフローチャートである。また、図１２は、図１１に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。

本実施の形態においては、以下に説明する道路名のアルファベット入力処理により、道路名の発話を行う前に、目的地の道路名の先頭から所定の文字数分のアルファベットを発話者に発話させ、その文字を道路名の先頭に含む道路名を音声地図データ格納装置１０８から読み込むことによって、音声認識用辞書１０７にセットする道路名の絞込みを行う。

ステップＳ７１０において、図１２に示す画面Ｍ−１がモニタ１１０に表示され、続けて発話者に対して道路名の先頭から所定の文字数分のアルファベットを発話するようガイダンスがスピーカー１０３より出力される。ここでは、発話者は道路名の先頭２文字のアルファベットを発話するものとし、「道路名の先頭２文字を発話してください」のようにガイダンスが出力される。

なお、ここで発話させる文字数は２文字に限定されるものではなく、１文字でも３文字以上でも良い。ただし、音声認識用辞書１０７にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように道路名の音声データの絞込みが行えるよう、先頭からの文字数を発話させることとする。また、発話者に発話させる文字数は、音声地図データ格納装置１０８に格納されている道路名の数から判断して、音声認識装置１０６が上記要件を満たすように自動で設定しても良いし、発話者の判断により不図示の発話文字数設定手段によりあらかじめ設定しておいてもよい。

ステップＳ７２０において、道路名の先頭から所定の文字数分のアルファベットの音声データが音声地図データ格納装置１０８から読み込まれ、音声認識用辞書１０７にセットされる。本実施の形態においては、道路名の先頭から２文字のアルファベットの音声データが音声認識用辞書１０７にセットされる。そして、ステップＳ７３０において、音声認識用辞書１０７にセットした道路名の先頭から２文字のアルファベットの音声データはコマンドリストとしてメモリ１０４にセットされる。

ステップＳ７４０において画面Ｍ−２がモニタ１１０に表示され、同時にスピーカー１０３よりビープ音が出力された後、ステップＳ７５０にて音声入力待ち受け状態となる。

ステップＳ７６０において、発話者が道路名の先頭２文字のアルファベット「ＲＵ」を発話したと判断されると、ステップＳ７７０にて音声を受信し、受信した音声は不図示のＡ／Ｄ変換部で変換され、メモリ１０４に記憶される。そして、ステップＳ７３０でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い道路名の先頭２文字のアルファベットが選択され、認識結果として決定される。

道路名の先頭２文字のアルファベットが認識されると、ステップＳ７８０において、認識されたアルファベット２文字を道路名の先頭２文字に含む音声データ、すなわち「ＲＵ」で始まる道路名の音声データが音声地図データ格納装置１０８から読み込まれる。読み込まれた道路名の音声データは、音声認識用辞書１０７にセットされる。そして、図４のステップＳ３２０に戻り、音声認識用辞書１０７にセットした道路名の音声データは、コマンドリストとしてメモリ１０４にセットされ、処理が続けられる。

以上により、音声地図データ格納装置１０８に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多い場合においても、発話者が発話した所定の文字数のアルファベットにより、音声認識用辞書１０７にセットする道路名の絞込みを行うことができる。

以上のように、本実施の形態によれば、次のような作用効果が得られる。
（１）都市名、および道路名のアルファベット入力により、音声認識用辞書１０７にセットする音声データをあらかじめ絞り込んでおくことにより、音声認識の際に待ち受ける語彙数を、システムが同時に待ち受け可能な語彙数の範囲内に絞り込むことができる。これにより、音声認識にかかる時間を短縮し、さらには音声認識性能を向上することができる。
（２）都市名の音声認識の際に、誤認識が発生した場合に都市名のアルファベット入力処理を行い、音声認識用辞書１０７にセットする音声データを絞り込むことにより、誤認識時の再発話における音声認識の性能を向上することができる。
（３）同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書１０７にセットするときに、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その先頭文字から始まる都市名を優先的に選択するようにする。これにより、音声入力の効率化を図り、さらに音声認識の性能を向上することができる。
（４）都市名のアルファベット入力処理、および道路名のアルファベット入力処理において、「都市名（道路名）の先頭２文字を発話してください」のように、発話者に対して所定の文字数分の先頭文字を入力するよう促すこととした。これによりアルファベット入力処理に移行した際に、発話者が次に何をすべきかを把握することができ、発話者にとって利用しやすい環境を提供することができる。

本実施の形態においては、都市名の音声認識において誤認識が発生した場合に、および道路名の音声データの総数が同時待ち受け可能な語彙数よりも多い場合に、都市名および道路名のアルファベット入力処理を行う方法について説明したが、都市名、道路名以外の音声認識においても、本発明におけるアルファベット入力処理は適用可能である。

道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合に、道路名のアルファベット入力処理について説明した。都市名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合も、同様に都市名のアルファベット入力処理を行うことができる。都市名、道路名以外の音声データの総数が同時待ち受け可能な語彙数よりも多い場合にも、本発明におけるアルファベット入力処理は適用可能である。

道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合も、都市名で説明した方法と同様に処理を行うことができる。すなわち、道路名の先頭から所定の文字数分の文字が重複する道路が多数存在する場合は、それらの道路名を優先的に選択して、音声認識用辞書１０７にセットしてもよい。なお、都市名、道路名以外の音声データの総数が同時待ち受け可能な語彙数よりも多い場合にも、同様の処理は適用可能である。

上述の説明では、本発明による音声認識装置をカーナビゲーションシステムに実装したが、本発明はこれに限定されず、たとえば、カーナビゲーションシステムの代わりにオーディオシステムやハンズフリー電話システム等に実装しても良い。

フランス語の住所を音声入力する場合について説明したが、日本語や英語等の住所を入力する発明にも本発明を適用できる。

発話者に対して所定の文字数のアルファベットを音声入力するよう促し、音声データの絞込みを行ったが、数字や日本語の読み等の音声入力を促し、音声データの絞込みを行っても良い。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１０１は音声入力手段に、メモリ１０４は音声信号記憶手段に、音声地図データ格納装置１０８は音声データ格納手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

本発明によるカーナビゲーションシステムにおける音声入力システムのシステムブロック図である本実施の形態において、音声入力により目的地を設定する処理の第１のフローチャートである。本実施の形態において、音声入力により目的地を設定する処理の第２のフローチャートである。本実施の形態において、音声入力により目的地を設定する処理の第３のフローチャートである。本実施の形態において、音声入力により目的地を設定する処理の第４のフローチャートである。本実施の形態における画面遷移を表す第１の図である。本実施の形態における画面遷移を表す第２の図である。本実施の形態における画面遷移を表す第３の図である。都市名のアルファベット入力処理のフローチャートである。本実施の形態における図９の処理の画面遷移を表す図である。道路名のアルファベット入力処理のフローチャートである。本実施の形態における図１１の処理の画面遷移を表す図である。

符号の説明

１００ナビゲーションシステム
１０１マイク
１０２操作スイッチ
１０３スピーカー
１０４メモリ
１０５ＣＰＵ
１０６音声認識装置
１０７音声認識用辞書
１０８音声地図データ格納装置
１０９ナビゲーションシステム制御装置
１１０モニタ

Claims

音声認識語として用いられるための音声データを格納する音声データ格納手段と、
音声入力手段より入力された所定の文字数の文字を認識し、前記音声データ格納手段に格納された前記音声データの中から、認識した文字を先頭に含む音声データを抽出する音声データ抽出手段と、
前記音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する音声認識用辞書と、
前記音声入力手段より入力された発話内容と前記音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて、音声認識を行う音声認識手段とを有することを特徴とする音声認識装置。
音声認識語として用いられるための音声データを格納する音声データ格納手段と、
前記音声データ格納手段に格納された前記音声データの中から、所定の条件に合致した前記音声データを抽出する第１の音声データ抽出手段と、
前記第１の音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する第１の音声認識用辞書と、
前記音声入力手段より入力された発話内容と前記第１の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行う第１の音声認識手段と、
前記音声認識の結果、誤認識が発生したことを検出する誤認識検出手段と、
前記第１の音声認識手段による音声認識の結果が、前記誤認識検出手段によって誤認識であると判断された場合に、前記音声データ格納手段に格納された前記音声データの中から、前記音声入力手段より入力された所定の文字数の文字を先頭に含む音声データを抽出する第２の音声データ抽出手段と、
前記第２の音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する第２の音声認識用辞書と、
前記音声入力手段より入力された発話内容と前記第２の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行う第２の音声認識手段とを有することを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記第１の音声データ抽出手段は、前記音声データ格納手段に格納された音声データの中から、先頭から所定の文字数分の音声データが数多く一致するものを優先して抽出することを特徴とする音声認識装置。
請求項１〜３のいずれかに記載の音声認識装置において、
前記発話者が発話する発話内容は、都市名称もしくは道路名称であることを特徴とする音声認識装置。
請求項１〜４に記載の音声認識装置において、
発話者に対して前記所定の文字数の文字を入力するように促す手段をさらに有することを特徴とする音声認識装置。
発話者の発話を入力し、
音声認識語としてあらかじめ記憶されている音声データの中から、入力された所定の文字数の文字を先頭に含む音声データを抽出し、
抽出された音声データを音声認識用待ち受け単語として格納し、
入力された発話内容と前記音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする音声認識方法。
発話者の発話を入力し、
音声認識語としてあらかじめ記憶されている音声データの中から、所定の条件に合致した第１の音声データを抽出し、
前記第１の音声データを音声認識用待ち受け単語として第１の音声認識用辞書に格納し、
入力された発話内容と前記第１の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行い、
音声認識の結果が、誤認識であると判断された場合に、音声認識語としてあらかじめ記憶されている音声データの中から、発話者によって入力された所定の文字数の文字を先頭に含む第２の音声データを抽出し、
前記第２の音声データを音声認識用待ち受け単語として第２の音声認識用辞書に格納し、
入力された発話内容と前記第２の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする音声認識方法。