JP2005121966A - 音声認識装置、および音声認識方法 - Google Patents

音声認識装置、および音声認識方法 Download PDF

Info

Publication number
JP2005121966A
JP2005121966A JP2003357893A JP2003357893A JP2005121966A JP 2005121966 A JP2005121966 A JP 2005121966A JP 2003357893 A JP2003357893 A JP 2003357893A JP 2003357893 A JP2003357893 A JP 2003357893A JP 2005121966 A JP2005121966 A JP 2005121966A
Authority
JP
Japan
Prior art keywords
speech recognition
speech
voice
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003357893A
Other languages
English (en)
Inventor
Hiroshi Saito
浩 斎藤
Shinpei Sato
真平 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2003357893A priority Critical patent/JP2005121966A/ja
Publication of JP2005121966A publication Critical patent/JP2005121966A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

【課題】
音声認識の際に待ち受ける語彙数を、システムが同時に待ち受け可能な語彙数の範囲内に絞り込み、音声認識にかかる時間を短縮し、音声認識性能を向上することができる音声認識装置を提供すること。
【解決手段】
発話者によって発話された都市名は、マイク101より入力され、メモリ104上でセットしたコマンドリストとマッチング処理され、最も一致度の高いコマンドが認識結果として認識される。誤認識が発生した場合、都市名の先頭から2文字の入力を促す。マイク101から入力された2文字のアルファベットから始まる都市名を音声地図データ108から抽出し、音声認識用辞書107に格納し、同時にコマンドリストとしてメモリ104にセットし、マッチング処理される。
【選択図】 図1

Description

本発明は、車両に搭載されたナビゲーションシステム、オーディオシステム、ハンズフリー電話システム等の情報機器を、音声によって操作するための音声認識装置、および音声認識方法に関する。
音声入力を利用した車載用ナビゲーション装置は特許文献1によって知られている。この車載用ナビゲーション装置においては、検索したい住所を入力装置に向けて発話することにより、ナビゲーション装置が住所を認識し、当該住所地点を目的地として検索することができる。
特開平11−325946号公報
しかしながら、このような音声入力を活用した住所入力方法では、一般にシステムが同時に待ち受け可能な語彙数には制限があり、制限を超えた数の語彙は同時に待ち受けできないという問題があった。また、この待ち受け語彙の制限を緩め、多くの語彙を待ち受け可能とした場合には、音声認識にかかる時間が長くなり、さらに音声認識性能が低下するという問題が発生していた。
本発明は、発話者の発話を入力し、音声認識語としてあらかじめ記憶されている音声データの中から、入力された所定の文字数の文字を先頭に含む音声データを抽出し、抽出された音声データを音声認識用待ち受け単語として格納し、入力された発話内容と音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする。また、本発明は、発話者の発話を入力し、音声認識語としてあらかじめ記憶されている音声データの中から、所定の条件に合致した第1の音声データを抽出し、第1の音声データを音声認識用待ち受け単語として第1の音声認識用辞書に格納し、入力された発話内容と第1の音声認識用辞書に格納された音声認識用待ち受け単語とに基づいて音声認識を行い、音声認識の結果が、誤認識であると判断された場合に、音声認識語としてあらかじめ記憶されている音声データの中から、発話者によって入力された所定の文字数の文字を先頭に含む第2の音声データを抽出し、第2の音声データを音声認識用待ち受け単語として第2の音声認識用辞書に格納し、入力された発話内容と前記第2の音声認識用辞書に格納された音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする。
本発明によれば、音声認識の際に待ち受ける語彙数を、あらかじめシステムが同時に待ち受け可能な語彙数の範囲内に絞り込むことができ、さらには音声認識にかかる時間を短縮し、音声認識性能を向上することができる。
図1は、本発明による音声認識装置の一実施の形態を示し、音声認識装置をカーナビゲーションシステムへと適用した場合のブロック図である。ナビゲーションシステム100は、操作者の発話を入力するマイク101と、音声入力の開始、キャンセルを指示するための操作スイッチ102と、入力された音声信号を分析し内容を認識する音声認識装置106とを有する。マイク101は車両のルームミラー近傍、あるいはステアリングコラム等、ドライバーの口元に接近した位置に設置される。また、操作スイッチ102は通常は車両のステアリングホイール等に設置される。ガイダンス音声やビープ音はスピーカー103から出力される。ナビゲーションシステム100はまた、ナビゲーションシステムの動作をコントロールするナビゲーションシステム制御装置109と、音声信号の認識結果や周辺地図を表示するモニタ110とを有する。
音声認識装置106は、マイク101から入力された音声信号を一時的に記憶しておくメモリ104と、音声認識装置106を制御するCPU105と、音声認識実行時の待ち受け単語を格納する音声認識用辞書107と、住所や目的地名称などの地図データの音声データが全て格納されている音声地図データ格納装置108とを有する。
以下、フランスの住所を音声で入力して目的地の設定を行う場合を一例として、本実施の形態のナビゲーションシステム100を詳細に説明する。本発明に直接関わりのない所定時間発話が無かった時の処理や発話のキャンセル処理についての記載は省略する。なお、本実施の形態における発話のキャンセル方法は、以下に説明する各画面が表示されている状態で、操作スイッチ102を短押しすることにより最新の1発話のみキャンセルすることができ、操作スイッチ102を長押しすることにより音声入力を全てキャンセルすることができる。
図2〜図5は、カーナビゲーションシステムで音声によって住所を入力し、使用者の発話を音声認識用辞書107とマッチングさせることによって、発話された言葉を認識する処理のフローチャートである。図6〜図8は、図2〜図5に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。
図2のステップS10において、図6に示す音声入力開始前の画面0がモニタ110に表示され、ステップS20において操作スイッチ102が短押しされたと判断されると、ステップS30へ進む。ステップS30において画面1−1がモニタ110に表示される。画面1−1においては、「コマンドをどうぞ」のように発話を促すガイダンスが画面1−1上に表示され、同時にガイダンス音声がスピーカー103より出力される。
ステップS40において、音声認識用辞書107からコマンドリストが選択され、メモリ104にセットされる。ここでコマンドリストとは、発話者が発話する可能性のあるコマンド、例えば目的地設定を行うために発話する可能性がある「住所」や「施設名」や「最近の目的地」などのリストである。このコマンドリストのコマンドと発話者から入力される音声情報とがマッチング処理され、音声の認識が行われる。
コマンドリストのセットが完了すると、ステップS50にて画面1−2がモニタ110に表示され、スピーカー103よりビープ音が出力され、ビープ音が終了するとステップS60へ進み、音声入力待ち受け状態となる。
ステップS70で使用者が住所検索を行うためのコマンド「住所」を発話したと判断されると、ステップS80にて音声認識を行う。すなわち、使用者の発話はマイク101を通して入力される。受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS40でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。
コマンドが認識されると、ステップS90において画面A−1がモニタ110に表示される。画面A−1においては、発話者に対して次のコマンドの発話を促すガイダンスがスピーカー103より出力される。ここでは、都市名の入力を行うため「都市名をどうぞ」のようにガイダンスが出力される。
ステップS100において、音声地図データ格納装置108から都市名の音声データが読み込まれる。すなわち、次に発話者が発話する都市名を待ち受けるために、あらかじめ音声地図データ格納装置108に格納されている都市名の音声データを音声認識用辞書107に読み込んでおく。しかし、一般に音声認識装置が同時に待ち受けることができる語彙数には制限がある。すなわち、音声認識用辞書107にセットできる都市名の音声データの数は限られており、音声地図データ格納装置108に格納されている都市名の音声データが、音声認識用辞書107にセット可能な音声データの数を超えている場合は、全てを読み込むことができない。
そこで、ステップS110において、音声地図データ格納装置108に格納されている都市名の音声データの総数と同時待ち受け可能な語彙数の比較が行われる。そして、音声地図データ格納装置108に格納されている都市名の音声データの総数が同時待ち受け可能な語彙数よりも少ないと判断された場合には、ステップS130に進み、全ての都市の音声データを音声認識用辞書107にセットする。逆に音声地図データ格納装置108に格納されている都市名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合には、ステップS120に進み、同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書107にセットする。
ステップS120において、同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書107にセットする場合に、音声認識用辞書107にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように、セットする対象を選択する必要がある。例えば人口の多い都市を上位から選択しても良いし、自車位置に近い順に都市を選択しても良い。これらの条件は、システムにあらかじめ設定されており、ユーザーが自由に変更できるようにしても良い。なお、後に詳細に説明するとおり、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、認識率を上げるために、その文字から始まる都市名を優先的に選択するようにする。
なお、本実施の形態においては、上述したとおりフランスの住所を入力するため、音声地図データ格納装置108にはフランスの地図データの音声データが格納されているものとする。よってここでは、フランスの都市名の音声データが音声認識用辞書107にセットされ、コマンドリストとしてメモリ104にセットされる。そして、図3のステップS140において、音声認識用辞書107にセットした都市名の音声データはコマンドリストとしてメモリ104にセットされる。
ステップS150において画面A−2がモニタ110に表示され、同時にスピーカー103よりビープ音が出力された後、ステップS160にて音声入力待ち受け状態となる。
ステップS170にて発話者がフランスの都市「Paris」を発話したと判断されると、ステップS180にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS140でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い都市名が選択され、認識結果として決定される。
都市名が認識されると、ステップS190において図7に示す画面B−1がモニタ110に表示される。画面B−1においては、認識結果と認識結果が正しいか否かを問うメッセージが画面B−1上に表示され、同時にスピーカー103より認識結果が出力される。
ステップS200において、音声認識用辞書107からコマンドリストが選択され、メモリ104にセットされる。ここではユーザーに対してステップS170で発話した内容とステップS190で画面表示、および音声出力された認識結果とが一致しているか否かの返答を「はい」か「いいえ」で返答するように求めているので、コマンドリストには「はい」と「いいえ」がセットされる。
ステップS210にて、画面B−2がモニタ110に表示され、ビープ音がスピーカー103より出力されると、ステップS220にて音声待ち受け状態となる。
ステップS230で発話者が「はい」か「いいえ」を発話したと判断されると、ステップS240にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS200でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。
ステップ250にて、ステップS240で認識した発話内容が「はい」であったか「いいえ」であったかの判断がされる。発話内容が「いいえ」であったと判断されると、ステップS180において認識された結果が間違っていたことになるため、ステップS260に進み後述する都市名のアルファベット入力処理が行われる。発話内容が「はい」であったと判断された場合は、ステップS180において認識された結果は正しかったと判断され、図4のステップS270に進む。
ステップS270においては、画面C−1がモニタ110に表示され、発話者に対して次のコマンドの発話を促すガイダンスがスピーカー103より出力される。ここでは、道路名の入力を行うため「道路名をどうぞ」のようにガイダンスが出力される。
ステップS280において、音声地図データ格納装置108から道路名の音声データが読み込まれる。すなわち、ステップS100において都市名を読み込んだときと同様に、次に発話者が発話する道路名を待ち受けるために、あらかじめ音声地図データ格納装置108に格納されている道路名を音声認識用辞書107に読み込んでおく。ここでも音声認識装置が同時に待ち受けることができる語彙数には制限があるため、音声地図データ格納装置108に格納されている道路名の音声データが、音声認識用辞書107にセット可能な音声データの数を超えている場合は、全てを読み込むことができない。
そこで、ステップS290において、音声地図データ格納装置108に格納されている道路名の音声データの総数と同時待ち受け可能な語彙数の比較が行われる。そして、音声地図データ格納装置108に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも少ないと判断された場合には、ステップS310に進み、全ての道路名の音声データを音声認識用辞書107にセットする。逆に音声地図データ格納装置108に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合には、ステップS300に進み、後述する道路名のアルファベット入力処理を行う。
なお、ステップS300においては、ステップS120において、都市名の音声データを音声地図データ格納装置108から読み込み、音声認識用辞書107にセットした時と同様に処理を行っても良い。すなわち、同時待ち受け可能な語彙数分の道路名の音声データのみを所定の条件に基づいて選択し、音声認識用辞書107にセットしても良い。例えば自車位置に近い順に道路を選択しても良く、これらの条件は、システムにあらかじめ設定されており、ユーザーが自由に変更できるようにしても良い。この場合は、ステップS190〜ステップS250と同様の処理を、道路名の認識結果に対して行い、誤認識が発生した場合には、ステップS260における都市名のアルファベット入力処理を道路名に対して行う必要がある。
ステップS320にて音声認識用辞書107にセットされた道路名の音声データがコマンドリストとしてメモリ104にセットされる。ステップS330において画面C−2がモニタ110に表示され、同時にスピーカー103よりビープ音が出力された後、ステップS340にて音声入力待ち受け状態となる。
ステップS350において、発話者がパリの道路「Rue Pajou」を発話したと判断されると、ステップS360にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS320でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い道路名が選択され、認識結果として決定される。
道路名が認識されると、図5のステップS370において図8に示す画面D−1がモニタ110に表示される。画面D−1においては、認識結果が画面D−1上に表示され、続けて発話者に対して次のコマンドの発話を促すガイダンスがスピーカー103より出力される。ここでは、番地の入力を行うため「番地をどうぞ」のようにガイダンスが出力される。
ステップS380において、音声認識用辞書107からコマンドリストが選択され、メモリ104にセットされる。ここでは番地の候補として0〜9の数字がコマンドリストとしてセットされる。ステップS390において、画面D−2がモニタ110に表示され、ビープ音がスピーカー103より出力されると、ステップS400にて音声待ち受け状態となる。
ステップS410で使用者が「12345」という番地を発話したと判断されると、ステップS420にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS380でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い番地が選択され、認識結果として決定される。
番地が認識されると、ステップS430において画面E−1がモニタ110に表示される。画面E−1においては、認識結果が画面E−1上に表示される。そして、続けて上記で確定した目的利までの経路探索を行うか否かを発話者に対して問うガイダンスが「経路探索を開始しますか?」のようにスピーカー103より出力される。
ステップS440において、音声認識用辞書107からコマンドリストが選択され、メモリ104にセットされる。ここではユーザーに対して経路探索を行うか否かを問い、「はい」か「いいえ」で返答するように求めているので、コマンドリストには「はい」と「いいえ」がセットされる。
ステップS450にて、画面E−2がモニタ110に表示され、ビープ音がスピーカー103より出力されると、ステップS460にて音声待ち受け状態となる。
ステップS470で発話者が「はい」か「いいえ」を発話したと判断されると、ステップS480にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS440でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。
ステップS490にて、ステップS470で認識した発話内容が「はい」であったか「いいえ」であったかの判断がされる。発話内容が「いいえ」とであったと判断されると、発話者は決定した目的地までの経路案内を望んでいないと考えられることから、ステップS370へ戻り、再度番地を入力し直し、目的地を決定するよう処理を続ける。また、発話内容が「はい」であったと判断されると、ステップS500において、上記で設定した住所を目的地として経路の探索が行われる。そして、経路の探索が完了すると、スピーカー103より出力される音声、およびモニタ110に表示される地図による目的地までの経路案内が開始される。
図3のステップS260における都市名のアルファベット入力処理について、図9、図10を用いて詳細に説明する。図9はステップS240で認識された都市名がステップS250で間違っていると判断された時に処理される都市名のアルファベット入力処理の流れを示すフローチャートである。また、図10は、図9に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。
ここで、都市名が誤認識される理由としては、図3のステップS170にて発話された都市名が、図2のステップS120にて音声認識用辞書107にセットした都市名に含まれておらず認識できなかったことが考えられる。あるいは、ステップS120やステップS130で音声認識用辞書107にセットした同時待ち受け可能な語彙数が多いため認識率の低下を招いて誤認識が発生したことも考えられる。上記いずれのケースにおいても、音声認識用辞書107にセットする都市名の音声データの数を、あらかじめ発話者が発話する可能性のあるもののみに絞り込んでおくことにより、誤認識の発生を回避することができる。
よって、都市名のアルファベット入力処理においては、都市名の発話を行う前に、目的地の都市名の先頭から所定の文字数分のアルファベットを発話者に発話させ、その文字を含む都市名を音声認識用辞書107にセットするようにする。これにより、セットする都市名をあらかじめ絞り込んでおくことができ、誤認識の発生を回避することが可能となる。
ステップS600において、図10に示す画面H−1がモニタ110に表示され、続けて発話者に対して都市名の先頭から所定の文字数分のアルファベットを発話するようガイダンスがスピーカー103より出力される。ここでは、発話者は都市名の先頭2文字のアルファベットを発話するものとし、「都市名の先頭2文字を発話してください」のようにガイダンスが出力される。
なお、ここで発話させる文字数は2文字に限定されるものではなく、1文字でも3文字以上でも良い。ただし、音声認識用辞書107にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように都市名の音声データの絞込みが行えるよう、先頭からの文字数を発話させることとする。また、発話者に発話させる文字数は、音声地図データ格納装置108に格納されている都市名の音声データの数から判断して、音声認識装置106が上記要件を満たすように自動で設定しても良いし、発話者の判断により不図示の発話文字数設定手段によりあらかじめ設定しておいてもよい。
ステップS610において、都市名の先頭から所定の文字数分のアルファベットの音声データが音声地図データ格納装置108から読み込まれ、音声認識用辞書107にセットされる。本実施の形態においては、都市名の先頭から2文字のアルファベットの音声データが音声認識用辞書107にセットされる。そして、ステップS620において、音声認識用辞書107にセットした都市名の先頭から2文字のアルファベットの音声データはコマンドリストとしてメモリ104にセットされる。
ステップS630において画面H−2がモニタ110に表示され、同時にスピーカー103よりビープ音が出力された後、ステップS640にて音声入力待ち受け状態となる。
ステップS650において、発話者が都市名の先頭2文字のアルファベット「PA」を発話したと判断されると、ステップS660にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS620でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い都市名の先頭2文字のアルファベットが選択され、認識結果として決定される。
都市名の先頭2文字のアルファベットが認識されると、ステップS670において画面J−1がモニタ110に表示される。画面J−1においては、認識結果が画面上に表示され、同時にスピーカー103より認識結果が出力される。その後続けて「都市名をどうぞ」のように次の発話を促すメッセージが出力される。
ステップS680において、ステップS660で認識されたアルファベット2文字を都市名の先頭2文字に含む音声データ、すなわち「PA」で始まる都市名の音声データが音声地図データ格納装置108から読み込まれ、音声認識用辞書107にセットされる。そして、ステップS690において、音声認識用辞書107にセットした「PA」で始まる都市名の音声データはコマンドリストとしてメモリ104にセットされる。
ステップS700において画面J−2がモニタ110に表示され、同時にスピーカー103よりビープ音が出力された後、図3のステップS160に戻り音声入力待ち受け状態となる。その後、図3のステップS160に戻り音声入力待ち受け状態となり、発話者による都市名の発話が行われる。
以上により、都市名の誤認識が発生した場合に、発話者が発話した所定の文字数のアルファベットにより、音声認識用辞書107にセットする都市名の絞込みを行うことができる。
なお、以上で説明した都市名のアルファベット入力処理の効率化を図るために、図2のステップ120において、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その文字から始まる都市名を優先的に選択するようにする。これは、都市名のアルファベット入力処理を行う際に、ある特定のアルファベットの組み合わせで始まる都市名が数多く存在する場合には、同時待ち受け可能な語彙数の範囲内で都市名の音声データを抽出するために、入力するアルファベットの文字数を多くする必要があり、処理が複雑化するためである。
例えば、発話者に対してアルファベット2文字を発話させ、その2文字で始まる都市名の音声データを読み込むことによって、音声認識用辞書107にセットする音声データを絞り込む場合について考える。この場合、発話者が「AU」と発話した時に、「AU」で始まる都市が同時待ち受け可能な語彙数よりも多い場合は、「あと3文字発話してください」のように先頭2文字に続く文字の発話を行うようガイダンスをする必要が生じ、システム構成が複雑化することとなる。これを避けるために、ステップS120において都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その文字から始まる都市名を優先的に選択するようにする。これにより、これら先頭から所定の文字数分の文字の重複度が高い都市名については、アルファベット入力に移行することなく処理を完了することができ、音声入力の効率化を図ることができる。さらに、誤認識が発生した際にアルファベット入力に移行した際には、所定の文字数分の文字の重複度が低い都市名についてアルファベット入力処理を行えば良いため、認識率を上げることができる。
次に、図4のステップS300における道路名のアルファベット入力処理について、図11、図12を用いて詳細に説明する。図11はステップS290で音声地図データ格納装置108に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された時に処理される道路名のアルファベット入力処理の流れを示すフローチャートである。また、図12は、図11に示したフローチャートに対応するカーナビゲーション装置の画面および音声ガイダンスについて、本実施の形態の説明に必要な最小限の情報を記載した図である。
本実施の形態においては、以下に説明する道路名のアルファベット入力処理により、道路名の発話を行う前に、目的地の道路名の先頭から所定の文字数分のアルファベットを発話者に発話させ、その文字を道路名の先頭に含む道路名を音声地図データ格納装置108から読み込むことによって、音声認識用辞書107にセットする道路名の絞込みを行う。
ステップS710において、図12に示す画面M−1がモニタ110に表示され、続けて発話者に対して道路名の先頭から所定の文字数分のアルファベットを発話するようガイダンスがスピーカー103より出力される。ここでは、発話者は道路名の先頭2文字のアルファベットを発話するものとし、「道路名の先頭2文字を発話してください」のようにガイダンスが出力される。
なお、ここで発話させる文字数は2文字に限定されるものではなく、1文字でも3文字以上でも良い。ただし、音声認識用辞書107にセットする音声データの数が同時待ち受け可能な語彙数の範囲内に収まるように道路名の音声データの絞込みが行えるよう、先頭からの文字数を発話させることとする。また、発話者に発話させる文字数は、音声地図データ格納装置108に格納されている道路名の数から判断して、音声認識装置106が上記要件を満たすように自動で設定しても良いし、発話者の判断により不図示の発話文字数設定手段によりあらかじめ設定しておいてもよい。
ステップS720において、道路名の先頭から所定の文字数分のアルファベットの音声データが音声地図データ格納装置108から読み込まれ、音声認識用辞書107にセットされる。本実施の形態においては、道路名の先頭から2文字のアルファベットの音声データが音声認識用辞書107にセットされる。そして、ステップS730において、音声認識用辞書107にセットした道路名の先頭から2文字のアルファベットの音声データはコマンドリストとしてメモリ104にセットされる。
ステップS740において画面M−2がモニタ110に表示され、同時にスピーカー103よりビープ音が出力された後、ステップS750にて音声入力待ち受け状態となる。
ステップS760において、発話者が道路名の先頭2文字のアルファベット「RU」を発話したと判断されると、ステップS770にて音声を受信し、受信した音声は不図示のA/D変換部で変換され、メモリ104に記憶される。そして、ステップS730でセットしたコマンドリストと入力された音声情報とがマッチング処理される。これによりコマンドリストから最も一致度の高い道路名の先頭2文字のアルファベットが選択され、認識結果として決定される。
道路名の先頭2文字のアルファベットが認識されると、ステップS780において、認識されたアルファベット2文字を道路名の先頭2文字に含む音声データ、すなわち「RU」で始まる道路名の音声データが音声地図データ格納装置108から読み込まれる。読み込まれた道路名の音声データは、音声認識用辞書107にセットされる。そして、図4のステップS320に戻り、音声認識用辞書107にセットした道路名の音声データは、コマンドリストとしてメモリ104にセットされ、処理が続けられる。
以上により、音声地図データ格納装置108に格納されている道路名の音声データの総数が同時待ち受け可能な語彙数よりも多い場合においても、発話者が発話した所定の文字数のアルファベットにより、音声認識用辞書107にセットする道路名の絞込みを行うことができる。
以上のように、本実施の形態によれば、次のような作用効果が得られる。
(1)都市名、および道路名のアルファベット入力により、音声認識用辞書107にセットする音声データをあらかじめ絞り込んでおくことにより、音声認識の際に待ち受ける語彙数を、システムが同時に待ち受け可能な語彙数の範囲内に絞り込むことができる。これにより、音声認識にかかる時間を短縮し、さらには音声認識性能を向上することができる。
(2)都市名の音声認識の際に、誤認識が発生した場合に都市名のアルファベット入力処理を行い、音声認識用辞書107にセットする音声データを絞り込むことにより、誤認識時の再発話における音声認識の性能を向上することができる。
(3)同時待ち受け可能な語彙数分の都市名の音声データのみを音声認識用辞書107にセットするときに、都市名の先頭から所定の文字数分の文字が重複する都市が多数存在する場合は、その先頭文字から始まる都市名を優先的に選択するようにする。これにより、音声入力の効率化を図り、さらに音声認識の性能を向上することができる。
(4)都市名のアルファベット入力処理、および道路名のアルファベット入力処理において、「都市名(道路名)の先頭2文字を発話してください」のように、発話者に対して所定の文字数分の先頭文字を入力するよう促すこととした。これによりアルファベット入力処理に移行した際に、発話者が次に何をすべきかを把握することができ、発話者にとって利用しやすい環境を提供することができる。
本実施の形態においては、都市名の音声認識において誤認識が発生した場合に、および道路名の音声データの総数が同時待ち受け可能な語彙数よりも多い場合に、都市名および道路名のアルファベット入力処理を行う方法について説明したが、都市名、道路名以外の音声認識においても、本発明におけるアルファベット入力処理は適用可能である。
道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合に、道路名のアルファベット入力処理について説明した。都市名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合も、同様に都市名のアルファベット入力処理を行うことができる。都市名、道路名以外の音声データの総数が同時待ち受け可能な語彙数よりも多い場合にも、本発明におけるアルファベット入力処理は適用可能である。
道路名の音声データの総数が同時待ち受け可能な語彙数よりも多いと判断された場合も、都市名で説明した方法と同様に処理を行うことができる。すなわち、道路名の先頭から所定の文字数分の文字が重複する道路が多数存在する場合は、それらの道路名を優先的に選択して、音声認識用辞書107にセットしてもよい。なお、都市名、道路名以外の音声データの総数が同時待ち受け可能な語彙数よりも多い場合にも、同様の処理は適用可能である。
上述の説明では、本発明による音声認識装置をカーナビゲーションシステムに実装したが、本発明はこれに限定されず、たとえば、カーナビゲーションシステムの代わりにオーディオシステムやハンズフリー電話システム等に実装しても良い。
フランス語の住所を音声入力する場合について説明したが、日本語や英語等の住所を入力する発明にも本発明を適用できる。
発話者に対して所定の文字数のアルファベットを音声入力するよう促し、音声データの絞込みを行ったが、数字や日本語の読み等の音声入力を促し、音声データの絞込みを行っても良い。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、メモリ104は音声信号記憶手段に、音声地図データ格納装置108は音声データ格納手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
本発明によるカーナビゲーションシステムにおける音声入力システムのシステムブロック図である 本実施の形態において、音声入力により目的地を設定する処理の第1のフローチャートである。 本実施の形態において、音声入力により目的地を設定する処理の第2のフローチャートである。 本実施の形態において、音声入力により目的地を設定する処理の第3のフローチャートである。 本実施の形態において、音声入力により目的地を設定する処理の第4のフローチャートである。 本実施の形態における画面遷移を表す第1の図である。 本実施の形態における画面遷移を表す第2の図である。 本実施の形態における画面遷移を表す第3の図である。 都市名のアルファベット入力処理のフローチャートである。 本実施の形態における図9の処理の画面遷移を表す図である。 道路名のアルファベット入力処理のフローチャートである。 本実施の形態における図11の処理の画面遷移を表す図である。
符号の説明
100 ナビゲーションシステム
101 マイク
102 操作スイッチ
103 スピーカー
104 メモリ
105 CPU
106 音声認識装置
107 音声認識用辞書
108 音声地図データ格納装置
109 ナビゲーションシステム制御装置
110 モニタ

Claims (7)

  1. 音声認識語として用いられるための音声データを格納する音声データ格納手段と、
    音声入力手段より入力された所定の文字数の文字を認識し、前記音声データ格納手段に格納された前記音声データの中から、認識した文字を先頭に含む音声データを抽出する音声データ抽出手段と、
    前記音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する音声認識用辞書と、
    前記音声入力手段より入力された発話内容と前記音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて、音声認識を行う音声認識手段とを有することを特徴とする音声認識装置。
  2. 音声認識語として用いられるための音声データを格納する音声データ格納手段と、
    前記音声データ格納手段に格納された前記音声データの中から、所定の条件に合致した前記音声データを抽出する第1の音声データ抽出手段と、
    前記第1の音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する第1の音声認識用辞書と、
    前記音声入力手段より入力された発話内容と前記第1の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行う第1の音声認識手段と、
    前記音声認識の結果、誤認識が発生したことを検出する誤認識検出手段と、
    前記第1の音声認識手段による音声認識の結果が、前記誤認識検出手段によって誤認識であると判断された場合に、前記音声データ格納手段に格納された前記音声データの中から、前記音声入力手段より入力された所定の文字数の文字を先頭に含む音声データを抽出する第2の音声データ抽出手段と、
    前記第2の音声データ抽出手段によって抽出された音声データを音声認識用待ち受け単語として格納する第2の音声認識用辞書と、
    前記音声入力手段より入力された発話内容と前記第2の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行う第2の音声認識手段とを有することを特徴とする音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    前記第1の音声データ抽出手段は、前記音声データ格納手段に格納された音声データの中から、先頭から所定の文字数分の音声データが数多く一致するものを優先して抽出することを特徴とする音声認識装置。
  4. 請求項1〜3のいずれかに記載の音声認識装置において、
    前記発話者が発話する発話内容は、都市名称もしくは道路名称であることを特徴とする音声認識装置。
  5. 請求項1〜4に記載の音声認識装置において、
    発話者に対して前記所定の文字数の文字を入力するように促す手段をさらに有することを特徴とする音声認識装置。
  6. 発話者の発話を入力し、
    音声認識語としてあらかじめ記憶されている音声データの中から、入力された所定の文字数の文字を先頭に含む音声データを抽出し、
    抽出された音声データを音声認識用待ち受け単語として格納し、
    入力された発話内容と前記音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする音声認識方法。
  7. 発話者の発話を入力し、
    音声認識語としてあらかじめ記憶されている音声データの中から、所定の条件に合致した第1の音声データを抽出し、
    前記第1の音声データを音声認識用待ち受け単語として第1の音声認識用辞書に格納し、
    入力された発話内容と前記第1の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行い、
    音声認識の結果が、誤認識であると判断された場合に、音声認識語としてあらかじめ記憶されている音声データの中から、発話者によって入力された所定の文字数の文字を先頭に含む第2の音声データを抽出し、
    前記第2の音声データを音声認識用待ち受け単語として第2の音声認識用辞書に格納し、
    入力された発話内容と前記第2の音声認識用辞書に格納された前記音声認識用待ち受け単語とに基づいて音声認識を行うことを特徴とする音声認識方法。
JP2003357893A 2003-10-17 2003-10-17 音声認識装置、および音声認識方法 Pending JP2005121966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003357893A JP2005121966A (ja) 2003-10-17 2003-10-17 音声認識装置、および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003357893A JP2005121966A (ja) 2003-10-17 2003-10-17 音声認識装置、および音声認識方法

Publications (1)

Publication Number Publication Date
JP2005121966A true JP2005121966A (ja) 2005-05-12

Family

ID=34614655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003357893A Pending JP2005121966A (ja) 2003-10-17 2003-10-17 音声認識装置、および音声認識方法

Country Status (1)

Country Link
JP (1) JP2005121966A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271901A (ja) * 2006-03-31 2007-10-18 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法
JP2007286358A (ja) * 2006-04-17 2007-11-01 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271901A (ja) * 2006-03-31 2007-10-18 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法
JP2007286358A (ja) * 2006-04-17 2007-11-01 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法

Similar Documents

Publication Publication Date Title
US6708150B1 (en) Speech recognition apparatus and speech recognition navigation apparatus
JP4353212B2 (ja) 単語列認識装置
US8340958B2 (en) Text and speech recognition system using navigation information
US20060100871A1 (en) Speech recognition method, apparatus and navigation system
EP1505571A1 (en) Car navigation system and speech recognizing device thereof
KR101526918B1 (ko) 다언어 이국 음성 인식
US7027565B2 (en) Voice control system notifying execution result including uttered speech content
JP4466379B2 (ja) 車載音声認識装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP5217838B2 (ja) 車載機器の操作装置及び車載機器の操作方法
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP4914632B2 (ja) ナビゲーション装置
JP4770374B2 (ja) 音声認識装置
JP3726783B2 (ja) 音声認識装置
JP2005121966A (ja) 音声認識装置、および音声認識方法
JP2004301875A (ja) 音声認識装置
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP2005309185A (ja) 音声入力装置、および音声入力方法
JP2006023444A (ja) 音声対話装置
JPH11231892A (ja) 音声認識装置
JP2019212168A (ja) 音声認識システムおよび情報処理装置
JP2005283797A (ja) 音声認識装置および音声認識方法
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406