JP2006184669A

JP2006184669A - 音声認識装置、方法、およびシステム

Info

Publication number: JP2006184669A
Application number: JP2004379194A
Authority: JP
Inventors: Hiroshi Saito; 浩斎藤; Kengo Suzuki; 堅悟鈴木
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-12-28
Filing date: 2004-12-28
Publication date: 2006-07-13

Abstract

【課題】複数のカテゴリごとに分類した待ち受け単語と入力音声とを照合処理して、最適な音声認識結果を決定すること。
【解決手段】制御装置１０６は、マイク１０１を介して入力された発話音声と、音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、各待ち受け単語ごとに発話者の発話語彙との確からしさを算出する。そして、各カテゴリごとに、確からしさが最大の待ち受け単語を抽出し、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促す。その結果、発話された発話内容を音声認識して、発話者の発話語彙を特定する。
【選択図】図１

Description

本発明は、入力された音声を認識する音声認識装置、方法、およびシステムに関する。

次のような音声認識方法が特許文献１によって知られている。この音声認識方法では、音声認識実行時の待ち受け単語をカテゴリごとに分類して、入力された発話内容をそれぞれのカテゴリの待ち受け単語と照合し、最も類似する待ち受け単語を音声認識結果として決定する。

特開２００１−１０９４９２号公報

しかしながら、上述した従来の音声認識方法では、複数のカテゴリから類似度の高い待ち受け単語が抽出された場合でも、最も類似する待ち受け単語を音声認識結果として決定することとなり、それ以外の類似度が高い待ち受け単語は音声認識結果として決定されず、このような決定されなかった待ち受け単語の中に発話者の発話語彙が含まれている可能性があるという問題が生じていた。

本発明は、カテゴリごとに分類した音声認識時の待ち受け単語を格納し、音声入力された発話者の発話語彙と、格納された待ち受け単語とを照合処理して、各待ち受け単語ごとに発話語彙の確からしさを算出し、算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出し、複数のカテゴリから待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促し、発話者に対して発話を促した結果、音声入力された発話内容を音声認識して、発話語彙を特定することを特徴とする。

本発明によれば、発話者の発話語彙をカテゴリごとに分類した音声認識時の待ち受け単語と照合して、各待ち受け単語ごとに発話語彙との確からしさを算出し、算出した確からしさが所定値より大きい受け単語を各カテゴリから抽出する。そして、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促し、その結果音声入力された発話内容を音声認識して発話語彙を特定するようにした。これによって、発話語彙との確からしさが高い待ち受け単語が複数のカテゴリに存在する場合には、発話者によって特定されたカテゴリの待ち受け単語を音声認識結果として決定することができ、発話語彙を正確に音声認識することができる。

―第１の実施の形態―
図１は、第１の実施の形態における音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。運転者（発話者）が発話したナビゲーション装置２００を操作するための各種操作コマンドの音声データは、音声認識装置１００で音声認識が実行され、ナビゲーション装置２００へ出力される。ナビゲーション装置２００は、音声認識装置１００から出力された音声データを操作コマンドに変換して処理を実行する。

音声認識装置１００は、発話者の発話語彙を入力するマイク１０１と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ１０２と、音声認識装置１００が待ち受けて音声認識可能なすべての待ち受け単語が記憶されている音声認識用情報データベース１０３ａと、音声認識用情報データベース１０３ａから音声認識実行時の待ち受け単語を読み込んで格納する音声認識用辞書１０３と、発話者に音声入力を促すガイダンス音声やビープ音を出力するスピーカー１０４と、発話者に音声入力を促すガイダンス画像や音声認識結果を表示するモニタ１０５と、後述する音声認識処理を実行する制御装置１０６とを備えている。

音声認識用辞書１０３には音声認識実行時の待ち受け単語として、例えば「目的地」や「周辺施設」などのナビゲーション装置２００を操作するための操作コマンドや、これらの「目的地」や「周辺施設」を特定するために必要な情報としての都道府県名のリストなどが適宜音声認識用情報データベース１０３ａから抽出されて格納される。また、周辺施設名のように、各カテゴリごとに分類可能な語彙の待ち受け単語は、例えば、図２に示すようなデータ構造で格納される。すなわち、ナビゲーション装置２００で千葉県の施設を検索するための施設リストとして、施設ジャンル名２ａごとにカテゴリ分類された施設名２ｂの待ち受け単語が格納される。

制御装置１０７は、マイク１０１を介して入力された発話者の発話内容と音声認用識辞書１０３に格納された待ち受け単語とを照合処理して、最も確からしい照合結果を音声認識結果として決定する。すなわち、入力された発話者の発話内容と、音声認用識辞書１０３に格納されたすべての待ち受け単語とをマッチング処理して、発話内容と各待ち受け単語との確からしさＵを算出する。確からしさＵは、例えば０〜１の数値で表され、発話内容と待ち受け単語とが全く一致しない場合には０、完全に一致した場合には１が算出される。すなわち、発話者の発話内容と待ち受け単語との一致度が高いほど、確からしさＵは大きくなる。この算出した確からしさＵに基づいて、音声認識結果として決定する。

具体的には、次のように音声認識処理を実行する。発話者によって、音声入力操作スイッチ１０２が押下され、音声入力の開始が指示されると、制御装置１０７はスピーカー１０４を介して、例えば「ご用件をどうぞ」のように発話を促すガイダンス音声を出力する。同時に、ナビゲーション装置２００を操作するための操作コマンド、例えば「目的地」、「周辺施設」、および「駅を探す」を音声認識実行時の待ち受け単語として、音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３に格納し、音声入力待ち受け状態となる。

その後、発話者によって「周辺施設」が発話され、マイク１０１を介して入力されると、当該発話内容と音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、各待ち受け単語に対して上述した確からしさＵを算出する。そして、この結果、最も確からしさＵの大きい待ち受け単語を音声認識結果として決定する。これによって、発話者によって発話された「周辺施設」が音声認識されると、発話者に検索対象の周辺施設が存在する都道府県の発話を促すために、例えば「施設がある都道府県名をどうぞ」のように発話を促すガイダンス音声をスピーカー１０４を介して出力する。同時に、発話者による都道府県名の発話を待ち受けるために、音声認識用情報データベース１０３ａから都道府県名の待ち受け単語を抽出して音声認識用辞書１０３に格納し、音声入力待ち受け状態となる。

発話者によって「千葉県」が発話されると、当該発話内容と音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、各待ち受け単語に対して上述した確からしさＵを算出する。この結果、最も確からしさＵの大きい待ち受け単語を音声認識結果として決定する。これによって、発話者によって発話された「千葉県」が音声認識されると、発話者に施設名の発話を促すために、例えば「千葉県の施設名称をどうぞ」のようにガイダンス音声をスピーカー１０４を介して出力する。同時に、音声認識用情報データベース１０３ａから千葉県に存在する施設名２ｂと、その施設ジャンル名２ａの待ち受け単語とが抽出され、図２により上述した階層構造の施設リストが音声認識用辞書１０３に格納される。そして、音声入力待ち受け状態となる。

このような階層構造で表される待ち受け単語が音声認識用辞書１０３に格納された場合に、発話者によって「○○遊園地」と発話されたときには、次のように音声認識処理を実行する。すなわち、発話内容と音声認識用辞書１０３に格納した施設名２ｂの全待ち受け単語とを照合処理して、各待ち受け単語における確からしさＵを算出する。そして、各施設ジャンル名２ａごとに、それぞれに属する施設名２ｂのうち最も確からしさＵが大きい（Ｕが最大の）施設名２ｂを抽出する。図２に示す例では、施設ジャンル名２ａが「遊園地」に属する施設名２ｂから「○○遊園地」が抽出され、施設ジャンル名２ａが「映画館」に属する施設名２ｂから「○○シネマ」が抽出され、施設ジャンル名２ａが「運動施設」に属する施設名２ｂから「××運動公園」が抽出されたものとする。

抽出した各施設ジャンル２ａに属するＵが最大の施設名２ｂの待ち受け単語において、それぞれの確からしさＵがあらかじめ設定した所定値Ｖより大きいか否かを判断する。ここで所定値Ｖは、確からしさＵが当該所定値Ｖより大きければ、入力された発話内容と待ち受け単語との一致度が十分に高く、音声認識結果として採用することができるような値が設定されている。したがって、抽出した各待ち受け単語の確からしさＵと所定値Ｖとの比較結果に基づいて、次の（１）〜（３）に示すように処理を行う。

（１）抽出した全ての待ち受け単語の確からしさＵが、所定値以下の場合
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度施設名の入力を促すために、例えば「千葉県の施設名称をもう１度どうぞ」のように発話を促すガイダンス音声をスピーカー１０４を介して出力し、図２に示す施設リストを音声認識用辞書１０３に格納して音声入力待ち受け状態となる。

（２）抽出した待ち受け単語のうち１つの確からしさＵが、所定値より大きい場合
この場合には、確からしさＵが所定値より大きい施設名２ｂの待ち受け単語を音声認識結果として決定する。そして、例えば、上述したように発話者が実際に発話した「○○遊園地」が音声認識された場合には、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー１０４を介して出力した後、ナビゲーション装置２００からの出力に基づいて、「○○遊園地」周辺の地図をモニタ１０５に表示する。

（３）抽出した待ち受け単語のうち２つ以上の確からしさＵが、所定値より大きい場合
この場合には、確からしさＵが所定値より大きい施設名２ｂの待ち受け単語が属する施設ジャンル名２ａを取得する。例えば、「○○遊園地」と「○○シネマ」の確からしさＵが所定値より大きい場合には、それぞれの施設ジャンル名２ａとして「遊園地」と「映画館」が取得される。そして、発話者に対して施設ジャンル名２ａを特定するための入力を促すために、例えば「遊園地ですか？それとも映画館ですか？」のようなガイダンス音声をスピーカー１０４を介して出力し、施設ジャンル名２ａを音声認識用辞書１０３に格納して音声入力待ち受け状態となる。

そして、発話者によって「遊園地」が発話されると、発話内容と音声認識用辞書１０３に格納した施設ジャンル名２ａの全待ち受け単語とを照合処理して、各待ち受け単語における確からしさＵを算出する。この結果、最も確からしさＵの大きい待ち受け単語、すなわち「遊園地」を音声認識結果として決定する。これによって、複数の施設ジャンル２ａから確からしさＵが所定値より大きい待ち受け単語が抽出された場合でも、発話者がいずれの施設ジャンル２ａに属する施設の検索を要求しているかを特定することができる。すなわち、「○○遊園地」および「○○シネマ」のうち、発話者が発話した施設名２ｂは、施設ジャンル名２ａが「遊園地」である「○○遊園地」と特定することができる。

このように、発話者が検索したい周辺施設名が特定されると、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー１０４を介して出力した後、ナビゲーション装置２００からの出力に基づいて、「○○遊園地」周辺の地図をモニタ１０５に表示する。

図３は、第１の実施の形態における音声認識装置１００の処理を示すフローチャートである。図３に示す処理は音声認識装置１００を搭載した車両のイグニションスイッチがオンされることによって音声認識装置１００の電源がオンされると、制御装置１０６によって実行される。

ステップＳ１０において、発話者によって音声入力操作スイッチ１０２が押下され、発話開始が指示されたか否かが判断される。音声入力操作スイッチ１０２が押下されたと判断した場合には、ステップＳ２０へ進む。ステップＳ２０では、発話者に対して発話を促すためのガイダンス音声をスピーカー１０４を介して出力して、ステップＳ３０へ進む。ステップＳ３０では、音声認識用情報データベース１０３ａから発話者の発話を待ち受けるために必要な待ち受け単語を抽出して音声認識用辞書１０３に格納する。その後、ステップＳ４０へ進む。

ステップＳ４０では、発話者によってマイク１０１を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップＳ５０へ進む。ステップＳ５０では、入力された発話内容と、音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、上述した各待ち受け単語における確からしさＵを算出する。その後、ステップＳ６０へ進み、音声認識用辞書１０３に格納された待ち受け単語は、図２に示したような複数のカテゴリに分類されて階層構造を有しているか否かを判断する。待ち受け単語が複数のカテゴリに分類されていないと判断した場合には、後述するステップＳ１３０へ進む。一方、待ち受け単語が複数のカテゴリに分類されていると判断した場合には、ステップＳ７０へ進む。

ステップＳ７０では、待ち受け単語の各カテゴリごとに、算出した確からしさＵが最大となる待ち受け単語を抽出して、ステップＳ８０へ進む。ステップＳ８０では、抽出した待ち受け単語の各確からしさＵ（最大Ｕ）と、上述した所定値Ｖとを比較して、最大Ｕが所定値Ｖより大きい待ち受け単語の数がいくつあるかを判断する。その結果、最大Ｕが所定値Ｖより大きい待ち受け単語が１つもないと判断した場合には、上述したステップＳ２０へ戻り、直前の発話内容の再発話を促すガイダンス音声を出力して、処理を続ける。

また、最大Ｕが所定値Ｖより大きい待ち受け単語が１つだけあると判断した場合には、後述するステップＳ１３０へ進む。これに対して、最大Ｕが所定値Ｖより大きい待ち受け単語が２つ以上あると判断した場合には、ステップＳ９０へ進む。ステップＳ９０では、待ち受け単語を１つに特定するために、発話者に対して発話内容が属するカテゴリ名の発話を促すためのガイダンス音声をスピーカー１０４を介して出力して、ステップＳ１００へ進む。ステップＳ１００では、音声認識用情報データベース１０３ａから発話者によるカテゴリ名の発話を待ち受けるために必要な待ち受け単語を読み込んで、音声認識用辞書１０３に格納する。その後、ステップＳ１１０へ進む。

ステップＳ１１０では、発話者からカテゴリ名が発話されたか否かを判断して、発話されたと判断した場合には、ステップＳ１２０へ進む。ステップＳ１２０では、発話者によって発話されたカテゴリ名と、音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、各待ち受け単語における確からしさＵを算出する。その後、ステップＳ１３０へ進み、算出した確からしさＵが最大の待ち受け単語を音声認識結果として決定して、音声認識する。その後、ステップＳ１４０へ進む。

ステップＳ１４０では、ステップＳ１３０で音声認識した結果、発話者の要求、すなわち発話語彙が特定されたか否かを判断する。すなわち上述したように、発話者が検索したい周辺施設を特定できたか、あるいは周辺施設を特定するために必要な情報、例えば「千葉県」などの都道府県入力を行っている段階であるかを判断する。この結果、まだ発話者の要求が特定されていないと判断した場合には、ステップＳ２０に戻って、発話者の要求を特定するまで処理を繰り返す。これに対して、発話者の要求を特定したと判断した場合には、ステップＳ１５０へ進む。

ステップＳ１５０では、特定した発話者の要求に基づいて、ガイダンス音声を出力し、ナビゲーション装置を制御する。例えば、上述したように発話者が検索したい周辺施設名を特定した場合には、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー１０４を介して出力した後、ナビゲーション装置２００からの出力に基づいて、「○○遊園地」周辺の地図をモニタ１０５に表示する。その後、ステップＳ１６０へ進む。

ステップＳ１６０では、音声認識装置１００を搭載した車両のイグニションスイッチがオフされたか否かを判断し、オフされないと判断した場合には、ステップＳ１０へ戻って処理を繰り返す。一方、音声認識装置１００を搭載した車両のイグニションスイッチがオフされたと判断した場合には、処理を終了する。

以上説明した第１の実施の形態によれば、以下のような作用効果を得ることができる。
（１）音声認識用辞書１０３に格納された待ち受け単語が、図２に示すように、複数のカテゴリに分類されて階層構造を有している場合には、まず入力された発話内容を全ての待ち受け単語と照合して確からしさＵを算出し、各カテゴリごとに算出した確からしさＵが最大となる待ち受け単語を抽出する。そして、抽出した待ち受け単語の確からしさＵが所定値Ｖより大きい待ち受け単語が複数ある場合には、発話者に対してカテゴリ名の指定を促し、入力されたカテゴリ名に属する待ち受け単語を音声認識結果として決定するようにした。これによって、複数のカテゴリに発話内容との一致度が高い待ち受け単語の候補が存在する場合に、発話者が要求しているものはいずれのカテゴリに属すものかを確認した上で発話内容を特定することができ、発話者の要求していない待ち受け単語が音声認識結果として決定されることを防ぐことができる。

（２）発話者に対して発話を促す際に、発話者に発話を求める内容に応じたガイダンス音声をスピーカー１０４を介して出力するようにした。これによって、発話者は次に何を発話すれば良いかを容易に把握でき、スムーズに音声入力を行うことができる。

―第２の実施の形態―
第２の実施の形態では、発話者がナビゲーション装置２００で駅を検索する場合について説明する。なお、図１に示した音声認識装置１００のブロック図については、第１の実施の形態と同様のため、説明を省略する。

発話者が駅を検索するために、音声入力操作スイッチ１０２が押下すると、制御装置１０７はスピーカー１０４を介して、例えば「ご用件をどうぞ」のように発話を促すガイダンス音声を出力する。同時に、ナビゲーション装置２００を操作するための操作コマンド、例えば「目的地」、「周辺施設」、および「駅を探す」を音声認識実行時の待ち受け単語として、音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３に格納し、音声入力待ち受け状態となる。

その後、発話者によって「駅を探す」が発話され、マイク１０１を介して入力されると、第１の実施の形態で上述したように発話内容と音声認識用辞書１０３に格納した待ち受け単語とを照合処理して、確からしさＵが最も大きい待ち受け単語を音声認識結果として決定する。これによって「駅を探す」が音声認識されると、発話者に検索対象の駅が存在する都道府県の発話を促すために、例えば「駅がある都道府県名をどうぞ」のように発話を促すガイダンス音声をスピーカー１０４を介して出力する。同時に、発話者による都道府県名の発話を待ち受けるために、音声認識用情報データベース１０３ａから都道府県名の待ち受け単語を抽出して音声認識用辞書１０３に格納し、音声入力待ち受け状態となる。

発話者によって「神奈川県」が発話され、音声認識用辞書１０３に格納された待ち受け単語との照合処理の結果、算出した確からしさＵに基づいて「神奈川県」が音声認識されると、発話者に駅名の発話を促すために、例えば「神奈川県の駅名をどうぞ」のようにスピーカー１０４を介してガイダンス音声を出力する。同時に、発話者による駅名の発話を待ち受けるために、図４に示すような駅名リストの待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３に格納する。すなわち、ナビゲーション装置２００で神奈川県の駅を検索するための語彙のリストとして、路線名４ａごとにカテゴリ分類された駅名４ｂの待ち受け単語が格納される。これによって、発話者による神奈川県の駅名を待ち受けて、音声認識することが可能となる。

その後、発話者によって「町田駅」と発話された場合には、第１の実施の形態と同様に、発話内容と音声認識用辞書１０３に格納した待ち受け単語の下位階層に相当する全駅名４ｂの待ち受け単語とを照合処理して、各待ち受け単語における確からしさＵを算出する。そして、カテゴリ単位、すなわち各路線名４ａごとに、それぞれに属する駅名４ｂのうち最も確からしさＵが大きい駅名４ｂを抽出する。図４に示す例では、路線名４ａが「ＪＲ横浜線」に属する駅名４ｂから「町田駅」が抽出され、路線名４ａが「ＪＲ根岸線」に属する駅名４ｂから「磯子駅」が抽出され、路線名４ａが「小田急線」に属する駅名４ｂから「町田駅」が抽出され、路線名４ａが「京浜急行線」に属する駅名４ｂから「上大岡駅」が抽出されたものとする。

抽出した各路線名４ａに属するＵが最大の駅名４ｂの待ち受け単語において、第１の実施の形態と同様に、それぞれの確からしさＵがあらかじめ設定した所定値Ｖより大きいか否かを判断する。そして、抽出した各待ち受け単語の確からしさＵと所定値Ｖとの比較結果に基づいて、次の（１）〜（３）に示すように処理を行う。

（１）抽出した全ての待ち受け単語の確からしさＵが、所定値以下の場合
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度駅名の入力を促すために、例えば「神奈川県の駅名をもう１度どうぞ」のように発話を促すガイダンス音声をスピーカー１０４を介して出力し、図４に示す駅名リストを音声認識用辞書１０３に格納して音声入力待ち受け状態となる。

（２）抽出した待ち受け単語のうち１つの確からしさＵが、所定値より大きい場合
この場合には、確からしさＵが所定値より大きい駅名４ｂの待ち受け単語を音声認識結果として決定する。そして、例えば「小田急線」の「町田駅」が音声認識された場合には、「小田急線の町田駅を表示します」というガイダンス音声をスピーカー１０４を介して出力した後、ナビゲーション装置２００からの出力に基づいて、「小田急線町田駅」周辺の地図をモニタ１０５に表示する。

（３）抽出した待ち受け単語のうち２つ以上の確からしさＵが、所定値より大きい場合
この場合には、確からしさＵが所定値より大きい駅名４ｂの待ち受け単語が属する路線名４ａを取得する。なお、本実施の形態のように駅名を検索する場合には、図４に示した「町田駅」のように、複数の路線において同じ駅名４ｂが存在する場合がある。したがって、このような場合には、複数の路線における同じ駅名４ｂの待ち受け単語の確からしさＵが所定値より大きくなることが考えられる。また、例えば、「ＪＲ根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさＵが所定値より大きい場合のように、複数の異なる駅名４ｂの待ち受け単語で確からしさＵが所定値より大きくなる場合が考えられる。よって、次のようにこれら２つのケースに場合分けして処理を行う。

（３−１）複数の路線において同じ駅名４ｂの待ち受け単語が抽出された場合
この場合に該当する例としては、上述したように路線名４ａが「ＪＲ横浜線」と「小田急線」に属する２つの「町田駅」の確からしさＵが所定値より大きくなっている場合が考えられる。この場合には、確からしさＵが所定値より大きい駅名４ｂの待ち受け単語が属する路線名４ａとして、「ＪＲ横浜線」と「小田急線」が抽出される。ここでは、すでに駅名４ｂは「町田駅」と特定できているため、あとは路線名４ａが特定できれば発話者が検索したい駅を特定することができる。

したがって、発話者に対して抽出された「町田駅」が属する路線名４ａを特定するための入力を促すために、例えば「横浜線の駅ですか？それとも小田急線の駅ですか？」のようなガイダンス音声をスピーカー１０４を介して出力し、路線名４ａを音声認識用辞書１０３に格納して音声入力待ち受け状態となる。その後、発話者によって「小田急線」が発話されると、発話内容と音声認識用辞書１０３に格納した路線名４ａの全待ち受け単語とを照合処理し、算出した確からしさＵに基づいて「小田急線」を音声認識結果として決定する。これによって、発話者が発話した「町田駅」が複数の路線に存在する場合でも、発話者が検索したい駅の路線名を特定して、「小田急線の町田駅」であると特定することができる。

（３−２）複数の路線において異なる駅名４ｂの待ち受け単語が抽出された場合
この場合に該当する例としては、上述したように路線名４ａが「ＪＲ根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさＵが所定値より大きくなっている場合が考えられる。この場合には、確からしさＵが所定値より大きい駅名４ｂの待ち受け単語が属する路線名４ａとして、「ＪＲ根岸線」と「小田急線」が抽出される。ここでは（３−１）で上述した場合とは異なり、それぞれの駅名４ｂが異なることから、発話者に対して路線名４ａと駅名４ｂとを提示して、いずれの路線名４ａの駅を検索したいかを特定させる必要がある。

したがって、例えば「ＪＲ根岸線の磯子駅ですか？それとも小田急線の町田駅ですか？」のようなガイダンス音声をスピーカー１０４を介して出力し、路線名４ａを音声認識用辞書１０３に格納して音声入力待ち受け状態となる。その後、発話者によって「小田急線」が発話されると、発話内容と音声認識用辞書１０３に格納した路線名４ａの待ち受け単語とを照合処理し、算出した確からしさＵに基づいて「小田急線」を音声認識結果として決定する。これによって、発話者が検索したい駅は「小田急線の町田駅」であると特定することができる。

上述した（３−１）および（３−２）に示した処理によって、発話者が検索したい駅が特定されると、例えば「小田急線の町田駅を表示します」というガイダンス音声をスピーカー１０４を介して出力した後、ナビゲーション装置２００からの出力に基づいて、「小田急線町田駅」周辺の地図をモニタ１０５に表示する。

図５は、第２の実施の形態における音声認識装置１００の処理を示すフローチャートである。図５に示す処理は音声認識装置１００を搭載した車両のイグニションスイッチがオンされることによって音声認識装置１００の電源がオンされると、制御装置１０６によって実行される。なお、第１の実施の形態における図３と共通する処理については同じステップ番号を付与し、相違点を中心に説明する。

ステップＳ８０で最大Ｕが所定値Ｖより大きい待ち受け単語が２つ以上あると判断した場合には、ステップＳ８１へ進む。ステップＳ８１では、これらの待ち受け単語が同一であるか否かを判断する。すなわち上述した「複数の路線において同じ駅名４ｂの待ち受け単語が抽出された場合」に該当するか、あるいは「複数の路線において異なる駅名４ｂの待ち受け単語が抽出された場合」に該当するかを判断する。

その結果、待ち受け単語が同一であると判断した場合には、ステップＳ９１へ進む。ステップＳ９１では、待ち受け単語（駅名４ｂ）を提示せずにカテゴリ名（路線名４ａ）の発話を促すガイダンス音声、例えば「横浜線の駅ですか？それとも小田急線の駅ですか？」をスピーカー１０４を介して出力し、ステップＳ１００へ進む。これに対して、待ち受け単語が同一でないと判断した場合には、ステップＳ９２へ進む。ステップＳ９２では、待ち受け単語を提示してカテゴリ名の発話を促すガイダンス音声、例えば「ＪＲ根岸線の磯子駅ですか？それとも小田急線の町田駅ですか？」をスピーカー１０４を介して出力し、ステップＳ１００へ進む。

以上説明した第２の実施の形態によれば、第１の実施の形態における効果に加えて、以下のような作用効果を得ることができる。
（１）図４に示す複数のカテゴリに分類されて階層構造の待ち受け単語を音声認識する場合に、各カテゴリから抽出した確からしさＵが所定値Ｖより大きい待ち受け単語が複数ある場合には、抽出した待ち受け単語が同一であるか否かを判断し、このときの判断結果に基づいて、待ち受け単語を特定するために発話者に対して入力を促すためのガイダンス音声を変更するようにした。これによって、例えば、駅名を音声認識する場合に、複数の路線において同じ駅名の待ち受け単語が抽出された場合と、複数の路線において異なる駅名の待ち受け単語が抽出された場合とでは、発話者に対して出力するガイダンス音声を変化させて、発話者が応答しやすい適切なガイダンス音声を出力することができる。

（２）複数のカテゴリにおいて同じ待ち受け単語が抽出された場合には、待ち受け単語（駅名４ｂ）を提示せずにカテゴリ名（路線名４ａ）の発話を促すガイダンス音声、例えば「横浜線の駅ですか？それとも小田急線の駅ですか？」をスピーカー１０４を介して出力するようにした。これによって、発話者が発話した待ち受け単語が複数のカテゴリに存在する場合でも、そのカテゴリを特定して、発話者の発話内容を特定することができる。

（３）複数のカテゴリにおいて待ち受け単語が抽出された場合には、待ち受け単語を提示してカテゴリ名の発話を促すガイダンス音声、例えば「ＪＲ根岸線の磯子駅ですか？それとも小田急線の町田駅ですか？」をスピーカー１０４を介して出力するようにした。これによって、発話者が発話した待ち受け単語が特定できていない場合であっても、発話者にカテゴリ名を再発話させることで、発話者の発話内容を特定することができる。

―変形例―
上述した第１の実施の形態では、まず発話者に都道府県の発話を促して施設が存在する都道府県を特定した後、その都道府県に存在する施設名の発話を促すようにして、上位カテゴリから順番に施設名を絞り込んで音声認識を行う場合について説明した。しかしこれに限定されず、発話者から「周辺施設」を検索するように要求があった場合には、例えば「施設がある都道府県名と施設名をどうぞ」のようなガイダンス音声を出力して、図２においてさらに上位のカテゴリである都道府県名と、その下位に派生する施設名を続けて発話するように促してもよい。

この場合、音声認識用辞書１０３には、上位のカテゴリである都道府県名の待ち受け単語、および各都道府県名に対する図２に示す施設リスト、すなわち各都道府県名の待ち受け単語から派生する各施設ジャンル名２ａごとの施設名２ｂを待ち受け単語として格納しておく。そして、発話者によって、例えば「千葉県の○○遊園地」と発話された場合には、まず当該発話内容と、音声認識用辞書に格納した都道府県名の待ち受け単語とを照合処理して、上述した確からしさＵが所定値Ｖ以上の都道府県名の待ち受け単語を抽出する。そして、さらに当該発話内容と、抽出した都道府県名の待ち受け単語に対する施設リストとを照合処理し、確からしさＵが所定値Ｖ以上の施設名２ｂを抽出する。

これによって、発話者による発話内容と一致度が高い都道府県名と施設名２ｂの組が抽出される。このとき、抽出された都道府県名と施設名２ｂの組が１つである場合には、その組を音声認識結果として決定することができる。しかし都道府県名と施設名２ｂの組が複数抽出された場合には、その中のいずれが発話者の要求と一致するものであるかを特定する必要がある。なお、都道府県名と施設名２ｂの組が複数抽出された場合とは、次の（１）〜（３）のような３つのパターンがある。このため、次の（１）〜（３）で説明するように、各パターンごとに発話者の発話内容を特定するための処理を行う必要がある。

（パターン１）：１つの都道府県名に対して複数の施設名２ｂが抽出された場合
パターン１に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「千葉県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名は「千葉県」で特定できていることから、特定できていない施設名２ｂが「○○遊園地」または「○○シネマ」のいずれであるかを確認するためのガイダンス音声、例えば「○○遊園地ですか？それとも○○シネマですか？」をスピーカー１０４を介して出力する。このガイダンス音声に対して、発話者が「○○遊園地」と施設名２ｂを特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。

（パターン２）：複数の都道府県名に対して同一の施設名２ｂが抽出された場合
パターン２に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○遊園地」とが抽出された場合がある。このような場合には、施設名２ｂは「○○遊園地」で特定できていることから、特定できていない都道府県名が「千葉県」または「滋賀県」のいずれであるかを確認するためのガイダンス音声、例えば「千葉県ですか？それとも滋賀県ですか？」をスピーカー１０４を介して出力する。このガイダンス音声に対して、発話者が「千葉県」と都道府県名を特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。

（パターン３）：複数の都道府県名に対してそれぞれ異なる施設名２ｂが抽出された場合
パターン３に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名、および施設名２ｂのいずれも特定できていないことから、都道府県名と施設名２ｂとを同時に確認するためのガイダンス音声、例えば「千葉県の○○遊園地ですか？それとも滋賀県の○○シネマですか？」をスピーカー１０４を介して出力する。このガイダンス音声に対して、発話者が「千葉県の○○遊園地」と当初の発話内容を再発話することによって、再度上述した音声認識を実行して、発話内容を特定することができる。

このように、発話者によって発話された都道府県名と施設名２ｂとを連結した発話内容を音声認識した結果、抽出した都道府県名と施設名２ｂの組のパターンの中で一致していないいずれか一方、または両方の発話を促すためのガイダンスを出力するようにした。すなわち、都道府県名と施設名２ｂのうち、特定できていない待ち受け単語のみを発話者に発話させるようにした。これによって、発話者に対して要求する再発話の内容を必要なものだけに限定することができ、発話者の手間を省くことができる。また、再発話時に、特定できていない待ち受け単語のみを音声認識すればよいため、全てを再発話させる場合と比較して、処理の負荷を低減することができる。

なお、この変形例は、上述した第２の実施の形態において、発話者が都道府県名と駅名４ｂとを続けて発話する場合に対しても適用可能である。

さらに、上述した実施の形態の音声認識装置１００は、以下のように変形することもできる。
（１）上述した第１および第２の実施の形態では、確からしさＵは、０〜１の数値で表され、発話内容と待ち受け単語とが全く一致しない場合には０、完全に一致した場合には１が算出される例について説明した。しかしこれに限定されず、その他の算出方法によって確からしさＵを算出してもよい。

（２）上述した第１および第２の実施の形態では、音声認識装置１００を車両に搭載したナビゲーション装置に適用した例について説明したが、これに限定されず、その他の各種情報機器に適用することもできる。

（３）上述した第１および第２の実施の形態では、音声認識するに当たって、各カテゴリごとに算出した確からしさＵが最大となる待ち受け単語を抽出し、抽出した待ち受け単語の確からしさＵが所定値Ｖより大きいか否かを判断する例について説明した。しかしこれに限定されず、その他の方法によって、各カテゴリごとに算出した確からしさＵのうち、妥当性の高い確からしさＵを持つ待ち受け単語を抽出し、抽出した待ち受け単語の確からしさＵが所定値Ｖより大きいか否かを判断してもよい。

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１０１は音声入力手段に、音声認識用辞書１０３は格納手段に相当する。制御装置１０６は照合手段、抽出手段、発話促進手段、および発話語彙特定手段に相当する。なお、この対応は一例であり、実施の形態の構成によって対応関係は異なるものである。

音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。第１の実施の形態における音声認識用辞書１０３に格納されるカテゴリ分類された待ち受け単語の具体例を示す図である。第１の実施の形態における音声認識装置１００の処理を示すフローチャート図である。第２の実施の形態における音声認識用辞書１０３に格納されるカテゴリ分類された待ち受け単語の具体例を示す図である。第２の実施の形態における音声認識装置１００の処理を示すフローチャート図である。

符号の説明

１００音声認識装置
１０１マイク
１０２音声入力操作スイッチ
１０３音声認識用辞書
１０３ａ音声認識用情報データベース
１０４スピーカー
１０５モニタ
１０６制御装置
２００ナビゲーション装置

Claims

音声を入力する音声入力手段と、
カテゴリごとに分類した音声認識時の待ち受け単語を格納する格納手段と、
前記音声入力手段を介して音声入力された発話者の発話語彙と、前記格納手段に格納された待ち受け単語とを照合処理して、各カテゴリの待ち受け単語ごとに前記発話語彙の確からしさを算出する照合手段と、
前記照合手段で算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出する抽出手段と、
前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促す発話促進手段と、
前記発話促進手段で発話を促した結果、前記音声入力手段を介して音声入力された発話内容を音声認識して、前記発話語彙を特定する発話語彙特定手段とを備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記抽出手段によって１つの前記待ち受け単語が抽出された場合には、当該待ち受け単語を音声認識結果として決定し、
前記抽出手段によって前記待ち受け単語が抽出されない場合には、発話者に対して再発話を促すことを特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語が同一である場合には、抽出された前記待ち受け単語がそれぞれ属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語がそれぞれ異なる場合には、抽出された前記待ち受け単語、およびそれぞれの待ち受け単語が属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
請求項１〜４のいずれか一項に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出され、前記カテゴリと、各カテゴリから抽出された前記待ち受け単語とを組み合わせた組み合わせパターンが複数ある場合に、（１）全ての組み合わせパターンの中で前記カテゴリ、および前記待ち受け単語のいずれも一致していない場合には、前記カテゴリ、および前記待ち受け単語の発話を促すガイダンスを生成して出力し、（２）全ての組み合わせパターンの中で前記カテゴリまたは前記待ち受け単語のいずれか一方が一致し、他方が一致していない場合には、前記カテゴリまたは前記待ち受け単語のいずれか一致していない方の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
カテゴリごとに分類した音声認識時の待ち受け単語を格納し、
音声入力された発話者の発話語彙と、格納された待ち受け単語とを照合処理して、各待ち受け単語ごとに前記発話語彙の確からしさを算出し、
算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出し、
複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促し、
発話者に対して発話を促した結果、音声入力された発話内容を音声認識して、前記発話語彙を特定することを特徴とする音声認識方法。
請求項１〜５に記載の音声認識装置と、前記音声認識装置によって操作される情報機器とを備える音声認識システムであって、
前記音声認識装置は、発話者の発話語彙の特定結果を前記情報機器へ出力し、
前記情報機器は、前記音声認識装置から出力された発話者の発話語彙に基づいて、処理を実行することを特徴とする音声認識システム。