JP2006058641A

JP2006058641A - 音声認識装置

Info

Publication number: JP2006058641A
Application number: JP2004240813A
Authority: JP
Inventors: Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-08-20
Filing date: 2004-08-20
Publication date: 2006-03-02

Abstract

【課題】連続した単語の入力を待ち受けて音声認識すること。
【解決手段】現在ディスプレイ１０５に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置１０３５からメモリ１０３４ｂに読み込み、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語をメモリ１０３４ｂに格納する。使用者によってマイク１０１を介して入力された音声コマンドを、信号処理ユニット１０３ａで音声認識する。
【選択図】図１

Description

本発明は、使用者によって発話された音声を認識する音声認識装置に関する。

複数の階層により構成されるメニューを有し、任意の階層のメニューに含まれる操作コマンドを発話すると、その操作コマンドに応じた次階層のメニューを表示する音声認識装置が特許文献１によって知られている。

特開２００３−２９７８０号公報

しかしながら、従来のナビゲーション装置においては、各階層のメニューに表示された操作コマンドを各階層ごとに発話する必要があり、操作が煩雑になるという問題が生じていた。

本発明は、複数の階層により構成されるメニューを有し、各階層のメニューに含まれる操作コマンドを音声入力によって実行する音声認識装置であって、使用者の発話を入力する音声入力手段と、メニューを表示する表示手段と、表示手段に表示された任意の階層のメニューに含まれる各操作コマンドの音声データ、および任意の階層のメニューに含まれる各操作コマンドと、各操作コマンドから派生する下位階層のメニューに含まれる操作コマンドとを組み合わせた連続単語の音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、音声入力手段を介して、表示手段に表示された任意の階層のメニューに含まれる操作コマンドのうち、任意の操作コマンド、および連続単語のいずれか一方が入力された場合に、待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段とを有することを特徴とする。
本発明はまた、使用者の発話を入力する音声入力手段と、音声入力可能な操作コマンドを使用者に提示するコマンド提示手段と、コマンド提示手段によって提示された操作コマンドの音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、音声入力手段を介して、コマンド提示手段によって提示された操作コマンドのうち任意の操作コマンドが入力された場合に、待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段と、コマンド提示手段によって操作コマンドが提示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、入力促進手段から出力される音声は、習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする。

本発明によれば、使用者が発話可能な操作コマンドをメニュー表示して、任意の階層のメニューに表示した操作コマンド、および任意の階層のメニューに表示した操作コマンドと、各操作コマンドから派生する全ての下位の階層の操作グループに含まれる操作コマンドとを組み合わせた連続単語の発話を待ち受けるようにした。これによって、使用者が表示した操作コマンドから派生する下位の操作コマンドを覚えている場合には、任意の階層のメニューを表示した時点で、下位のコマンドまでを一括して発話することができ、使用者の利便性を向上することができる。

―第１の実施の形態―
第１の実施の形態においては、本発明による音声認識装置を車両に搭載したナビゲーション装置に適用し、使用者の発話を音声認識した結果に基づいてナビゲーション装置を制御する。図１は、本実施の形態におけるナビゲーション装置へ搭載した場合の一実施の形態の構成例を示すブロック図である。音声認識装置１００は、使用者の発話音声を入力するマイク１０１と、音声を出力するスピーカー１０２と、制御装置１０３と、使用者によって操作される入力装置１０４と、メッセージや音声認識結果を表示するディスプレイ１０５とを備えており、制御装置はナビゲーション装置２００と接続されている。

制御装置１０３は、図２により後述する信号処理ユニット１０３ａを備えており、マイク１０１を介して入力された発話内容を音声認識する。入力装置１０４は、使用者が音声入力の開始を指示するための発話スイッチ１０４ａと、後述する音声認識処理の結果、誤認識が発生した場合に直前の発話を訂正するために押下される訂正スイッチ１０４ｂとを備えている。ナビゲーション装置２００は、音声認識装置１００による音声認識結果に基づいて制御される。

図２は、信号処理ユニット１０３ａの構成例を示すブロック図である。信号処理ユニット１０３ａは、Ａ／Ｄコンバータ１０３１と、Ｄ／Ａコンバータ１０３２と、出力アンプ１０３３と、信号処理装置１０３４と、外部記憶装置１０３５とを有している。信号処理装置１０３４は、ＣＰＵ１０３４ａ、およびメモリ１０３４ｂを有している。外部記憶装置１０３５には、使用者に対して出力するプロンプトの音声データ、および音声認識時の待ち受け単語が格納されている。

使用者によって発話スイッチ１０４ａが押下されて発話開始が指示されると、信号処理装置１０３４は、音声入力を促すメッセージを使用者に知らせる為に、外部記憶装置１０３５からプロンプトの音声データを読み込んで、Ｄ／Ａコンバータ１０３２でアナログ信号に変換し、出力アンプ１０３３、およびスピーカー１０２を介して出力する。また、同時に外部記憶装置１０３５に格納されている音声認識時の待ち受け単語をメモリ１０３４ｂに読み込む。なお、本発明による音声認識装置においては、外部記憶装置１０３５に格納されている音声認識時の待ち受け単語は、図３により後述するように階層構造を有している。

上述した待ち受け単語をメモリ１０３４ｂに読み込んだ後、使用者によって音声が入力されると、信号処理装置１０３４は次のように音声を検出する。すなわち、マイク１０１から入力された音声信号はＡ／Ｄコンバータ１０３１でデジタル信号に変換され信号処理装置１０３４に入力される。信号処理装置１０３４は発話スイッチ１０４ａの操作がなされるまでは、Ａ／Ｄコンバータ１０３１から入力されるデジタル信号の平均パワーを演算している。そして、発話スイッチ１０４ａが操作されると音声待ち受け状態となる。その後、入力されるデジタル信号の瞬間パワーが平均パワーより所定値以上大きくなった時、使用者が発話したと判断して音声の取り込みを開始する。その後、デジタル信号の瞬間パワーが所定値以下の状態が所定時間以上継続した場合に、音声入力は終了したと判断する。

続いて信号処理装置１０３４は、入力された音声信号とメモリ１０３４ｂに読み込んだ待受け単語とをマッチング処理して音声認識する。すなわち、入力された音声信号とメモリ１０３４ｂに読み込んだ各待受け単語との一致度を演算する。そして、一致度演算の結果、その一致度の大きさを示すスコアを待受け単語ごとに算出し、スコアが最も高い待ち受け単語、すなわち最も一致度の高い待ち受け単語を音声認識結果として決定する。

図３は、外部記憶装置１０３５に格納されている音声認識時の待ち受け単語の階層構造を模式的に示した図である。図３に示すように、待ち受け単語は、第１階層３ａ、第２階層３ｂ，および第３階層３ｃの３階層の階層構造をなしている。これら第１〜第３の階層の待ち受け単語のそれぞれの階層は、ナビゲーション装置２００におけるメニュー画面の各階層と対応付けられている。すなわち、ナビゲーション装置２００は、図4に示すような階層構造でメニューが構成されており、第１階層のメニュー４ａには第１階層の待ち受け単語３ａに対応したメニュー項目が表示されており、第２階層のメニュー４ｂには第２階層の待ち受け単語３ｂに対応したメニュー項目が表示されており、第３階層のメニュー４ｃには第３階層の待ち受け単語３ｃに対応したメニュー項目が表示されている。

そして、ディスプレイ１０５に第１階層のメニュー４ａが表示されているときには、対応する第１階層の待ち受け単語３ａを外部記憶装置１０３５からメモリ１０３４ｂに読み込む。同様に、ディスプレイ１０５に第２階層のメニュー４ｂが表示されているときには第２階層の待ち受け単語３ｂを、第３階層のメニュー４ｃが表示されているときには第３階層の待ち受け単語３ｃをそれぞれ外部記憶装置１０３５からメモリ１０３４ｂに読み込む。例えば、ディスプレイ１０５に第１階層のメニュー４ａが表示されている場合について具体的に説明すると、第１階層の待ち受け単語３ａがメモリ１０３４ｂに読み込まれ、使用者による音声入力を待ち受ける。その後、使用者によって第１階層のメニュー４ａに含まれる項目、例えば「行き先」が発話されると、上述したように音声認識を行って認識結果をスピーカー１０２を介して出力する。

この認識結果に誤認識が発生していることに使用者が気付いた場合には、使用者は、所定時間以内に直前の認識結果を修正するために再発話を行うために訂正スイッチ１０４ｂを押下する。この場合には、ディスプレイ１０５に第１階層のメニュー４ａを表示し、メモリ１０３４ｂに第１階層の待ち受け単語３ａを読み込んだ状態のまま、使用者による再発話を待ち受ける。一方、所定時間以内に訂正スイッチ１０４ｂが押下されない場合には、音声認識は正常に完了したと判断し、その後、音声認識した項目に対する下位のメニュー画面、すなわち第２階層のメニュー４ｂをディスプレイ１０５に表示して、第２階層の待ち受け単語３ｂをメモリ１０３４ｂに読み込む。

その後、同様に第２階層のメニュー４ｂに含まれる項目が使用者によって発話され、音声認識された場合には、認識結果をスピーカー１０２を介して出力した後、音声認識した項目に対する下位のメニュー画面、すなわち第３階層のメニュー４ｃをディスプレイ１０５に表示して、第３階層の待ち受け単語３ｃをメモリ１０３４ｂに読み込む。これによって、常にディスプレイ１０５に表示されているメニュー項目、すなわち使用者が発話する可能性のある操作コマンド（ボイスコマンド）に対応する待ち受け単語をメモリ１０３４ｂに読み込んで、音声認識を行うことができる。

本実施の形態においては、さらに、現在ディスプレイ１０５に表示されている階層のメニューに対応する階層の待ち受け単語と、それより下位の全ての階層の待ち受け単語とを組み合わせた連続単語も待ち受け単語としてメモリ１０３４ｂに格納しておく。すなわち、ディスプレイ１０５に第１階層のメニュー４ａが表示されている場合には、第１階層の待ち受け単語３ａとともに、第１階層の待ち受け単語３ａ、第２階層の待ち受け単語３ｂ、および第３階層の待ち受け単語３ｃを組み合わせた待ち受け単語群をメモリ１０３４ｂに格納する。

第１階層の待ち受け単語３ａ、第２階層の待ち受け単語３ｂ、および第３階層の待ち受け単語３ｃを組み合わせた待ち受け単語群は、例えば、「行き先自宅に帰る○○さん」や「行き先お気に入り○○社」のように、第１階層の待ち受け単語３ａ、第２階層の待ち受け単語３ｂ、および第３階層の待ち受け単語３ｃを順番に並べたすべての組み合わせである。これによって、ナビゲーション装置２００の操作に慣れた使用者は、各階層のメニューに含まれる項目を個別に発話せずに、現在表示されている階層の項目から想起できる下位の階層のメニューに含まれる項目までを一括して発話した場合でも、音声認識を行うことができる。

また、音声認識は上述したように一致度を算出することによって行うため、「行き先お気に入り○○社」という待ち受け単語に対して、使用者が「行き先のお気に入りの○○社」といったように、各階層のメニュー項目の間に助詞を含めて発話した場合でも、正常に発話内容を音声認識することができる。

図５は、第１の実施の形態における音声認識装置１００の動作を示すフローチャートである。図５に示す処理は、発話スイッチ１０４ａが押下されると起動するプログラムとして制御装置１０３により実行される。ステップＳ１０において、現在ディスプレイ１０５に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置１０３５からメモリ１０３４ｂに読み込む。また、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語を生成し、メモリ１０３４ｂに格納する。ステップＳ２０では、音声入力を促すプロンプトをスピーカー１０２を介して出力する。

ステップＳ３０では、使用者によってマイク１０１を介して音声入力がなされたか否かを判断する。使用者によって音声入力がなされたと判断した場合には、ステップＳ４０へ進む。ステップＳ４０では、使用者によって入力された発話内容の音声信号とメモリ１０３４ｂに読み込んだ各待受け単語との一致度演算を行って、音声認識を行う。その後、ステップＳ５０へ進み、音声認識結果をスピーカー１０２を介して出力して、ステップＳ６０へ進む。

ステップＳ６０では、使用者によって訂正スイッチ１０４ｂが押下されたか否かが判断される。使用者によって訂正スイッチ１０４ｂが押下されたと判断した場合には、ステップＳ３０に戻り、使用者に再発話を促し、正常認識されるまで上述した処理を繰り返す。一方、使用者によって訂正スイッチ１０４ｂが押下されないと判断した場合には、ステップＳ７０へ進む。ステップＳ７０では、音声認識した結果、さらに下位の階層のメニューが存在するか否かを判断する。

さらに下位の階層のメニューが存在すると判断した場合には、ステップＳ１０へ戻り、該当する階層の待ち受け単語をメモリ１０３４ｂに読み込んで、すべての階層のメニューに対して音声認識が完了するまで処理を繰り返す。下位のメニューが存在しない判断した場合には、ナビゲーション装置２００を制御するためのコマンドは決定したと判断できるため、ステップＳ８０へ進み、決定したコマンドに基づいてナビゲーション装置２００を制御する。その後、処理を終了する。

以上説明した第１の実施の形態によれば、以下のような作用効果を得ることができる。
（１）ディスプレイ１０５に表示されているメニュー項目に対応する待ち受け単語を常にメモリ１０３４ｂに読み込んで、音声認識を行うこととした。これによって、使用者が発話する可能性のある単語（ボイスコマンド）を常に待ち受け単語として音声認識を行うことができるため、音声認識率を向上することができる。

（２）現在ディスプレイ１０５に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置１０３５からメモリ１０３４ｂに読み込むとともに、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語群を生成し、メモリ１０３４ｂに格納することとした。これによって、ナビゲーション装置２００の操作に慣れた使用者は、各階層のメニューに含まれる項目を個別に発話せずに、現在表示されている階層の項目から想起できる下位の階層のメニューに含まれる項目までを一括して発話することができ、使用者にとっての操作性が向上する。

（３）現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語を待ち受け単語群としてメモリ１０３４ｂに格納し、当該待ち受け単語と使用者による発話内容を一致度を算出することによって音声認識するため、例えば「行き先お気に入り○○社」という待ち受け単語に対して、使用者が「行き先のお気に入りの○○社」といったように、各階層のメニュー項目の間に助詞を含めて発話した場合でも、正常に発話内容を音声認識することができる。

―第２の実施の形態―
第２の実施の形態では、第１の実施の形態で説明した音声認識装置１００において、使用者が過去に行った音声入力の回数を計数して、使用者の音声入力の習熟度をランク付けする。そして、音声入力の習熟度のランクに基づいて、使用者に対して発話を促すために出力するプロンプトを変化させる。なお、図１に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図２に示した信号処理ユニット１０７ａの構成例を示すブロック図、図３に示した待ち受け単語の階層構造、および図４に示したナビゲーション装置２００のメニュー構成については、第１の実施の形態と同様のため、説明を省略する。

第２の実施の形態における音声認識装置１００は、使用者の音声入力の利用回数をカウントする利用回数カウンタを外部記憶装置１０３５に記憶しておき、使用者が発話スイッチ１０４ａを押下して音声入力を開始する度に、利用回数カウンタのカウント値に１を加算する。そして、使用者が発話スイッチ１０４ａを押下して音声入力を開始する度に、前回までの利用回数カウンタのカウント値を読み込んで、当該カウント値に基づいて、使用者の音声入力の習熟度を以下の（１）〜（３）に示す３段階のランクで判定して、スピーカー１０２から出力するプロンプトを変化させる。

（１）初期段階
初期段階は、過去の音声入力経験が少なく、音声入力に不慣れな使用者を含む段階であり、例えば、利用回数カウンタのカウント値が５未満の場合に判定される。音声入力の習熟度が初期段階と判定された場合には、使用者に対しては、長いプロンプト、すなわち丁寧なプロンプトが出力される。
（２）第２段階
第２段階は、音声入力にある程度慣れた使用者を含む段階であり、例えば、利用回数カウンタのカウント値が５以上、かつ１０未満の場合に判定される。音声入力の習熟度が第２段階と判定された場合には、使用者に対しては、短いプロンプト、すなわち簡略化されたプロンプトが出力される。
（３）第３段階
第３段階は、音声入力に熟練した使用者を含む段階であり、例えば、利用回数カウンタのカウント値が１０以上の場合に判定される。音声入力の習熟度が第３段階と判定された場合には、使用者に対してプロンプトを出力しない。

図６〜図８に、図４に示した各階層のメニューにしたがって音声入力を行う場合の、各段階の習熟度の使用者に対して出力されるプロンプト、および使用者の発話例を具体的に示す。なお、以下の図６〜図８についての説明では、第１の実施の形態と同様に、ディスプレイ１０５に各階層のメニューが表示されているときには、それぞれに対応する階層の待ち受け単語、およびそれより下位の階層の待ち受け単語とを組み合わせた連続単語がメモリ１０３４ｂに格納されており、これらの待ち受け単語に基づいて音声認識が行われる。

図６は、音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。使用者によって発話スイッチ１０４ａを押下されると、ディスプレイ１０５に第１階層のメニュー４ａを表示して、使用者に対してコマンドの入力を促すためのプロンプト、「コマンドをどうぞ」をスピーカー１０２を介して出力する。使用者は、第１階層のメニュー４ａに表示されているメニュー項目の中から、ナビゲーション装置２００で行き先（目的地）を設定するためのコマンド「行き先」を発話すると、メモリ１０３４ｂに格納されている第１階層の待ち受け単語３ａとの一致度が算出され、音声認識される。

その後、認識したコマンドに対応する下位の階層、すなわち第２階層のメニュー４ｂをディスプレイ１０５に表示する。このとき、使用者に対して行き先を設定する方法を指定するためのコマンドの発話を促すためのプロンプト、「行き先のコマンドをどうぞ」をスピーカー１０２を介して出力する。使用者は、第２階層のメニュー４ｂに表示されているメニュー項目の中から、ナビゲーション装置２００に登録済みの地点を行き先として設定するためのコマンド「登録地」を発話すると、メモリ１０３４ｂに格納されている第２階層の待ち受け単語３ｂとの一致度が算出され、音声認識される。

その後、認識したコマンドに対応する下位の階層、すなわち第３階層のメニュー４ｃをディスプレイ１０５に表示する。このとき、使用者に対して登録済みの地点から任意の地点を指定するための発話を促すためのプロンプト、「登録地の名称をどうぞ」をスピーカー１０２を介して出力する。使用者は、第３階層のメニュー４ｂに表示されている登録地の中から、任意の登録地を指定するためのコマンド「○○社」を発話すると、メモリ１０３４ｂに格納されている第３階層の待ち受け単語３ｃとの一致度が算出され、音声認識される。これによって目的地が特定され、ナビゲーション装置２００において、特定した目的地までの経路が探索され、経路誘導が開始される。

図７は、音声入力の習熟度が第２段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。なお、ディスプレイ１０５に表示される各階層のメニュー、および使用者による発話内容については図６に示した音声入力の習熟度が初期段階と判定された場合と同じため、これらの説明を省略し、相違点であるスピーカー１０２を介して出力するプロンプトについて説明する。

音声入力の習熟度が第２段階である場合には、上述したように、使用者は音声入力にある程度慣れているため、初期段階よりも簡易なプロンプトを出力して、音声入力の簡略化を図る。すなわち、ディスプレイ１０５に第１階層のメニュー４ａが表示されている場合には、使用者に対して音声コマンドの発話を促すプロンプトとして「コマンド」を出力する。そして、ディスプレイ１０５に第２階層のメニュー４ｂが表示されている場合には、使用者に対して行き先を設定する方法を指定するためのコマンドの発話を促すプロンプトとして「行き先」を出力する。

ディスプレイ１０５に第３階層のメニュー４ｃが表示されている場合には、使用者に対して登録済みの任意の地点を特定するためのコマンドの発話を促すプロンプトとして「登録地」を出力する。これによって、通常の各階層のメニューが表示された時点で通常のプロンプトを出力する初期段階と比べて、使用者は一連の音声入力操作を短時間で完了することができる。

図８は、音声入力の習熟度が第３段階と判定された場合のメニュー遷移、および使用者の発話内容の具体例を示す図である。音声入力の習熟度が第３段階である場合には、上述したように、使用者は音声入力に熟練していることから、プロンプトを出力しなくてもディスプレイ１０５に表示されたメニューを見るだけで何を発話すればよいか判断することができる。したがって、この場合には、各階層のメニューを表示した時点でプロンプトは出力せず、すぐに使用者による音声コマンドの発話を待ち受ける。

このため、使用者は、ディスプレイ１０５に第１階層のメニュー４ａが表示されたら「行き先」と発話し、次に、第２階層のメニュー４ｂが表示されたら「登録地」と発話し、第３階層のメニュー４ｃが表示されたら「○○社」と発話する。これによって、使用者はさらに短時間で目的地の設定を行うことが可能となる。また、使用者は、「行き先」、「登録地」、および「○○社」を続けて発話すれば良いことを認知することができ、ディスプレイ１０５に第１階層のメニュー４ａが表示された時点で「行き先」、「登録地」、および「○○社」を続けて発話するようになる。すなわち「行き先登録地○○社」と一括発話するようになる。

この場合は、第１の実施の形態で上述したように、メモリ１０３４ｂに格納されている現在ディスプレイ１０５に表示されている階層のメニューに対応する階層の待ち受け単語と、それより下位の階層の待ち受け単語とを組み合わせた連続単語が音声認識結果として決定される。これによって、使用者は音声入力に慣れるにしたがって、無意識のうちに連続単語を発話して、音声入力を行うようになる。

図９は、第２の実施の形態における音声認識装置１００の動作を示すフローチャートである。図９に示す処理は、発話スイッチ１０４ａが押下されると起動するプログラムとして制御装置１０３により実行される。なお、図５に示した第１の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。

ステップＳ１において、外部記憶装置１０３５に記憶した利用回数カウンタのカウント値に基づいて、使用者の音声入力の習熟度を判定する。ステップＳ１１では、使用者の音声入力の習熟度が、初期段階、第２段階、および第３段階のいずれであるかを判断する。使用者の音声入力の習熟度が初期段階と判断された場合には、ステップＳ２１へ進み、使用者に音声入力を促すために通常のプロンプトをスピーカー１０２を介して出力して、ステップＳ３０へ進む。

これに対して、使用者の音声入力の習熟度が第２段階と判断された場合には、ステップＳ２２へ進み、使用者に音声入力を促すために簡略化したプロンプトをスピーカー１０２を介して出力して、ステップＳ３０へ進む。また、使用者の音声入力の習熟度が第３段階と判断された場合には、プロンプトを出力せず、そのままステップＳ３０へ進む。

以上説明した第２の実施の形態によれば、第１の実施の形態による効果に加えて、以下のような作用効果を得ることができる。
（１）使用者の音声入力の習熟度を判定して、その入力経験に応じて出力するプロンプトを変化させることとした。使用者の音声入力に対する慣れを考慮して、適切なプロンプトを出力して、使用者に対して音声入力を促すことができる。
（２）使用者が音声入力に慣れていない場合は、通常の（丁寧な）プロンプトを出力し、使用者がある程度音声入力に慣れている場合には、簡略化したプロンプトを出力し、使用者が音声入力に熟練している場合には、プロンプトを出力しないこととした。これによって、使用者が音声入力に慣れれば慣れるほど、一連の音声入力操作を短時間で完了することができるようになる。
（３）使用者の音声入力の習熟度が第３段階の場合は、使用者に対して音声入力を促すプロンプトを出力しないこととした。これによって、使用者は各階層のメニューに表示されたコマンドを続けて発話することになり、その結果、各コマンドを一括して発話する、すなわち連続単語を発話すればよいことを認知することができる。

―第３の実施の形態―
第３の実施の形態では、第２の実施の形態で説明した音声認識装置１００において、使用者の音声入力の習熟度が第３段階である場合には、プロンプトの代わりに音声入力を促す電子音を出力する。なお、図１に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図２に示した信号処理ユニット１０７ａの構成例を示すブロック図、図３に示した待ち受け単語の階層構造、および図４に示したナビゲーション装置２００のメニュー構成については、第１の実施の形態と同様のため、説明を省略する。また、図６に示した音声入力の習熟度が初期段階と判定された場合の具体例、および図７に示した音声入力の習熟度が第２段階と判定された場合の具体例については、第２の実施の形態と同様のため、説明を省略する。

音声入力の習熟度が第３段階である場合には、第２の実施の形態で上述したように、使用者は音声入力に熟練していることから、プロンプトを出力しなくてもディスプレイ１０５に表示されたメニューを見るだけで何を発話すればよいか判断することができる。しかし、運転中などディスプレイ１０５を注視することができず、メニューの切り替わりを視認できない場合には、使用者は発話のタイミングを逸してしまう可能性がある。したがって、このような場合に、使用者に対して発話のタイミングを提示するために、各階層のメニューを表示した時点で、例えば「ピッ」というような電子音をスピーカー１０２を介して出力する。

図１０は、音声入力の習熟度が第３段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。なお、ディスプレイ１０５に表示される各階層のメニュー、および使用者による発話内容については図６に示した音声入力の習熟度が初期段階と判定された場合と同じため、これらの説明を省略し、相違点を中心に説明する。この場合、ディスプレイ１０５に第１階層のメニュー４ａ、第２階層のメニュー４ｂ、および第３階層のメニュー４ｃがそれぞれ表示されると同時に、スピーカー１０２を介して「ピッ」という電子音を出力して、使用者に対して音声コマンドの発話タイミングを提示する。

図１１は、第３の実施の形態における音声認識装置１００の動作を示すフローチャートである。図１１に示す処理は、発話スイッチ１０４ａが押下されると起動するプログラムとして制御装置１０３により実行される。なお、図５に示した第１の実施の形態における処理、および図９に示した第２の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。ステップＳ１１において、使用者の音声入力の習熟度が第３段階と判断された場合には、ステップＳ２３へ進み、使用者に音声入力のタイミングを提示する電子音をスピーカー１０２を介して出力して、ステップＳ３０へ進む。

以上説明した第３の実施の形態によれば、第２の実施の形態による効果に加えて、以下のような効果を得ることができる。すなわち、音声入力の習熟度が第３段階と判定された場合に、各階層のメニューを表示した時点で電子音をスピーカー１０２を介して出力することとした。これによって、使用者に対して発話のタイミングを提示することができるため、使用者が運転中などディスプレイ１０５を注視することができず、メニューの切り替わりを視認できない場合であっても、使用者は適切なタイミングで音声入力を行うことができる。

―第４の実施の形態―
第４の実施の形態においては、図１に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図２に示した信号処理ユニット１０７ａの構成例を示すブロック図、図３に示した待ち受け単語の階層構造、および図４に示したナビゲーション装置２００のメニュー構成については、第１の実施の形態と同様のため、説明を省略する。また、図６に示した音声入力の習熟度が初期段階と判定された場合の具体例、および図７に示した音声入力の習熟度が第２段階と判定された場合の具体例については、第２の実施の形態と同様のため、説明を省略する。

第４の実施の形態では、第２の実施の形態で説明した音声認識装置１００において、使用者の音声入力の習熟度が第３段階である場合には、一連の音声入力が完了した時点、すなわち全ての階層のメニューに対して音声入力、および音声認識が完了した時点で、各階層のメニューで音声認識した結果を連続して出力する。

図１２は、音声入力の習熟度が第３段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。使用者は、ディスプレイ１０５に第１階層のメニュー４ａが表示されたら「行き先」と発話し、次に、第２階層のメニュー４ｂが表示されたら「登録地」と発話し、第３階層のメニュー４ｃが表示されたら「○○社」と発話する。その後、各階層のメニューで音声認識した結果を連続した文字列、すなわち「行き先登録地○○社」を、スピーカー１０２を介して出力する。これによって、使用者は、音声入力するに当たって、「行き先登録地○○社」と一括発話することが可能なことを認知することができる。

図１３は、第４の実施の形態における音声認識装置１００の動作を示すフローチャートである。図１３に示す処理は、発話スイッチ１０４ａが押下されると起動するプログラムとして制御装置１０３により実行される。なお、図５に示した第１の実施の形態における処理、および図９に示した第２の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。

ステップＳ７１において、使用者の音声入力の習熟度が第３段階であるか否かを判断する。使用者の音声入力の習熟度が第３段階であると判断した場合には、ステップＳ７２に進み、各階層のメニューで音声認識した結果を連続しスピーカー１０２を介して出力して、ステップＳ８０へ進む。一方、使用者の音声入力の習熟度が第３段階でないと判断した場合には、そのままステップＳ８０へ進む。

以上説明した第４の実施の形態によれば、音声入力の習熟度が第３段階と判定された場合に、一連の音声入力が完了した時点で各階層のメニューで音声認識した結果を連続して出力することとした。これによって、第２の実施の形態と同様の効果を得ることができる。

―変形例―
なお、以下のように変形することもできる。
（１）上述した第２〜第４の実施の形態では、利用回数カウンタのカウント値に基づいて、使用者の音声入力の習熟度を自動的に判定することとしたが、これに限定されず、あらかじめ使用者によって自らの音声入力の習熟度を設定可能として、設定結果に基づいて使用者の音声入力の習熟度を判定してもよい。また、音声入力の習熟度は初期段階から第３段階の３段階に分けて判定する例について示したが、３段階未満でも４段階以上でもよい。この場合、使用者の音声入力の習熟度が高いほど、出力するプロンプトを簡易なものにするように、段階の数に応じて出力するプロンプトに差異を設ける。

（２）上述した第３の実施の形態では、音声入力の習熟度が第３段階と判定された場合に、発話のタイミングを提示する電子音をスピーカー１０２を介して出力することとしたが、電子音に限らず、例えば「はい」や「どうぞ」のような短いプロンプトや、短い音楽を出力してもよい。

（３）上述した第３の実施の形態では、音声入力の習熟度が第３段階と判定された場合にのみ、発話のタイミングを提示する電子音をスピーカー１０２を介して出力することとしたが、図１４および図１５に示すように、音声入力の習熟度が初期段階、および第２段階の場合にも、プロンプトの最後に発話のタイミングを提示する電子音を付加して出力してもよい。これによって、使用者はプロンプトの終わりを認識して、適切なタイミングで音声入力を行うことができる。

（４）上述した第４の実施の形態では、使用者の音声入力の習熟度が第３段階である場合にのみ一連の音声入力が完了した時点で各階層のメニューで音声認識した結果を連続して出力することとした。しかし、音声入力の習熟度が初期段階、および第２段階の場合にも出力してもよい。また、第２の実施の形態と組み合わせた例について説明したが、第３の実施の形態、および変形例（３）と組み合わせてもよい。

（５）上述した第１〜第４の実施の形態では、本発明による音声認識装置をナビゲーション装置に搭載する例を示したが、これに限定されず、例えばハンズフリー電話システムに搭載してもよい。また、その他の機器に搭載してもよい。

（６）上述した第１〜第４の実施の形態では、メニュー、およびそれに対応する待ち受け単語の階層は３段階である例について説明した。しかし、３段階未満であっても４段階以上であってもよい。また、メニュー、およびそれに対応する待ち受け単語が階層構造を有さない場合であっても、本発明は適用可能である。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１０１は音声入力手段に、スピーカー１０２は入力促進手段に、制御装置１０３は習熟度判定手段に相当する。信号処理装置１０３４はマッチング手段に、メモリ１０３４ｂは待ち受け単語格納手段に、ディスプレイ１０５は表示手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

第１の実施の形態におけるナビゲーション装置へ搭載した場合の一実施の形態の構成例を示すブロック図である。第１の実施の形態における信号処理ユニット１０３ａの構成例を示すブロック図である。第１の実施の形態における待ち受け単語の階層構造を模式的に示した図である。第１の実施の形態におけるナビゲーション装置２００のメニュー構成例を示す図である。第１の実施の形態における音声認識装置１００の動作を示すフローチャート図である。第２の実施の形態における音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。第２の実施の形態における音声入力の習熟度が第２段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。第２の実施の形態における音声入力の習熟度が第３段階と判定された場合のメニュー遷移、および使用者の発話内容の具体例を示す図である。第２の実施の形態における音声認識装置１００の動作を示すフローチャート図である。第３の実施の形態における音声入力の習熟度が第３段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。第３の実施の形態における音声認識装置１００の動作を示すフローチャート図である。第４の実施の形態における音声入力の習熟度が第３段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。第４の実施の形態における音声認識装置１００の動作を示すフローチャート図である。変形例（３）における音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。変形例（３）における音声入力の習熟度が第２段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。

符号の説明

１００音声認識装置
１０１マイク
１０２スピーカー
１０３制御装置
１０３ａ信号処理ユニット
１０３１Ａ／Ｄコンバータ
１０３２Ｄ／Ａコンバータ
１０３３出力アンプ
１０３４信号処理装置
１０３４ａＣＰＵ
１０３４ｂメモリ
１０３５外部記憶装置
１０４入力装置
１０４ａ発話スイッチ
１０４ｂ訂正スイッチ
１０５ディスプレイ
２００ナビゲーション装置

Claims

複数の階層により構成されるメニューを有し、各階層のメニューに含まれる操作コマンドを音声入力によって実行する音声認識装置であって、
使用者の発話を入力する音声入力手段と、
前記メニューを表示する表示手段と、
前記表示手段に表示された任意の階層のメニューに含まれる各操作コマンドの音声データ、および前記任意の階層のメニューに含まれる各操作コマンドと、各操作コマンドから派生する下位階層のメニューに含まれる操作コマンドとを組み合わせた連続単語の音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、
前記音声入力手段を介して、前記表示手段に表示された任意の階層のメニューに含まれる操作コマンドのうち、任意の操作コマンド、および前記連続単語のいずれか一方が入力された場合に、前記待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段とを有することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記表示手段に任意の階層のメニューが表示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、
使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、
前記入力促進手段から出力される音声は、前記習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
使用者によって最も下位階層のメニューに含まれる操作コマンドが入力され、前記マッチング手段によって音声認識が完了したときに、使用者によって入力された全ての階層のメニューに含まれる操作コマンドを上位の階層から連続して出力する操作コマンド出力手段をさらに有することを特徴とする音声認識装置。
使用者の発話を入力する音声入力手段と、
音声入力可能な操作コマンドを使用者に提示するコマンド提示手段と、
前記コマンド提示手段によって提示された操作コマンドの音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、
前記音声入力手段を介して、前記コマンド提示手段によって提示された操作コマンドのうち任意の操作コマンドが入力された場合に、前記待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段と、
前記コマンド提示手段によって操作コマンドが提示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、
使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、
前記入力促進手段から出力される音声は、前記習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする音声認識装置。
請求項２〜４のいずれか一項に記載の音声認識装置において、
前記入力促進手段は、前記習熟度判定手段で判定した使用者の音声入力の習熟度に基づいて、使用者が高い習熟度ランクに属するほど前記使用者に対して操作コマンドの入力を促す音声を短くし、使用者が最も高い習熟度ランクに属する場合には、音声を出力しないことを特徴とする音声認識装置。
請求項２〜４のいずれか一項に記載の音声認識装置において、
前記入力促進手段は、前記使用者に対して操作コマンドの入力を促す音声の後ろに電子音を付加して出力することを特徴とする音声認識装置。
請求項２〜４のいずれか一項に記載の音声認識装置において、
前記入力促進手段は、使用者が最も高い習熟度ランクに属する場合には、前記使用者に対して操作コマンドの入力を促す音声の代わりに電子音を出力することを特徴とする音声認識装置。