JP2006058641A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2006058641A
JP2006058641A JP2004240813A JP2004240813A JP2006058641A JP 2006058641 A JP2006058641 A JP 2006058641A JP 2004240813 A JP2004240813 A JP 2004240813A JP 2004240813 A JP2004240813 A JP 2004240813A JP 2006058641 A JP2006058641 A JP 2006058641A
Authority
JP
Japan
Prior art keywords
user
input
voice
menu
hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004240813A
Other languages
English (en)
Inventor
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004240813A priority Critical patent/JP2006058641A/ja
Publication of JP2006058641A publication Critical patent/JP2006058641A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 連続した単語の入力を待ち受けて音声認識すること。
【解決手段】 現在ディスプレイ105に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置1035からメモリ1034bに読み込み、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語をメモリ1034bに格納する。使用者によってマイク101を介して入力された音声コマンドを、信号処理ユニット103aで音声認識する。
【選択図】 図1

Description

本発明は、使用者によって発話された音声を認識する音声認識装置に関する。
複数の階層により構成されるメニューを有し、任意の階層のメニューに含まれる操作コマンドを発話すると、その操作コマンドに応じた次階層のメニューを表示する音声認識装置が特許文献1によって知られている。
特開2003−29780号公報
しかしながら、従来のナビゲーション装置においては、各階層のメニューに表示された操作コマンドを各階層ごとに発話する必要があり、操作が煩雑になるという問題が生じていた。
本発明は、複数の階層により構成されるメニューを有し、各階層のメニューに含まれる操作コマンドを音声入力によって実行する音声認識装置であって、使用者の発話を入力する音声入力手段と、メニューを表示する表示手段と、表示手段に表示された任意の階層のメニューに含まれる各操作コマンドの音声データ、および任意の階層のメニューに含まれる各操作コマンドと、各操作コマンドから派生する下位階層のメニューに含まれる操作コマンドとを組み合わせた連続単語の音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、音声入力手段を介して、表示手段に表示された任意の階層のメニューに含まれる操作コマンドのうち、任意の操作コマンド、および連続単語のいずれか一方が入力された場合に、待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段とを有することを特徴とする。
本発明はまた、使用者の発話を入力する音声入力手段と、音声入力可能な操作コマンドを使用者に提示するコマンド提示手段と、コマンド提示手段によって提示された操作コマンドの音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、音声入力手段を介して、コマンド提示手段によって提示された操作コマンドのうち任意の操作コマンドが入力された場合に、待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段と、コマンド提示手段によって操作コマンドが提示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、入力促進手段から出力される音声は、習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする。
本発明によれば、使用者が発話可能な操作コマンドをメニュー表示して、任意の階層のメニューに表示した操作コマンド、および任意の階層のメニューに表示した操作コマンドと、各操作コマンドから派生する全ての下位の階層の操作グループに含まれる操作コマンドとを組み合わせた連続単語の発話を待ち受けるようにした。これによって、使用者が表示した操作コマンドから派生する下位の操作コマンドを覚えている場合には、任意の階層のメニューを表示した時点で、下位のコマンドまでを一括して発話することができ、使用者の利便性を向上することができる。
―第1の実施の形態―
第1の実施の形態においては、本発明による音声認識装置を車両に搭載したナビゲーション装置に適用し、使用者の発話を音声認識した結果に基づいてナビゲーション装置を制御する。図1は、本実施の形態におけるナビゲーション装置へ搭載した場合の一実施の形態の構成例を示すブロック図である。音声認識装置100は、使用者の発話音声を入力するマイク101と、音声を出力するスピーカー102と、制御装置103と、使用者によって操作される入力装置104と、メッセージや音声認識結果を表示するディスプレイ105とを備えており、制御装置はナビゲーション装置200と接続されている。
制御装置103は、図2により後述する信号処理ユニット103aを備えており、マイク101を介して入力された発話内容を音声認識する。入力装置104は、使用者が音声入力の開始を指示するための発話スイッチ104aと、後述する音声認識処理の結果、誤認識が発生した場合に直前の発話を訂正するために押下される訂正スイッチ104bとを備えている。ナビゲーション装置200は、音声認識装置100による音声認識結果に基づいて制御される。
図2は、信号処理ユニット103aの構成例を示すブロック図である。信号処理ユニット103aは、A/Dコンバータ1031と、D/Aコンバータ1032と、出力アンプ1033と、信号処理装置1034と、外部記憶装置1035とを有している。信号処理装置1034は、CPU1034a、およびメモリ1034bを有している。外部記憶装置1035には、使用者に対して出力するプロンプトの音声データ、および音声認識時の待ち受け単語が格納されている。
使用者によって発話スイッチ104aが押下されて発話開始が指示されると、信号処理装置1034は、音声入力を促すメッセージを使用者に知らせる為に、外部記憶装置1035からプロンプトの音声データを読み込んで、D/Aコンバータ1032でアナログ信号に変換し、出力アンプ1033、およびスピーカー102を介して出力する。また、同時に外部記憶装置1035に格納されている音声認識時の待ち受け単語をメモリ1034bに読み込む。なお、本発明による音声認識装置においては、外部記憶装置1035に格納されている音声認識時の待ち受け単語は、図3により後述するように階層構造を有している。
上述した待ち受け単語をメモリ1034bに読み込んだ後、使用者によって音声が入力されると、信号処理装置1034は次のように音声を検出する。すなわち、マイク101から入力された音声信号はA/Dコンバータ1031でデジタル信号に変換され信号処理装置1034に入力される。信号処理装置1034は発話スイッチ104aの操作がなされるまでは、A/Dコンバータ1031から入力されるデジタル信号の平均パワーを演算している。そして、発話スイッチ104aが操作されると音声待ち受け状態となる。その後、入力されるデジタル信号の瞬間パワーが平均パワーより所定値以上大きくなった時、使用者が発話したと判断して音声の取り込みを開始する。その後、デジタル信号の瞬間パワーが所定値以下の状態が所定時間以上継続した場合に、音声入力は終了したと判断する。
続いて信号処理装置1034は、入力された音声信号とメモリ1034bに読み込んだ待受け単語とをマッチング処理して音声認識する。すなわち、入力された音声信号とメモリ1034bに読み込んだ各待受け単語との一致度を演算する。そして、一致度演算の結果、その一致度の大きさを示すスコアを待受け単語ごとに算出し、スコアが最も高い待ち受け単語、すなわち最も一致度の高い待ち受け単語を音声認識結果として決定する。
図3は、外部記憶装置1035に格納されている音声認識時の待ち受け単語の階層構造を模式的に示した図である。図3に示すように、待ち受け単語は、第1階層3a、第2階層3b,および第3階層3cの3階層の階層構造をなしている。これら第1〜第3の階層の待ち受け単語のそれぞれの階層は、ナビゲーション装置200におけるメニュー画面の各階層と対応付けられている。すなわち、ナビゲーション装置200は、図4に示すような階層構造でメニューが構成されており、第1階層のメニュー4aには第1階層の待ち受け単語3aに対応したメニュー項目が表示されており、第2階層のメニュー4bには第2階層の待ち受け単語3bに対応したメニュー項目が表示されており、第3階層のメニュー4cには第3階層の待ち受け単語3cに対応したメニュー項目が表示されている。
そして、ディスプレイ105に第1階層のメニュー4aが表示されているときには、対応する第1階層の待ち受け単語3aを外部記憶装置1035からメモリ1034bに読み込む。同様に、ディスプレイ105に第2階層のメニュー4bが表示されているときには第2階層の待ち受け単語3bを、第3階層のメニュー4cが表示されているときには第3階層の待ち受け単語3cをそれぞれ外部記憶装置1035からメモリ1034bに読み込む。例えば、ディスプレイ105に第1階層のメニュー4aが表示されている場合について具体的に説明すると、第1階層の待ち受け単語3aがメモリ1034bに読み込まれ、使用者による音声入力を待ち受ける。その後、使用者によって第1階層のメニュー4aに含まれる項目、例えば「行き先」が発話されると、上述したように音声認識を行って認識結果をスピーカー102を介して出力する。
この認識結果に誤認識が発生していることに使用者が気付いた場合には、使用者は、所定時間以内に直前の認識結果を修正するために再発話を行うために訂正スイッチ104bを押下する。この場合には、ディスプレイ105に第1階層のメニュー4aを表示し、メモリ1034bに第1階層の待ち受け単語3aを読み込んだ状態のまま、使用者による再発話を待ち受ける。一方、所定時間以内に訂正スイッチ104bが押下されない場合には、音声認識は正常に完了したと判断し、その後、音声認識した項目に対する下位のメニュー画面、すなわち第2階層のメニュー4bをディスプレイ105に表示して、第2階層の待ち受け単語3bをメモリ1034bに読み込む。
その後、同様に第2階層のメニュー4bに含まれる項目が使用者によって発話され、音声認識された場合には、認識結果をスピーカー102を介して出力した後、音声認識した項目に対する下位のメニュー画面、すなわち第3階層のメニュー4cをディスプレイ105に表示して、第3階層の待ち受け単語3cをメモリ1034bに読み込む。これによって、常にディスプレイ105に表示されているメニュー項目、すなわち使用者が発話する可能性のある操作コマンド(ボイスコマンド)に対応する待ち受け単語をメモリ1034bに読み込んで、音声認識を行うことができる。
本実施の形態においては、さらに、現在ディスプレイ105に表示されている階層のメニューに対応する階層の待ち受け単語と、それより下位の全ての階層の待ち受け単語とを組み合わせた連続単語も待ち受け単語としてメモリ1034bに格納しておく。すなわち、ディスプレイ105に第1階層のメニュー4aが表示されている場合には、第1階層の待ち受け単語3aとともに、第1階層の待ち受け単語3a、第2階層の待ち受け単語3b、および第3階層の待ち受け単語3cを組み合わせた待ち受け単語群をメモリ1034bに格納する。
第1階層の待ち受け単語3a、第2階層の待ち受け単語3b、および第3階層の待ち受け単語3cを組み合わせた待ち受け単語群は、例えば、「行き先自宅に帰る○○さん」や「行き先お気に入り○○社」のように、第1階層の待ち受け単語3a、第2階層の待ち受け単語3b、および第3階層の待ち受け単語3cを順番に並べたすべての組み合わせである。これによって、ナビゲーション装置200の操作に慣れた使用者は、各階層のメニューに含まれる項目を個別に発話せずに、現在表示されている階層の項目から想起できる下位の階層のメニューに含まれる項目までを一括して発話した場合でも、音声認識を行うことができる。
また、音声認識は上述したように一致度を算出することによって行うため、「行き先お気に入り○○社」という待ち受け単語に対して、使用者が「行き先のお気に入りの○○社」といったように、各階層のメニュー項目の間に助詞を含めて発話した場合でも、正常に発話内容を音声認識することができる。
図5は、第1の実施の形態における音声認識装置100の動作を示すフローチャートである。図5に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。ステップS10において、現在ディスプレイ105に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置1035からメモリ1034bに読み込む。また、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語を生成し、メモリ1034bに格納する。ステップS20では、音声入力を促すプロンプトをスピーカー102を介して出力する。
ステップS30では、使用者によってマイク101を介して音声入力がなされたか否かを判断する。使用者によって音声入力がなされたと判断した場合には、ステップS40へ進む。ステップS40では、使用者によって入力された発話内容の音声信号とメモリ1034bに読み込んだ各待受け単語との一致度演算を行って、音声認識を行う。その後、ステップS50へ進み、音声認識結果をスピーカー102を介して出力して、ステップS60へ進む。
ステップS60では、使用者によって訂正スイッチ104bが押下されたか否かが判断される。使用者によって訂正スイッチ104bが押下されたと判断した場合には、ステップS30に戻り、使用者に再発話を促し、正常認識されるまで上述した処理を繰り返す。一方、使用者によって訂正スイッチ104bが押下されないと判断した場合には、ステップS70へ進む。ステップS70では、音声認識した結果、さらに下位の階層のメニューが存在するか否かを判断する。
さらに下位の階層のメニューが存在すると判断した場合には、ステップS10へ戻り、該当する階層の待ち受け単語をメモリ1034bに読み込んで、すべての階層のメニューに対して音声認識が完了するまで処理を繰り返す。下位のメニューが存在しない判断した場合には、ナビゲーション装置200を制御するためのコマンドは決定したと判断できるため、ステップS80へ進み、決定したコマンドに基づいてナビゲーション装置200を制御する。その後、処理を終了する。
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)ディスプレイ105に表示されているメニュー項目に対応する待ち受け単語を常にメモリ1034bに読み込んで、音声認識を行うこととした。これによって、使用者が発話する可能性のある単語(ボイスコマンド)を常に待ち受け単語として音声認識を行うことができるため、音声認識率を向上することができる。
(2)現在ディスプレイ105に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置1035からメモリ1034bに読み込むとともに、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語群を生成し、メモリ1034bに格納することとした。これによって、ナビゲーション装置200の操作に慣れた使用者は、各階層のメニューに含まれる項目を個別に発話せずに、現在表示されている階層の項目から想起できる下位の階層のメニューに含まれる項目までを一括して発話することができ、使用者にとっての操作性が向上する。
(3)現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語を待ち受け単語群としてメモリ1034bに格納し、当該待ち受け単語と使用者による発話内容を一致度を算出することによって音声認識するため、例えば「行き先お気に入り○○社」という待ち受け単語に対して、使用者が「行き先のお気に入りの○○社」といったように、各階層のメニュー項目の間に助詞を含めて発話した場合でも、正常に発話内容を音声認識することができる。
―第2の実施の形態―
第2の実施の形態では、第1の実施の形態で説明した音声認識装置100において、使用者が過去に行った音声入力の回数を計数して、使用者の音声入力の習熟度をランク付けする。そして、音声入力の習熟度のランクに基づいて、使用者に対して発話を促すために出力するプロンプトを変化させる。なお、図1に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図2に示した信号処理ユニット107aの構成例を示すブロック図、図3に示した待ち受け単語の階層構造、および図4に示したナビゲーション装置200のメニュー構成については、第1の実施の形態と同様のため、説明を省略する。
第2の実施の形態における音声認識装置100は、使用者の音声入力の利用回数をカウントする利用回数カウンタを外部記憶装置1035に記憶しておき、使用者が発話スイッチ104aを押下して音声入力を開始する度に、利用回数カウンタのカウント値に1を加算する。そして、使用者が発話スイッチ104aを押下して音声入力を開始する度に、前回までの利用回数カウンタのカウント値を読み込んで、当該カウント値に基づいて、使用者の音声入力の習熟度を以下の(1)〜(3)に示す3段階のランクで判定して、スピーカー102から出力するプロンプトを変化させる。
(1)初期段階
初期段階は、過去の音声入力経験が少なく、音声入力に不慣れな使用者を含む段階であり、例えば、利用回数カウンタのカウント値が5未満の場合に判定される。音声入力の習熟度が初期段階と判定された場合には、使用者に対しては、長いプロンプト、すなわち丁寧なプロンプトが出力される。
(2)第2段階
第2段階は、音声入力にある程度慣れた使用者を含む段階であり、例えば、利用回数カウンタのカウント値が5以上、かつ10未満の場合に判定される。音声入力の習熟度が第2段階と判定された場合には、使用者に対しては、短いプロンプト、すなわち簡略化されたプロンプトが出力される。
(3)第3段階
第3段階は、音声入力に熟練した使用者を含む段階であり、例えば、利用回数カウンタのカウント値が10以上の場合に判定される。音声入力の習熟度が第3段階と判定された場合には、使用者に対してプロンプトを出力しない。
図6〜図8に、図4に示した各階層のメニューにしたがって音声入力を行う場合の、各段階の習熟度の使用者に対して出力されるプロンプト、および使用者の発話例を具体的に示す。なお、以下の図6〜図8についての説明では、第1の実施の形態と同様に、ディスプレイ105に各階層のメニューが表示されているときには、それぞれに対応する階層の待ち受け単語、およびそれより下位の階層の待ち受け単語とを組み合わせた連続単語がメモリ1034bに格納されており、これらの待ち受け単語に基づいて音声認識が行われる。
図6は、音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。使用者によって発話スイッチ104aを押下されると、ディスプレイ105に第1階層のメニュー4aを表示して、使用者に対してコマンドの入力を促すためのプロンプト、「コマンドをどうぞ」をスピーカー102を介して出力する。使用者は、第1階層のメニュー4aに表示されているメニュー項目の中から、ナビゲーション装置200で行き先(目的地)を設定するためのコマンド「行き先」を発話すると、メモリ1034bに格納されている第1階層の待ち受け単語3aとの一致度が算出され、音声認識される。
その後、認識したコマンドに対応する下位の階層、すなわち第2階層のメニュー4bをディスプレイ105に表示する。このとき、使用者に対して行き先を設定する方法を指定するためのコマンドの発話を促すためのプロンプト、「行き先のコマンドをどうぞ」をスピーカー102を介して出力する。使用者は、第2階層のメニュー4bに表示されているメニュー項目の中から、ナビゲーション装置200に登録済みの地点を行き先として設定するためのコマンド「登録地」を発話すると、メモリ1034bに格納されている第2階層の待ち受け単語3bとの一致度が算出され、音声認識される。
その後、認識したコマンドに対応する下位の階層、すなわち第3階層のメニュー4cをディスプレイ105に表示する。このとき、使用者に対して登録済みの地点から任意の地点を指定するための発話を促すためのプロンプト、「登録地の名称をどうぞ」をスピーカー102を介して出力する。使用者は、第3階層のメニュー4bに表示されている登録地の中から、任意の登録地を指定するためのコマンド「○○社」を発話すると、メモリ1034bに格納されている第3階層の待ち受け単語3cとの一致度が算出され、音声認識される。これによって目的地が特定され、ナビゲーション装置200において、特定した目的地までの経路が探索され、経路誘導が開始される。
図7は、音声入力の習熟度が第2段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。なお、ディスプレイ105に表示される各階層のメニュー、および使用者による発話内容については図6に示した音声入力の習熟度が初期段階と判定された場合と同じため、これらの説明を省略し、相違点であるスピーカー102を介して出力するプロンプトについて説明する。
音声入力の習熟度が第2段階である場合には、上述したように、使用者は音声入力にある程度慣れているため、初期段階よりも簡易なプロンプトを出力して、音声入力の簡略化を図る。すなわち、ディスプレイ105に第1階層のメニュー4aが表示されている場合には、使用者に対して音声コマンドの発話を促すプロンプトとして「コマンド」を出力する。そして、ディスプレイ105に第2階層のメニュー4bが表示されている場合には、使用者に対して行き先を設定する方法を指定するためのコマンドの発話を促すプロンプトとして「行き先」を出力する。
ディスプレイ105に第3階層のメニュー4cが表示されている場合には、使用者に対して登録済みの任意の地点を特定するためのコマンドの発話を促すプロンプトとして「登録地」を出力する。これによって、通常の各階層のメニューが表示された時点で通常のプロンプトを出力する初期段階と比べて、使用者は一連の音声入力操作を短時間で完了することができる。
図8は、音声入力の習熟度が第3段階と判定された場合のメニュー遷移、および使用者の発話内容の具体例を示す図である。音声入力の習熟度が第3段階である場合には、上述したように、使用者は音声入力に熟練していることから、プロンプトを出力しなくてもディスプレイ105に表示されたメニューを見るだけで何を発話すればよいか判断することができる。したがって、この場合には、各階層のメニューを表示した時点でプロンプトは出力せず、すぐに使用者による音声コマンドの発話を待ち受ける。
このため、使用者は、ディスプレイ105に第1階層のメニュー4aが表示されたら「行き先」と発話し、次に、第2階層のメニュー4bが表示されたら「登録地」と発話し、第3階層のメニュー4cが表示されたら「○○社」と発話する。これによって、使用者はさらに短時間で目的地の設定を行うことが可能となる。また、使用者は、「行き先」、「登録地」、および「○○社」を続けて発話すれば良いことを認知することができ、ディスプレイ105に第1階層のメニュー4aが表示された時点で「行き先」、「登録地」、および「○○社」を続けて発話するようになる。すなわち「行き先登録地○○社」と一括発話するようになる。
この場合は、第1の実施の形態で上述したように、メモリ1034bに格納されている現在ディスプレイ105に表示されている階層のメニューに対応する階層の待ち受け単語と、それより下位の階層の待ち受け単語とを組み合わせた連続単語が音声認識結果として決定される。これによって、使用者は音声入力に慣れるにしたがって、無意識のうちに連続単語を発話して、音声入力を行うようになる。
図9は、第2の実施の形態における音声認識装置100の動作を示すフローチャートである。図9に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。なお、図5に示した第1の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。
ステップS1において、外部記憶装置1035に記憶した利用回数カウンタのカウント値に基づいて、使用者の音声入力の習熟度を判定する。ステップS11では、使用者の音声入力の習熟度が、初期段階、第2段階、および第3段階のいずれであるかを判断する。使用者の音声入力の習熟度が初期段階と判断された場合には、ステップS21へ進み、使用者に音声入力を促すために通常のプロンプトをスピーカー102を介して出力して、ステップS30へ進む。
これに対して、使用者の音声入力の習熟度が第2段階と判断された場合には、ステップS22へ進み、使用者に音声入力を促すために簡略化したプロンプトをスピーカー102を介して出力して、ステップS30へ進む。また、使用者の音声入力の習熟度が第3段階と判断された場合には、プロンプトを出力せず、そのままステップS30へ進む。
以上説明した第2の実施の形態によれば、第1の実施の形態による効果に加えて、以下のような作用効果を得ることができる。
(1)使用者の音声入力の習熟度を判定して、その入力経験に応じて出力するプロンプトを変化させることとした。使用者の音声入力に対する慣れを考慮して、適切なプロンプトを出力して、使用者に対して音声入力を促すことができる。
(2)使用者が音声入力に慣れていない場合は、通常の(丁寧な)プロンプトを出力し、使用者がある程度音声入力に慣れている場合には、簡略化したプロンプトを出力し、使用者が音声入力に熟練している場合には、プロンプトを出力しないこととした。これによって、使用者が音声入力に慣れれば慣れるほど、一連の音声入力操作を短時間で完了することができるようになる。
(3)使用者の音声入力の習熟度が第3段階の場合は、使用者に対して音声入力を促すプロンプトを出力しないこととした。これによって、使用者は各階層のメニューに表示されたコマンドを続けて発話することになり、その結果、各コマンドを一括して発話する、すなわち連続単語を発話すればよいことを認知することができる。
―第3の実施の形態―
第3の実施の形態では、第2の実施の形態で説明した音声認識装置100において、使用者の音声入力の習熟度が第3段階である場合には、プロンプトの代わりに音声入力を促す電子音を出力する。なお、図1に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図2に示した信号処理ユニット107aの構成例を示すブロック図、図3に示した待ち受け単語の階層構造、および図4に示したナビゲーション装置200のメニュー構成については、第1の実施の形態と同様のため、説明を省略する。また、図6に示した音声入力の習熟度が初期段階と判定された場合の具体例、および図7に示した音声入力の習熟度が第2段階と判定された場合の具体例については、第2の実施の形態と同様のため、説明を省略する。
音声入力の習熟度が第3段階である場合には、第2の実施の形態で上述したように、使用者は音声入力に熟練していることから、プロンプトを出力しなくてもディスプレイ105に表示されたメニューを見るだけで何を発話すればよいか判断することができる。しかし、運転中などディスプレイ105を注視することができず、メニューの切り替わりを視認できない場合には、使用者は発話のタイミングを逸してしまう可能性がある。したがって、このような場合に、使用者に対して発話のタイミングを提示するために、各階層のメニューを表示した時点で、例えば「ピッ」というような電子音をスピーカー102を介して出力する。
図10は、音声入力の習熟度が第3段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。なお、ディスプレイ105に表示される各階層のメニュー、および使用者による発話内容については図6に示した音声入力の習熟度が初期段階と判定された場合と同じため、これらの説明を省略し、相違点を中心に説明する。この場合、ディスプレイ105に第1階層のメニュー4a、第2階層のメニュー4b、および第3階層のメニュー4cがそれぞれ表示されると同時に、スピーカー102を介して「ピッ」という電子音を出力して、使用者に対して音声コマンドの発話タイミングを提示する。
図11は、第3の実施の形態における音声認識装置100の動作を示すフローチャートである。図11に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。なお、図5に示した第1の実施の形態における処理、および図9に示した第2の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。ステップS11において、使用者の音声入力の習熟度が第3段階と判断された場合には、ステップS23へ進み、使用者に音声入力のタイミングを提示する電子音をスピーカー102を介して出力して、ステップS30へ進む。
以上説明した第3の実施の形態によれば、第2の実施の形態による効果に加えて、以下のような効果を得ることができる。すなわち、音声入力の習熟度が第3段階と判定された場合に、各階層のメニューを表示した時点で電子音をスピーカー102を介して出力することとした。これによって、使用者に対して発話のタイミングを提示することができるため、使用者が運転中などディスプレイ105を注視することができず、メニューの切り替わりを視認できない場合であっても、使用者は適切なタイミングで音声入力を行うことができる。
―第4の実施の形態―
第4の実施の形態においては、図1に示したナビゲーション装置の一実施の形態の構成例を示すブロック図、図2に示した信号処理ユニット107aの構成例を示すブロック図、図3に示した待ち受け単語の階層構造、および図4に示したナビゲーション装置200のメニュー構成については、第1の実施の形態と同様のため、説明を省略する。また、図6に示した音声入力の習熟度が初期段階と判定された場合の具体例、および図7に示した音声入力の習熟度が第2段階と判定された場合の具体例については、第2の実施の形態と同様のため、説明を省略する。
第4の実施の形態では、第2の実施の形態で説明した音声認識装置100において、使用者の音声入力の習熟度が第3段階である場合には、一連の音声入力が完了した時点、すなわち全ての階層のメニューに対して音声入力、および音声認識が完了した時点で、各階層のメニューで音声認識した結果を連続して出力する。
図12は、音声入力の習熟度が第3段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。使用者は、ディスプレイ105に第1階層のメニュー4aが表示されたら「行き先」と発話し、次に、第2階層のメニュー4bが表示されたら「登録地」と発話し、第3階層のメニュー4cが表示されたら「○○社」と発話する。その後、各階層のメニューで音声認識した結果を連続した文字列、すなわち「行き先登録地○○社」を、スピーカー102を介して出力する。これによって、使用者は、音声入力するに当たって、「行き先登録地○○社」と一括発話することが可能なことを認知することができる。
図13は、第4の実施の形態における音声認識装置100の動作を示すフローチャートである。図13に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。なお、図5に示した第1の実施の形態における処理、および図9に示した第2の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。
ステップS71において、使用者の音声入力の習熟度が第3段階であるか否かを判断する。使用者の音声入力の習熟度が第3段階であると判断した場合には、ステップS72に進み、各階層のメニューで音声認識した結果を連続しスピーカー102を介して出力して、ステップS80へ進む。一方、使用者の音声入力の習熟度が第3段階でないと判断した場合には、そのままステップS80へ進む。
以上説明した第4の実施の形態によれば、音声入力の習熟度が第3段階と判定された場合に、一連の音声入力が完了した時点で各階層のメニューで音声認識した結果を連続して出力することとした。これによって、第2の実施の形態と同様の効果を得ることができる。
―変形例―
なお、以下のように変形することもできる。
(1)上述した第2〜第4の実施の形態では、利用回数カウンタのカウント値に基づいて、使用者の音声入力の習熟度を自動的に判定することとしたが、これに限定されず、あらかじめ使用者によって自らの音声入力の習熟度を設定可能として、設定結果に基づいて使用者の音声入力の習熟度を判定してもよい。また、音声入力の習熟度は初期段階から第3段階の3段階に分けて判定する例について示したが、3段階未満でも4段階以上でもよい。この場合、使用者の音声入力の習熟度が高いほど、出力するプロンプトを簡易なものにするように、段階の数に応じて出力するプロンプトに差異を設ける。
(2)上述した第3の実施の形態では、音声入力の習熟度が第3段階と判定された場合に、発話のタイミングを提示する電子音をスピーカー102を介して出力することとしたが、電子音に限らず、例えば「はい」や「どうぞ」のような短いプロンプトや、短い音楽を出力してもよい。
(3)上述した第3の実施の形態では、音声入力の習熟度が第3段階と判定された場合にのみ、発話のタイミングを提示する電子音をスピーカー102を介して出力することとしたが、図14および図15に示すように、音声入力の習熟度が初期段階、および第2段階の場合にも、プロンプトの最後に発話のタイミングを提示する電子音を付加して出力してもよい。これによって、使用者はプロンプトの終わりを認識して、適切なタイミングで音声入力を行うことができる。
(4)上述した第4の実施の形態では、使用者の音声入力の習熟度が第3段階である場合にのみ一連の音声入力が完了した時点で各階層のメニューで音声認識した結果を連続して出力することとした。しかし、音声入力の習熟度が初期段階、および第2段階の場合にも出力してもよい。また、第2の実施の形態と組み合わせた例について説明したが、第3の実施の形態、および変形例(3)と組み合わせてもよい。
(5)上述した第1〜第4の実施の形態では、本発明による音声認識装置をナビゲーション装置に搭載する例を示したが、これに限定されず、例えばハンズフリー電話システムに搭載してもよい。また、その他の機器に搭載してもよい。
(6)上述した第1〜第4の実施の形態では、メニュー、およびそれに対応する待ち受け単語の階層は3段階である例について説明した。しかし、3段階未満であっても4段階以上であってもよい。また、メニュー、およびそれに対応する待ち受け単語が階層構造を有さない場合であっても、本発明は適用可能である。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、スピーカー102は入力促進手段に、制御装置103は習熟度判定手段に相当する。信号処理装置1034はマッチング手段に、メモリ1034bは待ち受け単語格納手段に、ディスプレイ105は表示手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
第1の実施の形態におけるナビゲーション装置へ搭載した場合の一実施の形態の構成例を示すブロック図である。 第1の実施の形態における信号処理ユニット103aの構成例を示すブロック図である。 第1の実施の形態における待ち受け単語の階層構造を模式的に示した図である。 第1の実施の形態におけるナビゲーション装置200のメニュー構成例を示す図である。 第1の実施の形態における音声認識装置100の動作を示すフローチャート図である。 第2の実施の形態における音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。 第2の実施の形態における音声入力の習熟度が第2段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。 第2の実施の形態における音声入力の習熟度が第3段階と判定された場合のメニュー遷移、および使用者の発話内容の具体例を示す図である。 第2の実施の形態における音声認識装置100の動作を示すフローチャート図である。 第3の実施の形態における音声入力の習熟度が第3段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。 第3の実施の形態における音声認識装置100の動作を示すフローチャート図である。 第4の実施の形態における音声入力の習熟度が第3段階と判定された場合に出力されるメニュー遷移、および使用者の発話内容の具体例を示す図である。 第4の実施の形態における音声認識装置100の動作を示すフローチャート図である。 変形例(3)における音声入力の習熟度が初期段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。 変形例(3)における音声入力の習熟度が第2段階と判定された場合に出力されるプロンプト、メニュー遷移、および使用者の発話内容の具体例を示す図である。
符号の説明
100 音声認識装置
101 マイク
102 スピーカー
103 制御装置
103a 信号処理ユニット
1031 A/Dコンバータ
1032 D/Aコンバータ
1033 出力アンプ
1034 信号処理装置
1034a CPU
1034b メモリ
1035 外部記憶装置
104 入力装置
104a 発話スイッチ
104b 訂正スイッチ
105 ディスプレイ
200 ナビゲーション装置

Claims (7)

  1. 複数の階層により構成されるメニューを有し、各階層のメニューに含まれる操作コマンドを音声入力によって実行する音声認識装置であって、
    使用者の発話を入力する音声入力手段と、
    前記メニューを表示する表示手段と、
    前記表示手段に表示された任意の階層のメニューに含まれる各操作コマンドの音声データ、および前記任意の階層のメニューに含まれる各操作コマンドと、各操作コマンドから派生する下位階層のメニューに含まれる操作コマンドとを組み合わせた連続単語の音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、
    前記音声入力手段を介して、前記表示手段に表示された任意の階層のメニューに含まれる操作コマンドのうち、任意の操作コマンド、および前記連続単語のいずれか一方が入力された場合に、前記待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段とを有することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記表示手段に任意の階層のメニューが表示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、
    使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、
    前記入力促進手段から出力される音声は、前記習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする音声認識装置。
  3. 請求項1または2に記載の音声認識装置において、
    使用者によって最も下位階層のメニューに含まれる操作コマンドが入力され、前記マッチング手段によって音声認識が完了したときに、使用者によって入力された全ての階層のメニューに含まれる操作コマンドを上位の階層から連続して出力する操作コマンド出力手段をさらに有することを特徴とする音声認識装置。
  4. 使用者の発話を入力する音声入力手段と、
    音声入力可能な操作コマンドを使用者に提示するコマンド提示手段と、
    前記コマンド提示手段によって提示された操作コマンドの音声データを音声認識実行時の待ち受け単語として格納する待ち受け単語格納手段と、
    前記音声入力手段を介して、前記コマンド提示手段によって提示された操作コマンドのうち任意の操作コマンドが入力された場合に、前記待ち受け単語格納手段に格納されている待ち受け単語とマッチング処理して音声認識するマッチング手段と、
    前記コマンド提示手段によって操作コマンドが提示されたときに、使用者に対して操作コマンドの入力を促す音声を出力する入力促進手段と、
    使用者の音声入力の習熟度をランク付けして判定する習熟度判定手段とを有し、
    前記入力促進手段から出力される音声は、前記習熟度判定手段で判定した音声入力の習熟度に基づいて決定されることを特徴とする音声認識装置。
  5. 請求項2〜4のいずれか一項に記載の音声認識装置において、
    前記入力促進手段は、前記習熟度判定手段で判定した使用者の音声入力の習熟度に基づいて、使用者が高い習熟度ランクに属するほど前記使用者に対して操作コマンドの入力を促す音声を短くし、使用者が最も高い習熟度ランクに属する場合には、音声を出力しないことを特徴とする音声認識装置。
  6. 請求項2〜4のいずれか一項に記載の音声認識装置において、
    前記入力促進手段は、前記使用者に対して操作コマンドの入力を促す音声の後ろに電子音を付加して出力することを特徴とする音声認識装置。
  7. 請求項2〜4のいずれか一項に記載の音声認識装置において、
    前記入力促進手段は、使用者が最も高い習熟度ランクに属する場合には、前記使用者に対して操作コマンドの入力を促す音声の代わりに電子音を出力することを特徴とする音声認識装置。
JP2004240813A 2004-08-20 2004-08-20 音声認識装置 Pending JP2006058641A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004240813A JP2006058641A (ja) 2004-08-20 2004-08-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004240813A JP2006058641A (ja) 2004-08-20 2004-08-20 音声認識装置

Publications (1)

Publication Number Publication Date
JP2006058641A true JP2006058641A (ja) 2006-03-02

Family

ID=36106145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004240813A Pending JP2006058641A (ja) 2004-08-20 2004-08-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP2006058641A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251059A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
JP2007322647A (ja) * 2006-05-31 2007-12-13 Funai Electric Co Ltd 電子機器
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
JP2014134675A (ja) * 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017173530A (ja) * 2016-03-23 2017-09-28 富士通株式会社 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置
JP2017207693A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
CN111081236A (zh) * 2018-10-22 2020-04-28 中兴通讯股份有限公司 一种语音处理方法、终端和计算机存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251059A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP4624825B2 (ja) * 2005-03-08 2011-02-02 日産自動車株式会社 音声対話装置および音声対話方法
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
JP2007322647A (ja) * 2006-05-31 2007-12-13 Funai Electric Co Ltd 電子機器
US7908146B2 (en) 2006-05-31 2011-03-15 Funai Electric Co., Ltd. Digital television receiver controlled by speech recognition
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
JP2014134675A (ja) * 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2017068826A1 (ja) * 2015-10-23 2018-08-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017173530A (ja) * 2016-03-23 2017-09-28 富士通株式会社 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置
JP2017207693A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
CN111081236A (zh) * 2018-10-22 2020-04-28 中兴通讯股份有限公司 一种语音处理方法、终端和计算机存储介质
CN111081236B (zh) * 2018-10-22 2024-06-21 中兴通讯股份有限公司 一种语音处理方法、终端和计算机存储介质

Similar Documents

Publication Publication Date Title
JP6400109B2 (ja) 音声認識システム
US8818816B2 (en) Voice recognition device
US6321196B1 (en) Phonetic spelling for speech recognition
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP3702867B2 (ja) 音声制御装置
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2006058641A (ja) 音声認識装置
JP2006058390A (ja) 音声認識装置
US6658386B2 (en) Dynamically adjusting speech menu presentation style
JP2010078851A (ja) 音声入力装置及び音声入力方法
JP4904691B2 (ja) カメラ装置、及び撮影方法
JP2007127896A (ja) 音声認識装置及び音声認識方法
JP4268325B2 (ja) 音声操作語句の提示装置及び提示方法
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
JP4585759B2 (ja) 音声合成装置、音声合成方法、プログラム、及び記録媒体
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2019132979A (ja) カラオケ装置
JPH08190398A (ja) 音声認識装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP2000089782A (ja) 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP3614116B2 (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
JP2016102823A (ja) 情報処理システム、音声入力装置及びコンピュータプログラム
JPH10326175A (ja) 音声指示装置および音声指示情報記憶媒体