以下、本発明の実施の形態について図面を参照して説明する。
[第1実施形態]
本発明は、例えば図1に示すように構成された第1実施形態に係る音声認識装置に適用される。この音声認識装置は、信号処理ユニット1に、マイク2とタッチパネルディスプレイ3とスピーカ4と入力装置5とが接続されて構成されている。この音声認識装置は、正式名称に対する言い換え語を登録するに際して、使用者が実際に使用する度合い(実使用度)が高い言い換え語のみを登録するものである。
信号処理ユニット1は、信号処理装置11に、A/Dコンバータ12とD/Aコンバータ13とアンプ14と外部記憶装置(記憶手段)15とが接続されている。
信号処理装置11には、マイク2で検出された使用者の音声信号がA/Dコンバータ12を介して供給される。また、信号処理装置11は、タッチパネルディスプレイ3に操作名称及び音声認識結果等を表示すると共に、タッチパネルディスプレイ3から使用者の操作入力信号を入力する。更に、信号処理装置11は、各種情報を音声案内するために、D/Aコンバータ13及びアンプ14を介して音声信号をスピーカ4に供給して、操作名称を選択することを命令する告知音声及び音声認識結果の告知音声をスピーカ4から放音させる。
信号処理装置11は、CPU(Central Processing Unit)21及びメモリ22からなる。信号処理装置11は、メモリ22を作業領域として使用して、CPU21によって、音声認識処理(音声認識手段)、言い換え語を生成する処理(言い換え語生成手段)、言い換え語の実使用度を評価する処理(実使用度評価手段)、言い換え語を登録する処理(登録手段)を行う。
入力装置5は、音声認識を開始するに際して操作される発話スイッチ5a、信号処理ユニット1によって使用者が意図する音声とは異なる音声認識結果を生成した場合に音声認識結果を訂正するに際して操作される訂正スイッチ5b(訂正指示手段)とを備えている。発話スイッチ5a及び訂正スイッチ5bが操作されると、当該操作は、信号処理装置11によって検出される。また、訂正スイッチ5bを一定期間押し続けた場合、信号処理ユニット1は、使用者から発せられる音声による処理を途中で終了させる。
外部記憶装置15は、施設等の正式名称情報、言い換え語情報である音声認識対象語彙及び当該施設等の位置情報を登録した音声認識対象語彙データベースと、操作時の操作名称を登録した操作名称データベースとを記憶している。例えば図2に示すように、信号処理ユニット1に対する操作名称である行き先、検索条件等の上位層の操作名称を登録した操作名称データベース31と、行き先の下位層の住所、施設等の下位層の操作名称を登録した操作名称データベース32と、当該操作名称データベース31,32の下位層に相当する正式名称、言い換え語を登録した音声認識対象語彙データベース33とからなる。
例えば使用者の行き先が「北海道大学」という施設名である場合、操作名称データベース31に、最上位層の行き先、探索条件等の操作名称が登録され、操作名称データベース32に、行き先の下位層の住所、施設等の操作名称が登録されているとすると、操作名称データベース31から「行き先」の操作名称が選択され、操作名称データベース32から「施設名」の操作名称が選択されることになる。また、音声認識対象語彙データベース33は、操作名称データベース31,32に対する最下位層の施設名称「北海道大学」を登録しているものである。
また、外部記憶装置15には、正式名称、言い換え語及び操作名称データベースの一部を音声認識対象として登録した音声認識対象語彙データベースを記憶している。この音声認識対象語彙データベースは、信号処理装置11によって書き換えられる。
つぎに、上述の音声認識装置において、使用者が「北海道大学」という正式名称の施設に行きたい又は地図表示させたい場合に、「北大」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。
このような音声認識装置においては、発話スイッチ5aが操作されて、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。この音声メニュー画像41は、信号処理ユニット1による音声認識結果を表示する音声認識結果表示欄45、操作名称を示すメニューリスト46を含む。メニューリスト46は、外部記憶装置15の音声認識対象語彙データベースに登録されている行き先、検索条件等の操作名称である音声認識対象語彙を羅列している。
この音声メニュー画像41を表示させている状態において、信号処理ユニット1は、図4の(1)のように使用者が「行き先」との操作名称を発話し、当該「行き先」との音声認識結果を得ると、信号処理ユニット1は、図4の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。
図3(b)の行き先選択メニュー画像42を表示させている状態において、図4の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図4の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。
図3(c)の施設名入力画像43を表示させている状態において、図4の(5)のように「北大」と使用者が発話した場合、信号処理ユニット1は、外部記憶装置15の音声認識対象語彙データベースには「北大」が音声認識対象語彙として登録されていないことから、当該「北大」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている国分駅を選択して、図3(d)に示すように、音声認識結果表示欄45に音声認識結果「国分駅」を含む音声認識結果画像44を表示する。この音声認識結果画像44には、音声認識結果表示欄45に含まれる音声認識結果が指し示す位置に行くための最適経路を探索するコマンドを発生させる「そこへ行く」ボタン47及び音声認識結果が指し示す位置付近の地図を表示するコマンドを発生させる「地図を見る」ボタン48とを含んでいる。
この音声認識結果画像44を表示している状態において、図4の(7)のように入力装置5の訂正スイッチ5bを使用者が操作すると、図4の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、図4の(5)〜(8)のように(9)〜(12),(13)〜(16)の手順を行い、図4の(17)において使用者が「北海道大学」と発話した場合、音声認識対象語彙データベースに正式名称「北海道大学」が音声認識対象語彙として登録されているので、信号処理ユニット1によって「北海道大学」との音声認識結果を図3(d)の音声認識結果画像44における音声認識結果表示欄45に表示させることができる。
このように、「北海道大学」の言い換え語である「北大」が外部記憶装置15の音声認識対象語彙データベースに登録されていない場合、音声認識装置は、使用者が「北大」と発話しても、「北海道大学」との音声認識結果を出力できない。
これに対し、本発明を適用した音声認識装置は、使用者が実際に使用する言い換え語の実使用度を評価して、例えば「北大」という言い換え語の実使用度が高い場合には、当該言い換え語の「北大」を音声認識対象語彙データベースに登録することを特徴とするものである。すなわち、音声認識装置は、図5に示すように、(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「北大」と発話すると、当該「北大」の音声認識対象語彙が正式名称「北海道大学」の言い換え語として音声認識対象語彙データベースに登録されているので、(6)で「北海道大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「北海道大学」と表示させることができる。
以下、このように音声認識対象語彙データベースに実使用度の高い言い換え語を登録する処理について、図6を参照して説明する。
先ずステップS1において、信号処理装置11のCPU21は、使用者が発話スイッチ5aを操作したことを検出し、発話開始が指示されたことを判定して、処理をステップS2に進める。
ステップS2において、CPU21は、音声認識処理のための待ち受け設定を行う。CPU21は、音声入力用のメニューとして図3(a)〜(d)の何れかの画像を表示して音声入力の待ち受け状態となる。なお、ステップS1で発話スイッチ5aが操作された直後においては、最上位階層である図3(a)の音声メニュー画像41を表示して待ち受け状態となるが、例えば「行き先」、「施設名」と操作名称を選択して下位層に向かうに従って図3(b)〜(d)の画像を表示させることになる。
また、CPU21は、音声認識対象語彙データベースに登録されている音声認識対象語彙を外部記憶装置15からメモリ22に読み込む。そして、使用者の発話とともに操作名称データベース31,32といったように下位層に階層が進み、図2の音声認識対象語彙データベース33に登録されている語彙すなわち施設名称が音声認識対象語彙として読み込まれているとする。なお、全国全ての施設名称をメモリ22に読み込むことはメモリ容量及び音声認識演算速度の増加などの理由で難しいが、使用者の位置の近傍県内の施設および予め定められた全国の代表的な施設名称が読み込まれているとする。
次のステップS3において、CPU21は、プロンプト、すなわち音声認識処理を開始した旨を使用者に告知する為に、外部記憶装置15に記憶されている告知音声信号をD/Aコンバータ13及びアンプ14を介してスピーカ4に出力し、告知音声をスピーカ4から放音させる。例えば施設名を発話させる場合、「施設名をどうぞ」などが告知音声に該当する。
この告知音声に対し、例えば、図3(c)の施設名入力画像43を表示している場面において、図4の(5)のように正式名称「北海道大学」の言い換え語の「北大」と発話したとする。この場合、信号処理ユニット1は、マイク2からの音声信号をA/Dコンバータ12でディジタル信号に変換し、信号処理装置11に入力させると、CPU21によって発話スイッチ5aの操作がなされるまで、ディジタル信号の平均パワーを演算している。発話スイッチ5aが操作された後、信号処理装置11は、平均パワーと比較してディジタル信号の瞬間パワーが所定値以上大きくなった時に、使用者が発話したと判断して、音声取り込みを開始する。
次のステップS4において、CPU21は、ステップS3で音声信号の読み取りを開始して読み取った音声信号と、メモリ22に記憶されている音声認識対象語彙との一致度の演算を開始する。この一致度、すなわち音声区間部分と個々の音声認識対象語彙を示す音声信号が一致している度合いは、CPU21によって、音声区間ごとにスコアとして得られる。このスコアは、値が大きいほど、一致度が高いとする。なお、この音声区間ごとに一致度を求めている処理に平行して、音声取り込みを継続している。
次のステップS5において、CPU21は、A/Dコンバータ12から得られた音声のディジタル信号の瞬間パワーが所定時間以上に亘って所定値以下になった時に、使用者の発話が終了したと判断し、音声の取り込みを終了する。
次のステップS6において、CPU21は、図3(c)のように音声認識結果表示欄45を表示させている所定の名称入力階層であるか否かを判定する。すなわち、図3(a)、(b)のような音声メニュー画像41、行き先選択メニュー画像42を表示させる階層のように行き先、探索条件等の操作名称が入力される階層ではなく、行き先の施設名や住所等の正式名称や当該正式名称の言い換え語が入力される階層であるか否かを判定する。例えば発話とともに階層が進み、音声の取り込みが完了した時点の階層が、図3(c)の施設名入力画像43が表示されている階層である場合、正式名称、言い換え語が発話される可能性がある階層であると判定して、ステップS7に処理を進める。一方、音声メニュー画像41や行き先選択メニュー画像42のようにメニューリスト46から選択する操作名称を選択する階層であると判定した場合には、ステップS6からステップS8に処理を進める。
ステップS7において、CPU21は、後のステップS14において使用者の発話「北大」が言い換え語である可能性を考慮するために、ステップS5で音声取り込みを終了した「北大」の音声を示すディジタル信号をメモリ22に一時保存する。
次のステップS8において、CPU21は、音声認識対象語彙データベースに記憶されている音声認識対象語彙と、「北大」の音声を示すディジタル信号との一致度を求め、一致度の大きい順番で音声認識結果の候補を取得する。
そして、次のステップS9において、CPU21は、ステップS8で取得した音声認識結果の候補を出力する。例えば図3(d)に示すように、CPU21は、音声認識結果画像44の音声認識結果表示欄45に、「北大」の音声を示すディジタル信号と最も一致度が高い音声認識対象語彙「国分駅」を音声認識結果として出力する。なお、音声認識結果の出力の仕方としては、CPU21の音声合成機能によって音声認識結果の「国分駅」を音声信号に変換して、D/Aコンバータ13及びアンプ14を介して、スピーカ4で「国分駅」と放音させても良い。
その後、音声認識結果として「国分駅」を出力したことに対して、使用者によって、訂正スイッチ5bが操作される。その結果、信号処理装置11は、ステップS10において、ステップS9で音声認識結果を出力した後の所定時間(例えば数10秒)内に訂正スイッチ5bが操作されたことを検出したか否かを判定する。所定時間内に訂正スイッチ5bが操作されたことを検出した場合、処理をステップS10からステップS11に進め、所定時間内に訂正スイッチ5bが操作されたことが検出されなかった場合、処理をステップS10からステップS12に進める。
ステップS11において、CPU21は、訂正スイッチ5bの操作回数をインクリメントして記録して、ステップS3に処理を進めて、ステップS3〜ステップS10の処理を繰り返して行う。その後、図4の(9)〜(16)のように、使用者から「北大」という発話が繰り返されて、その後に、図4の(17)にて「北海道大学」という正式名称を発話したとする。この場合、ステップS8において、音声認識対象語彙データベース33に「北海道大学」という正式名称が登録されていることから、当該「北海道大学」という音声認識対象語彙が最も一致度が高くなり、ステップS9において「北海道大学」という音声認識結果を出力できる。
このように、「北海道大学」という音声認識結果を出力した後のステップS10においては、訂正スイッチ5bが操作されずに、CPU21は、処理をステップS10からステップS12に進める。
ステップS12において、CPU21は、ステップS9で音声認識結果を出力した音声認識対象語彙が操作名称であるか、正式名称又は言い換え語であるかを判定して、次の階層が有るか否かを判定する。次の階層がある場合には、ステップS2に処理を戻し、次の階層が無い場合には、ステップS13に処理を進める。例えば行き先として施設名の「北海道大学」を音声認識結果として出力した場合には、ステップS13に処理を進める。
ステップS13において、CPU21は、図3(d)の音声認識結果画像44に含まれる「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択されたことによって、音声認識結果を決定する。「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択された場合、北海道大学の位置情報及びコマンドをナビゲーション装置(図示せずに)に供給して、ルート探索又は地図表示をさせる。
次のステップS14において、CPU21は、使用者から発話された「北大」が、正式名称「北海道大学」の言い換え語である可能性を評価する。
先ず、CPU21は、正式名称「北海道大学」から言い換え語を生成する。CPU21は、正式名称を、形態素解析プログラムにより形態素に分割し、「北海道」と「大学」に分割する。なお、形態素解析は、汎用プログラム(例えば、ChaSen-http://Chasen.aist-nara.ac.jp/)をCPU21で実行することで実現される。CPU21は、この2分割された2つの形態素「北海道」、「大学」から、それぞれ部分文字列を取り出して連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語としては「北大」、「海大」、「道大」、「北学」、「海学」、「道学」が生成され、さらに他の文字数の言い換え語も生成される。
次にCPU21は、使用者が発話した言い換え語であって、ステップS7でメモリ22に一時記憶された言い換え語の実使用度を評価する。このとき、CPU21は、ステップS10で訂正スイッチ5bが操作されて、ステップS11で訂正スイッチ5bの操作回数が多いほど、当該言い換え語に対する使用者の使用意図が高く、当該言い換え語の実使用度が高いと評価する。そして、CPU21は、訂正スイッチ5bの操作回数が所定値以上であるか否かを判定して、所定値以上の場合には、当該言い換え語の実使用度が高く、言い換え語を音声認識対象語彙データベースに登録することを決定する。
なお、使用者の使用意図は、訂正スイッチ5bの操作回数に限らず、同じ言い換え語「北大」を発話した回数であっても良い。例えば、正式名称「北海道大学」に対する言い換え語「北大」、「北海道大」とがステップS7でメモリ22に一時記憶され、言い換え語「北大」の方が多く発話されていた場合には、「北大」の方が使用意図が高いと判定できる。
次にCPU21は、ステップS7でメモリ22に一時記憶された使用者の音声「北大」を入力音声とし、「北海道」、「大学」の2個の形態素から生成した言い換え語の全てを音声認識対象語彙とし、入力音声と音声認識対象語彙との一致度を演算する。その結果、CPU21は、一致度のスコアが所定の閾値以上の言い換え語が存在した場合には、当該入力音声を音声認識対象語彙として音声認識対象語彙データベースに登録する。
また、CPU21は、「北海道大学」と同一カテゴリーである他の大学名称にも同様の言い換え語を生成して登録しても良い。すなわち、「北大」を音声認識対象語彙として音声認識対象語彙データベースに登録した場合、CPU21は、形態素解析した結果である「北海道」、「大学」それぞれの一文字目を連結して「北大」という言い換え語を作成するという規則を生成し、当該規則を他の大学の正式名称に適用して、音声認識対象語彙として登録してもよい。
これにより、正式名称「北海道大学」と言い換え語「北大」とを音声認識対象語彙データベースに登録した後には、図5の(5)示すように、「北大」と使用者が発話したことに対する応答として、「北海道大学」という正式名称を音声認識結果として出力することができる。また、CPU21は、「北海道大学」と使用者が発話したことに対する応答として、「北海道大学」との音声認識結果を出力すると同時に、正式名称「北海道大学」の言い換え語として「北大」と発話しても正式名称「北海道大学」を音声認識結果として出力できることを図3(d)の音声認識結果画像44内で表示しても良い。
[第1実施形態の効果]
以上詳細に説明したように、本発明を適用した第1実施形態に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用される可能性が高い言い換え語のみを音声認識対象語彙として追加登録でき、必要以上に音声認識対象語彙が多くなってしまう問題がなく、音声操作の使い勝手を大きく向上できる。
また、この音声認識装置によれば、訂正スイッチ5bによって訂正された言い換え語(第1の音声認識結果)を記憶しておき、その後に入力した音声に基づく音声認識結果(第2の音声認識結果)が訂正されなかった場合に、訂正された音声認識結果(第1の音声認識結果)が訂正されなかった音声認識結果(第2の音声認識結果)の言い換え語として実使用度が高いという評価をするので、訂正された言い換え語のみを音声認識対象語彙として登録でき、必要以上に音声認識対象語彙を多くすることを回避できる。
更に、この音声認識装置によれば、訂正スイッチ5bを操作した操作回数から、言い換え語の使用意図が高い場合に、言い換え語を登録するので、多くの操作を費やして入力に至った、より使用意図の高い言い換え語のみを音声認識結果に追加登録でき、必要以上に音声認識結果が多くなることを回避できる。
更にまた、この音声認識装置によれば、言い換え語を音声認識対象語彙として登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録するので、例えば大学といったカテゴリーにおいて正式名称「北海道大学」が「北大」として登録された場合、同じカテゴリーの正式名称「ABC大学」から「A大」という言い換え語を登録できる。これにより、言い換え語を用いて音声認識装置を使いやすいものとできる。
更にまた、音声認識装置によれば、音声認識対象語彙として登録された言い換え語が、使用可能となったことを使用者に提示するので、次回使用時から言い換え語を速やかに使用させることが可能となる。
[第2実施形態]
つぎに、第2実施形態に係る音声認識装置について説明する。なお、第2実施形態に係る音声認識装置は、その構成が上述の第1実施形態と同様であるので、同一符号を付することによりその詳細な説明を省略する。
音声認識装置において、使用者が「厚木国際カントリー倶楽部」という正式名称の場所に行きたい又は地図表示させたい場合に、「厚木カントリー」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。
このような音声認識装置においては、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。
この音声メニュー画像41を表示させている状態において、CPU21は、図7の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、CPU21は、図7の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。
図3(b)の行き先選択メニュー画像42を表示させている状態において、図7の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、CPU21によって「施設」との音声認識結果を得た場合には、図7の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。
図3(c)の施設名入力画像43を表示させている状態において、図7の(5)のように「厚木カントリー」と使用者が発話した場合、CPU21は、外部記憶装置15の音声認識対象語彙データベースには「厚木カントリー」が音声認識対象語彙として登録されていないことから、当該「厚木カントリー」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている厚木駅を選択して、図3(d)の音声認識結果表示欄45に音声認識結果「厚木駅」を含む音声認識結果画像44を表示する。
この音声認識結果画像44を表示している状態において、図7の(7)のように訂正スイッチ5bを使用者が操作すると、図7の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、再度使用者によって「厚木カントリー」と発話したことに対して、図7の(10)で「厚木駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図7の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「厚木国際カントリー倶楽部」と入力させる。
このように、第2実施形態に係る音声認識装置は、音声認識に代わる代替入力手段を備えて、当該代替入力手段によって、音声認識結果とは異なる正式名称が入力された場合に、当該音声認識結果を、代替入力手段により入力した正式名称の言い換え語として実使用度が高いと評価して、音声認識対象語彙として登録することを特徴とする。
そして、音声認識装置は、図8の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「厚木カントリー」と発話すると、当該「厚木カントリー」の音声認識結果が音声認識対象語彙データベースに登録されているので、図8の(6)で「厚木国際カントリー倶楽部」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「厚木国際カントリー倶楽部」と表示させることができる。
以下、第2実施形態に係る音声認識装置の動作について図9及び図10を参照して説明する。
第2実施形態に係る音声認識装置は、図9に示すように、図3(a)、(b)のように操作名称を含むメニューリスト46を表示させて操作を選択させる処理及び図3(c)、(d)のように正式名称又は言い換え語の音声認識結果を得る処理を行う。音声認識装置は、第1実施形態の音声認識装置と同様に、ステップS1〜ステップS9の処理を行い、ステップS10において、所定時間内に訂正スイッチ5bが操作されたことを検出した場合には、ステップS3に処理を戻し、所定時間内に訂正スイッチ5bが操作されなかった場合には、ステップS12に処理を進める。上述したように、第2実施形態に係る音声認識装置は、代替入力手段によって正式名称が入力されたことによって言い換え語の実使用度が高いことを評価するので、図6のステップS11のような訂正スイッチ5bの操作回数を記録する処理は行わない。そして、ステップS12において、次の下位層がないと判定した後のステップS13において、ステップS9で出力した音声認識結果を決定して処理を終了する。
ここで、上述のように、使用者が言い換え語「厚木カントリー」の音声入力をあきらめて、タッチパネルディスプレイ3による操作入力によって正式名称「厚木国際カントリー倶楽部」を音声認識装置に認識させる場合、音声認識装置は、図10に示す処理を行うことによって、音声認識対象語彙データベースに実使用度の高い言い換え語を登録する。
図10に示すように、CPU21は、先ず、ステップS21において、図示しない入力装置5のメニュースイッチが操作されたことを検出した場合に、ステップS22に処理を進めて、メニュースイッチの操作に従ったメニュー画面を設定表示し、ステップS23において、タッチパネルディスプレイ3によって正式名称を入力する画面に遷移させるために、使用者による操作入力が確定すると、ステップS24において、現在表示している画面の下位層が存在するかを判定する。
CPU21は、ステップS24において、図11に示すように、音声入力に代替して正式名称を入力する代替入力画面51のように、下位層の画面が存在しないと判定した場合に、ステップS25に処理を進める。代替入力画面51には、使用者が入力しようとする正式名称のカテゴリー情報52、正式名称入力欄53、50音の文字入力ボタン54、リスト表示ボタン55が含まれる。カテゴリー情報52は、ステップS22及びステップS23において使用者によって選択されたカテゴリーである施設、当該施設の下位層のカテゴリーであるゴルフ場を示している。
ステップS25において、CPU21は、代替入力画面51の文字入力ボタン54及びリスト表示ボタン55が使用者に操作されることを検出して、操作結果を決定する処理を行う。このとき、図11に示すように、施設の正式名称「厚木国際カントリー倶楽部」の一部の「あつぎ」が文字入力ボタン54の操作によって入力された後、リスト表示ボタン55が操作されると、図12に示すように、「あつぎ」を先頭に含む音声認識対象語彙をリスト化したリスト表示画面61を表示する。このとき、CPU21は、カテゴリーが施設の音声認識対象語彙のうち、「あつぎ」を含む部分一致検索を行って、外部記憶装置15の音声認識対象語彙データベースから「あつぎ」を含む音声認識対象語彙を抽出する。リスト表示画面61には、検索キーの「あつぎ」を含むリスト表示62と、「そこへ行く」ボタン63及び「地図を見る」ボタン64とを含む。
このリスト表示画面61を表示させた後、使用者によってリスト表示62のうち「厚木国際カントリー倶楽部」が選択された場合、CPU21は、当該操作を検出して、操作結果を決定する。また、使用者が「厚木国際カントリー倶楽部」を選択し、更に、「そこへ行く」ボタン63又は「地図を見る」ボタン64が選択された時に、操作内容を決定しても良い。
次に、CPU21は、ステップS26において、ステップS25で操作結果が決定される直前の時間帯(例えば数分)で図9の音声を入力する処理を行っていたか否かを判定する。このとき、CPU21は、例えばメモリ22に一時記憶した音声のディジタル信号を所定期間だけ保持するように構成した場合には、図9のステップS7で一時的にメモリ22に音声のディジタル信号が記憶されていると判定した時に、直前に音声入力が有ったと判定する。
次のステップS27において、CPU21は、ステップS26で判定したように、代替入力画面51からリスト表示画面61に遷移して正式名称を選択した直前に入力された音声から、言い換え語を生成して、音声認識対象語彙データベースに登録する処理を行う。例えば、使用者にとって正式名称が分からないために、音声入力によって正式名称を音声認識装置に認識させることができずに中断し、代替入力画面51から正式名称を入力した可能性があるので、言い換え語を生成する処理を行う。
このステップS27において、CPU21は、直前に行われていた音声入力に関わる音声のディジタル信号をメモリ22から読み出し、この音声のディジタル信号から言い換え語を生成する。次に、CPU21は、生成した言い換え語と、メモリ22に記憶されていた音声のディジタル信号とを比較して、一致度が高い言い換え語を、正式名称に対する言い換え語であると判定する。このとき、CPU21は、例えば正式名称「厚木国際カントリー倶楽部」から、「厚木」、「国際」、「カントリー」、「倶楽部」という形態素を組み合わせて、「厚木カントリー」という言い換え語の候補を作成し、メモリ22に「厚木カントリー」が記憶されている場合には、当該「厚木カントリー」が「厚木国際カントリー倶楽部」の言い換え語であると判定して、音声認識対象語彙データベースに登録する。
また、メモリ22に記憶されている音声のディジタル信号のうち、使用者の初期発話の音声のディジタル信号を選択して、正式名称から生成した言い換え語と照合し、初期発話の音声のディジタル信号と言い換え語との尤度の高い場合に、当該言い換え語を音声認識対象語彙データベースに登録することが望ましい。
[第2実施形態の効果]
以上詳細に説明したように、本発明を適用した第2実施形態に係る音声認識装置によれば、代替入力画面51によって正式名称を入力した場合に、当該正式名称の入力よりも前に音声入力があった時には、当該音声の言い換え語を実使用度が高い言い換え語として音声認識対象語彙データベースに登録できるので、音声入力に代替する手段を用いてまで入力を継続したより使用意図の高い言い換え語のみを音声認識対象語彙データベースに登録でき、必要以上に音声認識対象語彙が多くなることを回避できる。
また、この音声認識装置によれば、代替入力画面51によって正式名称が入力された場合に、当該正式名称から生成した言い換え語と、メモリ22に記憶された使用者の初期発話の音声とを照合して、尤度の高い場合に言い換え語の実使用度が高いと評価して登録するので、使用者の固有の言い換え語を音声認識対象語彙データベースに登録でき、且つ必要以上に音声認識対象語彙が多くなることを回避できる。
[第3実施形態]
つぎに、第3実施形態に係る音声認識装置について説明する。なお、上述の実施形態と同様の部分については同一符号を付することによりその詳細な説明を省略する。
第3実施形態に係る音声認識装置は、図13に示すように、信号処理ユニット1に、ネットワークを介して情報コンテンツ記憶サーバ(情報コンテンツ記憶手段、図示せず)に接続された通信装置(通信手段)70が接続されている点で、上述した実施形態に係る音声認識装置とは異なる。この通信装置70は、信号処理ユニット1の命令に従って、例えばIP(Internet Protocol)等の通信プロトコルに従って通信処理を行う。
この音声認識装置は、例えば行き先の施設名の正式名称が「関西学院大学」であり、言い換え語の「関学」が音声認識対象語彙データベースに登録されていない場合には、図14に示すような動作となり、後述するように言い換え語「関学」を音声認識対象語彙データベースに登録した場合には、図15に示す処理を行う。
信号処理ユニット1は、図14の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、図14の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させる。次に図14の(3)のように「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図14の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させる。
次に、信号処理ユニット1は、図14の(5)のように「関学」と使用者が発話した場合、外部記憶装置15の音声認識対象語彙データベースには「関学」が音声認識対象語彙として登録されていないことから、当該「関学」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている甲府駅を選択する。次に、信号処理ユニット1は、図14の(7)のように訂正スイッチ5bを使用者が操作すると、図14の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させ、再度使用者によって「関学」と発話したことに対して、図14の(10)で「甲府駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図14の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「関西学院大学」と入力させる。
この図14の(11)において、信号処理ユニット1は、図16に示すように、カントリー「大学」の代替入力画面51から、文字入力ボタン54を操作させて正式名称入力欄53に「かん」が入力され、更にリスト表示ボタン55が操作された場合、図17に示すリスト表示画面61を表示する。そして、リスト表示画面61のリスト表示62のうち、「関西学院大学」が選択されて、正式名称「関西学院大学」が入力される。
次に、信号処理ユニット1は、正式名称「関西学院大学」から言い換え語「関学」を生成し、当該生成した言い換え語「関学」を検索キーとしてネットワーク上の情報コンテンツ記憶サーバに記憶されている情報コンテンツを検索するように通信装置70を制御する。そして、信号処理ユニット1は、生成された言い換え語「関学」が通信装置70で接続した情報コンテンツ記憶サーバに記憶されている情報コンテンツに含まれている場合に、当該言い換え語「関学」の実使用度が高いと評価して、音声認識対象語彙データベースに登録する。
そして、音声認識装置は、図15の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「関学」と発話すると、当該「関学」の音声認識結果が音声認識対象語彙データベースに登録されているので、図15の(6)で「関西学院大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「関西学院大学」と表示させることができる。
この音声認識装置の処理は、図18に示すように、ステップS1〜ステップS5の処理によって使用者から発話された音声を取り込んだ後に、ステップS8〜ステップS10、ステップS12及びステップS13を行う。ここで、第2実施形態に係る音声認識装置が行う図9の処理に対して、ステップS6及びステップS7の処理を第3実施形態に係る音声認識装置では行っていない。この理由としては、第3実施形態に係る音声認識装置が、代替入力画面51及びリスト表示画面61を表示して入力された正式名称から、実使用度の高い言い換え語を生成するために、使用者から発話された言い換え語の音声をメモリ22に記憶するステップS7を行わないことによる。
また、第3実施形態に係る音声認識装置は、第2実施形態において説明した図10と同様に、ステップS21〜ステップS26の処理を行い、ステップS26において、直前に図18に示す処理が行われたと判定した場合には、ステップS27にて言い換え語を生成して、実使用度の高い言い換え語を音声認識対象語彙データベースに登録する処理を行う。
このステップS27において、信号処理ユニット1は、先ず、正式名称「関西学院大学」から言い換え語を生成する。このとき、信号処理ユニット1は、正式名称「関西学院大学」を形態素解析プログラムによって形態素に分割させ、「関西」と「学院」と「大学」に分割させる。次に信号処理ユニット1は、3個の形態素からそれぞれ部分文字列を取り出して、連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語として「関学」、「西学」、「関院」、「西院」、「関大」、「西大」、「学大」、「院大」、「関学」、「西学」、「学学」、「院学」を生成し、さらに他の文字数の言い換え語も生成する。
次に信号処理ユニット1は、通信装置70を制御して、ネットワーク上の情報コンテンツにアクセスさせて、言い換え語が実際に使われているかを評価する。このとき、信号処理ユニット1は、先ず、通信装置70によって、生成した言い換え語を検索キーとして、Webホームページ等の情報コンテンツを検索させる。次に信号処理ユニット1は、検索結果件数を通信装置70から取得し、当該検索結果件数が所定の閾値以上であるか否かを判定して、閾値以上である場合に当該検索結果の情報コンテンツに正式名称が存在する情報コンテンツが存在するか否かを判定する。情報コンテンツに正式名称が存在した場合、信号処理ユニット1は、検索キーとした言い換え語が実際に使用されているものと判断して、当該言い換え語を音声認識対象語彙として登録する。
このように、信号処理ユニット1によって、正式名称「関西学院大学」から生成した言い換え語のうちの「関学」を検索キーとして情報コンテンツを検索した結果、検索結果である情報コンテンツの数が所定数以上となった実使用度の高い言い換え語であり、当該情報コンテンツに正式名称「関西学院大学」が含まれている場合に、言い換え語「関学」を音声認識対象語彙として登録できる。
また、信号処理ユニット1は、通信装置70によって検索キーを言い換え語として検索した結果として得られた情報コンテンツがHTML(Hypertext Markup Language)などの構造化言語で記述されている場合、当該HTMLデータのタイトル部分に正式名称が存在するかを判定する。そして、HTMLデータのタイトル部分に正式名称が存在した場合、当該検索キーとした言い換え語の実使用度が高いと評価して、音声認識対象語彙として登録するとしても良い。
更に、信号処理ユニット1は、代替入力画面51及びリスト表示画面61によって得られた正式名称のカテゴリーが地点名称である場合に、通信装置70によって情報コンテンツを検索する検索キーとして正式名称である地点名称のみならず、当該地点名称の位置情報を加えることが望ましい。
[第3実施形態の効果]
以上詳細に説明したように、本発明を適用した第3実施形態に係る音声認識装置によれば、通信装置70によって検索した言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価するので、設計時に認知できなかったより一般的に用いられている言い換え語を登録することが可能になり、言い換え語の認識率を高くすることができ、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。
また、音声認識装置によれば、言い換え語が含まれている情報コンテンツ数が所定値以上である場合に、当該言い換え語の実使用度が高いと評価するので、実使用度が高いと評価する所定値を高くすることによって言い換え語を登録する精度を向上でき、使いやすさを大きく向上でき、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。
更にまた、音声認識装置によれば、通信装置70で検索された情報コンテンツ中に、正式名称と当該正式名称から生成された言い換え語との両方が共起している場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を大きく向上でき、使いやすさを大きく向上できる。
更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、検索された情報コンテンツに正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、個人的な情報コンテンツであっても、検索結果として得ることができ、新たな言い換え語をより迅速に登録することが可能となり、使いやすさを大きく向上できる。
更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、情報コンテンツのタイトル部分に正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を極めて高くすることができる。
更にまた、音声認識装置によれば、正式名称のカテゴリが地点名称である場合に、情報コンテンツの検索条件に当該地点名称の情報コンテンツを含めて検索するので、誤検索を少なくでき、誤った言い換え語の登録を避けることができる。
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。