JP4967519B2

JP4967519B2 - 音声認識装置

Info

Publication number: JP4967519B2
Application number: JP2006220448A
Authority: JP
Inventors: 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-08-11
Filing date: 2006-08-11
Publication date: 2012-07-04
Anticipated expiration: 2026-08-11
Also published as: JP2008046260A

Description

本発明は、使用者が発話した音声を認識する音声認識装置に関する。

従来より、音声認識装置としては、下記の特許文献１や特許文献２に記載された技術が知られている。

特許文献１には、辞書作成ルールを定義することによって、効率的でかつユーザ発話様式に適した辞書を作成する技術が記載されている。また、特許文献１には、施設の正式名称を入力し、入力された施設の正式名称を形態素に分割し、分割された形態素から地域名称及び施設の正式名称の一部を抽出し、抽出された地域名称と抽出された施設名称の一部とを連結単語で連結した単語を辞書用単語として登録することが記載されている。

特許文献２には、長い言葉も容易に確実に認識することを目的とし、使用者の発話に対する負荷低減や使用者の発話様式に適合した音声認識をすることが記載されている。また、特許文献２には、長い施設名称に区切りを入れて認識用単語を短く言い換え、この言い換え語を辞書登録して、使用者の言いよどみや発話単語を短縮化した音声を認識可能とすることが記載されている。
特開２００５−２０２１９８号公報特開２００１−０８３９８２号公報

しかしながら、上述した音声認識技術では、使用者が実際にその言い換え語を使用するかどうか分からないにも拘わらず、言い換え語を認識辞書に加えていたために、必要以上に認識語彙の数が多くなってしまい、その結果、認識率が低下してしまうという問題点があった。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができる音声認識装置を提供することを目的とする。

本発明は、使用者から発せられた音声を認識する音声認識手段を備えた音声認識装置であって、正式名称を音声認識対象語彙として記憶した記憶手段と、記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として記憶手段に登録する登録手段とを有する。このような音声認識装置は、上述の課題を解決するために、登録手段により、実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録する。

本発明に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができ、必要以上に音声認識対象語彙が多くなってしまう問題がない。

以下、本発明の実施の形態について図面を参照して説明する。

［第１実施形態］
本発明は、例えば図１に示すように構成された第１実施形態に係る音声認識装置に適用される。この音声認識装置は、信号処理ユニット１に、マイク２とタッチパネルディスプレイ３とスピーカ４と入力装置５とが接続されて構成されている。この音声認識装置は、正式名称に対する言い換え語を登録するに際して、使用者が実際に使用する度合い（実使用度）が高い言い換え語のみを登録するものである。

信号処理ユニット１は、信号処理装置１１に、Ａ／Ｄコンバータ１２とＤ／Ａコンバータ１３とアンプ１４と外部記憶装置（記憶手段）１５とが接続されている。

信号処理装置１１には、マイク２で検出された使用者の音声信号がＡ／Ｄコンバータ１２を介して供給される。また、信号処理装置１１は、タッチパネルディスプレイ３に操作名称及び音声認識結果等を表示すると共に、タッチパネルディスプレイ３から使用者の操作入力信号を入力する。更に、信号処理装置１１は、各種情報を音声案内するために、Ｄ／Ａコンバータ１３及びアンプ１４を介して音声信号をスピーカ４に供給して、操作名称を選択することを命令する告知音声及び音声認識結果の告知音声をスピーカ４から放音させる。

信号処理装置１１は、ＣＰＵ（Central Processing Unit）２１及びメモリ２２からなる。信号処理装置１１は、メモリ２２を作業領域として使用して、ＣＰＵ２１によって、音声認識処理（音声認識手段）、言い換え語を生成する処理（言い換え語生成手段）、言い換え語の実使用度を評価する処理（実使用度評価手段）、言い換え語を登録する処理（登録手段）を行う。

入力装置５は、音声認識を開始するに際して操作される発話スイッチ５ａ、信号処理ユニット１によって使用者が意図する音声とは異なる音声認識結果を生成した場合に音声認識結果を訂正するに際して操作される訂正スイッチ５ｂ（訂正指示手段）とを備えている。発話スイッチ５ａ及び訂正スイッチ５ｂが操作されると、当該操作は、信号処理装置１１によって検出される。また、訂正スイッチ５ｂを一定期間押し続けた場合、信号処理ユニット１は、使用者から発せられる音声による処理を途中で終了させる。

外部記憶装置１５は、施設等の正式名称情報、言い換え語情報である音声認識対象語彙及び当該施設等の位置情報を登録した音声認識対象語彙データベースと、操作時の操作名称を登録した操作名称データベースとを記憶している。例えば図２に示すように、信号処理ユニット１に対する操作名称である行き先、検索条件等の上位層の操作名称を登録した操作名称データベース３１と、行き先の下位層の住所、施設等の下位層の操作名称を登録した操作名称データベース３２と、当該操作名称データベース３１，３２の下位層に相当する正式名称、言い換え語を登録した音声認識対象語彙データベース３３とからなる。

例えば使用者の行き先が「北海道大学」という施設名である場合、操作名称データベース３１に、最上位層の行き先、探索条件等の操作名称が登録され、操作名称データベース３２に、行き先の下位層の住所、施設等の操作名称が登録されているとすると、操作名称データベース３１から「行き先」の操作名称が選択され、操作名称データベース３２から「施設名」の操作名称が選択されることになる。また、音声認識対象語彙データベース３３は、操作名称データベース３１，３２に対する最下位層の施設名称「北海道大学」を登録しているものである。

また、外部記憶装置１５には、正式名称、言い換え語及び操作名称データベースの一部を音声認識対象として登録した音声認識対象語彙データベースを記憶している。この音声認識対象語彙データベースは、信号処理装置１１によって書き換えられる。

つぎに、上述の音声認識装置において、使用者が「北海道大学」という正式名称の施設に行きたい又は地図表示させたい場合に、「北大」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。

このような音声認識装置においては、発話スイッチ５ａが操作されて、図３（ａ）に示す音声入力用の音声メニュー画像４１をタッチパネルディスプレイ３に表示している時に、音声入力を受け付ける。この音声メニュー画像４１は、信号処理ユニット１による音声認識結果を表示する音声認識結果表示欄４５、操作名称を示すメニューリスト４６を含む。メニューリスト４６は、外部記憶装置１５の音声認識対象語彙データベースに登録されている行き先、検索条件等の操作名称である音声認識対象語彙を羅列している。

この音声メニュー画像４１を表示させている状態において、信号処理ユニット１は、図４の（１）のように使用者が「行き先」との操作名称を発話し、当該「行き先」との音声認識結果を得ると、信号処理ユニット１は、図４の（２）のように「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音させて、図３（ｂ）の複数の操作名称を示すメニューリスト４６を含む行き先選択メニュー画像４２をタッチパネルディスプレイ３に表示させる。

図３（ｂ）の行き先選択メニュー画像４２を表示させている状態において、図４の（３）のように行き先選択メニュー画像４２のメニューリスト４６に含まれる「施設」という操作名称を使用者が発話し、信号処理ユニット１によって「施設」との音声認識結果を得た場合には、図４の（４）のように「施設名をどうぞ」との告知音声をスピーカ４から放音させて、図３（ｃ）に示す施設名入力画像４３を表示させる。

図３（ｃ）の施設名入力画像４３を表示させている状態において、図４の（５）のように「北大」と使用者が発話した場合、信号処理ユニット１は、外部記憶装置１５の音声認識対象語彙データベースには「北大」が音声認識対象語彙として登録されていないことから、当該「北大」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている国分駅を選択して、図３（ｄ）に示すように、音声認識結果表示欄４５に音声認識結果「国分駅」を含む音声認識結果画像４４を表示する。この音声認識結果画像４４には、音声認識結果表示欄４５に含まれる音声認識結果が指し示す位置に行くための最適経路を探索するコマンドを発生させる「そこへ行く」ボタン４７及び音声認識結果が指し示す位置付近の地図を表示するコマンドを発生させる「地図を見る」ボタン４８とを含んでいる。

この音声認識結果画像４４を表示している状態において、図４の（７）のように入力装置５の訂正スイッチ５ｂを使用者が操作すると、図４の（８）のようにスピーカ４から「もう一度発話してください」との告知音声を放音させて、再度図３（ｃ）の施設名入力画像４３を表示させる。そして、図４の（５）〜（８）のように（９）〜（１２），（１３）〜（１６）の手順を行い、図４の（１７）において使用者が「北海道大学」と発話した場合、音声認識対象語彙データベースに正式名称「北海道大学」が音声認識対象語彙として登録されているので、信号処理ユニット１によって「北海道大学」との音声認識結果を図３（ｄ）の音声認識結果画像４４における音声認識結果表示欄４５に表示させることができる。

このように、「北海道大学」の言い換え語である「北大」が外部記憶装置１５の音声認識対象語彙データベースに登録されていない場合、音声認識装置は、使用者が「北大」と発話しても、「北海道大学」との音声認識結果を出力できない。

これに対し、本発明を適用した音声認識装置は、使用者が実際に使用する言い換え語の実使用度を評価して、例えば「北大」という言い換え語の実使用度が高い場合には、当該言い換え語の「北大」を音声認識対象語彙データベースに登録することを特徴とするものである。すなわち、音声認識装置は、図５に示すように、（１）において使用者が「行き先」と発話し、（２）で「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音し、（３）で使用者が「施設」と発話し、（４）で「施設名をどうぞ」との告知音声をスピーカ４から放音したことに対し、使用者が「北大」と発話すると、当該「北大」の音声認識対象語彙が正式名称「北海道大学」の言い換え語として音声認識対象語彙データベースに登録されているので、（６）で「北海道大学」とスピーカ４から放音及び図３（ｄ）に示す音声認識結果画像４４において音声認識結果表示欄４５に「北海道大学」と表示させることができる。

以下、このように音声認識対象語彙データベースに実使用度の高い言い換え語を登録する処理について、図６を参照して説明する。

先ずステップＳ１において、信号処理装置１１のＣＰＵ２１は、使用者が発話スイッチ５ａを操作したことを検出し、発話開始が指示されたことを判定して、処理をステップＳ２に進める。

ステップＳ２において、ＣＰＵ２１は、音声認識処理のための待ち受け設定を行う。ＣＰＵ２１は、音声入力用のメニューとして図３（ａ）〜（ｄ）の何れかの画像を表示して音声入力の待ち受け状態となる。なお、ステップＳ１で発話スイッチ５ａが操作された直後においては、最上位階層である図３（ａ）の音声メニュー画像４１を表示して待ち受け状態となるが、例えば「行き先」、「施設名」と操作名称を選択して下位層に向かうに従って図３（ｂ）〜（ｄ）の画像を表示させることになる。

また、ＣＰＵ２１は、音声認識対象語彙データベースに登録されている音声認識対象語彙を外部記憶装置１５からメモリ２２に読み込む。そして、使用者の発話とともに操作名称データベース３１，３２といったように下位層に階層が進み、図２の音声認識対象語彙データベース３３に登録されている語彙すなわち施設名称が音声認識対象語彙として読み込まれているとする。なお、全国全ての施設名称をメモリ２２に読み込むことはメモリ容量及び音声認識演算速度の増加などの理由で難しいが、使用者の位置の近傍県内の施設および予め定められた全国の代表的な施設名称が読み込まれているとする。

次のステップＳ３において、ＣＰＵ２１は、プロンプト、すなわち音声認識処理を開始した旨を使用者に告知する為に、外部記憶装置１５に記憶されている告知音声信号をＤ／Ａコンバータ１３及びアンプ１４を介してスピーカ４に出力し、告知音声をスピーカ４から放音させる。例えば施設名を発話させる場合、「施設名をどうぞ」などが告知音声に該当する。

この告知音声に対し、例えば、図３（ｃ）の施設名入力画像４３を表示している場面において、図４の（５）のように正式名称「北海道大学」の言い換え語の「北大」と発話したとする。この場合、信号処理ユニット１は、マイク２からの音声信号をＡ／Ｄコンバータ１２でディジタル信号に変換し、信号処理装置１１に入力させると、ＣＰＵ２１によって発話スイッチ５ａの操作がなされるまで、ディジタル信号の平均パワーを演算している。発話スイッチ５ａが操作された後、信号処理装置１１は、平均パワーと比較してディジタル信号の瞬間パワーが所定値以上大きくなった時に、使用者が発話したと判断して、音声取り込みを開始する。

次のステップＳ４において、ＣＰＵ２１は、ステップＳ３で音声信号の読み取りを開始して読み取った音声信号と、メモリ２２に記憶されている音声認識対象語彙との一致度の演算を開始する。この一致度、すなわち音声区間部分と個々の音声認識対象語彙を示す音声信号が一致している度合いは、ＣＰＵ２１によって、音声区間ごとにスコアとして得られる。このスコアは、値が大きいほど、一致度が高いとする。なお、この音声区間ごとに一致度を求めている処理に平行して、音声取り込みを継続している。

次のステップＳ５において、ＣＰＵ２１は、Ａ／Ｄコンバータ１２から得られた音声のディジタル信号の瞬間パワーが所定時間以上に亘って所定値以下になった時に、使用者の発話が終了したと判断し、音声の取り込みを終了する。

次のステップＳ６において、ＣＰＵ２１は、図３（ｃ）のように音声認識結果表示欄４５を表示させている所定の名称入力階層であるか否かを判定する。すなわち、図３（ａ）、（ｂ）のような音声メニュー画像４１、行き先選択メニュー画像４２を表示させる階層のように行き先、探索条件等の操作名称が入力される階層ではなく、行き先の施設名や住所等の正式名称や当該正式名称の言い換え語が入力される階層であるか否かを判定する。例えば発話とともに階層が進み、音声の取り込みが完了した時点の階層が、図３（ｃ）の施設名入力画像４３が表示されている階層である場合、正式名称、言い換え語が発話される可能性がある階層であると判定して、ステップＳ７に処理を進める。一方、音声メニュー画像４１や行き先選択メニュー画像４２のようにメニューリスト４６から選択する操作名称を選択する階層であると判定した場合には、ステップＳ６からステップＳ８に処理を進める。

ステップＳ７において、ＣＰＵ２１は、後のステップＳ１４において使用者の発話「北大」が言い換え語である可能性を考慮するために、ステップＳ５で音声取り込みを終了した「北大」の音声を示すディジタル信号をメモリ２２に一時保存する。

次のステップＳ８において、ＣＰＵ２１は、音声認識対象語彙データベースに記憶されている音声認識対象語彙と、「北大」の音声を示すディジタル信号との一致度を求め、一致度の大きい順番で音声認識結果の候補を取得する。

そして、次のステップＳ９において、ＣＰＵ２１は、ステップＳ８で取得した音声認識結果の候補を出力する。例えば図３（ｄ）に示すように、ＣＰＵ２１は、音声認識結果画像４４の音声認識結果表示欄４５に、「北大」の音声を示すディジタル信号と最も一致度が高い音声認識対象語彙「国分駅」を音声認識結果として出力する。なお、音声認識結果の出力の仕方としては、ＣＰＵ２１の音声合成機能によって音声認識結果の「国分駅」を音声信号に変換して、Ｄ／Ａコンバータ１３及びアンプ１４を介して、スピーカ４で「国分駅」と放音させても良い。

その後、音声認識結果として「国分駅」を出力したことに対して、使用者によって、訂正スイッチ５ｂが操作される。その結果、信号処理装置１１は、ステップＳ１０において、ステップＳ９で音声認識結果を出力した後の所定時間（例えば数１０秒）内に訂正スイッチ５ｂが操作されたことを検出したか否かを判定する。所定時間内に訂正スイッチ５ｂが操作されたことを検出した場合、処理をステップＳ１０からステップＳ１１に進め、所定時間内に訂正スイッチ５ｂが操作されたことが検出されなかった場合、処理をステップＳ１０からステップＳ１２に進める。

ステップＳ１１において、ＣＰＵ２１は、訂正スイッチ５ｂの操作回数をインクリメントして記録して、ステップＳ３に処理を進めて、ステップＳ３〜ステップＳ１０の処理を繰り返して行う。その後、図４の（９）〜（１６）のように、使用者から「北大」という発話が繰り返されて、その後に、図４の（１７）にて「北海道大学」という正式名称を発話したとする。この場合、ステップＳ８において、音声認識対象語彙データベース３３に「北海道大学」という正式名称が登録されていることから、当該「北海道大学」という音声認識対象語彙が最も一致度が高くなり、ステップＳ９において「北海道大学」という音声認識結果を出力できる。

このように、「北海道大学」という音声認識結果を出力した後のステップＳ１０においては、訂正スイッチ５ｂが操作されずに、ＣＰＵ２１は、処理をステップＳ１０からステップＳ１２に進める。

ステップＳ１２において、ＣＰＵ２１は、ステップＳ９で音声認識結果を出力した音声認識対象語彙が操作名称であるか、正式名称又は言い換え語であるかを判定して、次の階層が有るか否かを判定する。次の階層がある場合には、ステップＳ２に処理を戻し、次の階層が無い場合には、ステップＳ１３に処理を進める。例えば行き先として施設名の「北海道大学」を音声認識結果として出力した場合には、ステップＳ１３に処理を進める。

ステップＳ１３において、ＣＰＵ２１は、図３（ｄ）の音声認識結果画像４４に含まれる「そこへ行く」ボタン４７又は「地図を見る」ボタン４８が選択されたことによって、音声認識結果を決定する。「そこへ行く」ボタン４７又は「地図を見る」ボタン４８が選択された場合、北海道大学の位置情報及びコマンドをナビゲーション装置（図示せずに）に供給して、ルート探索又は地図表示をさせる。

次のステップＳ１４において、ＣＰＵ２１は、使用者から発話された「北大」が、正式名称「北海道大学」の言い換え語である可能性を評価する。

先ず、ＣＰＵ２１は、正式名称「北海道大学」から言い換え語を生成する。ＣＰＵ２１は、正式名称を、形態素解析プログラムにより形態素に分割し、「北海道」と「大学」に分割する。なお、形態素解析は、汎用プログラム（例えば、ChaSen-http://Chasen.aist-nara.ac.jp/）をＣＰＵ２１で実行することで実現される。ＣＰＵ２１は、この２分割された２つの形態素「北海道」、「大学」から、それぞれ部分文字列を取り出して連結することで複数の言い換え語を生成する。例えば、２文字の言い換え語としては「北大」、「海大」、「道大」、「北学」、「海学」、「道学」が生成され、さらに他の文字数の言い換え語も生成される。

次にＣＰＵ２１は、使用者が発話した言い換え語であって、ステップＳ７でメモリ２２に一時記憶された言い換え語の実使用度を評価する。このとき、ＣＰＵ２１は、ステップＳ１０で訂正スイッチ５ｂが操作されて、ステップＳ１１で訂正スイッチ５ｂの操作回数が多いほど、当該言い換え語に対する使用者の使用意図が高く、当該言い換え語の実使用度が高いと評価する。そして、ＣＰＵ２１は、訂正スイッチ５ｂの操作回数が所定値以上であるか否かを判定して、所定値以上の場合には、当該言い換え語の実使用度が高く、言い換え語を音声認識対象語彙データベースに登録することを決定する。

なお、使用者の使用意図は、訂正スイッチ５ｂの操作回数に限らず、同じ言い換え語「北大」を発話した回数であっても良い。例えば、正式名称「北海道大学」に対する言い換え語「北大」、「北海道大」とがステップＳ７でメモリ２２に一時記憶され、言い換え語「北大」の方が多く発話されていた場合には、「北大」の方が使用意図が高いと判定できる。

次にＣＰＵ２１は、ステップＳ７でメモリ２２に一時記憶された使用者の音声「北大」を入力音声とし、「北海道」、「大学」の２個の形態素から生成した言い換え語の全てを音声認識対象語彙とし、入力音声と音声認識対象語彙との一致度を演算する。その結果、ＣＰＵ２１は、一致度のスコアが所定の閾値以上の言い換え語が存在した場合には、当該入力音声を音声認識対象語彙として音声認識対象語彙データベースに登録する。

また、ＣＰＵ２１は、「北海道大学」と同一カテゴリーである他の大学名称にも同様の言い換え語を生成して登録しても良い。すなわち、「北大」を音声認識対象語彙として音声認識対象語彙データベースに登録した場合、ＣＰＵ２１は、形態素解析した結果である「北海道」、「大学」それぞれの一文字目を連結して「北大」という言い換え語を作成するという規則を生成し、当該規則を他の大学の正式名称に適用して、音声認識対象語彙として登録してもよい。

これにより、正式名称「北海道大学」と言い換え語「北大」とを音声認識対象語彙データベースに登録した後には、図５の（５）示すように、「北大」と使用者が発話したことに対する応答として、「北海道大学」という正式名称を音声認識結果として出力することができる。また、ＣＰＵ２１は、「北海道大学」と使用者が発話したことに対する応答として、「北海道大学」との音声認識結果を出力すると同時に、正式名称「北海道大学」の言い換え語として「北大」と発話しても正式名称「北海道大学」を音声認識結果として出力できることを図３（ｄ）の音声認識結果画像４４内で表示しても良い。

［第１実施形態の効果］
以上詳細に説明したように、本発明を適用した第１実施形態に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用される可能性が高い言い換え語のみを音声認識対象語彙として追加登録でき、必要以上に音声認識対象語彙が多くなってしまう問題がなく、音声操作の使い勝手を大きく向上できる。

また、この音声認識装置によれば、訂正スイッチ５ｂによって訂正された言い換え語（第１の音声認識結果）を記憶しておき、その後に入力した音声に基づく音声認識結果（第２の音声認識結果）が訂正されなかった場合に、訂正された音声認識結果（第１の音声認識結果）が訂正されなかった音声認識結果（第２の音声認識結果）の言い換え語として実使用度が高いという評価をするので、訂正された言い換え語のみを音声認識対象語彙として登録でき、必要以上に音声認識対象語彙を多くすることを回避できる。

更に、この音声認識装置によれば、訂正スイッチ５ｂを操作した操作回数から、言い換え語の使用意図が高い場合に、言い換え語を登録するので、多くの操作を費やして入力に至った、より使用意図の高い言い換え語のみを音声認識結果に追加登録でき、必要以上に音声認識結果が多くなることを回避できる。

更にまた、この音声認識装置によれば、言い換え語を音声認識対象語彙として登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録するので、例えば大学といったカテゴリーにおいて正式名称「北海道大学」が「北大」として登録された場合、同じカテゴリーの正式名称「ＡＢＣ大学」から「Ａ大」という言い換え語を登録できる。これにより、言い換え語を用いて音声認識装置を使いやすいものとできる。

更にまた、音声認識装置によれば、音声認識対象語彙として登録された言い換え語が、使用可能となったことを使用者に提示するので、次回使用時から言い換え語を速やかに使用させることが可能となる。

［第２実施形態］
つぎに、第２実施形態に係る音声認識装置について説明する。なお、第２実施形態に係る音声認識装置は、その構成が上述の第１実施形態と同様であるので、同一符号を付することによりその詳細な説明を省略する。

音声認識装置において、使用者が「厚木国際カントリー倶楽部」という正式名称の場所に行きたい又は地図表示させたい場合に、「厚木カントリー」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。

このような音声認識装置においては、図３（ａ）に示す音声入力用の音声メニュー画像４１をタッチパネルディスプレイ３に表示している時に、音声入力を受け付ける。

この音声メニュー画像４１を表示させている状態において、ＣＰＵ２１は、図７の（１）のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、ＣＰＵ２１は、図７の（２）のように「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音させて、図３（ｂ）の複数の操作名称を示すメニューリスト４６を含む行き先選択メニュー画像４２をタッチパネルディスプレイ３に表示させる。

図３（ｂ）の行き先選択メニュー画像４２を表示させている状態において、図７の（３）のように行き先選択メニュー画像４２のメニューリスト４６に含まれる「施設」という操作名称を使用者が発話し、ＣＰＵ２１によって「施設」との音声認識結果を得た場合には、図７の（４）のように「施設名をどうぞ」との告知音声をスピーカ４から放音させて、図３（ｃ）に示す施設名入力画像４３を表示させる。

図３（ｃ）の施設名入力画像４３を表示させている状態において、図７の（５）のように「厚木カントリー」と使用者が発話した場合、ＣＰＵ２１は、外部記憶装置１５の音声認識対象語彙データベースには「厚木カントリー」が音声認識対象語彙として登録されていないことから、当該「厚木カントリー」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている厚木駅を選択して、図３（ｄ）の音声認識結果表示欄４５に音声認識結果「厚木駅」を含む音声認識結果画像４４を表示する。

この音声認識結果画像４４を表示している状態において、図７の（７）のように訂正スイッチ５ｂを使用者が操作すると、図７の（８）のようにスピーカ４から「もう一度発話してください」との告知音声を放音させて、再度図３（ｃ）の施設名入力画像４３を表示させる。そして、再度使用者によって「厚木カントリー」と発話したことに対して、図７の（１０）で「厚木駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図７の（１１）にて、タッチパネルディスプレイ３を用いた手操作入力で「厚木国際カントリー倶楽部」と入力させる。

このように、第２実施形態に係る音声認識装置は、音声認識に代わる代替入力手段を備えて、当該代替入力手段によって、音声認識結果とは異なる正式名称が入力された場合に、当該音声認識結果を、代替入力手段により入力した正式名称の言い換え語として実使用度が高いと評価して、音声認識対象語彙として登録することを特徴とする。

そして、音声認識装置は、図８の（１）において使用者が「行き先」と発話し、（２）で「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音し、（３）で使用者が「施設」と発話し、（４）で「施設名をどうぞ」との告知音声をスピーカ４から放音したことに対し、使用者が「厚木カントリー」と発話すると、当該「厚木カントリー」の音声認識結果が音声認識対象語彙データベースに登録されているので、図８の（６）で「厚木国際カントリー倶楽部」とスピーカ４から放音及び図３（ｄ）に示す音声認識結果画像４４において音声認識結果表示欄４５に「厚木国際カントリー倶楽部」と表示させることができる。

以下、第２実施形態に係る音声認識装置の動作について図９及び図１０を参照して説明する。

第２実施形態に係る音声認識装置は、図９に示すように、図３（ａ）、（ｂ）のように操作名称を含むメニューリスト４６を表示させて操作を選択させる処理及び図３（ｃ）、（ｄ）のように正式名称又は言い換え語の音声認識結果を得る処理を行う。音声認識装置は、第１実施形態の音声認識装置と同様に、ステップＳ１〜ステップＳ９の処理を行い、ステップＳ１０において、所定時間内に訂正スイッチ５ｂが操作されたことを検出した場合には、ステップＳ３に処理を戻し、所定時間内に訂正スイッチ５ｂが操作されなかった場合には、ステップＳ１２に処理を進める。上述したように、第２実施形態に係る音声認識装置は、代替入力手段によって正式名称が入力されたことによって言い換え語の実使用度が高いことを評価するので、図６のステップＳ１１のような訂正スイッチ５ｂの操作回数を記録する処理は行わない。そして、ステップＳ１２において、次の下位層がないと判定した後のステップＳ１３において、ステップＳ９で出力した音声認識結果を決定して処理を終了する。

ここで、上述のように、使用者が言い換え語「厚木カントリー」の音声入力をあきらめて、タッチパネルディスプレイ３による操作入力によって正式名称「厚木国際カントリー倶楽部」を音声認識装置に認識させる場合、音声認識装置は、図１０に示す処理を行うことによって、音声認識対象語彙データベースに実使用度の高い言い換え語を登録する。

図１０に示すように、ＣＰＵ２１は、先ず、ステップＳ２１において、図示しない入力装置５のメニュースイッチが操作されたことを検出した場合に、ステップＳ２２に処理を進めて、メニュースイッチの操作に従ったメニュー画面を設定表示し、ステップＳ２３において、タッチパネルディスプレイ３によって正式名称を入力する画面に遷移させるために、使用者による操作入力が確定すると、ステップＳ２４において、現在表示している画面の下位層が存在するかを判定する。

ＣＰＵ２１は、ステップＳ２４において、図１１に示すように、音声入力に代替して正式名称を入力する代替入力画面５１のように、下位層の画面が存在しないと判定した場合に、ステップＳ２５に処理を進める。代替入力画面５１には、使用者が入力しようとする正式名称のカテゴリー情報５２、正式名称入力欄５３、５０音の文字入力ボタン５４、リスト表示ボタン５５が含まれる。カテゴリー情報５２は、ステップＳ２２及びステップＳ２３において使用者によって選択されたカテゴリーである施設、当該施設の下位層のカテゴリーであるゴルフ場を示している。

ステップＳ２５において、ＣＰＵ２１は、代替入力画面５１の文字入力ボタン５４及びリスト表示ボタン５５が使用者に操作されることを検出して、操作結果を決定する処理を行う。このとき、図１１に示すように、施設の正式名称「厚木国際カントリー倶楽部」の一部の「あつぎ」が文字入力ボタン５４の操作によって入力された後、リスト表示ボタン５５が操作されると、図１２に示すように、「あつぎ」を先頭に含む音声認識対象語彙をリスト化したリスト表示画面６１を表示する。このとき、ＣＰＵ２１は、カテゴリーが施設の音声認識対象語彙のうち、「あつぎ」を含む部分一致検索を行って、外部記憶装置１５の音声認識対象語彙データベースから「あつぎ」を含む音声認識対象語彙を抽出する。リスト表示画面６１には、検索キーの「あつぎ」を含むリスト表示６２と、「そこへ行く」ボタン６３及び「地図を見る」ボタン６４とを含む。

このリスト表示画面６１を表示させた後、使用者によってリスト表示６２のうち「厚木国際カントリー倶楽部」が選択された場合、ＣＰＵ２１は、当該操作を検出して、操作結果を決定する。また、使用者が「厚木国際カントリー倶楽部」を選択し、更に、「そこへ行く」ボタン６３又は「地図を見る」ボタン６４が選択された時に、操作内容を決定しても良い。

次に、ＣＰＵ２１は、ステップＳ２６において、ステップＳ２５で操作結果が決定される直前の時間帯（例えば数分）で図９の音声を入力する処理を行っていたか否かを判定する。このとき、ＣＰＵ２１は、例えばメモリ２２に一時記憶した音声のディジタル信号を所定期間だけ保持するように構成した場合には、図９のステップＳ７で一時的にメモリ２２に音声のディジタル信号が記憶されていると判定した時に、直前に音声入力が有ったと判定する。

次のステップＳ２７において、ＣＰＵ２１は、ステップＳ２６で判定したように、代替入力画面５１からリスト表示画面６１に遷移して正式名称を選択した直前に入力された音声から、言い換え語を生成して、音声認識対象語彙データベースに登録する処理を行う。例えば、使用者にとって正式名称が分からないために、音声入力によって正式名称を音声認識装置に認識させることができずに中断し、代替入力画面５１から正式名称を入力した可能性があるので、言い換え語を生成する処理を行う。

このステップＳ２７において、ＣＰＵ２１は、直前に行われていた音声入力に関わる音声のディジタル信号をメモリ２２から読み出し、この音声のディジタル信号から言い換え語を生成する。次に、ＣＰＵ２１は、生成した言い換え語と、メモリ２２に記憶されていた音声のディジタル信号とを比較して、一致度が高い言い換え語を、正式名称に対する言い換え語であると判定する。このとき、ＣＰＵ２１は、例えば正式名称「厚木国際カントリー倶楽部」から、「厚木」、「国際」、「カントリー」、「倶楽部」という形態素を組み合わせて、「厚木カントリー」という言い換え語の候補を作成し、メモリ２２に「厚木カントリー」が記憶されている場合には、当該「厚木カントリー」が「厚木国際カントリー倶楽部」の言い換え語であると判定して、音声認識対象語彙データベースに登録する。

また、メモリ２２に記憶されている音声のディジタル信号のうち、使用者の初期発話の音声のディジタル信号を選択して、正式名称から生成した言い換え語と照合し、初期発話の音声のディジタル信号と言い換え語との尤度の高い場合に、当該言い換え語を音声認識対象語彙データベースに登録することが望ましい。

［第２実施形態の効果］
以上詳細に説明したように、本発明を適用した第２実施形態に係る音声認識装置によれば、代替入力画面５１によって正式名称を入力した場合に、当該正式名称の入力よりも前に音声入力があった時には、当該音声の言い換え語を実使用度が高い言い換え語として音声認識対象語彙データベースに登録できるので、音声入力に代替する手段を用いてまで入力を継続したより使用意図の高い言い換え語のみを音声認識対象語彙データベースに登録でき、必要以上に音声認識対象語彙が多くなることを回避できる。

また、この音声認識装置によれば、代替入力画面５１によって正式名称が入力された場合に、当該正式名称から生成した言い換え語と、メモリ２２に記憶された使用者の初期発話の音声とを照合して、尤度の高い場合に言い換え語の実使用度が高いと評価して登録するので、使用者の固有の言い換え語を音声認識対象語彙データベースに登録でき、且つ必要以上に音声認識対象語彙が多くなることを回避できる。

［第３実施形態］
つぎに、第３実施形態に係る音声認識装置について説明する。なお、上述の実施形態と同様の部分については同一符号を付することによりその詳細な説明を省略する。

第３実施形態に係る音声認識装置は、図１３に示すように、信号処理ユニット１に、ネットワークを介して情報コンテンツ記憶サーバ（情報コンテンツ記憶手段、図示せず）に接続された通信装置（通信手段）７０が接続されている点で、上述した実施形態に係る音声認識装置とは異なる。この通信装置７０は、信号処理ユニット１の命令に従って、例えばＩＰ（Internet Protocol）等の通信プロトコルに従って通信処理を行う。

この音声認識装置は、例えば行き先の施設名の正式名称が「関西学院大学」であり、言い換え語の「関学」が音声認識対象語彙データベースに登録されていない場合には、図１４に示すような動作となり、後述するように言い換え語「関学」を音声認識対象語彙データベースに登録した場合には、図１５に示す処理を行う。

信号処理ユニット１は、図１４の（１）のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、図１４の（２）のように「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音させる。次に図１４の（３）のように「施設」という操作名称を使用者が発話し、信号処理ユニット１によって「施設」との音声認識結果を得た場合には、図１４の（４）のように「施設名をどうぞ」との告知音声をスピーカ４から放音させる。

次に、信号処理ユニット１は、図１４の（５）のように「関学」と使用者が発話した場合、外部記憶装置１５の音声認識対象語彙データベースには「関学」が音声認識対象語彙として登録されていないことから、当該「関学」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている甲府駅を選択する。次に、信号処理ユニット１は、図１４の（７）のように訂正スイッチ５ｂを使用者が操作すると、図１４の（８）のようにスピーカ４から「もう一度発話してください」との告知音声を放音させ、再度使用者によって「関学」と発話したことに対して、図１４の（１０）で「甲府駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図１４の（１１）にて、タッチパネルディスプレイ３を用いた手操作入力で「関西学院大学」と入力させる。

この図１４の（１１）において、信号処理ユニット１は、図１６に示すように、カントリー「大学」の代替入力画面５１から、文字入力ボタン５４を操作させて正式名称入力欄５３に「かん」が入力され、更にリスト表示ボタン５５が操作された場合、図１７に示すリスト表示画面６１を表示する。そして、リスト表示画面６１のリスト表示６２のうち、「関西学院大学」が選択されて、正式名称「関西学院大学」が入力される。

次に、信号処理ユニット１は、正式名称「関西学院大学」から言い換え語「関学」を生成し、当該生成した言い換え語「関学」を検索キーとしてネットワーク上の情報コンテンツ記憶サーバに記憶されている情報コンテンツを検索するように通信装置７０を制御する。そして、信号処理ユニット１は、生成された言い換え語「関学」が通信装置７０で接続した情報コンテンツ記憶サーバに記憶されている情報コンテンツに含まれている場合に、当該言い換え語「関学」の実使用度が高いと評価して、音声認識対象語彙データベースに登録する。

そして、音声認識装置は、図１５の（１）において使用者が「行き先」と発話し、（２）で「行き先のコマンドをどうぞ」との告知音声をスピーカ４から放音し、（３）で使用者が「施設」と発話し、（４）で「施設名をどうぞ」との告知音声をスピーカ４から放音したことに対し、使用者が「関学」と発話すると、当該「関学」の音声認識結果が音声認識対象語彙データベースに登録されているので、図１５の（６）で「関西学院大学」とスピーカ４から放音及び図３（ｄ）に示す音声認識結果画像４４において音声認識結果表示欄４５に「関西学院大学」と表示させることができる。

この音声認識装置の処理は、図１８に示すように、ステップＳ１〜ステップＳ５の処理によって使用者から発話された音声を取り込んだ後に、ステップＳ８〜ステップＳ１０、ステップＳ１２及びステップＳ１３を行う。ここで、第２実施形態に係る音声認識装置が行う図９の処理に対して、ステップＳ６及びステップＳ７の処理を第３実施形態に係る音声認識装置では行っていない。この理由としては、第３実施形態に係る音声認識装置が、代替入力画面５１及びリスト表示画面６１を表示して入力された正式名称から、実使用度の高い言い換え語を生成するために、使用者から発話された言い換え語の音声をメモリ２２に記憶するステップＳ７を行わないことによる。

また、第３実施形態に係る音声認識装置は、第２実施形態において説明した図１０と同様に、ステップＳ２１〜ステップＳ２６の処理を行い、ステップＳ２６において、直前に図１８に示す処理が行われたと判定した場合には、ステップＳ２７にて言い換え語を生成して、実使用度の高い言い換え語を音声認識対象語彙データベースに登録する処理を行う。

このステップＳ２７において、信号処理ユニット１は、先ず、正式名称「関西学院大学」から言い換え語を生成する。このとき、信号処理ユニット１は、正式名称「関西学院大学」を形態素解析プログラムによって形態素に分割させ、「関西」と「学院」と「大学」に分割させる。次に信号処理ユニット１は、３個の形態素からそれぞれ部分文字列を取り出して、連結することで複数の言い換え語を生成する。例えば、２文字の言い換え語として「関学」、「西学」、「関院」、「西院」、「関大」、「西大」、「学大」、「院大」、「関学」、「西学」、「学学」、「院学」を生成し、さらに他の文字数の言い換え語も生成する。

次に信号処理ユニット１は、通信装置７０を制御して、ネットワーク上の情報コンテンツにアクセスさせて、言い換え語が実際に使われているかを評価する。このとき、信号処理ユニット１は、先ず、通信装置７０によって、生成した言い換え語を検索キーとして、Ｗｅｂホームページ等の情報コンテンツを検索させる。次に信号処理ユニット１は、検索結果件数を通信装置７０から取得し、当該検索結果件数が所定の閾値以上であるか否かを判定して、閾値以上である場合に当該検索結果の情報コンテンツに正式名称が存在する情報コンテンツが存在するか否かを判定する。情報コンテンツに正式名称が存在した場合、信号処理ユニット１は、検索キーとした言い換え語が実際に使用されているものと判断して、当該言い換え語を音声認識対象語彙として登録する。

このように、信号処理ユニット１によって、正式名称「関西学院大学」から生成した言い換え語のうちの「関学」を検索キーとして情報コンテンツを検索した結果、検索結果である情報コンテンツの数が所定数以上となった実使用度の高い言い換え語であり、当該情報コンテンツに正式名称「関西学院大学」が含まれている場合に、言い換え語「関学」を音声認識対象語彙として登録できる。

また、信号処理ユニット１は、通信装置７０によって検索キーを言い換え語として検索した結果として得られた情報コンテンツがＨＴＭＬ（Hypertext Markup Language）などの構造化言語で記述されている場合、当該ＨＴＭＬデータのタイトル部分に正式名称が存在するかを判定する。そして、ＨＴＭＬデータのタイトル部分に正式名称が存在した場合、当該検索キーとした言い換え語の実使用度が高いと評価して、音声認識対象語彙として登録するとしても良い。

更に、信号処理ユニット１は、代替入力画面５１及びリスト表示画面６１によって得られた正式名称のカテゴリーが地点名称である場合に、通信装置７０によって情報コンテンツを検索する検索キーとして正式名称である地点名称のみならず、当該地点名称の位置情報を加えることが望ましい。

［第３実施形態の効果］
以上詳細に説明したように、本発明を適用した第３実施形態に係る音声認識装置によれば、通信装置７０によって検索した言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価するので、設計時に認知できなかったより一般的に用いられている言い換え語を登録することが可能になり、言い換え語の認識率を高くすることができ、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。

また、音声認識装置によれば、言い換え語が含まれている情報コンテンツ数が所定値以上である場合に、当該言い換え語の実使用度が高いと評価するので、実使用度が高いと評価する所定値を高くすることによって言い換え語を登録する精度を向上でき、使いやすさを大きく向上でき、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。

更にまた、音声認識装置によれば、通信装置７０で検索された情報コンテンツ中に、正式名称と当該正式名称から生成された言い換え語との両方が共起している場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を大きく向上でき、使いやすさを大きく向上できる。

更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、検索された情報コンテンツに正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、個人的な情報コンテンツであっても、検索結果として得ることができ、新たな言い換え語をより迅速に登録することが可能となり、使いやすさを大きく向上できる。

更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、情報コンテンツのタイトル部分に正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を極めて高くすることができる。

更にまた、音声認識装置によれば、正式名称のカテゴリが地点名称である場合に、情報コンテンツの検索条件に当該地点名称の情報コンテンツを含めて検索するので、誤検索を少なくでき、誤った言い換え語の登録を避けることができる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。

本発明を適用した第１実施形態に係る音声認識装置の構成を示すブロック図である。本発明を適用した第１実施形態に係る音声認識装置における操作名称データベース、音声認識対象語彙データベースを示す図である。本発明を適用した第１実施形態に係る音声認識装置における画面遷移を説明する図であり、（ａ）は音声メニュー画像、（ｂ）は行き先選択メニュー画像、（ｃ）は施設名入力画像、（ｄ）は音声認識結果画像である。本発明を適用した第１実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。本発明を適用した第１実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。本発明を適用した第１実施形態に係る音声認識装置の処理手順を示すフローチャートである。本発明を適用した第２実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。本発明を適用した第２実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。本発明を適用した第２実施形態に係る音声認識装置による音声認識時の処理手順を示すフローチャートである。本発明を適用した第２実施形態に係る音声認識装置による言い換え語の登録時の処理手順を示すフローチャートである。本発明を適用した第２実施形態に係る音声認識装置における代替入力画面を示す図である。本発明を適用した第２実施形態に係る音声認識装置におけるリスト表示画面を示す図である。本発明を適用した第３実施形態に係る音声認識装置の構成を示すブロック図である。本発明を適用した第３実施形態に係る音声認識装置において、言い換え語が登録されていない場合の動作を示す図である。本発明を適用した第３実施形態に係る音声認識装置において、言い換え語が登録されている場合の動作を示す図である。本発明を適用した第３実施形態に係る音声認識装置における代替入力画面を示す図である。本発明を適用した第２実施形態に係る音声認識装置におけるリスト表示画面を示す図である。本発明を適用した第３実施形態に係る音声認識装置による音声認識時の処理手順を示すフローチャートである。

符号の説明

１信号処理ユニット
２マイク
３タッチパネルディスプレイ
４スピーカ
５入力装置
５ａ発話スイッチ
５ｂ訂正スイッチ
１１信号処理装置
１２Ａ／Ｄコンバータ
１３Ｄ／Ａコンバータ
１４アンプ
１５外部記憶装置
２１ＣＰＵ
２２メモリ
３１，３２操作名称データベース
３３音声認識対象語彙データベース
４１音声メニュー画像
４２先選択メニュー画像
４３施設名入力画像
４４音声認識結果画像
４５音声認識結果表示欄
４６メニューリスト
４７，６３「そこへ行く」ボタン
４８，６４「地図を見る」ボタン
５１代替入力画面
５２カテゴリー情報
５３正式名称入力欄
５４文字入力ボタン
５５リスト表示ボタン
６１リスト表示画面
６２リスト表示
７０通信装置

Claims

使用者から発せられた音声を認識する音声認識手段を備えた音声認識装置であって、
正式名称を音声認識対象語彙として記憶した記憶手段と、
前記記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、
前記言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、
前記言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として前記記憶手段に登録する登録手段とを有し、
前記登録手段は、前記実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録するものであり、
使用者から発せられた音声に対して前記音声認識手段で生成した音声認識結果を訂正する指示を入力する訂正指示手段を更に備え、
前記実使用度評価手段は、前記訂正指示手段で第１の音声認識結果を訂正する指示を入力した場合に当該第１の音声認識結果の生成の基になる使用者から発せられた音声信号を入力音声とし、その後に、前記音声認識手段で生成した第２の音声認識結果に対して前記訂正指示手段で訂正されずに確定された場合に、前記入力音声を、前記第２の音声認識結果の言い換え語の可能性があると評価し、前記入力音声の実使用度を評価することを特徴とする音声認識装置。
使用者の前記訂正指示手段の操作量から言い換え語の使用意図の高さを判断する使用意図判断手段を更に備え、
前記実使用度評価手段は、前記使用意図判断手段で使用意図が高いと判断された言い換え語を実使用度が高い言い換え語と評価することを特徴とする請求項１に記載の音声認識装置。
前記登録手段は、前記言い換え語を登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録することを特徴とする請求項１に記載の音声認識装置。
前記登録手段によって登録された言い換え語が、使用可能となったことを使用者に提示することを特徴とする請求項１に記載の音声認識装置。