JP4816409B2

JP4816409B2 - 認識辞書システムおよびその更新方法

Info

Publication number: JP4816409B2
Application number: JP2006293098A
Authority: JP
Inventors: 大介斎藤; 実冨樫; 健大野; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-01-10
Filing date: 2006-10-27
Publication date: 2011-11-16
Anticipated expiration: 2026-10-27
Also published as: JP2007213005A; US9020819B2; US20070162281A1

Description

本発明は、車両に搭載されるナビゲーションシステムなどに使用される認識辞書システムおよびその更新方法に関する。

近年、音声認識によりシステムとユーザとの間で音声対話を行うシステムが数多く提供されている。音声対話の基本フローでは、ユーザがある目的を達成するためにシステムに向かって音声を入力し、システムは該音声を認識した結果、対応する応答をユーザに音声あるいは表示器を介して提示する。ユーザによる一度の発話でタスク達成のための十分な情報が得られた場合には、その情報に基づき機器操作等の処理を実行する。一方、十分な情報が得られない場合には十分な情報が得られるまで質問応答、発話を繰り返す対話によりタスク達成を目論む。その代表的なアプリケーションとして、目的地の施設名称の入力を主タスクとしたナビゲーション用音声認識システムに含まれる認識辞書システムがある。

一般的なナビゲーション用音声認識システムにおいて、ユーザはシステムの音声あるいは表示によるメッセージに従い目的地となる施設名称を発話する。システムはこの発話音声を認識辞書と照合し、最も近い（認識スコアの高い）語彙を認識結果として出力し、目的地設定を行う。上記の認識方法は、最も簡単な方法であり、認識結果として認識スコアが最も高い語彙（１−ｂｅｓｔ）を認識語彙としている。より複雑なタスクや、語彙数の多いシステムに対して適用することを考え、認識単語を受理するか否かを「信頼度（ＣｏｎｆｉｄｅｎｃｅＭｅａｓｕｒｅ：ＣＭ）」と言う尺度で再評価する手法が提案されている。信頼度尺度は、ほかの競合語彙との間違い易さを表現した指標であり、単語事後確率やＮ−ｂｅｓｔリスト、単語ラティスを利用した方法が提案されている（非特許文献１、２および特許文献１参照）。

そこで、信頼度尺度と対話戦略を組み合わせることで、より高度な対話によるタスク達成方法が実現できる。例えば、上述したナビゲーション用音声認識システムにおける目的地設定を行う場合の対話例では、ユーザの発話音声「○○ゴルフ場」に対し、まず、全国の施設での検索を試みる。しかし、競合語彙が多いため、十分な信頼度が得られない場合がある。そこで、更に、県名を質問する応答戦略がとられ、ユーザの県名の入力を元に語彙を絞り込んで再検索を実行し、目的地設定を完遂している。
Ｆ．Ｗｅｓｓｅｌ他，"ＵｓｉｎｇＰｏｓｔｅｒｉｏｒｗｏｒｄｐｒｏｂａｂｉｌｉｔｉｅｓｆｏｒｉｍｐｒｏｖｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ"，Ｐｒｏｃ．ＩＣＡＳＳＰ２０００，ｐｐ．５３６−５６６ F.Wessel, R. Schluter, and H. Ney, "Using posterior probabilities forimproved speech recognition," In Proc. IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP), Istanbul, Turkey, June 2000,pp. 1587-1590. 特開２００５−１６４８３７

上述したナビゲーション用音声認識システムに用いる認識辞書システムの認識辞書は、県名・市町村名をはじめとして、施設カテゴリ毎に語彙群が登録されている。認識辞書に登録された語彙群と発話音声を比較することで、目的地設定を実現している。しかし、上述したナビゲーション用音声認識システムでは、登録された語彙以外の発話を行った場合、該発話音声に含まれる語彙を正しく認識することができず、認識語彙が得られない、誤った語彙が認識される等の不具合が発生する。例えば、上述したナビゲーション用音声認識システムに用いる認識辞書の場合、通常、地図製作会社の提供する全国地図情報に含まれる施設名称情報を利用して認識語彙が決定される。この施設名称情報は各施設運営者が公に届け出ている正式名称である。すなわち、正しく認識を行うためには、ユーザが正式名称を発話しなければならない。

しかしながら、実際の対話では、ユーザが常に該施設名称を正しく発話するとは限らない。そこで、電話オペレータとユーザの対話を解析したところ、施設の正式名称（地図に登録された施設名称）が発話できたユーザは全体の約５７％であり、残りのユーザは、（１）削除、（２）置換、（３）挿入が含まれる施設名称、すなわち「言い換え語彙」を発話している。ここで、「言い換え語彙」（１）〜（３）の具体例を示すと、正式名称「中部国際空港」に対して、
（１）削除「中部空港」←略称
（２）置換「セントレア」←愛称、旧称等
（３）挿入「中部新国際空港」 ←別称等
が挙げられる。

こうした施設名称が発話された場合、認識が正しく行われないため、ユーザは目的地を設定するために入力のやり直しや訂正発話を行わなければならない。例えば、上述したナビゲーション用音声認識システムにおいて、ユーザが最初に「セントレア」と発話する場合を考える。このとき認識辞書には「セントレア」が登録されていないものとする。ユーザの発話音声を認識辞書と照合し、最も近い語彙、すなわち、認識スコアの最も高い（１−ｂｅｓｔ）語彙を認識結果として用いる音声認識システムでは、認識結果が得られない。そこでユーザは再度目的地設定をやり直す。

一方、信頼度計算法と対話戦略を用いる音声認識システムでは、十分な信頼度を持った語彙が存在せず、認識結果が得られなかった場合や、十分な信頼度を持った語彙が検出されたものの、誤った施設が認識される場合もある。その場合、ユーザは追加の対話や訂正発話を続け、次の発話時には「中部国際空港」と発話する。これにより、所望の施設を目的地に設定できる。なお、ユーザが正式名称を知らない場合は、直接その施設名称を発話することはできない。この場合、手操作などにより県名、施設ジャンルなどから認識辞書を検索して所望の目的地を設定することになる。このため、ユーザにとって使い勝手が悪いシステムとなっていた。

そこで、使い勝手を良くするため、言い換え語彙を認識できる認識辞書を備えるナビゲーション用音声認識システムが望まれている。しかしながら、全国の施設名称に関する言い換え語彙は無数に考えられるため、作成者の知識のみでこうした言い換え語彙を全て網羅し、予め、認識辞書に登録しておくことは極めて困難であり、現状は一部の有名施設のみに限られていた。更に、言い換え語彙は時代と共に変化することもあり、また、世代間でも異なることもあり、全ての言い換え語彙を、予め、認識辞書に登録しておくことは極めて困難であった。

本発明は、こうした問題に鑑みてなされたものであり、言い換え語彙の発生状況を検出し、該言い換え語彙を登録するために認識辞書を更新することで、発生した言い換え語彙を認識できる認識辞書システムおよびその更新方法を提供することを目的とする。

上記目的達成のため、本発明に係る認識辞書システムは、ユーザからの入力情報に対応する第１の語彙が、文字列情報を記憶した認識辞書に記憶された第２の語彙と等価の意味を持ち、異なる文字列情報を持つ場合に、第１の語彙を第２の語彙と対応付けて言い換え語彙として累積記憶し、累積された言い換え語彙の発生頻度が第１の所定値より高い言い換え語彙の少なくとも一つを主要言い換え語彙と判断し、主要言い換え語彙を第２の語彙と対応付けて認識辞書に登録し、このとき、ユーザの発話音声を音素認識により変換した音素列情報に対応する文字列情報を有する第１の語彙を、言い換え語彙として累積記憶し、言い換え語彙の発生頻度を解析する際、音素間距離が所定内である音素列情報ごとに分類することを特徴としている。

本発明により、初期の認識辞書では認識不可能な言い換え語彙が存在する場合であっても、利用実態に基づく言い換え語彙の発生を検出して、言い換え語彙を認識辞書に登録するために認識辞書を更新することができる。よって、言い換え語彙を適切に認識することができる。

以下に、本発明に係る第１乃至第３の実施形態として、本発明の認識辞書システムを用いた目的地設定、すなわちナビゲーション用音声認識装置を説明する。ただし、本発明は認識辞書に登録されていない言い換え語彙をユーザの利用実態から検出し、認識辞書に登録するために認識辞書を更新することを特徴とする。従って、ナビゲーション用音声認識装置以外の音声認識装置においても同様の効果が期待できる。

（第１の実施形態）
第１の実施形態では、ユーザの言い換え語彙を大量に累積記憶した言い換え語彙累積データを認識辞書１４０（図１参照）と別個に保持することを前提とし、言い換え語彙累積データに基づく発生頻度解析から主要な言い換え語彙を抽出して認識辞書１４０を更新する。

第１の実施形態の基本的な構成を図１に示す。図１は、第１の実施形態の基本的構成を示すブロック図である。第１の実施形態の認識辞書システムを含むナビゲーション用音声認識装置は、音声入力部１１０、特徴抽出部１２０および音声認識部１３０からなる文字列情報入力部１７０、認識辞書１４０、理解制御部１５０、操作設定部１６０から構成される音声認識システム（クライアントＡ）１００と、音声入力部２１０、操作設定部２２０、そしてオペレータログ記憶部２３０から構成されるオペレータサービスシステム（ユーザ端末：クライアントＢ、オペレータ端末：サーバＢ）２００と、言い換え語彙検出部３１０、言い換え語彙累積部３２０、言い換え頻度解析部３３０、認識辞書更新部である辞書更新部３４０から構成される辞書更新システム（サーバＡ）３００とを備えている。すなわち、第１の実施形態は、言い換え語彙の抽出、累積記憶の材料として、オペレータ（ａ）とユーザの通話による目的地設定タスクのオペレータログ（対話ログ）データを用いるものである。このオペレータサービスシステム２００は近年普及しつつある、車載型情報通信端末を用いたサービス（テレマティクス）の１つであり、クライアント端末である車両側の通信装置４０７（図２参照）を使用して、ユーザからオペレータ（ａ）に電話を接続し、目的地を告げることにより、目的地設定を行うサービスである。上記のオペレータサービスシステム２００の構成において、上記システム２００のユーザと、上記音声認識システム（クライアントＡ）１００のユーザは同一であっても異なっていてもよい。また、図１では、オペレータサービスシステム２００および音声認識システム（クライアントＡ）１００にそれぞれ音声入力部１１０、２１０および操作設定部１６０、２２０を配置しているが、これらは共通の構成としてもよい。更に、既に上記オペレータサービスシステム２００による十分量、例えば数年分のオペレータログデータがオペレータログ記憶部２３０に記憶されている場合、記憶されたオペレータログデータを利用して辞書更新システム（サーバＡ）３００を構築できるため、上記オペレータサービスシステム２００を省いた構成とすることも可能である。
＜基本機能と実現手段＞
ここで、各部の基本的な機能および具体的な実現手段について、図２を用いて説明する。図２は、第１の実施形態の実現手段を示すブロック図である。なお、第１の実施形態では、クライアントサーバ型のナビゲーション用音声認識装置を示し、認識辞書１４０は更新が生じた場合に辞書更新システム（サーバＡ）３００から更新データをダウンロードすることにより行うものとする。以降の説明では、音声認識処理の全てを音声認識システム（クライアントＡ）１００側で完遂し、認識辞書１４０の更新データのみを辞書更新システム（サーバＡ）３００から受け取る構成としているが、音声認識システム（クライアントＡ）１００は音声信号そのもの、あるいは発話音声の特徴量を辞書更新システム（サーバＡ）３００に送信し、音声認識部１３０以降の全ての音声認識処理を辞書更新システム（サーバＡ）３００にて行う構成としてもよい。ただし、この場合は音声認識処理の都度、辞書更新システム（サーバＡ）３００への通信が必要である。また、例えば、認識辞書１４０の更新をＣＤ−ＲＯＭ等の記憶媒体の直接送付等によって行う場合は、音声認識システム（クライアントＡ）１００は通信を介さないスタンドアロンシステムとして構築することも可能である。

音声認識システム（クライアントＡ）１００について説明する。音声入力部１１０は、ユーザの発話音声を入力し、離散信号に変換された音声信号を特徴抽出部１２０へ送出するものであり、例えばマイクロフォン４０１とＡＤ変換部４０４を組み合わせることで実現される。

特徴抽出部１２０は、音声入力部１１０により離散信号に変換された音声信号から音声認識に必要な特徴量を抽出するものであり、演算装置４０５と記憶装置４０６を組み合わせることで実現できる。ここで、特徴量としてはＭＦＣＣ（メル周波数ケプストラム係数）等を用いることができる。なお、後段の音声認識の性能を向上するため、特徴量の抽出の段階において、加法性雑音や乗法性雑音を抑圧する処理を行うことが好ましい。加法性雑音の抑圧方法としてはスペクトルサブトラクション（ＳＳ）、乗法性雑音の抑圧方法としてはケプストラム平均正規化（ＣＭＮ）などが知られている。

音声認識部１３０および認識辞書１４０は、特徴抽出部１２０から得られた発話音声の特徴量と、認識辞書１４０に登録された文字列情報である語彙との類似度を比較することにより、該発話音声に対応する文字列情報を照合して、選択する機能を持つもので、演算装置４０５と記憶装置４０６を組み合わせることで実現される。音声認識処理はＨＭＭ（隠れマルコフモデル）を用いた尤度計算手法等が用いられる。認識辞書１４０は、具体的には音響モデルおよび言語モデルから構成され、音響モデルとしては、トライフォンモデル等を、言語モデルとしては、ネットワーク型言語モデルもしくは統計的言語モデル等を用いることができる。第１の実施形態では、目的地設定を主タスクとするため、目的地、すなわち、施設名称を認識語彙として登録し、登録された認識語彙データを階層的に繋げたネットワーク型言語モデルを用いることが好ましい。なお、第１の実施形態で以降述べる認識辞書１４０の更新処理とは、上記言語モデルの更新を指すこととする。また、上述した信頼度と対話戦略を組み合わせた音声認識システムを対象とする場合には、音声認識部１３０が信頼度計算機能を有することが必要である。

認識辞書１４０に記憶された認識語彙データ、すなわち、施設データの例を図３に示す。図３は、認識辞書１４０に記憶された認識語彙データを示す図である。図３に示すように、認識辞書１４０には、施設ＩＤ、施設名称ラベルデータとその発音データ（実際に発話される名称データ）とを対応させた認識語彙データ（施設データ）が記憶されている。初期の認識辞書１４０では、言い換え語彙が登録されていないため、施設名称ラベルデータとその発音データは全て１対１で記憶されている。後述するが、辞書更新部３４０で言い換え語彙の更新処理が行われた後は、単一の施設名称ラベルデータに対して、複数の発音データが登録されることとなる。

理解制御部１５０は、音声認識部１３０で行われた音声認識処理の結果を受けて、現在の理解状態、すなわち、目的地を設定するために必要な情報がどれだけ得られているかを評価するものであり、演算装置４０５と記憶装置４０６を組み合わせることで実現される。ここで十分な情報が得られたと判断される場合、すなわち、それまでの音声認識処理の結果から得られた語彙群から目的地が一意に決定できる場合には、操作設定部１６０へ目的地設定操作の実行を許可し、十分な情報が得られなかったと判断される場合、すなわち、音声認識処理の結果から得られた語彙群からは一意に目的地が決まらない場合、あるいは雑音やユーザの発音の影響で、十分な認識スコア（信頼度）をもった語彙が取得できない場合、またはユーザからの訂正、否定が入力された場合等は、対応する質問応答を生成し、これを図示しない出力部、すなわち、スピーカ４０２および／または表示装置４０３へ送信することで、ユーザに対し追加の発話を促す。

操作設定部１６０は、理解制御部１５０において目的地が一意に決まったと判断された場合に、目的地設定操作を実行するものであり、演算装置４０５と記憶装置４０６を組み合わせることで実現される。具体的な目的地設定操作としては、図示しない経路演算部に対し、目的地名称あるいは該名称に対応するインデックス（入力文字列情報）を送信する処理などが相当する。この結果を受け、経路演算部では現在地からのルート演算を行う。

続いてオペレータサービスシステム（クライアントＢおよびサーバＢ）２００について説明する。

音声入力部２１０はユーザの発話音声を入力し、電話回線を通じてオペレータ（ａ）に送出するものであり、例えばマイクロフォン４０１から構成される。なお、オペレータ（ａ）と通話を行うための図示しない音声コーデック処理部および通信部が包含されているものとする。オペレータ（ａ）との通話により、目的地が決定されると、オペレータ（ａ）は該目的地情報を操作設定部２２０に送出する。

操作設定部２２０は、オペレータ（ａ）の送出した目的地情報を受信し、図示しない経路演算部に対して経路演算の実行を指示するものであり、演算装置４０５と記憶装置４０６を組み合わせることで実現される。具体的な目的地設定操作は、上述の操作設定部１６０と同様である。なお、上述したように、音声入力部２１０からオペレータ（ａ）に、または、オペレータ（ａ）から操作設定部２２０に情報の送受信が発生するが、クライアント端末に通信装置４０７、サーバ端末に４０８が設けられ、通信装置４０７、４０８は通信網で接続されている。

オペレータログ記憶部２３０は、オペレータ（ａ）の施設検索履歴を記憶するものであり、記憶装置４１０から構成される。オペレータ（ａ）は、ユーザとの対話により、ユーザの要求する目的地を理解し、サーバ端末に用意され、認識辞書１４０と同様の施設データベースを持つ図示しない検索システムに対して検索キーワードを打ち込み、施設検索を行う。すなわち、オペレータサービスシステム２００は、ユーザが使用する端末であるクライアント端末と、少なくとも１以上のクライアント端末と通信網で接続されるサーバ端末とを備え、クライアント端末は音声入力部２１０を備え、サーバ端末は、認識辞書１４０と同様の施設データベースを持つ図示しない検索システムを備えている。

ユーザがオペレータサービスシステム２００を利用して目的地設定を行う場合に、ユーザとオペレータ（ａ）との間で行われる対話例を図４に、このときのオペレータログの記憶例を図５に示す。図４は、オペレータ対話例を示す図、図５は、オペレータログの記憶例を示す図である。図５に示すオペレータログは、上記の対話１つ毎に付与される対話ＩＤ、オペレータ（ａ）がユーザの発話に基づいて行った検索毎または目的地の設定操作毎に付与される操作ＩＤ、検索キーとして、県名、市町村名、施設名称を備えている。更に、上記の検索キーによって検索した際に完全一致する施設名称があるか否かを示した一致フラグ、完全一致した施設名称である決定施設名称、そして完全一致する施設名称が存在しない場合の前方一致、中間一致、後方一致の施設候補数を示す近似候補数、そして、その近似候補に該当する施設名称である候補施設名称を備えている。

図４（ａ）に示す対話は、新横浜プリンスホテルを目的地に設定するための対話である。ユーザの目的地要望（図４（ａ）−Ｕ２参照）に基づき、オペレータ（ａ）は「プリンスホテル」を検索キーとして検索を試みる（図５：対話ＩＤ＝０００２３、操作ＩＤ＝００１参照）が完全一致の候補は存在しない。近似候補「○○プリンスホテル」が１０件以上該当したため、所在地に関する質問を行う（図４（ａ）−Ｏ３）。ユーザから横浜市との回答を得た（図４（ａ）−Ｕ４参照）ため、検索キー（市町村）「横浜市」で再検索を行い（図５：対話ＩＤ＝０００２３、操作ＩＤ＝００２参照）、２件が該当していることをユーザに提示する（図４（ａ）−Ｏ４参照）。ユーザから「新横浜」との回答を得た（図４（ａ）−Ｕ５参照）によって、最終的に新横浜プリンスホテルを目的地に設定している（図４（ａ）−Ｏ５および図５：対話ＩＤ＝０００２３、操作ＩＤ＝９９９参照）。なお、図５のオペレータログでは、最終的な目的地決定時の操作ＩＤを定数ＩＤ＝９９９と定義している。一方、図４（ｂ）の対話では、ユーザの目的地要望「セントレア」（図４（ｂ）−Ｕ２参照）に基づき検索を試みる（図５：対話ＩＤ＝０００６７、操作ＩＤ＝００１参照）が、完全一致、近似候補共に存在しない。そこで、図４（ｂ）−Ｏ３、図４（ｂ）−Ｏ４のような聞き返し質問を行い、「中部国際空港」という施設名称をユーザから得ている。この名称で検索（図５：対話ＩＤ＝０００６７、操作ＩＤ＝００２参照）した結果、完全一致する施設を確認し、目的地に設定している（図５：対話ＩＤ＝０００６７、操作ＩＤ＝９９９参照）。

なお、本オペレータログでは、オペレータ（ａ）側に用意された検索システムの検索方法を踏襲したログとなっている。第１の実施形態においては、完全一致の施設が存在しない場合に、検索キーの全文字を含む語彙の前方、中間、後方一致の施設を近似候補として施設名称を抽出する検索システムを前提としている。つまり、「セントレア」を検索キーとした場合は、「○○セントレア」、「○○セントレア○○」、「セントレア○○」等の施設が無ければ抽出されない。これに対し、例えば完全一致の施設が見つからない場合に、後方の文字を削除した「セント」で自動的に検索を行い、「セントラル○○」等の施設を候補として抽出する構成となっている場合には、オペレータログ側もこの近似候補の検索結果を記録することとなる。なお、図４（ｃ）の対話は聞き返し無しで目的地設定が完了した例であり、このときのオペレータログは、図５の対話ＩＤ＝００１０２として記録されている。

続いて辞書更新システム（サーバＡ）３００について説明する。

言い換え語彙検出部３１０および言い換え語彙累積部３２０は、上記オペレータログ記憶部２３０に記憶されたオペレータログ（図５参照）を精査し、言い換え語彙の発生を検出・累積記憶するものであり、演算装置４０９と記憶装置４１０を組み合わせることで実現できる。

言い換え語彙の検出方法の具体例を図６に示す。図６は、言い換え語彙検出方法を示したフローチャートである。言い換え語彙検出部３１０は、上述したオペレータログ（対話ログ）データの追加（新たな対話の記録の有無）を検出して（ステップＳ１０１）、該オペレータログデータを読み込む（ステップＳ１０２）。続いて一致フラグ（図５のＤａｔａ（ｂ））を参照し（ステップＳ１０３）、検索キー（施設名称）（図５のＤａｔａ（ａ））と完全一致する施設名称が存在するか否かを判断する（ステップＳ１０４）。一致フラグが１の場合は完全一致の施設名称が見つかった場合のオペレータログデータであるため、次の対話の精査へ移る（ステップＳ１０４：Ｎｏ）。一致フラグ＝０のオペレータログデータが存在した場合（ステップＳ１０４：Ｙｅｓ）、すなわち、ユーザの発話音声に含まれる施設名称に等しいオペレータログデータの検索キー（施設名称）（第１の語彙）について、認識辞書１４０に記憶されている決定施設名称（第２の語彙）と等価の意味を持ち、かつ異なる施設名称（文字列情報）を持つ場合、このときの検索キー（施設名称）（図５のＤａｔａ（ａ））（第１の語彙）を「言い換え語彙」の候補として抽出する（ステップＳ１０５）。続いて操作ＩＤ＝９９９となるオペレータログデータを探し（ステップＳ１０６，１０７）、操作ＩＤ＝９９９のオペレータログデータに記録された決定施設名称（図５のＤａｔａ（ｃ））を言い換え語彙の正式名称として取得する（ステップＳ１０８）。取得した決定施設名称（第２の語彙）とその言い換え語彙（第１の語彙）の組を言い換え語彙累積部３２０に累積記憶する（ステップＳ１０９）。すなわち、言い換え語彙累積部３２０は、検索キー（施設名称）（第１の語彙）が決定施設名称（第２の語彙）の言い換え語彙である場合に、検索キー（施設名称）（第１の語彙）と決定施設名称（第２の語彙）とを対応付けた情報である言い換え語彙累積データを累積記憶する。

上記の言い換え語彙検出方法により、図７に示すような、言い換え語彙累積データがオペレータログデータの追加の度に検出される。図７は、言い換え語彙累積部３２０の記憶例を示す図である。図７に示す言い換え語彙累積データには、上記対話のタイムスタンプ（対話の発生した日付）、上記施設の正式名称が施設名称ラベルとして、対応する言い換え語彙が発話ラベルとして記録されている。また、施設名称ラベルに対応する施設ＩＤも付与されている。なお、第１の実施形態では、完全一致の施設名称が得られなかったときの検索キー（施設名称）を全て抽出する構成としているが、完全一致の施設名称が得られなかったときの近似候補数（図５のＤａｔａ（ｄ））を考慮し、近似候補数が所定数（例えば３０箇所等）より少ない場合のみ抽出する構成としても良い。これにより、認識後の近似候補数が膨大になるような語彙、すなわち、後の対話による施設の絞込み操作が煩雑になる可能性のある語彙を予め省いた言い換え語彙の抽出が可能となる。

言い換え頻度解析部３３０は、言い換え語彙累積部３２０の言い換え語彙累積データを定期的に精査し、ある正式な施設名称に対する言い換え語彙の発生頻度を集計するものであり、演算装置４０９と記憶装置４１０を組み合わせることで実現できる。なお、言い換え頻度解析部３３０による発生頻度の解析処理は、所定の時間間隔（例えば１ヶ月毎）に行う。なお、前回解析からの言い換え語彙累積部３２０の言い換え語彙累積データの差分データ量が所定の量に達した際に行う構成としてもよい。発生頻度の解析処理は正式な施設名称毎にデータを抽出し、該施設名称に対する言い換え語彙毎に、該言い換え語彙の発生頻度をカウントする。

発生頻度の解析例を図８に示す。図８は、言い換え頻度解析の例を示す図である。各施設名称（施設名称ラベル）について、対応する言い換え語彙（発話ラベル）が記録されている。そして、対応する言い換え語彙（発話ラベル）の過去１ヶ月における発生頻度がカウントされている。この月の発生頻度情報を時系列でプロットしたものを図９に示す。図９は、言い換え頻度の時系列解析結果を示す図である。図９では、施設名称「中部国際空港」に対する言い換え語彙、「中部空港」、「セントレア」、「中部新国際空港」の発生頻度が示されている。縦軸が発生頻度、横軸が時系列（月毎）を表している。以上の発生頻度の解析処理完了の後、多くのユーザによって共通に発話される語彙、すなわち、主要言い換え語彙を抽出する処理を行う。主要言い換え語彙は、発生頻度が所定の閾値（第１の所定値）を超えた言い換え語彙とする。ただし、時期的な局所性がある可能性も考えられるため、前記所定の時間間隔で発生頻度を監視し、所定の閾値（第２の所定値）を下回った時点で認識辞書１４０から削除することとすることが望ましい。また、元来設定頻度の稀な施設については、言い換え語彙の累積速度が遅い可能性がある。そこで、該累積速度に応じて、発生頻度の解析対象とする期間を月単位から半年単位とするなど、調整することが望ましい。これにより、稀にしか発話されない施設名称についても、長期間の言い換え語彙累積結果の後には、主要言い換え語彙が抽出できる可能性がある。

図９の例では、主要言い換え語彙登録用の閾値Ｔｈ（Ｈｉ）（第１の所定値）と過去に主要言い換え語彙と設定され、認識辞書１４０に登録された言い換え語彙を削除するための削除用の閾値Ｔｈ（Ｌｏ）（第２の所定値）の２つの閾値が設定されている。この閾値に基づき、（ａ）「中部空港」はＡ月以降、閾値Ｔｈ（Ｈｉ）を上回っているため、主要言い換え語彙と設定され、辞書更新部３４０により認識辞書１４０に登録される。同様に（ｂ）「セントレア」もＢ月から主要言い換え語彙と設定され、辞書更新部３４０により認識辞書１４０に登録される。一方、（ｃ）「中部新国際空港」はＣ月において閾値Ｔｈ（Ｈｉ）を上回って主要言い換え語彙に設定され、辞書更新部３４０により認識辞書１４０に登録されているが、Ｄ月に閾値Ｔｈ（Ｌｏ）を下回ったため、認識辞書１４０から削除する対象となる。すなわち都合Ｃ月からＤ月にかけての期間のみ、主要言い換え語彙と設定され、辞書更新部３４０により認識辞書１４０に登録される。以上は直接の発生頻度数（カウント）を比較して主要言い換え語彙を抽出しているが、この他に、例えば、ある正式な施設名称に対する言い換え語彙が複数発生し、累積された場合に、複数の言い換え語彙同士の発生割合を解析し、５０％を超えた言い換え語彙を主要言い換え語彙と設定するなどの方法をとっても良い。

図１０のフローチャートに、上記発生頻度の解析処理から認識辞書１４０を更新する処理までの流れを示す。図１０は、第１の実施形態の処理の流れを示すフローチャートである。まず、言い換え語彙の解析の実行命令を検出する（ステップＳ２０１）。例えば所定期間毎にトリガのかかるタイマーを用意することで検出可能である。続いて、言い換え語彙累積部３２０から言い換え語彙累積データを読み込む（ステップＳ２０２）。なお、読み込みはタイムスタンプを参照し、最新のデータから過去のデータに向けて順に精査するものとする。次に、言い換え語彙累積データから施設名称（施設データベース上の正式な施設名称）と対応する施設ＩＤを取得し（ステップＳ２０３）、取得した施設名称に対応する言い換え語彙を言い換え語彙累積データから取得する（ステップＳ２０４）。続いて、ステップＳ２０４で取得した言い換え語彙が新規言い換え語彙か否かを検出し（ステップＳ２０５）、新規言い換え語彙であれば（ステップＳ２０５：Ｙｅｓ）、新規言い換え語彙用の頻度計測用カウンタを生成する（ステップＳ２０６）。一方、新規言い換え語彙でなければ（ステップＳ２０５：Ｎｏ）、既に頻度計測用カウンタが生成されているので、ステップＳ２０７へ移行する。

次に、ステップＳ２０４で取得した言い換え語彙において、頻度計測用カウンタを加算する（ステップＳ２０７）。更に、現在時刻とタイムスタンプを比較し、所定期間（１ヶ月）に到達するまで過去のデータに対して精査を行う（ステップＳ２０８）。続いて、言い換え語彙の発生頻度が登録用の閾値Ｔｈ（Ｈｉ）を上回るか否かを判断し（ステップＳ２０９）、上回る場合には（ステップＳ２０９：Ｙｅｓ）、ステップＳ２１２へ移行する。一方、言い換え語彙の発生頻度が登録用の閾値Ｔｈ（Ｈｉ）を下回る場合には（ステップＳ２０９：Ｎｏ）、更に、言い換え語彙の発生頻度が、削除用の閾値Ｔｈ（Ｌｏ）を下回るか否かを判断する（ステップＳ２１０）。削除用の閾値Ｔｈ（Ｌｏ）を下回る場合には（ステップＳ２１０：Ｙｅｓ）、ステップＳ２１３へ移行する。一方、削除用の閾値Ｔｈ（Ｌｏ）を上回る場合には（ステップＳ２１０：Ｎｏ）、対象としている言い換え語彙が既に認識辞書１４０に登録済みであるか否かを判断し（ステップＳ２１１）、登録済みの場合には（ステップＳ２１１：Ｙｅｓ）、ステップＳ２１２へ移行する。一方、未登録の場合には（ステップＳ２１１：Ｎｏ）、ステップＳ２１３へ移行する。

ステップＳ２１２では、言い換え語彙が登録用閾値Ｔｈ（Ｈｉ）を超えている語彙、あるいは既に言い換え語彙として認識辞書１４０に登録済みの語彙で、かつ発生頻度が登録用閾値Ｔｈ（Ｈｉ）〜削除用閾値Ｔｈ（Ｌｏ）に入る語彙を対象として、言い換え語彙登録フラグをＯＮにする。ステップＳ２１３では、認識辞書１４０に未登録で、登録用の閾値Ｔｈ（Ｈｉ）に達していない語彙、あるいは登録済みの語彙で、削除用の閾値Ｔｈ（Ｌｏ）を下回る語彙について、言い換え語彙削除フラグをＯＮにする。続いて、ステップＳ２１２またはＳ２１３で各言い換え語彙に付与された言い換え語彙登録フラグまたは言い換え語彙削除フラグを参照して、辞書更新部３４０は辞書更新処理を施す。具体的には、言い換え語彙登録フラグの付与された語彙（主要言い換え語彙）を認識辞書１４０に登録し、言い換え語彙削除フラグを付与された語彙（削除対象言い換え語彙）を認識辞書１４０から削除する。なお、既に登録済みの語彙に対し、言い換え語彙登録フラグが付与された場合、および未登録の語彙に対して、言い換え語彙削除フラグが付与された場合には、実質的に辞書への変更は生じない。これにより、言い換え頻度解析部３３０は、言い換え語彙累積部３２０を参照し、言い換え語彙の発生頻度を解析し、発生頻度が閾値Ｔｈ（Ｈｉ）を上回る場合に、言い換え語彙を主要言い換え語彙と判断し、辞書更新部３４０は、主要言い換え語彙を認識辞書１４０に登録する。また、言い換え頻度解析部３３０は、言い換え語彙累積部３２０を所定の期間間隔で参照し、言い換え語彙の発生頻度を解析し、既に認識辞書１４０に含まれる言い換え語彙において、発生頻度が閾値Ｔｈ（Ｌｏ）を下回る場合に、言い換え語彙を削除対象言い換え語彙と判断（設定）し、辞書更新部３４０は、削除対象言い換え語彙と判断された言い換え語彙を、認識辞書１４０から削除する。

図１１には、更新処理を受けた認識辞書１４０の内容を示した。図１１は、認識辞書１４０に記憶された認識語彙データ（言い換え語彙に基づく辞書更新後）を示す図である。図１１では、図３の認識辞書１４０に、上記の言い換え語彙に基づく更新処理を行った後の認識語彙データを示している。四角で囲った部分が、更新処理の結果追加された言い換え語彙である。また、一度は登録され、その後削除された語彙（図１１の例では、空港カテゴリの「中部新国際空港」）が２重取り消し線で示してある。よって、辞書更新部３４０は、ユーザの発話音声に含まれる施設名称に等しいオペレータログデータの検索キー（施設名称）（第１の語彙）について、認識辞書１４０に記憶されている決定施設名称（第２の語彙）と等価の意味を持ち、かつ異なる文字列情報を持つ場合に、検索キー（施設名称）（第１の語彙）を決定施設名称（第２の語彙）の言い換え語彙とみなし、検索キー（施設名称）（第１の語彙）を決定施設名称（第２の語彙）に対応付けて認識辞書１４０に登録するために認識辞書１４０を更新する。

上述した一連の処理によって、ユーザとオペレータ（ａ）との間で行う目的地設定のための対話から、施設名称に対する言い換え語彙を検出・累積記憶・解析することができ、これを反映して認識辞書１４０を更新することができるため、大多数のユーザによってよく発話される「愛称」や「略称」を反映した認識辞書１４０を提供できる。これから、音声認識システム（クライアントＡ）１００は言い換え語彙を認識することができるので、認識性能を向上することができる。よって、使い勝手が大幅に向上する。更に、目的地設定などのタスクを達成するまでの時間を短縮することができる。また、認識辞書１４０に記憶された語彙と等価の意味を持ち、かつ異なる文字列情報を持つ語彙（同義異音語）、すなわち、言い換え語彙を累積記憶でき、当該言い換え語彙の発生頻度を確実に解析することができる。また、初期の認識辞書１４０では認識不可能な言い換え語彙が存在しても、利用実態に基づいて、当該言い換え語彙を認識辞書１４０に登録することができる。また、クライアント端末とサーバ端末は通信装置４０７、４０８を介して接続されているので、言い換え頻度解析部３３０が新たに主要言い換え語彙を設定した場合、辞書更新部３４０は、随時、主要言い換え語彙を登録するために認識辞書１４０を更新することができる。更に、認識辞書１４０に登録された言い換え語彙の発生頻度が低下した場合には、当該言い換え語彙を削除するので、時間の経過に伴い言い換え語彙が変遷した場合であっても適切に該変遷を反映して認識辞書１４０を更新することができる。よって、認識辞書１４０への不適切な言い換え語彙の登録による認識性能低下を抑制する効果も期待できる。

また、言い換え語彙の中にはマイナーなものも含まれる。更に、オペレータ（ａ）の聞き間違えや入力間違えによる「誤った言い換え語彙」も言い換え語彙累積データには含まれることになる。しかし、第１の実施形態に係る方法では、これらマイナーな情報や誤った情報も含めて発生頻度の解析処理をした結果、高頻度な言い換え語彙のみに着目して認識辞書１４０を更新する構成となっているため、上記例外的な言い換え語彙を排除することができ、認識辞書１４０への不適切な語彙の登録による認識性能低下を抑制する効果も期待できる。なお、第１の実施形態では、累積対象とするユーザや地域は特に限定していない。しかしながら、例えば「愛称」や「別称」、「旧称」等は、ユーザの地域や年齢層によって偏りがある可能性が高い。これに対処するため、例えば図１２のように、オペレータログを記録する段階で、居住地域、年齢層等によって分類した「ユーザ属性」を付与する。図１２は、図５のオペレータログの記憶例にユーザ属性を追加した例を示している。すなわち、言い換え語彙累積部３２０は、決定施設名称（第２の語彙）と、ユーザの居住地域、年齢層、家族構成、車両属性の少なくとも１つより構成されるユーザ属性情報とを対応させて累積記憶する機能を有し、言い換え頻度解析部３３０は、言い換え語彙の発生頻度をユーザ属性情報毎に解析し、ユーザ属性情報毎に主要言い換え語彙を決定する機能を有し、辞書更新部３４０は、対応するユーザ属性情報に属するユーザの認識辞書１４０に対して、主要言い換え語彙を登録する機能を有する。このように、言い換え頻度解析部３３０における発生頻度の解析処理を該ユーザ属性毎に独立して行う構成とすれば、特定の地域や年齢層に突出した言い換え語彙があっても、適切に反映した認識辞書１４０を提供できる。よって、世代間、地域間で偏差のある言い換え語彙を主要言い換え語彙として適切に設定でき、ユーザに合わせて言い換え語彙を認識辞書１４０に登録することが可能となる。

（第２の実施形態）
第１の実施形態では、オペレータサービスシステム２００による対話等、音声認識システム（クライアントＡ）１００以外のシステムから主要言い換え語彙を抽出し、該主要言い換え語彙を認識辞書１４０に反映する構成について述べた。これに対し、第２の実施形態では、音声認識システム（クライアント）１００自身に、言い換え語彙の発生を検出させる機能を持たせ、この検出機能により累積記憶した言い換え語彙を認識辞書１４０に反映させる方法について述べる。なお、第１の実施形態と同じ構造、機能には、同じ符号を付与し、詳細な説明は省略する。

図１３にその基本的な構成を示す。図１３は、第２の実施形態の基本的構成を示すブロック図である。第２の実施形態の認識辞書システムを含むナビゲーション用音声認識装置は、音声入力部１１０、特徴抽出部１２０および音声認識部１３０からなる文字列情報入力部１７０、認識辞書１４０、理解制御部１８０、操作設定部１６０、言い換え語彙検出部５１０から構成される音声認識システム（クライアント）１００と、音素認識部５２０、言い換え語彙累積部５３０、言い換え頻度解析部５４０、認識辞書更新部である辞書更新部５５０から構成される辞書更新システム（サーバ）３００から構成される。

表記の通り、第２の実施形態の基本的な構成は第１の実施形態と共通であり、異なるのはオペレータサービスシステム２００（図１参照）が削除されている点と、音声認識システム（クライアント）１００に言い換え語彙検出部５１０が追加されている点と、辞書更新システム（サーバ）３００に音素認識部５２０が追加されている点である。よって、以下では、相違点である言い換え語彙検出部５１０および音素認識部５２０と、該２機能の追加により処理内容に変更を受ける理解制御部１８０、言い換え語彙累積部５３０、言い換え頻度解析部５４０および辞書更新部５５０について詳しく説明する。

言い換え語彙検出部５１０は、理解制御部１８０および操作設定部１６０の処理内容を監視し、言い換え語彙の発生する対話状況、及び該言い換え語彙の言い換え元となる語彙（目的地設定操作の場合には目的地名称）を検出する。すなわち、
１．ユーザの「初期発話」が認識不可能あるいは誤認識となる
２．ユーザが再発話もしくは発話音声以外の操作により、目的地設定を試みる
３．最終的に何らかの施設名称を目的地に設定する
という対話の流れが検出されたときに、１にてユーザが発した「初期発話」が、３にて最終的に目的地に設定された「何らかの施設名称」（第２の語彙）の言い換え語彙、すなわち「略称」や「愛称」であると検出する。

より具体的には、理解制御部１８０によるユーザとの応答により、「ユーザのｎ回目の発話音声に対し、所定の認識スコアを持つ認識語彙候補が得られない、もしくは所定の認識スコアが得られたものの、システムの確認応答に対して否定する発話を行った」かつ「その後の発話（ｎ＋１回目の発話、ただし否定発話を間に挟む場合は該否定発話をカウントしない）あるいは発話以外（スイッチ等）の設定操作によって、操作が完了した（目的地設定操作であれば、何れかの目的地が設定された）」場合に、言い換え語彙検出部５１０は、前記ｎ回目の発話音声に含まれる第１の語彙を「認識辞書に存在しない」として抽出し、前記ｎ＋１回目の発話もしくは操作によって設定された語彙（目的地名称）、すなわち認識辞書１４０に記憶された第２の語彙を「言い換え元」として抽出する。

この後、言い換え語彙検出部５１０は、第１の語彙に対応するユーザの「初期発話」を発話音声データとして音素認識部５２０に送信するとともに、第２の語彙を言い換え語彙累積部５３０へと送信する。尚、ユーザの「初期発話」を送信するため、一連の対話が終了するまで、ユーザの「初期発話」を録音（バッファリング）しておく構成が必要である。この対話状況を監視するため、理解制御部１８０は、ユーザのｎ回目の発話音声から第１の語彙に対する文字列情報を抽出する文字列情報入力部１７０で行われた音声認識処理の結果が、認識辞書１４０内に存在しないこと、すなわち、認識辞書１４０に記憶されている施設名称（第２の語彙）と一致しないことを検出する機能と、該検出結果に基づき、ユーザのｎ＋１回目以降の発話音声を促す応答を出力する機能と、ユーザのｎ＋１回目以降の発話音声に含まれる語彙と施設名称（第２の語彙）とが一致することを検出する機能と、該検出結果に基づきインデックス（入力文字列情報）を決定し、操作設定部１６０に「施設名称を目的地に設定する」という操作命令を送信する機能を有する。また、操作設定部１６０は、設定された目的地である施設名称（第２の語彙）を言い換え語彙検出部５１０へ送信する機能を有する。

上記対話状況の検出例を図１４に示す。図１４は、対話例と言い換え語彙検出例を示す図である。図１４中の矢印部分が上記１〜３の対話要素の検出部分である。図１４（ａ）では、目的地設定の意思表示（図１４（ａ）−Ｕ１参照）の後の発話「セントレア」（図１４（ａ）−Ｕ２参照）が認識不能であったことを理解制御部１８０の理解状況（図１４（ａ）−Ｓ２参照）から検出可能である。その後の対話により、「中部国際空港」が設定されている（図１４（ａ）−Ｓ６参照）。なお、第２の実施形態では、発話音声によって設定しているが、スイッチ等での設定であっても良い。すなわち、理解制御部１８０は、ユーザに音声以外の操作による入力を促す応答を出力する機能を備え、ユーザの音声以外の操作により設定された施設名称（第２の語彙）が決定された場合に、設定された施設名称（第２の語彙）をインデックス（入力文字列情報）として検出しても良い。

この結果を検出した言い換え語彙検出部５１０は、ユーザの発話音声「セントレア」（図１４（ａ）−Ｕ２参照）を中部国際空港の言い換え語彙であると検出し、該発話音声データを辞書更新システム（サーバ）３００の音素認識部５２０へと送信し、同時に施設名称「中部国際空港」を言い換え語彙累積部５３０へと送信する。一方、図１４（ｂ）では、音声認識システム（クライアント）１００の確認応答（図１４（ｂ）−Ｓ２参照）に対し、ユーザが否定および訂正に相当する返答をしている（図１４（ｂ）−Ｓ３参照）。その後、（ａ）と同様の対話により、中部国際空港が目的地として設定されている。この結果を検出した言い換え語彙検出部５１０は、否定の直前のユーザの発話音声「セントレア」（図１４（ｂ）−Ｕ２参照）を「中部国際空港」の言い換え語彙であると検出し、（ａ）と同様の処理を行う。なお、言い換え語彙検出部５１０において、上記対話状況が検出された際に、理解制御部１８０に対して、「先ほどの音声『セントレア（録音音声）』は中部国際空港のことですか？」のような確認応答を提示するように命令する構成とし、ユーザの返答が肯定であった場合のみ、言い換え語彙の発話音声として辞書更新システム（サーバ）３００に送信するものとしてもよい。

音素認識部５２０は、言い換え語彙検出部５１０から送信されたユーザの発話音声に対し、音素認識を施す。いわゆる音声認識がユーザの発話音声を単語単位、あるいは単語の繋がり単位で認識するのに対し、「音素」すなわち言葉の意味の区別を表すのに用いられる最小単位「ａ」「ｉ」「ｋａ」「ｋｉ」「ｇｙｏ（ぎょ）」「Ｎ（ん）」等の並びとして認識するものである。例えば、東京タワーという単語を音声認識させた場合は「東京タワー」であるが、音素認識させた場合の音素列情報は「ｔｏ：ｋｙｏ：ｔａｗａ：」となる。（：は長音「ー」を表す音素記号である）。上述したユーザの発話音声「セントレア」を音素認識した結果は、「Ｓｅｎｔｏｒｅａ」（せんとれあ）となる。なお、従来の音声認識システムの認識辞書の内容を単語から音素列に再登録することで、音素認識が可能になる。上記の音素列情報に対応する文字列情報を有する第１の語彙を言い換え語彙と定義し、上記音素列情報と、言い換え語彙検出部５１０から送信された上記の施設名称（第２の語彙）とを対応させて、言い換え語彙累積データ（図１５参照）として言い換え語彙累積部５３０に累積記憶する。

尚、言い換え語彙累積部５３０では、言い換え語彙累積データ（音素認識結果と対応する施設名称の組）をタイムスタンプと共に累積記憶していく。具体的な言い換え語彙累積データの例を図１５に示す。図１５は、図７の言い換え語彙累積部３２０の記憶例と同様の書式となっている。図７と異なる点は、図１５中の発話ラベルの部分が、音素認識の結果（音素列情報）となっていることである。ただし、ユーザの発音の状態や雑音の状態が悪ければ、音素認識の結果にも誤りが混入することになる。例えば、図１５に示すように、ユーザと音声認識システム（クライアントＡ）１００との対話から言い換え語彙を検出する際、正式な施設名称である「中部国際空港」の言い換え語彙として、ユーザの意識としては、主要言い換え語彙である「Ｓｅｎｔｏｒｅａ」（せんとれあ）と発話しているにもかかわらず、周囲の雑音、発音やイントネーションのユーザの個人差のため、「Ｓｅｎｔｏｒｉａ」（せんとりあ）や「Ｓｅｎｔｏｎｉａ」（せんとにあ）などのように、本認識辞書システム側が誤認識する場合がある。そこで、後述するように、本認識辞書システム側の誤認識であっても、「Ｓｅｎｔｏｒｅａ」（せんとれあ）との音素間距離が所定以内の音素列情報である「Ｓｅｎｔｏｒｉａ」（せんとりあ）等の言い換え語彙を全て言い換え頻度解析部５４０に出力し、言い換え頻度解析部５４０において、多数のユーザからの言い換え語彙の発生頻度を解析することにより、最も頻度の高い主要言い換え語彙である「Ｓｅｎｔｏｒｅａ（せんとれあ）」を抽出している。なお、音素間距離については、石川開、隅田栄一郎，“聞き違いを自分で直すコンピュータ−聞き慣れた表現を用いて元の文を推測する−”，ATR Journal ３７号１９９９，などが詳しく、また音素間距離の算出方法については、マハラビノス距離法、バタチャリ距離法、カルバック・ライブラ距離法等がある。

言い換え頻度解析部５４０は、言い換え語彙累積部５３０に累積された言い換え語彙累積データを定期的に精査し、ある正式な施設名称に対する言い換え語彙の発生頻度を集計する。言い換え頻度解析部５４０による発生頻度の解析処理は、第１の実施形態と同様に、所定の時間間隔（例えば１ヶ月毎）に行う。また、第１の実施形態と同様に、前回の発生頻度の解析処理に用いた言い換え語彙累積部５３０の言い換え語彙累積データのデータ量と現在のデータ量の差が所定の量に達した場合に行う構成としてもよい。発生頻度の解析処理は正式な施設名称毎にデータを抽出し、該施設名称に対する言い換え語彙毎に、該言い換え語彙の発生頻度をカウントする。所定の時間間隔における発生頻度解析の結果、第１の実施形態と同様に、所定の閾値Ｔｈ（Ｈｉ）を上回った言い換え語彙を主要言い換え語彙と設定して認識辞書１４０に登録するため、言い換え語彙登録フラグをＯＮとする。一方、所定の閾値Ｔｈ（Ｌｏ）を下回った言い換え語彙を削除対象言い換え語彙として認識辞書１４０から削除するため、言い換え語彙削除フラグをＯＮにする。これにより、多くのユーザによって発話される言い換え語彙、すなわち、主要言い換え語彙の抽出が可能となる。具体的には、第１の実施形態と同様に、各施設名称に対応する発話ラベル毎に発生頻度をカウントしていく。ただし、上述の通り、音素列情報には誤りも含まれるため、多数決法等を用い、例えば上位３種類の音素列パターンを抽出する。また音素列情報の近似具合に基づきクラスタリングを行う方法を用いても良い。

クラスタリングのイメージを図１６に示す。図１６は、音素列クラスタリングの例を示す図である。クラスタリング方法としては、一般的なＫ−ｍｅａｎｓ法等を使うことができる。クラスタリングによって、代表点がいくつか抽出された場合には、これを言い換え語彙の音素列と定義し、該それぞれのクラスタに所属する代表点以外の音素列の頻度値は該代表点の頻度値へと加算される。この時、代表点からの距離（音素の違いの大きさ）に応じて加算する頻度値に重みを加えるようにしても良い。この結果、音素列の候補として「ｔｙｕ：ｂｕｋｕ：ｋｏ：」（中部空港）、「ｓｅｎｔｏｒｅａ」（セントレア）、「ｔｙｕｕｂｕｓｉｎｎｋｏｋｕｓａｉｋｕ：ｋｏ：」（中部新国際空港）が抽出され、それぞれの頻度値も同時に得ることができる。

更に、言い換え頻度解析部５４０は、図１７に示すように、施設名称に対応する言い換え語彙である発話ラベル（音素列情報）の発生頻度を解析する際、上記発話ラベルに含まれる音素の音素間距離が所定内で一致する発話ラベル毎、すなわち、類似する発話ラベル毎に分類している。第２の実施形態では、上記分類の方法として、図１６に示したクラスタリング方法を使用している。図１７に示すように、施設名称ラベル（第２の語彙）に対応する発話ラベルと類似する発話ラベル毎に分類し、上記分類に含まれる言い換え語彙の内、閾値Ｔｈ（Ｈｉ）＝１５０を超える発話ラベルを主要言い換え語彙として複数抽出する。例えば、図１７では、「Ｓｅｎｔｏｒｅａ」（せんとれあ）、「Ｓｅｎｔｏｒｉａ」（せんとりあ）と「Ｃｈｕ：ｂｕｋｕ：ｋｏ」（ちゅうぶくうこう）を主要言い換え語彙と判断する。このようにすることで、一つの施設名称ラベル（第２の語彙）に対して複数の主要言い換え語彙を認識辞書１４０に登録することができる。また、上述のように、本認識辞書システム側が誤認識した場合であっても、類似する発話ラベル毎に分類しているので、本認識辞書システム側の誤認識を排除した主要言い換え語彙を抽出することができる（本認識辞書システムが誤認識したとしても、その頻度は誤認識しない場合よりも低い。あるいは、本認識辞書システムが同一の誤認識を高頻度で行ってしまう場合には、主要言い換え語彙の音素列情報が誤認識であったとしても、誤認識した音素列情報そのものを主要言い換え語彙の音素列情報とすることで、正しい音素列情報を設定するよりも適正な主要言い換え語彙を抽出することができる）。なお、第２の実施形態と異なり、上記分類毎に、上記分類に含まれる言い換え語彙の内、最も頻度の高いもので、かつ、閾値Ｔｈ（Ｈｉ）を超えるものだけを主要言い換え語彙として複数抽出しても良い。

次に、辞書更新部５５０は、第１の実施形態と同様に、辞書更新処理を施す。すなわち、言い換え語彙削除フラグを付与された語彙（削除対象言い換え語彙）を認識辞書１４０から削除し、言い換え語彙登録フラグの付与された語彙（主要言い換え語彙）を認識辞書１４０に登録する。ここで、言い換え頻度解析部５４０は、施設名称（第２の語彙）に対応する発話ラベルと類似する発話ラベル毎に分類し、上記分類に含まれる言い換え語彙の内、閾値Ｔｈ（Ｈｉ）＝１５０を超える発話ラベル「Ｓｅｎｔｏｒｅａ」（せんとれあ）、「Ｓｅｎｔｏｒｉａ」（せんとりあ）と「Ｃｈｕ：ｂｕｋｕ：ｋｏ」（ちゅうぶくうこう）を主要言い換え語彙として複数抽出している。そのため、図１８（ｄ）に示すように、辞書更新部５５０は、上記発話ラベル「Ｓｅｎｔｏｒｅａ」（せんとれあ）、「Ｓｅｎｔｏｒｉａ」（せんとりあ）と「Ｃｈｕ：ｂｕｋｕ：ｋｏ」（ちゅうぶくうこう）を認識辞書１４０に登録するが、第１の実施形態と異なり、上記分類毎に登録する。具体的には、「Ｓｅｎｔｏｒｅａ」（せんとれあ）と「Ｓｅｎｔｏｒｉａ」（せんとりあ）を対応付けて認識辞書１４０に登録する。一方、「Ｃｈｕ：ｂｕｋｕ：ｋｏ」（ちゅうぶくうこう）は、「Ｓｅｎｔｏｒｅａ」（せんとれあ）および「Ｓｅｎｔｏｒｉａ」（せんとりあ）と分類が異なっているので、対応付けられることなく、認識辞書１４０に登録される。なお、図１８（ａ）〜（ｄ）に示すように、「Ｓｅｎｔｏｒｅａ」（せんとれあ）と「Ｓｅｎｔｏｒｉａ」（せんとりあ）を対応付けて登録する場合、同時に登録する必要は無く、いずれかが先であっても可能である。

以上の結果を用いて、第１の実施形態と同様にして、主要言い換え語彙を決定し、認識辞書１４０を更新することが可能である。更新後の認識辞書１４０は第１の実施形態と同様、図１１のようにして得られる。なお、第２の実施形態では、主要言い換え語彙の抽出にあたり、ユーザの居住地域や年齢層は加味していないが、施設名称の「愛称」や「略称」には、こうした地域差や世代差が大きく影響する可能性がある。そこで、主要言い換え語彙の抽出と共にユーザの居住地域や年齢層といった「ユーザ属性」を同時に記録し、ユーザ属性毎に独立して、発生頻度の解析処理を行う。すなわち、言い換え語彙累積部５３０は、決定施設名称（第２の語彙）と、ユーザの居住地域、年齢層、家族構成、車両属性の少なくとも１つより構成されるユーザ属性情報とを対応させて累積記憶する機能を有し、言い換え頻度解析部５４０は、言い換え語彙の発生頻度をユーザ属性情報毎に解析し、ユーザ属性情報毎に主要言い換え語彙を決定する機能を有し、辞書更新部５５０は、対応するユーザ属性情報に属するユーザの認識辞書１４０に対して、主要言い換え語彙を登録する機能を有する。このように、言い換え頻度解析部５４０における発生頻度の解析処理を該ユーザ属性毎に独立して行う構成とすれば、特定の地域や年齢層に突出した言い換え語彙があっても、適切に反映した認識辞書１４０を提供できる。よって、世代間、地域間で偏差のある言い換え語彙を主要言い換え語彙として適切に設定でき、ユーザに合わせて言い換え語彙を認識辞書１４０に登録することが可能となる。

上述した一連の処理によって、ユーザと、音声認識システム（クライアント）１００との間で行う目的地設定のための対話から、施設名称に対する言い換え語彙の発生を検出・累積記憶・解析し、これを反映して認識辞書１４０を更新することができるため、認識辞書１４０に予め記憶された語彙と等価の意味を持ち、かつ異なる文字列情報を持つ語彙（同義異音語）、すなわち大多数のユーザによってよく発話される「愛称」や「略称」を適宜反映した認識辞書が提供できる。この結果、認識性能が向上し、目的地設定などのタスクを達成するまでの時間を短縮することができ、使い勝手が大幅に向上する。また、言い換え語彙検出部５１０は、ユーザとの対話状況または対話以外の操作により、言い換え語彙の発生を検出するので、自動的に言い換え語彙を言い換え語彙累積部５３０に累積記憶することができる。よって、言い換え語彙の発生が検出される毎に、言い換え語彙累積データが累積記憶されるため、ユーザの利用実態を反映した言い換え語彙の抽出が可能になる。

また、第１の実施形態と同様に、クライアント端末とサーバ端末は通信装置４０７、４０８を介して接続されているので、言い換え頻度解析部５４０が新たに主要言い換え語彙を設定した場合、辞書更新部５５０は、随時、主要言い換え語彙を登録するために認識辞書１４０を更新することができる。更に、認識辞書１４０に登録された言い換え語彙の発生頻度が低下した場合には、当該言い換え語彙を削除するので、時間の経過に伴い言い換え語彙が変遷した場合であっても適切に該変遷を反映して認識辞書１４０を更新することができる。よって、認識辞書１４０への不適切な言い換え語彙の登録による認識性能低下を抑制する効果も期待できる。

言い換え語彙の中にはマイナーなものも含まれる。更に、ユーザの発音の状態や雑音の状態が悪ければ、音素認識の結果に誤りが発生し、音素認識の結果の誤りによる「誤った言い換え語彙」も言い換え語彙累積データに含まれることになる。しかし、第２の実施形態に係る方法では、言い換え頻度解析部５４０による発生頻度の解析処理において、多数決法等を用い、上位３種類等の音素列パターンを抽出することから、これら誤った情報やマイナーな情報も含めて発生頻度の解析処理を行った結果、高頻度な言い換え語彙のみに着目して認識辞書１４０を更新する構成となっているため、上記例外的な言い換え語彙を排除することができ、認識辞書１４０への不適切な語彙の登録による認識性能低下を抑制することができる。また、言い換え頻度解析部５４０は、クラスタリング法等を用い、複数の音素列パターン（音素列情報）から、少なくとも１つ以上の発生頻度の高い音素列パターン（音素列情報）を抽出するので、ユーザと音声認識システム（クライアント）１００の対話により言い換え語彙の発生が検出された際に、該ユーザの発話音声に対して音素認識した音素列情報を言い換え語彙から、音素列情報の並びとして最も確率の高い（多くのユーザによって発話された音素列情報の並びを統合した）音素列情報を主要言い換え語彙として抽出することができる。また、対話により認識できない発話音声が検出され、その後の対話あるいは対話以外の操作により、最終的に何らかの施設名称（第２の語彙）が設定された場合に、認識できなかった発話音声を、最終的に設定された施設名称（第２の語彙）の言い換え語彙と検出することができる。また、対話により、否定や訂正が検出され、その後の対話あるいは対話以外の操作により、最終的に何らかの施設名称（第２の語彙）が設定された場合に、該訂正、否定の直前の発話音声を、最終的に設定された施設名称（第２の語彙）の言い換え語彙と検出することができる。尚、理解制御部１８０に言い換え語彙の発生をユーザに確認する構成を追加し、ユーザが初期発話音声を最終的に決定した語彙の言い換え語彙であると認めた場合のみ、言い換え語彙累積部５３０は言い換え語彙を累積記憶する構成としても良い。すなわち、理解制御部１８０は、更に、言い換え語彙検出部５１０において、ユーザのｎ＋１回目以降の発話音声に含まれる施設名称（第２の語彙）が認識辞書１４０に存在した場合に、第１の語彙が設定された施設名称（第２の語彙）の言い換え語彙であることをユーザに確認する応答を出力する機能を有し、言い換え語彙検出部５１０は、該応答に対するユーザ応答が言い換え語彙を容認するものであると判断された場合に、第１の語彙が設定された施設名称（第２の語彙）の言い換え語彙であると決定する。このようにすれば、より高精度に言い換え語彙を累積記憶することができる。

（第３の実施形態）
第２の実施形態では、音声認識システム（クライアント）１００自身に、言い換え語彙の発生を検出させる機能を持たせ、この検出機能により累積記憶した言い換え語彙を認識辞書１４０に反映させる方法について述べた。第３の実施形態では、音声認識システム（クライアントＡ）１００自身に、言い換え語彙の発生を検出させる機能を持たせ、この検出機能により検出した言い換え語彙を、この検出機能により累積記憶した言い換え語彙と別に認識辞書１９０に反映させる方法について述べる。なお、第２の実施形態と同じ構造、機能には、同じ符号を付与し、詳細な説明は省略する。

図１９にその基本的な構成を示す。図１９は、第３の実施形態の基本的構成を示すブロック図である。第３の実施形態の認識辞書システムを含むナビゲーション用音声認識装置は、音声入力部１１０、特徴抽出部１２０および音声認識部１３０からなる文字列情報入力部１７０、認識辞書１９０、理解制御部１８０、操作設定部１６０、言い換え語彙検出部６１０から構成される音声認識システム（クライアントＡ）１００と、音素認識部５２０、言い換え語彙累積部５３０、言い換え頻度解析部５４０、認識辞書更新部である辞書更新部６２０から構成される辞書更新システム（サーバ）３００から構成される。

表記の通り、第３の実施形態の基本的な構成は第２の実施形態と共通であり、異なるのは、音声認識システム（クライアントＡ）１００の言い換え語彙検出部６１０から認識辞書１９０に言い換え語彙を登録している点と、辞書更新部６２０が主要言い換え語彙を認識辞書１９０に登録するために更新する場合、対応する主要言い換え語彙フラグを１にする点だけである。これから、第２の実施形態と同様の効果を取得することができる。

以下では、相違点である言い換え語彙検出部６１０、認識辞書１９０および辞書更新部６２０について説明する。言い換え語彙検出部６１０は、第２の実施形態の言い換え語彙５１０と同様の機能を備え、更に、検出した言い換え語彙を音素認識部５２０で音素認識させた結果に基づいて、当該言い換え語彙を認識辞書１９０に登録する機能を有する。認識辞書１９０は、第１および第２の実施形態の認識辞書１４０とほとんど同じ構成を有している。異なる点は、図３に示した認識語彙データに、後述する主要言い換え語彙フラグの欄を設けていることだけである。辞書更新部６２０は、言い換え頻度解析部５４０で抽出された主要言い換え語彙に対応する主要言い換え語彙フラグを１にして、主要言い換え語彙を認識辞書１９０に登録する。一方、言い換え語彙検出部６１０は、検出した言い換え語彙に対応する主要言い換え語彙フラグを０にして、認識辞書１９０に登録する。具体的には、音声認識システム（クライアントＡ）１００を使用しているユーザが実際には「Ｓｅｎｔｏｒｉａ」（せんとりあ）と発話していた場合（あるいはユーザは「Ｓｅｎｔｏｒｅａ」（せんとれあ）と発話しているつもりであっても、訛りやイントネーションのせいで、音声認識システム（クライアントＡ）１００側がどうしても「Ｓｅｎｔｏｒｉａ」（せんとりあ）と認識してしまう場合）、音声認識システム（クライアントＢ）、音声認識システム（クライアントＣ）他多数のシステムを使用する多数のユーザが「Ｓｅｎｔｏｒｅａ」（せんとれあ）と発話するため、言い換え頻度解析部５４０による発生頻度の解析処理の結果、発生頻度の高い音素列情報である「Ｓｅｎｔｏｒｅａ」（せんとれあ）を主要言い換え語彙と判断し、辞書更新部６２０は「Ｓｅｎｔｏｒｅａ」（せんとれあ）を「中部国際空港」の言い換え語彙として認識辞書１９０に登録する。一方、発生頻度の低い音素列情報である「Ｓｅｎｔｏｒｉａ」（せんとりあ）は主要言い換え語彙と判断されず、認識辞書１９０に登録されない構成となっている。このため、音声認識システム（クライアントＡ）１００は、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を認識できないという状況が発生する。

そこで、第３の実施形態では、上記の状況に対応するため、言い換え語彙検出部６１０は、検出した「中部国際空港」の言い換え語彙を音素認識部５２０で音素認識させた結果「Ｓｅｎｔｏｒｉａ」（せんとりあ）を、音声認識システム（クライアントＡ）１００に設けられた認識辞書１９０だけに、主要言い換え語彙フラグを０にして登録する。また、上記のように、辞書更新部６２０は、音声認識システム（クライアントＡ）１００、音声認識システム（クライアントＢ）、音声認識システム（クライアントＣ）他多数のシステムに設けられた認識辞書に、主要言い換え語彙と判断された「Ｓｅｎｔｏｒｅａ」（せんとれあ）を、主要言い換え語彙フラグを１にして登録する。更に、第２の実施形態と同様に、言い換え頻度解析部５４０は、音素列情報の発生頻度を解析する際、類似する音素列情報毎に分類しているので、辞書更新部６２０は主要言い換え語彙を登録する際、上記分類毎に登録する。具体的には、図１８（ｄ）に示したように、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）（第２の音素列情報）を認識辞書１９０に登録する際、言い換え語彙検出部６１０から認識辞書１９０に登録されたユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）（第１の音素列情報）と同分類で対応付けて登録する。

これにより、認識辞書１９０に主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）とユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を登録できるので、音声認識システム（クライアントＡ）１００は、発生頻度の高い主要言い換え語彙だけでなく、発生頻度の低いユーザ独自の言い換え語彙を認識することができる。また、上記のように、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）と主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を対応付けて登録しているので、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）をユーザが発話した場合に、正式な施設名称（第２の語彙）の主要言い換え語彙は「Ｓｅｎｔｏｒｅａ」（せんとれあ）であることをユーザに教示することもできる。なお、主要言い換え語彙フラグを１にして主要言い換え語彙を認識辞書１９０に登録しているので、ユーザが主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を発話した場合に、誤って、正式な施設名称（第２の語彙）の主要言い換え語彙として、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を教示することを防止できる。

一方、言い換え頻度解析部５４０にて削除対象言い換え語彙と判断された言い換え語彙について、辞書更新部６２０は認識辞書１９０を参照し、当該言い換え語彙に対応する主要言い換え語彙フラグが１の場合、認識辞書１９０から削除する。主要言い換え語彙フラグが０に場合、当該言い換え語彙は、ユーザ独自の言い換え語彙であるので、認識辞書１９０から削除しない。これにより、ユーザ独自の言い換え語彙の発生頻度が低い場合でも、ユーザ独自の言い換え語彙は、辞書更新部６２０によって認識辞書１９０から自動的に削除されることはない。なお、第３の実施形態では、登録されたユーザ独自の言い換え語彙を認識辞書１９０から削除する機能を説示していないが、ユーザ独自の言い換え語彙を削除する機能を設けていても良い。

ここで、音声認識システム（クライアントＡ）１００とユーザとの間で行われる対話例を図２０に示す。図２０は、対話例と言い換え語彙検出例を示す図である。音声認識システム（クライアントＡ）１００の認識辞書１９０に、「中部国際空港」の主要言い換え語彙である「Ｓｅｎｔｏｒｅａ」（せんとれあ）を登録する前に、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）をユーザが発話した場合、図２０（ａ）に示すように、音声認識システム（クライアントＡ）１００は、ユーザとの対話により「中部国際空港」の言い換え語彙として「Ｓｅｎｔｏｒｉａ」（せんとりあ）を検出する（図２０（ａ）−Ｕ２、Ｓ５およびＵ６参照）。第１および第２の実施形態では、当該言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）は、辞書更新システム（サーバ）３００に送信され、言い換え頻度解析部５４０における発生頻度の解析処理の対象とされるのみであったが、第３の実施形態では、上述のように、当該言い換え語彙を辞書更新システム（サーバ）３００に送信すると同時に、認識辞書１９０に「中部国際空港」の言い換え語彙として登録している。図１８（ａ）に登録前の認識辞書１９０の認識語彙データを、図１８（ｂ）に登録後の認識辞書１９０の認識語彙データを示す。図１８（ｂ）に示すように、確かに、「中部国際空港」の言い換え語彙であるユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）が登録されている。

次に、ユーザが次回の対話で、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を発話した場合、図２０（ｂ）に示すように、「中部国際空港」が速やかに認識される（図２０（ｂ）−Ｕ２およびＳ２参照）。その後、辞書更新部６２０が主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を認識辞書１９０に登録した場合、認識辞書１９０の認識語彙データには、図１８（ｄ）に示したように「中部国際空港」の言い換え語彙として、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）およびユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）が登録されることとなる。図１８（ｄ）に示す状態で、再びユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を発話した場合でも、図２０（ｂ）に示す対話（図２０（ｂ）−Ｕ２、Ｓ２およびＵ３参照）のように、速やかに目的地設定ができると同時に、図２０（ｂ）−Ｓ４の応答のように、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）に対して、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を教示して、ユーザに言い換え語彙の発話を学習させることができる。なお、後に、ユーザが主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）しか発話しなくなると、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を削除しても良い。

また、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）に対して、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を教示できるのは、上述したように、言い換え頻度解析部５４０が類似する音素列情報毎に分類し、辞書更新部６２０が主要言い換え語彙を認識辞書１９０に登録する際、上記分類毎に登録しているからである。このようにすることで、「中部国際空港」に対するユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）と、「中部国際空港」に対する主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）のように、類似する音素列情報に対する正式な施設名称（第２の語彙）から、類似する音素列情報同士を対応付けて登録することで、類似する音素列情報が同一の施設名称を示すものであると確定できる。よって、単に類似する音素列情報を持つ語彙、例えば、「Ｓｅｎｔｏｒｒａｌ」（せんとらる）等は「中部国際空港」の言い換え語彙でないと判断して、教示の対象から排除している。また、上述のように、主要言い換え語彙フラグを１にして、主要言い換え語彙を認識辞書１９０に登録していることから、主要言い換え語彙のみを確実に教示できる。具体的には、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を発話した場合に、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を「中部国際空港」の主要言い換え語彙として教示してしまうことを防止できる。

一方、図１８（ｃ）に示すように、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）を辞書更新部６２０が認識辞書１９０に登録した後、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）をユーザが発話した場合、音声認識システム（クライアントＡ）１００は、認識辞書１９０に存在しないユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を認識することができない。したがって、図２０（ａ）に示すように、音声認識システム（クライアントＡ）１００はユーザとの対話を行い、「中部国際空港」の言い換え語彙として、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）を検出する。そして、図１８（ｄ）に示すように、「中部国際空港」の言い換え語彙として、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）とユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）の両方を登録する。この際、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）とユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）は、「中部国際空港」という同一の施設名称ラベルで対応付けられる。これにより、同一の施設名称ラベルの中にあって、類似する音素列情報を持つ主要言い換え語彙を、ユーザとの対話の中で、ユーザに教示することができる（図２０（ｃ）−Ｕ２およびＳ６参照）。また、認識辞書１９０の中に、「中部国際空港」の言い換え語彙として、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）と類似する音素列情報を持つ主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）が登録されているので、ユーザ独自の言い換え語彙「Ｓｅｎｔｏｒｉａ」（せんとりあ）をユーザが発話した場合に、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）が発話されたと検出して、ユーザとの応答を構成することもできる（図２０（ｄ）−Ｕ２およびＳ２参照）。これにより、図２０（ｄ）に示すように、主要言い換え語彙「Ｓｅｎｔｏｒｅａ」（せんとれあ）で正しいかどうか問いあわせを行うことで、ユーザとの対話を簡潔に終了させることができる。同時にユーザに主要言い換え語彙による問い直しを行うので、ユーザに主要言い換え語彙を教示することもできる。

なお、第３の実施形態でも、主要言い換え語彙の抽出にあたり、ユーザの居住地域や年齢層は加味していないが、施設名称の「愛称」や「略称」には、こうした地域差や世代差が大きく影響する可能性がある。そこで、主要言い換え語彙の抽出と共にユーザの居住地域や年齢層といった「ユーザ属性」を同時に記録し、ユーザ属性毎に独立して、発生頻度の解析処理を行う。すなわち、言い換え語彙累積部５３０は、決定施設名称（第２の語彙）と、ユーザの居住地域、年齢層、家族構成、車両属性の少なくとも１つより構成されるユーザ属性情報とを対応させて累積記憶する機能を有し、言い換え頻度解析部５４０は、言い換え語彙の発生頻度をユーザ属性情報毎に解析し、ユーザ属性情報毎に主要言い換え語彙を決定する機能を有し、辞書更新部６２０は、対応するユーザ属性情報に属するユーザの認識辞書１９０に対して、主要言い換え語彙を登録する機能を有する。このように、言い換え頻度解析部５４０における発生頻度の解析処理を該ユーザ属性毎に独立して行う構成とすれば、特定の地域や年齢層に突出した言い換え語彙があっても、適切に反映した認識辞書１９０を提供できる。よって、世代間、地域間で偏差のある言い換え語彙を主要言い換え語彙として適切に設定でき、ユーザに合わせて言い換え語彙を認識辞書１９０に登録することが可能となる。

以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、第１乃至第３の実施形態では、音声認識処理の全てを音声認識システム（クライアント）１００側で完遂し、認識辞書１４０、１９０の更新データのみを辞書更新システム（サーバ）３００から受け取る構成としているが、特にこれに限定されるものでなく、音声認識システム（クライアント）１００は音声信号そのもの、あるいは発話音声の特徴量を辞書更新システム（サーバ）３００に送信し、音声認識部１３０以降の全ての音声認識処理を辞書更新システム（サーバ）３００にて行う構成としてもよい。また、音声認識システム（クライアント）１００を、通信を介さないスタンドアロンシステムとして構築することも可能である。この場合、認識辞書１４０、１９０の更新をＣＤ−ＲＯＭ等の記憶媒体の直接送付等によって行う必要はある。

また、第２および第３の実施形態では、言い換え語彙検出部５１０、６１０では、上述した一連の対話が行われた場合に、ユーザの初期発話音声を正式名称に対する言い換え語彙の発話音声とみなして、言い換え語彙の発話音声を辞書更新システム（サーバ）３００に送信しているが、特にこれに限定するものでなく、理解制御部１８０から言い換え語彙について、確認応答を提示するように命令する構成とし、ユーザの返答が肯定であった場合のみ、言い換え語彙の発話音声として辞書更新システム（サーバ）３００に送信するものとしてもよい。

また、第１乃至第３の実施形態では、音声入力部１１０、特徴抽出部１２０および音声認識部１３０からなる文字列情報入力部１７０について説示しているが、特にこれに限定するものでなく、文字列情報入力部１７０は文字列情報を入力する手段を備えていれば、他の入力手段、例えば、ユーザによるキーボード入力等でも良い。

第１の実施形態の基本的構成を示すブロック図。第１の実施形態の実現手段を示すブロック図。認識辞書に記憶された認識語彙データを示す図。オペレータ対話例を示す図。オペレータログの記憶例を示す図。言い換え語彙検出方法を示したフローチャート。言い換え語彙累積部の記憶例を示す図。言い換え頻度解析の例を示す図。言い換え頻度の時系列解析結果を示す図。第１の実施形態の処理の流れを示すフローチャート。認識辞書に記憶された認識語彙データ（言い換え語彙に基づく辞書更新後）を示す図。ユーザ属性を考慮したオペレータログの記憶例を示す図。第２の実施形態の基本的構成を示すブロック図。対話例と言い換え語彙検出例を示す図。言い換え語彙累積部の記憶例を示す図。音素列クラスタリングの例を示す図。言い換え頻度解析の例を示す図。認識辞書に記憶された認識語彙データを示す図。第３の実施形態の基本的構成を示すブロック図。対話例と言い換え語彙検出例を示す図。

符号の説明

１００音声認識システム（クライアントＡ）、１１０音声入力部、
１２０特徴抽出部、１３０音声認識部、１４０認識辞書、１５０理解制御部、
１６０操作設定部、１７０文字列情報入力部、１８０理解制御部、
１９０認識辞書、
２００オペレータサービスシステム、２１０音声入力部、
２２０操作設定部、２３０オペレータログ記憶部、
３００辞書更新システム（サーバＡ）、３１０言い換え語彙検出部、
３２０言い換え語彙累積部、３３０言い換え頻度解析部、
３４０認識辞書更新部である辞書更新部、
４０１マイクロフォン、４０２スピーカ、４０３表示装置、
４０４ＡＤ変換部、４０５演算装置、４０６記憶装置、
４０７通信装置、４０８通信装置、４０９演算装置、４１０記憶装置、
５１０言い換え語彙検出部、５２０音声認識部、５３０言い換え語彙累積部、
５４０言い換え頻度解析部、５５０認識辞書更新部である辞書更新部、
６１０言い換え語彙検出部、６２０認識辞書更新部である辞書更新部

Claims

ユーザが使用する端末であり、文字列情報を記憶した認識辞書を備えるクライアント端末と、
少なくとも１以上の前記クライアント端末と通信網で接続されるサーバ端末とを備え、
前記サーバ端末は、前記クライアント端末から入力された情報に対応する第１の語彙について、前記認識辞書に記憶されている第２の語彙と等価の意味を持ち、異なる文字列情報を持つ言い換え語彙を累積記憶する言い換え語彙累積部と、
該言い換え語彙累積部を参照し、前記言い換え語彙の発生頻度を解析し、該発生頻度が第１の所定値より高い言い換え語彙の少なくとも一つを主要言い換え語彙と判断する言い換え頻度解析部と、
前記主要言い換え語彙と判断された前記第１の語彙を、前記第２の語彙と対応付けて前記認識辞書に登録するために前記認識辞書を更新する認識辞書更新部とを有し、
前記クライアント端末は、ユーザの発話音声を入力する音声入力部と、前記発話音声から前記第１の語彙に対する文字列情報を抽出する音声認識部とを含む文字列情報入力部を備え、
前記言い換え語彙累積部は、前記発話音声を音素認識により変換した音素列情報に対応する文字列情報を有する前記第１の語彙を、前記言い換え語彙として累積記憶し、
前記言い換え頻度解析部は、前記言い換え語彙の発生頻度を解析する際、音素間距離が所定内である音素列情報ごとに分類することを特徴とする認識辞書システム。
請求項１記載の認識辞書システムであって、
更に前記クライアント端末側又は前記サーバー側に設けられ、前記クライアント端末から入力された情報に対応する第１の語彙について、文字列情報を記憶した認識辞書に記憶されている第２の語彙と等価の意味を持ち、異なる文字列情報を持つ場合に、前記第１の語彙を前記第２の語彙と対応付けて言い換え語彙として検出する言い換え語彙検出部を備え、
前記言い換え語彙検出部は、前記発話音声を音素認識により変換した第１の音素列情報に対応する文字列情報を有する前記第１の語彙を、前記言い換え語彙として、前記第２の語彙と対応付けて前記認識辞書に登録し、
前記認識辞書更新部は、前記主要言い換え語彙が有する第２の音素列情報と前記第１の音素列情報とが完全一致せず、音素間距離が所定内である場合に、前記認識辞書に登録された前記第１の語彙と対応付けて、前記主要言い換え語彙を登録することを特徴とする認識辞書システム。
請求項２記載の認識辞書システムであって、
前記クライアント端末は、前記第１の音素列情報と完全一致せず、音素間距離が所定内である前記第２の音素列情報を持つ前記主要言い換え語彙をユーザに教示することを特徴とする認識辞書システム。
請求項１記載の認識辞書システムであって、
さらに、前記クライアント端末または前記サーバ端末は、ユーザに対する応答を決定する理解制御部を備え、
前記理解制御部は、ユーザのｎ回目に入力された情報に対応する前記第１の語彙が前記認識辞書内に存在しないことを検出する機能と、
該検出結果に基づき、ユーザのｎ＋１回目以降の入力を促す応答を出力する機能と、
前記ユーザのｎ＋１回目以降に入力された情報に対応する語彙と前記第２の語彙とが一致することを検出する機能と、
該検出結果に基づき入力文字列情報を決定する機能とを有し、
前記クライアント端末側又は前記サーバー側に設けられ、前記クライアント端末から入力された情報に対応する第１の語彙について、文字列情報を記憶した認識辞書に記憶されている第２の語彙と等価の意味を持ち、異なる文字列情報を持つ場合に、前記第１の語彙を前記第２の語彙と対応付けて言い換え語彙として検出する言い換え語彙検出部を備え、
前記言い換え語彙検出部は、前記ユーザのｎ＋１回目以降に入力された情報に対応する語彙と前記第２の語彙とが一致した場合に、前記第１の語彙を、前記第２の語彙の言い換え語彙であると決定することを特徴とする認識辞書システム。
請求項４記載の認識辞書システムであって、
前記理解制御部は、前記ユーザのｎ回目に入力された情報に対し、確認応答を提示する機能を有し、
前記ユーザのｎ＋１回目に入力された情報に訂正表現あるいは否定表現が含まれる場合に、前記ｎ回目に入力された情報に対応する前記第１の語彙が前記認識辞書に存在しないと検出することを特徴とする記載の認識辞書システム。
請求項５記載の認識辞書システムであって、
さらに、前記クライアント端末は、ユーザの発話音声を入力する音声入力部と、
前記発話音声から所定の認識スコアを持つ認識語彙候補を前記第１の語彙と認識する音声認識部とを備え、
前記理解制御部は、前記ユーザのｎ回目の発話音声に対し、前記認識語彙候補が得られない場合に、前記ｎ回目の発話音声に含まれる前記第１の語彙が前記認識辞書に存在しないことを検出する機能を有することを特徴とする認識辞書システム。
請求項６記載の認識辞書システムであって、
前記理解制御部は、前記ユーザのｎ＋１回目以降に入力された情報に対する語彙が前記認識辞書に存在した場合に、前記第１の語彙が前記第２の語彙の言い換え語彙であることをユーザに確認する応答を出力する機能を有し、
前記言い換え語彙検出部は、前記応答に対するユーザ応答が前記言い換え語彙を容認するものであると判断された場合に、前記第１の語彙が前記第２の語彙の前記言い換え語彙であると決定することを特徴とする認識辞書システム。
請求項７記載の認識辞書システムであって、
前記ユーザのｎ＋１回目以降の入力を促す応答を出力する機能は、前記第１の語彙が前記認識辞書に存在しないとの前記検出結果に基づいて、ユーザに音声以外の操作による入力を促す前記応答を出力することを特徴とする認識辞書システム。
請求項１記載の認識辞書システムであって、
前記言い換え頻度解析部は、前記言い換え語彙累積部を所定の期間間隔で参照し、前記発生頻度が前記第１の所定値を上回る場合に、前記言い換え語彙を前記主要言い換え語彙と判断し、前記発生頻度が前記第１の所定値よりも低い第２の所定値を下回る場合に、前記言い換え語彙を削除対象言い換え語彙と判断し、
前記認識辞書更新部は、前記主要言い換え語彙または前記削除対象言い換え語彙と判断された前記言い換え語彙を、前記認識辞書に登録または削除することを特徴とする認識辞書システム。
請求項１記載の認識辞書システムであって、
前記クライアント端末から入力された前記情報は、ナビゲーションシステムでユーザが設定する目的地を示す情報であることを特徴とする記載の認識辞書システム。
請求項１０記載の認識辞書システムであって、
前記言い換え語彙累積部は、前記第２の語彙と、ユーザの居住地域、年齢層、家族構成、車両属性の少なくとも１つより構成されるユーザ属性情報とを対応させて累積記憶する機能を有し、
前記言い換え頻度解析部は、前記言い換え語彙の発生頻度を前記ユーザ属性情報毎に解析し、前記ユーザ属性情報毎に前記主要言い換え語彙を決定する機能を有し、
前記認識辞書更新部は、対応するユーザ属性情報に属するユーザの前記認識辞書に対して、前記主要言い換え語彙を登録する機能を有することを特徴とする認識辞書システム。
請求項１０記載の認識辞書システムであって、
前記言い換え語彙は、ユーザとオペレータとの対話から検出されることを特徴とする認識辞書システム。
請求項１２記載の認識辞書システムであって、
前記サーバ端末は、ユーザとオペレータとの対話により前記第２の語彙が決定された場合に、対話ログを記憶する機能を有し、
前記言い換え語彙検出部は、前記対話ログから前記言い換え語彙を検出することを特徴とする認識辞書システム。
ユーザが使用する端末であるクライアント端末から入力されたユーザのｎ回目の情報に対応する第１の語彙が、文字列情報を記憶した認識辞書に記憶されている第２の語彙と一致しないことを検出する機能と、該検出結果に基づき、ユーザのｎ＋１回目以降の入力を促す応答を出力する機能と、前記ユーザのｎ＋１回目以降に入力された情報に対応する語彙と前記第２の語彙とが一致することを検出する機能と、該検出結果に基づき入力文字列情報を決定する機能とを備える理解制御部と、
前記クライアント端末又は少なくとも１以上の前記クライアント端末と通信網で接続されるサーバ端末に設けられ、前記ユーザのｎ＋１回目以降に入力された情報に対応する語彙と前記第２の語彙とが一致した場合に、前記第１の語彙は前記第２の語彙と等価の意味を持ち、異なる文字列情報を持つ言い換え語彙であると判断し、前記第１の語彙を前記第２の語彙と対応付けて検出する言い換え語彙検出部と、
該言い換え語彙検出部で検出された前記言い換え語彙を累積記憶する言い換え語彙累積部と、
該言い換え語彙累積部を参照し、前記言い換え語彙の発生頻度を解析し、該発生頻度が第１の所定値より高い言い換え語彙の少なくとも一つを主要言い換え語彙と判断する言い換え頻度解析部と、
前記主要言い換え語彙と判断された前記第１の語彙を、前記第２の語彙と対応付けて前記認識辞書に登録するために前記認識辞書を更新する認識辞書更新部とを有し、
前記クライアント端末は、ユーザの発話音声を入力する音声入力部と、前記発話音声から前記第１の語彙に対する文字列情報を抽出する音声認識部とを含む文字列情報入力部を備え、
前記言い換え語彙累積部は、前記発話音声を音素認識により変換した音素列情報に対応する文字列情報を有する前記第１の語彙を、前記言い換え語彙として累積記憶し、
前記言い換え頻度解析部は、前記言い換え語彙の発生頻度を解析する際、音素間距離が所定内である音素列情報ごとに分類することを特徴とする認識辞書システム。
サーバ端末と通信網で接続される、少なくとも１以上のクライアント端末から入力された情報に対応する第１の語彙について、文字列情報を記憶した認識辞書に記憶されている第２の語彙と等価の意味を持ち、異なる文字列情報を持つ場合に、前記第１の語彙を前記第２の語彙と対応付けて言い換え語彙として検出し、
前記クライアント端末は、ユーザの発話音声を入力する音声入力部と、前記発話音声から前記第１の語彙に対する文字列情報を抽出する音声認識部とを含む文字列情報入力部とを備え、
言い換え語彙累積部は、前記発話音声を音素認識により変換した音素列情報に対応する文字列情報を有する前記第１の語彙を、前記言い換え語彙として累積記憶し、
言い換え頻度解析部は、前記言い換え語彙累積部を参照し、音素間距離が所定内である音素列情報ごとに分類して前記言い換え語彙の発生頻度を解析し、該発生頻度が第１の所定値より高い言い換え語彙の少なくとも一つを主要言い換え語彙と判断し、
認識辞書更新部は、前記主要言い換え語彙と判断された前記第１の語彙を、前記第２の語彙と対応付けて前記認識辞書に登録するために前記認識辞書を更新することを特徴とする認識辞書システムの更新方法。