JP2001306088A

JP2001306088A - 音声認識装置及び処理システム

Info

Publication number: JP2001306088A
Application number: JP2000117910A
Authority: JP
Inventors: Hideo Miyauchi; 英夫宮内; Yoshitaka Ozaki; 義隆尾崎; Ichiro Akahori; 一郎赤堀; Norihide Kitaoka; 教英北岡; Toru Nada; 徹名田
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2000-04-19
Filing date: 2000-04-19
Publication date: 2001-11-02
Anticipated expiration: 2020-04-19
Also published as: JP3700533B2

Abstract

(57)【要約】【課題】音声認識時に参照する辞書部に準備する辞書デ
ータを増やすことなく、認識可能な対象を増加させる。【解決手段】上位階層辞書は４７都道府県の名称に対応
したキーワードを辞書データとして持つ県名辞書であ
り、下位階層辞書は都道府県別に分割して準備された県
別辞書である。つまり、愛知県の県別辞書、青森県の県
別辞書……、和歌山県の県別辞書というように４７の県
別辞書が準備されている。そして、まず県名辞書を用い
て音声認識処理を行い、その認識処理の結果から選択さ
れた県別辞書を設定する。この設定に際しては、対話制
御部３２が制御回路１０へ県別辞書の読み込みを依頼す
る。制御部１０はその依頼に応じ、データ入力器６によ
ってＤＶＤから該当する県別辞書を読み出し、対話制御
部３２へ送る。対話制御部３２がその県別辞書を辞書部
３１２に設定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばナビゲーシ
ョンシステムにおける目的地の設定などを音声によって
入力する場合などに有効な音声認識装置及びその音声認
識装置を備えた処理システムに関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来よ
り、入力された音声を予め記憶されている複数の比較対
象パターン候補と比較し、一致度合の高いものを認識結
果とする音声認識装置が既に実用化されており、例えば
ナビゲーションシステムにおいて設定すべき目的地を利
用者が地名を音声で入力するためなどに用いられてい
る。特に車両用のナビゲーションシステムを運転手自身
が利用する場合、音声入力であればボタン操作や画面注
視が伴わないため、車両の走行中に行っても安全性が高
いため有効である。

【０００３】このような機能を満たすためには、十分詳
細な地点の指定が容易にできることが望まれる。具体的
には、県や市のレベルではなく、市の下の町名のレベル
や、町村における大字あるいは小字といったレベルまで
入力できるようにすることが好ましい。さらに、利用者
が例えば「愛知県刈谷市昭和町」と設定したい場合に、
「愛知県」「刈谷市」「昭和町」というように県市町と
いうレベル毎に区切って発音しなくてはならないとする
と煩わしいので、ひと続きで入力（一括入力）できるよ
うにすることが好ましい。

【０００４】しかしながら、このように一括入力ができ
ることを前提とし、さらに十分詳細な地点の指定ができ
るようにするためには、認識できる語数を増やすことが
必要であり、辞書のデータ量を増加させてしまう。例え
ば住所の認識についていえば、現在では大字程度のレベ
ルまでしか辞書を用意していないのが一般的である。そ
れを小字までの辞書を用意することでより詳細な地点の
指定はできるが、辞書データが増大することにより、そ
の辞書データを格納しておくための例えばＲＡＭなどの
メモリが非常に大型化し、コストアップにもつながるこ
ととなる。

【０００５】本発明は、このような音声認識技術におい
て辞書に準備する単語を増やすことで認識可能な対象を
増加させるという利点を追求した場合に生じ得るデメリ
ットを極力抑制し、上記利点をより現実的に享受し易く
する技術を提案することを目的とする。

【０００６】

【課題を解決するための手段及び発明の効果】まず、請
求項１に記載した上位階層テンプレートデータ、下位階
層テンプレートデータ、第１の記憶手段及び第２の記憶
手段について説明する。上位階層テンプレートデータ
は、最終的な認識対象が複数の語を階層的につなぎ合わ
せたものである場合の上位階層を構成する複数種類の語
または語群に対応しており、入力音声に基づいて得たマ
ッチング用データと比較するためのデータである。ま
た、下位階層テンプレートデータは、最終的な認識対象
が複数の語を階層的につなぎ合わせたものである場合の
上位階層を構成する複数種類の語または語群単位に準備
され、上位階層に加えて下位階層を構成する語または語
群までを含んだ語群を格納したものである。具体例とし
ては地名（住所）などが挙げられる。例えば上位階層を
都道府県名とすると、日本の場合であれば上位階層テン
プレートデータとして４７都道府県名をテンプレートデ
ータとして持つ「県名テンプレートデータ」を採用した
場合、下位階層テンプレートデータとして、各都道府県
単位で準備され、市町村名あるいはそれ以下の字などの
レベルまでを含む「県別テンプレートデータ」を採用す
ることができる。つまり、４７に分割された県別テンプ
レートデータが下位階層テンプレートデータとして準備
されることとなる。

【０００７】上位階層あるいは下位階層のテンプレート
データは、請求項２に示すように、辞書データ（上位階
層辞書あるいは下位階層辞書）であってもよいし、請求
項３に示すように、音声データであってもよい。例えば
予め人がその語又は語群を発音し、それを入力して音声
データとして記憶しておいてもよい。つまり、辞書を用
いた認識ではなくても、利用者の発声した音声データに
基づき、何らかのデータとマッチングすることで認識で
きるようなデータであればよい。

【０００８】また、第１の記憶手段は音声認識処理に際
して高速アクセス性が相対的に低く、第２の記憶手段は
音声認識処理に際して高速アクセス性が相対的に高いも
のであるが、具体例としては、第１の記憶手段としてＤ
ＶＤやＣＤ−ＲＯＭが挙げられ、第２の記憶手段として
ＲＡＭなどが挙げられる。つまり、実際の音声認識処理
を実行する上では、その処理時間を短くしてレスポンス
を向上させる観点から通常はＲＡＭなどの第２の記憶手
段に辞書を読み込むこととなる。

【０００９】請求項１に記載の音声認識装置によれば、
少なくとも下位階層テンプレートデータは第１の記憶手
段に記憶されており、入力音声を認識する際には、ま
ず、入力音声に基づいて得たマッチング用データと上位
階層テンプレートデータとを比較することで、どの上位
階層の語又は語群が含まれているかを予備的に判定す
る。例えば上述の地名の例で言えば、どの都道府県名が
含まれているかを判定する。そして、その予備判定にて
含まれているとされた上位階層に対応する下位階層テン
プレートデータを第２の記憶手段に読み込み、その下位
階層テンプレートデータを用いて最終的な認識結果を得
る。つまり、例えば予備判定で「愛知県」という都道府
県名が含まれていることが判った場合は、愛知県という
県別に準備された下位階層テンプレートデータのみを第
２の記憶手段に読み込んで認識を行うことができる。

【００１０】このようにすれば、全テンプレートデータ
を第２の記憶手段に読み込んでおかなくてもよい。例え
ば地名の例で言えば、都道府県別に準備された下位階層
テンプレートデータを最低限１つ（場合によっては複
数）読み込むだけでよく、それに対応するだけの記憶容
量が第２の記憶手段にあればよい。つまり本発明は、こ
のような階層的に構成される語群に対して上位階層の語
又は語群単位に下位階層テンプレートデータを準備する
という、いわばテンプレートデータの「分割」を行い、
予備判定にてどの下位階層テンプレートデータを用いれ
ばよいかを判定して、「真に必要な」テンプレートデー
タに絞ってから第２の記憶手段に読み込むようにした。
したがって、テンプレートデータに準備する単語を増や
すことで認識可能な対象を増加させるという利点を追求
した場合であっても、その認識可能語彙をすべて第２の
記憶手段に格納しておく必要がない。そのため、第２の
記憶手段は相対的に容量が小さくても、一括入力に対応
した適切な音声認識が実現できる。

【００１１】なお、最終的な認識対象についての上位階
層と下位の切り分けについては弾力的な適用が可能であ
るため、下位階層テンプレートデータについて請求項４
に示すようにしてもよい。つまり、３階層以上存在する
場合に、第１階層を上位階層とした上位階層テンプレー
トデータと、第２階層を下位階層とする下位階層テンプ
レートデータとを備えるとともに、その第２階層を下位
階層とする下位階層テンプレートデータを上位階層とみ
なして第３階層を下位階層とする第２の下位階層テンプ
レートデータとし、このような第２以降の下位階層テン
プレートデータを、存在する階層数に応じて備えるので
ある。具体例で説明すれば、上述の県別テンプレートデ
ータを上位階層とみなして市町村よりも下位の「大字」
レベルも区別するようにした、市町村単位で準備された
「市別テンプレートデータ」のようなものを第２の下位
階層テンプレートデータ」とするのである。このように
することで、必要なテンプレートデータだけを読み込め
ばよくなり、第２の記憶手段がより小容量でも対応可能
となる。

【００１２】ところで、最終的には最下位階層のテンプ
レートデータを用いて認識するために、その最下位階層
テンプレートデータを選択する予備判定を行う。この予
備判定は、上位階層テンプレートデータ又は下位階層テ
ンプレートデータであっても相対的に上位の階層のテン
プレートデータとみなし得るものを用いて行うのである
が、このテンプレートデータの構成には次のような工夫
をしてもよい。つまり、請求項５に示すように、上位階
層又は相対的に上位の階層テンプレートデータとみなし
得るテンプレートデータを構成する複数種類の語または
語群の後にそれ以外の語又は語群が付属した音声入力に
対してもマッチング可能なワイルドカードモデルとする
のである。

【００１３】例えば、上位階層テンプレートデータとし
て県名辞書を想定した場合、県名の後にどのような音声
にもマッチングするようにする。単に県名しか辞書デー
タとして持たない場合には、実際の認識対象（都道府県
以下の市町村や大字なども含む語群）の内の一部分しか
県名がないため、全体としてのマッチング度合いが低下
する。それに対して、ワイルドカードモデルの場合に
は、マッチング自体は認識対象全体として行えるのでそ
のような問題が生じない。ワイルドカードモデルとして
は、後述するガーベージモデルや音節連接モデルなどが
ある。

【００１４】一方、このようなワイルドカードモデルを
用いるのではなく、請求項６に示すように、上位階層又
は相対的に上位の階層テンプレートデータとみなし得る
テンプレートデータを構成する複数種類の語または語群
の後に下位階層テンプレートデータを構成する語又は語
群が付属した冗長なテンプレートデータを用いてもよ
い。

【００１５】ワイルドカードを使うと上述のような利点
があるが、このワイルドカードはどのようなものにも緩
やかにマッチングしてしまうので、誤認識の可能性を増
やす原因ともなる。そこで、例えば地名（住所）用の上
位階層テンプレートデータとして、県名だけでなく市町
村名まで付加した冗長な状態で上位階層テンプレートデ
ータを準備する。認識時には市町村名までマッチングす
るが、結果としてはいずれの県名とマッチングしたかを
判定する。より長い音声でマッチングをし、またワイル
ドカードモデルのように緩やかにどのようなものにもマ
ッチングするものではないため、認識率の向上が期待で
きる。但し、準備するテンプレートデータ量は相対的に
は増加する。

【００１６】ところで、このような音声認識装置と、そ
の音声認識装置にて認識された結果に基づいて所定の処
理を実行する処理装置とを備え、処理装置が処理をする
上で指定される必要のある所定のコマンドを利用者が音
声にて入力できるようにした処理システムを構築するこ
とができる。この際、請求項７に示すように、コマンド
を認識するためのテンプレートデータであるコマンド用
テンプレートデータを第１の記憶手段から第２の記憶手
段に読み込んでおくか、あるいは第２の記憶手段同様に
高速アクセス性が相対的に高い読み取り専用の第３の記
憶手段（例えばＲＯＭ）に予め記憶しておく。そして、
次の〜の手順で認識を行う。

【００１７】上位階層テンプレートデータ（とみなし
得る下位階層テンプレートデータも含む。以下同様。）
を用いた認識を行って予備判定をする。コマンド用テンプレートデータを用いた認識を行うと
共に、この認識と並行して予備判定の結果に対応する下
位階層テンプレートデータを第２の記憶手段に読み込
む。

【００１８】その読み込んだ下位階層テンプレートデ
ータを用いて認識を行う。上記の認識結果との認識結果の内でより確からし
さが上位のものを最終的な認識結果とする。例えば処理装置がナビゲーション装置であれば、目的地
などの設定のために階層的な構成を持つ地名（住所）を
音声入力することがあり、また、当然ながらナビゲーシ
ョン装置の各種機能を使うためのコマンドを指示するこ
とがある。そして、このナビゲーション用のシステムを
想定した場合には、上述の認識処理を実行することで、
地名（住所）の入力だけでなくコマンドが入力された場
合にも即座に対応でき、コマンド用テンプレートデータ
を用いた認識処理を別途行わなくてもよい。つまりレス
ポンスが向上し、利用者にとっての使い勝手が向上する
こととなる。

【００１９】なお、請求項７に示した処理システムは、
ナビゲーション用のシステム以外にも当然適用できる
が、特にナビゲーション用のシステムに限定して考えた
場合には、次のような工夫もできる。つまり、請求項８
に示すように、現在地を検出する機能を持つことを前提
として、次の〜の手順で認識を行う。

【００２０】上位階層テンプレートデータを用いた認
識を行って予備判定を行う。現在地検出手段にて検出された現在地に対応する下位
階層テンプレートデータを第２の記憶手段に読み込み、
その下位階層テンプレートデータを用いた認識を行うと
共に、この認識と並行して予備判定の結果に対応する下
位階層テンプレートデータを第２の記憶手段に読み込
む。

【００２１】その読み込んだ下位階層テンプレートデ
ータを用いて認識を行う。上記の認識結果との認識結果の内でより確からし
さが上位のものを最終的な認識結果とする。この手法によって解決したい状況は次の通りである。つ
まり、ナビゲーションシステムを搭載した車両が例えば
愛知県内を走行しており、同じ愛知県内である「愛知県
刈谷市昭和町」を目的地として設定する場合には、「愛
知県刈谷市昭和町」と音声入力するのではなく、「愛知
県」を省略して「刈谷市昭和町」と音声入力する方が自
然である。本手法であれば、２回目の認識において現在
地に対応する下位階層辞書を用いた認識を行うため、都
道府県名を省略した音声入力であっても対応できる。

【００２２】一方、同様に現在地を検出する機能を持つ
ことを前提としながら、相対的に認識速度の向上を図り
たい場合には請求項９に示すようにしてもよい。この場
合には、認識処理に先立って現在地検出手段にて検出さ
れた現在地に対応する下位階層テンプレートデータを第
２の記憶手段に予め読み込んでおく。そして、次の、
の手順で認識を行う。

【００２３】上位階層テンプレートデータ及び予め読
み込んでおいた下位階層テンプレートデータを用いた認
識を行う。そして、その認識結果が、予め読み込んでお
いた下位階層テンプレートデータを用いて得られたもの
である場合には、それを最終的な認識結果として認識処
理を終了する。

【００２４】一方、上記の認識結果が、上位階層テ
ンプレートデータを用いたものである場合には、その認
識結果に対応する下位階層テンプレートデータを第２の
記憶手段に読み込み、その下位階層テンプレートデータ
を用いて得た認識結果を最終的な認識結果とする。

【００２５】このようにすれば、使用頻度が高いと考え
られる現在地を含む所定地域内の地名を認識する際に
は、それを認識するための下位階層テンプレートデータ
が予め読み込んであるため、相対的に認識処理が素早く
できることとなる。

【００２６】

【発明の実施の形態】以下、本発明が適用された実施例
について図面を用いて説明する。なお、本発明の実施の
形態は、下記の実施例に何ら限定されることなく、本発
明の技術的範囲に属する限り、種々の形態を採り得るこ
とは言うまでもない。

【００２７】図１は音声認識機能を持たせたナビゲーシ
ョンシステム２の概略構成を示すブロック図である。本
ナビゲーションシステム２は、車両に搭載されて用いら
れるいわゆるカーナビゲーションシステムであり、位置
検出器４、データ入力器６、操作スイッチ群８、これら
に接続された制御回路１０、制御回路１０に接続された
外部メモリ１２、表示装置１４及びリモコンセンサ１５
及び音声認識装置３０を備えている。なお制御回路１０
は通常のコンピュータとして構成されており、内部に
は、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれら
の構成を接続するバスラインが備えられている。

【００２８】位置検出器４は、周知の地磁気センサ１
６、ジャイロスコープ１８、距離センサ２０及び衛星か
らの電波に基づいて車両の位置を検出するためのＧＰＳ
受信機２２を有している。これらのセンサ等１６，１
８，２０，２２は各々が性質の異なる誤差を持っている
ため、複数のセンサにより、各々補間しながら使用する
ように構成されている。なお、精度によっては上述した
内の一部で構成してもよく、更に、ステアリングの回転
センサ、各転動輪の車輪センサ等を用いてもよい。

【００２９】データ入力器６は、位置検出の精度向上の
ためのいわゆるマップマッチング用データ、地図データ
及び目印データを含むナビゲーション用の各種データに
加えて、音声認識装置３０において認識処理を行う際に
用いる辞書データを入力するための装置である。記憶媒
体としては、そのデータ量からＤＶＤを用いるのが一般
的であると考えられるが、ＣＤ−ＲＯＭ等の他の媒体を
用いても良い。データ記憶媒体としてＤＶＤを用いた場
合には、このデータ入力器６はＤＶＤプレーヤとなる。

【００３０】表示装置１４はカラー表示装置であり、表
示装置１４の画面には、位置検出器４から入力された車
両現在位置マークと、地図データ入力器６より入力され
た地図データと、更に地図上に表示する誘導経路や設定
地点の目印等の付加データとを重ねて表示することがで
きる。また、複数の選択肢を表示するメニュー画面やそ
の中の選択肢を選んだ場合に、さらに複数の選択肢を表
示するコマンド入力画面なども表示することができる。

【００３１】また、本ナビゲーションシステム２は、リ
モートコントロール端末（以下、リモコンと称する。）
１５ａを介してリモコンセンサ１５から、あるいは操作
スイッチ群８により目的地の位置を入力すると、現在位
置からその目的地までの最適な経路を自動的に選択して
誘導経路を形成し表示する、いわゆる経路案内機能も備
えている。このような自動的に最適な経路を設定する手
法は、ダイクストラ法等の手法が知られている。操作ス
イッチ群８は、例えば、表示装置１４と一体になったタ
ッチスイッチもしくはメカニカルなスイッチ等が用いら
れ、各種コマンドの入力に利用される。

【００３２】そして、音声認識装置３０は、上記操作ス
イッチ群８あるいはリモコン１５ａが手動操作により各
種コマンド入力のために用いられるのに対して、利用者
が音声で入力することによっても同様に各種コマンドを
入力できるようにするための装置である。

【００３３】この音声認識装置３０は、音声認識部３１
と、対話制御部３２と、音声合成部３３と、音声抽出部
３４と、マイク３５と、スイッチ３６と、スピーカ３７
と、制御部３８とを備えている。音声認識部３１は、音
声抽出部３４から入力された音声データを、対話制御部
３２からの指示により入力音声の認識処理を行い、その
認識結果を対話制御部３２に返す。すなわち、音声抽出
部３４から取得した音声データに対し、記憶している辞
書データを用いて照合を行ない、複数の比較対象パター
ン候補と比較して一致度の高い上位比較対象パターンを
対話制御部３２へ出力する。入力音声中の単語系列の認
識は、音声抽出部３４から入力された音声データを順次
音響分析して音響的特徴量（例えばケプストラム）を抽
出し、この音響分析によって得られた音響的特徴量時系
列データを得る。そして、周知のＨＭＭ（隠れマルコフ
モデル）、ＤＰマッチング法あるいはニューラルネット
などによって、この時系列データをいくつかの区間に分
け、各区間が辞書データとして格納されたどの単語に対
応しているかを求める。

【００３４】対話制御部３２は、音声認識部３１におけ
る認識結果や制御部３８からの指示に基づき、音声合成
部３３への応答音声の出力指示、あるいは、ナビゲーシ
ョンシステム自体の処理を実行する制御回路１０に対し
て例えばナビゲート処理のために必要な目的地やコマン
ドを通知して目的地の設定やコマンドを実行させるよう
指示する処理を行う。このような処理の結果として、こ
の音声認識装置３０を利用すれば、上記操作スイッチ群
８あるいはリモコン１５ａを手動しなくても、音声入力
によりナビゲーションシステムに対する目的地の指示な
どが可能となるのである。

【００３５】なお、音声合成部３３は、波形データベー
ス内に格納されている音声波形を用い、対話制御部３２
からの応答音声の出力指示に基づく音声を合成する。こ
の合成音声がスピーカ３７から出力されることとなる。
音声抽出部３４は、マイク３５にて取り込んだ周囲の音
声をデジタルデータに変換して音声認識部３１に出力す
るものである。詳しくは、入力した音声の特徴量を分析
するため、例えば数１０ｍｓ程度の区間のフレーム信号
を一定間隔で切り出し、その入力信号が、音声の含まれ
ている音声区間であるのか音声の含まれていない雑音区
間であるのか判定する。マイク３５から入力される信号
は、認識対象の音声だけでなく雑音も混在したものであ
るため、音声区間と雑音区間の判定を行なう。この判定
方法としては従来より多くの手法が提案されており、例
えば入力信号の短時間パワーを一定時間毎に抽出してい
き、所定の閾値以上の短時間パワーが一定以上継続した
か否かによって音声区間であるか雑音区間であるかを判
定する手法がよく採用されている。そして、音声区間で
あると判定された場合には、その入力信号が音声認識部
３１に出力されることとなる。

【００３６】また、本実施形態においては、利用者がス
イッチ３６を押しながらマイク３５を介して音声を入力
するという利用方法である。具体的には、制御部３８が
スイッチ３６が押されたタイミングや戻されたタイミン
グ及び押された状態が継続した時間を監視しており、ス
イッチ３６が押された場合には音声抽出部３４及び音声
認識部３１に対して処理の実行を指示する。一方、スイ
ッチ３６が押されていない場合にはその処理を実行させ
ないようにしている。したがって、スイッチ３６が押さ
れている間にマイク３５を介して入力された音声データ
が音声認識部３１へ出力されることとなる。

【００３７】このような構成を有することによって、本
実施例の車載ナビゲーションシステム２では、ユーザが
コマンドを入力することによって、経路設定や経路案内
あるいは施設検索や施設表示など各種の処理を実行する
ことができる。ここで、音声認識部３１と対話制御部３
２についてさらに説明する。図２に示すように、音声認
識部３１は照合部３１１と辞書部３１２と抽出結果記憶
部３１３とを有しており、対話制御部３２は処理部３２
１と入力部３２２と辞書制御部３２３とを有している。

【００３８】音声認識部３１においては、抽出結果記憶
部３１３が音声抽出部３４から出力された抽出結果を記
憶しておき、照合部３１ａがその記憶された抽出結果に
対し、辞書部３１２内に記憶されている辞書データを用
いて照合を行う。この辞書部３１２内の辞書データは固
定ではなく、適宜設定・更新されるのであるが、この点
は後述する。そして、照合部３１１にて辞書データと比
較されて一致度が高いとされた上位の認識結果は、対話
制御部３２の処理部３２１へ出力され、対話制御部３２
の処理部３２１が、制御回路１０へその認識結果を出力
する。

【００３９】一方、処理部３２１は、制御回路１０に対
して辞書データをＤＶＤから読み出して音声認識装置３
０側へ出力する依頼（辞書読込依頼）を出すことがで
き、その依頼の結果として制御回路１０から送られた辞
書データは、対話制御部３２の入力部３２２を介して入
力される。そして、辞書制御部３２３がその辞書データ
を音声認識部３１の辞書部３１２に対して設定（書込）
・更新する。

【００４０】ここで辞書データについて説明する。辞書
データとしては、語彙そのもののデータだけでなく、そ
の語彙が複数の語を階層的につなぎ合わせたものである
場合には、次のように分割されて準備されている。ここ
では、そのように分割されて準備されている辞書データ
の例として地名辞書を説明する。

【００４１】まず、上位階層辞書は、都道府県名の辞書
データである。つまり、４７の都道府県（愛知県、青森
県……、和歌山県）の名称に対応したキーワードを辞書
データとして持つものである。そして、下位階層辞書
は、都道府県別に分割して準備された県別辞書である。
つまり、愛知県の県別辞書、青森県の県別辞書……、和
歌山県の県別辞書というように４７の県別辞書が準備さ
れている。この下位階層辞書は、上位階層のキーワード
に下位階層のキーワードを付加した辞書データであり、
例えば愛知県の県別辞書であれば、愛知県○○市××
町、……、愛知県刈谷市昭和町、愛知県△△市▽▽町、
……というように、必ず愛知県から始まるようにしてい
る。他の都道府県の県別辞書も同様である。

【００４２】なお、必要に応じて、さらに下位階層の辞
書を準備してもよい。つまり、全国に存在する市町村別
に市別辞書を準備してもよい。例えば愛知県刈谷市の市
別辞書、愛知県大府市の市別辞書……といった具合であ
る。日本の場合には約４０００の市町村があるといわれ
ているので、約４０００の市別辞書が準備されることと
なる。この考え方を進めれば、当然ながらさらに下位階
層の辞書を準備することも可能である。例えば名古屋市
には１６の区があるが、その区別に１６分割した辞書を
準備してもよい。もちろん、区に限らず市町村の下位に
くる大字レベルに分割した辞書を準備することも可能で
ある。

【００４３】そして、このように分割された辞書も含
め、基本的に辞書はすべて、データ入力器６にセットさ
れるＤＶＤなどの記録媒体に記録されている。なお、
「基本的には」としたのは、音声認識部３１の辞書部３
１２に常駐させておく辞書データがあってもよいからで
ある。但し、上述した下位階層の辞書については、原則
通りＤＶＤなどのデータ記憶媒体に記憶させておき、必
要なときに辞書部３１２に読み込むようにする。

【００４４】次に、本実施例のナビゲーションシステム
２の動作について説明する。なお、音声認識装置３０に
関係する部分が特徴であるので、ナビゲーションシステ
ムとしての一般的な動作を簡単に説明した後、音声認識
装置３０に関係する部分の動作について詳しく説明する
こととする。

【００４５】ナビゲーションシステム２の電源オン後
に、表示装置１４上に表示されるメニューから、ドライ
バーがリモコン１５ａ（操作スイッチ群８でも同様に操
作できる。以後の説明においても同じ）により、案内経
路を表示装置１４に表示させるために経路情報表示処理
を選択した場合、あるいは、音声認識装置３０を介して
希望するメニューをマイク３５を介して音声入力するこ
とで、対話制御部３２から制御回路１０へ、リモコン１
５ａを介して選択されるのを同様の指示がなされた場
合、次のような処理を実施する。

【００４６】すなわち、ドライバーが表示装置１４上の
地図に基づいて、音声あるいはリモコンなどの操作によ
って目的地を入力すると、ＧＰＳ受信機２２から得られ
る衛星のデータに基づき車両の現在地が求められ、目的
地と現在地との間に、ダイクストラ法によりコスト計算
して、現在地から目的地までの最も短距離の経路を誘導
経路として求める処理が行われる。そして、表示装置１
４上の道路地図に重ねて誘導経路を表示して、ドライバ
ーに適切なルートを案内する。このような誘導経路を求
める計算処理や案内処理は一般的に良く知られた処理で
あるので説明は省略する。

【００４７】次に、音声認識装置３０における動作につ
いて説明する。ここでは、いくつかの動作例を挙げる。 [動作例１]図４は、動作例１の場合の音声認識部３１及
び対話制御部３２における処理を示すフローチャートで
ある。

【００４８】最初のステップＳ１０においては、最上位
階層の辞書を設定する。具体的には、上述した県名辞書
であり、データ入力器６によってＤＶＤから読み出し、
それを制御回路１０、対話制御部３２を介して音声認識
部３１の辞書部３１２に設定する。なお、上述したよう
に、この県名辞書については辞書部３１２に常駐させて
おくことも考えられる。

【００４９】このように音声認識の準備ができたら、続
いて音声認識処理を行う（Ｓ２０）。上述したように、
スイッチ３６が押されている間にマイク３５を介して入
力された音声データが音声抽出部３４にて抽出されて音
声認識部３１へ出力されるため、この抽出結果に対して
認識処理を実行することとなる。

【００５０】この音声認識処理がなされた後、その認識
に用いたのが最下位階層の辞書であるかどうかを判断す
る（Ｓ３０）。Ｓ１０にて設定した県名辞書を用いた認
識であれば最下位階層の辞書ではないので（Ｓ３０：Ｎ
Ｏ）、Ｓ２０での認識処理の結果から選択された下位階
層の辞書を設定する（Ｓ４０）。例えば、県名辞書を用
いた認識で「愛知県」が選択された場合には、愛知県の
県別辞書を設定する。この設定に際しては、図３に例示
するように、対話制御部３２が制御回路１０へ県別辞書
の読み込みを依頼する。制御部１０はその依頼に応じ、
データ入力器６によってＤＶＤから該当する県別辞書を
読み出し、対話制御部３２へ送る。そして、上述したよ
うに、対話制御部３２内の辞書制御部３２３（図２参
照）によってその県別辞書が音声認識部３１の辞書部３
１２に設定される。

【００５１】その後Ｓ２０へ戻り、抽出結果記憶部３１
３に記憶されている抽出結果を再度用いて音声認識処理
を行う。県別辞書が最下位階層の辞書であれば（Ｓ３
０：ＹＥＳ）、その辞書を用いて得た認識結果を制御回
路１０へ出力する（Ｓ５０）。なお、上述したように、
県別辞書のさらに下位階層の辞書として市別辞書や区別
辞書、大字辞書などが準備されている場合には、Ｓ２０
〜Ｓ４０のループ処理を繰り返して、最下位階層の辞書
が設定された状態で認識された結果を出力すればよい。

【００５２】このようにすれば、音声入力された地名を
認識する場合に、地名に関する全辞書を辞書部３１２に
読み込んでおかなくてもよく、県名辞書及び選択された
都道府県に対応する県別辞書を読み込むだけでよい。こ
のような階層的に構成される語群に対して辞書の「分
割」を行い、予備判定にてどの下位階層辞書（県別辞
書）を用いればよいかを判定して、「真に必要な」辞書
に絞ってから辞書部３１２に読み込むようにした。した
がって、辞書に準備する語彙を増やすことで認識可能な
対象を増加させるという利点を追求した場合であって
も、その認識可能語彙をすべて辞書部３１２に格納して
おく必要がない。そのため、辞書部３１２は相対的に容
量が小さくても、一括入力に対応した適切な音声認識が
実現できる。

【００５３】[動作例２]図５は、動作例２の場合の音声
認識部３１及び対話制御部３２における処理を示すフロ
ーチャートである。ここでは、実際の認識処理を開始す
る前に、県名辞書及びコマンド辞書が辞書部３１２に記
憶されていることを前提とする。

【００５４】最初のステップＳ１１０においては、県名
辞書を設定する。予め記憶されているため、ここでは音
声認識に用いる辞書として設定する。つまり、辞書部３
１２にはコマンド辞書も記憶されているが、それは設定
しない。そして、続くＳ１２０ではその県名辞書を用い
て第１回目の音声認識処理を行い、その第１回目の認識
結果から選択された県別辞書の読込を依頼する（Ｓ１３
０）。

【００５５】この辞書の読込依頼は、上記動作例１でも
説明したように対話制御部３２が制御回路１０に対して
行う。この依頼を受けた制御部１０はその依頼に応じ、
データ入力器６によってＤＶＤから該当する県別辞書を
読み出し、対話制御部３２へ送る、そして、対話制御部
３２はその県別辞書を読み込み（Ｓ１９０）、その県別
辞書を音声認識部３１の辞書部３１２に設定する（Ｓ１
６０）。

【００５６】しかし、制御部１０へ依頼をしてから県別
辞書が送られてくるまでの時間がある程度必要であるの
で、ここでは、その間を利用して２回目の認識処理を行
う。つまり、今度はコマンド辞書を音声認識に用いる辞
書として設定し（Ｓ１４０）、そのコマンド辞書を用い
て第２回目の音声認識処理を行うのである（Ｓ１５
０）。この第２回目の認識処理が終了したら、上述した
ＤＶＤから読み込んだ県別辞書を音声認識に用いる辞書
として設定し（Ｓ１６０）、その県別辞書を用いて第３
回目の音声認識処理を行う（Ｓ１７０）。

【００５７】このようにして得た第２回目の認識結果と
第３回目の認識結果の確からしさを比較し、上位の候補
（認識結果）を出力する（Ｓ１８０）。ナビゲーション
システムを利用する際に利用者が音声入力する語彙とし
ては、目的地などの設定のために地名（住所）がある
が、当然ながらナビゲーションの各種機能を使うための
コマンドを指示することがある。したがって、本動作例
のようにすれば、第２回目の音声認識処理をコマンド辞
書を用いて行っているので、地名（住所）の入力だけで
なくコマンドが入力された場合にも即座に対応できる。
そして、この認識処理は、県名辞書を用いた予備判定に
て選択された県別辞書の読み込みを行う間に実行するた
め、時間のロスが少なくて済む。つまり全体としてレス
ポンスが向上し、利用者にとっての使い勝手が向上す
る。

【００５８】[動作例３]図６は、動作例３の場合の音声
認識部３１及び対話制御部３２における処理を示すフロ
ーチャートである。ここでは、実際の認識処理を開始す
る前に、県名辞書及び現在地の県別辞書が辞書部３１２
に記憶されていることを前提とする。つまり、位置検出
器４によって現在地を検出できるため、例えば本ナビゲ
ーションシステムを搭載した車両が愛知県内を走行して
いる場合には、愛知県の県別辞書を予めＤＶＤから読み
込んで辞書部３１２に記憶させておく。

【００５９】最初のステップＳ２１０においては、県名
辞書を設定する。予め記憶されているため、ここでは音
声認識に用いる辞書として設定する。つまり、辞書部３
１２には現在地に対応する県別辞書も記憶されている
が、それは設定しない。そして、続くＳ２２０ではその
県名辞書を用いて第１回目の音声認識処理を行い、その
第１回目の認識結果から選択された県別辞書の読込を依
頼する（Ｓ２３０）。

【００６０】このＳ２３０での辞書の読込依頼の結果、
ＤＶＤから該当する県別辞書を読み込み（Ｓ２９０）、
その県別辞書を音声認識部３１の辞書部３１２に設定す
る（Ｓ２６０）点については、上述の動作例２のＳ１３
０，Ｓ１６０，Ｓ１９０の処理内容を同じである。そし
て、動作例２ではこの間を利用してコマンド辞書を用い
た認識処理を行ったが、本動作例３では、予め読み込ん
であった現在地に対応する県別辞書を音声認識に用いる
辞書として設定し（Ｓ２４０）、その県別辞書を用いて
第２回目の音声認識処理を行う（Ｓ２５０）。この第２
回目の認識処理が終了したら、上述したＤＶＤから読み
込んだ県別辞書を音声認識に用いる辞書として設定し
（Ｓ２６０）、その県別辞書を用いて第３回目の音声認
識処理を行う（Ｓ２７０）。

【００６１】このようにして得た第２回目の認識結果と
第３回目の認識結果の確からしさを比較し、上位の候補
（認識結果）を出力する（Ｓ１８０）。ナビゲーション
システムを搭載した車両が例えば愛知県内を走行してお
り、同じ愛知県内である「愛知県刈谷市昭和町」を目的
地として設定する場合には、「愛知県刈谷市昭和町」と
音声入力するのではなく、「愛知県」を省略して「刈谷
市昭和町」と音声入力する方が自然である。本手法であ
れば、２回目の認識において現在地に対応する下位階層
辞書を用いた認識を行うため、都道府県名を省略した音
声入力であっても対応できる。

【００６２】[動作例４]図７は、動作例４の場合の音声
認識部３１及び対話制御部３２における処理を示すフロ
ーチャートである。動作例３の場合と同様に、実際の認
識処理を開始する前に、県名辞書及び現在地の県別辞書
が辞書部３１２に記憶されていることを前提とする。

【００６３】最初のステップ３１０においては、県名辞
書及び現在地に対応する県別辞書を音声認識に用いる辞
書として設定する。そして、続くＳ３２０ではその県名
辞書及び現在地対応の県別辞書を用いて第１回目の音声
認識処理を行う。その第１回目の認識結果が、現在地対
応の県別辞書を用いて得られたものである場合には（Ｓ
３３０：ＹＥＳ）、この第１回目の認識結果を出力する
（Ｓ３４０）。

【００６４】一方、現在地対応の県別辞書ではなく、県
名辞書を用いて第１回目の認識結果が得られたものであ
る場合には（Ｓ３３０：ＮＯ）、その認識結果から選択
された県別辞書の読込を依頼し（Ｓ３５０）、ＤＶＤか
ら該当する県別辞書を読み込む（Ｓ３５５）。この場合
は、上述した動作例２，３とは異なり、辞書の読込依頼
から実際に読み込むまでに別に音声認識処理は実行しな
い。

【００６５】そして、Ｓ３５５で読み込んだ県別辞書を
音声認識に用いる辞書として設定し（Ｓ３６０）、その
県別辞書を用いて第２回目の音声認識処理を行い（Ｓ３
７０）、その認識結果を出力する（Ｓ３８０）。このよ
うにすれば、使用頻度が高いと考えられる現在地を含む
県内の地名を認識する際には、それを認識するための県
別辞書を用いて第１回目の音声認識処理で認識できるた
め、相対的に認識処理が素早くできることとなる。

【００６６】音声認識装置３０における動作について４
例挙げ、それぞれの動作例による効果などを説明した
が、上位階層辞書の構成を工夫することでも以下に示す
ような効果を得ることができる。［辞書構成例１］ここでは上位階層辞書として県名辞書
を例にとって考える。県名辞書は、上述したように都道
府県（愛知県、青森県……、和歌山県）の名称に対応し
たキーワードを辞書データとして持つものであるが、こ
れを愛知県＊、青森県＊……、和歌山県＊というように
記述し、＊の部分がどのような音声入力に対してもマッ
チング可能なワイルドカードモデルとする。例えば、
「愛知県刈谷市」という音声入力の内「刈谷市」が＊に
マッチングする。単に都道府県名のキーワードしか辞書
データとして持たない場合には、実際の認識対象（都道
府県以下の市町村や大字なども含む語群）の内の一部分
しか県名がないため、全体としてのマッチング度合いが
低下する。それに対して、ワイルドカードモデルの場合
には、マッチング自体は認識対象全体として行えるので
そのような問題が生じない。

【００６７】ここで、ワイルドカードモデルについて少
し補足説明する。まず、音声認識で一般的に用いられる
ＨＭＭ（隠れマルコフモデル）手法について簡単に説明
する。本手法は、音声を状態と遷移で表現されたマルコ
フモデルから生成されるものであると仮定して、生成モ
デルを事前に作成しておき、それと音声とを突き合わせ
（マッチング）、最もよくマッチングするものを認識結
果とするものである。このモデルの例としては図８に示
す表現が一般的である。各状態には出力確率分布が対応
しており、音声を分析した結果の特徴量（図８では簡単
のために２次元で表現した）の時系列を図８（ａ）に対
応する順（ａ１→ａ２→ａ３）に、図８（ｂ）の確率分
布から確からしさを突き合わせていく。最終的には音声
の終端までの確からしさの積（尤度と呼ばれるスコア）
が最も良いものを認識結果とする。この手法では、認識
対象語彙のＨＭＭを準備しておいてそれを比較すること
が基本となるが、大語彙の認識では事実上不可能である
ので、音素や音節（これは単語の部分という意味でサブ
ワードと呼ばれる）といった単位を設定し、それらのＨ
ＭＭを作成しておいて、それを接続することで単語のモ
デルを作成する。

【００６８】次に、ワイルドカードモデルの一例である
ガーベージモデルについて説明する。図９（Ａ）に、/
ａ/，/ｉ/，/ｕ/のＨＭＭの各状態に対応している確率
分布の例を示した。ここでは特徴空間を２次元としてい
る。ガーベージモデルと呼ばれる音声モデルは、特定の
音節のある特徴を表現するのではなく、多くの音声をカ
バーできるように、大きな分散を有する分布を持つもの
である。こうすると、ガーベージモデルはさまざまな音
声パターンに対して「広く浅く」マッチングするため、
広範囲の音声に対してある程度のスコア（＝確率）を出
力するが、正しい分布に比べると小さい値を出力する傾
向がある。例えば図９（Ａ）中の「×」で示した音声パ
ターンに対して、/ａ/，/ｉ/のスコアは非常に小さくな
り、/ｕ/のスコアは大きくなる。一方、ガーベージモデ
ルの場合のスコアは、/ａ/，/ｉ/のスコアと比べると大
きいが、/ｕ/のスコアと比べると小さい。

【００６９】したがって、「あいちけんＧ」（Ｇはガー
ベージモデル）及び「あいちけんかりやし」のテンプレ
ートと「あいちけんかりやし」の音声をマッチングすれ
ば、そのスコアは「あいちけんＧ」＜「あいちけんかり
やし」となる可能性が高い（但し保証されているわけで
はない）。しかし、「あいちけんＧ（ガーベージモデ
ル）」及び「あいちけんかすがいし」のテンプレートと
「あいちけんかりやし」の音声をマッチングすれば、そ
のスコアは「あいちけんＧ」＜「あいちけんかすがい
し」となるとは限らず、かなりの確率で逆転する。

【００７０】続いて、ワイルドカードモデルの他の例で
ある音節連接モデルについて説明する。音節のＨＭＭは
単語を構成する単位となるが、これを任意に接続可能と
していおくと、あらゆる語の発声が認識できることにな
る。つまり、図９（Ｂ）に示すような音声連接モデルは
そのようなものである。なお、ここでは日本語の認識を
前提としている。

【００７１】これを「あいちけんＳＣＭ」（ＳＣＭは音
節連接モデル）のようにワイルドカードとしておくと
「愛知県刈谷市昭和町」のような発声に対してもマッチ
ング可能である。この場合、「あいちけんＳＣＭ」のモ
デルは「あいちけんかりやししょうわちょう」というモ
デルの表現を内包しているので、スコアとしては後者以
上の値を得ることができる。

【００７２】［辞書構成例２］上述したワイルドカード
モデルを使うと上述のような利点があるが、このワイル
ドカードはどのようなものにも緩やかにマッチングして
しまうので、誤認識の可能性を増やす原因ともなる。そ
こで、例えば県名辞書を構成する場合に、県名だけでな
く市町村名まで付加した冗長な状態で辞書を準備する。
そして、認識時には市町村名までマッチングするが、結
果としてはいずれの県名とマッチングしたかを判定す
る。より長い音声でマッチングをし、またワイルドカー
ドモデルのように緩やかにどのようなものにもマッチン
グするものではないため、認識率の向上が期待できる。

【００７３】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。例えば、上述した
実施形態では、音声認識装置３０を車両に搭載したナビ
ゲーションシステム２に適用した例として説明したが、
車載機器として用いられる場合だけではなく、例えば携
帯型ナビゲーション装置として実現してもよい。

【００７４】また、ナビゲーションではない他の処理を
実行する装置に対して音声入力で各種データの設定や指
示などを与える場合にでも適用はできる。

【図面の簡単な説明】

【図１】実施例としてのナビゲーションシステムの概
略構成を示すブロック図である。

【図２】音声認識装置における音声認識部と対話制御
部の構成を示すブロック図である。

【図３】辞書の読込依頼及びそれに対応した辞書読込
の説明図である。

【図４】音声認識装置における動作例１に係る処理を
示すフローチャートである。

【図５】音声認識装置における動作例２に係る処理を
示すフローチャートである。

【図６】音声認識装置における動作例３に係る処理を
示すフローチャートである。

【図７】音声認識装置における動作例４に係る処理を
示すフローチャートである。

【図８】ＨＭＭ（隠れマルコフモデル）の説明図であ
る。

【図９】ワイルドカードモデルの例としてのガーベー
ジモデル及び音節連接モデルの説明図である。

【符号の説明】２…ナビゲーションシステム４…位置検出器６…データ入力器８…操作スイッチ
群１０…制御回路１２…外部メモリ１４…表示装置１５…リモコンセ
ンサ１５ａ…リモコン１６…地磁気セ
ンサ１８…ジャイロスコープ２０…距離センサ２２…ＧＰＳ受信機３０…音声認識装
置３１…音声認識部３２…対話制御部３３…音声合成部３４…音声入力部３５…マイク３６…スイッチ３７…スピーカ３８…制御部３１１…照合部３１２…辞書部３１３…抽出結果記憶部３２１…処理部３２２…入力部３２３…辞書制御
部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５５１Ｑ (72)発明者赤堀一郎愛知県刈谷市昭和町１丁目１番地株式会社デンソー内 (72)発明者北岡教英愛知県刈谷市昭和町１丁目１番地株式会社デンソー内 (72)発明者名田徹愛知県刈谷市昭和町１丁目１番地株式会社デンソー内Ｆターム(参考） 2F029 AA02 AB01 AB07 AB09 AB13 AC02 AC04 AC08 AC18 5D015 HH06 HH14 KK02

Claims

【特許請求の範囲】

【請求項１】音声を入力するための音声入力手段と、最終的な認識対象が複数の語を階層的につなぎ合わせた
ものである場合の上位階層を構成する複数種類の語また
は語群に対応した上位階層テンプレートデータと、最終的な認識対象が複数の語を階層的につなぎ合わせた
ものである場合の上位階層を構成する複数種類の語また
は語群単位に準備され、上位階層に加えて下位階層を構
成する語または語群までを含んだ語群に対応した下位階
層テンプレートデータと、音声認識処理に際して高速アクセス性が相対的に低い第
１の記憶手段と、音声認識処理に際して高速アクセス性が相対的に高い第
２の記憶手段とを備えており、少なくとも前記下位階層辞書は前記第１の記憶手段に記
憶されており、前記音声入力手段を介して入力された音声を認識する際
には、まず、前記入力音声に基づいて得たマッチング用
データと前記上位階層テンプレートデータとを比較する
ことで、どの上位階層の語又は語群が含まれているかを
予備的に判定し、その予備判定にて含まれているとされ
た上位階層に対応する下位階層テンプレートデータを前
記第２の記憶手段に読み込み、その下位階層テンプレー
トデータを用いて最終的な認識結果を得ることを特徴と
する音声認識装置。
【請求項２】請求項１記載の音声認識装置において、前記上位又は下位のテンプレートデータの少なくとも一
方は辞書データであることを特徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、前記上位又は下位のテンプレートデータの少なくとも一
方は音声データであることを特徴とする音声認識装置。
【請求項４】請求項１〜３のいずれか記載の音声認識装
置において、最終的な認識対象が３階層以上で構成されている場合に
は、第１階層を前記上位階層とした前記上位階層テンプ
レートデータと、第２階層を前記下位階層とする下位階
層テンプレートデータとを備えるとともに、当該第２階
層を下位階層とする下位階層テンプレートデータを上位
階層とみなして第３階層を前記下位階層とする第２の下
位階層テンプレートデータとし、このような第２以降の
下位階層テンプレートデータを、存在する階層数に応じ
て備えることを特徴とする音声認識装置。
【請求項５】請求項１〜４のいずれか記載の音声認識装
置において、前記上位階層テンプレートデータ又は下位階層テンプレ
ートデータであっても相対的に上位の階層テンプレート
データとみなし得るテンプレートデータは、上位階層又
は相対的に上位の階層とみなし得るテンプレートデータ
を構成する複数種類の語または語群の後にそれ以外の語
又は語群が付属した音声入力に対してもマッチング可能
なワイルドカードモデルであることを特徴とする音声認
識装置。
【請求項６】請求項１〜４のいずれか記載の音声認識装
置において、前記上位階層テンプレートデータ又は下位階層テンプレ
ートデータであっても相対的に上位の階層テンプレート
データとみなし得るテンプレートデータは、上位階層又
は相対的に上位の階層とみなし得るテンプレートデータ
を構成する複数種類の語または語群の後に下位階層テン
プレートデータを構成する語又は語群が付属したもので
あることを特徴とする音声認識装置。
【請求項７】請求項１〜６のいずれか記載の音声認識装
置と、その音声認識装置にて認識された結果に基づいて
所定の処理を実行する処理装置とを備え、前記音声入力手段は、前記処理装置が処理をする上で指
定される必要のある所定のコマンドを利用者が音声にて
入力するためにも用いられるものである処理システムで
あって、前記音声認識装置は、前記コマンドを認識するためのテンプレートデータであ
るコマンド用テンプレートデータを実際の音声認識処理
を行う前に前記第２の記憶手段に読み込んでおくか、あ
るいは当該第２の記憶手段同様に高速アクセス性が相対
的に高い読み取り専用の第３の記憶手段に予め記憶して
おき、前記上位階層テンプレートデータ又は下位階層テンプレ
ートデータであっても相対的に上位の階層テンプレート
データとみなし得るテンプレートデータを用いた認識を
行って前記予備判定をし、その後に前記コマンド用テンプレートデータを用いた認
識を行うと共に、この認識と並行して前記予備判定の結
果に対応する下位階層テンプレートデータを前記第２の
記憶手段に読み込み、その読み込んだ下位階層テンプレ
ートデータを用いて認識を行い、必要であれば、さらに
下位階層のテンプレートデータを前記第２の記憶手段に
読み込んで認識を行い、前記コマンド用テンプレートデータを用いて得た認識結
果と前記最下位階層のテンプレートデータを用いて得た
認識結果の内でより確からしさが上位のものを最終的な
認識結果とすることを特徴とする処理システム。
【請求項８】請求項１〜６のいずれか記載の音声認識装
置と、その音声認識装置にて認識された結果に基づいて
所定の処理を実行するナビゲーション装置とを備え、前記音声入力手段は、少なくとも前記ナビゲーション装
置がナビゲート処理をする上で指定される必要のある所
定の地名関連データの指示を利用者が音声にて入力する
ために用いられ、前記第１の記憶手段が記憶している下
位階層テンプレートデータは少なくとも地名関連データ
に関するものである処理システムであって、前記ナビゲーション装置は、現在地を検出する現在地検
出手段を備え、前記音声認識装置は、前記上位階層テンプレートデータを用いた認識を行って
前記予備判定をし、前記現在地検出手段にて検出された現在地に対応する前
記下位階層テンプレートデータを前記第２の記憶手段に
読み込み、その下位階層テンプレートデータを用いた認
識を行うと共に、この認識と並行して前記予備判定の結
果に対応する下位階層テンプレートデータを前記第２の
記憶手段に読み込み、その読み込んだ下位階層テンプレ
ートデータを用いて認識を行い、必要であれば、さらに
下位階層のテンプレートデータを前記第２の記憶手段に
読み込んで認識を行い、前記現在地に対応する前記下位階層テンプレートデータ
を用いて得た認識結果と、前記最も下位階層のテンプレ
ートデータを用いて得た認識結果の内でより確からしさ
が上位のものを最終的な認識結果とすることを特徴とす
る処理システム。
【請求項９】請求項１〜６のいずれか記載の音声認識装
置と、その音声認識装置にて認識された結果に基づいて
所定の処理を実行するナビゲーション装置とを備え、前記音声入力手段は、少なくとも前記ナビゲーション装
置がナビゲート処理をする上で指定される必要のある所
定の地名関連データの指示を利用者が音声にて入力する
ために用いられ、前記第１の記憶手段が記憶している下
位階層テンプレートデータは少なくとも地名関連データ
に関するものである処理システムであって、前記ナビゲーション装置は、現在地を検出する現在地検
出手段を備え、前記音声認識装置は、前記現在地検出手段にて検出された現在地に対応する前
記下位階層テンプレートデータを前記第２の記憶手段に
予め読み込んでおき、前記上位階層テンプレートデータ及び前記予め読み込ん
でおいた下位階層テンプレートデータを用いて認識を行
い、その認識結果が、前記予め読み込んでおいた下位階
層テンプレートデータを用いて得られたものである場合
には、それを最終的な認識結果とし、一方、その認識結
果が、前記上位階層テンプレートデータを用いたもので
ある場合には、その認識結果に対応する下位階層テンプ
レートデータを前記第２の記憶手段に読み込み、その読
み込んだ下位階層テンプレートデータを用いて認識を行
い、必要であれば、さらに下位階層のテンプレートデー
タを前記第２の記憶手段に読み込んで認識を行い、その
最も下位階層のテンプレートデータを用いて得た認識結
果を最終的な認識結果とすることを特徴とする処理シス
テム。