JP3358498B2

JP3358498B2 - 音声認識装置及びナビゲーションシステム

Info

Publication number: JP3358498B2
Application number: JP19281697A
Authority: JP
Inventors: 教英北岡
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1997-07-17
Filing date: 1997-07-17
Publication date: 2002-12-16
Anticipated expiration: 2017-07-17
Also published as: JPH1138994A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばナビゲーシ
ョンシステムにおける目的地の設定などを音声によって
入力できるようにする場合などに有効な音声認識装置及
びその音声認識装置を備えたナビゲーションシステムに
関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来よ
り、入力された音声を予め記憶されている複数の比較対
象パターン候補と比較し、一致度合の高いものを認識結
果とする音声認識装置が既に実用化されており、例えば
ナビゲーションシステムにおいて設定すべき目的地を利
用者が地名を音声で入力するためなどに用いられてい
る。特に車載ナビゲーションシステムを運転手自身が利
用する場合、音声入力であればボタン操作や画面注視が
伴わないため、車両の走行中に行っても安全性が高いた
め有効である。

【０００３】このような機能を満たすためには、十分詳
細な地点の指定が容易にできなくてはならない。具体的
には、県や市のレベルではなく、市の下の町名のレベル
や、町村における大字といったレベルまで入力できる必
要がある。さらに、利用者が例えば「愛知県刈谷市昭和
町」と設定したい場合に、「愛知県」「刈谷市」「昭和
町」というように県市町というレベル毎に区切って発音
しなくてはならないとすると利用者にとって煩わしいの
で、ひと続きで入力（一括入力）できるようにすること
が好ましい。

【０００４】但し、このように一括入力に対応する構成
とした場合には、逆に利用者にとって使い勝手が悪くな
る状況も想定される。それは、設定すべき目的地を利用
者が再度入力しなくてはならない場合である。つまり、
現在の認識技術ではその認識結果が完全に正確なものと
は言い切れないため、一度の音声入力で必ずしも正確に
認識されるとは限らないからである。例えば利用者が
「愛知県刈谷市昭和（しょうわ）町」と音声で入力した
場合に、例えば「愛知県刈谷市松栄（しょうえい）町」
と誤って認識してしまうことが考えられる。そして、こ
のような誤認識の場合には、再度「愛知県刈谷市昭和
町」と音声入力する必要がある。

【０００５】しかしながら、日常生活における会話など
を考えると、このような誤認識の場合には、「愛知県刈
谷市昭和町」と音声入力するのではなく、誤認識された
町名だけを修正することが自然である。つまり、２回目
は「昭和町」だけを音声入力できるようにすることが好
ましいと考えられる。

【０００６】また、このような誤認識に起因するのでは
ないが、例えば車載ナビゲーションシステムを搭載した
車両が例えば愛知県内を走行しており、同じ愛知県内で
ある「愛知県刈谷市昭和町」を目的地として設定する場
合には、「愛知県刈谷市昭和町」と音声入力するのでは
なく、「愛知県」を省略して「刈谷市昭和町」と音声入
力する方が自然である。

【０００７】なお、このような問題は、上述した県市町
…からなる地名には限らず、同じように複数の語を階層
的につなぎ合わせたものとして設定されるものであれば
同様に適用できる。本発明は、このような問題を解決
し、音声認識装置への音声入力の対象が階層的構造の場
合に、上位階層を省略した方が自然な場合であっても上
位階層から音声入力しなくてはならないという利用者の
負担を軽減し、使い勝手をより向上させることを目的と
する。

【０００８】

【課題を解決するための手段及び発明の効果】上記目的
を達成するためになされた請求項１に記載の音声認識装
置は、音声を入力するための音声入力手段と、該音声入
力手段を介して入力された音声を、予め辞書手段に記憶
されている複数の比較対象パターン候補と比較して一致
度合の高いものを認識結果とする認識手段と、該認識手
段による認識結果を報知する報知手段と、該報知手段に
よって認識結果が報知された後に所定の確定指示がなさ
れた場合には、当該認識結果を確定したものとして所定
の確定後処理を実行する確定後処理手段とを備える音声
認識装置であって、前記辞書手段には比較対象パターン
候補となる語彙そのもののデータが記憶されると共に、
前記記憶されている複数の比較対象パターン候補の内の
少なくとも一つは、複数の語を階層的につなぎ合わせた
ものとして設定されており、前記認識結果を報知した後
の所定期間内に前回の認識結果と同じ所定のカテゴリに
属する音声入力がなされた場合の、その前回の認識結果
における前記複数の語を階層的につなぎ合わせた比較対
象パターン候補の上位階層を構成する語又は語群が、認
識処理時の省略対象として設定されている場合には、前
記認識手段が、その設定されている前記上位階層構成語
又は語群を省略した比較対象パターン候補も一時的に前
記辞書手段中の比較対象パターン候補と見なした上で、
前記前回の認識結果と同じ所定のカテゴリに属する入力
音声に対する比較を実行するよう構成されていることを
特徴とする。

【０００９】請求項１に記載の音声認識装置によれば、
利用者が音声入力手段を介して音声を入力すると、認識
手段が、その入力された音声を予め辞書手段に記憶され
ている複数の比較対象パターン候補と比較して一致度合
の高いものを認識結果とし、報知手段によって認識結果
を報知する。そして、認識結果が報知された後に所定の
確定指示がなされた場合には、確定後処理手段が、その
認識結果を確定したものとして所定の確定後処理を実行
する。ここで、辞書手段には比較対象パターン候補とな
る語彙そのもののデータが記憶されると共に、記憶され
ている複数の比較対象パターン候補の内の少なくとも一
つは、複数の語を階層的につなぎ合わせたものとして設
定されている。そしてさらに、認識結果を報知した後の
所定期間内に前回の認識結果と同じ所定のカテゴリに属
する音声入力がなされた場合の、その前回の認識結果に
おける複数の語を階層的につなぎ合わせた比較対象パタ
ーン候補の上位階層を構成する語又は語群が、認識処理
時の省略対象として設定されている場合には、認識手段
が、その設定されている上位階層構成語又は語群を省略
した比較対象パターン候補も一時的に辞書手段中の比較
対象パターン候補と見なした上で、前回の認識結果と同
じ所定のカテゴリに属する入力音声に対する比較を実行
する。

【００１０】請求項１に係る発明では、認識処理時の省
略対象として、認識結果を報知した後の所定期間内に前
回の認識結果と同じ所定のカテゴリに属する音声入力が
なされた場合の、その前回の認識結果の上位階層を構成
する語又は語群が設定されているのであるが、請求項２
に係る発明では、認識処理時の省略対象として、認識結
果を報知した後の所定期間内に再度音声入力ががなされ
た場合の、その前回の認識結果における複数の語を階層
的につなぎ合わせた比較対象パターン候補の上位階層を
構成する語又は語群が設定されている。したがって、こ
れらの発明によれば、予め辞書手段に設定されている比
較対象パターン候補以外であっても、認識処理時の省略
対象として設定されている比較対象パターン候補の上位
階層構成語又は語群を省略したものも一時的に辞書手段
中の比較対象パターン候補と見なされて入力音声に対す
る比較を実行されるため、そのような上位階層構成語又
は語群を省略した音声入力も許容されることとなる。

【００１１】このことによる効果を具体例で説明する。
例えば利用者が「愛知県刈谷市昭和（しょうわ）町」と
音声で入力したにもかかわらず、音声認識装置「愛知県
刈谷市松栄（しょうえい）町」と誤って認識してしまっ
た場合、利用者が再度音声入力する際に「愛知県刈谷市
昭和町」と音声入力するのではなく、「昭和町」だけを
音声入力するだけでよくなる。つまり、最初の音声入力
である「愛知県刈谷市昭和町」は、「愛知県」と「刈谷
市」と「昭和町」というそれぞれ地名としての異なるレ
ベルを示す複数の語を階層的につなぎ合わせたものであ
るため、その上位階層を構成する語又は語群である「愛
知県」あるいは「愛知県刈谷市」が認識処理時の省略対
象として設定されることとなる。そのため、２回目には
「昭和町」とだけ音声入力するだけでも、それが「愛知
県刈谷市」を省略したものであると見なして入力音声に
対する比較を実行できる。もちろん、愛知県だけを省略
して再度「刈谷市昭和町」と音声入力するような状況に
も対応できる。

【００１２】このように、装置側に誤認識された場合
に、その誤認識された部分（上述の例では「昭和町」と
いう町名）だけを修正することは、日常生活における会
話などの習慣から考えると、ごく自然である。音声認識
装置を利用する場合に限って特別な注意を払うことを強
制するのは使い勝手の点で好ましくない。したがって、
本発明の音声認識装置のように、誤認識の部分だけ修正
するという日常会話の習慣においてごく自然な振舞いに
対応できることによって、上位階層を省略した方が自然
な場合であっても上位階層から音声入力しなくてはなら
ないという利用者の負担を軽減し、使い勝手をより向上
させることができるのである。

【００１３】また、例えば音声認識装置がカーナビゲー
ションシステムにおいて目的地等を音声で入力するため
に用いられたとすると、そのシステム中のナビゲーショ
ン装置本体からの現在地情報等が考えられる。つまり、
ナビゲーションシステムを搭載した車両が例えば愛知県
内を走行しており、同じ愛知県内である「愛知県刈谷市
昭和町」を目的地として設定する場合には、「愛知県刈
谷市昭和町」と音声入力するのではなく、「愛知県」を
省略して「刈谷市昭和町」と音声入力する方がやはり自
然である。つまり、あえて愛知県から特定しないでも、
その下位階層である市レベルからの指定で十分であると
利用者が考えている状況である。

【００１４】このような場合でも、本発明の音声認識装
置であれば対応できる。つまり、上述の例であれば、車
両が現在愛知県内を走行しているのであれば、愛知県と
いう上位階層を認識処理時の省略対象として設定すれば
よいのである。このように、自分達が現在存在している
所定のエリア内については、そのエリアを特定する上位
階層の地名をあえて特定せず、その下位の階層から特定
するという日常会話の習慣においてごく自然な振舞いに
対応できることによって、上位階層を省略した方が自然
な場合であっても上位階層から音声入力しなくてはなら
ないという利用者の負担を軽減し、使い勝手をより向上
させることができるのである。

【００１５】ところで、上述した音声認識装置において
は、認識手段が、その設定されている上位階層構成語又
は語群を省略したものも一時的に辞書手段中の比較対象
パターン候補と見なした上で、入力音声に対する比較を
実行するのであるが、これを実行する上での構成例を２
つ示しておく。

【００１６】まず１つ目は、請求項４に示すように、認
識処理時の省略対象として設定されている上位階層構成
語又は語群を参照データとして一時的に記憶しておく参
照データ記憶手段を備えており、認識手段が、認識処理
実行の際、辞書手段に記憶されている複数の比較対象パ
ターン候補から参照データ記憶手段に記憶された参照デ
ータの上位階層を構成する語を省略したものも一時的に
辞書手段中の比較対象パターン候補と見なした上で、今
回の入力音声に対する比較を実行する構成である。

【００１７】２つ目は、請求項５に示すように、前回の
認識結果が複数の語を階層的につなぎ合わせたものであ
る場合には、その認識結果を参照データとして一時的に
記憶しておく参照データ記憶手段と、参照データ記憶手
段に記憶された参照データに基づき、辞書手段に記憶さ
れている該当する比較対象パターン候補から参照データ
の上位階層を構成する語を省略した第２の比較対象パタ
ーン候補を新設する辞書制御手段とを備えており、辞書
制御手段によって第２の比較対象パターン候補が新設さ
れた状態の辞書手段に記憶されている比較対象パターン
候補を用いて、認識手段が今回の入力音声に対する比較
を実行する構成である。

【００１８】また、認識結果の報知後に所定の確定指示
がなされた場合には、その認識結果を確定したものとし
て所定の確定後処理へ移行すると説明したが、この「所
定の確定後処理」とは、例えばカーナビゲーションシス
テムに用いられた場合には、認識結果としての目的地を
設定する処理自体あるいは目的地設定処理を実行する装
置側へその目的地を設定するよう指示する処理などが考
えられる。また、認識結果の報知後の「所定の確定指
示」に関しては、やはり音声で入力（例えば「はい」と
発声することで入力）したり、確定ボタンのようなスイ
ッチ類の操作によって指示したりすることが考えられ
る。

【００１９】また、比較対象パターンを除外して認識結
果を決定する場合の条件として、認識結果を報知した後
の所定期間内に再度音声入力がなされることを挙げてい
るが、この「所定期間内」としては、認識結果の報知後
に前記所定の確定指示がなされるまでとすることが考え
られる。つまり、確定指示がなされて所定の確定後処理
へ移行するということは正しい認識結果であったことを
意味するため、次回の音声入力についての最初の認識処
理については、前回の処理で省略対象として設定してい
たものをそのまま継続はしないようにする。特に、前回
の認識結果からその上位階層を構成する語又は語群を省
略対象として設定する場合には、装置側の誤認識に基づ
くものであり、それを次回の音声入力についての認識処
理についてまで持ち越すことは基本的には不適切である
からである。但し、現在地に基づいて県名などを省略す
るような場合には、結果的に省略対象が同じになること
は考えられる。

【００２０】さらに、前記認識結果の報知に関しては、
所定の音声発生装置から認識結果の内容を音声にて出力
することにより行うことが考えられる。カーナビゲーシ
ョンシステムなどの車載機器用として用いる場合には、
音声で出力されれば、ドライバーは視点を表示装置にず
らしたりする必要がないので、安全運転のより一層の確
保の点では有利であると言える。但し、音声出力に限定
されるものではなく、画面上に文字または記号を表示で
きる表示装置に、認識結果の内容を、文字または記号に
よる画像にて表示することにより行ったり、音声及び画
像の両方にて報知するようにしてもよいし、それら以外
の報知の手法を採用してもよい。車載機器として適用す
る場合に音声出力が有利であることを述べたが、もちろ
ん車両が走行中でない状況もあるので、音声及び画像の
両方で報知すれば、ドライバーは表示による確認と音声
による確認との両方が可能となる。

【００２１】また、請求項１〜６のいずれかに記載の音
声認識装置をナビゲーションシステム用として用いる場
合には、請求項７に示すように構成することが考えられ
る。すなわち、請求項１〜６のいずれかに記載の音声認
識装置と、ナビゲーション装置とを備え、音声認識装置
の音声入力手段は、少なくともナビゲーション装置がナ
ビゲート処理をする上で指定される必要のある所定のナ
ビゲート処理関連データの指示を利用者が音声にて入力
するために用いられるものであり、確定後処理手段は、
認識手段による認識結果をナビゲーション装置に出力す
るよう構成されているのである。この場合の「所定のナ
ビゲート処理関連データ」としては、目的地が代表的な
ものとして挙げられるが、それ以外にもルート探索に関
する条件選択など、ナビゲート処理をする上で指定の必
要のある指示が含まれる。そしてこの場合は、認識結果
としてのナビゲート処理関連情報を報知することとなる
が、上述したように、一度音声入力した地名の一部が誤
認識されていた場合に、その誤っている下位階層だけを
再入力すればよくなるなど、利用者の使い勝手が向上す
る。

【００２２】

【００２３】なお、音声認識装置の適用先としては、上
述したナビゲーションシステムには限定されない。例え
ば音声認識装置を空調システム用として用いる場合に
は、設定温度の調整、空調モード（冷房・暖房・ドラ
イ）の選択、あるいは風向モードの選択を音声入力によ
って行うようにすることが考えられる。

【００２４】例えば設定温度について言えば、「設定温
度を２５度にする」や「設定温度を５度下げる」という
ように、設定温度に関する指示であるが、その指示内容
について複数存在する場合である。本発明を適用すれ
ば、「設定温度を２５度にする」と入力したのに「設定
温度を２２度にする」と誤認識した場合には、再度の音
声入力では「２５度にする」だけ入力すればよくなり、
やはり利用者の使い勝手が向上する。空調モードや風向
モードなどについても同様である。

【００２５】つまり、「複数の語を階層的につなぎ合わ
せたものとして設定されている比較対象パターン候補」
としては、上述したナビゲーションシステムにおける地
名のような県市町…という階層関係だけでなく、上述し
た空調システムにおいて調整対象（例えば設定温度）を
上位階層とし、それに対する調整内容（例えば２５度に
する）を下位階層とするといったこともできる。

【００２６】なお、上述のナビゲーションシステム及び
空調システムは、車載機器として用いられる場合だけで
はなく、例えば携帯型ナビゲーション装置や屋内用空調
装置などでもよい。但し、これまで説明したように車載
機器用として用いる場合には利用者がドライバーである
ことが考えられ、その場合には運転自体が最重要であ
り、それ以外の車載機器については、なるべく運転に支
障がないことが好ましい。したがって、車載機器として
のナビゲーションシステムや空調システムを前提とした
音声認識装置の場合には、より一層の利点がある。もち
ろん、このような視点で考えるならば、ナビゲーション
システムや空調システム以外の車載機器に対しても同様
に利用することができる。例えば、カーオーディオ機器
などは有効である。また、いわゆるパワーウインドウの
開閉やミラー角度の調整などを音声によって指示するよ
うな構成を考えれば、そのような状況でも有効である。

【００２７】

【発明の実施の形態】図１は本発明の実施形態の音声認
識装置３０を適用したカーナビゲーションシステム２の
概略構成を示すブロック図である。本カーナビゲーショ
ンシステム２は、位置検出器４、地図データ入力器６、
操作スイッチ群８、これらに接続された制御回路１０、
制御回路１０に接続された外部メモリ１２、表示装置１
４及びリモコンセンサ１５及び音声認識装置３０を備え
ている。なお制御回路１０は通常のコンピュータとして
構成されており、内部には、周知のＣＰＵ、ＲＯＭ、Ｒ
ＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバスラインが
備えられている。

【００２８】前記位置検出器４は、いずれも周知の地磁
気センサ１６、ジャイロスコープ１８、距離センサ２
０、及び衛星からの電波に基づいて車両の位置を検出す
るＧＰＳ（Global Positioning System ）のためのＧＰ
Ｓ受信機２２を有している。これらのセンサ等１６，１
８，２０，２２は各々が性質の異なる誤差を持っている
ため、複数のセンサにより、各々補間しながら使用する
ように構成されている。なお、精度によっては上述した
内の一部で構成してもよく、更に、ステアリングの回転
センサ、各転動輪の車輪センサ等を用いてもよい。

【００２９】地図データ入力器６は、位置検出の精度向
上のためのいわゆるマップマッチング用データ、地図デ
ータ及び目印データを含む各種データを入力するための
装置である。媒体としては、そのデータ量からＣＤ−Ｒ
ＯＭを用いるのが一般的であるが、メモリカード等の他
の媒体を用いても良い。

【００３０】表示装置１４はカラー表示装置であり、表
示装置１４の画面には、位置検出器４から入力された車
両現在位置マークと、地図データ入力器６より入力され
た地図データと、更に地図上に表示する誘導経路や後述
する設定地点の目印等の付加データとを重ねて表示する
ことができる。

【００３１】また、本カーナビゲーションシステム２
は、リモートコントロール端末（以下、リモコンと称す
る。）１５ａを介してリモコンセンサ１５から、あるい
は操作スイッチ群８により目的地の位置を入力すると、
現在位置からその目的地までの最適な経路を自動的に選
択して誘導経路を形成し表示する、いわゆる経路案内機
能も備えている。このような自動的に最適な経路を設定
する手法は、ダイクストラ法等の手法が知られている。
操作スイッチ群８は、例えば、表示装置１４と一体にな
ったタッチスイッチもしくはメカニカルなスイッチ等が
用いられ、各種入力に使用される。

【００３２】そして、音声認識装置３０は、上記操作ス
イッチ群８あるいはリモコン１５ａが手動操作により目
的地などを指示するために用いられるのに対して、利用
者が音声で入力することによっても同様に目的地などを
指示することができるようにするための装置である。

【００３３】この音声認識装置３０は、「認識手段」と
しての音声認識部３１と、対話制御部３２と、音声合成
部３３と、音声入力部３４と、「音声入力手段」として
のマイク３５と、ＰＴＴ（Push-To-Talk）スイッチ３６
と、スピーカ３７とを備えている。

【００３４】音声認識部３１は、音声入力部３４から入
力された音声データを、対話制御部３２からの指示によ
り入力音声の認識処理を行い、その認識結果を対話制御
部３２に返す。すなわち、音声入力部３４から取得した
音声データに対し、記憶している辞書データを用いて照
合を行ない、複数の比較対象パターン候補と比較して一
致度の高い上位比較対象パターンを対話制御部３２へ出
力する。入力音声中の単語系列の認識は、音声入力部３
４から入力された音声データを順次音響分析して音響的
特徴量（例えばケプストラム）を抽出し、この音響分析
によって得られた音響的特徴量時系列データを得る。そ
して、周知のＤＰマッチング法によって、この時系列デ
ータをいくつかの区間に分け、各区間が辞書データとし
て格納されたどの単語に対応しているかを求める。

【００３５】対話制御部３２は、その認識結果及び自身
が管理する内部状態から、音声合成部３３への応答音声
の発声指示や、システム自体の処理を実行する制御回路
１０に対して例えばナビゲート処理のために必要な目的
地を通知して設定処理を実行させるよう指示する処理を
実行する。このような処理が確定後処理であり、結果と
して、この音声認識装置３０を利用すれば、上記操作ス
イッチ群８あるいはリモコン１５ａを手動しなくても、
音声入力によりナビゲーション装置に対する目的地の指
示などが可能となるのである。

【００３６】また音声入力部３４は、マイク３５にて取
り込んだ周囲の音声をデジタルデータに変換して音声認
識部３１に出力するものである。本実施形態において
は、利用者がＰＴＴスイッチ３６を押しながらマイク３
５を介して音声を入力するという使用方法である。具体
的には、音声入力部３４はＰＴＴスイッチ３６が押され
たかどうかを判断しており、ＰＴＴスイッチ３６が押さ
れている場合にはマイク３５を介しての音声入力処理を
実行するが、押されていない場合にはその音声入力処理
を実行しないようにしている。したがって、ＰＴＴスイ
ッチ３６が押されている間にマイク３５を介して入力さ
れた音声データのみが音声認識部３１へ出力されること
となる。

【００３７】ここで、音声認識部３１と対話制御部３２
についてさらに説明する。図２は、この音声認識部３１
と対話制御部３２の構成をさらに詳しく示したものであ
り、（Ａ），（Ｂ）の２つの構成例を説明する。まず、
図２（Ａ）に示す構成では、音声認識部３１が照合部３
１ａと辞書部３１ｂとで構成されており、対話制御部３
２が記憶部３２ａ、入力部３２ｂ及び後処理部３２ｃで
構成されている。音声認識部３１においては、照合部３
１ａが、音声入力部３４から取得した音声データに対
し、辞書部３１ｂ内に記憶されている辞書データを用い
て照合を行なうのであるが、詳しくは、まずは対話制御
部３２の記憶部３２ａに参照すべきデータがあれば、そ
れを参照して省略可能な上位階層リストを作成する。そ
して、その省略可能な上位階層部分を辞書部３１ｂ内に
記憶されている辞書データから省略したものも一時的に
比較対象パターン候補と見なした上で照合を行なうので
ある。この照合の詳細については後述する。

【００３８】そして、照合部３１ａにて複数の比較対象
パターン候補と比較されて一致度が高いとされた上位比
較対象パターンは、対話制御部３２の記憶部３２ａへ出
力すされることとなる。ところで、本実施形態の辞書部
３１ｂに記憶されている辞書データは、比較対象パター
ン候補となる語彙そのもののデータだけでなく、その比
較対象パターンとなる語彙が複数の語を階層的につなぎ
合わせたものである場合には、その階層構造を示すデー
タも記憶されている。具体的には、語彙を構成する音節
データが図３に示すように木（tree）構造の各辺（図３
において矢印（→）で示す）に割り付けられている。な
お、図３において、一重丸（○）は頂点を表し、二重丸
（◎）は受理頂点、すなわち単語に対する頂点を表す。
そして、図３中の矢印Ａで示す頂点が「根」となり、そ
こから先行順走査（preorder traversal）にしたがって
各辺に割り付けられ音節を辿ることで単語が完成する。
ここで「先行順走査」とは、根を訪問し、次に子を根と
する部分木を順番に走査（この走査も先行順走査であ
る。）していくことを指す。なお、ここで、「親」とは
直前の頂点、「子」とは次の頂点、「兄弟」とは同じ親
を持つ頂点同士をそれぞれ意味する。

【００３９】つまり、図３に示す具体例では、「根」と
なる頂点（矢印Ａで示す）から順に辿ると「あいちけ
ん」となって矢印Ｂで示す受理頂点となる。したがっ
て、「あいちけん（愛知県）」で一つの認識対象単語と
なる。そして、さらにその矢印Ｂで示す受理頂点を経由
して「かりやし」となって矢印Ｃで示す受理頂点とな
る。したがって、あいちけんかりやし（愛知県刈谷
市）」でも一つの認識対象単語となる。さらにその矢印
Ｃで示す受理頂点を経由して「子」の頂点がある。図３
には図示しないが例えば「しょうわちょう」と辿ること
ができて受理頂点があるため、「あいちけんかりやしし
ょうわちょう（愛知県刈谷市昭和町）」でも一つの認識
対象単語である。

【００４０】この場合には、例えば「あいちけんかりや
ししょうわちょう（愛知県刈谷市昭和町）」という一つ
の認識対象単語は、「あいちけん（愛知県）」と「かり
やし（刈谷市）」と「しょうわちょう（昭和町）」とい
う３つの語が階層的につなぎ合わせたものである。した
がって、このように３階層となっているということが図
３に矢印Ｂ，Ｃで示す受理頂点の存在によって判る。つ
まり、受理頂点はそこまで辿ってきた音節データで単語
が構成されることを示すが、逆にその受理頂点から下流
側にさらに音節データがある場合には、その受理頂点よ
りも上流側が上位階層となり、下流側が下位階層とな
る。例えば、図３に矢印Ｂで示す受理頂点を考えると、
上流側の「あいちけん（愛知県）」が上位階層であり、
下流側の「かりやし（刈谷市）……」が下位階層であ
る。つまり、この場合には県を示す語が上位階層で、市
レベル以下を示す語が下位階層となる。また、図３に矢
印Ｃで示す受理頂点を考えると、上流側の「あいちけん
かりやし（愛知県刈谷市）」が上位階層であり、図３に
は示していないが下流側の例えば「しょうわちょう（昭
和町）」が下位階層となる。

【００４１】以上は辞書部３１ｂに記憶されている辞書
データの説明として、愛知県刈谷市昭和町という具体例
で説明したが、基本的には都道府県を最上位階層とし、
市レベルを２番目の階層、町レベルを３番目の階層とし
て他の地名についてもデータが設定されている。なお、
「基本的に」といったのは、県の次の市レベルで「町」
や「村」が来る地名もあるからである。

【００４２】辞書部３１ｂの説明はこれで終わることと
する。上述したように、音声認識部３１においては、照
合部３１ａが、音声入力部３４から取得した音声データ
に対し、辞書部３１ｂ内に記憶されている複数の比較対
象パターン候補と比較して一致度の高い上位比較対象パ
ターンを対話制御部３２の記憶部３２ａへ出力する。そ
して記憶部３２ａでは、この上位比較対象パターンを記
憶しておく。また、入力部３２ｂは制御回路１０からの
外部状況を入力するのであるが、その入力した外部状況
も記憶部３２ａに記憶される。この場合の外部状況と
は、上述した位置検出器４によって検出した位置に基づ
く現在地のデータである。なお、この記憶部３２ａに記
憶された上位比較対象パターンや入力した外部状況であ
る現在地データなどは、所定の確定指示がなされた場合
にはクリアされる。

【００４３】そして、後処理部３２ｃでは、例えば上記
所定の確定指示がなされた場合に制御回路１０へデータ
を送って所定の処理をするように指示する「確定後処
理」を実行したり、あるいは音声合成部３３へ音声デー
タを送って発音させるように指示する処理を実行する。
なお、この場合の制御回路１０へ送るデータとしては、
最終的な認識結果としての上位比較対象パターンの全て
でもよいし、あるいはその内の最上位のものだけでもよ
い。

【００４４】一方、図２（Ｂ）に示す構成では、音声認
識部３１が照合部１３１ａと辞書部１３１ｂとで構成さ
れており、対話制御部３２が記憶部１３２ａ、入力部１
３２ｂ、後処理部１３２ｃ及び辞書制御部１３２ｄで構
成されている。上記図２（Ａ）に示す構成では、対話制
御部３２の記憶部３２ａに参照すべきデータがあれば、
音声認識部３１の照合部３１ａが対話制御部３２の記憶
部３２ａに記憶されている参照データを参照して省略可
能な上位階層リストを作成し、それに基づいて照合処理
を行なうようにしていたが、図２（Ｂ）の構成では、照
合部３１ａにおける照合処理に先だって、対話制御部３
２の辞書制御部１３２ｄが辞書３１ｂに記憶されている
辞書データの制御を行なう。具体的には、記憶部１３２
ａに記憶されている参照データを参照して省略可能な上
位階層リストを作成し、その省略可能な上位階層部分を
辞書部３１ｂ内に記憶されている辞書データから一時的
に省略する。このように辞書制御がなされた辞書データ
を用いて照合部３１ａが照合処理を実行するのである。

【００４５】なお、後処理部１３２ｃの動作は、上記図
２（Ａ）の場合と同様なので、ここでは説明を省略す
る。次に、本実施形態１のカーナビゲーションシステム
２の動作について説明する。なお、音声認識装置３０に
関係する部分が特徴であるので、カナビゲーションシス
テムとしての一般的な動作を簡単に説明した後、音声認
識装置３０に関係する部分の動作について詳しく説明す
ることとする。

【００４６】カーナビゲーションシステム２の電源オン
後に、表示装置１４上に表示されるメニューから、ドラ
イバーがリモコン１５ａ（操作スイッチ群８でも同様に
操作できる。以後の説明においても同じ）により、案内
経路を表示装置１４に表示させるために経路情報表示処
理を選択した場合、あるいは、音声認識装置３０を介し
て希望するメニューをマイク３５を介して音声入力する
ことで、対話制御部３２から制御回路１０へ、リモコン
１５ａを介して選択されるのを同様の指示がなされた場
合、次のような処理を実施する。

【００４７】すなわち、ドライバーが表示装置１４上の
地図に基づいて、音声あるいはリモコンなどの操作によ
って目的地を入力すると、ＧＰＳ受信機２２から得られ
る衛星のデータに基づき車両の現在地が求められ、目的
地と現在地との間に、ダイクストラ法によりコスト計算
して、現在地から目的地までの最も短距離の経路を誘導
経路として求める処理が行われる。そして、表示装置１
４上の道路地図に重ねて誘導経路を表示して、ドライバ
ーに適切なルートを案内する。このような誘導経路を求
める計算処理や案内処理は一般的に良く知られた処理で
あるので説明は省略する。

【００４８】次に、音声認識装置３０における動作につ
いて、上述の経路案内のための目的地を音声入力する場
合を例にとって説明する。図４は、その場合の音声認識
部３１及び対話制御部３２における処理を示すフローチ
ャートである。なお、本フローチャートは、音声認識部
３１及び対話制御部３２が図２（Ａ）に示す構成を備え
ていることを前提とした処理を示している。

【００４９】まず最初のステップＳ１０においては音声
入力があるかどうかを判断する。上述したように、ＰＴ
Ｔスイッチ３６が押されている間にマイク３５を介して
入力された音声データのみが音声入力部３４から音声認
識部３１へ出力されるので、この音声入力部３４からの
音声入力があるかどうかを判断する。音声入力があれば
（Ｓ１０：ＹＥＳ）、対話制御部３２内の記憶部３２ａ
（図２（Ａ）参照）を参照し（Ｓ２０）、参照データが
あるかどうかを判断する（Ｓ３０）。この参照データは
Ｓ８０の処理において記憶されたものである。Ｓ８０の
処理は後で説明する。記憶部３２ａ内に参照データがあ
れば（Ｓ３０：ＹＥＳ）、その参照データに基づいて次
の２つの処理を実行する（Ｓ４０）。すなわち、省略
可能な上位階層リストの作成と照合開始頂点の決定で
ある。ここでは、図３に示した辞書データの具体例であ
る「あいちけんかりやししょうえいちょう（愛知県刈谷
市松栄町）」が参照データとして記憶されていた場合に
ついて説明する。この参照データについては、上述した
受理頂点Ｂ，Ｃ（図３参照）を考慮すると、「あいちけ
ん（愛知県）」という上位階層と、「あいちけんかりや
し（愛知県刈谷市）」という上位階層の２つが考えられ
る。したがって、このＳ４０では、上記の省略可能な
上位階層リストとしては、「あいちけん」及び「あいち
けんかりやし」を作成することとなる。そして、の照
合開始頂点の決定は次のように行なう。つまり、図３に
示す辞書データであれば、上述したように、図３中の矢
印Ａで示す頂点が「根」となり、そこから先行順走査
（preorder traversal）にしたがって各辺に割り付けら
れ音節を辿ることで単語が完成する。したがって、この
状態では照合開始頂点は矢印Ａで示す頂点だけである
が、上記によって２つの省略可能な上位階層リストが
作成されたので、これに応じた照合開始頂点を追加決定
する。つまり、上位階層リスト「あいちけん」の受理頂
点である矢印Ｂで示す受理頂点と、上位階層リスト「あ
いちけんかりやし」の受理頂点である矢印Ｃで示す受理
頂点を新たな照合開始頂点として決定するのである。

【００５０】Ｓ４０の処理後は、Ｓ５０へ移行して音声
認識処理を実行する。なお、Ｓ３０で否定判断、すなわ
ち参照データがない場合にはＳ４０の処理を実行するこ
となくＳ５０へ移行する。ここで、Ｓ５０での音声認識
処理について説明する。基本的には、取得した音声デー
タに対して辞書部３１ｂ内に記憶されている辞書データ
を用いて照合を行なうのであるが、その際、Ｓ４０で照
合開始頂点が追加決定されているので、その追加決定さ
れた照合開始頂点から始まる単語も一時的に辞書データ
中の単語であるとして照合を行なう。そして、その追加
決定された照合開始頂点から始まる単語との照合結果に
より上位比較対象パターンが定まった場合には、記憶部
３２ａに記憶されている上位階層リストの内の対応する
ものをその上位比較対象パターンに付加した上で、最終
的な認識結果としての上位比較対象パターンを決定す
る。これにより認識結果が決定される。例えば、図３中
の矢印Ｃで示す受理頂点が照合開始頂点となり、この照
合開始頂点から始まる単語である「しょうわちょう（昭
和町）」が上位比較対象パターンとして定まった場合に
は、対応する上位階層リストが「あいちけんかりやし」
であるため、最終的な認識結果としては「あいちけんか
りやししょうわちょう（愛知県刈谷市昭和町）」とな
る。

【００５１】図４のフローチャートの説明に戻り、続く
Ｓ６０では、Ｓ５０での音声認識処理による認識結果
が、「はい」という音声入力であるかどうかを判断す
る。そして、「はい」という音声入力でなければ（Ｓ６
０：ＮＯ）、続くＳ７０にて認識結果が所定カテゴリに
属するものであるかどうかを判断する。ここでは経路案
内のための目的地を設定する処理を前提としているの
で、この所定カテゴリとは地名に関するカテゴリであ
る。

【００５２】この所定カテゴリであれば（Ｓ７０：ＹＥ
Ｓ）、Ｓ８０へ移行して、その認識結果を参照データと
してとして記憶部３２ａ（図２（Ａ）参照）に記憶させ
る。そして、続くＳ９０にて、音声応答処理を実行す
る。これは、音声合成部３３及びスピーカ３７を介して
認識結果を音声として出力する処理である。

【００５３】一方、所定カテゴリでなければ（Ｓ７０：
ＮＯ）、Ｓ１００へ移行してその他の処理を実行する。
Ｓ９０あるいはＳ１００の処理の後はＳ１０へ戻って、
処理を繰り返す。また、Ｓ６０で肯定判断、すなわち認
識結果が「はい」という音声入力であった場合には、Ｓ
１１０へ移行して認識結果を確定する。そして続くＳ１
２０にて、所定の確定後処理を実行する。この場合の確
定後処理とは、認識結果としての「経路案内のための目
的地」に関するデータを、制御回路１０へ（図１参照）
へ出力する処理などである。

【００５４】このような確定後処理が終了した後は、Ｓ
１３０へ移行して、Ｓ８０の処理で記憶部３２ａに記憶
されていた参照データを削除する。その後、Ｓ１０へ戻
る。以上が、経路案内のための目的地を音声入力する場
合を例にとった場合の動作説明であるが、本発明の音声
認識に係る特徴及び効果をより明確に理解するために、
Ｓ５０の処理説明でも触れたが、目的地として「愛知県
刈谷市昭和（しょうわ）町」を指定するという具体例で
説明を続ける。

【００５５】利用者がマイク３５を介して「愛知県刈谷
市昭和町」と音声入力したとする。音声認識の精度が１
００％でない場合には誤認識してしまう可能性がある。
例えば「愛知県刈谷市松栄（しょうえい）町」と誤って
認識してしまった場合には、音声認識装置３０はその音
声をスピーカ３７を介して出力する。

【００５６】これにより利用者は誤って認識されている
ことが判るので、再度「愛知県刈谷市昭和町」であるこ
とを音声認識装置３０側に音声入力しなくてはならな
い。但し、利用者が再度音声入力する際には「愛知県刈
谷市昭和町」と音声入力するのではなく、「昭和町」だ
けを音声入力するだけでよくなる。つまり、最初の音声
入力である「愛知県刈谷市昭和町」は、「愛知県」と
「刈谷市」と「昭和町」というそれぞれ地名としての異
なるレベルを示す複数の語を階層的につなぎ合わせたも
のであるため、その上位階層を構成する語又は語群であ
る「愛知県」あるいは「愛知県刈谷市」が認識処理時の
省略対象（図４のＳ４０で説明した省略可能な上位階層
リストに該当する）として設定されることとなる。その
ため、２回目には「昭和町」とだけ音声入力するだけで
も、それが「愛知県刈谷市」を省略したものであると見
なして入力音声に対する比較を実行できる。もちろん、
愛知県だけを省略して再度「刈谷市昭和町」と音声入力
する状況にも対応できる。

【００５７】このように、音声認識装置３０側に誤認識
された場合に、その誤認識された部分（上述の例では
「昭和町」という町名）だけを修正することは、日常生
活における会話などの習慣から考えると、ごく自然であ
る。音声認識装置３０を利用する場合に限って特別な注
意を払うことを強制するのは使い勝手の点で好ましくな
い。したがって、本音声認識装置３０のように、誤認識
の部分だけ修正するという日常会話の習慣においてごく
自然な振舞いに対応できることによって、上位階層を省
略した方が自然な場合であっても上位階層から音声入力
しなくてはならないという利用者の負担を軽減し、使い
勝手をより向上させることができるのである。

【００５８】なお、図４のフローチャートに示すよう
に、Ｓ１２０での確定後処理が終了した場合には、Ｓ１
３０にて記憶部３２ａの参照データを削除している。つ
まり、この参照データは誤認識された場合を想定し、Ｓ
４０での省略可能な上位階層リストの作成のために記憶
されたものであるため、Ｓ１２０での確定後処理が終了
してしまえば、もう不必要となり、逆に次回の音声認識
に対しては無関係なデータであるため、ここで削除して
おくのである。

【００５９】ところで、図４のフローチャートに示す処
理内容は、図２（Ａ）に示す構成を前提としたものであ
ったが、図２（Ｂ）に示す構成を前提とした場合につい
て説明しておく。この場合も基本的な処理は同じである
が、Ｓ４０及びＳ５０の処理内容が多少異なることとな
る。つまり、図２（Ａ）に示す構成を前提とした場合に
は、Ｓ４０にて省略可能な上位階層リストの作成と照合
開始頂点の決定をし、Ｓ５０の音声認識処理において
は、Ｓ４０で追加決定された照合開始頂点から始まる単
語も一時的に辞書データ中の単語であるとして照合を行
なうようにした。

【００６０】それに対して、図２（Ｂ）に示す構成を前
提とした場合には、Ｓ４０に相当する処理として次のよ
うな内容の処理を実行する。つまり、省略可能な上位階
層リストの作成は同じであるが、辞書制御部１３２ｄ
が、その省略可能な上位階層リストに基づき、辞書部３
１ｂに記憶されている該当する比較対象パターン候補か
らその上位階層リストを構成する語を省略した第２の比
較対象パターン候補を新設することとなる。上述した具
体例で言えば、「しょうわちょう（昭和町）」や「かり
やししょうわちょう（刈谷市昭和町）」などがこれに相
当する。したがって、図４のＳ５０に相当する処理とし
ては、この辞書制御部１３２ｄによって第２の比較対象
パターン候補が新設された状態の辞書部３１ｂに記憶さ
れている比較対象パターン候補を用いて照合部３１ａに
よる通常の照合が実施される。なお、この場合には、図
４のＳ１３０に相当する処理として、記憶部１３２ａの
参照データを削除すると共に、辞書制御部１３２ｄによ
って辞書部３１ｂに新設された第２の比較対象パターン
候補が削除され、元の状態に復帰される。［別実施形態］以上図１〜図４を参照して、一実施形態を説明したが、
別のいくつかの実施形態について説明する。

【００６１】（１）上記実施形態では、認識処理時の省
略対象として、認識結果を報知した後の所定期間内に前
回の認識結果と同じ所定のカテゴリに属する音声入力が
なされた場合の、その前回の認識結果の上位階層を構成
する語を想定した。しかし、これには限定されず、次の
ような実施形態も考えられる。つまり、制御回路１０か
ら入力した外部状況（図２参照）に基づく場合である。
具体的には、カーナビゲーションシステム２システム中
のナビゲーション装置本体から入力した現在地情報等で
ある。つまり、カーナビゲーションシステム２を搭載し
た車両が例えば愛知県内を走行しており、同じ愛知県内
である「愛知県刈谷市昭和町」を目的地として設定する
場合には、「愛知県刈谷市昭和町」と音声入力するので
はなく、「愛知県」を省略して「刈谷市昭和町」と音声
入力する方がやはり自然である。つまり、あえて愛知県
から特定しないでも、その下位階層である市レベルから
の指定で十分であると利用者が考えている状況である。

【００６２】このような場合には、対話制御部３２が制
御回路１０から外部状況としての現在地を入力し、例え
ば「愛知県」という上位階層を認識処理時の省略対象と
して設定すればよい。このように、自分達が現在存在し
ている所定のエリア内については、そのエリアを特定す
る上位階層の地名をあえて特定せず、その下位の階層か
ら特定するという日常会話の習慣においてごく自然な振
舞いに対応できることによって、上位階層を省略した方
が自然な場合であっても上位階層から音声入力しなくて
はならないという利用者の負担を軽減し、使い勝手をよ
り向上させることができる。

【００６３】（２）また、上記実施形態では、「報知手
段」としてスピーカ３７を用い、音声出力により認識結
果を報知するようにしたが、このように音声で出力され
れば、認識結果の確認のためにドライバーが視点を移動
する必要がないので、一層の安全運転に貢献できる。つ
まり、カーナビゲーションシステム２を車載機器用とし
て用いているので、このような音声出力には利点があ
る。もちろん、画面上に文字または記号を表示すること
により認識結果を報知してもよいし、音声を出力するこ
とにより報知すると共に画面上に文字または記号を表示
することにより報知するようにしてもよい。そして、画
面上に認識結果を表示させる場合には、カーナビゲーシ
ョンシステム２の地図情報を表示するための表示装置１
４（図１参照）に表示させるような構成を採用すること
もできる。

【００６４】なお、上記図４のＳ４０の処理において
は、認識結果が所定カテゴリに属するものであるかどう
かを判断するものとし、その所定カテゴリとは目的地の
設定を前提にするため地名に関するカテゴリであると説
明した。しかしながら、本発明の主旨はこのような地名
等に限定されるものではなく、抽象的に言えば、認識結
果を出力し、利用者の確認を得てから正式に確定する必
要があるような情報に関するカテゴリということであ
る。具体的に上述のカーナビゲーションシステム２で言
うならば、ナビゲート処理をする上で指定される必要の
ある所定のナビゲート処理関連情報の指示ということと
なる。この「所定のナビゲート処理関連情報」の代表的
なものが目的地であるが、それ以外にもルート探索に関
する条件選択など、ナビゲート処理をする上で指定の必
要のある指示が含まれる。

【００６５】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。例えば、上述した
実施形態では、音声認識装置３０をカーナビゲーション
システム２に適用した例として説明したが、適用先とし
ては、上述したカーナビゲーションシステム２には限定
されない。例えば音声認識装置を空調システム用として
用いる場合には、設定温度の調整、空調モード（冷房・
暖房・ドライ）の選択、あるいは風向モードの選択を音
声入力によって行うようにすることが考えられる。例え
ば設定温度について言えば、「設定温度を２５度にす
る」や「設定温度を５度下げる」というように、設定温
度に関する指示であるが、その指示内容について複数存
在する場合である。本発明を適用すれば、「設定温度を
２５度にする」と入力したのに「設定温度を２２度にす
る」と誤認識した場合には、再度の音声入力では「２５
度にする」だけ入力すればよくなり、やはり利用者の使
い勝手が向上する。空調モードや風向モードなどについ
ても同様である。

【００６６】なお、上述のカーナビゲーションシステム
２や空調システムは、車載機器として用いられる場合だ
けではなく、例えば携帯型ナビゲーション装置や屋内用
空調装置などでもよい。但し、これまで説明したように
車載機器用として用いる場合には利用者がドライバーで
あることが考えられ、その場合には運転自体が最重要で
あり、それ以外の車載機器については、なるべく運転に
支障がないことが好ましい。したがって、車載機器とし
てのカーナビゲーションシステム２や空調システムを前
提とした音声認識装置の場合には、より一層の利点があ
る。もちろん、このような視点で考えるならば、ナビゲ
ーションシステムや空調システム以外の車載機器に対し
ても同様に利用することができる。例えば、カーオーデ
ィオ機器などは有効である。また、いわゆるパワーウイ
ンドウの開閉やミラー角度の調整などを音声によって指
示するような構成を考えれば、そのような状況でも有効
である。

【図面の簡単な説明】

【図１】本発明の実施の形態としてのカーナビゲーシ
ョンシステムの概略構成を示すブロック図である。

【図２】音声認識装置における音声認識部と対話制御
部の構成を示すブロック図である。

【図３】音声認識部内の辞書部に記憶されている辞書
データを示す説明図である。

【図４】音声認識装置における音声認識及び対話制御
に係る処理を示すフローチャートである。

【符号の説明】

２…カーナビゲーションシステム４…位置検出器６…地図データ入力器８…操作スイッチ
群１０…制御回路１２…外部メモリ１４…表示装置１５…リモコンセ
ンサ１５ａ…リモコン１６…地磁気セ
ンサ１８…ジャイロスコープ２０…距離センサ２２…ＧＰＳ受信機３０…音声認識装
置３１…音声認識部３１ａ…照合部３１ｂ…辞書部３２…対話制御
部３２ａ…記憶部３２ｂ…入力部３２ｃ…後処理部３３…音声合成
部３４…音声入力部３５…マイク３６…ＰＴＴスイッチ３７…スピーカ１３２ａ…記憶部１３２ｂ…入力部１３２ｃ…後処理部１３２ｄ…辞書制
御部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５６１Ｅ 15/28 ５５１Ｑ (56)参考文献特開平11−24693（ＪＰ，Ａ) 特開平10−253378（ＪＰ，Ａ) 特開平８−328584（ＪＰ，Ａ) 特開平７−311591（ＪＰ，Ａ) 特開平６−66591（ＪＰ，Ａ) 特開平８−320697（ＪＰ，Ａ) 特開昭62−266599（ＪＰ，Ａ) 特開平８−202386（ＪＰ，Ａ) 特開平７−21200（ＪＰ，Ａ) 特開平10−62198（ＪＰ，Ａ) 特公昭63−800（ＪＰ，Ｂ２) 特許2947143（ＪＰ，Ｂ２) 国際公開97／10583（ＷＯ，Ａ１) 北岡，加藤，杉浦，赤堀，車載機器用音声対話システム，情報処理学会研究報告（ＳＬＰ），日本，1996年７月27日, ＳＬＰ 12−12，57−62 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 G01C 21/00 G09B 29/00 G09B 29/10 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を入力するための音声入力手段と、該音声入力手段を介して入力された音声を、予め辞書手
段に記憶されている複数の比較対象パターン候補と比較
して一致度合の高いものを認識結果とする認識手段と、該認識手段による認識結果を報知する報知手段と、該報知手段によって認識結果が報知された後に所定の確
定指示がなされた場合には、当該認識結果を確定したも
のとして所定の確定後処理を実行する確定後処理手段と
を備える音声認識装置であって、前記辞書手段には比較対象パターン候補となる語彙その
もののデータが記憶されると共に、前記記憶されている
複数の比較対象パターン候補の内の少なくとも一つは、
複数の語を階層的につなぎ合わせたものとして設定され
ており、前記認識結果を報知した後の所定期間内に前回の認識結
果と同じ所定のカテゴリに属する音声入力がなされた場
合の、その前回の認識結果における前記複数の語を階層
的につなぎ合わせた比較対象パターン候補の上位階層を
構成する語又は語群が、認識処理時の省略対象として設
定されている場合には、前記認識手段が、その設定され
ている前記上位階層構成語又は語群を省略した比較対象
パターン候補も一時的に前記辞書手段中の比較対象パタ
ーン候補と見なした上で、前記前回の認識結果と同じ所
定のカテゴリに属する入力音声に対する比較を実行する
よう構成されていることを特徴とする音声認識装置。
【請求項２】音声を入力するための音声入力手段と、該音声入力手段を介して入力された音声を、予め辞書手
段に記憶されている複数の比較対象パターン候補と比較
して一致度合の高いものを認識結果とする認識手段と、該認識手段による認識結果を報知する報知手段と、該報知手段によって認識結果が報知された後に所定の確
定指示がなされた場合には、当該認識結果を確定したも
のとして所定の確定後処理を実行する確定後処理手段と
を備える音声認識装置であって、前記辞書手段には比較対象パターン候補となる語彙その
もののデータが記憶されると共に、前記記憶されている
複数の比較対象パターン候補の内の少なくとも一つは、
複数の語を階層的につなぎ合わせたものとして設定され
ており、前記認識結果を報知した後の所定期間内に再度音声入力
がなされた場合の、その前回の認識結果における前記複
数の語を階層的につなぎ合わせた比較対象パターン候補
の上位階層を構成する語又は語群が認識処理時の省略対
象として設定され、該省略対象として設定されている場
合には、前記認識手段が、その設定されている前記上位
階層構成語又は語群を省略した比較対象パターン候補も
一時的に前記辞書手段中の比較対象パターン候補と見な
した上で、前記再度音声入力された音声に対する比較を
実行するよう構成されていることを特徴とする音声認識
装置。
【請求項３】請求項１又は２に記載の音声認識装置に
おいて、前記認識手段が前回の認識結果からその上位階層を構成
する語を省略したものも一時的に前記辞書手段中の比較
対象パターン候補と見なした上で今回の入力音声に対す
る比較を実行することの許容される所定期間は、前記認
識結果の報知後に前記所定の確定指示がなされるまでで
あることを特徴とする音声認識装置。
【請求項４】請求項１〜３のいずれかに記載の音声認
識装置において、前記認識処理時の省略対象として設定されている上位階
層構成語又は語群を参照データとして一時的に記憶して
おく参照データ記憶手段を備えており、前記認識手段が、認識処理実行の際、前記辞書手段に記
憶されている複数の比較対象パターン候補から前記参照
データ記憶手段に記憶された参照データの上位階層を構
成する語を省略したものも一時的に前記辞書手段中の比
較対象パターン候補と見なした上で、今回の入力音声に
対する比較を実行するよう構成されていることを特徴と
する音声認識装置。
【請求項５】請求項１〜３のいずれかに記載の音声認
識装置において、前回の認識結果が複数の語を階層的につなぎ合わせたも
のである場合には、その認識結果を参照データとして一
時的に記憶しておく参照データ記憶手段と、該参照データ記憶手段に記憶された参照データに基づ
き、前記辞書手段に記憶されている該当する比較対象パ
ターン候補から前記参照データの上位階層を構成する語
を省略した第２の比較対象パターン候補を新設する辞書
制御手段とを備えており、前記辞書制御手段によって前記第２の比較対象パターン
候補が新設された状態の前記辞書手段に記憶されている
比較対象パターン候補を用いて、前記認識手段が今回の
入力音声に対する比較を実行するよう構成されているこ
とを特徴とする音声認識装置。
【請求項６】請求項１〜５のいずれかに記載の音声認
識装置において、前記報知手段は、音声を出力することにより報知する手
段であり、前記認識結果の報知は、前記認識結果の内容
を音声として前記音声出力手段から出力することによっ
て行われることを特徴とする音声認識装置。
【請求項７】請求項１〜６のいずれかに記載の音声認
識装置と、ナビゲーション装置とを備え、前記音声認識装置の前記音声入力手段は、少なくとも前
記ナビゲーション装置がナビゲート処理をする上で指定
される必要のある所定のナビゲート処理関連データの指
示を利用者が音声にて入力するために用いられるもので
あり、前記確定後処理手段は、前記認識手段による認識
結果を前記ナビゲーション装置に出力するよう構成され
ていることを特徴とするナビゲーションシステム。