JPH11231894A

JPH11231894A - 音声認識装置

Info

Publication number: JPH11231894A
Application number: JP10035818A
Authority: JP
Inventors: Isamu Tateno; 勇立野
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1998-02-18
Filing date: 1998-02-18
Publication date: 1999-08-27

Abstract

(57)【要約】【課題】階層構造データを音声認識する際に、非上位
階層データが入力された場合であっても階層構造データ
を確実に素早く認識できるようにする。【解決手段】使用者が階層構造データの中間階層デー
タ及び下位階層データを音声入力したときは（Ｓ１３：
ＹＥＳ）、音声入力した中間階層データ及び下位階層デ
ータを保持すると共に、上位階層データを入力するよう
に音声案内する（Ｓ１５）。これにより、使用者は上位
階層データを音声入力するようになるので、音声入力さ
れた上位階層データと記憶している中間階層データ及び
下位階層データとから階層構造データを確定し、該当す
る地図画面することができる（Ｓ７）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声と予め辞
書手段に記憶されている複数の比較対象パターン候補と
を比較して類似度の高いものを認識結果として出力する
ような音声認識装置に関する。

【０００２】

【従来の技術】従来より、入力音声から判読されたデー
タを予め記憶してある標準パターンと比較し、その類似
度が最大となる標準パターンを認識結果とする音声認識
装置が実用化されている。

【０００３】

【発明が解決しようとする課題】このような音声認識装
置において、地名のように認識対象が例えば上位階層デ
ータ、中間階層データ、下位階層データのような階層構
造データとなっているものを、一括入力できる構成が考
えられる。

【０００４】しかしながら、階層構造データを一括入力
できる反面、使用者にとってはかえって使い勝手が悪化
する場合がある。例えば、ナビゲーションシステムにお
いて、都道府県名（上位階層データ）、市区郡町村名
（中間階層データ）、町域名（大字、小字、番地等）
（下位階層データ）の各階層データを一括入力すること
になるが、使用者は上位階層データから下位階層データ
に順序立てて入力せざるを得ず、中間階層データからの
入力が不可能である。例えば、「府中市」と言って音声
入力した場合、上位階層データの都道府県名が「東京
都」なのか、「広島県」なのかを確定することができな
い。また、「府中」とだけ音声入力した場合、「府中」
の属性を確定することができず、住所データ（府中市）
なのか、施設データ（府中競馬場）なのかが不明のた
め、「府中」を確実に判別することができない。

【０００５】また、ナビゲーションシステム以外のシス
テムにおいても、音声認識装置の認識対象とする階層構
造データにおける上位階層データを省略した方が自然な
場合、或いは上位階層データを忘れてしまったり、知ら
ない場合においては中間階層データからの音声入力でも
判別できることが望ましい。

【０００６】本発明は上記事情に鑑みてなされたもの
で、その目的は、階層構造データを音声認識する際に、
途中の階層データ（非上位階層データ）が入力された場
合であっても階層構造データを確実に認識することが可
能となる音声認識装置を提供することにある。

【０００７】

【課題を解決するための手段】請求項１の発明によれ
ば、使用者が音声入力すると、音声入力手段は、入力音
声を音声信号に変換する。そして、認識手段は、音声入
力手段からの音声信号を、予め辞書手段に記憶されてい
る複数の比較対象パターン候補と比較して類似度の高い
ものを認識結果とする。

【０００８】ここで、音声案内手段は、認識手段による
認識結果が複数の語を階層的につなぎ合わせた階層構造
データにおける非上位階層データ、即ち中間階層デー
タ、下位階層データなどであったときは上位階層データ
を確定するための問い掛けを音声案内する。これによ
り、認識手段は、音声案内手段による音声案内に応じて
入力された音声データに基づいて上位階層データを確実
に音声認識することができる。

【０００９】請求項２の発明によれば、使用者が非上位
階層データを音声入力すると、属性確定手段は、認識手
段による認識結果に基づいて音声データの属性を確定す
る。そして、音声案内手段は、属性確定手段が確定した
属性の上位階層データを入力することを問い掛ける。

【００１０】つまり、音声認識した非上位階層データが
例えば「府中市」であるときは、「府中市」は地名デー
タに属し、その上位階層データは都道府県であることか
ら、「都道府県名を入力して下さい」と音声案内する。
これにより、使用者が「東京都」と音声入力したとき
は、「東京都府中市」と確定することができる。

【００１１】請求項３の発明によれば、認識手段が音声
入力された非上位階層データを認識できたときは、上位
階層候補検索手段は、非上位階層データに基づいて上位
階層候補を検索する。そして、音声案内手段は、上位階
層候補検索手段が検索した上位階層データを順に問い掛
ける。

【００１２】つまり、音声認識した非上位階層データが
例えば「府中市」であるときは、「府中市」の上位階層
データは「東京都」と「広島県」と検索することができ
るので、「東京都ですか」、「広島県ですか」と順に問
い掛ける。これにより、使用者が「東京都ですか」とい
う問い掛けに対して、「はい」と返答したときは、「東
京都府中市」と確定することができる。

【００１３】

【発明の実施の形態】（第１の実施の形態）以下、本発
明をカーナビゲーションに適用した第１の実施の形態を
図面を参照して説明する。図１は本発明の概略構成を示
すブロック図である。この図１において、カーナビゲー
ションシステム１は、位置検出器２、地図データ入力器
３、操作スイッチ群４、これらに接続された制御回路
５、この制御回路５に接続された外部メモリ６、表示装
置７、リモコンセンサ８及び音声認識装置９を備えて構
成されている。制御回路５はマイクロコンピュータを主
体として構成されており、内部には、周知のＣＰＵ、Ｒ
ＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバス
ライン（何れも図示せず）が備えられている。

【００１４】位置検出器２は、周知構成の地磁気センサ
１０、ジャイロスコープ１１、距離センサ１２、及び衛
星からの電波に基づいて車両の位置を検出するＧＰＳ
（Global Positioning System ）のためのＧＰＳ受信機
１３を有している。制御回路５は、位置検出器２の各セ
ンサが性質の異なる誤差を有しているため、各々補間し
ながら使用するように構成されている。

【００１５】地図データ入力器３は、位置検出の精度向
上のための所謂マップマッチング用データ、地図データ
及び目印データを含む各種データを入力するための装置
である。そのための媒体としては、ＣＤ−ＲＯＭを用い
るのが一般的であるが、メモリカードなどの他の媒体を
用いるようにしてもよい。

【００１６】表示装置７はカラー表示機能を備えてお
り、その画面には、位置検出器２から入力された車両現
在位置マークと、地図データ入力器３より入力された地
図データと、さらに地図上に表示する誘導経路や後述す
る設定地点の目印などの付加データとを重ねて表示する
ようになっている。

【００１７】また、カーナビゲーションシステム１は、
リモートコントロール端末１４（以下、リモコンと称す
る）に対する操作によりリモコンセンサ８から、或いは
操作スイッチ群４により目的地の位置を入力すると、現
在位置からその目的地までの最適な経路を自動的に選択
して誘導経路を形成して表示する所謂経路案内機能も備
えている。このような自動的に最適な経路を設定する手
法は、ダイクストラ法などの手法が知られている。操作
スイッチ群４は、例えば、表示装置７と一体になったタ
ッチスイッチ若しくはメカニカルスイッチなどが用いら
れ、各種入力に使用される。

【００１８】そして、音声認識装置９は、上記操作スイ
ッチ群４或いはリモコン１４が手動操作により目的地な
どを指示するために用いられるのに対して、使用者が音
声で入力することによっても同様に目的地などを指示す
ることができるようにするための装置として設けられて
いる。

【００１９】この音声認識装置９は、対話制御部１５
（音声案内手段、属性確定手段、上位階層候補検索手段
に相当）、音声合成部１６、音声認識部１７（認識手
段、辞書手段に相当）、音声入力部１８、マイク１９
（音声入力手段に相当）、ＰＴＴ（Push-To-Talk）スイ
ッチ２０、スピーカ２１を備えて構成されている。

【００２０】音声認識部１７は、音声入力部１８から入
力された音声データ（入力音声）を、対話制御部１５か
らの指示により入力音声の認識処理を行い、その認識結
果を対話制御部１５に返す。即ち、音声入力部１８から
取得した音声データに対し、記憶している辞書データを
用いて照合を行い、複数の比較対象パターン候補と比較
して類似度の高い上位比較対象パターンを対話制御部１
５へ出力する。入力音声中の単語系列の認識は、音声入
力部１８から入力された音声データを順次音響分析して
音響特徴量（例えばケプストラム）を抽出し、この音響
分析によって得られた音響的特徴量時系列データを得
る。そして、周知のＤＰマッチング法によって、この時
系列データをいくつかの区間に分け、各区間が辞書デー
タとして格納されたどの単語に対応しているかを求め
る。

【００２１】また、音声入力部１８は、マイク１９にて
取り込んだ周囲の音声をデジタルデータに変換して音声
認識部１７に出力するものである。本実施の形態におい
ては、使用者がＰＴＴスイッチ２０を押しながらマイク
１９を介して音声を入力するようになっている。具体的
には、音声入力部１８は、ＰＴＴスイッチ２０が押され
たかどうかを判断しており、ＰＴＴスイッチ２０が押さ
れていない場合には、その音声入力処理を実行しないよ
うにしている。従って、ＰＴＴスイッチ２０が押されて
いる間にマイク１９を介して入力された音声データのみ
が音声認識部１７へ出力されることになる。

【００２２】ここで、音声認識部１７と対話制御部１５
について説明する。図２は、音声認識部１７及び対話制
御部１５の詳細構成を示したものである。まず、図２に
示す構成では、音声認識部１７が照合部２２と辞書部２
３とで構成されており、対話制御部１５が記憶部２４、
入力部２５、後処理部２６及び辞書制御部２７で構成さ
れている。音声認識部１７においては、照合部２２が、
音声入力部１８から取得した音声データに対し、辞書部
２３内に記憶されている辞書データを用いて照合を行う
のであるが、その照合部における照合処理に先立って、
対話制御部１５の辞書制御部２７が辞書に記憶されてい
る辞書データの制御を行う。具体的には、記憶部２４に
記憶されている参照データを参照して省略可能な上位階
層リストを作成し、その省略可能な上位階層部分を辞書
部２３内に記憶されている辞書データから一時的に省略
する。このように辞書制御がなされた辞書データを用い
て照合部２２が照合処理を実行するものである。

【００２３】そして、照合部２２にて複数の比較対象パ
ターン候補と比較されて類似度が高いとされた上位比較
対象パターンは、対話制御部１５の記憶部へ出力される
こととなる。

【００２４】ところで、本実施の形態の辞書部２３に記
憶されている辞書データは、比較対象パターン候補とな
る語彙そのもののデータだけでなく、その比較対処パタ
ーンとなる語彙が複数の語を階層的につなぎ合わせたも
のである場合には、その階層構造を示すデータも記憶さ
れている。具体的には、語彙を構成する音節データが図
３に示すように木(tree)構造の各辺（図３において矢印
（→）で示す）に割り付けられている。尚、図３におい
て、一重丸（○）は頂点を表し、二重丸（◎）は受理頂
点、即ち単語に対する頂点を表す。

【００２５】この場合、図３に示す例では、矢印Ａで示
す頂点が「根」となり、そこから先行順走査(preoder t
raversal) にしたがって各辺に割り付けられた音節を辿
ることで単語が完成する。ここで、先行順走査とは、根
を訪問し、次に子を根とする部分木を順番に走査（この
走査も先行順走査である）していくことを指す。尚、こ
こで、「親」とは直前の頂点、「子」とは次の頂点を意
味する。

【００２６】つまり、図３に示す具体例では、「根」と
なる頂点（矢印Ａで示す）から順に辿ると、「とうきょ
うと」となって矢印Ｂで示す受理頂点となる。従って、
「とうきょうと（東京都）」で一つの認識対象単語とな
る。そして、さらにその矢印Ｂで示す受理頂点を経由し
て「ふちゅうし」となって矢印Ｃで示す受理頂点とな
る。従って、「とうきょうとふちゅうし（東京都府中
市）」でも一つの認識対象単語となる。さらに矢印Ｃで
示す受理頂点を経由して「子」の頂点がある。図３では
図示しないが「＊＊＊ちょう」と辿ったところに受理頂
点があるため、「とうきょうとふちゅうし＊＊＊ちょう
（東京都府中市＊＊＊町）でも一つの認識対象単語であ
る。さらに、受理頂点を経由して「孫」となって受理頂
点となり、その孫により町域名（大字、小字、番地名）
が認識される。

【００２７】この場合には、例えば「とうきょうとふち
ゅうし＊＊＊ちょう＊＊＊ばんち（東京都府中市＊＊＊
町＊＊＊番地）」という一つの認識対象単語は、「とう
きょうと（東京都）」と「ふちゅうし（府中市）」と
「＊＊＊ちょう（＊＊＊町）」と「＊＊＊ばんち（番
地）」という４つの語が階層的につなぎ合わせたもので
ある。従って、このように４階層となっているというこ
とが図３に矢印Ｂ，Ｃで示す受理頂点の存在によって分
る。本実施の形態では、図４に示すように都道府県名を
示す語が上位階層、市区郡町村名を示す語が中間階層、
町域名を示す語が下位階層に設定されている。この場
合、中間階層にあっては、「府中市」だけでは中間階層
を確定することができず、「府中市＊＊＊町」で中間階
層を確定できることになる。

【００２８】以上は辞書部２３に記憶されている辞書デ
ータの説明として、東京都府中市＊＊＊町＊＊＊番地と
いう具体例で示したが、基本的には都道府県を上位階層
とし、市区群町村レベルを中間階層、町域（字、番地）
レベルを下位階層として他の地名についてもデータが設
定されている。

【００２９】上述したように、音声認識部１７において
は、照合部２２が、音声入力部１８から取得した音声デ
ータに対し、辞書部２３内に記憶されている複数の比較
対象パターン候補と比較して類似度の高い上位比較対象
パターンを対話制御部１５の記憶部２４へ出力する。そ
して、記憶部２４では、この上位比較対象パターンを記
憶しておく。また、入力部２５は制御回路５からの外部
状況を入力するのであるが、その入力した外部状況も記
憶部２４に記憶される。この場合の外部状況とは、上述
した位置検出器２によって検出した位置に基づく現在値
のデータである。尚、この記憶部２４に記憶された上位
比較対象パターンや入力した外部状況である現在データ
などは、所定の確定指示がなされた場合にはクリアされ
る。

【００３０】そして、後処理部２６では、例えば上記所
定の確定指示がなされた場合に制御回路５へデータを送
って所定の処理をするように指示する「確定後処理」を
実行したり、或いは音声合成部１６へ音声データを送っ
て発音させるように指示する処理を実行する。尚、この
場合の制御回路５へ送るデータとしては、最終的な認識
結果としての上位比較対象パターンの全てでもよいし、
或いはその内の最上位のものだけでもよい。

【００３１】次に、本実施の形態のカーナビゲーション
システム１の動作について説明する。尚、音声認識装置
９に関係する部分が特徴であるので、カーナビゲーショ
ンシステムとしての一般的な動作を簡単に説明した後、
音声認識装置９に関係する部分の動作について詳しく説
明する。

【００３２】カーナビゲーションシステム１の電源オン
後に、表示装置７上に表示されるメニューから、運転者
がリモコン１４（操作スイッチ群４でも同様に操作でき
る。以後の説明においても同じ）により、案内経路を表
示装置７に表示させるために経路情報表示処理を選択し
た場合、或いは音声認識装置９を介して希望するメニュ
ーをマイク１９を介して音声入力することで、対話制御
部１５から制御回路５へ、リモコン１４に対する操作に
より選択されるのと同様の指示がなされた場合、次のよ
うな処理を実施する。

【００３３】即ち、運転者が表示装置７上の地図に基づ
いて、音声或いはリモコン１４などの操作によって目的
地を入力すると、位置検出器２により車両の現在地が求
められ、目的地と現在地との間に、ダイクストラ法によ
りコスト計算して、現在地から目的地までの最も短距離
の経路を誘導経路として求める処理が行われる。そし
て、表示装置７上の道路地図に重ねて誘導経路を表示し
て、運転者に適切なルートを案内する。このような誘導
経路を求める計算処理や案内処理は一般的によく知られ
た処理であるので説明は省略する。

【００３４】次に、カーナビゲーションシステム１にお
ける動作について、上述の経路案内のための目的地を音
声入力する場合を例にとって説明する。図５は、その場
合の処理を示すフローチャートである。

【００３５】まず、使用者による音声入力を受け付ける
（Ｓ１）。つまり、上述したように、ＰＴＴスイッチ２
０が押されている間にマイク１９を介して入力された音
声データのみが音声入力部１８から音声認識部１７に出
力されるので、この音声入力部１８からの音声入力を受
け付ける。

【００３６】ここで、使用者が例えば「東京都府中市
朝日町＊＊＊番地」と音声入力したときは、入力デー
タが地名データであることを確認してから（Ｓ２：ＹＥ
Ｓ）、地名データに対応した辞書データに基づいて照合
開始頂点の決定を次のように行う。つまり、図３に示す
辞書データの場合は、上述したように、図３中の矢印Ａ
で示す頂点が「根」となり、そこから先行順走査にした
がって各辺に割り付けられた音節を辿ることで単語が完
成する。

【００３７】次に音声認識処理を実行する。基本的に
は、取得した音声データに対して辞書部２３内に記憶さ
れている辞書データを用いて照合を行う。そして、照合
開始頂点から始まる単語との照合結果により「東京都
府中市朝日町＊＊＊番地」を認識することができる。
この場合、音声認識したデータは地名データであり、か
つ先頭のデータから上位階層データ、中間階層データ、
下位階層データであるので（Ｓ５：ＹＥＳ）、「東京都
府中市朝日町＊＊＊番地を表示します」と音声案内
してから（Ｓ６）、該当する地図画面を表示する（Ｓ
７）。

【００３８】また、使用者が「東京都」と上位階層デー
タのみ音声入力したときは（Ｓ４：ＮＯ）、「東京都」
という上位階層データを保持してから（Ｓ８）、「市町
村名を入力下さい」と音声案内する（Ｓ９）。

【００３９】その後、またはステップＳ９の後、使用者
が「府中市朝日町」と音声入力したときは、フローチャ
ートには示していないが保持データ及び音声データの階
層を判断する。この場合、上位階層データを既に保持し
ていることから、ステップＳ３を飛越してステップＳ４
に移行することにより音声データが中間階層データであ
ることを確認してから（Ｓ４：ＹＥＳ）、さらに下位階
層データが入力しないことを判断し（Ｓ５：ＮＯ）、上
位階層データ及び中間階層データを保持してから（Ｓ１
０）、「大字、番地を入力下さい」と音声案内する（Ｓ
１１）。

【００４０】その後、またはステップＳ１１の後、使用
者が「＊＊＊番地」と音声入力したときは、上位階層デ
ータ及び中間階層データを既に保持していることから、
ステップＳ３及びＳ４を飛越してステップＳ５に移行す
ることにより音声データが下位階層データであることを
確認する（Ｓ５：ＹＥＳ）。続いて、全ての階層データ
を階層的につなぎ合わせることにより「東京都府中市
朝日町＊＊＊番地を表示します」と音声案内してから
（Ｓ６）、該当する地図画面を表示する（Ｓ７）。

【００４１】また、使用者が「東京都府中市朝日町」
と上位階層データ及び中間階層データのみ音声入力した
ときは（Ｓ５：ＮＯ）、「東京都府中市朝日町」とい
う上位階層データ及び中間階層データを保持してから
（Ｓ１０）、「大字、番地を入力下さい」と音声案内し
（Ｓ１１）、その後、使用者が「＊＊＊番地」を入力し
たところで（Ｓ５：ＹＥＳ）、全ての階層データをつな
ぎ合わせることにより該当する地図画面を表示する（Ｓ
７）。

【００４２】ところで、使用者によっては「東京都」と
いう上位階層データの音声入力を省略して「府中市朝日
町」という中間階層データから音声入力する場合があ
る。この場合、「府中市朝日町」が地名データであるこ
とは確定することはできるものの、「府中市朝日町」の
上位階層データが「東京都」なのか、「広島」なのかを
確定することができない。さらには、「府中」とだけ音
声入力された場合は、「府中」が住所データなのか、施
設データ（例えば「府中競馬場（東京競馬場）」）なの
か、属性を含めて確定することができない。

【００４３】そこで、本実施の形態の音声認識装置にあ
っては、例えば音声入力が「府中」だけであると認識し
た場合は、属性が確定できないことから、属性を確定す
るための問い返す音声ガイド機能を付加すると共に、属
性が地名データであると確定できたときは、上位階層デ
ータを問い返す音声入力ガイド機能を付加した。

【００４４】即ち、音声入力された地名データが「府中
市朝日町」と中間階層データのみであったときは（Ｓ１
３：ＮＯ）、中間階層データである「府中市朝日町」を
保持してから（Ｓ１７）、「都道府県名と大字、番地を
入力下さい」と音声案内する（Ｓ１８）。

【００４５】ここで、使用者が「東京都＊＊＊番地」
と音声入力したときは、上位階層データ、中間階層デー
タ、下位階層データを階層的につなぎ合わせることがで
きるので（Ｓ５：ＹＥＳ）、「東京都府中市朝日町
＊＊＊番地を表示します」と音声案内してから（Ｓ
６）、該当する地図データを表示する（Ｓ７）。

【００４６】また、音声入力された地名データが「府中
市朝日町＊＊＊番地」と中間階層データ及び下位階層
データであったときは、先頭データは中間階層データと
判断すると共に（Ｓ１２：ＹＥＳ）、続くデータは下位
階層データであると判断し（Ｓ１３：ＹＥＳ）、中間階
層データ及び下位階層データを保持してから（Ｓ１
４）、「都道府県名を入力下さい」と音声案内する（Ｓ
１５）。

【００４７】使用者が「東京都」と上位階層データを音
声入力すると、中間階層データ及び下位階層データが既
に保持されていることから、上位階層データ、中間階層
データ、下位階層データを階層的につなぎ合わせること
ができるので（Ｓ５：ＹＥＳ）、「東京都府中市朝日
町、＊＊＊番地を表示します」と音声案内してから（Ｓ
６）、該当する地図データを表示する（Ｓ７）。

【００４８】また、使用者が下位階層データである「＊
＊＊番地」とだけ音声入力したときは（Ｓ１２：Ｎ
Ｏ）、適切に入力されていないと判断して、「もう一度
入力下さい」と音声案内する（Ｓ１６）。

【００４９】一方、使用者が音声入力した音声データが
地名データ以外の場合は、データが階層構造を有してい
ないことから、その音声データの属性に適したモードを
実行する（Ｓ２：ＮＯ）。

【００５０】このような第１の実施の形態によれば、使
用者がカーナビゲーションシステム１において目的地を
音声入力により設定する際に、地名データの中間階層デ
ータから音声入力した場合は、上位階層データを確定で
きるように「都道府県名を入力下さい」と音声案内する
ようにしたので、使用者は直ちに上位階層データを音声
入力することができる。従って、中間階層データから音
声入力し続けた場合は、階層構造データを確定すること
ができない従来構成のものと違って、階層構造データを
確定することができ、以て目的地の画面表示動作を確実
に素早く行うことができる。

【００５１】（第２の実施の形態）音声認識部１７に
は、中間階層データである市区郡町村名が確定したとこ
ろで、上位階層データである都道府県名を検索し、確定
できた上位階層データを問い掛ける機能が備えられてい
る（上位階層候補検索手段に相当）。

【００５２】即ち、中間階層データとして「東京都府
中市朝日町」が確定したときは、「東京都ですか」と問
い掛け、「はい」と返答すれば、「東京都府中市朝日
町」を確定することができる。従って、下位階層データ
である「＊＊＊番地」も確定したところで該当する地図
画面を表示する。このとき、「東京都ですか」と問い掛
けに対して、「いいえ」と返答したときは、「広島県で
すか」と問い掛け、「はい」と返答したときは、「広島
県府中市」を確定すると共に下位階層データを確定し
たところで該当する地図画面を表示する。

【００５３】尚、「東京都」という問い掛けに対して
「広島県」と返答したときは、「広島県府中市朝日
町」を確定する。また、「競馬場」と返答したときは、
音声データの属性は施設データであると判断し、「東京
都府中競馬場」を確定する。

【００５４】この第２の実施の形態によれば、中間階層
データの音声認識に基づいて上位階層データを検索した
ときは、検索した上位階層データを順に問い掛けること
により上位階層データを確定するようにしたので、第１
の実施の形態と同様に、音声入力により上位階層データ
を確実に素早く音声認識することができる。

【００５５】本発明は、上記実施の形態にのみ限定され
るものではなく、次のように変形または拡張できる。上
述した音声案内内容としては、学習データ、或いは前回
データ、さらには使用者が設定したデータであってもよ
い。属性を問い返すガイド機能としては、問い返す属性
の優先順位は、現在自走中の都道府県、或いは市区郡町
村でもよい。また、過去の学習結果から優先順位を決定
するようにしてもよい。

【００５６】音声入力が認識できなかったときは、使用
者に音声入力対象の属性を問い返すガイド機能を設ける
ようにしてもよい。音声入力の認識の結果、例えば「府
中市」と確定できたものの「＊＊＊町」までは確定でき
ず、複数の単語（例えば「府中市朝日町」、「府中市
＊＊＊町」が該当すると判断した場合は、単語を「府
中市」と「＊＊＊町」と詳細化することにより該当する
単語を探索するようにしてもよい。

【００５７】音声認識装置の適用としては、空調システ
ムに適用して、音声入力により設定温度、空調モード
（冷房、暖房、ドライ）の選択、或いは風向モードの選
択を行うようにしてもよい。さらには、カーオーディ
オ、パワウインドの開閉、ミラーの角度調整に適用する
ようにしてもよい。ナビゲーションシステムや空調シス
テムを、例えば携帯型ナビゲーションシステム或いは屋
内用空調装置などのように車載機器以外に適用してもよ
い。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における全体構成を
示すブロック図

【図２】音声認識部及び対話制御部を詳細に示すブロッ
ク図

【図３】辞書データを説明するための図

【図４】階層レベルとレベルとの関係を示す図

【図５】全体の動作を示すフローチャート

【符号の説明】

１はカーナビゲーションシステム、１５は対話制御部
（音声案内手段、属性確定手段、上位階層候補検索手
段）、１７は音声認識部（認識手段、辞書手段）、１９
はマイク（音声入力手段）である。

Claims

【特許請求の範囲】

【請求項１】入力音声を音声信号に変換するための音
声入力手段と、この音声入力手段からの音声信号を、予め辞書手段に記
憶されている複数の比較対象パターン候補と比較して類
似度の高いものを認識結果とする認識手段とを備えた音
声認識装置において、前記認識手段による認識結果が複数の語を階層的につな
ぎ合わせた階層構造データにおける非上位階層データで
あったときは上位階層データを確定するための問い掛け
を音声案内する音声案内手段を備え、前記認識手段は、前記音声案内手段による音声案内に応
じて入力された音声データに基づいて上位階層データを
音声認識することを特徴とする音声認識装置。
【請求項２】前記認識手段による認識結果に基づいて
音声データの属性を確定する属性確定手段を備え、前記音声案内手段は、前記属性確定手段が確定した属性
の上位階層データを入力するように問い掛けることによ
り音声案内することを特徴とする請求項１記載の音声認
識装置。
【請求項３】前記認識手段が非上位階層データを認識
できたときは、当該上位階層データの上位階層候補を検
索する上位階層候補検索手段を備え、前記音声案内手段は、前記上位階層候補検索手段が検索
した上位階層データを順に問い掛けることにより音声案
内することを特徴とする請求項１記載の音声認識装置。