JPH06274190A

JPH06274190A - ナビゲーションシステムおよび音声認識装置

Info

Publication number: JPH06274190A
Application number: JP5058276A
Authority: JP
Inventors: Kazuo Ishii; 和夫石井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-03-18
Filing date: 1993-03-18
Publication date: 1994-09-30

Abstract

(57)【要約】【目的】装置の利便性を向上させる。【構成】例えば、運転席に固定され、運転者専用とさ
れる固定のマイク８と、運転者だけでなく、助手席や後
部座席の同乗者が使用することのできる移動可能な可搬
のマイク２を設ける。システムコントローラ１２では、
マイク２または８に入力された音声に基づいて、例えば
ＣＤＲＯＭ１５に記憶された地図情報の表示部１４への
表示などの所定の制御が行われる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば自動車などに装
備されるオーディオ装置やナビゲーションシステムなど
に用いて好適なナビゲーションシステム、並びに音声認
識装置に関する。

【０００２】

【従来の技術】例えば、自動車などに装備されたカーオ
ーディオ装置やナビゲーションシステムなどの装置を、
運転中に操作することは、運転者にとって困難であるば
かりでなく、運転者のよそ見運転につながり、交通安全
上、好ましいことではなかった。

【０００３】そこで、音声により操作を行うことのでき
る、音声認識装置を適用したカーオーディオ装置やナビ
ゲーションシステムが知られている。このような装置で
は、運転者の近く（例えば、サンバイザなど）に設置さ
れたマイクに音声を入力することにより、所定の動作が
行われるようになされている。

【０００４】

【発明が解決しようとする課題】ところで、運転者の近
くに設置されるマイクは、環境ノイズを考慮して指向性
の強いものが用いられる。従って、例えば助手席や後部
座席の同乗者は、そのマイクを利用することが困難であ
り、不便であった。

【０００５】そこで、マイクを、運転者の近くだけでな
く、助手席や後部座席付近にも設置する方法があるが、
運転者の近くに設置したマイクと、助手席や後部座席付
近に設置したマイクとの特性の違いや、音場により、音
声の認識率が低下する課題があった。

【０００６】本発明は、このような状況に鑑みてなされ
たものであり、装置の利便性および音声の認識率を向上
させるものである。

【０００７】

【課題を解決するための手段】請求項１に記載のナビゲ
ーションシステムは、音声を入力する、固定および可搬
の入力手段としてのマイク８および２と、マイク８およ
び２の出力を分析する分析手段としての分析部１０と、
分析部１０の分析結果に基づいて、音声を認識する認識
手段としての認識部１１と、認識部１１の認識結果に基
づいて、所定の制御を行う制御手段としてのシステムコ
ントローラ１２とを備えることを特徴とする。

【０００８】請求項２に記載のナビゲーションシステム
は、ナビゲーションシステムを操作するための操作手段
としてのリモコン１をさらに備え、マイク２と、リモコ
ン１とが一体に構成されていることを特徴とする。

【０００９】請求項３に記載の音声認識装置は、音声を
入力する入力手段としてのマイク２または８と、マイク
２または８の特性に基づいて、マイク２または８の出力
を補正する補正手段としての補正部５２または推定補正
部７２と、補正部５２または推定補正部７２によって補
正されたマイク２または８の出力を分析する分析手段と
しての分析部１０と、分析部１０の分析結果に基づい
て、音声を認識する認識手段としての認識部１１とを備
えることを特徴とする。

【００１０】請求項４に記載の音声認識装置は、入力手
段が、例えばマイク２および８などのように、複数設け
られていることを特徴とする。

【００１１】請求項５に記載の音声認識装置は、マイク
２および８のうちの少なくとも１つ（例えば、マイク
２）が、その特性があらかじめ判っている基準入力手段
であり、推定補正部７２が、マイク２の特性に基づい
て、マイク８の特性とともに音場を推定し、その推定結
果に基づいて、マイク８の出力を補正することを特徴と
する。

【００１２】

【作用】請求項１に記載のナビゲーションシステムにお
いては、固定および可搬のマイク８および２に入力され
た音声に基づいて、所定の制御が行われる。従って、例
えば固定のマイク８を運転者専用とし、自由に移動する
ことのできる可搬のマイク２を、助手席や後部座席の同
乗者用とすることができるので、装置の利便性を向上さ
せることができる。

【００１３】請求項２に記載のナビゲーションシステム
においては、可搬のマイク２と、リモコン１とが一体に
構成されているので、装置の利便性をさらに向上させる
ことができる。

【００１４】請求項３に記載の音声認識装置において
は、マイク２または８の特性に基づいて、マイク２また
は８の出力を補正した後、マイク２または８に入力され
た音声を認識する。従って、マイク２または８の特性に
よって、音声の認識率が劣化することが防止される。

【００１５】請求項４に記載の音声認識装置において
は、入力手段が、例えばマイク２および８などのよう
に、複数設けられているので、装置の利便性を向上させ
ることができる。

【００１６】請求項５に記載の音声認識装置において
は、推定補正部７２が、あらかじめ判っているマイク２
の特性に基づいて、マイク８の特性とともに音場を推定
し、その推定結果に基づいて、マイク８の出力を補正す
る。従って、マイク２とマイク８との特性や音場の違い
による、音声の認識率の劣化が防止される。

【００１７】

【実施例】図１は、本発明のナビゲーションシステムの
一実施例の構成を示すブロック図である。このナビゲー
ションシステムは、自動車などに搭載され、ジョイステ
ィック５、操作ボタン６、および７の操作だけでなく、
音声により所定の動作をさせることができるようになさ
れている。

【００１８】即ち、リモコン１には、図２に示すよう
に、マイク２、ランプ３、マイクボタン４、ジョイステ
ィック５、操作ボタン６、および７が設けられている。
ジョイスティック５、操作ボタン６、および７は、この
ナビゲーションシステムに所定の動作（例えば、表示部
１４に地図情報や現在地情報などを表示させたりなど）
を行わせるときに操作される。マイク２は、可搬なマイ
クで、リモコン１とともに自由な位置に移動させること
ができ、即ち自動車の運転席や助手席、後部座席などに
移動させることができ、音声により、このナビゲーショ
ンシステムに所定の動作をさせるときに用いられる。ラ
ンプ３は、通常、消灯しており、マイク２が有効である
とき点灯するようになされている。

【００１９】マイクボタン４は、例えばシーソー型のボ
タンで、マイク２またはマイク８に対する発話の開始時
と、終了時に操作される。即ち、マイクボタン４が、ａ
側に一度押されると、マイク２が有効にされ、さらにも
う一度ａ側に押されると、マイク２が無効にされる。ま
た、マイクボタン４が、ｂ側に一度押されると、マイク
８が有効にされ、さらにもう一度ｂ側に押されると、マ
イク８が無効にされる。

【００２０】なお、マイクボタン４は、上述の他、例え
ばそれが、ａ側およびｂ側のいずれにも押されていない
ときは、マイク２および８が両方とも無効にされ、ａ側
に押されている間は、マイク２が有効にされ、ｂ側に押
されている間は、マイク８が有効にされるようにするこ
とができる。

【００２１】マイク８は、固定のマイクで、例えば運転
席のサンバイザなど運転者の近くに固定され、音声によ
り、このナビゲーションシステムに所定の動作をさせる
ときに用いられる。さらに、マイク８は、優先マイク
で、所定のキーワードの音声入力があると、システムコ
ントローラ１２によって、有効／無効が切り換えられる
ようになされている。ランプ９は、マイク８に設けられ
ており、通常は消灯しているが、マイク８が有効にされ
ると点灯するようになされている。

【００２２】なお、マイク２（マイク８）が有効にされ
るとは、マイク２への音声入力によって、このナビゲー
ションシステムに所定の動作をさせることができる状態
にされることを意味し、マイク２が無効にされるとは、
マイク２への音声入力によって、ナビゲーションシステ
ムに所定の動作をさせることができない状態にされるこ
とを意味する。従って、マイク２および８が無効にされ
ているときは、上述したように、ジョイスティック５、
操作ボタン６、および７を操作して、このナビゲーショ
ンシステムに所定の動作を行わせることになる。

【００２３】スイッチＳＷ₁は、通常は端子ｂ₁側を選択
しており、マイク２が有効にされたとき、端子ａ₁側を
選択する。分析部１０は、マイク２または８に入力さ
れ、スイッチＳＷ₁を介して出力される音声を分析し、
その分析結果を認識部１１に供給する。

【００２４】ここで、分析部１０においては、音声か
ら、その特徴量としての、例えばケプストラム係数とデ
ルタケプストラム係数を、図３のフローチャートにした
がって抽出するようになされている。即ち、分析部１０
は、まず入力された音声信号を、サンプリング周波数ｆ
_s（例えばｆ_s＝１２ｋＨｚ）でＡ／Ｄ変換し、高域強調
して（例えば、１−０．９７ｚ_-1の伝達関数を有するデ
ィジタルフィルタでフィルタリングして）、スペクトル
の傾斜を平坦化する（ステップＳ１）。

【００２５】そして、Ａ／Ｄ変換した音声信号に、例え
ば次式で示されるハミングウインドウｗ_H（ｎ）（ｎは
時間）を１２８点（≒１０．７ｍｓ）ずつずらしながら
かけて、２５６点（≒２１．３ｍｓ）分の音声信号を１
フレームとして順次切り出す（ステップＳ２）。ｗ_H（ｎ）＝０．５４−０．４６ｃｏｓ（２πｎ／Ｎ）但し、Ｎ＝２５６（１フレーム）−１＝２５５，ｎ＝
０，１，・・・，Ｎ。

【００２６】１フレームごとの音声信号は、順次ＬＰＣ
分析（線形予測分析）され（ステップＳ３）、例えば１
６次の線形予測係数ａ_i（ｉ＝１，２，・・・，１６）
が算出される。さらに、線形予測係数ａ_iから、例えば
１６次のケプストラム係数（いわゆるＬＰＣケプストラ
ム）Ｃ_j（ｊ＝１，２，・・・，１６）が算出される
（ステップＳ４）。

【００２７】なお、ケプストラム係数は、１フレームの
音声信号から直接算出する（音声信号をフーリエ変換
し、その対数をとって逆フーリエ変換する）ようにして
も良い。

【００２８】ここで、ケプストラム係数Ｃ_jと同様に、
そのダイナミックな変化が、音声の重要な特徴量である
ことに注目して、本実施例では、現在のフレームｆｒか
ら前後２フレーム離れたケプストラム係数どうしの差分
をデルタケプストラム係数△Ｃ_jとして算出するように
なされている。

【００２９】即ち、ケプストラム係数Ｃ_jの算出後、フ
レームｆｒ＋２のケプストラム係数Ｃ_j［ｆ＋２］と、
フレームｆｒ−２のケプストラム係数Ｃ_j［ｆ−２］と
の差分（Ｃ_j［ｆ＋２］−Ｃ_j［ｆ−２］）が、フレーム
ｆｒのデルタケプストラム係数△Ｃ_jとして算出される
（ステップＳ５）。

【００３０】ケプストラム係数Ｃ_jとデルタケプストラ
ム係数△Ｃ_jは、それぞれベクトル量子化され、シンボ
ル化（コード化）されて（ステップＳ６）、処理を終了
する。即ち、ケプストラム係数Ｃ_j（デルタケプストラ
ム係数△Ｃ_jも同様）は、それに最も近い、あらかじめ
作成されたコードブック（例えば、学習用のデータか
ら、いわゆるＬＢＧアルゴリズムにしたがって作成され
たもの）のセントロイドに付されたシンボル（コード）
にシンボル化（コード化）される。

【００３１】図１に戻り、認識部１１は、分析部１０の
分析結果、即ちコード化されたケプストラム係数および
デルタケプストラム係数から、マイク２または８に入力
された音声を、例えばＨＭＭ（Hidden Markov Model）
法に基づいて認識する。即ち、認識部１１は、ＨＭＭ記
憶部１８にあらかじめ記憶されたモデル（ＨＭＭ）を用
いて、マイク２または８に入力された音声を認識する。

【００３２】ここでＨＭＭ法について簡単に説明する。
ＨＭＭは観測不可能な（Hidden）基礎統計過程を有する
２重統計過程であり、そのモデルは、図４（ａ）に示す
ように、いくつかの状態Ｓ₁，Ｓ₂，・・・，Ｓ_N（Ｎは
状態数）と、その状態間の遷移を表すパスから構成さ
れ、状態が遷移するときにコードを出力（生起）する。

【００３３】なお、音声認識では、図４（ｂ）に示すよ
うな自分自身と、次の状態に遷移するパスのみを有する
モデルが一般的に使用される。

【００３４】音声認識に通常適用される離散型ＨＭＭで
は、音声から生成されたコード列としてのコード系列Ｙ
＝｛ｙ₁，ｙ₂，・・・，ｙ_T｝が、各モデルで生起され
る確率（事後確率）が計算され、その確率が最も大きい
モデルが認識結果とされる。

【００３５】即ち、ＨＭＭでは、Ｎ：モデルの有する状態数Ｙ（＝｛ｙ₁，ｙ₂，・・・，ｙ_T｝）：コード系列Ｔ：コード系列長ａ_ij：状態ｉから状態ｊへ遷移する遷移確率ｂ_ij（ｋ）：状態ｉから状態ｊへ遷移するときにコード
ｋが生起される生起確率コード数（コードの種類の数）：Ｋ π（＝π₁，π₂，・・・，π_N）：初期状態が状態ｉで
ある初期状態確率のようにパラメータを表すとすると、モデルからコード
系列Ｙは、次のようにして生起される。

【００３６】（ＳＴ１）初期状態確率πに基づいて初期
状態ｉ_S(INITIAL)を決定（ＳＴ２）遷移確率ａ_ijに基づいて状態のｉからｊへの
遷移を決定（ＳＴ３）生起確率ｂ_ij（ｋ）に基づいて、状態がｉか
らｊに遷移するときに出力（生起）されるコードｙ_tを
決定（ＳＴ４）ｔ＜Ｔであれば、ＳＴ２へ戻る

【００３７】従って、モデルは、状態数Ｎコード数Ｋ遷移確率ａ_ij 生起確率ｂ_ij（ｋ）初期状態確率π_i により特徴づけられることになる。

【００３８】なお、音声認識においては、初期状態また
は最終状態は、それぞれ１つであるとするのが一般的で
あり、以下、初期状態（時刻ｔ＝１における状態）を、
ｉ_S( _INITIAL)だけに限定したモデルを考える。

【００３９】従って、初期状態確率はπi_S(INITIAL)の
み１となり、他はすべて０となる。

【００４０】さらに、最終状態（時刻ｔ＝Ｔにおける状
態）も、以下ｉ_S(FINAL)だけに限定したモデルを考え
る。

【００４１】モデルλがコード系列ｙ₁，ｙ₂，・・・，
ｙ_tを出力して、状態ｉにいる前方予測確率をα_i（ｔ）
とすると、上述したモデルのコードの出力の定義（（Ｓ
Ｔ１）乃至（ＳＴ４））から、モデルλがコード系列Ｙ
＝｛ｙ₁，ｙ₂，・・・，ｙ_T｝を出力する確率Ｐ（Ｙ｜
λ）は、次の漸化式によって計算することができる。

【００４２】

【数１】なお、上式のｊに関するサメーションは、与えられたモ
デルにおいて、状態ｊから状態ｉへの遷移が許されてい
る場合にのみとられる。

【００４３】そして、ＨＭＭ法を用いた音声認識では、
音声から生成されたコード列としてのコード系列Ｙ＝
｛ｙ₁，ｙ₂，・・・，ｙ_T｝に対して、上式から計算さ
れる確率Ｐ（Ｙ｜λ）を最大にするモデルλが認識結果
とされることになる。

【００４４】次に、コード系列Ｙ＝｛ｙ₁，ｙ₂，・・
・，ｙ_T｝に対して、確率Ｐ（Ｙ｜λ）を最大にするモ
デルのパラメータとしての遷移確率ａ_ij、生起確率ｂ_ij
（ｋ）は、以下のようにして求められる。

【００４５】即ち、モデルの学習では、まず、学習用の
コード系列Ｙから、上述したα_i（ｔ）が求められると
ともに、時刻ｔにおいて、状態ｉにいて、以後、コード
系列ｙ_t+1，ｙ_t+2，・・・，ｙ_Tを出力する後方予測確
率β_i（ｔ）が、次式により求められる。

【００４６】

【数２】なお、上式のｊに関するサメーションは、与えられたモ
デルにおいて、状態ｉから状態ｊへの遷移が許されてい
る場合にのみとられる。

【００４７】そして、次式にしたがってモデルのパラメ
ータとしての遷移確率ａ_ij、生起確率ｂ_ij（ｋ）が更新
（学習）される。

【００４８】

【数３】なお、上式においてバー（−）を付したａ_ij、またはｂ
_ij（ｋ）は、更新した遷移確率または生起確率をそれぞ
れ意味する。また、上式のｈに関するサメーションは、
状態ｉから状態ｈへの遷移が許されている場合にのみと
られる。さらに、ｔ：ｙ_t＝ｋに関するサメーション
は、時刻ｔにおいて、ｋなるコードｙ_tが生起される場
合についてのみとられる。

【００４９】上式にしたがって、遷移確率ａ_ij、生起確
率ｂ_ij（ｋ）が更新（再推定）されることにより、それ
ぞれは、局所的に最適な値へ収束する。即ち、モデルの
学習が行われる。

【００５０】なお、上述のようにして遷移確率ａ_ij、生
起確率ｂ_ij（ｋ）を更新（再推定）する方法は、Baum-W
elchの再推定法と呼ばれる。

【００５１】ここで、式（２）で計算される遷移確率ａ
_ij、生起確率ｂ_ij（ｋ）は、ある学習用のコード系列１
つに対してだけであり、これにより学習が行われたモデ
ルは、ある１つのコード系列を高い確率で出力するよう
になる。しかしながら、音声認識では、調音結合や話者
による音声（音声のコード系列）のばらつきがあり、単
一のコード系列のみ高い確率で出力するモデルでは、こ
のばらつきに対処することができない。

【００５２】そこで、いくつかのコード系列を高い確率
で出力するように、モデルλの学習を行う必要がある。
これには、例えばＱ種類のコード系列の、ｑ番目のコー
ド系列をＹ^q＝｛ｙ₁ ^q，ｙ₂ ^q，・・・，ｙ_T ^q｝としたと
き、各コード系列Ｙ^q（ｑ＝１，２，・・・，Ｑ）が観
測される確率Ｐ（Ｙ^q｜λ）の積が最大になるように、
モデルλの学習を行えばよい。

【００５３】これは、上述したBaum-Welchの再推定法を
多重系列に拡張することにより、次のように再帰的に求
めることができる。

【００５４】

【数４】

【００５５】次に、上式（３）により遷移確率ａ_ij、生
起確率ｂ_ij（ｋ）を更新（再推定）することは、モデル
の学習を個別に行っていることに他ならない。過去、Ｈ
ＭＭ法を用いて音声認識を行う場合においては、単語認
識に適用されるときが多く、単語に対応するモデルの学
習を、上述したように個別に行うだけで問題はなかっ
た。

【００５６】しかしながら、最近は、音韻や音素に対応
するモデルを連結して、意味のある音声（単語や文）を
認識するのが一般的になり、このため、モデルの連結学
習を行う必要が生じできた。

【００５７】モデルの連結学習では、例えば、あらかじ
め用意した単語辞書に登録されている単語に基づき、音
韻または音素モデルどうしを連結し、それを単語モデル
とみなして、単語のコード系列として用意されたコード
系列Ｙ^qに対する学習が行われる。

【００５８】即ち、Ｍ個の音韻または音素モデルの学習
を個別に行った場合、そのうちのｍ番目のモデル（モデ
ルｍ）のパラメータ（遷移確率、生起確率それぞれ）を
ａ_ij ^m，ｂ_ij ^m（ｋ）と表し、そのモデルｍに音韻または
音素モデルを連結したモデル（連結モデル）の状態をｕ
またはｖと表すとともに、連結モデルの状態のｕからｖ
への遷移において、状態ｕがモデルｍに属する状態であ
るときを（ｕ→ｖ）∈ｍと表すと、式（３）を変形した
次式にしたがって、モデルｍの遷移確率ａ_ij ^m、生起確
率ｂ_ij ^m（ｋ）が更新（再推定）される。

【００５９】

【数５】

【００６０】ここで、連結モデルがモデルｍを複数使用
して構成されている場合、即ち連結モデルが、例えば３
状態Ｓ₁，Ｓ₂，Ｓ₃からなるモデルｍを２回使用して構
成されている場合、連結モデルは、Ｓ₁，Ｓ₂，Ｓ₃，
Ｓ₁，Ｓ₂，Ｓ₃の６状態を有することになる。従って、
この場合、モデルｍの状態Ｓ₁，Ｓ₂，Ｓ₃のうちの、例
えば先頭の状態Ｓ₁は、連結モデルの状態Ｓ₁，Ｓ₂，
Ｓ₃，Ｓ₁，Ｓ₂，Ｓ₃の先頭の状態、および先頭から４番
目の状態と同一であり、このように連結モデルの複数の
状態ｕ（ｖ）が、モデルｍの１つ状態ｉ（ｊ）と同一で
あるときがある。

【００６１】上式（４）において、ｕ≡ｉ，ｖ≡ｊに関
するサメーション、およびｕ≡ｉに関するサメーション
は、上述したように連結モデルの状態ｕ（ｖ）が、モデ
ルｍの状態ｉ（ｊ）と同一である場合についてとられる
ことを意味する。

【００６２】また、ｈ：（ｕ→ｈ）∈ｍに関するサメー
ションは、連結モデルの状態ｕから状態ｈへの遷移が許
されている場合に、連結モデルの状態ｕが、モデルｍに
属するときのみとられる。

【００６３】さらに、上式（４）において、モデルｍの
後続にモデルが連結されており、連結モデルの状態ｕ
が、モデルｍの最終状態（ｕ＝ｉ_S(FINAL)）となった場
合、状態ｕからの遷移先である状態ｖは、モデルｍの直
後に連結したモデルの初期状態となるものとする。

【００６４】次に、以上説明したＨＭＭ法を用いて、例
えば図５に示すようなＳ₁，Ｓ₂，Ｓ₃の３状態からな
り、自分自身と、次の状態に遷移するパスのみを有する
とともに、初期状態または最終状態を、それぞれＳ₁ま
たはＳ₃とするモデルにより音声認識が行われる場合に
は、まず上述した式（３）または（４）（以下、式
（４）におけるａ_ij ^m，ｂ_ij ^m（ｋ）は、式（３）におけ
る場合と同様にそれぞれａ_ij，ｂ_ij（ｋ）と記載する）
にしたがってモデルの学習（連結学習）が行われ、モデ
ルの遷移確率ａ_ijおよび生起確率ｂ_ij（ｋ）が求められ
る。

【００６５】ここで、コードが、例えばａとｂの２つだ
けであり、学習により、例えばモデルλの遷移確率ａ_ij
および生起確率ｂ_ij（ｋ）が、次のように算出されたと
する。

【００６６】ａ₁₁＝０．２，ｂ₁₁（ａ）＝０．６，ｂ₁₁
（ｂ）＝０．４，ａ₁₂＝０．８，ｂ₁₂（ａ）＝０．５，
ｂ₁₂（ｂ）＝０．５，ａ₂₂＝０．４，ｂ₂₂（ａ）＝０．
２，ｂ₂₂（ｂ）＝０．８，ａ₂₃＝０．６，ｂ₂₃（ａ）＝
０．４，ｂ₂₃（ｂ）＝０．６

【００６７】そして、音声から、例えばコード系列ａ，
ｂ，ａが観測された場合、このモデルλがそのコード系
列を出力（生起）する確率Ｐ（｛ａ，ｂ，ａ｝｜λ）
が、式（１）にしたがって計算される。

【００６８】以上の処理が、モデルλ以外のモデルにも
対して行われ、前述したように、確率Ｐが最も大きいモ
デルが認識結果とされることになる。

【００６９】なお、確率Ｐの計算にあたっては、式
（１）にしたがった、いわゆるフォワード法の他、例え
ばビタビアルゴリズムを用いるようにすることができ
る。

【００７０】ところで、ＨＭＭ法により音声認識を行う
場合、式（１）の確率Ｐ（Ｙ｜λ）の計算（ビタビアル
ゴリズムを用いる場合も同様）は、一般的にトレリス
（トレリスダイヤグラム）を描くことによって行われ
る。図６は、学習結果が上述のようになった図５のモデ
ルλがコード系列｛ａ，ｂ，ａ｝を出力する確率Ｐ
（｛ａ，ｂ，ａ｝｜λ）を計算する場合に描かれるトレ
リスを示している。

【００７１】図５のモデルλのトレリスを示す図６にお
いては、箱が各時刻における状態を示し、その中には、
各時刻においてその状態にいる確率が書き入れてある。
さらに、矢印は、状態の遷移を示しており、図５のモデ
ルλは、前述したように自分自身と、次の状態にしか状
態が遷移しないので、１つの箱から出る矢印は、自分自
身への遷移を示す水平方向の１つの矢印と、次の状態へ
の遷移を示す斜め上方向の１つの矢印のみとなってい
る。

【００７２】また、図５のモデルは、最終状態が状態Ｓ
₃であり、前述したように最終状態からの状態の遷移は
ないものとしたので、図６において、状態Ｓ₃の箱から
状態の遷移を示す矢印は書き込まれていない。

【００７３】さらに、図６のトレリスにおいては、縦方
向はモデルの状態の並びになっており、横方向は時間の
進みを表している。

【００７４】このようなトレリスにしたがって、図５の
モデルλがコード系列｛ａ，ｂ，ａ｝を出力する確率Ｐ
（｛ａ，ｂ，ａ｝｜λ）が計算される場合、まず、時刻
ｔ＝１においては、前述したように初期状態は、必ず状
態ｉ_S(INITIAL)となるから（使用するモデルを、初期状
態が状態ｉ_S(INITIAL)となるモデルとしたから）、状態
ｉ_S(INITIAL)としての状態Ｓ₁にいる確率が１で、他の
状態Ｓ₂，Ｓ₃にいる確率は０であり、従って状態Ｓ₁の
箱のみ１が書き込まれ、他の状態Ｓ₂，Ｓ₃の箱には０が
書き込まれる。

【００７５】そして、状態が遷移してコードａが出力さ
れた場合に、状態Ｓ₁にいる確率は、時刻ｔ＝１に状態
Ｓ₁にいて、コードａを出力しながら状態Ｓ₁に遷移する
確率であるから、１．０×ａ₁₁×ｂ₁₁（ａ）＝１．０×０．２×０．６＝０．１２となり、時刻ｔ＝２における状態Ｓ₁の箱には、０．１
２が書き込まれる。

【００７６】また、この場合に、状態Ｓ₂にいる確率
は、時刻ｔ＝１に状態Ｓ₁にいて、コードａを出力しな
がら状態Ｓ₂に遷移する確率と、時刻ｔ＝１に状態Ｓ₂に
いて、コードａを出力しながら状態Ｓ₂に遷移する確率
との和であるから、１．０×ａ₁₂×ｂ₁₂（ａ）＋０．０×ａ₂₂×ｂ₂₂（ａ）＝１．０×０．８×０．５＋０．０×０．４×０．２＝０．４＋０＝０．４となり、時刻ｔ＝２における状態Ｓ₂の箱には、０．４
が書き込まれる。

【００７７】さらに、この場合に、状態Ｓ₃にいる確率
は、時刻ｔ＝１に状態Ｓ₂にいて、コードａを出力しな
がら状態Ｓ₃に遷移する確率であるから、０．０×ａ₂₃×ｂ₂₃（ａ）＝０．０×０．６×０．４＝０となり、時刻ｔ＝２における状態Ｓ₃の箱には、０が書
き込まれる。

【００７８】次に、コードａが出力された後に、さらに
状態が遷移してコードｂが出力された場合に、状態Ｓ₁
にいる確率は、時刻ｔ＝２に状態Ｓ₁にいて、コードｂ
を出力しながら状態Ｓ₁に遷移する確率であるから、０．１２×ａ₁₁×ｂ₁₁（ｂ）＝０．１２×０．２×０．
４＝０．００９６となり、時刻ｔ＝３における状態Ｓ₁の箱には、０．０
０９６が書き込まれる。

【００７９】また、この場合に、状態Ｓ₂にいる確率
は、時刻ｔ＝２に状態Ｓ₁にいて、コードｂを出力しな
がら状態Ｓ₂に遷移する確率と、時刻ｔ＝２に状態Ｓ₂に
いて、コードｂを出力しながら状態Ｓ₂に遷移する確率
との和であるから、０．１２×ａ₁₂×ｂ₁₂（ｂ）＋０．４×ａ₂₂×ｂ
₂₂（ａ）＝０．１２×０．８×０．５＋０．４×０．４×０．
８＝０．１７６となり、時刻ｔ＝２における状態Ｓ₂の箱には、０．１
７６が書き込まれる。

【００８０】さらに、この場合に、状態Ｓ₃にいる確率
は、時刻ｔ＝２に状態Ｓ₂にいて、コードｂを出力しな
がら状態Ｓ₃に遷移する確率であるから、０．４×ａ₂₃×ｂ₂₃（ｂ）＝０．４×０．６×０．６＝０．１４４となり、時刻ｔ＝２における状態Ｓ₃の箱には、０．１
４４が書き込まれる。

【００８１】そして、以上のようにコードａ，ｂが出力
された後に、さらに状態が遷移してコードａが出力され
た場合における、各状態Ｓ₁，Ｓ₂，Ｓ₃にいる確率が上
述したときと同様にして計算され、図中最右端の各状態
Ｓ₁，Ｓ₂，Ｓ₃の箱に書き込まれる。

【００８２】確率Ｐ（｛ａ，ｂ，ａ｝｜λ）は、式
（１）の定義から、図中、最も左上にある箱に書き込ま
れた確率であるから、モデルλがコード系列｛ａ，ｂ，
ａ｝を出力する確率（Ｐ（｛ａ，ｂ，ａ｝｜λ））は、
０．０４２２となる。

【００８３】以上の処理が、モデルλ以外のモデルにも
対して行われ、確率Ｐが最も大きいモデルが認識結果と
されることになる。

【００８４】認識部１１では、上述したようにして、分
析部１０からのコード（コード化されたケプストラム係
数およびデルタケプストラム係数の組）から、マイク２
または８に入力された音声が認識される。

【００８５】図１に戻り、ＨＭＭ記憶部１８には、上述
したようにして、分析部１０からのコード（コード化さ
れたケプストラム係数およびデルタケプストラム係数の
組）から学習されたモデルがあらかじめ記憶されてい
る。なお、ＨＭＭ記憶部１８には、認識対象語のモデル
が、所定のグループに分けて記憶されており、認識部１
１では、認識しようとしている対象語に対応して、認識
に用いるモデルのグループを変更するようになされてい
る。

【００８６】システムコントローラ１２は、リモコン１
からの制御信号または認識部１１の認識結果に基づい
て、装置全体を制御する。応答部１３は、システムコン
トローラ１２からの指示にしたがって、例えば道案内の
ための音声などの所定の音声を出力する（音声応答す
る）。表示部１４は、システムコントローラ１２からの
指示にしたがって、ＣＤＲＯＭ１５に記憶された地図情
報など、所定の情報を表示する。ＣＤＲＯＭ１５には、
地図情報や交通情報などがあらかじめ記憶されている。
アンテナ１６は、ＧＰＳ（図示せず）からの電波を受信
し、受信部１７に出力する。受信部１７は、アンテナ１
６からの信号を復調する。

【００８７】次に、その動作について説明する。まず、
マイク２および８がともに有効にされていない場合、シ
ステムコントローラ１２において、ジョイスティック５
や操作ボタン６、７の操作に対応して、装置が制御され
る。

【００８８】即ち、システムコントローラ１２におい
て、ジョイスティック５や操作ボタン６、７の操作に対
応して、ＣＤＲＯＭ１５に記憶された地図情報が読み出
され、表示部１４に表示される。また、アンテナ１６お
よび受信部１７を介して入力されるＧＰＳからの信号を
基に、現在地が算出され、表示部１４に表示される。あ
るいは、例えば地図情報表示や、現在地表示、目的地の
設定、目的地までの道案内などのメニューの選択、表示
された地図情報の拡大／縮小／スクロールなどが行われ
る。

【００８９】次に、マイクボタン４が操作されたりなど
して、マイク２またはマイク８のいずれかが有効にされ
た場合、有効にされたマイクに、例えば目的地、あるい
は表示部１４に表示させたい位置としての地名や、コマ
ンドなどの、音声による入力があると、それが分析部１
０を介して認識部１１で、上述したようにして認識され
る。

【００９０】そして、システムコントローラ１２におい
て、認識部１１の認識結果に基づいて、装置が制御され
る。即ち、認識部１１の認識結果が、例えば地名であっ
た場合、システムコントローラ１２において、その地名
付近の地図が表示部１４に表示される。また、認識部１
１の認識結果が、例えばコマンドであった場合、そのコ
マンドに対応して、地図情報や現在地情報が表示部１４
に表示されたり、メニューの選択、表示された地図情報
の拡大／縮小／スクロールなどが行われる。

【００９１】なお、音声によるコマンド入力があった場
合、必要に応じて、音声応答部１３からは、音声による
応答（例えば入力された音声の確認や、さらなるコマン
ドの入力の催促）が出力されるようになされており、こ
れにより使用者が、対話形式で装置を使用することがで
きるようになされている。

【００９２】以上のように、例えば運転者専用の固定の
マイク８と、運転者だけでなく、助手席や後部座席の同
乗者が使用することのできる可搬のマイク２をナビゲー
ションシステムに設けるようにしたので、装置の利便性
を向上させることができる。

【００９３】また、周囲からの雑音レベルが高く、固定
のマイク８に入力された音声の認識率が低下する場合、
運転者は、可搬のマイク２を口元に移動させて使用する
ことができ、これにより音声の認識率の劣化が防止さ
れ、装置を確実に動作させることができる。

【００９４】なお、図１において、リモコン１やマイク
８は、ワイヤードリモコンやワイヤードマイクとして設
けられているが、ワイヤレスリモコンやワイヤレスマイ
クとして設けるようにすることができる。

【００９５】さらに、図１において、マイク２は、リモ
コン１と一体に設けられているが、独立に設けるように
することができる。

【００９６】また、固定のマイクとしてのマイク８を１
つだけでなく、複数設けるようにして、運転席ととも
に、助手席や後部座席に固定するようにすることができ
る。但し、固定のマイクを自動者内に複数設けると、内
装が損なわれる場合があるので、図１に示すように、固
定と可搬のマイクを、それぞれ１つずつ設けるようにし
た方が良いと考えられる。

【００９７】さらに、このナビゲーションシステムに
は、音声を入力するためのマイク２および８の他に、例
えば指向性生成や雑音除去のためのマイクを設けるよう
にすることができる。

【００９８】ところで、図１の認識部１１において音声
認識のときに使用されるＨＭＭ記憶部１８に記憶された
モデルが、例えばマイク２および８のうちのいずれかの
特性だけ考慮されて作成されていた場合、あるいはいず
れの特性も考慮されずに作成されていた場合、マイク２
または８から入力された音声の認識率が劣化することが
考えられる。

【００９９】そこで、図７は、本発明の音声認識装置の
一実施例の構成を示している。なお、図中、図１におけ
る場合と対応する部分については、同一の符号を付して
ある。この音声認識装置においては、マイク２１ａ（２
１ｂ）の後段に、その特性を補正する補正部２２ａ（２
２ｂ）が設けられており、ＨＭＭ記憶部２３には、装置
を製作する、例えば工場などにおいて使用される、所定
の周波数特性のモデル作成用マイク（図示せず）に入力
された音声から作成されたモデル（ＨＭＭ）があらかじ
め記憶されている。補正部２２ａ（または２２ｂ）は、
例えばイコライザで、マイク２１ａ（または２１ｂ）の
周波数特性を、上述のモデル作成用マイクの周波数特性
と同一になるように補正する。

【０１００】以上のように構成される音声認識装置で
は、マイク２１ａ（または２１ｂ）が有効にされた場
合、まずスイッチＳＷ₂が端子ａ₂側（または端子ｂ
₂側）に切り換えられる。そして、マイク２１ａ（また
は２１ｂ）に音声が入力されると、その音声は電気信号
としての音声信号に変換され、補正部２２ａ（または２
２ｂ）に出力される。

【０１０１】補正部２２ａ（または２２ｂ）では、マイ
ク２１ａ（または２１ｂ）からの音声信号に含まれるマ
イク２２ａ（または２２ｂ）の特性が、上述のモデル作
成用マイクの周波数特性と同一になるように補正され、
スイッチＳＷ₂を介して分析部１０に出力される。そし
て、上述した場合と同様にして、分析部１０において、
入力された音声信号が分析され、認識部１１において、
ＨＭＭ記憶部２３に記憶されたモデルに基づいて、音声
の認識が行われる。

【０１０２】以上のように、補正部２２ａ（または２２
ｂ）によって、マイク２１ａ（または２１ｂ）の出力を
補正するようにしたので、音声の認識率を劣化させるこ
とが防止される。

【０１０３】なお、マイクの特性に基づく音声の認識率
の劣化を防止する音声認識装置としては、図７に示すも
のの他、例えば図８や図９に示すものが考えられる。

【０１０４】即ち、図８の音声認識装置においては、マ
イク２１ａまたは２１ｂより入力された音声から作成さ
れたモデルが、ＨＭＭ記憶部３１ａまたは３１ｂに、そ
れぞれあらかじめ記憶されており、マイク２１ａまたは
２１ｂが有効にされた場合、スイッチＳＷ₃が、端子ａ₃
またはｂ₃側に切り換えられ、認識部１１が、ＨＭＭ記
憶部３１ａまたは３１ｂに記憶されたモデルをそれぞれ
使用して、音声認識を行うようになされている。

【０１０５】また、図９の音声認識装置においては、マ
イク２１ａと２１ｂより入力された音声の両方から、上
述した多重系列に拡張したモデル（以下、混合モデルと
記載する）が作成され、ＨＭＭ記憶部４１に記憶されて
おり、認識部１１が、ＨＭＭ記憶部４１に記憶された混
合モデルを使用して、音声認識を行うようになされてい
る。

【０１０６】ところで、図８および図９の音声認識装置
は、それに設けられるマイク２１ａおよび２１ｂを使用
して、モデルを作成しなければならず、大量生産するに
は不向きである。さらに、複数のマイクが設けられる場
合、図８の音声認識装置においては、マイクの数に比例
してモデルの記憶容量が増加するので、装置が大型化す
る。

【０１０７】従って、マイクの特性に基づく音声の認識
率の劣化を防止する音声認識装置としては、図７に示す
ようなものが好ましい。

【０１０８】次に、図１０は、図７の音声認識装置を適
用したナビゲーションシステムの構成例を示している。
図中、図１における場合と対応する部分については、同
一の符号を付してある。即ち、このナビゲーションシス
テムにおいては、マイク２の周波数特性を、マイク８の
周波数特性と同一の特性に補正する補正部５２が、マイ
ク２（リモコン１）の後段に設けられているとともに、
マイク８より入力された音声のみから作成されたモデル
が記憶されたＨＭＭ記憶部５１が、ＨＭＭ記憶部１８に
代えて設けられている他は、図１における場合と同様に
構成されている。

【０１０９】従って、認識部１１においては、マイク８
が有効にされている場合、マイク８より入力された音声
のみから作成されたモデルが記憶されたＨＭＭ記憶部５
１を利用して音声認識が行われ、またマイク２が有効に
されている場合、マイク２にからの音声に含まれるマイ
ク２の特性が、マイク８の周波数特性と同一になるよう
に補正された後、マイク８より入力された音声のみから
作成されたモデルが記憶されたＨＭＭ記憶部５１を利用
して音声認識が行われることになる。

【０１１０】よって、マイクの特性に基づく音声の認識
率の劣化を防止することができる。

【０１１１】ところで、図１０のナビゲーションシステ
ムにおいては、使用者の口元で使用されるマイク２はと
もかく、所定の位置に固定されるマイク８には、周囲の
環境雑音が、発声者（使用者）の音声に、かなり混入し
て入力される。周囲の環境雑音は、環境によって変化す
るので、これにより音声の認識率が劣化することが考え
られる。即ち、上述したマイクの特性だけでなく、音場
の違いによって音声の認識率が劣化することが考えられ
る。

【０１１２】そこで、次に、マイクの特性だけでなく、
音場の違いを補正する音声認識装置を適用したナビゲー
ションシステムについて説明するが、その前段階の準備
として、その原理について説明する。

【０１１３】まず、例えば図１１（ａ）に示すように、
マイク６１乃至６３の３つのマイクを有する装置を考
え、マイク６１乃至６３のうちの、例えばマイク６１を
基準マイクとし、それを口元から所定の短い距離（例え
ば、１０ｃｍなど）に配置して音声を入力したとき（発
声したとき）のインパルス応答Ｈ１（ｆ）（ｆは周波
数）をあらかじめ測定しておく。

【０１１４】即ち、マイク６１の周波数特性を含む口元
からマイク６１までの伝達関数Ｈ１（ｆ）を、あらかじ
め測定しておく。

【０１１５】ここで、口元に近い距離にマイク６１を配
置して発声することにより、反射音は近似的に無視する
ことができ、従ってマイク６１の周波数特性を含む口元
からマイク６１までの伝達関数Ｈ１（ｆ）は、マイク６
１に直接入力される音声（直接音）の近接効果による周
波数特性を考えるだけで決定することができる。

【０１１６】そして、発声者６０の口元における音声を
ｓ（ｔ）（ｔは時間）、マイク６１乃至６３の周波数特
性を含む、発声者６０の口元からマイク６１乃至６３ま
でのインパルス応答を、それぞれｈ１（ｔ），ｈ２
（ｔ），ｈ３（ｔ）とすると、発声者６０が音声ｓ
（ｔ）を発声したときのマイク６１乃至６３の出力ｘ１
（ｔ），ｘ２（ｔ），ｘ３（ｔ）は、音声ｓ（ｔ）と、
インパルス応答ｈ１（ｔ），ｈ２（ｔ），ｈ３（ｔ）と
をそれぞれ畳み込んだものになる。

【０１１７】時間軸上での畳み込みは、周波数軸上での
乗算となるから、ｓ（ｔ），ｈ１（ｔ），ｈ２（ｔ），
ｈ３（ｔ），ｘ１（ｔ），ｘ２（ｔ），ｘ３（ｔ）をフ
ーリエ変換したものを、Ｓ（ｆ），Ｈ１（ｆ），Ｈ２
（ｆ），Ｈ３（ｆ），Ｘ１（ｆ），Ｘ２（ｆ），Ｘ３
（ｆ）とすると、マイク６１乃至６３の出力Ｘ１（ｆ）
乃至Ｘ３（ｆ）は、それぞれ次のように表すことができ
る。

【０１１８】Ｘ１（ｆ）＝Ｈ１（ｆ）Ｓ（ｆ）Ｘ２（ｆ）＝Ｈ２（ｆ）Ｓ（ｆ）Ｘ３（ｆ）＝Ｈ３（ｆ）Ｓ（ｆ）

【０１１９】上式を変形すると、Ｓ（ｆ）＝Ｘ１（ｆ）／Ｈ１（ｆ）（５ａ）Ｓ（ｆ）＝Ｘ２（ｆ）／Ｈ２（ｆ）（５ｂ）Ｓ（ｆ）＝Ｘ３（ｆ）／Ｈ３（ｆ）（５ｃ）となる。

【０１２０】従って、上式から、図１１（ａ）に示すよ
うに、マイク６１乃至６３より出力された音声に、伝達
関数１／Ｈ１（ｆ），１／Ｈ２（ｆ），１／Ｈ３（ｆ）
をそれぞれ乗算することにより（時間軸上においては、
畳み込むことにより）、音場やマイクの特性に無関係な
音声信号Ｓ（ｆ）が得られることになる。

【０１２１】さらに、上式から、インパルス応答Ｈ１
（ｆ）乃至Ｈ３（ｆ）のうちのいずれか１つ（例えば、
上述したようにあらかじめ測定されたＨ１（ｆ））を用
いて、他のインパルス応答（例えば、Ｈ２（ｆ）および
Ｈ３（ｆ））をそれぞれ表すことができ、それは式Ｈ２（ｆ）＝Ｘ２（ｆ）／Ｓ（ｆ）＝Ｈ１（ｆ）Ｘ２（ｆ）／Ｘ１（ｆ）（６ａ）Ｈ３（ｆ）＝Ｘ３（ｆ）／Ｓ（ｆ）＝Ｈ１（ｆ）Ｘ３（ｆ）／Ｘ１（ｆ）（６ｂ）となる。

【０１２２】従って、３つのマイク６１乃至６３のうち
の、例えばマイク６１に対応するインパルス応答Ｈ１
（ｆ）があらかじめ判っていれば、他のマイク６２（ま
たは６３）に対応するインパルス応答Ｈ２（ｆ）（また
はＨ３（ｆ））は、式（６ａ）（または（６ｂ））に基
づいて、マイク６１に対応するインパルス応答Ｈ１
（ｆ）、マイク６１および６２（または６３）から出力
される音声Ｘ１（ｆ）およびＸ２（ｆ）（またはＸ３
（ｆ））から推定（算出）することができることにな
る。

【０１２３】なお、インパルス応答Ｈ２（ｆ）またはＨ
３（ｆ）は、短時間フーリエ変換したものの、例えば時
間平均などをとることにより、その精度の向上を図るこ
とができる。

【０１２４】以上から、３つのマイク６１乃至６３のう
ちのいずれかに対応するインパルス応答（本実施例にお
いては、マイク６１に対応するインパルス応答Ｈ１
（ｆ））があらかじめ判っていれば、マイク６１乃至６
３より出力された音声から、音場やマイクの特性に無関
係な音声信号Ｓ（ｆ）が得られることが判る。

【０１２５】そして、このようにして得られた音声Ｓ
（ｆ）を、例えば上述のＨＭＭ法に基づいて認識する場
合には、インパルス応答のあらかじめ判っているマイク
（装置に設けられるマイク６１乃至６３のうちのいずれ
かのマイクでなくても良い）を用い、そのマイクから出
力される音声を、判っているインパルス応答の逆関数で
変換（周波数軸上では乗算、時間軸上では畳み込み）す
ることにより得られる、音場やマイクの特性に無関係な
音声で学習を行うようにすれば良い。

【０１２６】これにより、学習時および認識時における
音声は、音場やマイクの特性に無関係なものとなり、マ
イクの特性だけでなく、音場の違いによって音声の認識
率が劣化することが防止されることになる。

【０１２７】なお、学習を行う場合、インパルス応答が
あらかじめ判っているマイクとしての、例えばマイク６
１より出力された音声を、そのまま用いるようにするこ
とができる。但し、この場合、認識時には、図１１
（ｂ）に示すように、学習に用いたマイク６１からの音
声は、そのまま出力するようにし、マイク６２または６
３からの音声は、伝達関数（インパルス応答の逆関数）
１／Ｈ２（ｆ）または１／Ｈ３（ｆ）ではなく、それに
マイク６１に対応するインパルス応答Ｈ１（ｆ）を乗算
した伝達関数Ｈ１（ｆ）／Ｈ２（ｆ）またはＨ１（ｆ）
／Ｈ３（ｆ）でそれぞれ変換する必要がある。

【０１２８】次に、図１２は、以上の原理に基づいてマ
イクの特性だけでなく、音場の違いを補正する音声認識
装置を適用したナビゲーションシステムの構成例を示し
ている。図中、図１における場合と対応する部分につい
ては、同一の符号を付してある。即ち、このナビゲーシ
ョンシステムにおいては、マイク８に対応するインパル
ス応答Ｈ'を、基準マイクとしてのマイク２に対応す
る、あらかじめ判っているインパルス応答Ｈから、上述
したように推定（算出し）、マイク８の出力を、マイク
２の出力と同一の特性に補正する推定補正部７２が、マ
イク８の後段に設けられているとともに、マイク２を用
いて、マイク２からの音声そのものから作成（学習）さ
れたモデル（ＨＭＭ）があらかじめ記憶されているＨＭ
Ｍ記憶部７１が、ＨＭＭ記憶部１８に代えて設けられて
いる他は、図１における場合と同様に構成されている。

【０１２９】以上のように構成されるナビゲーションシ
ステムにおいて、まず、使用者の口元から所定の短い距
離（例えば、１０ｃｍなど）に、可搬のマイク２が移動
された後、推定モードボタンとされた、例えば操作ボタ
ン７が操作されると、装置のモードが、基準マイクとし
てのマイク２に対応する、あらかじめ判っているインパ
ルス応答Ｈから、マイク８に対応するインパルス応答
Ｈ'を推定する推定モードになる。

【０１３０】そして、使用者によって、所定の長さの発
声が行われると、推定補正部７２において、マイク２に
対応するインパルス応答（マイク２の特性を含む、使用
者（発声者）の口元からマイク２までの伝達関数）、並
びにマイク２および８より出力される音声から、上述し
たようにしてマイク８に対応するインパルス応答Ｈ'が
推定（算出）される。

【０１３１】なお、マイク２に対応するインパルス応答
Ｈは、上述したように工場などにおいて、口元から所定
の短い距離（上述したように１０ｃｍ）にマイク２を配
置して、あらかじめ測定され、推定補正部７２の内蔵す
るメモリ（図示せず）に記憶されている。

【０１３２】マイク８に対応するインパルス応答Ｈ'が
推定（算出）されると、装置のモードが通常モードにな
り、その後、マイク２が有効にされた場合には、マイク
２から出力された音声は、そのまま分析部１０で分析さ
れ、認識部１１で、ＨＭＭ記憶部７１に記憶されている
マイク２からの音声そのものから作成（学習）されたモ
デル（ＨＭＭ）を用いて音声認識される。

【０１３３】また、マイク８が有効にされた場合には、
マイク８から出力された音声は、推定補正部７２におい
て、推定モード時に推定されたマイク８に対応するイン
パルス応答Ｈ'の逆関数１／Ｈ'に、マイク２に対応する
インパルス応答Ｈが乗算された伝達関数Ｈ／Ｈ'によっ
て変換（時間軸上では畳み込み、周波数軸上では乗算）
される。

【０１３４】即ち、推定補正部７２において、マイク８
から出力された音声が、マイク２から出力された音声の
特性と同様の特性になるように変換される。

【０１３５】そして、この特性の変換された音声は、分
析部１０で分析され、認識部１１で、ＨＭＭ記憶部７１
に記憶されているモデル（ＨＭＭ）を用いて音声認識さ
れる。

【０１３６】即ち、認識部１１では、マイク２から出力
される音声と同様の特性に変換されたマイク８からの音
声が、マイク２からの音声そのものから作成（学習）さ
れたモデル（ＨＭＭ）を用いて音声認識される。

【０１３７】従って、マイク８の特性だけでなく、音場
の違いを補正することができるので、音声の認識率の劣
化を防止することができる。さらに、ＨＭＭ記憶部７１
に記憶させるモデルを作成するときのマイクと音場は、
装置を使用するときと一致させる必要がなく、装置を容
易に大量生産することができる。

【０１３８】なお、この場合、図に示したように、マイ
ク２とマイク８などのマイクを常に複数設けておく必要
はない。即ち、マイク８に対応するインパルス応答Ｈ'
の推定（算出）後、基準マイクとしてのマイク２を取り
外し、装置に設けるマイクをマイク８の１つだけにする
ようにすることができる。

【０１３９】以上、本発明の音声認識装置をナビゲーシ
ョンシステムに適用した場合について説明したが、本発
明は、ナビゲーションシステムの他、例えばオーディオ
装置など、音声によって操作を行わせる場合に適用する
ことができる。

【０１４０】なお、本実施例においては、分析部１０
で、音声の特徴量として、ケプストラム係数とデルタケ
プストラム係数を算出するようにしたが、これに限られ
るものではなく、例えば所定の周波数帯域ごとのパワー
などの他の特徴量を算出するようにすることができる。

【０１４１】さらに、本実施例では、認識部１１で、Ｈ
ＭＭ法に基づいて音声認識を行うようにしたが、マルチ
テンプレート化の可能なあらゆるアルゴリズムに基づい
て音声認識を行うようにすることができる。

【０１４２】

【発明の効果】請求項１に記載のナビゲーションシステ
ムによれば、固定および可搬の入力手段に入力された音
声に基づいて、所定の制御が行われる。従って、例えば
固定の入力手段を運転者専用とし、可搬の入力手段を、
助手席や後部座席の同乗者用とすることができるので、
装置の利便性を向上させることができる。

【０１４３】請求項２に記載のナビゲーションシステム
によれば、可搬の入力手段と、操作手段とが一体に構成
されているので、装置の利便性をさらに向上させること
ができる。

【０１４４】請求項３に記載の音声認識装置によれば、
入力手段の特性に基づいて、入力手段の出力を補正した
後、入力手段に入力された音声を認識する。従って、入
力手段の特性によって、音声の認識率が劣化することが
防止される。

【０１４５】請求項４に記載の音声認識装置によれば、
入力手段が、複数設けられているので、装置の利便性を
向上させることができる。

【０１４６】請求項５に記載の音声認識装置によれば、
補正手段が、あらかじめ判っている基準入力手段の特性
に基づいて、入力手段の特性とともに音場を推定し、そ
の推定結果に基づいて、入力手段の出力を補正する。従
って、入力手段の特性や音場の違いによる、音声の認識
率の劣化が防止される。

【図面の簡単な説明】

【図１】本発明のナビゲーションシステムの一実施例の
構成を示すブロック図である。

【図２】図１の実施例のリモコン１の拡大図である。

【図３】図１の実施例の分析部１０の動作を説明するフ
ローチャートである。

【図４】モデル（ＨＭＭ）を示す図である。

【図５】モデル（ＨＭＭ）を示す図である。

【図６】モデル（ＨＭＭ）からコード系列ａ，ｂ，ａが
生起される確率を計算するためのトレリスを説明する図
である。

【図７】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図８】マイクの特性に基づく音声の認識率の劣化を防
止する音声認識装置の構成例を示すブロック図である。

【図９】マイクの特性に基づく音声の認識率の劣化を防
止する音声認識装置の構成例を示すブロック図である。

【図１０】本発明の音声認識装置を適用したナビゲーシ
ョンシステムの一実施例の構成を示すブロック図であ
る。

【図１１】マイクから出力される音声の特性を補正する
原理を説明するための図である。

【図１２】本発明の音声認識装置を適用したナビゲーシ
ョンシステムの第２実施例の構成を示すブロック図であ
る。

【符号の説明】

１リモコン２マイク３ランプ４マイクボタン５ジョイスティック６，７操作ボタン８マイク９ランプ１０分析部１１認識部１２システムコントローラ１３応答部１４表示部１５ＣＤＲＯＭ１６アンテナ１７受信部１８ＨＭＭ記憶部２１ａ，２１ｂマイク２２ａ，２２ｂ補正部２３，３１ａ，３１ｂ，４１，５１ＨＭＭ記憶部５２補正部６０発声者６１乃至６３マイク７１ＨＭＭ記憶部７２推定補正部

Claims

【特許請求の範囲】

【請求項１】音声を入力する、固定および可搬の入力
手段と、前記入力手段の出力を分析する分析手段と、前記分析手段の分析結果に基づいて、前記音声を認識す
る認識手段と、前記認識手段の認識結果に基づいて、所定の制御を行う
制御手段とを備えることを特徴とするナビゲーションシ
ステム。
【請求項２】前記ナビゲーションシステムを操作する
ための操作手段をさらに備え、前記可搬の入力手段と、前記操作手段とは一体に構成さ
れていることを特徴とする請求項１に記載のナビゲーシ
ョンシステム。
【請求項３】音声を入力する入力手段と、前記入力手段の特性に基づいて、前記入力手段の出力を
補正する補正手段と、前記補正手段によって補正された前記入力手段の出力を
分析する分析手段と、前記分析手段の分析結果に基づいて、前記音声を認識す
る認識手段とを備えることを特徴とする音声認識装置。
【請求項４】前記入力手段は、複数設けられているこ
とを特徴とする請求項３に記載の音声認識装置。
【請求項５】前記複数の入力手段のうちの少なくとも
１つは、その特性があらかじめ判っている基準入力手段
であり、前記補正手段は、前記基準入力手段の特性に基づいて、
前記入力手段の特性とともに音場を推定し、その推定結
果に基づいて、前記入力手段の出力を補正することを特
徴とする請求項４に記載の音声認識装置。