JP2003114696A

JP2003114696A - 音声認識装置、プログラム及びナビゲーションシステム

Info

Publication number: JP2003114696A
Application number: JP2001307542A
Authority: JP
Inventors: Takafumi Hitotsumatsu; 孝文一ツ松
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-10-03
Filing date: 2001-10-03
Publication date: 2003-04-18
Anticipated expiration: 2021-10-03
Also published as: JP4104313B2; DE10246029B4; US20030065516A1; US7240008B2; DE10246029A1

Abstract

(57)【要約】【課題】入力順では下位から上位階層へ向かう複数の語
を階層的につなぎ合わせた構成の音声を認識する際、認
識性能を向上させる。【解決手段】トークスイッチ９の押下後から所定時間ｔ
秒の無音区間を検出するまでは、マイク７を介したユー
ザからの発声を音声入力部２７にて入力し、ＬＰＣ分析
部３１及びケプストラム計算部３２によってＬＰＣケプ
ストラム係数を計算し、特徴パラメータ逆向き出力部３
６に一時的に記憶する。そして、一時的に記憶しておい
たＬＰＣケプストラム係数の系列を、時間軸を逆転させ
た系列に並び替えて照合部３４に出力する。照合部３４
では、特徴パラメータ逆向き出力部３６から出力された
ＬＰＣケプストラム係数を、標準パターン格納部３３に
格納されている後向き木構造化された認識辞書に対して
後ろから逆に照合してパターンマッチングを行い、類似
度を計算する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばナビゲーシ
ョンシステムにおける目的地の設定などを音声によって
入力できるようにする場合などに有効な音声認識技術に
関する。

【０００２】

【従来の技術】従来より、入力された音声を予め記憶さ
れている複数の比較対象パターン候補と比較し、一致度
合の高いものを認識結果とする音声認識装置が既に実用
化されており、例えばナビゲーションシステムにおいて
設定すべき目的地を利用者が地名を音声で入力するため
などに用いられている。特に車載ナビゲーションシステ
ムを運転手自身が利用する場合、音声入力であればボタ
ン操作や画面注視が伴わないため、車両の走行中に行っ
ても安全性が高いため有効である。

【０００３】このような機能を満たすためには、十分詳
細な地点の指定が容易にできなくてはならない。具体的
には、県や市のレベルではなく、市の下の町名のレベル
や、町村における大字といったレベルまで入力できる必
要がある。さらに、利用者が例えば「愛知県刈谷市昭和
町」と設定したい場合に、「愛知県」「刈谷市」「昭和
町」というように県市町というレベル毎に区切って発音
しなくてはならないとすると利用者にとって煩わしいの
で、ひと続きで入力（一括入力）できるようにすること
が好ましい。

【０００４】日本の住所の場合には、最上位階層である
４７都道府県で分岐し、都道府県毎に市町村、区、大
字、小字、番地というように、音声入力する順番に分岐
が増えていく。したがって、このような認識語彙に対し
ては木構造の認識辞書を用いて音声認識を行うことが有
効である。図６には、日本の住所の認識用の木構造辞書
の一例を示す。この場合には、最上位階層である４７都
道府県（あいちけん、ぎふけん…）で分岐し、都道府県
毎に市（あるいは町村）に分岐し、市毎に町名などで分
岐し、……というように、音声入力する順番で考える
と、後に行くほど頂点の数が多くなり、分岐していく態
様となっている。

【０００５】

【発明が解決しようとする課題】しかしながら、例えば
アメリカや欧州などの日本以外の諸国においては、住所
を表す際に、最下位階層である番地から始まり、ストリ
ート名称→シティ名称→州名称というように、日本の住
所の場合とは逆の順番となっていることが多い。そのた
め、仮にこのような認識語彙に対して木構造の認識辞書
を作成した場合、音声入力する順番で考えると、後に行
くほど頂点の数が少なくなり、合流していくいわば「後
向き木構造」の認識辞書となって、最初の階層（最下位
階層）から次の階層への分岐が非常に多くなってしまう
（例えば米国の場合であれば数十万から数百万程度にな
る）。したがって、マッチング処理の負荷が増大し、認
識時間が長くなってしまう可能性がある。

【０００６】また、処理負荷を低減させるための工夫と
して、木構造辞書において認識途中で候補を絞るために
いわゆる「枝切り」を行うことも知られている。ところ
が、上述のような、後に行くほど合流する形態の木構造
辞書においてこの枝切りを適用すると、実際には正解と
なる語の枝を切り落とす可能性が高くなるため、枝切り
による効果的な絞り込みができず、認識性能の低下を招
いてしまう。したがって、あえて木構造の認識辞書を構
築するメリットがなく、連続音声認識技術が適用しにく
い対象であった。

【０００７】なお、このような問題は、上述した住所の
場合に典型的であるが、住所には限らず、同じように複
数の語を階層的につなぎ合わせた認識辞書を木構造化し
た場合に、音声入力順で考えると後に行くほど合流する
形態となるようなものであれば同様の問題が生じる。

【０００８】そこで本発明は、このような問題を解決
し、入力順に従うと下位階層から上位階層へ向かう複数
の語を階層的につなぎ合わせた構成となる音声を認識す
る際、認識性能を向上させることを目的とする。

【０００９】

【課題を解決するための手段及び発明の効果】請求項１
に記載の音声認識装置においては、辞書手段に記憶され
ている複数の比較対象パターン候補の内の少なくとも一
部は、複数の語を階層的につなぎ合わせたものであっ
て、音声入力順に従うと頂点の数が順番に少なくなる後
向き木構造の認識辞書として設定されている。そして認
識手段は、その後向き木構造の認識辞書を用い、入力さ
れた一連の音声を、その入力時点が新しいものから古い
ものへ順番に認識していく後向き認識処理を実行する。

【００１０】後向き木構造の認識辞書を用いて、入力さ
れた一連の音声を入力順に比較していくと、上述のよう
に下位階層から始まる木構造であるがために認識速度の
低下が生じる。それに対して本発明では、下位階層から
始まる木構造である後向き木構造の認識辞書を有効に活
用するため、対象となる一連の入力音声を時間的に逆か
ら、つまり、最後に入力された音声情報から最初に入力
された音声情報に向かって逆方向に認識処理を行う。

【００１１】したがって、例えば欧米の住所のような入
力順に従うと下位階層から上位階層へ向かう複数の語を
階層的につなぎ合わせた音声を認識する際、後向き木構
造の認識辞書であっても、それを逆向きに、つまり上位
階層から始まる通常の前向き木構造の認識辞書とみなし
て処理を行えることとなる。この結果、木構造辞書の持
つ本来的な有利さを有効活用でき、認識性能の向上が期
待できる。なお、この処理をするためには、入力が終了
するまで音声情報を蓄えておき、それを逆向きに変換す
る必要があるため、一連の音声入力が終了するまで待つ
必要がある。

【００１２】また、上述のように、後向き木構造の認識
辞書をそのまま用いて、認識途中で候補を絞るいわゆる
「枝切り」を行うと、実際には正解となる語の枝を切り
落とす可能性が高くなるが、この後向き認識処理では、
上位階層から始まる通常の前向き木構造の認識辞書とみ
なして処理を行える。そのため、枝切りを採用したとし
ても不都合は生じず、枝切りによる効果的な絞り込みが
でき、認識速度の向上というメリットが得られる。

【００１３】後向き認識処理の実行に際しては、例えば
請求項２や３のようにすることができる。つまり、入力
された一連の音声の波形情報を特徴パラメータへ変換
し、その特徴パラメータを用いて認識を行う場合に、音
声波形情報の段階で時間的に後向きにしてもよいし（請
求項２）、特徴パラメータの段階で時間的に後向きにし
てもよい（請求項３）。

【００１４】ところで、本音声認識装置は、入力順に従
うと下位階層から上位階層へ向かう複数の語を階層的に
つなぎ合わせた一連の音声を認識するための専用装置と
して実現しても良いが、そのような性質を持たない音声
に対しても認識できるようにすることもできる。その場
合は、後向き木構造以外の認識辞書も有することとなる
ため、状況に応じて使い分ける必要がある。そこで、請
求項４のように、後向き木構造の認識辞書を使用すべき
状況であることを使用者の所定の動作から検出し、その
場合にだけ後向き木構造の認識辞書を用いた後向き認識
処理を実行するようにすればよい。例えば欧米での使用
を考えた場合であっても、住所以外については通常の順
番で認識する必要があるため、例えば住所の音声認識で
あることをユーザのスイッチ操作などによって検出し、
その場合にだけ住所認識用の後向き木構造の辞書を用い
て後向き認識処理を行うようにする。

【００１５】また、本発明では後向き認識処理を行う場
合には、一連の音声が一括入力されることが前提となる
が、このような一連の音声の入力期間は認識手段が特定
する（請求項６）。具体的には、入力期間の開始及び終
了を、使用者自身が指定する所定の操作に基づいて特定
しても良いし（請求項７）、入力音声の有無に基づいて
特定しても良い（請求項８）。また、使用者自身が指定
する所定の操作に基づいて入力期間の開始を特定し、そ
の後、音声が所定時間入力されない状態となった時点で
期間終了であることを特定しても良い（請求項９）。

【００１６】なお、誤認識への対応としては、例えば請
求項１０に示すように、報知手段によって認識結果を報
知した後、所定の確定指示がなされた場合に、認識結果
を確定したものとして所定の確定後処理を実行すること
が考えられる。このようにすれば、使用者は自分の発声
した内容と異なる認識結果となっていた場合に、再度の
音声入力を行うこともできる。報知の方法としては認識
結果の内容を音声出力又は文字・記号などの表示の少な
くとも何れかによって行うことが考えられる（請求項１
１）。

【００１７】なお、請求項１〜１１の何れかに記載の認
識手段としてコンピュータを機能させるためのプログラ
ムは、例えば、フレキシブルディスク、光磁気ディス
ク、ＣＤ−ＲＯＭ、ハードディスク、ＲＯＭ、ＲＡＭ等
のコンピュータ読み取り可能な記録媒体に記録し、必要
に応じてコンピュータにロードして起動することにより
用いることができる。また、ネットワークを介してロー
ドして起動することにより用いることもできる。

【００１８】また、このような音声認識装置の適用先と
しては、種々考えられるが、その一例として請求項１３
に示すように、音声入力手段を、ナビゲーション装置が
ナビゲート処理をする上で指定される必要のある所定の
地名関連データの指示を使用者が音声にて入力するため
に用いるようにしたナビゲーションシステムが挙げられ
る。

【００１９】

【発明の実施の形態】以下、本発明が適用された実施例
について図面を用いて説明する。なお、本発明の実施の
形態は、下記の実施例に何ら限定されることなく、本発
明の技術的範囲に属する限り、種々の形態を採り得るこ
とは言うまでもない。

【００２０】図１（ａ）は、音声認識装置１を含むシス
テムの構成を表すブロック図である。なお、本実施例の
音声認識装置１は、自動車（車両）に搭載されて、使用
者としての車両の乗員（主に、運転者）と音声にて対話
しながら、その車両に搭載されたナビゲーション装置１
５を制御するものである。

【００２１】図１に示すように、本実施例の音声認識装
置１は、使用者が各種の指令やデータなどを外部操作に
よって入力するためのスイッチ装置３と、画像を表示す
るための表示装置５と、音声を入力するためのマイクロ
フォン７と、音声入力時に操作するトークスイッチ９
と、音声を出力するためのスピーカ１１と、車両の現在
位置（現在地）の検出や経路案内などを行う周知のナビ
ゲーション装置１５とに接続されている。

【００２２】なお、ナビゲーション装置１５は、車両の
現在位置を検出するための周知のＧＰＳ装置や、地図デ
ータ，地名データ，施設名データなどの経路案内用デー
タを記憶したＣＤ−ＲＯＭ、そのＣＤ−ＲＯＭからデー
タを読み出すためのＣＤ−ＲＯＭドライブ、及び、使用
者が指令を入力するための操作キーなどを備えている。
なお、ＣＤ−ＲＯＭの代わりにＤＶＤなどを用いてもよ
い。そして、ナビゲーション装置１５は、例えば、使用
者から操作キーを介して、目的地と目的地までの経路案
内を指示する指令とが入力されると、車両の現在位置と
目的地へ至るのに最適な経路とを含む道路地図を、表示
装置５に表示させて経路案内を行う。また、表示装置５
には、ナビゲーション装置１５によって経路案内用の道
路地図が表示されるだけでなく、情報検索用メニューな
どの様々な画像が表示される。

【００２３】そして、音声認識装置１は、ＣＰＵ，ＲＯ
Ｍ，及びＲＡＭなどからなるマイクロコンピュータを中
心に構成された制御部５０と、その制御部５０にスイッ
チ装置３からの指令やデータを入力する入力部２３と、
制御部５０から出力された画像データをアナログの画像
信号に変換して表示装置５に出力し、画面上に画像を表
示させる画面出力部２５と、マイクロフォン７から入力
された音声信号をデジタルデータに変換する音声入力部
２７と、音声入力部２７を介して入力される音声信号か
ら、使用者が発話した言葉としてのキーワード（以下、
発話キーワードともいう）を認識して取得するための音
声認識部３０と、制御部５０から出力されたテキストデ
ータをアナログの音声信号に変換してスピーカ１１に出
力し、スピーカ１１を鳴動させる音声出力部２８と、上
記ナビゲーション装置１５と制御部５０とをデータ通信
可能に接続する機器制御インタフェース（機器制御Ｉ／
Ｆ）２９とを備えている。

【００２４】なお、音声入力部２７は、入力した音声の
特徴量を分析するため、例えば数１０ｍｓ程度の区間の
フレーム信号を一定間隔で切り出し、その入力信号が音
声の含まれている音声区間であるのか音声の含まれてい
ない雑音区間であるのか判定する。マイク７から入力さ
れる信号は、認識対象の音声だけでなく雑音も混在した
ものであるため、音声区間と雑音区間の判定を行なう。
この判定方法としては従来より多くの手法が提案されて
おり、例えば入力信号の短時間パワーを一定時間毎に抽
出していき、所定の閾値以上の短時間パワーが一定以上
継続したか否かによって音声区間であるか雑音区間であ
るかを判定する手法がよく採用されている。そして、音
声区間であると判定された場合には、その入力信号が音
声認識部３０に出力されることとなる。

【００２５】ここで、音声認識部３０の構成について、
図１（ｂ）を参照してさらに詳しく説明する。音声認識
部３０は、ＬＰＣ分析部３１と、ケプストラム計算部３
２と、標準パターン格納部３３と、照合部３４と、判定
部３５と、特徴パラメータ逆向き出力部３６とを備えて
いる。

【００２６】ＬＰＣ分析部３１では、雑音抑圧装置１０
からの出力を用いて線形予測分析を行なう。線形予測分
析は音声信号処理の分野では一般的な分析手法であり、
例えば、古井「ディジタル音声処理」（東海大学出版
会）などに詳しく説明されている。本実施例においては
この線形予測分析に自己相関法を用いており、自己相関
係数Ｃ（ｒ）を用いてｍ次のＬＰＣ係数を計算する。

【００２７】そして、ケプストラム計算部３２では、Ｌ
ＰＣ分析部３１において計算されたＬＰＣ係数を基に、
フレーム毎のスペクトル上の特徴パラメータとしてのＬ
ＰＣケプストラム係数を計算する。このケプストラム計
算部３２にて得られたＬＰＣケプストラム係数の系列は
特徴パラメータ逆向き出力部３６へ出力され、所定の指
示があるまで一時的に記憶される。そして、所定の指示
があると、特徴パラメータ逆向き出力部３６は時間軸を
逆転させた系列に並び替えて照合部３４に出力する。

【００２８】一方、標準パターン格納部３３には予め計
算しておいた認識対象語彙の標準パターン（特徴パラメ
ータ系列）が格納してあり、照合部３４は、標準パター
ン格納部３３に格納されている標準パターンと、ケプス
トラム計算部３２にて計算され特徴パラメータ逆向き出
力部３６によって時間軸を逆転させられたＬＰＣケプス
トラム係数との間で類似度計算を行なう。これらは周知
のＤＰマッチング法、ＨＭＭ（隠れマルコフモデル）あ
るいはニューラルネットなどによって、この時系列デー
タをいくつかの区間に分け、各区間が辞書データとして
格納されたどの単語に対応しているかを求める。

【００２９】ところで、本実施形態の標準パターン格納
部３３に格納されている標準パターンデータは、比較対
象パターン候補となる語彙そのもののデータだけでな
く、その比較対象パターンとなる語彙が複数の語を階層
的につなぎ合わせたものである場合には、その階層構造
を示すデータも記憶されている。例えば図２には、木構
造表現された米国の地名辞書を示す。この地名辞書は、
ストリート名と都市（シティ）名と州名、あるいは都市
名と州名の複数階層の木構造で構成されている。なお、
これにハウスナンバ（番地）やＺＩＰコードを構成要素
として付加してより詳細な辞書としてもよい、逆に都市
名と州名だけで簡易な辞書として構成することもでき
る。図２では、各地名を構成する単語は発話される順に
左から並べて表示している。これを実線のように結んで
木構造化し、入力音声と照合するときは右から、つまり
発声順が時間的に後となる州名から照合する。

【００３０】このように発声順が時間的に後となる州名
から照合するため、音素単位で標準パターンを作成する
と、図３に示すようになる。図３は米国の一部の州名の
みを例示しており、図３（ａ）に示すように州名を発音
表記して音素単位に分け、それを後ろから照合するよう
に作成したものが図３（ｂ）である。図３（ｂ）に示す
ように、語彙を構成する音素データが木（tree）構造の
各辺（図３（ｂ）において矢印（→）で示す）に割り付
けられている。なお、図３（ｂ）において、一重丸
（○）は頂点を表し、二重丸（◎）は受理頂点、すなわ
ち単語に対する頂点を表す。そして、図３（ｂ）中の矢
印Ａで示す頂点が「根」となり、そこから先行順走査
（preorder traversal）にしたがって各辺に割り付けら
れ音節を辿ることで単語が完成する。ここで「先行順走
査」とは、根を訪問し、次に子を根とする部分木を順番
に走査（この走査も先行順走査である。）していくこと
を指す。なお、ここで、「親」とは直前の頂点、「子」
とは次の頂点、「兄弟」とは同じ親を持つ頂点同士をそ
れぞれ意味する。

【００３１】つまり、図３（ｂ）に示す具体例では、
「根」となる頂点（矢印Ａで示す）から順に辿って矢印
Ｂで示す受理頂点となった場合には、アラバマ（Alabam
a）州を音素単位で逆から表したものとなる。したがっ
て、アラバマ（Alabama）で一つの認識対象単語とな
る。そして、さらにその矢印Ｂで示す受理頂点を経由し
てアラバマ（Alabama）州内の各都市名を音素単位で逆
から表したものが続いている。ここで、例えば図３
（ａ）に示した４つの州名、すなわちアラバマ（Alabam
a）・オクラホマ（Oklahoma）・フロリダ（Florida）・
ジョージア（Geogia）は、いずれも最後の音素が共通で
あるため、同じ受理頂点から分岐する。同様に、同じ州
内の都市名の内で最後の音素が共通のものは同じ受理頂
点から分岐することとなり、同じ都市内のストリート名
の内で最後の音素が共通のものは同じ受理頂点から分岐
することとなる。

【００３２】階層化された認識対象語彙に対する照合は
上位階層から始めるのが有効であるため、下位階層から
上位階層に向かって音声入力される習慣のある例えば米
国住所については、上述のように、音素単位で扱うこと
によって、上位階層である州名から都市名、ストリート
名という順に照合できるような辞書を作成した。

【００３３】以上は標準パターン格納部３３に格納され
ている標準パターンデータの説明であったが、照合部３
４にてその標準パターンを用いた類似度計算が行なわれ
た後は、判定部３５が、各認識対象語彙のうち照合部３
４で計算した類似度が最も高い語彙を認識結果として制
御部５０へ出力する。

【００３４】制御部５０は、最終的な認識結果を確定し
たり、所定の後処理を実行する。所定の後処理として
は、所定の確定指示がなされた場合に機器制御Ｉ／Ｆ２
９を介してナビゲーション装置１５へデータを送って所
定の処理をするように指示することが考えられる。例え
ばナビゲート処理のために必要な目的地を通知して設定
処理を実行させるよう指示する処理を実行する。このよ
うな処理の結果として、この音声認識装置３０を利用す
れば、上記操作スイッチ群８あるいはリモコン１５ａを
手動しなくても、音声入力によりナビゲーションシステ
ムに対する目的地の指示などが可能となるのである。ま
た、制御部５０は、音声認識部３０から出力された認識
結果をテキストデータとして音声出力部２８へ送り、ス
ピーカ１１から発音させるように指示する処理を実行す
る。

【００３５】なお、音声認識部３０から制御部５０へ送
る認識結果としては、最終的な認識結果としての上位比
較対象パターンの全てでもよいし、あるいはその内の最
上位のものだけでもよい。但し、以下の説明では、理解
を容易にするため、特に断らない限り最上位のもの一つ
だけを送ることを前提として進める。

【００３６】また、本実施例においては、利用者がトー
クスイッチ９を押すと、その後に音声入力が可能とな
る。なお、トークスイッチ９を押したのに音声入力がさ
れない場合も想定されるため、トークスイッチ９が押さ
れて音声入力が可能となった後に所定時間以上の無音区
間があれば、音声入力が不可能な状態に移行する。した
がって、音声入力部２７はトークスイッチ９が押された
タイミングを監視しており、押されたことを検知する。

【００３７】次に、本実施例の音声認識装置１の動作に
ついて、ナビゲーション装置１５にて経路探索をするた
めの目的地を音声入力する場合を例にとり、図４のフロ
ーチャートを参照して説明する。図４の処理は、トーク
スイッチ９がオン（押下）されることによって開始する
ものであり、最初のステップＳ１０では、マイク７を介
したユーザからの発声を音声入力部２７にて入力する。
そして、所定時間ｔ秒の無音区間を検出したか否かを判
断し（Ｓ２０）、無音区間を検出しない間は（Ｓ２０：
ＮＯ）、音声認識部３０において入力音声の特徴パラメ
ータを算出し、記憶しておく（Ｓ３０）。具体的には、
ＬＰＣ分析部３１によってＬＰＣ係数を計算し、ケプス
トラム計算部３２によって特徴パラメータであるＬＰＣ
ケプストラム係数を計算して、特徴パラメータ逆向き出
力部３６に一時的に記憶しておく。

【００３８】そして、所定時間ｔ秒の無音区間を検出し
た場合には（Ｓ２０：ＹＥＳ）、トークスイッチ９がオ
ンされてから無音区間が生じるまでの間を音声区間とし
て切り出し（Ｓ４０）、特徴パラメータの時間方向を逆
転する。つまり、特徴パラメータ逆向き出力部３６は、
一時的に記憶していたＬＰＣケプストラム係数の系列
を、時間軸を逆転させた系列に並び替えて照合部３４に
出力する（Ｓ５０）。

【００３９】照合部３４では、標準パターン格納部３３
に格納されている標準パターンと、特徴パラメータ逆向
き出力部３６から出力されたＬＰＣケプストラム係数と
の間でパターンマッチングを行って類似度を計算する
（Ｓ６０）。そして、その照合結果によって定まった上
位比較対象パターンを認識結果としは制御部２１に出力
され、制御部２１は、その認識結果をトークバック及び
表示する（Ｓ７０）。このトークバックは、制御部５０
が音声出力部２８を制御し、認識した結果を音声により
スピーカ１１から出力させると共に、画面出力部２５を
制御し、認識した結果を示す文字などを表示装置５に表
示させる。

【００４０】そして、正しい認識であったか否かを、利
用者からの指示に基づいて判断する（Ｓ８０）。具体的
には、利用者によるスイッチ装置３に対する操作に基づ
いて判断する。なお、マイク７からの音声入力に基づい
てもよい。例えば「はい」という肯定的な内容を示す音
声入力があれば正しい認識であったと判断できるし、
「いいえ」「違う」などの否定的な内容を示す音声入力
があれば誤った認識であったと判断できる。

【００４１】そして、誤った認識であった場合には（Ｓ
８０：ＮＯ）、そのまま本処理を終了する。もちろん、
ユーザが再度、音声入力する場合には、トークスイッチ
９を押下するので、本処理が最初から実行されることと
なる。一方、Ｓ８０で肯定判断、すなわち正しい認識で
あると判断した場合には、制御部５０にて認識結果を確
定する（Ｓ９０）。認識結果が確定すると、次に所定の
確定後処理を実行する（Ｓ１００）。この場合の確定後
処理とは、例えば認識結果が「メニュー画面」であれ
ば、それに関するデータを、機器制御Ｉ／Ｆ２９を介し
てナビゲーション装置１５へ出力したりする処理などで
ある。Ｓ１００の処理の後は本処理を終了する。

【００４２】以上説明したように、本実施例の制御装置
１によれば、図２に示すような後向き木構造の認識辞書
を用いて音声入力された米国の住所を認識していくので
あるが、これを入力順に比較していくと下位階層から始
まる木構造であるがために認識性能の低下が予想され
る。そこで本実施例では、下位階層から始まる木構造で
ある後向き木構造の認識辞書を有効に活用するため、音
声認識部３０の特徴パラメータ逆向き出力部３６によっ
て認識対象となる一連の入力音声の特徴パラメータを時
間的に逆に変換する。そして、図２に示す後向き木構造
の認識辞書を図３に示すように逆向きに照合していく。
つまり上位階層から始まる通常の前向き木構造の認識辞
書とみなして処理を行えることとなる。この結果、木構
造辞書の持つ本来的な有利さを有効活用でき、認識性能
の向上が期待できる。

【００４３】なお、本実施例では、図４のフローチャー
トにも示すように、音声区間中の入力音声については、
逐次パラメータであるＬＰＣケプストラム係数に変換し
て一時的に記憶しておき、音声区間が終了してから、そ
れを時間的に逆向きに変換して出力し、照合を行うよう
にしているため、一連の音声入力が終了するまで待つ必
要がある。

【００４４】なお、本実施例の場合には、マイク７、音
声入力部２７が「音声入力手段」に相当し、音声出力部
２８、スピーカ１１、画面出力部２５、表示装置５が
「報知手段」に相当する。また、音声認識部３０が「認
識手段」に相当し、その音声認識部３０内の標準パター
ン格納部３３が「辞書手段」に相当する。また、制御部
５０が「確定後処理手段」に相当する。また、トークス
イッチ９、音声入力部２７、音声認識部３０が「入力期
間指定手段」に相当する。

【００４５】［別実施例］（１）上記実施例では、図１（ｂ）に示すように、音声
認識部３０の特徴パラメータ逆向き出力部３６によって
認識対象となる一連の入力音声の特徴パラメータを時間
的に逆に変換したが、音声波形情報の段階で時間的に後
向きにしてもよい。その場合の音声認識部３０の構成を
図５（ａ）に示す。

【００４６】本別実施例の場合は、図１（ｂ）における
特徴パラメータ逆向き出力部３６を削除し、代わりに、
ＬＰＣ分析部３１の前段に音声波形逆向き出力部３７を
追加したものである。この音声波形逆向き出力部３７
は、音声入力部２７から入力された音声波形を所定の指
示があるまで一時的に記憶しておき、所定の指示がある
と、時間軸を逆転させた音声波形としてＬＰＣ分析部３
１へ出力する。

【００４７】この別実施例の場合の動作について図５
（ｂ）のフローチャートを参照して説明する。図５
（ｂ）のフローチャートは、図４のフローチャートの一
部を変更したものであり、同じ部分については、同じス
テップ番号を付した。具体的には、図４のＳ１０，Ｓ２
０，Ｓ６０〜Ｓ１００は本別実施例でも同じであり、図
４のＳ３０〜Ｓ５０の部分を図５（ｂ）のＳ１３０〜Ｓ
１６０に代えたものである。

【００４８】つまり、無音区間を検出しない間は（Ｓ２
０：ＮＯ）、音声認識部３０の音声波形逆向き出力部３
７が、音声入力部２７から入力された音声波形を一時的
に記憶しておく。そして、所定時間ｔ秒の無音区間を検
出した場合には（Ｓ２０：ＹＥＳ）、トークスイッチ９
がオンされてから無音区間が生じるまでの間を音声区間
として切り出し（Ｓ１４０）、その区間の音声波形を時
間方向を逆転させて再生し、ＬＰＣ分析部３１へ出力す
る（Ｓ１５０）。そして、ＬＰＣ分析部３１によってＬ
ＰＣ係数を計算し、ケプストラム計算部３２によって特
徴パラメータであるＬＰＣケプストラム係数を計算し
て、照合部３４に出力する（Ｓ１６０）。その後は、上
記実施例同様、標準パターン格納部３３に格納されてい
る標準パターンと、ケプストラム計算部３２にて計算さ
れたＬＰＣケプストラム係数との間でパターンマッチン
グを行って類似度を計算する（Ｓ６０）。以下は、図４
の場合と同じなので説明は省略する。

【００４９】（２）上記実施例では、ケプストラム計算
部３２によって計算したＬＰＣケプストラム係数を、特
徴パラメータ逆向き出力部３６にて逆向きに出力してい
る。一方、適切な音声認識のための工夫として、ケプス
トラム計算部３２で動的特徴量（前後のケプストラムと
の変化分＝傾きを表す）であるデルタケプストラムを求
めることも知られている。これをそのまま特徴パラメー
タ逆向き出力部３６で逆にしてしまうと、デルタケプス
トラムとして本来持たせたい情報ではなくなる。それを
正しくするためには逆向きに出力されたケプストラムか
らデルタケプストラムを求めればよい。したがって、こ
のようなデルタケプストラムを利用する構成とするので
あれば、デルタケプストラムを計算する処理ブロックを
特徴パラメータ逆向き出力部３６の後段に追加すればよ
い。

【００５０】なお、上記別実施例（１）として述べたよ
うに、入力された音声波形自体を記憶しておいて逆向き
に出力する構成の場合には、デルタケプストラムは本来
持たせたい情報を持つため、通常通り、ケプストラム計
算部３２によって計算すればよい。

【００５１】（３）上記実施例で特徴パラメータとして
ＬＰＣケプストラム係数を用いたが、これに限らず、例
えばメル化されたケプストラムやスペクトルを用いても
よい。（４）上記実施例では、図２に示すように、米国の地名
辞書を例にとって、後向き木構造以外の認識辞書例を示
したが、例えば欧州各国においても、住所については同
様の後向き木構造以外の認識辞書が作成できるため、同
様に適用できる。例えば英国では米国の場合と同じで番
地→町→市の順に発声し、フランスの場合も基本的には
同じで番地→町→郵便番号→州の順である。また、ドイ
ツの場合はストリート→番地→郵便番号→州となる。

【００５２】（５）上記実施例あるいは上記別実施例
（２）で説明したように、欧米の住所を音声認識する際
には後ろ向き木構造の認識辞書を有効利用するため、認
識対象となる一連の入力音声を音声波形段階あるいは特
徴パラメータ段階で時間的に逆に変換する手法が好まし
い。このような下位階層から順に発声されるような住所
の認識装置として専用に構成するのであればそれでよい
が、そのような性質を持たない認識対象語彙も認識でき
るようにする場合は、後向き木構造以外の認識辞書も有
することとなるため、状況に応じて使い分ける必要があ
る。その場合には、後向き木構造の認識辞書を使用すべ
き状況であることをユーザの所定の動作から検出し、そ
の場合にだけ後向き木構造の認識辞書を用いた後向き認
識処理を実行するようにすればよい。欧米での使用を考
えた場合であっても、上述した住所以外については通常
の順番で認識する必要があるため、一律に入力音声を時
間的に逆転させることは不適切だからである。

【００５３】したがって、この場合は、例えば住所の音
声認識であることをユーザのスイッチ操作などによって
検出し、その場合にだけ住所認識用の後向き木構造の辞
書を用いて後向き認識処理を行うようにすることが考え
られる。例えばスイッチ装置３に対する操作で住所認識
モードに設定してもよいし、あるいは音声認識によって
住所認識モードに設定してもよい。例えば「住所入力」
といった言葉をユーザが発声した場合には住所認識モー
ドになり、上述した図４のフローチャートのような処理
を実行するのである。

【００５４】（６）上記実施例では、一連の音声の入力
期間はトークスイッチ９が押下されることで開始し、そ
の後、所定時間ｔの無音区間が生じた場合に入力期間が
終了したと判断しているが、例えば、トークスイッチ９
が押下され続けている期間を音声入力期間と判断しても
良い。この場合は、音声入力手法として、ユーザがトー
クスイッチ９を押下している間のみ音声入力を許可する
構成を前提としたものである。

【００５５】（７）上記実施例では、欧米の住所の例を
挙げたが、このような住所には限らず、同じように複数
の語を階層的につなぎ合わせた認識辞書を木構造化した
場合に、音声入力順で考えると後に行くほど合流する
「後向き木構造」となるようなものであれば同様の適用
できる。

【００５６】（８）上記実施例では、図２あるいは図３
に示すように、欧米の住所認識のための辞書として後向
き木構造のものを例として挙げたが、住所認識に際して
は、次のような観点での工夫も採用できる。つまり、上
述した米国の例で言えば、現在アラバマ州内に居て、同
じ州内の別の場所に行く場合、わざわざ「アラバマ」ま
では発声しないのが自然である。このような場合は、州
名を省略した音声入力についても適切に認識できること
が好ましい。そのため、例えばナビゲーション装置１５
から現在地情報を入力し、その現在地が存在する州名に
ついては省略した住所の音声入力がされることを想定
し、その州については、都市名から照合していくように
する。例えば図３（ｂ）の場合で言えば、現在アラバマ
州に居る場合には、頂点Ｂから始まる標準パターンもマ
ッチング対象として音声認識を行えばよい。

【００５７】このように、自分達が現在存在している所
定のエリア内については、そのエリアを特定する上位階
層の地名をあえて特定せず、その下位の階層から特定す
るという日常会話の習慣においてごく自然な振舞いに対
応できることによって、上位階層を省略した方が自然な
場合であっても上位階層から音声入力しなくてはならな
いという利用者の負担を軽減し、使い勝手をより向上さ
せることができる。

【００５８】（９）前向きの木構造辞書の場合、処理負
荷を低減させるために、認識途中で候補を絞るためにい
わゆる「枝切り」を行うことが知られている。上記実施
例のような後向き木構造の認識辞書をそのまま用いて枝
切りを行うと、実際には正解となる語の枝を切り落とす
可能性が高くなる。しかし、上記実施例においては、後
向き木構造の認識辞書を上位階層から始まる通常の前向
き木構造の認識辞書とみなして処理を行えるため、枝切
りを採用したとしても不都合は生じない。そのため、上
記実施例において、枝切りによる効果的な絞り込みを行
うようにしてもよく、その場合は認識速度の向上という
メリットが得られる。

【図面の簡単な説明】

【図１】（ａ）は実施例の音声認識装置を含むシステム
の構成ブロック図、（ｂ）は音声認識部の構成ブロック
図である。

【図２】後向き木構造表現された米国の地名辞書例の説
明図である。

【図３】図２の地名辞書例を音素単位の標準パターンで
作成した場合の説明図である。

【図４】音声認識装置における音声認識に係る処理を示
すフローチャートである。

【図５】別実施例の構成及び処理内容の説明図である。

【図６】前向き木構造の認識辞書例の説明図である。

【符号の説明】

１…制御装置、３…スイッチ装置、５…表示装置、７…
マイクロフォン、９…トークスイッチ、１１…スピー
カ、１５…ナビゲーション装置、２３…入力部、２５…
画面出力部、２７…音声入力部、２８…音声出力部、２
９…機器制御Ｉ／Ｆ、３０…音声認識部、３１…ＬＰＣ
分析部、３２…ケプストラム計算部、３３…標準パター
ン格納部、３４…照合部、３５…判定部、３６…特徴パ
ラメータ逆向き出力部、３７…音声波形逆向き出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 11/02 Ｇ１０Ｌ 3/00 ５５１Ｑ 15/00 ５２１Ｗ 15/04 ５１３Ａ 15/06 ５６１Ｃ 15/22 ５７１Ｋ 15/28

Claims

【特許請求の範囲】

【請求項１】複数の語を階層的につなぎ合わせてなる一
連の音声を入力するための音声入力手段と、該音声入力手段を介して入力された一連の音声を、予め
辞書手段に記憶されている複数の比較対象パターン候補
と比較して一致度合の高いものを認識結果とする認識手
段とを備える音声認識装置であって、前記辞書手段に記憶されている前記複数の比較対象パタ
ーン候補の内の少なくとも一部は、複数の語を階層的に
つなぎ合わせたものであって、音声入力順に従うと頂点
の数が順番に少なくなる後向き木構造の認識辞書であ
り、前記認識手段は、前記後向き木構造の認識辞書を用い、
前記音声入力手段を介した入力された一連の音声を、そ
の入力時点が新しいものから古いものへ順番に認識して
いく後向き認識処理を実行可能であることを特徴とする
音声認識装置。
【請求項２】請求項１に記載の音声認識装置において、前記認識手段は、前記音声入力手段を介して入力された一連の音声の波形
情報を特徴パラメータへ変換し、当該特徴パラメータを
用いて認識を行うものであり、前記音声入力手段を介して入力された一連の音声の波形
情報を一旦保持しておき、その音声波形情報を入力時点
が新しいものから古いものへ順番に前記特徴パラメータ
へ変換することを特徴とする音声認識装置。
【請求項３】請求項１に記載の音声認識装置において、前記認識手段は、前記音声入力手段を介して入力された一連の音声の波形
情報を特徴パラメータへ変換し、当該特徴パラメータを
用いて認識を行うものであり、前記音声入力手段を介して入力された一連の音声の波形
情報をその入力順に前記特徴パラメータへ変換し、さら
に、その特徴パラメータを入力時点が新しいものから古
いものへ順番に変換することを特徴とする音声認識装
置。
【請求項４】請求項１〜３の何れかに記載の音声認識装
置において、前記辞書手段は前記後向き木構造以外の認識辞書も有し
ており、さらに、今回の発声が前記後向き木構造の認識辞書を使
用すべき状況であることを示す使用者の所定の動作を検
出する動作検出手段を備え、前記認識手段は、前記動作検出手段によって所定の動作
を検出した場合、前記後向き木構造の認識辞書を用いて
前記後向き認識処理のみを実行することを特徴とする音
声認識装置。
【請求項５】請求項１〜４の何れかに記載の音声認識装
置において、前記複数の語を階層的につなぎ合わせてなる一連の音声
は、住所であることを特徴とする音声認識装置。
【請求項６】請求項１〜５の何れかに記載の音声認識装
置において、前記認識手段は、前記音声入力手段を介して入力される
前記一連の音声が入力されている期間を特定する機能を
有することを特徴とする音声認識装置。
【請求項７】請求項６に記載の音声認識装置において、前記音声入力手段を介して前記一連の音声を入力される
期間の開始及び終了を使用者自身が指定する所定の操作
を行うための入力期間指定手段を備え、前記認識手段は、前記入力期間指定手段によって指定さ
れた入力期間に基づいて、前記一連の音声が入力されて
いる期間を特定することを特徴とする音声認識装置。
【請求項８】請求項６に記載の音声認識装置において、前記認識手段は、前記音声入力手段を介して入力される
音声の有無に基づいて、前記一連の音声が入力されてい
る期間を特定することを特徴とする音声認識装置。
【請求項９】請求項６に記載の音声認識装置において、前記音声入力手段を介して前記一連の音声を入力される
期間の開始を使用者自身が指定する所定の操作を行うた
めの入力開始指定手段を備え、前記認識手段は、前記入力開始指定手段によって入力期
間の開始が指定された後、前記音声入力手段を介して音
声が所定時間入力されない状態となるまでを、前記一連
の音声が入力されている期間として特定することを特徴
とする音声認識装置。
【請求項１０】請求項１〜９の何れかに記載の音声認識
装置において、該認識手段による認識結果を報知する報知手段と、該報知手段によって認識結果が報知された後に所定の確
定指示がなされた場合には、当該認識結果を確定したも
のとして所定の確定後処理を実行する確定後処理手段と
を備えることを特徴とする音声認識装置。
【請求項１１】請求項１０に記載の音声認識装置におい
て、前記報知手段は、前記認識結果の内容を、音声出力又は
文字・記号などの表示の少なくとも何れかによって行う
ことを特徴とする音声認識装置。
【請求項１２】請求項１〜１１の何れかに記載の前記認
識手段としてコンピュータを機能させるためのプログラ
ム。
【請求項１３】請求項１〜１１の何れか記載の音声認識
装置と、その音声認識装置にて認識された結果に基づい
て所定の処理を実行するナビゲーション装置とを備え、前記音声入力手段は、少なくとも前記ナビゲーション装
置がナビゲート処理をする上で指定される必要のある所
定の地名関連データの指示を使用者が音声にて入力する
ために用いられることを特徴とするナビゲーションシス
テム。