JP4104313B2 - 音声認識装置、プログラム及びナビゲーションシステム - Google Patents

音声認識装置、プログラム及びナビゲーションシステム Download PDF

Info

Publication number
JP4104313B2
JP4104313B2 JP2001307542A JP2001307542A JP4104313B2 JP 4104313 B2 JP4104313 B2 JP 4104313B2 JP 2001307542 A JP2001307542 A JP 2001307542A JP 2001307542 A JP2001307542 A JP 2001307542A JP 4104313 B2 JP4104313 B2 JP 4104313B2
Authority
JP
Japan
Prior art keywords
recognition
input
voice
dictionary
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001307542A
Other languages
English (en)
Other versions
JP2003114696A (ja
Inventor
孝文 一ツ松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2001307542A priority Critical patent/JP4104313B2/ja
Priority to US10/232,309 priority patent/US7240008B2/en
Priority to DE10246029A priority patent/DE10246029B4/de
Publication of JP2003114696A publication Critical patent/JP2003114696A/ja
Application granted granted Critical
Publication of JP4104313B2 publication Critical patent/JP4104313B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Description

【0001】
【発明の属する技術分野】
本発明は、例えばナビゲーションシステムにおける目的地の設定などを音声によって入力できるようにする場合などに有効な音声認識技術に関する。
【0002】
【従来の技術】
従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーションシステムにおいて設定すべき目的地を利用者が地名を音声で入力するためなどに用いられている。特に車載ナビゲーションシステムを運転手自身が利用する場合、音声入力であればボタン操作や画面注視が伴わないため、車両の走行中に行っても安全性が高いため有効である。
【0003】
このような機能を満たすためには、十分詳細な地点の指定が容易にできなくてはならない。具体的には、県や市のレベルではなく、市の下の町名のレベルや、町村における大字といったレベルまで入力できる必要がある。さらに、利用者が例えば「愛知県刈谷市昭和町」と設定したい場合に、「愛知県」「刈谷市」「昭和町」というように県市町というレベル毎に区切って発音しなくてはならないとすると利用者にとって煩わしいので、ひと続きで入力(一括入力)できるようにすることが好ましい。
【0004】
日本の住所の場合には、最上位階層である47都道府県で分岐し、都道府県毎に市町村、区、大字、小字、番地というように、音声入力する順番に分岐が増えていく。したがって、このような認識語彙に対しては木構造の認識辞書を用いて音声認識を行うことが有効である。図6には、日本の住所の認識用の木構造辞書の一例を示す。この場合には、最上位階層である47都道府県(あいちけん、ぎふけん…)で分岐し、都道府県毎に市(あるいは町村)に分岐し、市毎に町名などで分岐し、……というように、音声入力する順番で考えると、後に行くほど頂点の数が多くなり、分岐していく態様となっている。
【0005】
【発明が解決しようとする課題】
しかしながら、例えばアメリカや欧州などの日本以外の諸国においては、住所を表す際に、最下位階層である番地から始まり、ストリート名称→シティ名称→州名称というように、日本の住所の場合とは逆の順番となっていることが多い。そのため、仮にこのような認識語彙に対して木構造の認識辞書を作成した場合、音声入力する順番で考えると、後に行くほど頂点の数が少なくなり、合流していくいわば「後向き木構造」の認識辞書となって、最初の階層(最下位階層)から次の階層への分岐が非常に多くなってしまう(例えば米国の場合であれば数十万から数百万程度になる)。したがって、マッチング処理の負荷が増大し、認識時間が長くなってしまう可能性がある。
【0006】
また、処理負荷を低減させるための工夫として、木構造辞書において認識途中で候補を絞るためにいわゆる「枝切り」を行うことも知られている。ところが、上述のような、後に行くほど合流する形態の木構造辞書においてこの枝切りを適用すると、実際には正解となる語の枝を切り落とす可能性が高くなるため、枝切りによる効果的な絞り込みができず、認識性能の低下を招いてしまう。したがって、あえて木構造の認識辞書を構築するメリットがなく、連続音声認識技術が適用しにくい対象であった。
【0007】
なお、このような問題は、上述した住所の場合に典型的であるが、住所には限らず、同じように複数の語を階層的につなぎ合わせた認識辞書を木構造化した場合に、音声入力順で考えると後に行くほど合流する形態となるようなものであれば同様の問題が生じる。
【0008】
そこで本発明は、このような問題を解決し、入力順に従うと下位階層から上位階層へ向かう複数の語を階層的につなぎ合わせた構成となる音声を認識する際、認識性能を向上させることを目的とする。
【0009】
【課題を解決するための手段及び発明の効果】
請求項1に記載のナビゲーション装置を制御するための音声認識装置においては、辞書手段に記憶されている複数の比較対象パターン候補の内の少なくとも一部は、複数の語を階層的につなぎ合わせたものであって、音声入力順に従うと頂点の数が順番に少なくなる住所に対応した後向き木構造の認識辞書として設定されている。そして認識手段は、音声入力手段を介して入力された一連の住所に関する音声の波形情報を一旦保持しておき、その音声波形情報を入力時点が新しいものから古いものへ順番に特徴パラメータへ変換して蓄え、その住所に対応した後向き木構造の認識辞書を用い、その蓄えた一連の特徴パラメータを、その入力時点が新しいものから古いものへ順番に認識していく後向き認識処理を実行する。
【0010】
住所に対応した後向き木構造の認識辞書を用いて、入力され蓄えられた一連の音声を入力順に比較していくと、上述のように下位階層から始まる木構造であるがために認識速度の低下が生じる。それに対して本発明では、下位階層から始まる木構造である住所に対応した後向き木構造の認識辞書を有効に活用するため、対象となる一連の特徴パラメータを時間的に逆から、つまり、最後に入力された音声の波形情報に対応する特徴パラメータから最初に入力された音声の波形情報に対応する特徴パラメータに向かって逆方向に認識処理を行う。
【0011】
したがって、例えば欧米の住所のような入力順に従うと下位階層から上位階層へ向かう複数の語を階層的につなぎ合わせた音声を認識する際、住所に対応した後向き木構造の認識辞書であっても、それを逆向きに、つまり上位階層から始まる通常の前向き木構造の認識辞書とみなして処理を行えることとなる。この結果、木構造辞書の持つ本来的な有利さを有効活用でき、認識性能の向上が期待できる。なお、この処理をするためには、入力が終了するまで音声情報を蓄えておき、それを逆向きに変換する必要があるため、一連の住所に関する音声入力が終了するまで待つ必要がある。
【0012】
また、上述のように、住所に対応した後向き木構造の認識辞書をそのまま用いて、認識途中で候補を絞るいわゆる「枝切り」を行うと、実際には正解となる語の枝を切り落とす可能性が高くなるが、この後向き認識処理では、上位階層から始まる通常の前向き木構造の認識辞書とみなして処理を行える。そのため、枝切りを採用したとしても不都合は生じず、枝切りによる効果的な絞り込みができ、認識速度の向上というメリットが得られる。
【0013】
後向き認識処理の実行に際してつまり、入力された一連の住所に関する音声の波形情報を特徴パラメータへ変換し、その特徴パラメータを用いて認識を行う場合に、請求項1の場合には音声波形情報の段階で時間的に後向きにしていたが、請求項2に示すように、特徴パラメータの段階で時間的に後向きにしてもよい
【0014】
ところで、本音声認識装置は、入力順に従うと下位階層から上位階層へ向かう複数の語を階層的につなぎ合わせた一連の住所に関する音声を認識するための専用装置として実現しても良いが、そのような性質を持たない音声に対しても認識できるようにすることもできる。その場合は、住所に対応した後向き木構造以外の認識辞書も有することとなるため、状況に応じて使い分ける必要がある。そこで、請求項のように、住所に対応した後向き木構造の認識辞書を使用すべき状況であることを使用者の所定の動作から検出し、その場合にだけ住所に対応した後向き木構造の認識辞書を用いた後向き認識処理を実行するようにすればよい。例えば欧米での使用を考えた場合であっても、住所以外については通常の順番で認識する必要があるため、例えば住所の音声認識であることをユーザのスイッチ操作などによって検出し、その場合にだけ住所認識用の後向き木構造の辞書を用いて後向き認識処理を行うようにする。
【0015】
また、本発明では後向き認識処理を行う場合には、一連の住所に関する音声が一括入力されることが前提となるが、このような一連の住所に関する音声の入力期間は認識手段が特定する(請求項)。具体的には、入力期間の開始及び終了を、使用者自身が指定する所定の操作に基づいて特定しても良いし(請求項)、入力音声の有無に基づいて特定しても良い(請求項)。また、使用者自身が指定する所定の操作に基づいて入力期間の開始を特定し、その後、音声が所定時間入力されない状態となった時点で期間終了であることを特定しても良い(請求項)。
【0016】
なお、誤認識への対応としては、例えば請求項に示すように、報知手段によって認識結果を報知した後、所定の確定指示がなされた場合に、認識結果を確定したものとして所定の確定後処理を実行することが考えられる。このようにすれば、使用者は自分の発声した内容と異なる認識結果となっていた場合に、再度の音声入力を行うこともできる。報知の方法としては認識結果の内容を音声出力又は文字・記号などの表示の少なくとも何れかによって行うことが考えられる(請求項)。
【0017】
なお、請求項1〜の何れかに記載の認識手段としてコンピュータを機能させるためのプログラムは、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、ハードディスク、ROM、RAM等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードして起動することにより用いることができる。また、ネットワークを介してロードして起動することにより用いることもできる。
【0018】
また、このような音声認識装置の適用先としては、種々考えられるが、その一例として請求項11に示すように、音声入力手段を、ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いるようにしたナビゲーションシステムが挙げられる。
【0019】
【発明の実施の形態】
以下、本発明が適用された実施例について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施例に何ら限定されることなく、本発明の技術的範囲に属する限り、種々の形態を採り得ることは言うまでもない。
【0020】
図1(a)は、音声認識装置1を含むシステムの構成を表すブロック図である。なお、本実施例の音声認識装置1は、自動車(車両)に搭載されて、使用者としての車両の乗員(主に、運転者)と音声にて対話しながら、その車両に搭載されたナビゲーション装置15を制御するものである。
【0021】
図1に示すように、本実施例の音声認識装置1は、使用者が各種の指令やデータなどを外部操作によって入力するためのスイッチ装置3と、画像を表示するための表示装置5と、音声を入力するためのマイクロフォン7と、音声入力時に操作するトークスイッチ9と、音声を出力するためのスピーカ11と、車両の現在位置(現在地)の検出や経路案内などを行う周知のナビゲーション装置15とに接続されている。
【0022】
なお、ナビゲーション装置15は、車両の現在位置を検出するための周知のGPS装置や、地図データ,地名データ,施設名データなどの経路案内用データを記憶したCD−ROM、そのCD−ROMからデータを読み出すためのCD−ROMドライブ、及び、使用者が指令を入力するための操作キーなどを備えている。なお、CD−ROMの代わりにDVDなどを用いてもよい。そして、ナビゲーション装置15は、例えば、使用者から操作キーを介して、目的地と目的地までの経路案内を指示する指令とが入力されると、車両の現在位置と目的地へ至るのに最適な経路とを含む道路地図を、表示装置5に表示させて経路案内を行う。また、表示装置5には、ナビゲーション装置15によって経路案内用の道路地図が表示されるだけでなく、情報検索用メニューなどの様々な画像が表示される。
【0023】
そして、音声認識装置1は、CPU,ROM,及びRAMなどからなるマイクロコンピュータを中心に構成された制御部50と、その制御部50にスイッチ装置3からの指令やデータを入力する入力部23と、制御部50から出力された画像データをアナログの画像信号に変換して表示装置5に出力し、画面上に画像を表示させる画面出力部25と、マイクロフォン7から入力された音声信号をデジタルデータに変換する音声入力部27と、音声入力部27を介して入力される音声信号から、使用者が発話した言葉としてのキーワード(以下、発話キーワードともいう)を認識して取得するための音声認識部30と、制御部50から出力されたテキストデータをアナログの音声信号に変換してスピーカ11に出力し、スピーカ11を鳴動させる音声出力部28と、上記ナビゲーション装置15と制御部50とをデータ通信可能に接続する機器制御インタフェース(機器制御I/F)29とを備えている。
【0024】
なお、音声入力部27は、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク7から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行なう。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部30に出力されることとなる。
【0025】
ここで、音声認識部30の構成について、図1(b)を参照してさらに詳しく説明する。
音声認識部30は、LPC分析部31と、ケプストラム計算部32と、標準パターン格納部33と、照合部34と、判定部35と、特徴パラメータ逆向き出力部36とを備えている。
【0026】
LPC分析部31では、雑音抑圧装置10からの出力を用いて線形予測分析を行なう。線形予測分析は音声信号処理の分野では一般的な分析手法であり、例えば、古井「ディジタル音声処理」(東海大学出版会)などに詳しく説明されている。本実施例においてはこの線形予測分析に自己相関法を用いており、自己相関係数C(r)を用いてm次のLPC係数を計算する。
【0027】
そして、ケプストラム計算部32では、LPC分析部31において計算されたLPC係数を基に、フレーム毎のスペクトル上の特徴パラメータとしてのLPCケプストラム係数を計算する。
このケプストラム計算部32にて得られたLPCケプストラム係数の系列は特徴パラメータ逆向き出力部36へ出力され、所定の指示があるまで一時的に記憶される。そして、所定の指示があると、特徴パラメータ逆向き出力部36は時間軸を逆転させた系列に並び替えて照合部34に出力する。
【0028】
一方、標準パターン格納部33には予め計算しておいた認識対象語彙の標準パターン(特徴パラメータ系列)が格納してあり、照合部34は、標準パターン格納部33に格納されている標準パターンと、ケプストラム計算部32にて計算され特徴パラメータ逆向き出力部36によって時間軸を逆転させられたLPCケプストラム係数との間で類似度計算を行なう。これらは周知のDPマッチング法、HMM(隠れマルコフモデル)あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。
【0029】
ところで、本実施形態の標準パターン格納部33に格納されている標準パターンデータは、比較対象パターン候補となる語彙そのもののデータだけでなく、その比較対象パターンとなる語彙が複数の語を階層的につなぎ合わせたものである場合には、その階層構造を示すデータも記憶されている。例えば図2には、木構造表現された米国の地名辞書を示す。この地名辞書は、ストリート名と都市(シティ)名と州名、あるいは都市名と州名の複数階層の木構造で構成されている。なお、これにハウスナンバ(番地)やZIPコードを構成要素として付加してより詳細な辞書としてもよい、逆に都市名と州名だけで簡易な辞書として構成することもできる。図2では、各地名を構成する単語は発話される順に左から並べて表示している。これを実線のように結んで木構造化し、入力音声と照合するときは右から、つまり発声順が時間的に後となる州名から照合する。
【0030】
このように発声順が時間的に後となる州名から照合するため、音素単位で標準パターンを作成すると、図3に示すようになる。図3は米国の一部の州名のみを例示しており、図3(a)に示すように州名を発音表記して音素単位に分け、それを後ろから照合するように作成したものが図3(b)である。図3(b)に示すように、語彙を構成する音素データが木(tree)構造の各辺(図3(b)において矢印(→)で示す)に割り付けられている。なお、図3(b)において、一重丸(○)は頂点を表し、二重丸(◎)は受理頂点、すなわち単語に対する頂点を表す。そして、図3(b)中の矢印Aで示す頂点が「根」となり、そこから先行順走査(preorder traversal)にしたがって各辺に割り付けられ音節を辿ることで単語が完成する。ここで「先行順走査」とは、根を訪問し、次に子を根とする部分木を順番に走査(この走査も先行順走査である。)していくことを指す。なお、ここで、「親」とは直前の頂点、「子」とは次の頂点、「兄弟」とは同じ親を持つ頂点同士をそれぞれ意味する。
【0031】
つまり、図3(b)に示す具体例では、「根」となる頂点(矢印Aで示す)から順に辿って矢印Bで示す受理頂点となった場合には、アラバマ(Alabama) 州を音素単位で逆から表したものとなる。したがって、アラバマ(Alabama) で一つの認識対象単語となる。そして、さらにその矢印Bで示す受理頂点を経由してアラバマ(Alabama)州内の各都市名を音素単位で逆から表したものが続いている。ここで、例えば図3(a)に示した4つの州名、すなわちアラバマ(Alabama)・オクラホマ(Oklahoma)・フロリダ(Florida)・ジョージア(Geogia)は、いずれも最後の音素が共通であるため、同じ受理頂点から分岐する。同様に、同じ州内の都市名の内で最後の音素が共通のものは同じ受理頂点から分岐することとなり、同じ都市内のストリート名の内で最後の音素が共通のものは同じ受理頂点から分岐することとなる。
【0032】
階層化された認識対象語彙に対する照合は上位階層から始めるのが有効であるため、下位階層から上位階層に向かって音声入力される習慣のある例えば米国住所については、上述のように、音素単位で扱うことによって、上位階層である州名から都市名、ストリート名という順に照合できるような辞書を作成した。
【0033】
以上は標準パターン格納部33に格納されている標準パターンデータの説明であったが、照合部34にてその標準パターンを用いた類似度計算が行なわれた後は、判定部35が、各認識対象語彙のうち照合部34で計算した類似度が最も高い語彙を認識結果として制御部50へ出力する。
【0034】
制御部50は、最終的な認識結果を確定したり、所定の後処理を実行する。所定の後処理としては、所定の確定指示がなされた場合に機器制御I/F29を介してナビゲーション装置15へデータを送って所定の処理をするように指示することが考えられる。例えばナビゲート処理のために必要な目的地を通知して設定処理を実行させるよう指示する処理を実行する。このような処理の結果として、この音声認識装置30を利用すれば、上記操作スイッチ群8あるいはリモコン15aを手動しなくても、音声入力によりナビゲーションシステムに対する目的地の指示などが可能となるのである。また、制御部50は、音声認識部30から出力された認識結果をテキストデータとして音声出力部28へ送り、スピーカ11から発音させるように指示する処理を実行する。
【0035】
なお、音声認識部30から制御部50へ送る認識結果としては、最終的な認識結果としての上位比較対象パターンの全てでもよいし、あるいはその内の最上位のものだけでもよい。但し、以下の説明では、理解を容易にするため、特に断らない限り最上位のもの一つだけを送ることを前提として進める。
【0036】
また、本実施例においては、利用者がトークスイッチ9を押すと、その後に音声入力が可能となる。なお、トークスイッチ9を押したのに音声入力がされない場合も想定されるため、トークスイッチ9が押されて音声入力が可能となった後に所定時間以上の無音区間があれば、音声入力が不可能な状態に移行する。したがって、音声入力部27はトークスイッチ9が押されたタイミングを監視しており、押されたことを検知する。
【0037】
次に、本実施例の音声認識装置1の動作について、ナビゲーション装置15にて経路探索をするための目的地を音声入力する場合を例にとり、図4のフローチャートを参照して説明する。
図4の処理は、トークスイッチ9がオン(押下)されることによって開始するものであり、最初のステップS10では、マイク7を介したユーザからの発声を音声入力部27にて入力する。そして、所定時間t秒の無音区間を検出したか否かを判断し(S20)、無音区間を検出しない間は(S20:NO)、音声認識部30において入力音声の特徴パラメータを算出し、記憶しておく(S30)。具体的には、LPC分析部31によってLPC係数を計算し、ケプストラム計算部32によって特徴パラメータであるLPCケプストラム係数を計算して、特徴パラメータ逆向き出力部36に一時的に記憶しておく。
【0038】
そして、所定時間t秒の無音区間を検出した場合には(S20:YES)、トークスイッチ9がオンされてから無音区間が生じるまでの間を音声区間として切り出し(S40)、特徴パラメータの時間方向を逆転する。つまり、特徴パラメータ逆向き出力部36は、一時的に記憶していたLPCケプストラム係数の系列を、時間軸を逆転させた系列に並び替えて照合部34に出力する(S50)。
【0039】
照合部34では、標準パターン格納部33に格納されている標準パターンと、特徴パラメータ逆向き出力部36から出力されたLPCケプストラム係数との間でパターンマッチングを行って類似度を計算する(S60)。
そして、その照合結果によって定まった上位比較対象パターンを認識結果としは制御部21に出力され、制御部21は、その認識結果をトークバック及び表示する(S70)。このトークバックは、制御部50が音声出力部28を制御し、認識した結果を音声によりスピーカ11から出力させると共に、画面出力部25を制御し、認識した結果を示す文字などを表示装置5に表示させる。
【0040】
そして、正しい認識であったか否かを、利用者からの指示に基づいて判断する(S80)。具体的には、利用者によるスイッチ装置3に対する操作に基づいて判断する。なお、マイク7からの音声入力に基づいてもよい。例えば「はい」という肯定的な内容を示す音声入力があれば正しい認識であったと判断できるし、「いいえ」「違う」などの否定的な内容を示す音声入力があれば誤った認識であったと判断できる。
【0041】
そして、誤った認識であった場合には(S80:NO)、そのまま本処理を終了する。もちろん、ユーザが再度、音声入力する場合には、トークスイッチ9を押下するので、本処理が最初から実行されることとなる。
一方、S80で肯定判断、すなわち正しい認識であると判断した場合には、制御部50にて認識結果を確定する(S90)。認識結果が確定すると、次に所定の確定後処理を実行する(S100)。この場合の確定後処理とは、例えば認識結果が「メニュー画面」であれば、それに関するデータを、機器制御I/F29を介してナビゲーション装置15へ出力したりする処理などである。S100の処理の後は本処理を終了する。
【0042】
以上説明したように、本実施例の制御装置1によれば、図2に示すような後向き木構造の認識辞書を用いて音声入力された米国の住所を認識していくのであるが、これを入力順に比較していくと下位階層から始まる木構造であるがために認識性能の低下が予想される。そこで本実施例では、下位階層から始まる木構造である後向き木構造の認識辞書を有効に活用するため、音声認識部30の特徴パラメータ逆向き出力部36によって認識対象となる一連の入力音声の特徴パラメータを時間的に逆に変換する。そして、図2に示す後向き木構造の認識辞書を図3に示すように逆向きに照合していく。つまり上位階層から始まる通常の前向き木構造の認識辞書とみなして処理を行えることとなる。この結果、木構造辞書の持つ本来的な有利さを有効活用でき、認識性能の向上が期待できる。
【0043】
なお、本実施例では、図4のフローチャートにも示すように、音声区間中の入力音声については、逐次パラメータであるLPCケプストラム係数に変換して一時的に記憶しておき、音声区間が終了してから、それを時間的に逆向きに変換して出力し、照合を行うようにしているため、一連の音声入力が終了するまで待つ必要がある。
【0044】
なお、本実施例の場合には、マイク7、音声入力部27が「音声入力手段」に相当し、音声出力部28、スピーカ11、画面出力部25、表示装置5が「報知手段」に相当する。また、音声認識部30が「認識手段」に相当し、その音声認識部30内の標準パターン格納部33が「辞書手段」に相当する。また、制御部50が「確定後処理手段」に相当する。また、トークスイッチ9、音声入力部27、音声認識部30が「入力期間指定手段」に相当する。
【0045】
[別実施例]
(1)上記実施例では、図1(b)に示すように、音声認識部30の特徴パラメータ逆向き出力部36によって認識対象となる一連の入力音声の特徴パラメータを時間的に逆に変換したが、音声波形情報の段階で時間的に後向きにしてもよい。その場合の音声認識部30の構成を図5(a)に示す。
【0046】
本別実施例の場合は、図1(b)における特徴パラメータ逆向き出力部36を削除し、代わりに、LPC分析部31の前段に音声波形逆向き出力部37を追加したものである。この音声波形逆向き出力部37は、音声入力部27から入力された音声波形を所定の指示があるまで一時的に記憶しておき、所定の指示があると、時間軸を逆転させた音声波形としてLPC分析部31へ出力する。
【0047】
この別実施例の場合の動作について図5(b)のフローチャートを参照して説明する。図5(b)のフローチャートは、図4のフローチャートの一部を変更したものであり、同じ部分については、同じステップ番号を付した。具体的には、図4のS10,S20,S60〜S100は本別実施例でも同じであり、図4のS30〜S50の部分を図5(b)のS130〜S160に代えたものである。
【0048】
つまり、無音区間を検出しない間は(S20:NO)、音声認識部30の音声波形逆向き出力部37が、音声入力部27から入力された音声波形を一時的に記憶しておく。そして、所定時間t秒の無音区間を検出した場合には(S20:YES)、トークスイッチ9がオンされてから無音区間が生じるまでの間を音声区間として切り出し(S140)、その区間の音声波形を時間方向を逆転させて再生し、LPC分析部31へ出力する(S150)。そして、LPC分析部31によってLPC係数を計算し、ケプストラム計算部32によって特徴パラメータであるLPCケプストラム係数を計算して、照合部34に出力する(S160)。その後は、上記実施例同様、標準パターン格納部33に格納されている標準パターンと、ケプストラム計算部32にて計算されたLPCケプストラム係数との間でパターンマッチングを行って類似度を計算する(S60)。以下は、図4の場合と同じなので説明は省略する。
【0049】
(2)上記実施例では、ケプストラム計算部32によって計算したLPCケプストラム係数を、特徴パラメータ逆向き出力部36にて逆向きに出力している。一方、適切な音声認識のための工夫として、ケプストラム計算部32で動的特徴量(前後のケプストラムとの変化分=傾きを表す)であるデルタケプストラムを求めることも知られている。これをそのまま特徴パラメータ逆向き出力部36で逆にしてしまうと、デルタケプストラムとして本来持たせたい情報ではなくなる。それを正しくするためには逆向きに出力されたケプストラムからデルタケプストラムを求めればよい。したがって、このようなデルタケプストラムを利用する構成とするのであれば、デルタケプストラムを計算する処理ブロックを特徴パラメータ逆向き出力部36の後段に追加すればよい。
【0050】
なお、上記別実施例(1)として述べたように、入力された音声波形自体を記憶しておいて逆向きに出力する構成の場合には、デルタケプストラムは本来持たせたい情報を持つため、通常通り、ケプストラム計算部32によって計算すればよい。
【0051】
(3)上記実施例で特徴パラメータとしてLPCケプストラム係数を用いたが、これに限らず、例えばメル化されたケプストラムやスペクトルを用いてもよい。
(4)上記実施例では、図2に示すように、米国の地名辞書を例にとって、後向き木構造以外の認識辞書例を示したが、例えば欧州各国においても、住所については同様の後向き木構造以外の認識辞書が作成できるため、同様に適用できる。例えば英国では米国の場合と同じで番地→町→市の順に発声し、フランスの場合も基本的には同じで番地→町→郵便番号→州の順である。また、ドイツの場合はストリート→番地→郵便番号→州となる。
【0052】
(5)上記実施例あるいは上記別実施例(2)で説明したように、欧米の住所を音声認識する際には後ろ向き木構造の認識辞書を有効利用するため、認識対象となる一連の入力音声を音声波形段階あるいは特徴パラメータ段階で時間的に逆に変換する手法が好ましい。このような下位階層から順に発声されるような住所の認識装置として専用に構成するのであればそれでよいが、そのような性質を持たない認識対象語彙も認識できるようにする場合は、後向き木構造以外の認識辞書も有することとなるため、状況に応じて使い分ける必要がある。その場合には、後向き木構造の認識辞書を使用すべき状況であることをユーザの所定の動作から検出し、その場合にだけ後向き木構造の認識辞書を用いた後向き認識処理を実行するようにすればよい。欧米での使用を考えた場合であっても、上述した住所以外については通常の順番で認識する必要があるため、一律に入力音声を時間的に逆転させることは不適切だからである。
【0053】
したがって、この場合は、例えば住所の音声認識であることをユーザのスイッチ操作などによって検出し、その場合にだけ住所認識用の後向き木構造の辞書を用いて後向き認識処理を行うようにすることが考えられる。例えばスイッチ装置3に対する操作で住所認識モードに設定してもよいし、あるいは音声認識によって住所認識モードに設定してもよい。例えば「住所入力」といった言葉をユーザが発声した場合には住所認識モードになり、上述した図4のフローチャートのような処理を実行するのである。
【0054】
(6)上記実施例では、一連の音声の入力期間はトークスイッチ9が押下されることで開始し、その後、所定時間tの無音区間が生じた場合に入力期間が終了したと判断しているが、例えば、トークスイッチ9が押下され続けている期間を音声入力期間と判断しても良い。この場合は、音声入力手法として、ユーザがトークスイッチ9を押下している間のみ音声入力を許可する構成を前提としたものである。
【0055】
(7)上記実施例では、欧米の住所の例を挙げたが、このような住所には限らず、同じように複数の語を階層的につなぎ合わせた認識辞書を木構造化した場合に、音声入力順で考えると後に行くほど合流する「後向き木構造」となるようなものであれば同様の適用できる。
【0056】
(8)上記実施例では、図2あるいは図3に示すように、欧米の住所認識のための辞書として後向き木構造のものを例として挙げたが、住所認識に際しては、次のような観点での工夫も採用できる。つまり、上述した米国の例で言えば、現在アラバマ州内に居て、同じ州内の別の場所に行く場合、わざわざ「アラバマ」までは発声しないのが自然である。このような場合は、州名を省略した音声入力についても適切に認識できることが好ましい。そのため、例えばナビゲーション装置15から現在地情報を入力し、その現在地が存在する州名については省略した住所の音声入力がされることを想定し、その州については、都市名から照合していくようにする。例えば図3(b)の場合で言えば、現在アラバマ州に居る場合には、頂点Bから始まる標準パターンもマッチング対象として音声認識を行えばよい。
【0057】
このように、自分達が現在存在している所定のエリア内については、そのエリアを特定する上位階層の地名をあえて特定せず、その下位の階層から特定するという日常会話の習慣においてごく自然な振舞いに対応できることによって、上位階層を省略した方が自然な場合であっても上位階層から音声入力しなくてはならないという利用者の負担を軽減し、使い勝手をより向上させることができる。
【0058】
(9)前向きの木構造辞書の場合、処理負荷を低減させるために、認識途中で候補を絞るためにいわゆる「枝切り」を行うことが知られている。上記実施例のような後向き木構造の認識辞書をそのまま用いて枝切りを行うと、実際には正解となる語の枝を切り落とす可能性が高くなる。しかし、上記実施例においては、後向き木構造の認識辞書を上位階層から始まる通常の前向き木構造の認識辞書とみなして処理を行えるため、枝切りを採用したとしても不都合は生じない。そのため、上記実施例において、枝切りによる効果的な絞り込みを行うようにしてもよく、その場合は認識速度の向上というメリットが得られる。
【図面の簡単な説明】
【図1】(a)は実施例の音声認識装置を含むシステムの構成ブロック図、(b)は音声認識部の構成ブロック図である。
【図2】後向き木構造表現された米国の地名辞書例の説明図である。
【図3】図2の地名辞書例を音素単位の標準パターンで作成した場合の説明図である。
【図4】音声認識装置における音声認識に係る処理を示すフローチャートである。
【図5】別実施例の構成及び処理内容の説明図である。
【図6】前向き木構造の認識辞書例の説明図である。
【符号の説明】
1…制御装置、3…スイッチ装置、5…表示装置、7…マイクロフォン、9…トークスイッチ、11…スピーカ、15…ナビゲーション装置、23…入力部、25…画面出力部、27…音声入力部、28…音声出力部、29…機器制御I/F、30…音声認識部、31…LPC分析部、32…ケプストラム計算部、33…標準パターン格納部、34…照合部、35…判定部、36…特徴パラメータ逆向き出力部、37…音声波形逆向き出力部

Claims (11)

  1. 複数の語を階層的につなぎ合わせてなる一連の音声を入力するための音声入力手段と、
    該音声入力手段を介して入力された一連の音声を蓄え、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする認識手段とを備え、ナビゲーション装置を制御するための音声認識装置であって、
    前記辞書手段に記憶されている前記複数の比較対象パターン候補の内の少なくとも一部は、複数の語を階層的につなぎ合わせたものであって、音声入力順に従うと頂点の数が順番に少なくなる住所に対応した後向き木構造の認識辞書であり、
    前記認識手段は、前記音声入力手段を介して入力された一連の住所に関する音声の波形情報を一旦保持しておき、その音声波形情報を入力時点が新しいものから古いものへ順番に特徴パラメータへ変換して蓄え、前記住所に対応した後向き木構造の認識辞書を用い、その蓄えた一連の特徴パラメータを、その入力時点が新しいものから古いものへ順番に認識していく後向き認識処理を実行可能であること
    を特徴とする音声認識装置。
  2. 複数の語を階層的につなぎ合わせてなる一連の音声を入力するための音声入力手段と、
    該音声入力手段を介して入力された一連の音声を蓄え、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする認識手段とを備え、ナビゲーション装置を制御するための音声認識装置であって、
    前記辞書手段に記憶されている前記複数の比較対象パターン候補の内の少なくとも一部は、複数の語を階層的につなぎ合わせたものであって、音声入力順に従うと頂点の数が順番に少なくなる住所に対応した後向き木構造の認識辞書であり、
    前記認識手段は、前記音声入力手段を介して入力された一連の住所に関する音声の波形情報をその入力順に特徴パラメータへ変換して一時的に記憶し、さらに、その特徴パラメータを入力時点が新しいものから古いものへ順番に変換して蓄え、前記住所に対応した後向き木構造の認識辞書を用い、その蓄えた一連の特徴パラメータを、その入力時点が新しいものから古いものへ順番に認識していく後向き認識処理を実行可能であること
    を特徴とする音声認識装置。
  3. 請求項1または2に記載の音声認識装置において、
    前記辞書手段は前記住所に対応した後向き木構造以外の認識辞書も有しており、
    さらに、今回の発声が前記後向き木構造の認識辞書を使用すべき状況であることを示す使用者の所定の動作を検出する動作検出手段を備え、
    前記認識手段は、前記動作検出手段によって所定の動作を検出した場合、前記住所に対応した後向き木構造の認識辞書を用いて前記後向き認識処理のみを実行すること
    を特徴とする音声認識装置。
  4. 請求項1〜3の何れかに記載の音声認識装置において、
    前記認識手段は、前記音声入力手段を介して入力される前記一連の住所に関する音声が入力されている期間を特定する機能を有することを特徴とする音声認識装置。
  5. 請求項に記載の音声認識装置において、
    前記音声入力手段を介して前記一連の住所に関する音声を入力される期間の開始及び終了を使用者自身が指定する所定の操作を行うための入力期間指定手段を備え、
    前記認識手段は、前記入力期間指定手段によって指定された入力期間に基づいて、前記一連の住所に関する音声が入力されている期間を特定することを特徴とする音声認識装置。
  6. 請求項に記載の音声認識装置において、
    前記認識手段は、前記音声入力手段を介して入力される音声の有無に基づいて、前記一連の住所に関する音声が入力されている期間を特定することを特徴とする音声認識装置。
  7. 請求項に記載の音声認識装置において、
    前記音声入力手段を介して前記一連の住所に関する音声を入力される期間の開始を使用者自身が指定する所定の操作を行うための入力開始指定手段を備え、
    前記認識手段は、前記入力開始指定手段によって入力期間の開始が指定された後、前記音声入力手段を介して音声が所定時間入力されない状態となるまでを、前記一連の住所に関する音声が入力されている期間として特定することを特徴とする音声認識装置。
  8. 請求項1〜7の何れかに記載の音声認識装置において、
    該認識手段による認識結果を報知する報知手段と、
    該報知手段によって認識結果が報知された後に所定の確定指示がなされた場合には、当該認識結果を確定したものとして所定の確定後処理を実行する確定後処理手段とを備えることを特徴とする音声認識装置。
  9. 請求項に記載の音声認識装置において、
    前記報知手段は、前記認識結果の内容を、音声出力又は文字・記号などの表示の少なくとも何れかによって行うことを特徴とする音声認識装置。
  10. 請求項1〜9の何れかに記載の前記認識手段としてコンピュータを機能させるためのプログラム。
  11. 請求項1〜の何れかに記載の音声認識装置と、その音声認識装置にて認識された結果に基づいて所定の処理を実行するナビゲーション装置とを備え、
    前記音声入力手段は、少なくとも前記ナビゲーション装置がナビゲート処理をする上で指定される必要のある所定の地名関連データの指示を使用者が音声にて入力するために用いられることを特徴とするナビゲーションシステム。
JP2001307542A 2001-10-03 2001-10-03 音声認識装置、プログラム及びナビゲーションシステム Expired - Fee Related JP4104313B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001307542A JP4104313B2 (ja) 2001-10-03 2001-10-03 音声認識装置、プログラム及びナビゲーションシステム
US10/232,309 US7240008B2 (en) 2001-10-03 2002-09-03 Speech recognition system, program and navigation system
DE10246029A DE10246029B4 (de) 2001-10-03 2002-10-02 Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001307542A JP4104313B2 (ja) 2001-10-03 2001-10-03 音声認識装置、プログラム及びナビゲーションシステム

Publications (2)

Publication Number Publication Date
JP2003114696A JP2003114696A (ja) 2003-04-18
JP4104313B2 true JP4104313B2 (ja) 2008-06-18

Family

ID=19126989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001307542A Expired - Fee Related JP4104313B2 (ja) 2001-10-03 2001-10-03 音声認識装置、プログラム及びナビゲーションシステム

Country Status (3)

Country Link
US (1) US7240008B2 (ja)
JP (1) JP4104313B2 (ja)
DE (1) DE10246029B4 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4509590B2 (ja) * 2004-02-05 2010-07-21 トッパン・フォームズ株式会社 音声認識システムおよびそのプログラム
JP2005292401A (ja) * 2004-03-31 2005-10-20 Denso Corp カーナビゲーション装置
JP2005301904A (ja) * 2004-04-15 2005-10-27 Mitsubishi Electric Corp 住所データベースおよびこれを用いた住所検索システム
US20070061143A1 (en) * 2005-09-14 2007-03-15 Wilson Mark J Method for collating words based on the words' syllables, and phonetic symbols
US8751145B2 (en) * 2005-11-30 2014-06-10 Volkswagen Of America, Inc. Method for voice recognition
JP5037018B2 (ja) * 2006-01-31 2012-09-26 ヤマハ発動機株式会社 音声認識装置および音声認識方法
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP2007271876A (ja) * 2006-03-31 2007-10-18 Denso Corp 音声認識装置および音声認識用のプログラム
DE602006005830D1 (de) * 2006-11-30 2009-04-30 Harman Becker Automotive Sys Interaktives Spracherkennungssystem
JP4375428B2 (ja) * 2007-04-09 2009-12-02 株式会社デンソー 車載用音声ガイダンス装置
US8397168B2 (en) 2008-04-05 2013-03-12 Social Communications Company Interfacing with a spatial virtual communication environment
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
DE102010054242A1 (de) * 2010-12-11 2012-06-14 Volkswagen Ag Verfahren zum Bereitstellen einer Bedienvorrichtung in einem Fahrzeug und Bedienvorrichtung
US9188456B2 (en) * 2011-04-25 2015-11-17 Honda Motor Co., Ltd. System and method of fixing mistakes by going back in an electronic device
CN102954796B (zh) * 2011-08-29 2016-06-29 环达电脑(上海)有限公司 道路门牌号多帧动态播放显示的导航装置及其方法
WO2013069060A1 (ja) * 2011-11-10 2013-05-16 三菱電機株式会社 ナビゲーション装置および方法
JP5637131B2 (ja) 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6170663A (ja) 1984-09-14 1986-04-11 Toshiba Corp 住所翻訳装置
JPH02123399A (ja) 1988-11-01 1990-05-10 Fujitsu Ltd 連続単語音声認識方法
JPH077273B2 (ja) 1989-10-27 1995-01-30 三菱電機株式会社 連続音声認識用構文処理装置
JPH07261786A (ja) 1994-03-22 1995-10-13 Kokusai Denshin Denwa Co Ltd <Kdd> 連続音声認識方法及び装置
JPH09114489A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JP3684558B2 (ja) 1996-07-17 2005-08-17 株式会社ユアサコーポレーション ニッケル−水素蓄電池用セパレータ
JPH1097275A (ja) 1996-09-20 1998-04-14 Sharp Corp 大語彙音声認識装置
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
JP3535688B2 (ja) 1997-03-14 2004-06-07 日本電信電話株式会社 音声認識方法
JP3042455B2 (ja) 1997-07-28 2000-05-15 日本電気株式会社 連続音声認識方式
JPH11327593A (ja) 1998-05-14 1999-11-26 Denso Corp 音声認識システム
JP3252802B2 (ja) 1998-07-17 2002-02-04 日本電気株式会社 音声認識装置
JP2000305595A (ja) 1999-04-20 2000-11-02 Mitsubishi Electric Corp 音声認識装置
JP2000322083A (ja) 1999-05-13 2000-11-24 Denso Corp 音声認識装置及びナビゲーションシステム
JP4325044B2 (ja) 1999-11-08 2009-09-02 株式会社デンソー 音声認識システム
JP3830124B2 (ja) 1999-11-26 2006-10-04 アルパイン株式会社 音声認識装置

Also Published As

Publication number Publication date
DE10246029B4 (de) 2010-08-05
US20030065516A1 (en) 2003-04-03
US7240008B2 (en) 2007-07-03
JP2003114696A (ja) 2003-04-18
DE10246029A1 (de) 2003-04-17

Similar Documents

Publication Publication Date Title
JP4104313B2 (ja) 音声認識装置、プログラム及びナビゲーションシステム
JP6400109B2 (ja) 音声認識システム
JP4260788B2 (ja) 音声認識機器制御装置
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
EP1936606B1 (en) Multi-stage speech recognition
US8005673B2 (en) Voice recognition device, voice recognition method, and voice recognition program
JP4709663B2 (ja) ユーザ適応型の音声認識方法及び音声認識装置
EP1739546A2 (en) Automobile interface
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
US20020013706A1 (en) Key-subword spotting for speech recognition and understanding
JP2008233678A (ja) 音声対話装置、音声対話方法、及び音声対話用プログラム
JP2002091466A (ja) 音声認識装置
JP6708035B2 (ja) 発話内容認識装置
JP4604377B2 (ja) 音声認識装置
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP2004301875A (ja) 音声認識装置
JP4520555B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JP3700533B2 (ja) 音声認識装置及び処理システム
JPH1195793A (ja) 音声入力解釈装置及び音声入力解釈方法
JP4930014B2 (ja) 音声認識装置、および音声認識方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JPH11184495A (ja) 音声認識装置
JP4550207B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JP2007286198A (ja) 音声合成出力装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060303

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060324

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120404

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120404

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140404

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees