JP2001306088A - 音声認識装置及び処理システム - Google Patents

音声認識装置及び処理システム

Info

Publication number
JP2001306088A
JP2001306088A JP2000117910A JP2000117910A JP2001306088A JP 2001306088 A JP2001306088 A JP 2001306088A JP 2000117910 A JP2000117910 A JP 2000117910A JP 2000117910 A JP2000117910 A JP 2000117910A JP 2001306088 A JP2001306088 A JP 2001306088A
Authority
JP
Japan
Prior art keywords
template data
recognition
dictionary
layer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000117910A
Other languages
English (en)
Other versions
JP3700533B2 (ja
Inventor
Hideo Miyauchi
英夫 宮内
Yoshitaka Ozaki
義隆 尾崎
Ichiro Akahori
一郎 赤堀
Norihide Kitaoka
教英 北岡
Toru Nada
徹 名田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2000117910A priority Critical patent/JP3700533B2/ja
Publication of JP2001306088A publication Critical patent/JP2001306088A/ja
Application granted granted Critical
Publication of JP3700533B2 publication Critical patent/JP3700533B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Navigation (AREA)

Abstract

(57)【要約】 【課題】音声認識時に参照する辞書部に準備する辞書デ
ータを増やすことなく、認識可能な対象を増加させる。 【解決手段】上位階層辞書は47都道府県の名称に対応
したキーワードを辞書データとして持つ県名辞書であ
り、下位階層辞書は都道府県別に分割して準備された県
別辞書である。つまり、愛知県の県別辞書、青森県の県
別辞書……、和歌山県の県別辞書というように47の県
別辞書が準備されている。そして、まず県名辞書を用い
て音声認識処理を行い、その認識処理の結果から選択さ
れた県別辞書を設定する。この設定に際しては、対話制
御部32が制御回路10へ県別辞書の読み込みを依頼す
る。制御部10はその依頼に応じ、データ入力器6によ
ってDVDから該当する県別辞書を読み出し、対話制御
部32へ送る。対話制御部32がその県別辞書を辞書部
312に設定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばナビゲーシ
ョンシステムにおける目的地の設定などを音声によって
入力する場合などに有効な音声認識装置及びその音声認
識装置を備えた処理システムに関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来よ
り、入力された音声を予め記憶されている複数の比較対
象パターン候補と比較し、一致度合の高いものを認識結
果とする音声認識装置が既に実用化されており、例えば
ナビゲーションシステムにおいて設定すべき目的地を利
用者が地名を音声で入力するためなどに用いられてい
る。特に車両用のナビゲーションシステムを運転手自身
が利用する場合、音声入力であればボタン操作や画面注
視が伴わないため、車両の走行中に行っても安全性が高
いため有効である。
【0003】このような機能を満たすためには、十分詳
細な地点の指定が容易にできることが望まれる。具体的
には、県や市のレベルではなく、市の下の町名のレベル
や、町村における大字あるいは小字といったレベルまで
入力できるようにすることが好ましい。さらに、利用者
が例えば「愛知県刈谷市昭和町」と設定したい場合に、
「愛知県」「刈谷市」「昭和町」というように県市町と
いうレベル毎に区切って発音しなくてはならないとする
と煩わしいので、ひと続きで入力(一括入力)できるよ
うにすることが好ましい。
【0004】しかしながら、このように一括入力ができ
ることを前提とし、さらに十分詳細な地点の指定ができ
るようにするためには、認識できる語数を増やすことが
必要であり、辞書のデータ量を増加させてしまう。例え
ば住所の認識についていえば、現在では大字程度のレベ
ルまでしか辞書を用意していないのが一般的である。そ
れを小字までの辞書を用意することでより詳細な地点の
指定はできるが、辞書データが増大することにより、そ
の辞書データを格納しておくための例えばRAMなどの
メモリが非常に大型化し、コストアップにもつながるこ
ととなる。
【0005】本発明は、このような音声認識技術におい
て辞書に準備する単語を増やすことで認識可能な対象を
増加させるという利点を追求した場合に生じ得るデメリ
ットを極力抑制し、上記利点をより現実的に享受し易く
する技術を提案することを目的とする。
【0006】
【課題を解決するための手段及び発明の効果】まず、請
求項1に記載した上位階層テンプレートデータ、下位階
層テンプレートデータ、第1の記憶手段及び第2の記憶
手段について説明する。上位階層テンプレートデータ
は、最終的な認識対象が複数の語を階層的につなぎ合わ
せたものである場合の上位階層を構成する複数種類の語
または語群に対応しており、入力音声に基づいて得たマ
ッチング用データと比較するためのデータである。ま
た、下位階層テンプレートデータは、最終的な認識対象
が複数の語を階層的につなぎ合わせたものである場合の
上位階層を構成する複数種類の語または語群単位に準備
され、上位階層に加えて下位階層を構成する語または語
群までを含んだ語群を格納したものである。具体例とし
ては地名(住所)などが挙げられる。例えば上位階層を
都道府県名とすると、日本の場合であれば上位階層テン
プレートデータとして47都道府県名をテンプレートデ
ータとして持つ「県名テンプレートデータ」を採用した
場合、下位階層テンプレートデータとして、各都道府県
単位で準備され、市町村名あるいはそれ以下の字などの
レベルまでを含む「県別テンプレートデータ」を採用す
ることができる。つまり、47に分割された県別テンプ
レートデータが下位階層テンプレートデータとして準備
されることとなる。
【0007】上位階層あるいは下位階層のテンプレート
データは、請求項2に示すように、辞書データ(上位階
層辞書あるいは下位階層辞書)であってもよいし、請求
項3に示すように、音声データであってもよい。例えば
予め人がその語又は語群を発音し、それを入力して音声
データとして記憶しておいてもよい。つまり、辞書を用
いた認識ではなくても、利用者の発声した音声データに
基づき、何らかのデータとマッチングすることで認識で
きるようなデータであればよい。
【0008】また、第1の記憶手段は音声認識処理に際
して高速アクセス性が相対的に低く、第2の記憶手段は
音声認識処理に際して高速アクセス性が相対的に高いも
のであるが、具体例としては、第1の記憶手段としてD
VDやCD−ROMが挙げられ、第2の記憶手段として
RAMなどが挙げられる。つまり、実際の音声認識処理
を実行する上では、その処理時間を短くしてレスポンス
を向上させる観点から通常はRAMなどの第2の記憶手
段に辞書を読み込むこととなる。
【0009】請求項1に記載の音声認識装置によれば、
少なくとも下位階層テンプレートデータは第1の記憶手
段に記憶されており、入力音声を認識する際には、ま
ず、入力音声に基づいて得たマッチング用データと上位
階層テンプレートデータとを比較することで、どの上位
階層の語又は語群が含まれているかを予備的に判定す
る。例えば上述の地名の例で言えば、どの都道府県名が
含まれているかを判定する。そして、その予備判定にて
含まれているとされた上位階層に対応する下位階層テン
プレートデータを第2の記憶手段に読み込み、その下位
階層テンプレートデータを用いて最終的な認識結果を得
る。つまり、例えば予備判定で「愛知県」という都道府
県名が含まれていることが判った場合は、愛知県という
県別に準備された下位階層テンプレートデータのみを第
2の記憶手段に読み込んで認識を行うことができる。
【0010】このようにすれば、全テンプレートデータ
を第2の記憶手段に読み込んでおかなくてもよい。例え
ば地名の例で言えば、都道府県別に準備された下位階層
テンプレートデータを最低限1つ(場合によっては複
数)読み込むだけでよく、それに対応するだけの記憶容
量が第2の記憶手段にあればよい。つまり本発明は、こ
のような階層的に構成される語群に対して上位階層の語
又は語群単位に下位階層テンプレートデータを準備する
という、いわばテンプレートデータの「分割」を行い、
予備判定にてどの下位階層テンプレートデータを用いれ
ばよいかを判定して、「真に必要な」テンプレートデー
タに絞ってから第2の記憶手段に読み込むようにした。
したがって、テンプレートデータに準備する単語を増や
すことで認識可能な対象を増加させるという利点を追求
した場合であっても、その認識可能語彙をすべて第2の
記憶手段に格納しておく必要がない。そのため、第2の
記憶手段は相対的に容量が小さくても、一括入力に対応
した適切な音声認識が実現できる。
【0011】なお、最終的な認識対象についての上位階
層と下位の切り分けについては弾力的な適用が可能であ
るため、下位階層テンプレートデータについて請求項4
に示すようにしてもよい。つまり、3階層以上存在する
場合に、第1階層を上位階層とした上位階層テンプレー
トデータと、第2階層を下位階層とする下位階層テンプ
レートデータとを備えるとともに、その第2階層を下位
階層とする下位階層テンプレートデータを上位階層とみ
なして第3階層を下位階層とする第2の下位階層テンプ
レートデータとし、このような第2以降の下位階層テン
プレートデータを、存在する階層数に応じて備えるので
ある。具体例で説明すれば、上述の県別テンプレートデ
ータを上位階層とみなして市町村よりも下位の「大字」
レベルも区別するようにした、市町村単位で準備された
「市別テンプレートデータ」のようなものを第2の下位
階層テンプレートデータ」とするのである。このように
することで、必要なテンプレートデータだけを読み込め
ばよくなり、第2の記憶手段がより小容量でも対応可能
となる。
【0012】ところで、最終的には最下位階層のテンプ
レートデータを用いて認識するために、その最下位階層
テンプレートデータを選択する予備判定を行う。この予
備判定は、上位階層テンプレートデータ又は下位階層テ
ンプレートデータであっても相対的に上位の階層のテン
プレートデータとみなし得るものを用いて行うのである
が、このテンプレートデータの構成には次のような工夫
をしてもよい。つまり、請求項5に示すように、上位階
層又は相対的に上位の階層テンプレートデータとみなし
得るテンプレートデータを構成する複数種類の語または
語群の後にそれ以外の語又は語群が付属した音声入力に
対してもマッチング可能なワイルドカードモデルとする
のである。
【0013】例えば、上位階層テンプレートデータとし
て県名辞書を想定した場合、県名の後にどのような音声
にもマッチングするようにする。単に県名しか辞書デー
タとして持たない場合には、実際の認識対象(都道府県
以下の市町村や大字なども含む語群)の内の一部分しか
県名がないため、全体としてのマッチング度合いが低下
する。それに対して、ワイルドカードモデルの場合に
は、マッチング自体は認識対象全体として行えるのでそ
のような問題が生じない。ワイルドカードモデルとして
は、後述するガーベージモデルや音節連接モデルなどが
ある。
【0014】一方、このようなワイルドカードモデルを
用いるのではなく、請求項6に示すように、上位階層又
は相対的に上位の階層テンプレートデータとみなし得る
テンプレートデータを構成する複数種類の語または語群
の後に下位階層テンプレートデータを構成する語又は語
群が付属した冗長なテンプレートデータを用いてもよ
い。
【0015】ワイルドカードを使うと上述のような利点
があるが、このワイルドカードはどのようなものにも緩
やかにマッチングしてしまうので、誤認識の可能性を増
やす原因ともなる。そこで、例えば地名(住所)用の上
位階層テンプレートデータとして、県名だけでなく市町
村名まで付加した冗長な状態で上位階層テンプレートデ
ータを準備する。認識時には市町村名までマッチングす
るが、結果としてはいずれの県名とマッチングしたかを
判定する。より長い音声でマッチングをし、またワイル
ドカードモデルのように緩やかにどのようなものにもマ
ッチングするものではないため、認識率の向上が期待で
きる。但し、準備するテンプレートデータ量は相対的に
は増加する。
【0016】ところで、このような音声認識装置と、そ
の音声認識装置にて認識された結果に基づいて所定の処
理を実行する処理装置とを備え、処理装置が処理をする
上で指定される必要のある所定のコマンドを利用者が音
声にて入力できるようにした処理システムを構築するこ
とができる。この際、請求項7に示すように、コマンド
を認識するためのテンプレートデータであるコマンド用
テンプレートデータを第1の記憶手段から第2の記憶手
段に読み込んでおくか、あるいは第2の記憶手段同様に
高速アクセス性が相対的に高い読み取り専用の第3の記
憶手段(例えばROM)に予め記憶しておく。そして、
次の〜の手順で認識を行う。
【0017】上位階層テンプレートデータ(とみなし
得る下位階層テンプレートデータも含む。以下同様。)
を用いた認識を行って予備判定をする。 コマンド用テンプレートデータを用いた認識を行うと
共に、この認識と並行して予備判定の結果に対応する下
位階層テンプレートデータを第2の記憶手段に読み込
む。
【0018】その読み込んだ下位階層テンプレートデ
ータを用いて認識を行う。 上記の認識結果との認識結果の内でより確からし
さが上位のものを最終的な認識結果とする。 例えば処理装置がナビゲーション装置であれば、目的地
などの設定のために階層的な構成を持つ地名(住所)を
音声入力することがあり、また、当然ながらナビゲーシ
ョン装置の各種機能を使うためのコマンドを指示するこ
とがある。そして、このナビゲーション用のシステムを
想定した場合には、上述の認識処理を実行することで、
地名(住所)の入力だけでなくコマンドが入力された場
合にも即座に対応でき、コマンド用テンプレートデータ
を用いた認識処理を別途行わなくてもよい。つまりレス
ポンスが向上し、利用者にとっての使い勝手が向上する
こととなる。
【0019】なお、請求項7に示した処理システムは、
ナビゲーション用のシステム以外にも当然適用できる
が、特にナビゲーション用のシステムに限定して考えた
場合には、次のような工夫もできる。つまり、請求項8
に示すように、現在地を検出する機能を持つことを前提
として、次の〜の手順で認識を行う。
【0020】上位階層テンプレートデータを用いた認
識を行って予備判定を行う。 現在地検出手段にて検出された現在地に対応する下位
階層テンプレートデータを第2の記憶手段に読み込み、
その下位階層テンプレートデータを用いた認識を行うと
共に、この認識と並行して予備判定の結果に対応する下
位階層テンプレートデータを第2の記憶手段に読み込
む。
【0021】その読み込んだ下位階層テンプレートデ
ータを用いて認識を行う。 上記の認識結果との認識結果の内でより確からし
さが上位のものを最終的な認識結果とする。 この手法によって解決したい状況は次の通りである。つ
まり、ナビゲーションシステムを搭載した車両が例えば
愛知県内を走行しており、同じ愛知県内である「愛知県
刈谷市昭和町」を目的地として設定する場合には、「愛
知県刈谷市昭和町」と音声入力するのではなく、「愛知
県」を省略して「刈谷市昭和町」と音声入力する方が自
然である。本手法であれば、2回目の認識において現在
地に対応する下位階層辞書を用いた認識を行うため、都
道府県名を省略した音声入力であっても対応できる。
【0022】一方、同様に現在地を検出する機能を持つ
ことを前提としながら、相対的に認識速度の向上を図り
たい場合には請求項9に示すようにしてもよい。この場
合には、認識処理に先立って現在地検出手段にて検出さ
れた現在地に対応する下位階層テンプレートデータを第
2の記憶手段に予め読み込んでおく。そして、次の、
の手順で認識を行う。
【0023】上位階層テンプレートデータ及び予め読
み込んでおいた下位階層テンプレートデータを用いた認
識を行う。そして、その認識結果が、予め読み込んでお
いた下位階層テンプレートデータを用いて得られたもの
である場合には、それを最終的な認識結果として認識処
理を終了する。
【0024】一方、上記の認識結果が、上位階層テ
ンプレートデータを用いたものである場合には、その認
識結果に対応する下位階層テンプレートデータを第2の
記憶手段に読み込み、その下位階層テンプレートデータ
を用いて得た認識結果を最終的な認識結果とする。
【0025】このようにすれば、使用頻度が高いと考え
られる現在地を含む所定地域内の地名を認識する際に
は、それを認識するための下位階層テンプレートデータ
が予め読み込んであるため、相対的に認識処理が素早く
できることとなる。
【0026】
【発明の実施の形態】以下、本発明が適用された実施例
について図面を用いて説明する。なお、本発明の実施の
形態は、下記の実施例に何ら限定されることなく、本発
明の技術的範囲に属する限り、種々の形態を採り得るこ
とは言うまでもない。
【0027】図1は音声認識機能を持たせたナビゲーシ
ョンシステム2の概略構成を示すブロック図である。本
ナビゲーションシステム2は、車両に搭載されて用いら
れるいわゆるカーナビゲーションシステムであり、位置
検出器4、データ入力器6、操作スイッチ群8、これら
に接続された制御回路10、制御回路10に接続された
外部メモリ12、表示装置14及びリモコンセンサ15
及び音声認識装置30を備えている。なお制御回路10
は通常のコンピュータとして構成されており、内部に
は、周知のCPU、ROM、RAM、I/O及びこれら
の構成を接続するバスラインが備えられている。
【0028】位置検出器4は、周知の地磁気センサ1
6、ジャイロスコープ18、距離センサ20及び衛星か
らの電波に基づいて車両の位置を検出するためのGPS
受信機22を有している。これらのセンサ等16,1
8,20,22は各々が性質の異なる誤差を持っている
ため、複数のセンサにより、各々補間しながら使用する
ように構成されている。なお、精度によっては上述した
内の一部で構成してもよく、更に、ステアリングの回転
センサ、各転動輪の車輪センサ等を用いてもよい。
【0029】データ入力器6は、位置検出の精度向上の
ためのいわゆるマップマッチング用データ、地図データ
及び目印データを含むナビゲーション用の各種データに
加えて、音声認識装置30において認識処理を行う際に
用いる辞書データを入力するための装置である。記憶媒
体としては、そのデータ量からDVDを用いるのが一般
的であると考えられるが、CD−ROM等の他の媒体を
用いても良い。データ記憶媒体としてDVDを用いた場
合には、このデータ入力器6はDVDプレーヤとなる。
【0030】表示装置14はカラー表示装置であり、表
示装置14の画面には、位置検出器4から入力された車
両現在位置マークと、地図データ入力器6より入力され
た地図データと、更に地図上に表示する誘導経路や設定
地点の目印等の付加データとを重ねて表示することがで
きる。また、複数の選択肢を表示するメニュー画面やそ
の中の選択肢を選んだ場合に、さらに複数の選択肢を表
示するコマンド入力画面なども表示することができる。
【0031】また、本ナビゲーションシステム2は、リ
モートコントロール端末(以下、リモコンと称する。)
15aを介してリモコンセンサ15から、あるいは操作
スイッチ群8により目的地の位置を入力すると、現在位
置からその目的地までの最適な経路を自動的に選択して
誘導経路を形成し表示する、いわゆる経路案内機能も備
えている。このような自動的に最適な経路を設定する手
法は、ダイクストラ法等の手法が知られている。操作ス
イッチ群8は、例えば、表示装置14と一体になったタ
ッチスイッチもしくはメカニカルなスイッチ等が用いら
れ、各種コマンドの入力に利用される。
【0032】そして、音声認識装置30は、上記操作ス
イッチ群8あるいはリモコン15aが手動操作により各
種コマンド入力のために用いられるのに対して、利用者
が音声で入力することによっても同様に各種コマンドを
入力できるようにするための装置である。
【0033】この音声認識装置30は、音声認識部31
と、対話制御部32と、音声合成部33と、音声抽出部
34と、マイク35と、スイッチ36と、スピーカ37
と、制御部38とを備えている。音声認識部31は、音
声抽出部34から入力された音声データを、対話制御部
32からの指示により入力音声の認識処理を行い、その
認識結果を対話制御部32に返す。すなわち、音声抽出
部34から取得した音声データに対し、記憶している辞
書データを用いて照合を行ない、複数の比較対象パター
ン候補と比較して一致度の高い上位比較対象パターンを
対話制御部32へ出力する。入力音声中の単語系列の認
識は、音声抽出部34から入力された音声データを順次
音響分析して音響的特徴量(例えばケプストラム)を抽
出し、この音響分析によって得られた音響的特徴量時系
列データを得る。そして、周知のHMM(隠れマルコフ
モデル)、DPマッチング法あるいはニューラルネット
などによって、この時系列データをいくつかの区間に分
け、各区間が辞書データとして格納されたどの単語に対
応しているかを求める。
【0034】対話制御部32は、音声認識部31におけ
る認識結果や制御部38からの指示に基づき、音声合成
部33への応答音声の出力指示、あるいは、ナビゲーシ
ョンシステム自体の処理を実行する制御回路10に対し
て例えばナビゲート処理のために必要な目的地やコマン
ドを通知して目的地の設定やコマンドを実行させるよう
指示する処理を行う。このような処理の結果として、こ
の音声認識装置30を利用すれば、上記操作スイッチ群
8あるいはリモコン15aを手動しなくても、音声入力
によりナビゲーションシステムに対する目的地の指示な
どが可能となるのである。
【0035】なお、音声合成部33は、波形データベー
ス内に格納されている音声波形を用い、対話制御部32
からの応答音声の出力指示に基づく音声を合成する。こ
の合成音声がスピーカ37から出力されることとなる。
音声抽出部34は、マイク35にて取り込んだ周囲の音
声をデジタルデータに変換して音声認識部31に出力す
るものである。詳しくは、入力した音声の特徴量を分析
するため、例えば数10ms程度の区間のフレーム信号
を一定間隔で切り出し、その入力信号が、音声の含まれ
ている音声区間であるのか音声の含まれていない雑音区
間であるのか判定する。マイク35から入力される信号
は、認識対象の音声だけでなく雑音も混在したものであ
るため、音声区間と雑音区間の判定を行なう。この判定
方法としては従来より多くの手法が提案されており、例
えば入力信号の短時間パワーを一定時間毎に抽出してい
き、所定の閾値以上の短時間パワーが一定以上継続した
か否かによって音声区間であるか雑音区間であるかを判
定する手法がよく採用されている。そして、音声区間で
あると判定された場合には、その入力信号が音声認識部
31に出力されることとなる。
【0036】また、本実施形態においては、利用者がス
イッチ36を押しながらマイク35を介して音声を入力
するという利用方法である。具体的には、制御部38が
スイッチ36が押されたタイミングや戻されたタイミン
グ及び押された状態が継続した時間を監視しており、ス
イッチ36が押された場合には音声抽出部34及び音声
認識部31に対して処理の実行を指示する。一方、スイ
ッチ36が押されていない場合にはその処理を実行させ
ないようにしている。したがって、スイッチ36が押さ
れている間にマイク35を介して入力された音声データ
が音声認識部31へ出力されることとなる。
【0037】このような構成を有することによって、本
実施例の車載ナビゲーションシステム2では、ユーザが
コマンドを入力することによって、経路設定や経路案内
あるいは施設検索や施設表示など各種の処理を実行する
ことができる。ここで、音声認識部31と対話制御部3
2についてさらに説明する。図2に示すように、音声認
識部31は照合部311と辞書部312と抽出結果記憶
部313とを有しており、対話制御部32は処理部32
1と入力部322と辞書制御部323とを有している。
【0038】音声認識部31においては、抽出結果記憶
部313が音声抽出部34から出力された抽出結果を記
憶しておき、照合部31aがその記憶された抽出結果に
対し、辞書部312内に記憶されている辞書データを用
いて照合を行う。この辞書部312内の辞書データは固
定ではなく、適宜設定・更新されるのであるが、この点
は後述する。そして、照合部311にて辞書データと比
較されて一致度が高いとされた上位の認識結果は、対話
制御部32の処理部321へ出力され、対話制御部32
の処理部321が、制御回路10へその認識結果を出力
する。
【0039】一方、処理部321は、制御回路10に対
して辞書データをDVDから読み出して音声認識装置3
0側へ出力する依頼(辞書読込依頼)を出すことがで
き、その依頼の結果として制御回路10から送られた辞
書データは、対話制御部32の入力部322を介して入
力される。そして、辞書制御部323がその辞書データ
を音声認識部31の辞書部312に対して設定(書込)
・更新する。
【0040】ここで辞書データについて説明する。辞書
データとしては、語彙そのもののデータだけでなく、そ
の語彙が複数の語を階層的につなぎ合わせたものである
場合には、次のように分割されて準備されている。ここ
では、そのように分割されて準備されている辞書データ
の例として地名辞書を説明する。
【0041】まず、上位階層辞書は、都道府県名の辞書
データである。つまり、47の都道府県(愛知県、青森
県……、和歌山県)の名称に対応したキーワードを辞書
データとして持つものである。そして、下位階層辞書
は、都道府県別に分割して準備された県別辞書である。
つまり、愛知県の県別辞書、青森県の県別辞書……、和
歌山県の県別辞書というように47の県別辞書が準備さ
れている。この下位階層辞書は、上位階層のキーワード
に下位階層のキーワードを付加した辞書データであり、
例えば愛知県の県別辞書であれば、愛知県○○市××
町、……、愛知県刈谷市昭和町、愛知県△△市▽▽町、
……というように、必ず愛知県から始まるようにしてい
る。他の都道府県の県別辞書も同様である。
【0042】なお、必要に応じて、さらに下位階層の辞
書を準備してもよい。つまり、全国に存在する市町村別
に市別辞書を準備してもよい。例えば愛知県刈谷市の市
別辞書、愛知県大府市の市別辞書……といった具合であ
る。日本の場合には約4000の市町村があるといわれ
ているので、約4000の市別辞書が準備されることと
なる。この考え方を進めれば、当然ながらさらに下位階
層の辞書を準備することも可能である。例えば名古屋市
には16の区があるが、その区別に16分割した辞書を
準備してもよい。もちろん、区に限らず市町村の下位に
くる大字レベルに分割した辞書を準備することも可能で
ある。
【0043】そして、このように分割された辞書も含
め、基本的に辞書はすべて、データ入力器6にセットさ
れるDVDなどの記録媒体に記録されている。なお、
「基本的には」としたのは、音声認識部31の辞書部3
12に常駐させておく辞書データがあってもよいからで
ある。但し、上述した下位階層の辞書については、原則
通りDVDなどのデータ記憶媒体に記憶させておき、必
要なときに辞書部312に読み込むようにする。
【0044】次に、本実施例のナビゲーションシステム
2の動作について説明する。なお、音声認識装置30に
関係する部分が特徴であるので、ナビゲーションシステ
ムとしての一般的な動作を簡単に説明した後、音声認識
装置30に関係する部分の動作について詳しく説明する
こととする。
【0045】ナビゲーションシステム2の電源オン後
に、表示装置14上に表示されるメニューから、ドライ
バーがリモコン15a(操作スイッチ群8でも同様に操
作できる。以後の説明においても同じ)により、案内経
路を表示装置14に表示させるために経路情報表示処理
を選択した場合、あるいは、音声認識装置30を介して
希望するメニューをマイク35を介して音声入力するこ
とで、対話制御部32から制御回路10へ、リモコン1
5aを介して選択されるのを同様の指示がなされた場
合、次のような処理を実施する。
【0046】すなわち、ドライバーが表示装置14上の
地図に基づいて、音声あるいはリモコンなどの操作によ
って目的地を入力すると、GPS受信機22から得られ
る衛星のデータに基づき車両の現在地が求められ、目的
地と現在地との間に、ダイクストラ法によりコスト計算
して、現在地から目的地までの最も短距離の経路を誘導
経路として求める処理が行われる。そして、表示装置1
4上の道路地図に重ねて誘導経路を表示して、ドライバ
ーに適切なルートを案内する。このような誘導経路を求
める計算処理や案内処理は一般的に良く知られた処理で
あるので説明は省略する。
【0047】次に、音声認識装置30における動作につ
いて説明する。ここでは、いくつかの動作例を挙げる。 [動作例1]図4は、動作例1の場合の音声認識部31及
び対話制御部32における処理を示すフローチャートで
ある。
【0048】最初のステップS10においては、最上位
階層の辞書を設定する。具体的には、上述した県名辞書
であり、データ入力器6によってDVDから読み出し、
それを制御回路10、対話制御部32を介して音声認識
部31の辞書部312に設定する。なお、上述したよう
に、この県名辞書については辞書部312に常駐させて
おくことも考えられる。
【0049】このように音声認識の準備ができたら、続
いて音声認識処理を行う(S20)。上述したように、
スイッチ36が押されている間にマイク35を介して入
力された音声データが音声抽出部34にて抽出されて音
声認識部31へ出力されるため、この抽出結果に対して
認識処理を実行することとなる。
【0050】この音声認識処理がなされた後、その認識
に用いたのが最下位階層の辞書であるかどうかを判断す
る(S30)。S10にて設定した県名辞書を用いた認
識であれば最下位階層の辞書ではないので(S30:N
O)、S20での認識処理の結果から選択された下位階
層の辞書を設定する(S40)。例えば、県名辞書を用
いた認識で「愛知県」が選択された場合には、愛知県の
県別辞書を設定する。この設定に際しては、図3に例示
するように、対話制御部32が制御回路10へ県別辞書
の読み込みを依頼する。制御部10はその依頼に応じ、
データ入力器6によってDVDから該当する県別辞書を
読み出し、対話制御部32へ送る。そして、上述したよ
うに、対話制御部32内の辞書制御部323(図2参
照)によってその県別辞書が音声認識部31の辞書部3
12に設定される。
【0051】その後S20へ戻り、抽出結果記憶部31
3に記憶されている抽出結果を再度用いて音声認識処理
を行う。県別辞書が最下位階層の辞書であれば(S3
0:YES)、その辞書を用いて得た認識結果を制御回
路10へ出力する(S50)。なお、上述したように、
県別辞書のさらに下位階層の辞書として市別辞書や区別
辞書、大字辞書などが準備されている場合には、S20
〜S40のループ処理を繰り返して、最下位階層の辞書
が設定された状態で認識された結果を出力すればよい。
【0052】このようにすれば、音声入力された地名を
認識する場合に、地名に関する全辞書を辞書部312に
読み込んでおかなくてもよく、県名辞書及び選択された
都道府県に対応する県別辞書を読み込むだけでよい。こ
のような階層的に構成される語群に対して辞書の「分
割」を行い、予備判定にてどの下位階層辞書(県別辞
書)を用いればよいかを判定して、「真に必要な」辞書
に絞ってから辞書部312に読み込むようにした。した
がって、辞書に準備する語彙を増やすことで認識可能な
対象を増加させるという利点を追求した場合であって
も、その認識可能語彙をすべて辞書部312に格納して
おく必要がない。そのため、辞書部312は相対的に容
量が小さくても、一括入力に対応した適切な音声認識が
実現できる。
【0053】[動作例2]図5は、動作例2の場合の音声
認識部31及び対話制御部32における処理を示すフロ
ーチャートである。ここでは、実際の認識処理を開始す
る前に、県名辞書及びコマンド辞書が辞書部312に記
憶されていることを前提とする。
【0054】最初のステップS110においては、県名
辞書を設定する。予め記憶されているため、ここでは音
声認識に用いる辞書として設定する。つまり、辞書部3
12にはコマンド辞書も記憶されているが、それは設定
しない。そして、続くS120ではその県名辞書を用い
て第1回目の音声認識処理を行い、その第1回目の認識
結果から選択された県別辞書の読込を依頼する(S13
0)。
【0055】この辞書の読込依頼は、上記動作例1でも
説明したように対話制御部32が制御回路10に対して
行う。この依頼を受けた制御部10はその依頼に応じ、
データ入力器6によってDVDから該当する県別辞書を
読み出し、対話制御部32へ送る、そして、対話制御部
32はその県別辞書を読み込み(S190)、その県別
辞書を音声認識部31の辞書部312に設定する(S1
60)。
【0056】しかし、制御部10へ依頼をしてから県別
辞書が送られてくるまでの時間がある程度必要であるの
で、ここでは、その間を利用して2回目の認識処理を行
う。つまり、今度はコマンド辞書を音声認識に用いる辞
書として設定し(S140)、そのコマンド辞書を用い
て第2回目の音声認識処理を行うのである(S15
0)。この第2回目の認識処理が終了したら、上述した
DVDから読み込んだ県別辞書を音声認識に用いる辞書
として設定し(S160)、その県別辞書を用いて第3
回目の音声認識処理を行う(S170)。
【0057】このようにして得た第2回目の認識結果と
第3回目の認識結果の確からしさを比較し、上位の候補
(認識結果)を出力する(S180)。ナビゲーション
システムを利用する際に利用者が音声入力する語彙とし
ては、目的地などの設定のために地名(住所)がある
が、当然ながらナビゲーションの各種機能を使うための
コマンドを指示することがある。したがって、本動作例
のようにすれば、第2回目の音声認識処理をコマンド辞
書を用いて行っているので、地名(住所)の入力だけで
なくコマンドが入力された場合にも即座に対応できる。
そして、この認識処理は、県名辞書を用いた予備判定に
て選択された県別辞書の読み込みを行う間に実行するた
め、時間のロスが少なくて済む。つまり全体としてレス
ポンスが向上し、利用者にとっての使い勝手が向上す
る。
【0058】[動作例3]図6は、動作例3の場合の音声
認識部31及び対話制御部32における処理を示すフロ
ーチャートである。ここでは、実際の認識処理を開始す
る前に、県名辞書及び現在地の県別辞書が辞書部312
に記憶されていることを前提とする。つまり、位置検出
器4によって現在地を検出できるため、例えば本ナビゲ
ーションシステムを搭載した車両が愛知県内を走行して
いる場合には、愛知県の県別辞書を予めDVDから読み
込んで辞書部312に記憶させておく。
【0059】最初のステップS210においては、県名
辞書を設定する。予め記憶されているため、ここでは音
声認識に用いる辞書として設定する。つまり、辞書部3
12には現在地に対応する県別辞書も記憶されている
が、それは設定しない。そして、続くS220ではその
県名辞書を用いて第1回目の音声認識処理を行い、その
第1回目の認識結果から選択された県別辞書の読込を依
頼する(S230)。
【0060】このS230での辞書の読込依頼の結果、
DVDから該当する県別辞書を読み込み(S290)、
その県別辞書を音声認識部31の辞書部312に設定す
る(S260)点については、上述の動作例2のS13
0,S160,S190の処理内容を同じである。そし
て、動作例2ではこの間を利用してコマンド辞書を用い
た認識処理を行ったが、本動作例3では、予め読み込ん
であった現在地に対応する県別辞書を音声認識に用いる
辞書として設定し(S240)、その県別辞書を用いて
第2回目の音声認識処理を行う(S250)。この第2
回目の認識処理が終了したら、上述したDVDから読み
込んだ県別辞書を音声認識に用いる辞書として設定し
(S260)、その県別辞書を用いて第3回目の音声認
識処理を行う(S270)。
【0061】このようにして得た第2回目の認識結果と
第3回目の認識結果の確からしさを比較し、上位の候補
(認識結果)を出力する(S180)。ナビゲーション
システムを搭載した車両が例えば愛知県内を走行してお
り、同じ愛知県内である「愛知県刈谷市昭和町」を目的
地として設定する場合には、「愛知県刈谷市昭和町」と
音声入力するのではなく、「愛知県」を省略して「刈谷
市昭和町」と音声入力する方が自然である。本手法であ
れば、2回目の認識において現在地に対応する下位階層
辞書を用いた認識を行うため、都道府県名を省略した音
声入力であっても対応できる。
【0062】[動作例4]図7は、動作例4の場合の音声
認識部31及び対話制御部32における処理を示すフロ
ーチャートである。動作例3の場合と同様に、実際の認
識処理を開始する前に、県名辞書及び現在地の県別辞書
が辞書部312に記憶されていることを前提とする。
【0063】最初のステップ310においては、県名辞
書及び現在地に対応する県別辞書を音声認識に用いる辞
書として設定する。そして、続くS320ではその県名
辞書及び現在地対応の県別辞書を用いて第1回目の音声
認識処理を行う。その第1回目の認識結果が、現在地対
応の県別辞書を用いて得られたものである場合には(S
330:YES)、この第1回目の認識結果を出力する
(S340)。
【0064】一方、現在地対応の県別辞書ではなく、県
名辞書を用いて第1回目の認識結果が得られたものであ
る場合には(S330:NO)、その認識結果から選択
された県別辞書の読込を依頼し(S350)、DVDか
ら該当する県別辞書を読み込む(S355)。この場合
は、上述した動作例2,3とは異なり、辞書の読込依頼
から実際に読み込むまでに別に音声認識処理は実行しな
い。
【0065】そして、S355で読み込んだ県別辞書を
音声認識に用いる辞書として設定し(S360)、その
県別辞書を用いて第2回目の音声認識処理を行い(S3
70)、その認識結果を出力する(S380)。このよ
うにすれば、使用頻度が高いと考えられる現在地を含む
県内の地名を認識する際には、それを認識するための県
別辞書を用いて第1回目の音声認識処理で認識できるた
め、相対的に認識処理が素早くできることとなる。
【0066】音声認識装置30における動作について4
例挙げ、それぞれの動作例による効果などを説明した
が、上位階層辞書の構成を工夫することでも以下に示す
ような効果を得ることができる。 [辞書構成例1]ここでは上位階層辞書として県名辞書
を例にとって考える。県名辞書は、上述したように都道
府県(愛知県、青森県……、和歌山県)の名称に対応し
たキーワードを辞書データとして持つものであるが、こ
れを愛知県*、青森県*……、和歌山県*というように
記述し、*の部分がどのような音声入力に対してもマッ
チング可能なワイルドカードモデルとする。例えば、
「愛知県刈谷市」という音声入力の内「刈谷市」が*に
マッチングする。単に都道府県名のキーワードしか辞書
データとして持たない場合には、実際の認識対象(都道
府県以下の市町村や大字なども含む語群)の内の一部分
しか県名がないため、全体としてのマッチング度合いが
低下する。それに対して、ワイルドカードモデルの場合
には、マッチング自体は認識対象全体として行えるので
そのような問題が生じない。
【0067】ここで、ワイルドカードモデルについて少
し補足説明する。まず、音声認識で一般的に用いられる
HMM(隠れマルコフモデル)手法について簡単に説明
する。本手法は、音声を状態と遷移で表現されたマルコ
フモデルから生成されるものであると仮定して、生成モ
デルを事前に作成しておき、それと音声とを突き合わせ
(マッチング)、最もよくマッチングするものを認識結
果とするものである。このモデルの例としては図8に示
す表現が一般的である。各状態には出力確率分布が対応
しており、音声を分析した結果の特徴量(図8では簡単
のために2次元で表現した)の時系列を図8(a)に対
応する順(a1→a2→a3)に、図8(b)の確率分
布から確からしさを突き合わせていく。最終的には音声
の終端までの確からしさの積(尤度と呼ばれるスコア)
が最も良いものを認識結果とする。この手法では、認識
対象語彙のHMMを準備しておいてそれを比較すること
が基本となるが、大語彙の認識では事実上不可能である
ので、音素や音節(これは単語の部分という意味でサブ
ワードと呼ばれる)といった単位を設定し、それらのH
MMを作成しておいて、それを接続することで単語のモ
デルを作成する。
【0068】次に、ワイルドカードモデルの一例である
ガーベージモデルについて説明する。図9(A)に、/
a/,/i/,/u/のHMMの各状態に対応している確率
分布の例を示した。ここでは特徴空間を2次元としてい
る。ガーベージモデルと呼ばれる音声モデルは、特定の
音節のある特徴を表現するのではなく、多くの音声をカ
バーできるように、大きな分散を有する分布を持つもの
である。こうすると、ガーベージモデルはさまざまな音
声パターンに対して「広く浅く」マッチングするため、
広範囲の音声に対してある程度のスコア(=確率)を出
力するが、正しい分布に比べると小さい値を出力する傾
向がある。例えば図9(A)中の「×」で示した音声パ
ターンに対して、/a/,/i/のスコアは非常に小さくな
り、/u/のスコアは大きくなる。一方、ガーベージモデ
ルの場合のスコアは、/a/,/i/のスコアと比べると大
きいが、/u/のスコアと比べると小さい。
【0069】したがって、「あいちけんG」(Gはガー
ベージモデル)及び「あいちけんかりやし」のテンプレ
ートと「あいちけんかりやし」の音声をマッチングすれ
ば、そのスコアは「あいちけんG」<「あいちけんかり
やし」となる可能性が高い(但し保証されているわけで
はない)。しかし、「あいちけんG(ガーベージモデ
ル)」及び「あいちけんかすがいし」のテンプレートと
「あいちけんかりやし」の音声をマッチングすれば、そ
のスコアは「あいちけんG」<「あいちけんかすがい
し」となるとは限らず、かなりの確率で逆転する。
【0070】続いて、ワイルドカードモデルの他の例で
ある音節連接モデルについて説明する。音節のHMMは
単語を構成する単位となるが、これを任意に接続可能と
していおくと、あらゆる語の発声が認識できることにな
る。つまり、図9(B)に示すような音声連接モデルは
そのようなものである。なお、ここでは日本語の認識を
前提としている。
【0071】これを「あいちけんSCM」(SCMは音
節連接モデル)のようにワイルドカードとしておくと
「愛知県刈谷市昭和町」のような発声に対してもマッチ
ング可能である。この場合、「あいちけんSCM」のモ
デルは「あいちけんかりやししょうわちょう」というモ
デルの表現を内包しているので、スコアとしては後者以
上の値を得ることができる。
【0072】[辞書構成例2]上述したワイルドカード
モデルを使うと上述のような利点があるが、このワイル
ドカードはどのようなものにも緩やかにマッチングして
しまうので、誤認識の可能性を増やす原因ともなる。そ
こで、例えば県名辞書を構成する場合に、県名だけでな
く市町村名まで付加した冗長な状態で辞書を準備する。
そして、認識時には市町村名までマッチングするが、結
果としてはいずれの県名とマッチングしたかを判定す
る。より長い音声でマッチングをし、またワイルドカー
ドモデルのように緩やかにどのようなものにもマッチン
グするものではないため、認識率の向上が期待できる。
【0073】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。例えば、上述した
実施形態では、音声認識装置30を車両に搭載したナビ
ゲーションシステム2に適用した例として説明したが、
車載機器として用いられる場合だけではなく、例えば携
帯型ナビゲーション装置として実現してもよい。
【0074】また、ナビゲーションではない他の処理を
実行する装置に対して音声入力で各種データの設定や指
示などを与える場合にでも適用はできる。
【図面の簡単な説明】
【図1】 実施例としてのナビゲーションシステムの概
略構成を示すブロック図である。
【図2】 音声認識装置における音声認識部と対話制御
部の構成を示すブロック図である。
【図3】 辞書の読込依頼及びそれに対応した辞書読込
の説明図である。
【図4】 音声認識装置における動作例1に係る処理を
示すフローチャートである。
【図5】 音声認識装置における動作例2に係る処理を
示すフローチャートである。
【図6】 音声認識装置における動作例3に係る処理を
示すフローチャートである。
【図7】 音声認識装置における動作例4に係る処理を
示すフローチャートである。
【図8】 HMM(隠れマルコフモデル)の説明図であ
る。
【図9】 ワイルドカードモデルの例としてのガーベー
ジモデル及び音節連接モデルの説明図である。
【符号の説明】 2…ナビゲーションシステム 4…位置検出器 6…データ入力器 8…操作スイッチ
群 10…制御回路 12…外部メモリ 14…表示装置 15…リモコンセ
ンサ 15a…リモコン 16…地磁気セ
ンサ 18…ジャイロスコープ 20…距離センサ 22…GPS受信機 30…音声認識装
置 31…音声認識部 32…対話制御部 33…音声合成部 34…音声入力部 35…マイク 36…スイッチ 37…スピーカ 38…制御部 311…照合部 312…辞書部 313…抽出結果記憶部 321…処理部 322…入力部 323…辞書制御
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551Q (72)発明者 赤堀 一郎 愛知県刈谷市昭和町1丁目1番地 株式会 社デンソー内 (72)発明者 北岡 教英 愛知県刈谷市昭和町1丁目1番地 株式会 社デンソー内 (72)発明者 名田 徹 愛知県刈谷市昭和町1丁目1番地 株式会 社デンソー内 Fターム(参考) 2F029 AA02 AB01 AB07 AB09 AB13 AC02 AC04 AC08 AC18 5D015 HH06 HH14 KK02

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】音声を入力するための音声入力手段と、 最終的な認識対象が複数の語を階層的につなぎ合わせた
    ものである場合の上位階層を構成する複数種類の語また
    は語群に対応した上位階層テンプレートデータと、 最終的な認識対象が複数の語を階層的につなぎ合わせた
    ものである場合の上位階層を構成する複数種類の語また
    は語群単位に準備され、上位階層に加えて下位階層を構
    成する語または語群までを含んだ語群に対応した下位階
    層テンプレートデータと、 音声認識処理に際して高速アクセス性が相対的に低い第
    1の記憶手段と、 音声認識処理に際して高速アクセス性が相対的に高い第
    2の記憶手段とを備えており、 少なくとも前記下位階層辞書は前記第1の記憶手段に記
    憶されており、 前記音声入力手段を介して入力された音声を認識する際
    には、まず、前記入力音声に基づいて得たマッチング用
    データと前記上位階層テンプレートデータとを比較する
    ことで、どの上位階層の語又は語群が含まれているかを
    予備的に判定し、その予備判定にて含まれているとされ
    た上位階層に対応する下位階層テンプレートデータを前
    記第2の記憶手段に読み込み、その下位階層テンプレー
    トデータを用いて最終的な認識結果を得ることを特徴と
    する音声認識装置。
  2. 【請求項2】請求項1記載の音声認識装置において、 前記上位又は下位のテンプレートデータの少なくとも一
    方は辞書データであることを特徴とする音声認識装置。
  3. 【請求項3】請求項1記載の音声認識装置において、 前記上位又は下位のテンプレートデータの少なくとも一
    方は音声データであることを特徴とする音声認識装置。
  4. 【請求項4】請求項1〜3のいずれか記載の音声認識装
    置において、 最終的な認識対象が3階層以上で構成されている場合に
    は、第1階層を前記上位階層とした前記上位階層テンプ
    レートデータと、第2階層を前記下位階層とする下位階
    層テンプレートデータとを備えるとともに、当該第2階
    層を下位階層とする下位階層テンプレートデータを上位
    階層とみなして第3階層を前記下位階層とする第2の下
    位階層テンプレートデータとし、このような第2以降の
    下位階層テンプレートデータを、存在する階層数に応じ
    て備えることを特徴とする音声認識装置。
  5. 【請求項5】請求項1〜4のいずれか記載の音声認識装
    置において、 前記上位階層テンプレートデータ又は下位階層テンプレ
    ートデータであっても相対的に上位の階層テンプレート
    データとみなし得るテンプレートデータは、上位階層又
    は相対的に上位の階層とみなし得るテンプレートデータ
    を構成する複数種類の語または語群の後にそれ以外の語
    又は語群が付属した音声入力に対してもマッチング可能
    なワイルドカードモデルであることを特徴とする音声認
    識装置。
  6. 【請求項6】請求項1〜4のいずれか記載の音声認識装
    置において、 前記上位階層テンプレートデータ又は下位階層テンプレ
    ートデータであっても相対的に上位の階層テンプレート
    データとみなし得るテンプレートデータは、上位階層又
    は相対的に上位の階層とみなし得るテンプレートデータ
    を構成する複数種類の語または語群の後に下位階層テン
    プレートデータを構成する語又は語群が付属したもので
    あることを特徴とする音声認識装置。
  7. 【請求項7】請求項1〜6のいずれか記載の音声認識装
    置と、その音声認識装置にて認識された結果に基づいて
    所定の処理を実行する処理装置とを備え、 前記音声入力手段は、前記処理装置が処理をする上で指
    定される必要のある所定のコマンドを利用者が音声にて
    入力するためにも用いられるものである処理システムで
    あって、 前記音声認識装置は、 前記コマンドを認識するためのテンプレートデータであ
    るコマンド用テンプレートデータを実際の音声認識処理
    を行う前に前記第2の記憶手段に読み込んでおくか、あ
    るいは当該第2の記憶手段同様に高速アクセス性が相対
    的に高い読み取り専用の第3の記憶手段に予め記憶して
    おき、 前記上位階層テンプレートデータ又は下位階層テンプレ
    ートデータであっても相対的に上位の階層テンプレート
    データとみなし得るテンプレートデータを用いた認識を
    行って前記予備判定をし、 その後に前記コマンド用テンプレートデータを用いた認
    識を行うと共に、この認識と並行して前記予備判定の結
    果に対応する下位階層テンプレートデータを前記第2の
    記憶手段に読み込み、その読み込んだ下位階層テンプレ
    ートデータを用いて認識を行い、必要であれば、さらに
    下位階層のテンプレートデータを前記第2の記憶手段に
    読み込んで認識を行い、 前記コマンド用テンプレートデータを用いて得た認識結
    果と前記最下位階層のテンプレートデータを用いて得た
    認識結果の内でより確からしさが上位のものを最終的な
    認識結果とすることを特徴とする処理システム。
  8. 【請求項8】請求項1〜6のいずれか記載の音声認識装
    置と、その音声認識装置にて認識された結果に基づいて
    所定の処理を実行するナビゲーション装置とを備え、 前記音声入力手段は、少なくとも前記ナビゲーション装
    置がナビゲート処理をする上で指定される必要のある所
    定の地名関連データの指示を利用者が音声にて入力する
    ために用いられ、前記第1の記憶手段が記憶している下
    位階層テンプレートデータは少なくとも地名関連データ
    に関するものである処理システムであって、 前記ナビゲーション装置は、現在地を検出する現在地検
    出手段を備え、 前記音声認識装置は、 前記上位階層テンプレートデータを用いた認識を行って
    前記予備判定をし、 前記現在地検出手段にて検出された現在地に対応する前
    記下位階層テンプレートデータを前記第2の記憶手段に
    読み込み、その下位階層テンプレートデータを用いた認
    識を行うと共に、この認識と並行して前記予備判定の結
    果に対応する下位階層テンプレートデータを前記第2の
    記憶手段に読み込み、その読み込んだ下位階層テンプレ
    ートデータを用いて認識を行い、必要であれば、さらに
    下位階層のテンプレートデータを前記第2の記憶手段に
    読み込んで認識を行い、 前記現在地に対応する前記下位階層テンプレートデータ
    を用いて得た認識結果と、前記最も下位階層のテンプレ
    ートデータを用いて得た認識結果の内でより確からしさ
    が上位のものを最終的な認識結果とすることを特徴とす
    る処理システム。
  9. 【請求項9】請求項1〜6のいずれか記載の音声認識装
    置と、その音声認識装置にて認識された結果に基づいて
    所定の処理を実行するナビゲーション装置とを備え、 前記音声入力手段は、少なくとも前記ナビゲーション装
    置がナビゲート処理をする上で指定される必要のある所
    定の地名関連データの指示を利用者が音声にて入力する
    ために用いられ、前記第1の記憶手段が記憶している下
    位階層テンプレートデータは少なくとも地名関連データ
    に関するものである処理システムであって、 前記ナビゲーション装置は、現在地を検出する現在地検
    出手段を備え、 前記音声認識装置は、 前記現在地検出手段にて検出された現在地に対応する前
    記下位階層テンプレートデータを前記第2の記憶手段に
    予め読み込んでおき、 前記上位階層テンプレートデータ及び前記予め読み込ん
    でおいた下位階層テンプレートデータを用いて認識を行
    い、その認識結果が、前記予め読み込んでおいた下位階
    層テンプレートデータを用いて得られたものである場合
    には、それを最終的な認識結果とし、一方、その認識結
    果が、前記上位階層テンプレートデータを用いたもので
    ある場合には、その認識結果に対応する下位階層テンプ
    レートデータを前記第2の記憶手段に読み込み、その読
    み込んだ下位階層テンプレートデータを用いて認識を行
    い、必要であれば、さらに下位階層のテンプレートデー
    タを前記第2の記憶手段に読み込んで認識を行い、その
    最も下位階層のテンプレートデータを用いて得た認識結
    果を最終的な認識結果とすることを特徴とする処理シス
    テム。
JP2000117910A 2000-04-19 2000-04-19 音声認識装置及び処理システム Expired - Fee Related JP3700533B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000117910A JP3700533B2 (ja) 2000-04-19 2000-04-19 音声認識装置及び処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000117910A JP3700533B2 (ja) 2000-04-19 2000-04-19 音声認識装置及び処理システム

Publications (2)

Publication Number Publication Date
JP2001306088A true JP2001306088A (ja) 2001-11-02
JP3700533B2 JP3700533B2 (ja) 2005-09-28

Family

ID=18629151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000117910A Expired - Fee Related JP3700533B2 (ja) 2000-04-19 2000-04-19 音声認識装置及び処理システム

Country Status (1)

Country Link
JP (1) JP3700533B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2008164975A (ja) * 2006-12-28 2008-07-17 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
US9123327B2 (en) 2011-12-26 2015-09-01 Denso Corporation Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
JP2008164975A (ja) * 2006-12-28 2008-07-17 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
US7949524B2 (en) 2006-12-28 2011-05-24 Nissan Motor Co., Ltd. Speech recognition correction with standby-word dictionary
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
US9123327B2 (en) 2011-12-26 2015-09-01 Denso Corporation Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム

Also Published As

Publication number Publication date
JP3700533B2 (ja) 2005-09-28

Similar Documents

Publication Publication Date Title
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2002091466A (ja) 音声認識装置
US20020010579A1 (en) Speech recognition apparatus and method using two opposite words
JP2006195576A (ja) 車載音声認識装置
JP4914632B2 (ja) ナビゲーション装置
JP3700533B2 (ja) 音声認識装置及び処理システム
JP4262837B2 (ja) 音声認識機能を用いたナビゲーション方法
JP2000338993A (ja) 音声認識装置、その装置を用いたナビゲーションシステム
JP3890774B2 (ja) ナビゲーションシステム
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JPH11249689A (ja) 音声認識装置および地図表示装置
JP4453377B2 (ja) 音声認識装置、プログラム及びナビゲーション装置
JP2005227369A (ja) 音声認識装置および方法と車載ナビゲーション装置
JPH09114487A (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JP2007025076A (ja) 車載用音声認識装置
JP4093394B2 (ja) 音声認識装置
JP2000020086A (ja) 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP3911835B2 (ja) 音声認識装置及びナビゲーションシステム
JP2000322083A (ja) 音声認識装置及びナビゲーションシステム
JPH11231892A (ja) 音声認識装置
JP2002108389A (ja) 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JPH11231889A (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050704

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110722

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130722

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees