JP2000305595A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000305595A
JP2000305595A JP11112775A JP11277599A JP2000305595A JP 2000305595 A JP2000305595 A JP 2000305595A JP 11112775 A JP11112775 A JP 11112775A JP 11277599 A JP11277599 A JP 11277599A JP 2000305595 A JP2000305595 A JP 2000305595A
Authority
JP
Japan
Prior art keywords
recognition
vocabulary
unit
speech recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11112775A
Other languages
English (en)
Inventor
Kazuyuki Nogi
和行 野木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11112775A priority Critical patent/JP2000305595A/ja
Publication of JP2000305595A publication Critical patent/JP2000305595A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 誤認識が少なく、かつ安価な音声認識装置を
得る。 【解決手段】 認識処理可能な語彙数に制限のある認識
処理方式と、認識処理可能な語彙数に制限のない認識処
理方式の両者を切り替え得るようにし、抽出した語彙の
語彙数または語彙データ容量を測定し、その測定結果が
判定しきい値以下であれば認識処理可能な語彙数に制限
のある認識処理方式を使用し、語彙数が判定しきい値以
上であれば認識処理可能な語彙数に制限のない認識処理
方式を使用するようにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えば画面に表
示された地図上に車両の現在位置を表示する車載用ナビ
ゲーション装置などの車載情報機器に音声によって与え
る入力指示の語彙を認識する音声認識装置に関するもの
である。
【0002】
【従来の技術】従来の音声認識装置においては、認識処
理可能な語彙数に制限のある処理方式(以下制限方式と
呼ぶ)と、認識処理可能な語彙数に制限のない処理方式
(以下非制限方式と呼ぶ)が存在する。制限方式では、
認識対象となる語彙データを認識辞書生成手段に入力す
ることで認識処理に使用する音声認識辞書に登録する。
この登録された認認辞書は、音声認識処理においてマイ
クロホンから入力された音声との一致度を見る照合処理
を行う場合に、入力音声に対して音声認識辞書に登録さ
れた語彙全てと照合処理を行うようなデータ構成とな
る。このため、音声認識辞書に登録する語彙数が増加し
た場合、認識処理に必要なメモリ容量や認識結果応答時
間が語彙数に依存して増加する。これが認識処理可能な
語彙数の制限となる。
【0003】これに対し非制限方式では、制限方式と同
様に、認識対象となる語彙データを認識辞書生成手段に
入力することで認識処理に使用する音声認識辞書に登録
する。この登録された音声認識辞書は、音声認識処理に
おいてマイクロホンから入力された音声との一致度を見
る照合処理を行う場合に、入力音声に対して音声認識辞
書に登録された語彙全てと照合処理を行う訳ではなく、
照合処理を行いながら順次不要な語彙に対しては照合処
理を省くような処理を行うデータ構成となる。このた
め、認識語彙数が増加した場合においても、制限方式の
ように認識処理に必要なメモリ容量や認識結果応答時間
が語彙数に依存して増加することはなく一定となる。
【0004】従来の制限方式を使用した音声認識装置を
搭載したナビゲーション装置にあっては、図10に示す
ように、音声が入力されるマイクロホン1と、検索内容
に係わる語彙として、例えば地名などが格納された認識
語彙データベース2と、この認識語彙データベース2を
記憶するCD−ROMやDVDあるいはメモリなどの記
憶媒体3と、認識処理に必要な語彙データ、例えば地名
における指定した市区町村名の中にある大字名の文字列
データを認識語彙データベース2から抽出する認識語彙
抽出部4と、抽出部4により抽出された語彙を音声認識
可能な形態に変換する認識辞書生成部5と、認識辞書生
成部5により音声認識可能な形態に変換された音声認識
辞書データを格納する音声認識辞書RAM6と、マイク
ロホン1からの音声による入力信号を分析し、音声認識
辞書RAM6の内容の語彙との一致度をみることによっ
て入力語を認識する認識処理部7と、認識処理部7の出
力結果K1により、実際の場所の地図を検索するナビゲ
ーション処理部8と、ナビゲーション処理部8により生
成された画面を表示する表示部9と、音声認識の認識結
果を出力するための合成音声を生成する音声合成処理部
10と、音声合成処理部10にて生成された音声を出力
するためのスピーカ11と、ナビゲーション装置を操作
する操作部12とからなっている。
【0005】従来の制限方式を使用した音声認識装置に
おける住所検索では、住所を「都道府県」、「市区町
村」、「大字」と3段階に分けて検索する。この場合、
図13のフローチャートに示す手順にて処理が行われ
る。まずステップV1において、オペレータが例えば操
作部12に存在する音声認識開始スイッチを押すことに
より、ナビゲーション処理部8は認識処理を行うべき語
彙データである都道府県名の抽出命令を認識語彙抽出部
4に対して発行し、認識語彙抽出部4が、大分類である
都道府県名を認識語彙データベース2から抽出する。ス
テップV2において、認識語彙抽出部4が抽出した語彙
データを認識辞書生成部5が変換処理し、音声認識辞書
を生成し、音声認識辞書RAM6に格納する。ステップ
V3において、オペレータが発声した音声をマイクロホ
ン1にて入力し、その音声信号を認識処理部7に出力す
る。認識処理部7は、入力された音声信号を分析し、入
力された音声の特徴パラメータを生成し、生成された特
徴パラメータと音声認識辞書RAM6の内容とをパター
ンマッチングする。ステップV4において、パターンマ
ッチングの結果、一定値以上の一致度をもつ認識結果が
存在しない場合は、ステップV3に戻り、一定値以上の
一致度をもつ認識結果が存在する場合は、認識結果をナ
ビゲーション処理部8に出力しステップV5に進む。ス
テップV5において、認識処理部7の出力した認識結果
を表示部9に簡易的に文字表示し、音声出力処理部10
にて認識結果を音声信号に変換し、スピーカ11から出
力する。
【0006】次にステップV6において、ナビゲーショ
ン処理部8は大分類の認識結果に対応する中分類の語彙
データである市区町村名の抽出命令を認識語彙抽出部4
に対して発行し、認識語彙抽出部4が認識語彙データベ
ース2から抽出する。ステップV7において、認識語彙
抽出部4が抽出した語彙データを、認識辞書生成部5が
変換処理し音声認識辞書を生成し、音声認識辞書RAM
6に格納する。ステップV8において、オペレータが発
声した音声をマイクロホン1にて入力し、その音声信号
を認識処理部7に出力する。認識処理部7は、入力され
た音声信号を分析し、入力された音声の特徴パラメータ
を生成し、生成された特徴パラメータと音声認識辞書R
AM6の内容とをパターンマッチングする。ステップV
9において、パターンマッチングの結果、一定値以上の
一致度をもつ認識結果が存在する場合は認識結果をナビ
ゲーション処理部8に出力し、ステップV10に進み、
認識結果を表示部9に簡易的に文字表示し、音声出力処
理部10にて認識結果を音声信号に変換し、スピーカ1
1から出力する。
【0007】次にステップV11において、ナビゲーシ
ョン処理部8は中分類の認識結果に対応する小分類の語
彙データである大字名の抽出命令を認識語彙抽出部4に
対して発行し、認識語彙抽出部4が認識語彙データベー
ス2から抽出する。ステップV12において、認識語彙
抽出部4が抽出した語彙データを認識辞書生成部5が変
換処理し音声認識辞書を生成し、音声認識辞書RAM6
に格納する。ステップV13において、オペレータが発
声した音声をマイクロホン1にて入力し、その音声信号
を認識処理部7に出力する。認識処理部7は、入力され
た音声信号を分析し、入力された音声の特徴パラメータ
を生成し、生成された特徴パラメータと音声認識辞書R
AM6の内容とをパターンマッチングする。ステップV
14において、パターンマッチングの結果、一定値以上
の一致度をもつ認識結果が存在する場合は、認識結果を
ナビゲーション処理部8に出力しステップV15に進
む。ステップV15において、認識処理部7の認識結果
を基に、ナビゲーション処理部8が、地図データ記憶媒
体を参照し、実際の場所を表示部9にて表示し、音声出
力処理部10にて認識結果を音声信号に変換し、スピー
カ11から出力する。以上の手順にて、制限方式を使用
した音声認識装置による住所名検索が行われる。
【0008】また、従来の非制限方式では、住所検索に
おける大分類である都道府県名と、中分類である市区町
村名と、小分類である大字名を一つの音声認識辞書と
し、同時に発声することが可能である。
【0009】
【発明が解決しようとする課題】従来の構成による制限
方式を使用した音声認識装置においては、小分類である
大字名の認識処理を行う場合、認識処理に必要なメモリ
容量や認識結果応答時間が語彙数に依存して増加するた
め、一部の大字名、例えば北海道旭川市内の大字名に対
しては、その語彙数が2000地名以上と多いために認
識処理に必要なメモリ容量が多く必要となり、認識結果
の応答時間に数秒の遅れが発生し、この時間遅れにより
使用者に負担をかけるなどの問題があった。また、上記
時間遅れを削減するために、従来は認識対象となる大字
名の語彙数を制限するなどの対応がなされているが、認
識語彙数を制限することによりオペレータが発声した大
字名が認識語彙の中にないために誤認識が発生したり、
あるいは検索の精度が低下するなどの弊害が発生するこ
とがあった。
【0010】これに対し、従来の非制限方式を採用した
音声認識装置においては、大分類である都道府県名と、
中分類である市区町村名と、小分類である大字名を一つ
の音声認識辞書として同時に認識する構成の大語彙音声
認識装置となるため、認識処理に必要なメモリ容量は一
定であり、認識結果応答時間も一定であるが、音声認識
辞書記憶装置は大分類である都道府県名と、中分類であ
る市区町村名と、小分類である大字名の全てを含む10
万語を超える語を格納するために膨大な認識辞書メモリ
容量を必要とする。これに加え住所名などの情報は住所
名の新設や削除などが行われるため刻々と変化してい
る。このため音声認識処理に使用する認識語彙データを
順次更新する必要があり、このため音声認識辞書の記憶
装置は書き換え可能である必要がある。これは記憶装置
のコスト上昇を招く結果となる。
【0011】また、従来の音声認識処理は、認識処理の
終了を検出する手段として使用者の発声の終端である一
定時間の無音期間を検出することにより行っている。こ
のため使用者が言いよどんだ場合などは途中で認識処理
が終了してしまい、中途半端な入力音声から認識処理を
行うため誤認識が発生する。以上により、特に10万語
を超える大語彙の認識処理を行う場合はスムーズな発声
が困雑となるために認識率が低下するという問題があっ
た。
【0012】この発明は上記の問題を解決するためにな
されたもので、誤認識が少なく、かつ安価な音声認識装
置を得ようとするものである。
【0013】
【課題を解決するための手段】この発明に係る音声認識
装置は、大規模な認識語彙データベース例えば住所名の
内から必要な語彙例えば特定地区の大字名だけを抽出し
音声認識処理可能な辞書データ構成に変換するものにお
いて、認識処理対象となる語彙を大規模な認識語彙デー
タベースから抽出する語彙抽出部と、この語彙抽出部に
より抽出した語彙のデータ量を測定する所定情報測定部
と、上記語彙抽出部が抽出した語彙を音声認識辞書デー
タに変換する複数の認識辞書生成部と、これら認識辞書
生成部により生成された複数の音声認識辞書を上記所定
情報測定部により測定された所定情報に応じて切り替え
る使用辞書判定部と、上記音声認識辞書のデータと入力
音声とを照合する認識処理部とを備えたものである。
【0014】また、所定情報測定部は、語彙抽出部が抽
出した語彙の数を測定するようにしたものである。
【0015】また、所定情報測定部は、語彙抽出部が抽
出した語彙のデータ容量を測定するようにしたものであ
る。
【0016】また、音声認識処理部の出力が、地図表示
および音声表示を制御するナビゲーション処理部に供給
されるようになされているものである。
【0017】また、辞書生成部切り替えの基準となる判
定部の判定しきい値が、現在の装置全体の状態に応じて
変更可能になされているものである。
【0018】
【発明の実施の形態】実施の形態1.図1はこの発明の
実施の形態1に係る音声認識装置のブロック回路図であ
る。この発明による音声認識装置は、図1に示すよう
に、音声が入力されるマイクロホン1と、検索内容に係
わる語彙として、例えば地名などの文字列が格納された
認識語彙データベース2と、この認識語彙データベース
2を記憶するCD−ROMやDVDあるいはメモリなど
の記憶媒体3と、認識処理に必要な語彙データ例えば地
名における指定した市区町村名の中にある大字名の文字
列データを認識語彙データベース2から抽出する認識語
彙抽出部4と、認識語彙データベース2から抽出した大
字名の文字列データの語彙数を示す文字列データの区切
り文字数をカウントするカウント部41と、カウント部
41がカウントした値と設定された判定しきい値の比較
結果に応じて、生成する音声認識辞書を切り替える使用
辞書判定部42と、使用辞書判定部42により判定され
た結果に基づき、抽出部4により抽出された語彙を認識
処理可能な語彙数に制限のある認識処理方式(以下制限
方式と呼ぶ)となる音声認識辞書構成に変換する認識辞
書生成部51と、抽出部4により抽出された語彙を認
識処理可能な語彙数に制限のない認識処理方式(以下非
制限方式と呼ぶ)となる音声認識辞書構成に変換する認
識辞書生成部52と、認識辞書生成部51、認識辞
書生成部52により音声認識可能な形態に変換された
音声認識辞書を格納する音声認識辞書RAM6と、マイ
クロホン1からの音声による入力信号を分析し、音声認
識辞書RAM6の内容の語彙との一致度をみることによ
って入力語を認識する認識処理部7と、認識処理部7の
出力結果K1により、実際の場所の地図を検索するナビ
ゲーション処理部8と、ナビゲーション処理部8により
生成された画面を表示する表示部9と、音声認識の認識
結果を出力するための合成音声を生成する音声合成処理
部10と、音声合成処理部10にて生成された音声を出
力するためのスピーカ11と、ナビゲーション装置を操
作する操作部12とからなっている。
【0019】図2は、認識辞書生成部51により生成
される音声認識辞書の構成およびパターンマッチング
時の処理を示すものである。図2に示すように、音声認
識辞書の構造は認識語彙データを入力順に並べた構成
であり、入力音声の特徴パラメータに対するパターンマ
ッチング処理においては、音声認識辞書中の全ての語彙
に対してパターンマッチング処理を行う。このため、認
識処理用メモリ容量や認識結果応答時間は認識する語彙
数に依存して増加し、認識制限語彙数が例えば1000
語程度の場合、1000語を超えた時点から認識結果応
答時間に遅れが発生する。
【0020】図3は認識辞書生成部52により生成さ
れる音声認識辞書の構成およびパターンマッチング時
の処理を示すものである。図3に示すように、音声認識
辞書の構造は認識語彙データを木構造とした構成であ
り、入力音声の特徴パラメータに対するパターンマッチ
ング処理においては、パターンマッチング処理を行いな
がら順次一致度の低い不要な枝を省く処理を行う。この
ため、認識処理用メモリ容量は認識する語彙数に関係な
く一定であり、認識制限語彙数は無制限となる。また、
認識結果応答時間は認識する語彙数に関係なく一定であ
る。しかし、音声認識辞書においては、パターンマッ
チング処理中に木構造の辞書データの不要な枝を省くた
め、認識処理の最初の時点で誤認識をした場合は、残っ
た枝の中から認識結果が出力されるため音声認識辞書
に比べ誤認識が発生する可能性が高い。
【0021】図4は、音声認識辞書と音声認識辞書
の特徴を比較した結果をまとめた図である。まず、認識
処理用メモリ容量に関しては、音声認識辞書はパター
ンマッチング処理を音声認識辞書内の語彙全てに対して
行うため、認識語彙数が増加した場合、認識処理用メモ
リ容量が増加する。これに対し、音声認識辞書はパタ
ーンマッチング処理を行いながら順次不要な語彙とのマ
ッチングを省くため、認識処理用メモリ容量は認識語彙
数に依存せず一定である。次に、認識制限語彙数に関し
ては、音声認識辞書は認識制限語彙数が存在し、制限
語彙数は例えば1000語程度である。これに対し音声
認識辞書は、認識制限語彙数が存在しない。次に認識
結果応答時間に関しては、音声認識辞書は認識制限語
彙数例えば1000語を超えた時点から音声認識辞書
に比べ遅れが発生する。これに対し音声認識辞書にお
いては、不要な語彙とのマッチングを省く処理を行うた
め、認識結果応答時間は認識する語彙数に関係なく一定
である。次に、認識性能に関しては、音声認識辞書は
パターンマッチング処理を音声認識辞書内の語彙全てに
対して行うため性能が高い。これに対して音声認識辞書
においては、パターンマッチング処理中に木構造の辞
書データの不要な枝を省くため、認識処理の最初の時点
で誤認識をした場合、残った枝の中から認識結果が出力
されるため、音声認識辞書に比べ誤認識が発生する可
能性があり、音声認識辞書に比べやや劣る。次に音声
認識辞書容量に関しては、音声認識辞書と音声認識辞
書の語彙数に対する容量は同程度である。
【0022】図5は音声認識辞書と音声認識辞書
を、認識語彙数に対する認識処理メモリ容量について比
較した結果を示すものである。図5に示すように、認識
処理は認識語彙数が少ない場合は認識処理用メモリ容
量が少ないが、認識する語彙数に依存して増加する。こ
れに対し、音声認識辞書は語彙数が少ない場合は認識
処理用メモリ容量が認識処理よりも多いが、認識する
語彙数が増加し認識処理の制限語彙数例えば1000
語を超えた場合においても認識処理用メモリ容量は一定
である。このため、認識処理の制限語彙数以上におい
ては音声認識辞書の方が処理効率がよい。
【0023】図6は、音声認識辞書と音声認識辞書
を認識語彙数に対する認識結果応答時間について比較し
た結果を示すものである。図6に示すように、音声認識
辞書は、認識する語彙数が増加した場合においても認
識結果応答時間は例えば0.4秒で一定である。これに
対し、音声認識辞書は、制限語彙数例えば1000語
以内である場合においては認識結果応答時間が音声認識
辞書の0.4秒を下回り処理効率がよいが、制限語彙
数例えば1000語を超えた時点より認識語彙数に対し
て応答時間の遅れが増加し、音声認識辞書よりも遅れ
る傾向がある。
【0024】図7は、実施の形態1における処理の手順
を示すフローチャートである。まずステップS1におい
て、オペレータが例えば操作部12に存在する音声認識
開始スイッチを押すことにより、ナビゲーション処理部
8は現在の状態から認識処理を行うべき語彙データの種
類を判断し、認識語彙抽出部4に対して抽出開始命令を
発行し、認識語彙抽出部4が、認識すべき対象の認識語
彙データを認識語彙データベース2から抽出する。ステ
ップS2において、認識語彙抽出部4が抽出した語彙デ
ータの語彙数を抽出データ語彙数カウント部41がカウ
ントする。ステップS3において、使用辞書判定部42
が、抽出データ語彙数カウント部41がカウントした語
彙数を基に判定しきい値以上であるかを判定し、判定し
きい値が例えば1000語の場合、カウントした語彙数
が1000語よりも小さい場合はステップS4に分岐
し、カウントした語彙数が1000語以上の場合はステ
ップS5に分岐する。
【0025】ステップS4において、認識辞書生成部
51が認識語彙抽出部4の抽出した語彙データより音声
認識辞書を生成し、音声認識辞書RAM6に格納す
る。一方、ステップS5においては、認識辞書生成部
52が認識語彙抽出部4の抽出した語彙データより音声
認識辞書を生成し、音声認識辞書RAM6に格納す
る。ステップS6において、オペレータが発声した音声
をマイクロホン1にて入力し、その音声信号を認識処理
部7に出力する。認識処理郡7は、入力された音声信号
を分析し、入力された音声の特徴パラメータを生成し、
生成された特徴パラメータとステップS4、S5で生成
した音声認識辞書を格納した音声認識辞書RAM6の内
容とをパターンマッチングする。ステップS7におい
て、パターンマッチングの結果、一定値以上の一致度を
もつ認識結果が存在しない場合は、ステップS6に戻
り、一定値以上の一致度をもつ認識結果が存在する場合
は、ステップS8に進む。ステップS8において、認識
処理部7の認識結果を基に、ナビゲーション処理部8
が、地図データ記憶媒体を参照し、実際の場所を表示部
9にて表示し、音声出力処理部10にて認識結果を音声
信号に変換し、スピーカ11から出力する。
【0026】以上のような構成の音声認識装置におい
て、例えば住所検索における小分類の認識処理の際、兵
庫県三田市の大字名を認識対象とした場合、カウント部
41のカウント結果は200程度であるため、判定しき
い値の1000よりも少ないと判定され、音声認識辞書
が適用される。その結果、認識処理応答時間を、音声
認識辞書を使用した場合より短くすることが出来る。
また、例えば北海道旭川市の大字名を認識対象とした場
合、カウント部41のカウント結果は2000程度であ
るため、判定しきい値1000よりも大きいと判定さ
れ、音声認識辞書が適用される。これにより、検索デ
ータを省略することなくデータ検索を行うことができ、
より詳細なデータ検索が可能となり、オペレータが認識
語彙に存在しない語彙を発話することもなく、誤認識の
発生を防ぐことが可能となる。また、認識結果応答時間
を一定に保つことができ、認識結果出力応答待ち時間の
遅延などによるオペレータへの負担を軽減することが可
能となる。
【0027】実施の形態2.図8はこの発明の実施の形
態2に係る音声認識装置のブロック図である。本実施の
形態による音声認識装置は、図8に示すように、音声が
入力されるマイクロホン1と、検索内容に係わる語彙と
して、例えば地名などの文字列が格納された認識語彙デ
ータベース2と、この認識語彙データベース2を記憶す
るCD−ROMやDVDあるいはメモリなどの記憶媒体
3と、認識処理に必要な語彙データ例えば地名における
指定された市区町村名の中にある大字名の文字列データ
を認識処理データベース2から抽出する認識語彙抽出部
4と、認識語彙データベース2から抽出した大字名の文
字列データのデータ容量を示す総文字数を測定する抽出
データ容量測定部43と、抽出データ容量測定部43が
測定した総文字数と設定された判定しきい値との比較結
果に応じて、生成する音声認識辞書を切り替える使用辞
書判定部42と、使用辞書判定部42により判定された
結果に基づき、抽出部4により抽出された語彙を制限方
式となる音声認識辞書構成に変換する認識辞書生成部
51と、抽出部4により抽出された語彙を非制限方式と
なる音声認識辞書構成に変換する認識辞書生成部52
と、認識辞書生成部51、認識辞書生成部52によ
り音声認識可能な形態に変換された音声認識辞書を格納
する音声認識辞書RAM6と、マイクロホン1からの音
声による入力信号を分析し、音声認識辞書RAM6の内
容の語彙との一致度をみることによって入力語を認識す
る認識処理部7と、認識処理部7の出力結果K1によ
り、実際の場所の地図を検索するナビゲーション処理部
8と、ナビゲーション処理部8により生成された画面を
表示する表示部9と、音声認識の認識結果を出力するた
めの合成音声を生成する音声合成処理部10と、音声合
成処理部10にて生成された音声を出力するためのスピ
ーカ11と、ナビゲーション装置を操作する操作部12
とからなっている。
【0028】図9は実施の形態2における処理の手順を
示すフローチャートである。まずステップT1におい
て、オペレータが例えば操作部12に存在する音声認識
開始スイッチを押すことにより、ナビゲーション処理部
8は現在の状態から認識処理を行うべき語彙データの種
類を判断し、認識語彙抽出部4に対して抽出開始命令を
発行し、認識語彙抽出部4が、認識すべき対象の認識語
彙データを認識語彙データベース2から抽出する。ステ
ップT2において、認識語彙抽出部4が抽出した語彙デ
ータのデータ容量である総文字数を抽出データ容量測定
部43が測定する。ステップT3において、使用辞書判
定部42が、抽出データ容量測定部43が測定したデー
タ容量である総文字数を基に判定しきい値以上であるか
を判定し、判定しきい値が例えば5000文字の場合、
測定したデータ容量である総文字数が5000文字より
も小さい場合はステップT4に分岐し、測定したデータ
容量である総文字数が5000文字以上の場合はステッ
プT5に分岐する。
【0029】ステップT4において、認識辞書生成部
51が認識語彙抽出部4の抽出した語彙データより音声
認識辞書を生成し、音声認識辞書RAM6に格納す
る。ステップT5において、認識辞書生成部52が認
識語彙抽出部4が抽出した語彙データより音声認識辞書
を生成し、音声認識辞書RAM6に格納する。ステッ
プT6において、オペレータが発声した音声をマイクロ
ホン1にて入力し、その音声信号を認識処理部7に出力
する。認識処理部7は、入力された音声信号を分析し、
入力された音声の特徴パラメータを生成し、生成された
特徴パラメータとステップT4、ステップT5で生成し
た音声認識辞書を格納した音声認識辞書RAM6の内容
とをパターンマッチングする。ステップT7において、
パターンマッチングの結果、一定以上の一致度をもつ認
識結果が存在しない場合はステップT6に戻り、一定以
上の一致度をもつ認識結果が存在する場合はステップT
8に進む。ステップT8において、認識処理部7の出力
した認識結果を基に、ナビゲーション処理部8が、地図
データ記憶媒体を参照し、実際の場所を表示部9にて表
示し、音声出力処理部10にて認識結果を音声信号に変
換し、スピーカ11から出力する。
【0030】以上のような構成の音声認識装置におい
て、例えば住所検索における小分類の認識処理の際、兵
庫県三田市の大字名を認識対象とした場合、抽出データ
容量測定部43の測定結果は1500程度となるため、
判定しきい値の5000よりも少ないと判定され、音声
認識辞書が適用される。これにより、認識処理に必要
となるメモリ容量を、音声認識辞書を使用した場合よ
り削減することができる。また、例えば北海道旭川市の
大字名を認識対象とした場合、抽出データ容量測定部4
3の測定結果は40000程度であるため、判定しきい
値の5000よりも大きいと判定され、音声認識辞書
が適用される。これにより、検索データを省略すること
なくデータ検索を行うことができ、より詳細なデータ検
索が可能となり、使用者が認識語彙に存在しない語彙を
発話することもなく、誤認識の発生を防ぐことが可能と
なる。また、認識処理に必要となるメモリ容量の使用量
を制限することができ、音声認識装置におけるメモリ容
量の高騰を防ぎ、製品コストの増加を防ぐことが可能と
なる。
【0031】実施の形態3.図10は実施の形態3に係
る音声認識装置のブロック図である。本実施の形態によ
る音声認識装置にあっては、図10に示すように、音声
が入力されるマイクロホン1と、検索内容に係わる語彙
として、例えば地名などの文字列が格納された認識語彙
データベース2と、この認識語彙データベース2を記憶
するCD−ROMやDVDあるいはメモリなどの記憶媒
体3と、認識処理に必要な語彙データ例えば地名におけ
る指定した市区町村名の中にある大字名の文字列データ
を認識語彙データベース2から抽出する認識語彙抽出部
4と、認識語彙データベース2から抽出した大字名の文
字列データのデータ容量を示す総文字数を測定する抽出
データ容量測定部43と、抽出データ容量測定部43が
測定した総文字数と判定しきい値の比較結果に応じて、
生成する音声認識辞書を切り替える使用辞書判定部42
と、現在のシステムの状態情報例えば他の優先順位の高
い処理が実行中であるか、またはナビゲーションを搭載
した車両が走行中であるかなどの情報により、使用辞書
判定部42の判定しきい値の値を例えば5000から1
0000に変更する判定しきい値変更部44と、使用辞
書判定部42により判定された結果に基づき、抽出部4
により抽出された語彙を制限方式となる音声認識辞書構
成に変換する認識辞書生成部51と、抽出部4により
抽出された語彙を非制限方式となる音声認識辞書構成に
変換する認識辞書生成部52と、認識辞書生成部5
1、認識辞書生成部52により音声認識可能な形態に
変換された音声認識辞書を格納する音声認識辞書RAM
6と、マイクロホン1からの音声による入力信号を分析
し、音声認識辞書RAM6の内容の語彙との一致度をみ
ることによって入力語を認識する認識処理部7と、認識
処理部7の出力結果K1により、実際の場所の地図を検
索するナビゲーション処理部8と、ナビゲーション処理
部8により生成された画面を表示する表示部9と、音声
認識の認識結果を出力するための合成音声を生成する音
声合成処理部10と、音声合成処理部10にて生成され
た音声を出力するためのスピーカ11と、ナビゲーショ
ン装置を操作する操作部12とからなっている。
【0032】図11は、実施の形態3における処理の手
順を示すフローチャートである。まずステップU1にお
いて、オペレータが例えば操作部12に存在する音声認
識開始スイッチを押すことにより、ナビゲーション処理
部8は現在の状態から認識処理を行うべき語彙データの
種類を判断し、認識語彙抽出部4に対して抽出開始命令
を発行し、認識語彙抽出部4が、認識すべき対象の認識
語彙データを認識語彙データベース2から抽出する。ス
テップU2において、認識語彙抽出部4が抽出した語彙
データのデータ容量である総文字数を抽出データ容量測
定部43が測定する。ステップU3において、判定しき
い値変更部44、現在のシステムの状態情報、例えばメ
モリの空き状態や、優先順位の高い他処理の実行状態、
あるいはナビゲーションを搭載した車両の走行状態など
の情報を基に使用辞書判定郡42の判定しきい値を変更
する。ステップU4において、使用辞書判定部42が、
抽出データ容量測定部43の測定したデータ容量である
総文字数が、現在のシステムの状態情報を基に判定しき
い値変更部44が変更した判定しきい値以上であるかを
判定し、判定しきい値よりも小さい場合はステップU5
に分岐し、判定しきい値以上の場合はステップU6に分
岐する。
【0033】ステップU5において、認識辞書生成部
51が認識語彙抽出部4の抽出した語彙データより音声
認識辞書を生成し、音声認識辞書RAM6に格納す
る。ステップU6において、認識辞書生成部52が認
識語彙抽出部4の抽出した語彙データより音声認識辞書
を生成し、音声認識辞書RAM6に格納する。ステッ
プU7において、オペレータが発声した音声をマイクロ
ホン1にて入力し、その音声信号を認識処理部7に出力
する。認識処理部7は、入力された音声信号を分析し、
入力された音声の特徴パラメータを生成し、生成された
特徴パラメータとステップU5、ステップU6で生成し
た音声認識辞書を格納した音声認識辞書RAM6の内容
とをパターンマッチングする。ステップU8において、
パターンマッチングの結果、一定以上の一致度をもつ認
識結果が存在しない場合はステップU7に戻り、一定以
上の一致度をもつ認識結果が存在する場合はステップU
9に進む。ステップU9において、認識処理部7の出力
した認識結果を基に、ナビゲーション処理部8が、地図
データ記憶媒体を参照し、実際の場所を表示部9にて表
示し、音声出力処理部10にて認識結果を音声信号に変
換し、スピーカ11から出力する。
【0034】以上のような構成の音声認識装置において
は、システムの現在の状態、例えばメモリの空き状態や
優先順位の高い他処理の実行状態またはナビゲーション
を搭載した車両の走行状態などの情報を基に使用認識辞
書判定しきい値を変更することにより、認識処理にかか
るメモリ容量を現在の状態情報により制限することが可
能となり、例えばナビゲーション処理などの他処理を実
行中に音声認識処理を実行した場合において、使用メモ
リ容量の少ない認識処理に切り替えることが可能とな
る。これにより、他のアプリケーションと協調したシス
テムの実現が可能となる。また、実施の形態2と同様の
効果が得られる。
【0035】
【発明の効果】以上のようにこの発明によれば、語彙抽
出部が抽出した語彙に対して所定情報測定部が測定し、
所定情報測定結果に基づき認識辞書生成手段を切り替
え、認識処理を行うことにより、認識辞書データの語彙
数を制限することなく認識処理を行うことが可能とな
り、なおかつ膨大なメモリを必要としないので、検索性
能を低下させることなく低コストの音声認識装置を得る
ことが可能となる。
【0036】また、語彙数により認識辞書生成手段を切
り替え、認識処理を行うことにより、認識結果出力まで
の時間を一定とすることが可能となるので、認識結果出
力応答待ち時間の遅延などによる使用者への負担を軽減
することが可能となる。
【0037】また、抽出されたデータの容量により認識
辞書生成手段を切り替え、認識処理を行うことにより、
認識処理に必要となるメモリ容量の上限を設定すること
が可能となるので、認識装置のメモリ容量を抑えること
が出来、製品コストの上昇を防ぐことが可能となる。
【0038】また、システム情報測定部が測定した現在
の測定情報を基に、判定しきい値変更部が所定情報判定
部の判定しきい値を変更することにより、例えば現在の
システムの空きメモリ容量により所定情報判定部の判定
しきい値を変更することにより、音声認識処理に使用す
るメモリ容量を動的に制限することが可能となるので、
限られたメモリ容量において他処理との共存が可能とな
る。
【0039】また、音声認識による大字名の認識処理に
おいて、大字名の語彙数により認識処理方式を切り替え
ることにより、使用者の認識結果待ち時間が短縮され、
利便性が向上し、なおかつ大字名の語彙情報を制限する
必要がなく、検索機能および認識率が向上し、なおかつ
認識処理に使用する記憶装置の容量は殆ど増加しないた
め、製品コストの上昇を抑えることができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声認識装置
の構成を示すブロック図である。
【図2】 図1における辞書生成部により生成される
音声認識辞書の構成を示す図である。
【図3】 図1における辞書生成部により生成される
音声認識辞書の構成を示す図である。
【図4】 音声認識辞書と音声認識辞書の特徴をま
とめた図である。
【図5】 図4における音声認識辞書と音声認識辞書
の語彙数に対する認識処理用メモリ容量を比較した図
である。
【図6】 図4における音声認識辞書と音声認識辞書
の語彙数に対する認識結果応答時間を比較した図であ
る。
【図7】 実施の形態1における処理手順を説明するフ
ローチャートである。
【図8】 この発明の実施の形態2に係る音声認識装置
の構成を示すブロック図である。
【図9】 実施の形態2における処理手順を説明するフ
ローチャートである。
【図10】 この発明の実施の形態3に係る音声認識装
置の構成を示すブロック図である。
【図11】 実施の形態3における処理手順を説明する
フローチャートである。
【図12】 従来の音声認識装置の構成を示すブロック
図である。
【図13】 従来の音声認識装置における住所検索の検
索手順を説明するフローチヤートである。
【符号の説明】
1 マイクロホン、 2 認識語彙デー
タベース、3 記憶媒体、 4 認
識語彙抽出部、6 音声認識辞書RAM、 7
認識処理部、8 ナビゲーション処理部、 9
表示部、10 音声合成処理部、 11
スピーカ、12 操作部、 41
抽出データ語彙数カウント部、42 使用辞書判定部、
43 抽出データ容量測定部、44 判定
しきい値変更部、 51 認識辞書生成部、5
2 認識辞書生成部、 K1 認識結果。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G01S 5/14 G10L 3/00 561B G01S 5/14 Fターム(参考) 2C032 HB05 HC16 2F029 AA02 AC13 AC14 AC18 5D015 GG01 GG04 HH12 KK01 LL03 5J062 AA05 BB01 CC11 HH05 9A001 BB06 EE02 HH15 HH17 HH18 HH21 JJ01 JJ11 JJ77

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 大規模な認識語彙データベース内から必
    要な語彙だけを抽出し音声認識処理可能な辞書データ構
    成に変換する音声認識装置において、認識処理対象とな
    る語彙を大規模な認識語彙データベースから抽出する語
    彙抽出部と、この語彙抽出部により抽出した語彙のデー
    タ量を測定する所定情報測定部と、上記語彙抽出部が抽
    出した語彙を音声認識辞書データに変換する複数の認識
    辞書生成部と、これら認識辞書生成部により生成された
    複数の音声認識辞書を上記所定情報測定部により測定さ
    れた所定情報に応じて切り替える使用辞書判定部と、上
    記音声認識辞書のデータと入力音声とを照合する認識処
    理部とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】 所定情報測定部は、語彙抽出部が抽出し
    た語彙の数を測定するようにしたことを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】 所定情報測定部は、語彙抽出部が抽出し
    た語彙のデータ容量を測定するようにしたことを特徴と
    する請求項1記載の音声認識装置。
  4. 【請求項4】 音声認識処理部の出力が、地図表示およ
    び音声表示を制御するナビゲーション処理部に供給され
    るようになされていることを特徴とする請求項1乃至請
    求項3のいずれか一項記載の音声認識装置。
  5. 【請求項5】 辞書生成部切り替えの基準となる判定部
    の判定しきい値が、現在の装置全体の状態に応じて変更
    可能になされていることを特徴とする請求項1乃至請求
    項4のいずれか一項記載の音声認識装置。
JP11112775A 1999-04-20 1999-04-20 音声認識装置 Pending JP2000305595A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11112775A JP2000305595A (ja) 1999-04-20 1999-04-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11112775A JP2000305595A (ja) 1999-04-20 1999-04-20 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000305595A true JP2000305595A (ja) 2000-11-02

Family

ID=14595199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11112775A Pending JP2000305595A (ja) 1999-04-20 1999-04-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000305595A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015687A (ja) * 2001-06-29 2003-01-17 Clarion Co Ltd ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
JP2011215175A (ja) * 2010-03-31 2011-10-27 Alpine Electronics Inc 車載用電子装置およびその音楽データの音声認識辞書生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015687A (ja) * 2001-06-29 2003-01-17 Clarion Co Ltd ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
JP4727852B2 (ja) * 2001-06-29 2011-07-20 クラリオン株式会社 ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
JP2011215175A (ja) * 2010-03-31 2011-10-27 Alpine Electronics Inc 車載用電子装置およびその音楽データの音声認識辞書生成方法

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US6961706B2 (en) Speech recognition method and apparatus
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
JP4116233B2 (ja) 音声認識装置ならびにその方法
KR101526918B1 (ko) 다언어 이국 음성 인식
JP2002006878A (ja) 音声フレーズ認識方法及び音声認識装置
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
US20080262843A1 (en) Speech recognition apparatus and method
US8306820B2 (en) Method for speech recognition using partitioned vocabulary
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US20040015356A1 (en) Voice recognition apparatus
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
US20040015354A1 (en) Voice recognition system allowing different number-reading manners
JP2000305595A (ja) 音声認識装置
JP3830124B2 (ja) 音声認識装置
KR101063159B1 (ko) 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JPH1063288A (ja) 音声認識装置
JP2001092493A (ja) 音声認識修正方式
JPH11325946A (ja) 車載用ナビゲーション装置
JP2001306088A (ja) 音声認識装置及び処理システム