JPH0869297A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0869297A
JPH0869297A JP22882594A JP22882594A JPH0869297A JP H0869297 A JPH0869297 A JP H0869297A JP 22882594 A JP22882594 A JP 22882594A JP 22882594 A JP22882594 A JP 22882594A JP H0869297 A JPH0869297 A JP H0869297A
Authority
JP
Japan
Prior art keywords
voice
dictionary
pattern
input
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP22882594A
Other languages
English (en)
Inventor
Seiichi Suzuki
誠一 鈴木
Shoji Yokoyama
昭二 横山
Hiroyuki Yamakawa
博幸 山川
Yumi Murakami
ユミ 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Equos Research Co Ltd
Original Assignee
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Equos Research Co Ltd filed Critical Equos Research Co Ltd
Priority to JP22882594A priority Critical patent/JPH0869297A/ja
Publication of JPH0869297A publication Critical patent/JPH0869297A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 不特定話者辞書と特定話者辞書に基づいて入
力音声を認識する場合、音声の認識率をより向上するこ
とが可能な音声認識装置を提供する。 【構成】 音声認識装置は、不特定話者辞書131と、
特定話者辞書132および学習分登録エリア133から
なる音声認識辞書13を備えている。そして、特定話者
辞書132に学習済みの単語パターンを登録する場合、
その単語パターンと不特定話者辞書131に格納されて
いる同一単語の単語パターンとの異なる部分(増減部
分)を学習分データとして、学習分登録エリア133に
登録しておく。そして、音声認識時には、音声判定部1
2において、不特定話者辞書131の各単語パターン
に、学習分データを加えた新たな総合辞書を作成する。
この総合辞書の新たな単語パターンの各々と、マイク1
1からの入力音声の単語パターンとの類似度から入力さ
れた音声を特定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に係り、詳
細には、不特定話者辞書と特定話者辞書の双方を用いて
入力された音声を特定する音声認識装置に関する。
【0002】
【従来の技術】人間の話した音声を言葉として認識する
音声認識装置が各種方面で実用化されている。この音声
認識装置は、例えば、工場における各種装置に対する指
示をはなれた場所から音声で指示する入力装置として実
用化されており、また、自動車のナビゲーション装置に
おいて目的地や指示情報等を音声入力する場合の音声入
力装置として用いることが考えられている。このような
音声認識装置では、一般に入力された音声を特定するた
めに、予め認識対象となる音声の周波数分布を分析する
ことで、例えば、スペクトルや基本周波数の時系列情報
等を特徴として抽出し、そのパターンを各単語に対応さ
せて格納する音声認識用辞書を備えている。この音声認
識辞書に格納される辞書としては、一般に、不特定多数
の話者を対象とした音声の周波数分布に対して平均化処
理を行ったものをパターン(以下、標準パターンとす
る)化し、そのパターンを単語と共に登録する不特定話
者辞書及び、特定の話者を対象に入力音声のパターンを
単語と共に登録する特定話者辞書がある。
【0003】そして、認識すべき音声が入力されると、
入力された音声の周波数分布パターンと両辞書に格納さ
れた各単語のパターンとを、パターンマッチングにより
比較照合し、各単語に対する類似度を算出する。次に、
算出された類似度が最も高い単語(パターンが最も近い
単語)を、入力された音声であると認識し、その単語を
出力するようにしている。つまり、入力された単語の周
波数分布のパターンが、どの単語のパターンに最もよく
似ているかを調べることによって、入力音声を判定して
いる。
【0004】図7は、このような音声認識の方法を概念
的に表したものである。いま認識対象となる単語として
「いち」、「はち」、および「しち」があるものとし、
図7(a)は不特定話者辞書に格納された各音声に対す
る周波数分布のパターンを概念的に表したものである。
そして、特定話者辞書には、図7(b)に示すように、
特定話者辞書を基にして作成された特定話者、例えば甲
に対する学習済みの単語(いち)のパターンと、未学習
の単語「はち」と「しち」のパターンが格納されてい
る。ここで、不特定話者辞書に格納された単語について
はカギカッコ「」で表し、特定話者辞書に格納された学
習済みの単語についてはカッコ()で表すものとする。
なお、特定話者辞書は、各単語毎に不特定話者辞書を基
にしてパターンを作成するため、未学習単語のパターン
は不特定話者辞書の単語パターンと同一になっている。
【0005】ここで、特定話者甲によって音声“いち”
が入力されると、入力音声についての周波数分布を分析
して、図7(c)に示すように、入力された音声データ
のパターンを作成する。そして、不特定話者辞書と特定
話者辞書に格納されている各単語のパターンとの類似度
を算出する。すなわち、(c)のパターンと不特定話者
辞書(a)のパターン「いち」と比較した場合、A、
B、C、D、a、c、d、eの8箇所が一致するため、
一致箇所を1点として計算すると、類似度が8点とな
る。同様にして、不特定話者辞書(a)と特定話者辞書
(b)に格納された各単語に対して算出した類似度を表
にまとめたものが図7(d)である。この場合、特定話
者辞書は、音声を入力した特定話者甲の音声に基づいて
作成されているので、当然に、特定話者辞書(b)のパ
ターン(いち)との類似度が10点で最も高く、音声認
識装置としては、この単語(いち)が入力されたものと
して特定される。同様に、特定話者甲によって入力され
た音声“はち”のパターンが図7(e)である場合、不
特定話者辞書(a)と特定話者辞書(b)の各単語のパ
ターンとの類似度をあらわしたものが図7(f)であ
る。この場合にも、最も類似度の高い「はち」が入力さ
れたものとして特定される。
【0006】
【発明が解決しようとする課題】しかし、この不特定話
者辞書と特定話者辞書の双方に格納された単語パターン
と入力音声パターンとを比較し、最も類似度の高い単語
を入力音声として認識する方式では、話者による入力音
声の単語パターンが辞書のパターンと一部一致する場合
と、全体が略一致する場合がある。この結果、類似度の
近似する単語が2つ以上存在する可能性があり、どちら
が認識されるべき単語かを判定することができない場合
が存在する。
【0007】図8は、このような、類似度が近似するた
めに明確に1単語を特定することができない場合につい
て表したものである。図8では、学習済み単語(いち)
のパターンが特定話者辞書(b)のようである場合、
(c)に示す入力音声パターン“いち”に対して類似度
を算出すると(d)のようになり、類似度が8点で最も
点数が高い(いち)が入力音声として特定される。しか
し、図8(e)に示す入力音声パターン“はち”に対す
る類似度を算出すると(f)のようになり、不特定話者
辞書(a)の「はち」の類似度が最高点の8点である
が、特定話者辞書(b)の(いち)の類似度も8点とな
るため、どちらの単語が入力音声であるかを特定するこ
とができない。これは、入力音声とは異なる単語であっ
ても、特定話者辞書がその特定話者の音声から作成され
ているので、単語の一部が一致しているために辞書単語
パターンの対応する一部分が完全に一致する場合がある
ためである。(e)のパターンの場合、特定話者辞書の
単語(いち)とa〜eが完全一致している。
【0008】このように、不特定話者辞書と特定話者辞
書に基づいて入力音声との類似度から入力音声を認識す
る従来の音声認識装置では、類似度が同じまたは極めて
近似するため、1単語に特定できない場合があった。ま
た、学習などによって一部の単語についての特定話者辞
書が存在している場合に、特定話者辞書にない音声が入
力されると、その音声に対応する不特定話者辞書の類似
度よりも、特定話者辞書の類似度の方が高くなってしま
い、誤認識となる場合があった。
【0009】そこで本発明は、このような従来の音声認
識装置の課題を解決するためになされたもので、不特定
話者辞書と特定話者辞書に基づいて入力音声を認識する
場合、音声の認識率をより向上することが可能な音声認
識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】請求項1記載の発明で
は、複数の不特定話者の音声の特徴に対応した標準パタ
ーンが格納された不特定話者辞書と、特定話者の音声の
特徴に対応する単語パターンを登録する特定話者辞書
と、この特定話者辞書に登録されている音声の単語パタ
ーンと、前記不特定話者辞書の対応する音声の標準パタ
ーンとを比較して、異なる部分を学習分データとして記
憶する学習分記憶手段と、この学習分記憶手段によって
記憶された学習分データを前記不特定話者辞書に格納さ
れている標準パターンに加えた新パターンからなる総合
辞書を作成する総合辞書作成手段と、音声を入力する音
声入力手段と、この音声入力手段で入力された音声の特
徴を抽出して対応する入力単語パターンを作成する入力
単語パターン作成手段と、この入力単語パターン作成手
段で作成された入力単語パターンと、前記総合辞書作成
手段で作成された新パターンとの類似度を算出する類似
度算出手段と、この類似度算出手段で算出された各新パ
ターンに対する類似度から、最も類似度の高いものを入
力された音声として認識する認識手段と、この認識手段
によって得られた認識結果を出力する出力手段、とを音
声認識装置に具備させて前記目的を達成する。請求項2
記載の発明では、請求項1記載の音声認識装置におい
て、前記総合辞書作成手段で作成する新パターンと、入
力単語パターン作成手段で作成する入力単語パターン
を、前記不特定話者辞書の表示パターンと同一の方法で
パターン化する。請求項3記載の発明では、請求項1記
載の音声認識装置において、認識手段は、各新パターン
に対する類似度から、最も類似度の高いものを入力され
た音声とし認識する。請求項4記載の発明では、請求項
1記載の音声認識装置において、認識手段は、各新パタ
ーンに対する類似度と、前記不特定話者辞書の各標準パ
ターンに対する類似度との変動量から入力された音声を
認識する。請求項5記載の発明では、請求項1または請
求項2記載の音声認識装置において、音声認識装置をナ
ビゲーション装置の音声入力装置として用いる。
【0011】
【作用】本発明は、特定話者に登録された単語におい
て、特定話者辞書と不特定話者辞書のそれぞれパターン
とを比較照合し、異なる部分を学習分として記憶する。
学習分は不特定話者辞書に加えられ、新しく総合辞書が
作成される。特定話者を対象に行われた入力単語パター
ンと新しく作成された総合辞書の新パターンとを比較照
合して、類似度を算出し、この類似度から入力単語を認
識する。
【0012】
【実施例】以下、本発明の音声認識装置における一実施
例を図1ないし図6を参照して詳細に説明する。図1
は、音声認識装置の構成を表したものである。この図に
示すように、音声認識装置は、音声を入力するマイク1
1と、このマイクから入力された音声の判定を行う音声
判定部12および、音声判定に使用される音声認識辞書
13を備えている。音声判定部12は、マイク11から
入力されるアナログの音声信号をディジタル信号に変換
するA/D変換器121と、ディジタル信号に変換され
た音声信号から入力音声のパターンを作成するパターン
作成部122を備えている。パターン作成部122は、
音声の周波数分布を分析することで、例えば、スペクト
ルや基本周波数の時系列情報を特徴として抽出し、その
パターンを入力音声の単語ラターンとする。また、時系
列情報を統計的特徴(平均、標準偏差、相関行列など)
に変換した情報を特徴としてもよい。さらに、パワース
ペクトル、LPC係数、ケプストラムを特徴としてもよ
い。音声判定部12は、さらに、このパターン作成部1
22で作成されたパターンと音声認識辞書13に格納さ
れた各単語のパターンとのパターンマッチングを行って
類似度を算出するパターンマッチング部123と、算出
された類似度から入力音声の単語を特定し、対応する信
号を出力する単語判定部124とを備えている。
【0013】この音声判定部12は、図示しないCPU
(中央処理装置)、DSP(ディジタル・シグナル・プ
ロセッサ)、ROM(リード・オンリ・メモリ)、RA
M(ランダム・アクセス・メモリ)等を備え、CPUが
RAMをワーキングエリアとしてROMに格納されたプ
ログラムを実行することによって、上記の各構成を実現
するようになっている。図示しないRAMには、パター
ンマッチング部123で算出した類似度を格納する類似
度エリアや、不特定話者辞書と特定話者辞書の学習分デ
ータとから新たに作成した総合辞書の各単語パターンを
格納する総合辞書エリア等の各種エリアが確保されてい
る。
【0014】音声認識辞書13には、認識対象となる各
単語についてのパターンが格納された不特定話者辞書1
31と、上記各単語に対する特定話者による学習済みの
単語パターンが格納された特定話者辞書132と、学習
分登録エリア133とを備えている。学習分登録エリア
133には、特定話者辞書132に格納された学習済み
の単語パターンと、その単語に対する不特定話者辞書に
格納されたパターンとを比較して異なっている部分が、
学習分として各単語パターン毎に登録されるようになっ
ている。特定話者辞書132に格納される単語パターン
と、学習分登録エリア133に登録される学習分は、特
定話者が音声入力を行う度に、新しいデータに書き換え
られるようになっている。
【0015】次に、このように構成された実施例の動作
について説明する。本実施例では、特定話者辞書に学習
済みの単語パターンを登録する場合、その単語パターン
と不特定話者辞書に格納されている同一単語の単語パタ
ーンとの異なる部分(増減部分)を学習分データとす
る。そして、音声認識時に、不特定話者辞書に格納され
た各単語パターンにこの学習分を加えた新たな総合辞書
を作成し、この総合辞書と特定話者辞書の各単語パター
ンと、入力音声の単語パターンとの類似度から入力され
た音声を特定する。
【0016】図2は、学習分データの作成と、総合辞書
の作成の方法について概念的に表したもので、不特定話
者辞書、特定話者辞書、入力音声1、入力音声2は、図
8に示したものと同じものである。図2(A)に示すよ
うに、特定話者辞書の単語パターン(いち)が学習済み
である場合、対応する不特定話者辞書の単語パターン
「いち」との差をとることで学習分データ〔いち〕を作
成する。学習分データのうち増加箇所は左下がりの斜線
で示し、減少箇所は右下がりの斜線で示すこととし、図
2(A)の学習分データ〔いち〕ではCが増加箇所
(+)で、bが減少箇所(−)である。そして、図2
(B)に示すように、この学習分データ〔いち〕を不特
定話者辞書の各単語「いち」、「はち」、「しち」に加
えることで、新たに『いち』、『はち』、『しち』から
なる総合辞書を作成する。
【0017】いま、図2(C)に示すように、音声“い
ち”が入力された場合、その単語パターンと、不特定話
者辞書、特定話者辞書の各単語パターンとの類似度は、
特定話者辞書の単語パターン(いち)が10点で最も高
いので、(いち)を入力された音声であるとして特定す
る。これは図8の(c)(d)と同様である。次に、図
2(D)に示すように、音声“はち”が入力された場
合、図8(e)(f)と同様に、不特定話者辞書と特定
話者辞書の各単語パターンとの類似度だけの場合には
(いち)と(はち)が共に8点になり、いずれかの単語
を特定することができない。そこで、図2(A)で説明
したように不特定話者辞書と学習分とから新たに総合辞
書を作成し、総合辞書の各単語パターン『いち』、『は
ち』、『しち』の類似度のなかで、9点と最も類似度の
高い『はち』が入力音声であると特定される。
【0018】このように、不特定話者辞書の単語パター
ンと特定話者辞書の単語パターンの差から学習分を予め
登録しておき、この学習分を不特定話者辞書の各単語パ
ターンに加えることで新たな総合辞書を作成し、総合辞
書の各単語パターンと入力音声の単語パターンとの類似
度から音声認識を行うことで、図8に示す従来の方法で
は特定ができない場合でも、より正確に音声認識を行う
ことができるようになる。
【0019】次に、特定話者辞書の学習済み単語パター
ンが複数ある場合として、学習済み単語パターンが2つ
の場合の例を図3、図4を参照して説明する。図3
(A)は音声認識辞書13の不特定話者辞書と、特定話
者辞書、および学習データを表したものである。この図
に示すように、不特定話者辞書内容は図8(a)と同一
である。そして学習済みの特定話者辞書の単語パターン
として、図2と同一の単語パターン(いち)とその学習
分データ〔いち〕、および、新たに学習された単語パタ
ーン(しち)とその学習分データ〔しち〕が登録されて
いる。いま、図3(B)に示すように、単語パターン
“いち”の音声が入力されると、これと(A)の不特定
話者辞書および特定話者辞書の各単語場合との類似度を
算出すると、表に示すように、特定話者辞書の単語パタ
ーン(いち)が最も高いので直ちに(いち)が入力音声
であると認識される。
【0020】一方、図4(A)に示すように、学習済み
の単語として特定話者辞書に登録されていない音声であ
る単語パターン“はち”の音声が入力されたものとす
る。この場合、単語パターン“はち”の後半の一部a、
b、c、d、eが、特定話者辞書の単語パターン(い
ち)と完全に一致しているため、不特定話者辞書の単語
パターン「はち」と同一の類似度8点になってしまい、
判定ができない。そこで、図4(B)、(C)に示すよ
うに、各不特定話者辞書の単語パターンと学習分〔い
ち〕とから総合辞書〔いち〕を作成すると共に、学習分
〔しち〕とからも総合辞書〔しち〕を作成する。そし
て、この両総合辞書の各単語パターンと入力音声の単語
パターン“はち”との類似度を算出すると、図4(D)
に示すようになり、『はち』が9点で最も類似度が高い
ため、『はち』を入力音声と認識する。なお、図4
(D)の表において、カッコ内の数字は、図4(A)の
不特定話者辞書に対する類似度との変動数を表したもの
であり、後述する第2の音声認識動作において使用する
ものである。
【0021】次に、本実施例による音声認識の詳細な動
作について図5を参照して説明する。音声判定部12
は、マイク11から音声が入力されたか否かを監視し、
音声入力があると(ステップ11;Y)、入力されたア
ナログの音声信号をA/D変換器121でディジタル信
号に変換した後、パターン作成部122で入力音声の単
語パターンを作成する(ステップ12)。そして、パタ
ーンマッチング部123は、この入力音声の単語パター
ンと、不特定話者辞書131および学習済みの特定話者
辞書の各単語パターンとを順次パターンマッチングによ
り対比させ、各単語パターンとの類似度を算出する(ス
テップ13)。
【0022】次に、パターンマッチング部123は、両
辞書の各単語パターンに対する類似度の大きさから第1
候補の単語と第2候補の単語を選択し、両者の類似度の
差が所定のしきい値以上であるか否かを判断する(ステ
ップ14)。例えば、音声“デパート”が入力され、第
1候補として「デパート」があげられて類似度が300
点、第2候補として「ホテル」があげられて類似度が1
50点である場合、類似度の差が150点となる。ここ
での所定のしきい値が100点である場合には、類似度
の差150点はこのしきい値以上なので(ステップ1
4;Y)、入力された音声は第1候補の「デパート」で
あると特定され、特定された単語に対応する出力信号が
単語判定部から出力される(ステップ15)。
【0023】しかし、第1候補が類似度300点の「デ
パート」であり、第2候補が280点の「アパート」で
ある場合、類似度の差20点はしきい値よりも小さいの
で(ステップ14;N)、パターンマッチング部123
は、不特定話者辞書131の各単語パターンに、学習分
登録エリア133の各学習分データを加えた新たな単語
パターンからなる総合辞書を作成して図示しないRAM
の総合辞書エリアに格納する(ステップ16)。そし
て、総合辞書の各単語パターンと入力音声の単語パター
ンとの類似度を算出し(ステップ17)、第1候補と第
2候補の類似度の差が所定のしきい値以上であるか否か
を判断し(ステップ18)、しきい値以上であれば、
(ステップ18;Y)、ステップ15に移行し、第1候
補の単語を入力音声であると特定し対応する出力信号が
単語判定部124から出力される。一方、ステップ18
において総合辞書から求めた第1候補と第2候補の類似
度の差がしきい値よりも小さい場合、音声の再入力を求
めるメッセージを出力して(ステップ19)、ステップ
11に戻る。
【0024】ステップ15において、特定された単語の
出力信号が出力されると、次に、特定話者辞書、および
学習分データを更新して(ステップ20)、メインルー
チンにリターンする。
【0025】なお、以上説明した動作では、ステップ1
6において、不特定話者辞書の全単語パターンに対して
の総合辞書を作成し、その後ステップ17で新たな単語
パターンの各々との類似度を算出したが、不特定話者辞
書の各単語パターンから新たな単語パターンを1つ作成
する毎に入力音声の単語パターンとの類似度を算出する
ようにしてもよい。また、ステップ14、18における
しきい値として、100点を例に説明したが、本発明で
はこの値に限定されるものではなく、他の任意の値に設
定することが可能である。
【0026】次に、音声認識の第2の動作について説明
する。この第2の動作では、前記した第1の動作と同様
に、特定話者辞書の各単語パターンに学習分を加えて総
合辞書を作成し、この新たな単語パターンとの類似度を
算出する。そして、総合辞書から算出した各類似度と、
学習分を追加する前の不特定話者辞書から算出した各類
似度との差を求める。例えば、図4において、入力音声
“はち”と、学習分〔いち〕から作成した総合辞書『い
ち』との類似度が(D)に示すように8点で、不特定話
者辞書の単語パターン「いち」との類似度が(A)に示
すように6点の場合、類似度の差は8点−6点=+2点
となる。図4(D)のカッコ内の数字が、この類似度の
差を表している。
【0027】そして、各学習分から作成した総合辞書に
おける類似度の差同士を減算し、その絶対値を求める。
すなわち、『いち』の場合、学習分〔いち〕で作成した
単語パターンによる類似度の差(+2)から、学習分
〔しち〕で作成した単語パターンによる類似度の差(+
1)を減算して、その絶対値(変動数)を求める。図4
(D)の各単語の変動数の絶対値を求めると次のように
なる。 『いち』=|(+2)−(+1)|=1 『はち』=|(+1)−(+1)|=0 『しち』=|(+2)−( 0)|=2 以上の各計算の結果のうち、変動数が最も小さい値0と
なる『はち』を入力音声であると認識する。
【0028】なお、学習分データがn個(n≧3)ある
場合には、類似度の差もn個になる。この場合には、n
個のなかから2個の類似度の差をとり、一方から他方を
引いた値の絶対値を求める。全ての組み合わせについて
の絶対値の合計値(変動数)が最も小さいものを入力音
声と認識する。例えば、『いち』についての類似度の差
がX1、X2、X3である場合、類似度は|X1−X2
|+|X2−X3|+|X3−X1|により算出する。
【0029】次に、本実施例の応用例として、音声認識
装置を用いたナビゲーション装置について説明する。図
6は、ナビゲーション装置の構成を表したものである。
この図6に示すように、ナビゲーション装置は、図1は
本発明の一実施例に係る音声認識装置を音声入力装置と
して用いたナビゲーション装置の構成を示すブロック図
である。このナビゲーション装置は、演算部20を備
え、この演算部20には、タッチパネルとして機能する
ディスプレイ21aやその周囲に配置された操作用スイ
ッチ21bを有する表示部21と、この表示部21のタ
ッチパネルやスイッチ21bからの入力を管理するスイ
ッチ入力類管理部22と、現在位置測定部23と、地図
情報記憶部25と、音声認識部26と、音声出力部27
とが接続されている。
【0030】現在位置測定部23は、緯度と経度による
座標データを検出することで、車両が現在走行または停
止している現在位置を検出する。この現在位置測定部2
3は、人工衛星を利用して車両の位置を測定するGPS
(Global Position System)レシーバと、路上に配置され
たビーコンからの位置情報を受信するビーコン受信装置
と、方位センサと、距離センサを備えており、これらか
らの情報を用いて車両の現在位置を測定するようになっ
ている。
【0031】音声認識部26は、本実施例の音声認識装
置が使用され、マイク11、音声判定部12、および音
声認識辞書13を備えている。音声出力部27は、音声
を電気信号として出力する音声出力用ICと、この音声
出力用ICの出力を増幅するアンプと、このアンプの出
力をディジタル−アナログ変換するD/Aコンバータと
を備えている。D/Aコンバータの出力端子にはスピー
カ29が接続されている。
【0032】演算部20は、地図情報記憶部25に接続
された地図データ読込部31と、地図描画部32と、地
図データ読込部31および地図描画部32を管理する地
図管理部33と、地図描画部32および表示部21に接
続された画面管理部34と、スイッチ入力類管理部22
および音声認識部26に接続された入力管理部35と、
音声出力部27に接続された音声出力管理部36と、地
図管理部33、画面管理部34、入力管理部35および
音声出力管理部36を管理する全体管理部37とを備え
ている。この演算部20は、CPU(中央処理装置)、
ROM(リード・オンリ・メモリ)、RAM(ランダム
・アクセス・メモリ)等を備え、CPUがRAMをワー
キングエリアとしてROMに格納されたプログラムを実
行することによって、上記の各構成を実現するようにな
っている。
【0033】次に、このように構成されたナビゲーショ
ン装置の動作の概要について説明する。運転者は、ナビ
ゲーション装置が必要とする目的地等の情報を音声認識
部26のマイク11を用いて音声によって入力する。マ
イク11から音声によって入力された情報は、音声判定
部12において、図5で説明した音声認識動作により入
力音声が認識され、認識された音声に対応する出力信号
が、入力管理部35に入力される。このように、本実施
例の音声認識装置を使用することで、ナビゲーション装
置において煩雑であった目的地設定を容易に、かつ効率
よく行うことができる。なお、表示部21のタッチパネ
ルやスイッチ21bを用いて手によって目的地等の情報
が入力された場合には、スイッチ入力類管理部22を経
て入力管理部35に入力される。
【0034】演算部20は、運転者に対して目的地や経
路の選択等の情報の入力を促す場合、必要に応じて、画
面管理部34によって表示部21のディスプレイ21a
にメッセージを表示したり、音声出力管理部36によっ
て音声出力部27およびスピーカ29を用いて音声ガイ
ダンスを出力する。演算部20は、運転者によって入力
された目的地等の情報に基づいて目的地までの走行経路
を探索し、この走行経路に従って経路誘導を行う。この
経路誘導の際には、現在位置測定部23の測定結果を基
にして、地図管理部33が必要な地図データを地図デー
タ読込部31より入力し、地図描画部32を用いて地図
を描画し、画面管理部34によってディスプレイ21a
上に地図を表示する。また、この画面上に、走行経路や
車両の現在位置、進行方向を示す矢印等も表示する。更
に、音声出力部27およびスピーカ29から「次の交差
点を右折してください」といった音声を出力すること
で、音声による経路案内を行うようにしてもよい。
【0035】なお、ナビゲーション装置における音声認
識では、音声の認識対象となる各単語の単語パターンを
特定のグループに纏めて階層化して登録しておき、順次
音声認識により特定するようにしてもよい。例えば、地
名索引、自宅、現在地周辺、メモリ地点、全国地図、電
話番号、前回出発地点等の単語を最も大きな範囲認識対
象としする。そして、例えば音声により地名索引が入力
され、認識された場合には、その下の階層として、ゴル
フ場、名所、温泉、スキー場、神社、遊園地、キャン
プ、城、動物園等の各種地名が認識対象となる。更に、
例えば、ゴルフ場の次の階層には、都道府県名が認識対
象となり、その下の最終階層に東京都であれば、青梅G
C、大島GC、小金井CC等の各種ゴルフ場の名称が認
識対象となる。このように、階層化されたグループの中
から順次音声により目的となるデータを認識させること
で、音声の入力と認識回数が増加するが、1度の音声認
識の対象となる単語の範囲か狭くなるので、より確実に
認識することが可能になる。
【0036】
【発明の効果】以上説明したように、本発明によれば、
不特定話者辞書と特定話者辞書に基づいて入力音声を認
識する場合、音声の認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の構成
図である。
【図2】同上、実施例における学習分データの作成と、
総合辞書の作成の方法について概念的に表す説明図であ
る。
【図3】同上、実施例において、学習済み単語パターン
が複数ある場合の音声認識の方法を概念的に表す説明図
である。
【図4】同上、実施例において、総合辞書から音声認識
を行う場合の説明図である。
【図5】同上、実施例による音声認識動作を表したフロ
ーチャートである。
【図6】同上、実施例による音声認識装置をナビゲーシ
ョン装置に応用した場合の構成図である。
【図7】従来の音声認識方法を概念的に表す説明図であ
る。
【図8】従来の音声認識方法において、類似度が近似す
るために単語を特定できない場合を概念的に表した説明
図である。
【符号の説明】
11 マイク 12 音声判定部 121 A/D変換部 122 パターン作成部 123 パターンマッチング部 124 単語判定部 13 音声認識辞書 131 不特定話者辞書 132 特定話者辞書 133 学習分登録エリア
───────────────────────────────────────────────────── フロントページの続き (72)発明者 村上 ユミ 東京都千代田区外神田2丁目19番12号 株 式会社エクォス・リサーチ内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の不特定話者の音声の特徴に対応し
    た標準パターンが格納された不特定話者辞書と、 特定話者の音声の特徴に対応する単語パターンを登録す
    る特定話者辞書と、 この特定話者辞書に登録されている音声の単語パターン
    と、前記不特定話者辞書の対応する音声の標準パターン
    とを比較して、異なる部分を学習分データとして記憶す
    る学習分記憶手段と、 この学習分記憶手段によって記憶された学習分データを
    前記不特定話者辞書に格納されている標準パターンに加
    えた新パターンからなる総合辞書を作成する総合辞書作
    成手段と、 音声を入力する音声入力手段と、 この音声入力手段で入力された音声の特徴を抽出して対
    応する入力単語パターンを作成する入力単語パターン作
    成手段と、この入力単語パターン作成手段で作成された
    入力単語パターンと、前記総合辞書作成手段で作成され
    た新パターンとの類似度を算出する類似度算出手段と、 この類似度算出手段で算出された各新パターンに対する
    類似度から、入力された音声を認識する認識手段と、 この認識手段によって得られた認識結果を出力する出力
    手段とを具備することを特徴とする音声認識装置。
  2. 【請求項2】 前記総合辞書作成手段で作成する新パタ
    ーンと、入力単語パターン作成手段で作成する入力単語
    パターンを、前記不特定話者辞書の標準パターンと同一
    の方法でパターン化することを特徴とする請求項1記載
    の音声認識装置。
  3. 【請求項3】 認識手段は、各新パターンに対する類似
    度から、最も類似度の高いものを入力された音声とし認
    識することを特徴する請求項1記載の音声認識装置。
  4. 【請求項4】 認識手段は、各新パターンに対する類似
    度と、前記不特定話者辞書の各標準パターンに対する類
    似度との変動量から入力された音声を認識することを特
    徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 ナビゲーション装置の音声入力装置とし
    て用いたことを特徴とする請求項1または請求項2記載
    の音声認識装置。
JP22882594A 1994-08-30 1994-08-30 音声認識装置 Pending JPH0869297A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22882594A JPH0869297A (ja) 1994-08-30 1994-08-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22882594A JPH0869297A (ja) 1994-08-30 1994-08-30 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0869297A true JPH0869297A (ja) 1996-03-12

Family

ID=16882453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22882594A Pending JPH0869297A (ja) 1994-08-30 1994-08-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0869297A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
GB2422238A (en) * 2005-01-17 2006-07-19 Univ Hull Generation of data from speech or voiceless mouthed speech

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
GB2422238A (en) * 2005-01-17 2006-07-19 Univ Hull Generation of data from speech or voiceless mouthed speech

Similar Documents

Publication Publication Date Title
JP2644376B2 (ja) 車両用音声ナビゲーション方法
JP3749821B2 (ja) 歩行者用道案内システムおよび歩行者用道案内方法
US6480786B2 (en) Method and system for route guiding
US9076451B2 (en) Operating system and method of operating
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
CN109243461A (zh) 语音识别方法、装置、设备及存储介质
JP2010145262A (ja) ナビゲーション装置
JP2005214961A (ja) ナビゲーション装置、ナビゲーションシステムおよびナビゲーション方法
WO2005064275A1 (ja) ナビゲーション装置
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
JP2946269B2 (ja) 車載情報処理用音声認識装置
EP1024476A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor
JP3892338B2 (ja) 単語辞書登録装置および単語登録用プログラム
JPH0869297A (ja) 音声認識装置
JP5455355B2 (ja) 音声認識装置及びプログラム
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP3645104B2 (ja) 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JPH0926799A (ja) 音声認識装置
JPH1063288A (ja) 音声認識装置
JPH0844387A (ja) 音声認識装置
JPH1049194A (ja) 音声認識装置
JP4004885B2 (ja) 音声制御装置
JPH1049195A (ja) 音声認識装置
JP2005267092A (ja) 照応解析装置及びナビゲーション装置