JP3514481B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3514481B2
JP3514481B2 JP05554193A JP5554193A JP3514481B2 JP 3514481 B2 JP3514481 B2 JP 3514481B2 JP 05554193 A JP05554193 A JP 05554193A JP 5554193 A JP5554193 A JP 5554193A JP 3514481 B2 JP3514481 B2 JP 3514481B2
Authority
JP
Japan
Prior art keywords
voice pattern
input
dictionary
input voice
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05554193A
Other languages
English (en)
Other versions
JPH06266385A (ja
Inventor
良介 濱崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP05554193A priority Critical patent/JP3514481B2/ja
Publication of JPH06266385A publication Critical patent/JPH06266385A/ja
Application granted granted Critical
Publication of JP3514481B2 publication Critical patent/JP3514481B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に関し、特
に本発明は入力音声パターンで辞書を更新(再学習)す
る手段を持った音声認識装置関するものである。
【0002】
【従来の技術】登録型の音声認識装置においては、認識
装置を使用し始める前に、予め認識装置を使用する者が
自分の声の特徴を音声認識装置の辞書に登録しておく必
要がある。しかし、声の特徴は変化し易く、認識時の周
囲の環境や物理的・精神的な制限によって容易に変わり
うるだけでなく、時間の経過とともに変化してしまい、
同じ辞書を使い続けていると、次第に認識率が低下す
る。
【0003】従来は、これに対処するために、マルチ・
テンプレートの辞書に対して、認識時に正解だった場合
に、音響分析された入力パターンと距離が一番遠い正解
テンプレートを入れ換えることにより辞書の更新を行っ
ていた。図7は上記した従来の音声認識装置を示す図で
ある。同図において、1はマイクロフォン等により音声
を入力する音声入力手段、2はマイクロフォン等により
入力された音声信号に対して周波数分析等を行い音声と
しての特徴を抽出する音響分析手段、3は音響分析手段
2により分析された入力音声パターンと、予め分析され
辞書に登録されている各テンプレートとの照合を行い2
つのパターンがどのくらい似ているかを示す「類似
度」、もしくは、どのくらい離れているかを示す「距
離」を計算し(以下、これらをスコアという)、出力す
る音声パターン照合手段である。
【0004】また、4は予め認識対象が分析されたパタ
ーンを登録した辞書、5は音声パターン照合手段3から
出力された各テンプレートに対するスコアにしたがっ
て、ソートし、類似度が大きい順、もしくは、距離が小
さい順に一つまたは複数のテンプレート・ラベルを出力
する認識結果判定手段、6は音響分析手段2により分析
された入力音声パターンを一時的に保持しておく入力音
声パターン保持手段、7は入力音声パターンを辞書4に
登録したり、辞書4のテンプレートを削除する辞書更新
手段である。
【0005】同図において、音声入力手段1より入力さ
れた音声は音響分析手段2により分析されて特徴が抽出
され、音声パターン照合手段3に与えられるとともに、
入力音声パターン保持手段6に与えられ保持される。音
声パターン照合手段3は辞書4に登録されたテンプレー
トと入力音声の特徴パラメータとを照合し、それらの間
のスコアを求める。認識結果判定手段5はユーザからの
入力および音声パターン照合手段3が出力するスコアに
基づき入力音声を判定し、認識結果を出力する。
【0006】また、認識結果判定手段5の出力は辞書更
新手段7に与えられ、辞書更新手段7は認識結果が正解
であった場合に、辞書4に登録された距離が一番遠い正
解テンプレートと入力音声パターン保持手段6に保持さ
れた入力音声パターンとを入れ換えることにより辞書の
更新を行う。
【0007】
【発明が解決しようとする課題】ところで、上記した従
来の辞書更新方式においては、認識結果が正解であった
場合には、何らチェックが行われることなく入力音声パ
ターン保持手段6に保持された入力音声パターンと、正
認識カテゴリの距離が一番遠い正解テンプレートとが入
れ換えられる。
【0008】このため、偶然に入力音声パターンが歪む
などの不都合が生じている場合であっても、正認識の場
合には辞書が更新されてしまうという問題があった。ま
た、誤認識した場合でも、声質の変化による当然の結果
である場合もあるが、上記した従来の辞書更新方式にお
いては、このような場合に辞書の更新が行われず、初期
テンプレートに拘束され続けるという問題があった。
【0009】図8、図9は、声質が変化した場合におけ
る特徴パラメータ空間の概念図であり、図8、図9は3
つのカテゴリA,B,Cが存在する場合を示している。
図8、図9において、図8は辞書作成時のカテゴリの分
布、図9(a)(b)は声質の変動による分布が変動し
た場合を示し、○で囲んだところが各カテゴリが分布し
ている範囲であり、図8においては、その中に黒三角、
黒丸、黒四角のサンプルが存在しており、図9(a),
(b)においては、黒四角、黒丸で認識時の入力サンプ
ルが示されている。また、3つのカテゴリの境界は実線
で示されており、点線は声質の変化により境界線が移動
した様子を示している。
【0010】図8に示すように、辞書を作成した後しば
らくは、認識時の各カテゴリの分布状態と辞書のそれと
が、一致しているので、高い認識率を得ることができ
る。ここで、時間の経過とともに声質の変化等により、
図9(a),(b)に示すように実際の各カテゴリの分
布状態が変化したものと仮定する。なお、同図には、説
明の便宜上、カテゴリの分布が全体的に同じ方向に移動
したと仮定しているが、実際にはより複雑に変化してい
る。
【0011】各カテゴリの分布が移動することにより、
実際の各カテゴリの境界線は図9(a)、図9(b)に
示すように実線から点線に移っていく。さて図9(a)
において、黒四角で示すあるサンプルに注目してみる。
この入力サンプルは実はカテゴリC’であるとする。こ
の入力サンプルは時間経過後のカテゴリC’の分布から
かけ離れており、点線の境界により本来カテゴリBと判
定されるべきである。しかしながら図8に示す辞書作成
時の分布では、カテゴリCと判定され、前記した従来方
式においては、辞書が上記サンプルにより更新されてし
まう。
【0012】また、図9(b)において、黒丸で示すあ
るサンプルに注目してみる。この入力サンプルは実はカ
テゴリB’であるとする。この入力サンプルは点線の境
界により本来カテゴリBと判定されるので、更新される
べきであるが、辞書作成時の分布では、カテゴリAと判
定され、辞書が更新されない。以上のように、従来方式
においては、本来更新すべきでないのに辞書が更新され
たり、また辞書を更新すべきなのに更新されなかったり
する場合が生ずる。
【0013】本発明は上記した従来技術の問題点を改善
するためになされたものであって、話者の発声状態が時
間の経過とともに変化しても、認識を行う度に辞書の特
徴パターンを新しいものに更新していくことにより、話
者の発声状態が変動しても、高い認識率を維持すること
が可能であり、また、偶然に歪んだ音声パターンが辞書
に登録されることを防止することができる音声認識装置
提供することを目的とする。
【0014】
【課題を解決するための手段】図1は本発明の原理説明
図である。同図において、1はマイクロフォン等により
音声を入力する音声入力手段、2はマイクロフォン等に
より入力された音声信号に対して周波数分析等を行い音
声としての特徴を抽出する音響分析手段、3は音響分析
手段2により分析された入力音声パターンと、予め分析
され辞書に登録されている各テンプレートとの照合を行
うとともに、入力音声パターン保持手段6に保持されて
いる直前に入力された音声パターンとの照合を行い、類
似度もしくは距離を計算する音声パターン照合手段、4
は予め認識対象が分析されたパターンを登録した辞書、
5は音声パターン照合手段3の出力に基づき認識結果を
出力する認識結果判定手段、6は音響分析手段2により
分析された入力音声パターンを一時的に保持しておく入
力音声パターン保持手段、7は入力音声パターンを辞書
4に登録したり、辞書4のテンプレートを削除する辞書
更新手段、8は入力音声の認識対象となるテンプレート
について、音声パターン照合手段3から出力された辞書
4側と入力音声パターン保持手段6側のスコアを比較
し、何方のスコアが高いかを判定する照合結果判定手
段、9は入力音声パターンに正解ラベルを付与するユー
ザ入力手段である。
【0015】上記課題を解決するため、本発明の請求項
1の発明は、図1に示すように、音声入力手段1より入
力された未知入力音声を音響分析する音響分析手段2
と、音響分析手段2により得られた入力音声パターン
と、予め辞書4中に登録された各ラベルに対応した標準
音声パターンとを照合する音声パターン照合手段3と、
その照合結果に基づき、認識結果を得る認識結果判定手
段5と、上記入力音声パターンにより辞書を更新する辞
書更新手段7とを備え、音声パターン照合手段の照合結
果に基づき上記入力音声を判定し、認識結果判定手段か
ら認識結果を出力する音声認識装置において、上記入力
音声パターンを一時的に保持する入力音声パターン保持
手段6を設け、上記音声パターン照合手段3は、認識結
果が正解であった入力音声パターン、もしくは、認識時
にユーザ入力手段9により正解ラベルが付与された入力
音声パターンについて、音声パターン照合手段3におい
て、入力音声パターンと辞書4に登録された各正解標準
音声パターンとを照合するとともに、入力音声パターン
保持手段6に、上記入力音声パターンと同じラベルが付
された正解音声パターンが保持されている場合に、上記
入力音声パターンと入力音声パターン保持手段6に保持
された音声パターンとを照合し、上記辞書更新手段7
は、認識動作を行うごとに、上記入力音声パターンと入
力音声パターン保持手段6に保持された音声パターンの
類似度が、上記入力音声パターンと辞書4に登録された
標準音声パターンとの類似度より大きい場合に、入力音
声パターン保持手段6に保持された音声パターンを辞書
4に登録し、辞書4の標準音声パターンを削除するよう
にしたものである。
【0016】本発明の請求項2の発明は、新たな入力音
声パターンと入力音声パターン保持手段6に保持された
音声パターンの類似度が、上記入力音声パターンと辞書
4に登録された標準音声パターンとの類似度より大きい
場合に、請求項1の発明の発明のように入力音声パター
ン保持手段6に保持された音声パターンを辞書4に登録
するかわりに、新たに入力された入力音声パターンを辞
書4に登録するようにしたものである。
【0017】本発明の請求項3の発明は、請求項1また
は請求項2の発明において、上記辞書更新手段7が、
たな入力音声パターンと入力音声パターン保持手段6に
保持された音声パターンの類似度が、上記入力音声パタ
ーンと辞書4に登録された標準音声パターンとの類似度
より小さい場合に、入力音声パターン保持手段6に保持
された音声パターンを削除し、入力音声パターンを入力
音声パターン保持手段6に登録するようにしたものであ
る。
【0018】本発明の請求項4の発明は、請求項1また
は請求項2の発明において、上記辞書更新手段7が、
たな入力音声パターンと入力音声パターン保持手段6に
保持された音声パターンの類似度が、上記入力音声パタ
ーンと辞書4に登録された標準音声パターンとの類似度
より小さい場合に、入力音声パターン保持手段6に保持
された音声パターンをそのまま残し、上記入力音声パタ
ーンを削除するようにしたものである。
【0019】本発明の請求項5の発明は、請求項1また
は請求項2の発明において、上記辞書更新手段7が、
たな入力音声パターンと入力音声パターン保持手段6に
保持された音声パターンの類似度が、上記入力音声パタ
ーンと辞書4に登録された標準音声パターンとの類似度
より小さい場合に、入力音声パターン保持手段6に保持
された音声パターンと入力音声パターンを削除するよう
にしたものである。
【0020】
【作用】図1において、音声入力手段1より入力された
音声は音響分析手段2により分析されて特徴が抽出さ
れ、音声パターン照合手段3に与えられる。音声パター
ン照合手段3は音響分析手段2により分析された入力音
声パターンと、予め分析され辞書4に登録されている各
標準音声パターンとの照合を行うとともに、入力音声パ
ターンの認識結果が正解であった場合、もしくは、ユー
ザ入力により入力音声パターンに正解ラベルが付された
場合、入力音声パターン保持手段6に保持されている直
前に入力された正解音声パターンとの照合を行い、スコ
アを計算する。
【0021】認識結果判定手段5は音声パターン照合手
段3が出力するスコアに基づき入力音声を判定し、認識
結果を出力する。また、認識結果が不正解であった場合
には、ユーザ入力手段9からのユーザ入力に基づき、入
力音声パターンに正解ラベルを付与する。照合結果判定
手段8は、認識結果が正解であった入力音声パターン、
もしくは、認識時にユーザ入力手段9により正解ラベル
が付与された入力音声パターンについて、辞書4の正解
標準音声パターンと入力音声パターンとの照合結果と、
入力音声パターン保持手段6に保持されている正解ラベ
ルが付与された音声パターンと入力音声パターンとの照
合結果とを比較し、どちらのスコアが高いかを判定す
る。
【0022】辞書更新手段7は照合結果判定手段8によ
り判定した結果、入力音声パターン保持手段6に保持さ
れている音声パターンと入力音声パターンとの照合結果
の方が、辞書4と入力音声パターンの照合結果のスコア
より高い場合に、辞書4からスコアの最低な標準音声パ
ターンを削除し、入力音声パターン保持手段6に保持さ
れている音声パターン、もしくは、入力音声パターンを
辞書4に登録することにより標準音声パターンの入れ換
えを行う。
【0023】以上のように、本発明の請求項1ないし請
求項5の発明においては、予め用意されている辞書とは
別に、一時的な辞書として機能する入力音声を保持する
入力音声パターン保持手段6を設け、入力音声パターン
による辞書4の更新の際、2度目に同じ音声パターンが
入力されたときに、認識結果が正解であった入力音声パ
ターン、もしくは、ユーザ入力手段9により正解ラベル
が付与された入力音声パターンと、辞書4に登録された
正解標準音声パターン、および、入力音声パターン保持
手段6に一時的に保持されている正解ラベルが付与され
た音声パターンとの各々に関して照合を行い、それらの
照合結果のうち、入力音声パターンと入力音声パターン
保持手段6に保持された音声パターン間のスコアの方が
高い場合に、辞書4を更新している。
【0024】したがって、過去の作成された辞書4の正
解標準音声パターンよりも、入力音声パターン保持手段
6に保持された直前に入力された正解音声パターンの方
がスコアが高くなることが当然期待され、話者の発声状
態の変動に対応して辞書4の更新を行うことができる。
ここで、直前に入力された入力音声パターン保持手段6
に保持されている音声パターンが、背景雑音や発声の不
具合で歪んだものになった場合には辞書4の更新は避け
なければならないが、本発明の請求項1ないし請求項5
の発明においては、上記のように正解入力音声パターン
を、辞書4に登録された正解標準音声パターンと、入力
音声パターン保持手段6に一時的に保持されている正解
音声パターンとの各々に関して照合を行い、それらの照
合結果のうち、入力音声パターンと入力音声パターン保
持手段6に保持された音声パターン間のスコアの方が高
い場合に、辞書4を更新しているので、2度目に発声さ
れた音声に不具合がない限り、入力音声パターン保持手
段6に保持された歪んだ音声パターンよりも辞書4に登
録された標準音声パターンの方がスコアが高いと判定さ
れ、歪んだ音声パターンによる辞書4の更新を避けるこ
とができる。
【0025】さらに、本発明の請求項2の発明において
は、入力音声パターン保持手段6に保持された正解音声
パターンを辞書4に登録するかわりに、新たに入力され
た正解入力音声パターンを辞書4に登録するようにした
ので、請求項1の発明と同様の効果を得ることができる
とともに、次に発声された音声パターンを入力音声パタ
ーン保持手段6にそのまま保持することができ、処理工
数を減少させることができる。
【0026】またさらに、本発明の請求項3ないし5の
発明においては、新たな正解入力音声パターンと入力音
声パターン保持手段6に保持された正解音声パターンと
の間のスコアが、上記入力音声パターンと辞書4に登録
された標準音声パターンとの間のスコアより小さい場合
に、入力音声パターン保持手段6に保持された音声パタ
ーンか入力音声パターンのいずれか一方、もしくは両方
を削除するようにしたので、歪んだ音声パターンが入力
音声パターン保持手段6に保持されることがない。
【0027】
【実施例】図2は本発明の第1の実施例を示す図であ
り、同図において、11はマイクロフォン等から入力さ
れる音声をデジタル信号に変換するAD変換器、21は
AD変換器11によりデジタル信号に変換された音声信
号を分析し特徴パラメータ時系列ベクトルを抽出する音
響分析手段、3は音響分析手段2により分析された特徴
パラメータ時系列ベクトルと、予め分析され辞書に登録
されている各テンプレートとの照合を行う音声パターン
照合手段であり、音声パターン照合手段3は第2の入力
音声パターン・バッファ62に保持されている音声パタ
ーンがある場合には、この音声パターンとも照合を行
う。
【0028】また、4は予め認識対象が分析されたパタ
ーンを登録した辞書、5は音声パターン照合手段3から
出力された各テンプレートに対するスコアに基づき認識
結果を出力する認識結果判定手段、51は音声パターン
照合手段3が出力するスコアをソートするスコア・ソー
ト手段、52はユーザからの入力にしたがって正しい認
識結果を選択して最終的な認識結果を選択する認識結果
選択手段である。
【0029】61は音響分析手段2により分析された正
解入力音声パターンを一時的に保持しておく第1の入力
音声パターン保持手段、62は第1の入力音声パターン
保持手段に保持された正解入力音声パターンを一時的に
保持しておく第2の入力音声パターン保持手段であり、
第1および第2の入力音声パターン保持手段は、それぞ
れ、少なくとも入力音声のラベルの数に対応した数のバ
ッファを備え、第1および第2の入力音声パターン保持
手段61,62には認識結果判定手段より与えられる正
解時の音声のラベルもしくはユーザ入力よりあたえられ
る音声ラベルが付与され入力音声パターンが保持され
る。
【0030】7は入力音声パターンを辞書4に登録した
り、辞書4のテンプレートを削除する辞書更新手段、7
1は第2の入力音声パターン保持手段62に保持された
音声パターンを辞書4に登録する音声パターン登録手
段、72は辞書4からスコアが最低の音声パターンを削
除する音声パターン削除手段、8は入力音声の正解テン
プレートについて、音声パターン照合手段3から出力さ
れた辞書4側と第2の入力音声パターン保持手段62側
のスコアを比較し、何方のスコアが高いかを判定する照
合結果判定手段である。
【0031】次に図2に示す本発明の第1の実施例の動
作を説明する。音声はマイクロフォン等からAD変換部
11に入力され、デジタル信号に変換されて、離散化さ
れた信号データとして音響分析手段21に送られる。音
響分析手段21は、上記離散化された信号データから、
例えば5msec〜25msecの一定の時間ごとに、
音声の特徴パラメータ時系列ベクトルを抽出する。
【0032】音声の特徴パラメータ時系列ベクトルの抽
出手法としては、下記の手法などが知られている。 複数のフィルタ・バンクにより、異なる周波数帯域
でのスペクトルを抽出するもの。 FFT(高速フーリェ変換)を行ったのち、複数の
チャンネルに分割したスぺクトル・パワー時系列を求め
るもの。 線型予測分析(LPC)を行ない、その係数時系列
を求めるもの。 FFT(高速フーリェ変換)や線型予測分析(LP
C)を用いて、ケプストラム(cepstrum)係数
時系列を求めるもの。
【0033】音響分析手段2により抽出された特徴パラ
メータ時系列ベクトルは、音声パターン照合手段3に出
力され、予め辞書4に登録されているテンプレートと照
合される。音声パターン照合手段3における照合の手法
としては、一般的に用いられているDPマッチングなど
を用いることができ、音声パターン照合手段3は照合結
果として2パターン間のスコアを求め、認識結果判定手
段5に出力する。
【0034】認識結果判定手段5のスコア・ソート手段
51は音声パターン照合手段3で計算されたスコアに基
づきソーティングを行い、スコアが高い順にソートす
る。認識結果選択手段52は、ユーザの入力に従って正
しい結果を選択し、最終結果を出力する。一方、音響分
析手段2で分析された音声パターンの内、認識結果が正
解であった音声パターン、もしくは、ユーザ入力により
正解ラベルが付与された音声パターンは、音声パターン
照合手段3に出力されるとともに、第1の入力音声パタ
ーン・バッファ61にも出力される。そして、次に新た
な音声が入力されると、音響分析手段2で分析された正
解音声パターンは第1の入力音声パターン・バッファ6
1により保持され、第1の入力音声パターン・バッファ
61に保持されていた正解音声パターンは第2の入力音
声パターン・バッファ62に出力されそこで保持され
る。つまり、本実施例における第1の入力音声パターン
・バッファ61は入力音声パターンのためのバッファと
して機能し、また第2の入力音声パターン・バッファ6
2は一次的な辞書として機能する。
【0035】また、第1および第2の入力音声パターン
・バッファ61,62に音声パターンが保持される際、
前記したように、認識結果判定手段5による判定結果が
正解のときの正解ラベル、もしくは、認識結果が不正解
であったときにユーザが入力する正解ラベルが付与され
る。そして、音声パターン照合手段3は、正解ラベルが
付与された入力音声パターンと予め辞書4に登録されて
いる正解テンプレートとを照合するとともに、正解ラベ
ルが付与された入力音声パターンと、辞書として機能す
る入力音声パターン・バッファ62に保持されている直
前に入力された正解ラベルが付与された音声パターンと
を照合しスコアを求める。
【0036】照合結果判定手段8は、認識結果が正解で
あった入力音声パターン、もしくは、認識時にユーザ入
力手段9により正解ラベルが付与された入力音声パター
ンについて、辞書4の正解テンプレートと入力音声パタ
ーンとの照合結果と、入力音声パターン保持手段6に保
持されている正解ラベルが付与された音声パターンと入
力音声パターンとの照合結果とを比較し、どちらのスコ
アが高いかを判定する。
【0037】辞書更新手段7は照合結果判定手段8によ
り判定した結果、入力音声パターン・バッファ62に保
持されている正解音声パターンと正解入力音声パターン
との照合結果の方が、辞書4と正解入力音声パターンの
照合結果のスコアより高い場合に、辞書4からスコアの
最低のテンプレートを削除し、入力音声パターン・バッ
ファ62に保持されている正解音声パターンを辞書4に
登録することによりテンプレートの入れ換えを行う。す
なわち、辞書更新手段7の音声パターン削除手段72に
より辞書4のテンプレートを削除し、音声パターン登録
手段71により入力音声パターン・バッファ62に保持
されている正解音声パターンを辞書に登録する。
【0038】以上説明したように、本実施例において
は、入力音声による辞書の更新の際、正解ラベルが付与
された入力音声パターンと辞書に登録されている正解テ
ンプレートとの照合結果と、第2の入力音声パターン保
持手段に保持されている直前に入力された正解音声パタ
ーンとの照合結果を比較し、比較結果に応じて第2の入
力音声パターン保持手段に保持されている直前に入力さ
れた音声パターンにより辞書を更新するので、話者の発
声状態の変動に対処して辞書を更新することができる。
【0039】また、偶然に歪んだ音声パターンが辞書に
登録されることを防止することができる。すなわち、2
度目に発声された音声に不具合がない限り、入力音声パ
ターン・バッファ62に保持された歪んだ音声パターン
よりも辞書4に登録されたテンプレートの方がスコアが
高くなり、歪んだ音声パターンによる辞書4の更新を避
けることができる。
【0040】この点について、前記した図8、図9によ
り説明する。図9(a)において、前記した黒四角の入
力サンプルが一度目の発声で、一時的に入力音声パター
ン保持手段62に保持されていたとする。ここで、2度
目に入力された音声の発声は問題がなくカテゴリC’内
であった場合、2度目に入力された入力音声パターンと
辞書4との照合結果と、入力音声パターン保持手段62
に保持された上記サンプルの音声パターンとの照合結果
では、辞書側のスコアの方が当然高くなり、辞書4を上
記のような歪んだ音声パターンで更新することを避ける
ことができる。
【0041】また、図9(b)において、前記した黒丸
の入力サンプルが一度目の発声で、一時的に入力音声パ
ターン保持手段62に保持されていたとする。ここで、
2度目に入力された音声の発声は問題がなくカテゴリ
B’内であった場合、辞書作成時のカテゴリ境界により
判定すると更新は行われないが、2度目に入力された入
力音声パターンと辞書4とのスコアと、入力音声パター
ン保持手段6に保持された上記サンプルの音声パターン
とのスコアを計算することにより、辞書4を更新できる
場合がでてくる。
【0042】すなわち、一度目に入力された音声パター
ンとカテゴリBの最も遠いサンプル間のスコアが、一度
目に入力された音声パターンと2度目に入力された音声
パターン間のスコアより小さい場合に、辞書4が更新さ
れる。図3は本発明の第2の実施例を示す図である。本
実施例の構成は基本的には図2に示した第1の実施例と
同一であり、本実施例と第1の実施例とは、第1および
第2の入力音声パターン・バッファ61,62と辞書更
新手段7との接続が異なっている。
【0043】すなわち、第1の実施例においては、第2
の入力音声パターン・バッファ62に保持された正解ラ
ベルが付与された音声パターンを辞書更新手段7に与え
ているのに対し、第2の実施例においては、第1の入力
音声パターン・バッファ61に保持された正解ラベルが
付与された音声パターンを辞書更新手段7に与えてい
る。
【0044】したがって、図3の実施例においては、入
力音声パターン・バッファ62に保持されている正解音
声パターンと正解入力音声パターンとの照合結果の方
が、辞書4と正解入力音声パターンの照合結果のスコア
より高い場合に、辞書4からスコアの最低のテンプレー
トを削除し、第1の入力音声パターン・バッファ61に
保持されている音声パターンにより辞書4の更新を行
う。
【0045】本実施例においては、第1の実施例と同様
の効果を得ることができるとともに、第1の実施例のも
のより、処理工数を少なくすることができる。すなわ
ち、本実施例においては、第1の入力音声パターン・バ
ッファ61に保持されている音声パターンにより辞書4
を更新しているので、辞書4を更新することにより、第
1の入力音声パターン・バッファ61の内容は空とな
り、次に発声された正解音声パターンを第1の入力音声
パターン・バッファ61にそのまま保持することができ
る。
【0046】図4は本発明の第3の実施例を示すフロー
チャートであり、本実施例の構成は図2に示した第1の
実施例と同一である。本実施例は、正解入力音声パター
ンと辞書4の類似度より正解入力音声パターンと第2の
入力音声パターン・バッファ62の類似度の方が大きい
場合には、第2の入力音声パターン・バッファ62の正
解特徴パターンを辞書4に登録し、また、正解入力音声
パターンと第2の入力音声パターン・バッファ62の類
似度の方が小さい場合には、第2の入力音声パターン・
バッファ62の正解特徴パターンを削除して、第1の入
力音声パターン・バッファ61の正解特徴パターンを第
2の入力音声パターン・バッファ62に登録するように
したものである。
【0047】本実施例においては、辞書4側の類似度が
第2の入力音声パターン・バッファ62側の類似度より
大きい場合に、第2の入力音声パターン・バッファ62
に保持されている特徴パターンを削除しているので、入
力音声が歪み(変形し)、第2の入力音声パターン・バ
ッファ62に歪んだ入力音声の特徴パターンが保持され
た場合に、その特徴パターンを削除することができる。
【0048】なお、上記実施例においては、照合による
スコアとして類似度を用いているが、スコアとして距離
を用いてもよい。その場合には、図4に示す不等号の向
きは逆向きとなる。図5は本発明の第4の実施例を示す
フローチャートであり、本実施例の構成は図2に示した
第1の実施例と同一である。
【0049】本実施例は、正解入力音声パターンと辞書
4の類似度より正解入力音声パターンと第2の入力音声
パターン・バッファ62の類似度の方が大きい場合に
は、第2の入力音声パターン・バッファ62の正解特徴
パターンを辞書4に登録し、また、正解入力音声パター
ンと第2の入力音声パターン・バッファ62の類似度の
方が小さい場合には、第1の入力音声パターン・バッフ
ァ61の正解特徴パターンを削除するようにしたもので
ある。
【0050】本実施例においては、辞書4側の類似度が
第2の入力音声パターン・バッファ62側の類似度より
大きい場合に、第1の入力音声パターン・バッファ61
に保持されている特徴パターンを削除しているので、入
力音声が歪み(変形し)、第1の入力音声パターン・バ
ッファ61に歪んだ入力音声の特徴パターンが保持され
た場合に、その特徴パターンを削除することができる。
【0051】なお、上記実施例においては、照合による
スコアとして類似度を用いているが、第3の実施例と同
様、スコアとして距離を用いてもよい。その場合には、
図5に示す不等号の向きは逆向きとなる。図6は本発明
の第5の実施例を示すフローチャートであり、本実施例
の構成は図2に示した第1の実施例と同一である。
【0052】本実施例は、正解入力音声パターンと辞書
4の類似度より正解入力音声パターンと第2の入力音声
パターン・バッファ62の類似度の方が大きい場合に
は、第2の入力音声パターン・バッファ62の正解特徴
パターンを辞書4に登録し、また、正解入力音声パター
ンと第2の入力音声パターン・バッファ62の類似度の
方が小さい場合には、第1および第2の入力音声パター
ン・バッファ61,62の正解特徴パターンを削除する
ようにしたものである。
【0053】本実施例においては、辞書4側の類似度が
第2の入力音声パターン・バッファ62側の類似度より
大きい場合に、第1および第2の入力音声パターン・バ
ッファ61に保持されている正解特徴パターンを削除し
ているので、入力音声が歪み(変形し)、第1および第
2の入力音声パターン・バッファ61,62のいずれか
に歪んだ入力音声の特徴パターンが保持された場合に、
その特徴パターンを削除することができる。
【0054】なお、上記実施例においては、照合による
スコアとして類似度を用いているが、第3の実施例と同
様、スコアとして距離を用いてもよい。その場合には、
図6に示す不等号の向きは逆向きとなる。
【0055】
【発明の効果】以上説明したように、本発明において
は、入力音声パターンによる辞書の更新の際、2度目に
同じ音声パターンが入力されたときに、認識結果か正解
であった入力音声パターン、もしくは、ユーザ入力手段
により正解ラベルが付与された入力音声パターンと、辞
書4に登録された正解標準音声パターン、および、入力
音声パターン保持手段に一時的に保持されている正解ラ
ベルが付与された音声パターンとの各々に関して照合を
行い、それらの照合結果のうち、入力音声パターンと入
力音声パターン保持手段に保持された音声パターン間の
スコアの方が高い場合に、辞書4を更新しているので、
話者の発声状態が時間の経過とともに変化しても、認識
を行う度に辞書の標準音声パターンを新しいものに更新
していくことができるとともに、声質や発声状況が変化
する前の認識基準に制限されることなく辞書の更新を行
うことができ、話者の発声状態に対応した高い認識率を
得ることができる。
【0056】また、偶然に歪んだ音声パターンが辞書に
登録されることを避けることができる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の第1の実施例を示す図である。
【図3】本発明の第2の実施例を示す図である。
【図4】本発明の第3の実施例を示す図である。
【図5】本発明の第4の実施例を示す図である。
【図6】本発明の第5の実施例を示す図である。
【図7】従来例を示す図である。
【図8】辞書作成時のカテゴリの分布を示す図である。
【図9】声質の変動により分布が変動した場合のカテゴ
リ分布を示す図である。
【符号の説明】
1 音声入力手段 11 AD変換器 2,21 音響分析手段 3 音声パターン照合手段 4 辞書 5 認識結果判定手段 51 スコア・ソート手段 52 認識結果選択手段 6,61,62 入力音声パターン保持手段 7 辞書更新手段 71 音声パターン登録手段 72 音声パターン削除手段 8 照合結果判定手段 9 ユーザ入力手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−165100(JP,A) 特開 昭60−45298(JP,A) 特開 昭61−121093(JP,A) 特公 昭63−29276(JP,B2)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声入力手段より入力された未知入力音
    声を音響分析する音響分析手段と、 音響分析手段により得られた入力音声パターンと、予め
    辞書中に登録された各ラベルに対応した標準音声パター
    ンとを照合する音声パターン照合手段と、 その照合結果に基づき、認識結果を得る認識結果判定手
    段と、 入力音声パターンに正解のラベルを付与するユーザ入力
    手段と、 上記入力音声パターンにより辞書を更新する辞書更新手
    段とを備え、 音声パターン照合手段の照合結果に基づき上記入力音声
    を判定し、認識結果判定手段から認識結果を出力する音
    声認識装置であって、 上記入力音声パターンを一時的に保持する入力音声パタ
    ーン保持手段を備え、 上記音声パターン照合手段は、認識結果が正解であった
    入力音声パターン、もしくは、認識時にユーザ入力手段
    により正解ラベルが付与された入力音声パターンについ
    て、入力音声パターンと辞書に登録された各正解標準音
    声パターンとを照合するとともに、入力音声パターン保
    持手段に、上記入力音声パターンと同じラベルが付され
    た正解音声パターンが保持されている場合に、上記入力
    音声パターンと入力音声パターン保持手段に保持された
    音声パターンとを照合し、 上記辞書更新手段は、認識動作を行うごとに、上記入力
    音声パターンと入力音声パターン保持手段に保持された
    音声パターンの類似度が、上記入力音声パターンと辞書
    に登録された標準音声パターンとの類似度より大きい場
    合に、入力音声パターン保持手段に保持された音声パタ
    ーンを辞書に登録し、辞書の標準音声パターンを削除す
    ることを特徴とする音声認識装置。
  2. 【請求項2】 音声入力手段より入力された未知入力音
    声を音響分析する音響分析手段と、 音響分析手段により得られた入力音声パターンと、予め
    辞書中に登録された各ラベルに対応した標準音声パター
    ンとを照合する音声パターン照合手段と、 その照合結果に基づき、認識結果を得る認識結果判定手
    段と、 入力音声パターンに正解のラベルを付与するユーザ入力
    手段と、 上記入力音声パターンにより辞書を更新する辞書更新手
    段とを備え、音声パターン照合手段の照合結果に基づき
    上記入力音声を判定し、認識結果判定手段から認識結果
    を出力する音声認識装置であって、 入力音声パターンを一時的に保持する入力音声パターン
    保持手段を設け、 上記音声パターン照合手段は、音声パターン照合手段に
    おいて、認識結果が正解であった入力音声パターン、も
    しくは、認識時にユーザ入力手段により正解ラベルが付
    与された入力音声パターンについて、入力音声パターン
    と辞書に登録された各正解標準音声パターンとを照合す
    るとともに、入力音声パターン保持手段に、上記入力音
    声パターンと同じラベルが付された正解音声パターンが
    保持されている場合に、上記入力音声パターンと入力音
    声パターン保持手段に保持された音声パターンとを照合
    し、 上記辞書更新手段は、認識動作を行うごとに、上記入力
    音声パターンと入力音声パターン保持手段に保持された
    音声パターンの類似度が、上記入力音声パターンと辞書
    に登録された標準音声パターンとの類似度より大きい場
    合に、新たに入力された入力音声パターンを辞書に登録
    し、辞書の標準音声パターンを削除することを特徴とす
    る音声認識装置。
  3. 【請求項3】 上記辞書更新手段は、新たな入力音声パ
    ターンと入力音声パターン保持手段に保持された音声パ
    ターンの類似度が、上記入力音声パターンと辞書に登録
    された標準音声パターンとの類似度より小さい場合に、
    入力音声パターン保持手段に保持された音声パターンを
    削除し、入力音声パターンを入力音声パターン保持手段
    に登録することを特徴とする請求項1または請求項2の
    音声認識装置。
  4. 【請求項4】 上記辞書更新手段は、新たな入力音声パ
    ターンと入力音声パターン保持手段に保持された音声パ
    ターンの類似度が、上記入力音声パターンと辞書に登録
    された標準音声パターンとの類似度より小さい場合に、
    入力音声パターン保持手段に保持された音声パターンを
    そのまま残し、上記入力音声パターンを削除することを
    特徴とする請求項1または請求項2の音声認識装置。
  5. 【請求項5】 上記辞書更新手段は、新たな入力音声パ
    ターンと入力音声パターン保持手段に保持された音声パ
    ターンの類似度が、上記入力音声パターンと辞書に登録
    された標準音声パターンとの類似度より小さい場合に、
    入力音声パターン保持手段に保持された音声パターンと
    入力音声パターンを削除することを特徴とする請求項1
    または請求項2の音声認識装置。
JP05554193A 1993-03-16 1993-03-16 音声認識装置 Expired - Fee Related JP3514481B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05554193A JP3514481B2 (ja) 1993-03-16 1993-03-16 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05554193A JP3514481B2 (ja) 1993-03-16 1993-03-16 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06266385A JPH06266385A (ja) 1994-09-22
JP3514481B2 true JP3514481B2 (ja) 2004-03-31

Family

ID=13001581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05554193A Expired - Fee Related JP3514481B2 (ja) 1993-03-16 1993-03-16 音声認識装置

Country Status (1)

Country Link
JP (1) JP3514481B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037552B2 (en) 2017-12-29 2021-06-15 Samsung Electronics Co., Ltd. Method and apparatus with a personalized speech recognition model

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
JP5020222B2 (ja) * 2008-12-08 2012-09-05 三菱電機株式会社 空気調和機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037552B2 (en) 2017-12-29 2021-06-15 Samsung Electronics Co., Ltd. Method and apparatus with a personalized speech recognition model

Also Published As

Publication number Publication date
JPH06266385A (ja) 1994-09-22

Similar Documents

Publication Publication Date Title
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US6401063B1 (en) Method and apparatus for use in speaker verification
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JPH02195400A (ja) 音声認識装置
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP3825526B2 (ja) 音声認識装置
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
JP3444108B2 (ja) 音声認識装置
JP3514481B2 (ja) 音声認識装置
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JPH06266393A (ja) 音声認識装置
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法
JP3378547B2 (ja) 音声認識方法及び装置
JP4236502B2 (ja) 音声認識装置
JP3727173B2 (ja) 音声認識方法及び装置
KR100282048B1 (ko) 차량용 음성인식기의 웨이브파일 자동 분류 방법
JP3808732B2 (ja) 音声認識方法及びそのシステム
JPH07210197A (ja) 話者識別方法
JPH0619497A (ja) 音声認識方法
JPH06337700A (ja) 音声合成装置
JPH10214096A (ja) 話者認識装置
JPS6140686A (ja) 標準パタ−ン登録方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080123

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees