JPH11184491A

JPH11184491A - 音声認識装置

Info

Publication number: JPH11184491A
Application number: JP9364638A
Authority: JP
Inventors: Masaru Kuroda; 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-12-18
Filing date: 1997-12-18
Publication date: 1999-07-09
Also published as: US6230126B1

Abstract

(57)【要約】【課題】実際の発声者の発声時間長に応じて標準辞書
内の継続時間パラメータを更新し、これにより、認識性
能を向上させることの可能な音声認識装置を提供する。【解決手段】音声を入力する入力部(例えばマイクロ
ホン)１と、入力部１から入力された音声から特徴量を
抽出する特徴抽出部２と、全ての認識対象の標準的な特
徴量が予め格納されている標準辞書３と、特徴抽出部２
で抽出された入力音声の特徴量を標準辞書３に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合部４と、照合部４の照合結
果に基づき、例えば、類似度が最も高い認識対象であっ
て、該類似度(の最大値)が所定の閾値(リジェクト閾値)
を越えた認識対象を認識結果として出力する結果出力部
５と、標準辞書３を更新する辞書更新部６とを有してい
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
する。

【０００２】

【従来の技術】従来、音声認識の手法として、音声区間
検出を行なって音声認識を行なう方法が知られている。
音声区間検出を行なって音声認識を行なう方法では、音
声のパワー情報などを使用して、認識すべき音声区間の
始端と終端を決定し、この音声区間情報に基づいて認識
処理を行なうようになっている。図７は音声区間検出を
行なって音声認識を行なう方法の処理例を示すフローチ
ャートであり、音声区間検出を行なって音声認識を行な
う方法では、認識開始の起動を行なった後(ステップＳ
１)、話者が発声することで音声区間検出を行ない(ステ
ップＳ２)、その後、音声区間の音声情報と辞書との照
合を行ない(ステップＳ３)、最も類似度の高い認識対象
(辞書単語)を認識結果として出力する(ステップＳ４)。
この場合、ステップＳ２において、音声区間の始端はパ
ワー情報によって容易に検出できるが、音声区間の終端
は、音声中の破裂性の子音の前の無音や促音の無音とを
区別するために、無音が一定時間以上継続する場合に音
声区間の終端として判定するようになっている。

【０００３】しかしながら、音声区間の終端を判定する
ための無音の継続時間は、促音の無音とを区別するため
に、一般に２５０〜３５０ｍ秒程度であり、従って、こ
の方法では、音声入力が終了しても、２５０〜３５０ｍ
秒程度の時間が経過するまでは認識結果を出力すること
ができず、応答の遅い認識システムとなってしまう。ま
た、応答を速くするために、終端判定のための無音継続
時間を短かくすると、発声が終了する前に促音で結果が
出力されて、誤った認識結果が出力されるという欠点が
あった。

【０００４】また、一般的に、ある発声をするときに、
話者は「え〜」や「あの〜」といった認識とは無関係な
不要語を発声することがよくある。認識対象となる音声
に対して、辞書との照合は音声区間の始端から始めるの
で、「え〜」や「あの〜」という発声が入ると、類似度
が著しく悪くなり、誤認識の原因となる。

【０００５】上記各々の欠点を解消する方法として、ワ
ードスポッティング法がある。図８はワードスポッティ
ング法の処理例を示すフローチャートであり、ワードス
ポッティング法では、認識開始の起動を行なった後(ス
テップＳ１１)、話者が音声を発声すると、音声区間検
出を行なうことなく、発声した音声情報を辞書と照合す
る(ステップＳ１２)。そして、この照合の結果の類似度
が所定の閾値を越えたか否かを判断し(ステップＳ１
３)、所定の閾値を越えていないときには、再びステッ
プＳ１２に戻り、音声情報の辞書との照合を継続する。
そして、ステップＳ１３において、類似度が所定の閾値
を越えたときに、この類似度を与えた認識対象を認識結
果として出力する(ステップＳ１４)。このようなワード
スポッティング法は、音声区間検出を必要としないの
で、応答の速いシステムを構築し易く、また、不要語に
対しても、発声全体から不要語を取り除いて認識結果を
出力するので、良好な認識結果を得ることができるとい
う利点がある。

【０００６】

【発明が解決しようとする課題】しかしながら、ワード
スポッティング法にも次のような問題がある。すなわ
ち、ワードスポッティング法では、音声区間検出がない
ので、逐次、辞書との照合を行なう。この照合結果があ
る閾値を越えた場合に結果出力し、そうでない場合は照
合を継続する。この方法による結果出力は発声者の意志
に関係なく照合を続けるために発声者が認識させようと
する単語を発声していないにもかかわらず結果出力する
ことがある(すなわち、湧きだしが生ずることがある)。
例えば、認識装置に対して発声しているのではなく、隣
の人と会話しているときなどにこのような湧きだしが起
きる。

【０００７】ワードスポッティング法の実現方法とし
て、例えば、文献「“継続時間制御型状態遷移モデルを
用いた単語音声認識法”(電子情報通信学会論文誌) vo
l.J72-D-II No.11 pp.1769-1777 1989年11月)」があ
る。この方法によれば、認識対象となる辞書に含まれる
音素に継続時間情報を付加して、演算量を減らしながら
も良好な認識性能を得ることができるが、この方法で
は、平均的な各音素の継続時間をもとに音素をつなげて
認識単語辞書としているために、時として、長い認識単
語を辞書として作った場合に、必ずしも、実際の発声者
の単語発声時間と一致しないことがある。これは、心理
的作用として、一つの単語を発声するときに、短い単語
も長い単語も同じ発声長で発声しようとするためであ
る。また、発声者が興奮しているときなどは、発声者の
発声が早くなったり、大声になったりすることもある。
このようなときに、音声認識装置は辞書との照合を行な
うときの類似度が低下し、認識性能が悪くなる。特に、
この継続時間長をパラメータとした音声認識装置におい
ては、発声者によってその発声スピードは、標準辞書に
設定されている継続時間長と近い値になるとは限らな
い。

【０００８】このように、従来の音声認識装置では、平
均的な各音素の継続時間をもとに音素をつなげて認識単
語辞書としているために、実際の発声者の単語発声時間
と一致しない場合があり、認識性能が低下する場合があ
るという問題があった。

【０００９】本発明は、実際の発声者の発声時間長に応
じて標準辞書内の継続時間パラメータを更新し、これに
より、認識性能を向上させることの可能な音声認識装置
を提供することを目的としている。

【００１０】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、音声を入力する入力手段
と、入力手段から入力された音声から特徴量を抽出する
特徴抽出手段と、全ての認識対象の標準的な特徴量が予
め格納されている標準辞書と、特徴抽出手段で抽出され
た入力音声の特徴量を標準辞書に格納されている各認識
対象の標準的な特徴量と照合し、各認識対象との類似度
を算出する照合手段と、照合手段の照合結果に基づき、
類似度が高い認識対象を認識結果として出力する結果出
力手段と、標準辞書を更新する辞書更新手段とを有して
おり、前記辞書更新手段は、発声者の発声変動に応じて
標準辞書を逐次変更することを特徴としている。

【００１１】また、請求項２記載の発明は、音声を入力
する入力手段と、入力手段から入力された音声から特徴
量を抽出する特徴抽出手段と、全ての認識対象の標準的
な特徴量が予め格納されている標準辞書と、特徴抽出手
段で抽出された入力音声の特徴量を標準辞書に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合手段と、照合手段の照合結
果に基づき、類似度が高い認識対象を認識結果として出
力する結果出力手段と、標準辞書を更新する辞書更新手
段とを有しており、前記辞書更新手段は、各音素に対応
する継続時間長が標準辞書に存在する場合において、前
記照合手段の照合によって類似度が閾値を越えた認識対
象が得られるときには、標準辞書内の該認識対象を構成
する音素の継続時間長の総和と発声者の単語発声時間長
とを比較し、比較結果に応じて、標準辞書内の該認識対
象を構成する音素の継続時間長を更新することを特徴と
している。

【００１２】また、請求項３記載の発明は、前記辞書更
新手段は、標準辞書内の該認識対象を構成する音素の継
続時間長を更新する際に、該音素の発声時間長に所定の
適応値を乗じた値を、標準辞書内の該音素の継続時間長
として更新することを特徴としている。

【００１３】また、請求項４記載の発明は、前記辞書更
新手段は、標準辞書内の該認識対象を構成する音素の継
続時間長を更新する際には、標準辞書内の該認識対象の
音素のみならず、標準辞書内の他の認識対象の同じ音素
についても、継続時間長を更新することを特徴としてい
る。

【００１４】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声認識装置の
構成例を示す図である。図１を参照すると、この音声認
識装置は、音声を入力する入力部(例えばマイクロホン)
１と、入力部１から入力された音声から特徴量を抽出す
る特徴抽出部２と、全ての認識対象の標準的な特徴量が
予め格納されている標準辞書３と、特徴抽出部２で抽出
された入力音声の特徴量を標準辞書３に格納されている
各認識対象の標準的な特徴量と照合し、各認識対象との
類似度を算出する照合部４と、照合部４の照合結果に基
づき、例えば、類似度が最も高い認識対象であって、該
類似度(の最大値)が所定の閾値(リジェクト閾値)を越え
た認識対象を認識結果として出力する結果出力部５と、
標準辞書３を更新する辞書更新部６とを有している。

【００１５】ここで、特徴抽出部２，標準辞書３，照合
部４，結果出力部５には、例えば、音声区間を必要とし
ないワードスポッティング法による認識技術が用いられ
る。なお、ワードスポッティング法による認識技術とし
ては、例えば継続時間制御型状態遷移モデルを用いた単
語音声認識法を用いることができ、単語音声認識法によ
る認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。

【００１６】次に、図１の音声認識装置の動作について
説明する。音声が入力部１に入力されると、入力された
音声は、特徴抽出部２で所定の特徴量に変換される。こ
こで、特徴量としては、周波数帯域でのパワー値を示す
ＴＳＰやケプストラム値などが一般的である。

【００１７】特徴抽出部２で得られた入力音声の特徴量
は、照合部４において、標準辞書３に予め格納されてい
る各認識対象の標準的な特徴量と比較され、各認識対象
の類似度が計算される。そして、結果出力部５は、照合
部４の照合結果に基づき、例えば、類似度が最も高い認
識対象であって、該類似度(の最大値)が所定の閾値(リ
ジェクト閾値)を越えた認識対象を認識結果として出力
する。

【００１８】また、標準辞書３には、認識対象となる各
音素に対応した状態が表現されており、この状態を表現
するために、パラメータとして、特徴ベクトルＹｊと継
続時間Ｌｊとが用いられている。ここで、継続時間Ｌｊ
は、各音素ごとに決められた平均の継続時間長である。

【００１９】例えば“相関”「／ｓ／、／ｏ／、／ｑ
／、／ｋａ／、／ｎ／」(／ｑ／は無音区間)という単語
の場合、この単語の各音素，すなわち５個の音素である
／ｓ／、／ｏ／、／ｑ／、／ｋａ／、／ｎ／に対応した
状態は、図２に示すように５つの状態(Ｓｔａｔｅ１〜
Ｓｔａｔｅ５)で表わせる。このとき、音素の特徴を表
わす各状態は、１対１で対応している特徴ベクトルＹｊ
(ｊ＝１〜５)と継続時間Ｌｊ(ｊ＝１〜５)とによって定
義される。そして、この“相関”という単語の全体の継
続時間長は、次式のように、Ｌｊの総和で表わせる。す
なわち、この単語を構成する各音素の継続時間長Ｌｊの
総和で表わされる。

【００２０】

【数１】

【００２１】しかしながら、前述したように、実際の発
声者の単語発声時間は標準辞書内の単語の各音素の継続
時間長の総和Ｌ_totとは必ずしも一致しない。

【００２２】このような問題を回避するため、図１の音
声認識装置には、標準辞書３を更新する辞書更新部６が
さらに設けられており、辞書更新部６は、発声者の発声
変動(発声時間の変動)に応じて標準辞書を逐次変更する
ようになっている。

【００２３】より具体的に、辞書更新部６は、各音素に
対応する継続時間長が標準辞書３に存在する場合におい
て、照合部４の照合によって類似度が閾値を越えた認識
対象が得られるときには、標準辞書３内の該認識対象を
構成する音素の継続時間長の総和と発声者の単語発声時
間長とを比較し、比較結果に応じて、標準辞書３内の該
認識対象を構成する音素の継続時間長を更新するように
なっている。

【００２４】図３は図１の音声認識装置の処理動作を説
明するためのフローチャートである。図３を参照する
と、図１の音声認識装置では、認識開始の起動を行なっ
た後(ステップＳ２１)、話者が音声を発声すると、音声
区間検出を行なうことなく、発声した音声情報を辞書３
と照合する(ステップＳ２２)。そして、この照合の結果
の類似度が所定の閾値を越えたか否かを判断し(ステッ
プＳ２３)、所定の閾値を越えていないときには、再び
ステップＳ２２に戻り、音声情報の辞書３との照合を継
続する。そして、ステップＳ２３において、類似度が所
定の閾値を越えたときに、この類似度を与えた認識対象
を認識結果として出力する(ステップＳ２４)。なお、認
識結果の出力は、例えば、所定の類似度閾値ＳＭｔｈを
越えた後、類似度のピークを検出してから行なわれる。

【００２５】また、この際(すなわち、類似度が閾値を
越えたときには)、認識結果として得られた単語の継続
時間長(この単語を構成する各音素の標準辞書３内に設
定されている継続時間長の総和)と発声者の単語発声時
間長(発声音声の継続時間長)とを比較する(ステップＳ
２５)。そして、その比較結果に応じて(これらの差異に
応じて)、標準辞書３内の音素の継続時間パラメータＬ
ｊを変更する(ステップＳ２６)。すなわち、認識結果と
して得られた単語の継続時間長(この単語を構成する各
音素の標準辞書３内に設定されている継続時間長の総
和)と発声者の単語発声時間長(発声音声の継続時間長)
との差異を標準辞書３内の音素の継続時間パラメータＬ
ｊに反映させる。

【００２６】このときに、上記差異を生じさせた音素の
継続時間長Ｌｊと発声時間長との差分Δｔをそのままの
形で音素の継続時間長に反映させ、Δｔをそのままの形
で反映させた音素の継続時間長Ｌｊ＝Ｌｊ＋Δｔによっ
て標準辞書３内の継続時間パラメータＬｊを変更するこ
ともできるし、あるいは、上記差異を生じさせた音素の
継続時間長Ｌｊと発声時間長との差分Δｔに特定の係数
(適応値)Ｋを乗じた値ＫΔｔで音素の継続時間長を修正
し、このように修正された音素の継続時間長Ｌｊ＝Ｌｊ
＋ＫΔｔによって標準辞書３内の継続時間パラメータＬ
ｊを変更することもできる。

【００２７】換言すれば、辞書更新部６は、標準辞書３
内の認識対象(単語)を構成する音素の継続時間長を更新
する際に、該音素の発声時間長に所定の適応値を乗じた
値を、標準辞書内の該音素の継続時間長Ｌｊとして更新
することもできる。

【００２８】また、辞書更新部６は、標準辞書内の該認
識対象を構成する音素の継続時間長を更新する際には、
標準辞書内の該認識対象の音素のみならず、標準辞書内
の他の認識対象の同じ音素についても、継続時間長を更
新することができる。

【００２９】次に、具体例について説明する。図４，図
５は、いずれも、発声者が“相関”「／ｓ／、／ｏ／、
／ｑ／、／ｋａ／、／ｎ／」(／ｑ／は無音区間)という
単語を発音した場合の類似度算出結果を示す図である
が、図４は“ソオカン”という発声で、発声者の単語発
声長と標準辞書３内の各音素の継続時間長Ｌｊ(ｊ＝１
〜５)の総和との間に違いがみられない場合であり、こ
のときには、図４のように、類似度は時々刻々と加算さ
れ、類似度閾値ＳＭｔｈを越え、最終的にｓｍ１とな
る。

【００３０】これに対して、図５の場合は、“ソオオカ
ン”という発声で、／ｏ／の発声時間長が標準辞書３内
の音素／ｏ／の継続時間長よりも長い場合であり、この
とき、時刻ｔ１において、標準辞書３内の音素／ｏ／の
継続時間長Ｌ２と発声中に含まれる／ｏ／の区間が一致
する。しかし、図５の例では、さらに、発声中に含まれ
る／ｏ／の区間が長く延び、時刻ｔ２においては、発声
した音素／ｏ／の継続時間長が標準辞書３内の音素／ｏ
／の継続時間長Ｌ２と合わなくなり、類似度が減点され
る。しかし、その後、／ｑ／、／ｋａ／、／ｎ／と続く
ことによって類似度は加算され、類似度閾値ＳＭｔｈを
越え、最終的には、類似度は、ｓｍ２まで上がる。ｓｍ
２は、本来の期待される類似度ｓｍ１に比べて、２×Δ
ｓｍ分だけ低いが、所定の類似度閾値ＳＭｔｈを越えて
いるので、図５の場合にも認識結果が出力される。な
お、認識結果の出力は、例えば、所定の類似度閾値ＳＭ
ｔｈを越えた後、類似度のピークを検出してから行なわ
れる。

【００３１】また、図５の場合には、／ｏ／の発声時間
長が標準辞書３内の音素／ｏ／の継続時間長よりも時間
差Δｔ分だけ長いので、標準辞書３内のこの認識対象
“相関”の音素／ｏ／の継続時間パラメータＬ２を更新
(変更)する。なお、辞書３内のＬ２の更新(フィードバ
ック)は、例えば、結果出力と同時に行なうことができ
る。また、このときの更新(変更)は、次式のように、継
続時間パラメータ(継続時間長)Ｌ２にΔｔ分をそのまま
加算して新しい継続時間パラメータ(継続時間長)Ｌ２'
とすることができる。

【００３２】

【数２】Ｌ２'＝Ｌ２＋Δｔ

【００３３】あるいは、次式のように、Δｔに所定の適
応値Ｋを乗じて新しい継続時間パラメータＬ２'とする
こともできる。

【００３４】

【数３】Ｌ２'＝Ｌ２＋Ｋ・Δｔ

【００３５】ここで、Ｋは０．１〜０．７程度の値であ
り、認識対象単語に正答した回数や、類似度の大きさ等
によってダイナミックに変わる値である。

【００３６】このように、本発明では、音声認識した結
果をもとに、例えばその発声者の平均発声時間長と辞書
の継続時間長とを比較してダイナミックに辞書側の継続
時間長パラメータを変化させ、これにより、認識性能を
向上させることができる。

【００３７】また、標準辞書３内に設定される継続時間
パラメータ(継続時間長)は、本来は１音素に対して１つ
設定されるので(音素に対し１対１対応であるので)、あ
る認識対象(認識単語)の１つの音素について標準辞書３
内の継続時間パラメータ(継続時間長)を更新したときに
は、標準辞書３内の他の認識対象(認識単語)の同じ音素
についても、継続時間パラメータ(継続時間長)を更新可
能である。例えば、音素／ｏ／を含む認識単語として、
“ソオカン”の他に、例えば、“コオシン”が標準辞書
３内に存在するときに、“ソオカン”の／ｏ／の継続時
間パラメータを更新するときに、“コオシン”の／ｏ／
の継続時間パラメータも同時に新しい継続時間パラメー
タに変更することができる。

【００３８】図６は図１の音声認識装置のハードウェア
構成例を示す図である。図６を参照すると、この音声認
識装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するＣＰＵ２１と、ＣＰＵ２１の制御プ
ログラム等が記憶されているＲＯＭ２２と、ＣＰＵ２１
のワークエリア等として使用されるＲＡＭ２３と、音声
を入力する入力装置２４と、音声認識結果を出力する結
果出力装置(例えば、ディスプレイやプリンタなど)２６
とを有している。

【００３９】ここで、ＣＰＵ２１は、図１の特徴抽出部
２，照合部４，辞書更新部６などの機能を有している。

【００４０】なお、ＣＰＵ２１におけるこのような特徴
抽出部２，照合部４，辞書更新部６等としての機能は、
例えばソフトウェアパッケージ(具体的には、ＣＤ−Ｒ
ＯＭ等の情報記録媒体)の形で提供することができ、こ
のため、図６の例では、情報記録媒体３０がセットさせ
るとき、これを駆動する媒体駆動装置３１が設けられて
いる。

【００４１】換言すれば、本発明の音声認識装置は、汎
用の計算機システムにＣＤ−ＲＯＭ等の情報記録媒体に
記録されたプログラムを読み込ませて、この汎用計算機
システムのマイクロプロセッサに音声認識処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の音声認識処理を実行するためのプログ
ラム(すなわち、ハードウェアシステムで用いられるプ
ログラム)は、媒体に記録された状態で提供される。プ
ログラムなどが記録される情報記録媒体としては、ＣＤ
−ＲＯＭに限られるものではなく、ＲＯＭ，ＲＡＭ，フ
レキシブルディスク，メモリカード等が用いられても良
い。媒体に記録されたプログラムは、ハードウェアシス
テムに組み込まれている記憶装置、例えばハードディス
ク装置にインストールされることにより、このプログラ
ムを実行して、上述した本発明の音声認識処理機能を実
現する音声認識装置の構築に寄与する。

【００４２】また、本発明の音声認識処理機能を実現す
るためのプログラムは、媒体の形で提供されるのみなら
ず、通信によって(例えばサーバによって)提供されるも
のであっても良い。

【００４３】

【発明の効果】以上に説明したように、請求項１乃至請
求項４記載の発明によれば、音声を入力する入力手段
と、入力手段から入力された音声から特徴量を抽出する
特徴抽出手段と、全ての認識対象の標準的な特徴量が予
め格納されている標準辞書と、特徴抽出手段で抽出され
た入力音声の特徴量を標準辞書に格納されている各認識
対象の標準的な特徴量と照合し、各認識対象との類似度
を算出する照合手段と、照合手段の照合結果に基づき、
類似度が高い認識対象を認識結果として出力する結果出
力手段と、標準辞書を更新する辞書更新手段とを有して
おり、前記辞書更新手段は、発声者の発声変動に応じて
標準辞書を逐次変更するので、認識性能を上げることが
できる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成例を示す図で
ある。

【図２】標準辞書内に設定されるパラメータの一例を示
す図である。

【図３】図１の音声認識装置の処理動作を説明するため
のフローチャートである。

【図４】発声者が“相関”という単語を“ソオカン”と
いう発声で発音した場合の類似度算出結果を示す図であ
る。

【図５】発声者が“相関”という単語を“ソオオカン”
という発声で発音した場合の類似度算出結果を示す図で
ある。

【図６】本発明の音声認識装置のハードウェア構成例を
示す図である。

【図７】音声区間検出を行なって音声認識を行なう方法
の処理例を示すフローチャートである。

【図８】ワードスポッティング法の処理例を示すフロー
チャートである。

【符号の説明】

１入力部２特徴抽出部３標準辞書４照合部５結果出力部６辞書更新部

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、入力手段か
ら入力された音声から特徴量を抽出する特徴抽出手段
と、全ての認識対象の標準的な特徴量が予め格納されて
いる標準辞書と、特徴抽出手段で抽出された入力音声の
特徴量を標準辞書に格納されている各認識対象の標準的
な特徴量と照合し、各認識対象との類似度を算出する照
合手段と、照合手段の照合結果に基づき、類似度が高い
認識対象を認識結果として出力する結果出力手段と、標
準辞書を更新する辞書更新手段とを有しており、前記辞
書更新手段は、発声者の発声変動に応じて標準辞書を逐
次変更することを特徴とする音声認識装置。
【請求項２】音声を入力する入力手段と、入力手段か
ら入力された音声から特徴量を抽出する特徴抽出手段
と、全ての認識対象の標準的な特徴量が予め格納されて
いる標準辞書と、特徴抽出手段で抽出された入力音声の
特徴量を標準辞書に格納されている各認識対象の標準的
な特徴量と照合し、各認識対象との類似度を算出する照
合手段と、照合手段の照合結果に基づき、類似度が高い
認識対象を認識結果として出力する結果出力手段と、標
準辞書を更新する辞書更新手段とを有しており、前記辞
書更新手段は、各音素に対応する継続時間長が標準辞書
に存在する場合において、前記照合手段の照合によって
類似度が閾値を越えた認識対象が得られるときには、標
準辞書内の該認識対象を構成する音素の継続時間長の総
和と発声者の単語発声時間長とを比較し、比較結果に応
じて、標準辞書内の該認識対象を構成する音素の継続時
間長を更新することを特徴とする音声認識装置。
【請求項３】請求項２記載の音声認識装置において、
前記辞書更新手段は、標準辞書内の該認識対象を構成す
る音素の継続時間長を更新する際に、該音素の発声時間
長に所定の適応値を乗じた値を、標準辞書内の該音素の
継続時間長として更新することを特徴とする音声認識装
置。
【請求項４】請求項２または請求項３記載の音声認識
装置において、前記辞書更新手段は、標準辞書内の該認
識対象を構成する音素の継続時間長を更新する際には、
標準辞書内の該認識対象の音素のみならず、標準辞書内
の他の認識対象の同じ音素についても、継続時間長を更
新することを特徴とする音声認識装置。