JPH06301400A

JPH06301400A - 音声認識装置

Info

Publication number: JPH06301400A
Application number: JP5087127A
Authority: JP
Inventors: Yumi Takizawa; 由実滝沢
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-04-14
Filing date: 1993-04-14
Publication date: 1994-10-28

Abstract

(57)【要約】【目的】本発明は音声認識装置に関するもので、入力
音声の音声区間長と認識単位の継続時間の相互関係とを
用いて、次に認識しようとする認識単位の継続時間を予
測し、予測された継続時間を用いて照合および認識結果
の決定を行うことにより、同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることで、高性能で高速な音声認識装置を提供する
ことを目的とする。【構成】入力音声の始終端を検出する音声区間検出部
３と、検出された音声区間長を用いて入力音声の認識単
位毎の継続時間を予測する継続時間予測部５と、予測し
た継続時間を利用して、認識単位毎の標準音声と入力音
声との照合および認識結果決定を行う照合部７から構成
されている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】近年、不特定話者の音声認識装置におい
て、認識技術の発達と共に、小語彙だけでなく大語彙の
認識装置が開発されてきている。小語彙の認識では、標
準音声を学習する際に、予め多数話者にて全語彙を発声
してもらい、語彙全体を１つの認識単位として学習して
いた。しかし、同じ方法を大語彙に用いる場合、話者に
発声してもらう語彙数が膨大となるため現実的に学習が
困難となる。そこで、大語彙の認識では、語彙全体を小
区間に分割し、各小区間を認識単位として学習を行う方
法を採用している。これにより大語彙全てを予め発声す
る必要はなく、各認識単位を最低１つ含む語彙セットを
発声するだけで、学習が可能となる。

【０００３】以下、図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。

【０００４】図６は、従来の単語音声認識装置のブロッ
ク図である。１は音声入力端子、２は分析部、３は音声
区間検出部、４は単語標準音声作成部、１８は照合部、
８は認識結果出力端子、９は音節標準音声作成部、１１
は単語辞書、１２は音節標準音声保管バッファ、１４は
スイッチ、１５はメモリバッファである。

【０００５】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
れば所定の単位時間（以後フレームという）に所定の個
数を１組としたＬＰＣケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に音節標準音声
作成部９で、音節毎に分析されたデータをクラスタリン
グし、各クラスタの中心データを音節標準音声保管バッ
ファ１２に保管する。

【０００６】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【０００７】単語辞書１１には認識すべき単語名が音節
列として記載されている。次に単語標準音声作成部で、
上記単語辞書の各単語の音節列に従って、音節標準音声
保管パターンの音節標準音声を連結させ、各単語標準音
声を作成する。

【０００８】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合は、各単語毎に、
（数３）に従ってｉフレームまでの距離Ｄを求め、これ
を単語区間の始端から終端まで行った結果、距離値Ｄが
最小となる単語を認識結果として、結果出力端子より出
力する。

【０００９】

【数３】

【００１０】なおスイッチ１４は、学習時にはバッファ
１５に、認識時には音声区間検出部３に特徴パラメータ
を出力するように動作する。

【００１１】

【発明が解決しようとする課題】しかしながら上記従来
法の標準音声は、単語単位ではなく音節単位で作成され
るため、単語単位の標準音声には反映される単語内の各
音節の相互関係に関する情報は、上記方法では音節標準
音声に反映されない。そのため、各音節の継続時間の相
互関係も考慮されておらず、同単語内の各音節のマッチ
ング区間が不自然にばらついている場合でも、距離値さ
え小さければ、認識結果として成立してしまうという課
題を有していた。

【００１２】

【課題を解決するための手段】上記課題に鑑み、本発明
では、単語内の各音節継続時間は、全て同一の入力音声
区間長を用いて予測しているために、予測された各音節
の継続時間の間の関係は考慮されている。故に、同単語
内の各音節のマッチング区間が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。

【００１３】また、継続時間を予測する際に、上記の手
法に加え、さらに認識単位の継続時間を左右する要因も
用いて予測することにより、上記装置と同様に従来の課
題を解決し、より正確に予測が行われろことで、より高
性能な装置の実現が可能となる。

【００１４】また、継続時間を予測する際に、上記の手
法に加え、認識単位の継続時間を左右する要因毎に、各
要因において同カテゴリーに属する認識単位の平均継続
時間を求める平均継続時間も用いて予測することによ
り、上記装置と同様に従来の課題を解決し、より正確に
予測が行われろことで、より高性能な装置の実現が可能
となる。

【００１５】また、継続時間を予測する際に、上記の手
法に加え、認識単位の継続時間を左右する要因毎の認識
単位の平均継続時間と音声区間長とを用いて、（数１）
により継続時間を予測することにより、上記装置と同様
に従来の課題を解決し、より正確に予測が行われろこと
で、より高性能な装置の実現が可能となる。

【００１６】また、継続時間を予測する際に、上記の手
法に加え、認識単位の継続時間を左右する要因毎の認識
単位の平均継続時間と音声区間長とを用いて、（数２）
により継続時間を予測することにより、上記装置と同様
に従来の課題を解決し、より正確に予測が行われろこと
で、より高性能な装置の実現が可能となる。

【００１７】また、各音節のマッチング区間が予測され
た音節継続時間の値と近くなるように照合を行うことに
より、上記装置と同様に従来の課題を解決し、高性能な
装置の実現が可能となる。また、各認識単位の終端をを
予測値付近に限定することで、照合処理の高速化も可能
となる。

【００１８】また、予測された認識単位の継続時間予測
値を用いて入力音声における認識単位毎の境界を決定
し、決定した境界付近に各認識単位の終端があるように
照合及び認識結果決定を行うことにより、上記装置と同
様に従来の課題を解決し、高性能な装置の実現が可能と
なる。また、各認識単位の終端をを境界付近に限定する
ことで、照合処理の高速化も可能となる。

【００１９】

【作用】この構成によって、同単語内の各音節のマッチ
ング区間が現実的な場合のみ、認識候補として成立し、
高性能な音声認識装置の実現が可能となる。

【００２０】

【実施例】以下、本発明の実施例について図を参照しな
がら説明する。

【００２１】（実施例１）図１は本発明第１の実施例に
おける単語音声認識装置のブロック図である。１は音声
入力端子、２は分析部、３は音声区間検出部、４は単語
標準音声作成部、５は音節継続時間予測部、６は照合区
間決定部、７は照合部、８は認識結果出力端子、９は音
節標準音声作成部、１０は重み算出部、１１は単語辞
書、１２は音節標準音声保管バッファ、１３は平均継続
時間保管バッファ、１４はスイッチ、１５はバッファメ
モリである。また図２、図３は重み算出部１０と継続時
間予測部５との詳細図である。図２、図３において、１
０１は重み正規化部、１０２は要因平均部、１０３は予
測値算出部、６は照合範囲決定部、１０５は継続時間カ
ウンタ、１０６は平均継続時間算出部である。前記従来
例と同じものは、同一の番号を付与している。

【００２２】以上のように構成された音声認識装置につ
いて以下その動作について説明する。

【００２３】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎に所定の個数を１組としたＬＰＣケプス
トラム係数が特徴パラメータとして算出され、バッファ
メモリ１５に保管される。上記分析処理を、所定の個数
の学習音声データが終わるまで繰り返す。

【００２４】次に音節標準音声作成部９で、バッファメ
モリ１５に保管されたデータをクラスタリングし、各ク
ラスタの中心データを音節標準音声保管バッファ１２に
保管する。

【００２５】次に重み算出部１０で、バッファメモリ１
５に保管されたデータを(1)その音節の種類毎、(2)単語
内でその音節先行する音節の種類毎、(3)単語内でその
音節に後続する音節の種類毎に、それそれクラス分けを
行い、各々の平均継続時間ｆ１，ｆ２，ｆ３を算出す
る。まず、各音節データの継続時間を継続時間カウンタ
ー１０５で算出する。たとえば、各データの所定の個数
を１組としたＬＰＣケプストラム係数列の数をカウント
すればよい。次に平均継続時間算出部１０６で、各音節
の種類毎の継続時間の平均値を算出し、上記各音節の種
類毎に平均継続時間保管バッファ１３に保管する。

【００２６】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００２７】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００２８】次に継続時間予測部５で、学習時に求めら
れている各要因毎の平均音節区間ｆ１，ｆ２，ｆ３と、
音声区間長Ｌを用いて、（数１）に従って音節継続時間
を予測する。

【００２９】まず重み正規化部１０１で、要因毎に各音
節に相当する平均継続時間を単語全体の平均継続時間
で、（数４）のように正規化する。

【００３０】

【数４】

【００３１】次に、要因平均部１０２で、全ての要因
（本実施例の場合は、先行音声の種類、当該音節の種
類、後続音節の種類の３要因）を考慮するために、上記
正規化された平均継続時間を（数５）のように重み付け
加算し、予測値算出部１０３で、上記値を音声区間長に
（数６）のように掛けて音節継続時間予測値を算出す
る。ただし、（数５）におけるα値は、本実施例では要
因に依らず一定値とし、要因数（実施例では３）分の１
（＝1/3）を用いた。

【００３２】

【数５】

【００３３】

【数６】

【００３４】次に照合範囲決定部６で、n番目の音節の
継続時間は予測された継続時間の±β内に存在するとし
て照合範囲をこの範囲に限定して、照合部７で従来例の
数３に基づいて、音声の始端から終端まで照合し、距離
値Ｄを算出する。たとえば、n-1番目の音節の終端がjフ
レームであった場合、n番目の音節の終端の範囲が（数
７）に示した範囲になるように照合する。

【００３５】

【数７】

【００３６】単語標準音声作成部から照合までの処理を
単語辞書に記載されている全単語について行い、距離値
Ｄの値が最小となる単語を最終認識結果として、認識結
果出力部より出力する。なおスイッチ１４は、学習時に
はバッファ１５に、認識時には音声区間検出部３に特徴
パラメータを出力するように動作する。

【００３７】以上のように、本実施例によれば、予め、
重み算出部で、音節継続時間を左右する要因毎に平均音
節継続時間を算出しておき、継続時間予測部で、入力音
声の音声区間長と上記平均継続時間とを用いて、（数
１）を用いて認識しようとする入力音声の認識単位毎の
継続時間を予測し、照合部で予測した継続時間を中心と
する一定範囲で照合することにより、同入力音声内の音
節毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。同時に、照合区間を限定していること
で高速の照合処理が可能となる。

【００３８】（実施例２）次に、本発明第２の実施例に
ついて図を参照しながら説明する。本実施例における構
成は、図１の語音声認識装置、図３の重み算出部９の詳
細図に示す構成と同様である。また図４は継続時間予測
部５の詳細図である。１０７は学習音声継続時間予測
部、１０８は入力音声継続時間予測部である。前記従来
例と同じものは，同一の番号を付与している。

【００３９】まず標準音声学習時には、上記実施例１と
同様に、音節標準音声を作成し保管バッファに保管し、
重み算出部で、要因毎の平均継続時間を算出し、重み保
管バッファに保管する。

【００４０】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００４１】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００４２】次に音節継続時間予測部５で、学習時に求
められている各要因毎の平均音節区間ｆ１，ｆ２，ｆ３
と、音声区間長Ｌを用いて、（数１）に従って音節継続
時間を予測する。

【００４３】まず学習音声継続時間予測部１０７で、学
習音声における各音節の継続時間を、予め学習された要
因毎の平均音節継続時間ｆ１，ｆ２，ｆ３に重み付けし
て加算する（数８）を用いて予測する。次に入力音声継
続時間予測部１０８で、音声区間長を用いて、上記学習
音声における音節継続時間の値を入力音声用に変換し
（数９）、予測値とする。ただし、（数８）におけるα
値は、本実施例では要因に依らず一定値とし、要因数
（実施例では３）分の１（＝1/3）を用いた。

【００４４】

【数８】

【００４５】

【数９】

【００４６】次に照合範囲決定部６で、n番目の音節の
継続時間は（数１０）に示した範囲に存在するとして照
合範囲をこの範囲に限定し、照合部７で従来例の数７に
基づいて、音声の始端から終端まで照合し、距離値Ｄを
算出する。

【００４７】

【数１０】

【００４８】単語標準音声作成部から照合までの処理を
単語辞書に記載されている全単語について行い、距離値
Ｄの値が最小となる単語を最終認識結果として、認識結
果出力部より出力する。なおスイッチ１４は、学習時に
はバッファ１５に、認識時には音声区間検出部３に特徴
パラメータを出力するように動作する。

【００４９】以上のように、本実施例によれば、予め、
重み算出部で、音節継続時間を左右する要因毎に平均音
節継続時間を算出しておき、継続時間予測部で、入力音
声の音声区間長と上記平均継続時間とを用いて、（数
２）を用いて認識しようとする入力音声の認識単位毎の
継続時間を予測し、照合部で予測した継続時間を中心と
する一定範囲で照合することにより、同入力音声内の音
節毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。同時に、照合区間を限定していること
で高速の照合処理が可能となる。

【００５０】（実施例３）次に、本発明第３の実施例に
ついて図を参照しながら説明する。図５は本発明第３の
実施例における単語音声認識装置のブロック図である。
１は音声入力端子、２は分析部、３は音声区間検出部、
４は単語標準音声作成部、５は音節継続時間予測部、１
５は境界決定部、７は照合部、８は認識結果出力端子、
９は音節標準音声作成部、１０は重み算出部、１１は単
語辞書、１２は音節標準音声保管バッファ、１３は平均
継続時間保管バッファ、１４はスイッチ、１５はバッフ
ァメモリである。また、図３は重み算出部１０の詳細
図、図４は継続時間予測部５の詳細図であり、先の実施
例と同様である。

【００５１】まず標準音声学習時には、上記実施例１と
同様に、音節標準音声を作成し保管バッファに保管し、
重み算出部で、要因毎の平均継続時間を算出し、重み保
管バッファに保管する。

【００５２】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００５３】次に単語標準音声作成部４で、単語辞書１
１に記載されている単語の音節列に従って、音節標準音
声保管バッファ１２にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。

【００５４】次に音節継続時間予測部５で、学習時に求
められている各要因毎の平均音節区間ｆ１，ｆ２，ｆ３
と、音声区間長Ｌを用いて、請求項第５項の数２に従っ
て音節継続時間を予測する。

【００５５】まず学習音声継続時間予測部１０７で、学
習音声における各音節の継続時間を、予め学習された要
因毎の平均音節継続時間ｆ１，ｆ２，ｆ３に重み付けし
て加算する（数８）を用いて予測する。次に入力音声継
続時間予測部１０８で、音声区間長を用いて、上記学習
音声における音節継続時間の値を入力音声用に変換し
（数９）、予測値とする。ただし、（数８）におけるα
値は、本実施例では要因に依らず一定値とし、要因数
（実施例では３）分の１（＝1/3）を用いた。

【００５６】次に境界決定部１５で、n-1番目の音節とn
番目の音節との境界を、（数９）に示すｋ(n-1) と定義
し、照合部６でn-1番目の音節のマッチングの終端ｉがk
(n-1)付近になるように数１０のように従来例の（数
３）のように照合を行う。

【００５７】単語標準音声作成部から照合までの処理を
単語辞書に記載されている全単語について行い、距離値
Ｄの値が最小となる単語を最終認識結果として、認識結
果出力部より出力する。なおスイッチ１３は、学習時に
はバッファ１５に、認識時には音声区間検出部３に特徴
パラメータを出力するように動作する。

【００５８】以上のように、本実施例によれば、予め、
重み算出部で、音節継続時間を左右する要因毎に平均音
節継続時間を算出しておき、継続時間予測部で、入力音
声の音声区間長と上記平均継続時間とを用いて、（数
２）を用いて認識しようとする入力音声の認識単位毎の
継続時間を予測し、照合部で予測した継続時間を用いて
音節の境界を決定し、境界付近を各音節のマッチングの
終端となるように照合を行うことにより、同入力音声内
の音節毎の継続時間の差が現実的な場合のみ、認識候補
として成立させることができるため、より高性能な装置
の実現が可能となる。

【００５９】同時に、照合区間を限定していることで高
速の照合処理が可能となる。

【００６０】

【発明の効果】以上のように本発明の音声認識装置は、
音声区間検出部で検出された音声区間長を用いて、継続
時間予測部で入力音声の認識単位の継続時間を予測し、
予測した継続時間を用いて、照合及び認識結果決定を行
うことにより、同単語内の各音節のマッチング区間が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。

【００６１】また、上記のものに加えて、さらに重み算
出部で認識単位の継続時間を左右する要因も用いて重み
を算出し、音声区間長と左記の重みを用いて認識単位の
継続時間を予測し、予測した継続時間を用いて、照合及
び認識結果決定を行うことにより、さらに予測性能が向
上し、さらに高性能な装置の実現が可能となる。

【００６２】また、上記のものに加えて、さらに平均継
続時間算出部で認識単位の継続時間を左右する要因毎
に、各要因において同カテゴリーに属する認識単位の平
均継続時間を求め、音声区間長と左記の平均継続時間を
用いて認識単位の継続時間を予測し、予測した継続時間
を用いて、照合及び認識結果決定を行うことにより、さ
らに予測性能が向上し、さらに高性能な装置の実現が可
能となる。

【００６３】また、上記のものに加えて、継続時間予測
部で、算出された平均継続時間（数１内のfj(t)）を用
いて予め各要因毎に音声区間全長の平均継続時間と各認
識単位の平均継続時間との比を求めておき、その比を要
因全体で重みづけしながら加算した値を用いて音声区間
長Ｌから入力音声の認識単位毎の継続時間の予測値を算
出し、予測した継続時間を用いて、照合及び認識結果決
定を行うことにより、さらに予測性能が向上し、さらに
高性能な装置の実現が可能となる。

【００６４】また上記のものに加えて、継続時間予測部
で、算出された平均継続時間（数２内のf(i)）を用いて
予め学習音声における認識単位毎の継続時間を予測して
おき、この予測値を用いて音声区間全長Ｌから入力音声
の認識単位毎の継続時間の予測値を算出し、予測した継
続時間を用いて、照合及び認識結果決定を行うことによ
り、さらに予測性能が向上し、さらに高性能な装置の実
現が可能となる。

【００６５】また上記のものに加えて、照合区間決定部
で、各認識単位の照合区間が予測された継続時間予測値
付近となるように照合区間を決定し、照合部で、決定し
た照合区間内で、各認識単位が照合されるように照合及
び認識結果決定を行うことにより、さらに予測性能が向
上し、さらに高性能な装置の実現が可能となる。また、
照合区間を限定していることで高速の照合処理が可能と
なる。

【００６６】また上記のものに加えて、境界検出部で、
予測された認識単位の継続時間予測値を用いて入力音声
における認識単位毎の境界を決定し、照合部で、決定し
た境界付近に各認識単位の終端があるように照合及び認
識結果決定を行うことにより、さらに予測性能が向上
し、さらに高性能な装置の実現が可能となる。また、照
合区間を限定していることで高速の照合処理が可能とな
る。

【図面の簡単な説明】

【図１】本発明の実施例における音声認識装置のブロッ
ク図

【図２】本発明の実施例における重み算出部のブロック
図

【図３】本発明の実施例における継続時間予測部のブロ
ック図

【図４】本発明の実施例における継続時間予測部のブロ
ック図

【図５】本発明の実施例における音声認識装置のブロッ
ク図

【図６】従来例における音声認識装置のブロック図

【符号の説明】１信号入力端子２分析部３音声区間検出部４単語標準音声作成部５継続時間予測部６照合区間決定部７照合部８認識結果出力端子９音節標準音声作成部１０重み算出部１１単語辞書１２音節標準音声保管バッファ１３平均継続時間保管バッファ１４スイッチ１５バッファメモリ

Claims

【特許請求の範囲】

【請求項１】入力音声の始終端を検出する音声区間検出
部と、検出された音声区間長を用いて入力音声の認識単
位毎の継続時間を予測する継続時間予測部と、予測した
継続時間を利用して、認識単位毎の標準音声と入力音声
との照合および認識結果決定を行う照合部とからなるこ
とを特徴とする音声認識装置。
【請求項２】認識単位の継続時間を左右する要因を用い
て重みを算出する重み算出部と、音声区間検出部で検出
された音声区間長と重み算出部で算出された重みとを用
いて、入力音声の認識単位毎の継続時間を予測する継続
時間予測部と、予測した継続時間を利用して照合または
認識結果決定を行う照合部とからなることを特徴とする
請求項１記載の音声認識装置。
【請求項３】認識単位の継続時間を左右する要因毎に、
各要因において同カテゴリーに属する認識単位の平均継
続時間を求める平均継続時間算出部と、音声区間検出部
で検出された音声区間長と平均継続時間算出部で算出さ
れた平均継続時間を用いて、入力音声の認識単位毎の継
続時間を予測する継続時間予測部と、予測した継続時間
を利用して照合及び認識結果決定を行う照合部とからな
ることを特徴とする請求項１記載の音声認識装置。
【請求項４】算出された平均継続時間（数１内のfj
(i)）を用いて、予め各要因毎に音声区間全長の平均継
続時間と各認識単位の平均継続時間との比を求めてお
き、その比を要因全体で重みづけしながら加算した値を
用いて、音声区間全長Ｌから以下に示す（数１）に基づ
いて入力音声の認識単位毎の継続時間の予測値を算出す
る継続時間予測部と、予測した継続時間を利用して照合
及び認識結果決定を行う照合部とからなることを特徴と
する請求項３記載の音声認識装置。【数１】
【請求項５】算出された平均継続時間f(i)を用いて、予
め学習音声における認識単位毎の継続時間を予測してお
き、この予測値を用いて、音声区間全長Ｌから以下に示
す（数２）に基づいて入力音声の認識単位毎の継続時間
の予測値を算出する継続時間予測部と、予測した継続時
間を利用して照合および認識結果決定を行う照合部とか
らなることを特徴とする請求項３記載の音声認識装置。【数２】
【請求項６】予測された認識単位の継続時間予測値を用
いて各音節のマッチング区間が予測された音節継続時間
値と近い値になるように照合及び認識結果決定を行う照
合部とからなることを特徴とする請求項２記載の音声認
識装置。
【請求項７】予測された認識単位の継続時間予測値を用
いて入力音声における認識単位毎の境界を決定する境界
検出部と、決定した境界付近に各認識単位の終端がある
ように照合及び認識結果決定を行う照合部とからなるこ
とを特徴とする請求項２記載の音声認識装置。