JPH03174600A

JPH03174600A - 音声認識方式

Info

Publication number: JPH03174600A
Application number: JP1312272A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-12-02
Filing date: 1989-12-02
Publication date: 1991-07-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は標準パターン作成時の特徴ノくターン抽出誤り
を少なくして精度の高い標準ノくターンを得、入力単語
音声に対する認識性能を高めることのできる単語音声認
識方式に関する。

（従来の技術）音声による情報の人出力は人間にとって自然性が高く、
優れたマンマシン・インターフェースを実現する手法と
して着目され、音声認識装置や音声合成装置等として従
来より種々研究・開発されている。

さて現在、実用化されている音声認識装置の殆どは、そ
の認識対象を単語音声とするもので、−般的には第３図
に示すように構成されている。即ち、この種の装置は、
発声入力された音声を電気信号に変換して取り込み、バ
ンドパス・フィルタ等からなる音響分析部１にて音響分
析してその特徴パラメータの系列を求め、例えばその音
声パワーの変化から始端・終端検出部２にてその単語音
声区間を検出する。そして入力音声の上記単語音声区間
における音響分析データ（特徴パラメータの系列；音声
パターン等の特徴情報）と、標準パターン辞書３に予め
登録されている認識対象単語についての標準パターンと
の間での類似度や距離等を類似度演算部４にて計算し、
その計算結果を認識結果出力部５にて判定することで、
例えば最も高い類似度値を得た標準パターンのカテゴリ
名を前記入力音声に対する認識結果として求めるものと
なっている。

尚、上記始端・終端検出部２における音声区間検出は、
従来一般的には入力単語音声のパワー時系列を求め、そ
の音声パワーＰが所定の閾値Ｔ１より大きくなった時点
を入力音声単語の始端Ｓとして検出し、またこの音声始
端検出後に上記音声パワーＰが所定の閾値Ｔ２より小さ
くなった時点をその入力音声単語の終端Ｅとして検出す
ることにより行われる。

ところがこのような音声区間検出では、その音声区間が
一意に決定されるので、例えば実際の音声区間の前後に
息洩れや舌打ちノイズ等が存在すると、これをも音声区
間の一部として検出してしまうと云う不具合がある。ま
た逆に音節の先頭や最終音節が無声化し易い単語音声の
場合には、その無声化音節部分のパワーＰが極端に小さ
くなるので、この部分が検出音節区間から脱落し易いと
云う欠点がある。

このような音声区間の検出誤りを防ぐ手法として、同一
単語について複数回発声した入力音声からそれぞれ求め
られる特徴パターン間で相互に類似度を計算し、この類
似度計算結果に従って正しい単語音声区間を検出する方
式が提唱されている。

しかし複数回の発声の全てに同じようなノイズの付加や
音声区間の脱落が生じると、上述した特徴パターン間の
類似度計算による発声区間の比較だけでは音声区間の検
出誤りを防ぐことができないと云う問題がある。

ところで従来、類似度計算に用いられる入力音声の特徴
パターンは、一般的に始端・終端検出された音声区間の
特徴パラメータの系列を時間軸方向に、例えば１６点程
度に亘って等間隔にリサンプル抽出して求められる。こ
のリサンプル点数をより多くすれば、その分、その特徴
パターンにて表現される特徴量が大きくなり、高性能な
認識が可能となる。しかし入力音声から求められる特徴
パターンと標準パターン辞書３に登録された複数の認識
対象カテゴリについての各標準パターンとの間で行われ
る類似度演算の量が膨大化することが否めず、その演算
処理に必要なメモリ容量も非常に大きくなる。このよう
な事情から従来一般的には、上述したように１６点程度
のリサンプルによりその特徴パターンを求めるものとな
っている。

また標準パターンの作成に際しても、上述した如く求め
られる特徴パターンをそのまま用いて行われているのが
実情である。

然し乍ら、認識処理の基準となる標準パターンを上述し
た次数の低い特徴パターンをそのまま用いて作成すると
、認識対象カテゴリの特徴を十分に表現できないことが
多々あり、認識性能の向上を図る上での解決すべき大き
な課題となっている。

（発明が解決しようとする課題）このように従来にあっては、標準パターンの作成に際し
ても、認識処理時に用いられる特徴パターンと同様な特
徴パターンを用いているので、標準パターン辞書の性能
を高めて認識性能の向上を図ることが非常に困難である
と云う問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、標準パターンの辞書の性能を十
分に高めて認識対象単語音声に対する認識性能を十分に
高めることのできる単語音声認識方式を提供することに
ある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識処理は、入力単語音声から求めら
れる特徴パターンに基づく標準パターンの作成時の類似
度演算量が、入力音声に対する認識処理時の類似度演算
量に比較して十分に少ないことに着目してなされたもの
で、入力単語音声を音響分析して求められる特徴パラメータ
から上記入力単語音声の音声区間候補を求め、この音声
区間候補毎に前記特徴パラメータをリサンプルにより正
規化して認識処理に用いられる前記入力音声の特徴パタ
ーンを生成し、この入力単語音声の特徴パターンと認識
対象単語音声の標準パターンとの類似度を計算して前記
入力音声に対する認識結果を求める入力単語音声認識処
理に対して、標準パターンの作成時には、認識対象カテゴリの入力単
語音声を音響分析して求められる特徴パラメータを、前
記音声区間候補毎にリサンプルして標準パターンの作成
に用いられる特徴パターンを生成する際、そのリサンプ
ル点数を前述した認識処理時よりも多く設定し、これに
よって特徴量が多く含まれる特徴パターンを得ることで
、単語区間精度の高い標準パターンを高性能に作成し得
るようにしたことを特徴とするものである。

（作　用）本発明によれば、標準パターンの作成に用いられる特徴
パターンのリサンプル点数を、音声認識処理に用いられ
る特徴パターンのリサンプル点数よりも多く設定するの
で、そのサンプル点数が少ないことに起因する音声単語
の特徴の欠落を防ぎ、その特徴パターンに対する音声区
間検出精度を十分に高めて標準パターンを高性能に作成
することが可能となる。しかも標準パターンを作成する
為に必要な特徴パターンに対する類似度演算量がさほど
多くないので、その処理負担を徒に増大させることなく
標準パターン辞書の性能を効果的に高めて認識性能の向
上を図ることが可能となる。

（実施例）以下、図面を参照して本発明に係る単語音声認識方式の
一実施例について説明する。

第１図は実施例方式が適用される音声認識装置の要部概
略構成図であり、１１は入力音声を音響分析してその特
徴パラメータを求める音響分析部である。この音響分析
部１１は音声区間検出に用いる為の特徴量としてその音
声パワー時系列を求めると共に、認識辞書との照合に用
いる為の特徴量として、例えば周波数分析したバンドパ
スフィルタ群出力を求める。

単語境界仮説生成部１２は上記音響分析部１１で求めら
れた入力音声の特徴パラメータに対して種々の音声区間
検出パラメータを適応的に設定して複数の音声区間候補
を設定する。具体的には、単語境界仮説生成部１２は入
力単語音声に対して複数の始端候補（Ｓｌ、Ｓ２．〜Ｓ
Ｍ）と複数の終端候補（Ｅ　ｌ、Ｅ　２．〜ＥＮ）とを
それぞれ求め、これらの各候補に対して所定の規則に従
って確率（ｆ　ｓｌ。

ｆｓ２．〜ｆｓＭ）　、　　（ｆｅｌ、　　ｆｅ２．〜
ｆｅＮ）をそれぞれ与える。

そして上記始端候補（ＳＬ、Ｓ２．〜．ＳＭ）と終端候
補（Ｅｌ、Ｅ２．〜ＥＮ）の組み合わせとして求められ
る複数の音声区間候補［Ｓａ＋、Ｅｎ］　　（但し。

ｍ−１，２、〜Ｍ　−ｎ　＝　１．２、〜Ｎ　）　１．
：　ツいての尤度ＬＬＩＩｎをＬｓｎ　　　−ｆｓＩ　
　Ｘ　　　　ｆｅｎとして計算し、これらの音声区間候
補［Ｓｍ、Ｅｎ］についての尤度Ｌｌｎをその値の高い
ものから順に、上位の複数の音声区間候補を検出する。

しかして第１のリサンプル部１３は上述した如く求めら
れる複数の音声区間候補［Ｓｍ、Ｅｎコについて、前記
音響分析部１１にて周波数分析して求められたバンドパ
スフィルタ群出力からなる特徴パラメータを、例えば１
６点に亘って等分割にリサンプルし、各音声区間候補に
おける入力単語音声の正規化された第１の特徴パターン
をそれぞれ求める。

尚、尤度の高い音声区間候補が１つしか求めらレナい場
合には、その音声区間候補についてのみリサンプル処理
が行われ、１つの第１の特徴パターンだけが求められる
。

第１の類似度計算部Ｉ４はこのようにして求められる入
力単語音声についての第１の特徴パターンと、標準パタ
ーン辞書１５に予め登録されている認識対象単語につい
ての後述する標準パターンとの間での類似度をそれぞれ
計算する。認識結果出力部ｉ８は、上記第１の類似度計
算部１４にて求められる入力単語音声の第１の特徴パタ
ーンと認識対象単語についての標準パターンとの類似度
を相互に比較し、高い類似度結果を得た所定数の認識対
象単語のカテゴリ名とその類似度値をそれぞれ求める。

そしてこれらの上位複数個のカテゴリ名を前記入力単語
音声に対する認識候補として出力したり、或いはその類
似度値が最上位の認識対象単語のカテゴリ名を前記入力
単語音声に対する認識結果として出力する。

ところで前記標準パターン辞書１５に登録される認識対
象単語についての標準パターンは、いま１つ別の処理系
統として設けられた第２のリサンプル部１７と第２の類
似度演算部１８、および標準パターン作成部１９とによ
り生成される。

第２のリサンプル部Ｉ７は、前記単語境界仮説生成部１
２にて求められた複数の音声区間候補［Ｓ［ｌＩ。

Ｅｎ］について、前記第１のリサンプル部１３よりも多
いリサンプル点数（標本化点数）、例えば３２点に亘っ
て前記音響分析部１１で求められた認識対象カテゴリに
ついての入力単語音声の特徴パラメータをリサンプル処
理し、以下に説明する標本パターン作成時の音声区間検
出に供する為の第２の特徴パターンをそれぞれ抽出する
。

第２の類似度演算部１８は、標準パターン作成時にカテ
ゴリ名の既知なる認識対象単語音声を複数回に亘って発
声入力したとき、前述した第２のリサンプル部１７にて
それぞれ求められる次数の高い複数の第２の特徴パター
ンを用いて、複数の発声入力単語音声間での類似度を計
算する。この類似度計算は、従来より種々提唱されてい
る部分空間法やＤＰマツチング法等の手法を用いて行わ
れる。

しかしてこの第２の類似度演算部１８は、複数の発声入
力音声からそれぞれ求められた第２特徴パターン間の類
似度から、その類似度が所定の閾値を越える複数の発声
に亘る特徴パターンの組み合わせが存在するか否かを判
定している。そしてその類似度が成る閾値を越える第２
の特徴パターンの組み合わせが上記複数の発声入力単語
音声中で存在することが検出されたとき、その第２特徴
パターンと音声区間を同じくする第１の特徴パターンを
前記第１のリサンプル部Ｉ３から抽出し、これを標準パ
ターン作成部１９に与えている。尚、上記類似度が成る
閾値を越える第２の特徴パターンの組み合わせが上記複
数の発声入力単語音声中で存在しない場合には、当該単
語音声の再発声入力が促される。

標準パターン作成部１９はこのようにして尤度が所定の
閾値を越える第２特徴パターンの組み合わせをなしてい
る前記各入力単語音声の前記第１の特徴パターンをその
認識対象単語についての標準パターンとして求め、その
標準パターンに入力音声のカテゴリ名を付して前記標準
パターン辞書１５に登録する。

この標準パターンの作成について更に詳しく説明すると
、標準パターン作成時にはカテゴリ名の既知なる単語音
声を複数回に亘って発声入力する。

そしてこれらの入力単語音声について前述した音響分析
部１１にて音響分析してその特徴パラメータを求め、前
記単語境界仮説生成部１２にて確からしい音声区間候補
をそれぞれ求める。そしてこれらの各音声区間候補につ
いて前記第２のリサンプル部１７にてその特徴パターン
、つまり第２の特徴パターンをそれぞれ求める。

具体的には第２図に示すように、１回目の発声時にその
音声区間候補Ｌ　１１．　　Ｌ　Ｌ２を求め、これらの
音声区間候補Ｌｌｌ、　　Ｌ１２での特徴パターンＰ　
１１゜ＰＬ２を第２のリサンプル部１７にてそれぞれ求
める。

同様にして２回目の発声時にはその音声区間候補Ｌ２１
．　Ｌ２２についてその特徴パターンＰ　２１．　　Ｐ
　２２をそれぞれ求め、更に３回目の発声時にもその音
声区間候補Ｌ８１．　Ｌ１２についてその特徴パターン
Ｐ３１．　　Ｐ３２を第２のリサンプル部１７にてそれ
ぞれ求める。

尚、ここでは各入力単語音声について２つの音声区間候
補を求め、それらの特徴パターンを求めているが、３個
以上の音声区間候補についての特徴パターンをそれぞれ
求める場合もある。また３回の発声で十分なる結果が得
られない場合には、４回以上の発声が促される場合も勿
論ある。

第２の類似度演算部１８はこのようにして求められる各
発声入力音声の複数の特徴パターン間で、相互にその類
似度（尤度）を計算し、その類似度が所定の閾値を越え
る特徴パターンの組み合わせが上記複数の発声入力単語
音声中に存在するか否かを調べる。

例えば上述した１回目の発声入力音声から求められた音
声区間Ｌｌｌに対応する２回目の発声入力音声から得た
音声区間を求めるべく、上記音声区間Ｌｌｌの特徴パタ
ーンｐＨと、２回目の発声入力音声から求められる音声
区間Ｌ２Ｌ、　　Ｌ２２の各特徴パターンＰ２１．　　
Ｐ２２との間で、その間の類似度Ｑを次のようにそれぞ
れ計算する。

Ｑ２１−　［Ｐｌｌ−Ｐ２１］　、　Ｑ２２−　［Ｐｌ
ｌ−Ｐ２２］そしてこれらの類似度の中で最大値に対し
て、成る閾値Ｔを越えているか否かの判定を行い、類似
度が閾値Ｔ以上である場合には、その特徴パターンを前
記特徴パターンＰＬＩに対応する特徴パターンとして求
め、音声区間の対応付けを行う。

例えばＱ２１≧Ｑ２２であって、Ｑ２１≧Ｔである場合
、２回目の発声入力音声から求められた特徴パターンＰ
２１を１回目の発声入力音声から求められた特徴パター
ンｐＨに対応する特徴パターンであるとして求め、音声
区間ＬｌｌとＬ２＋とが対応しているとの結果を求める
。

しかる後、前記音声区間Ｌｌｌに対応する３回目の発声
入力音声から得た音声区間を求めるべく、この３回目の
発声入力音声から求められる音声区間Ｌ８１．　　Ｌ３
２の各特徴パターンＰ　３１．　　Ｐ　３２との間で、
その間の類似度Ｑを次のようにそれぞれ計算する。

Ｑ３１−　　　［Ｐｌｌ　　・　Ｐ３１コ　、　　　Ｑ
３２−　　　［ｐＨ・　Ｐ　３２］そして同様にしてこ
れらの類似度の中で最大値に対して、成る閾値Ｔを越え
ているか否かの判定を行い、類似度が閾値Ｔ以上である
場合には、その特徴パターンを前記特徴パターンｐＨに
対応する特徴パターンとして求め、音声区間の対応付け
を行う。

例えばＱ３２≧Ｑ３１であって、Ｑ３２ｋＴである場合
、２回目の発声入力音声から求められた特徴パターンＰ
３２を１回目の発声入力音声から求められた特徴パター
ンＰＬＩに対応する特徴パターンであるとして求め、音
声区間ＬｌｌとＬ３２とが対応しているとの結果を求め
る。

このような類似度に対する判定処理により、この例では
音声区間Ｌ１１．　　Ｌ２１．　　Ｌ３２が相互に対応
する音声区間の組み合わせであるとして求められる。

同様にして前述した１回目の発声入力音声から求められ
る音声区間Ｌ１２についても２回目の発声入力音声から
求められる音声区間Ｌ２１．　　Ｌ２２に対し、それら
の音声区間の特徴パターンについて、その類似度Ｑをそ
れぞれ次のように計算する。

Ｑ２１’　−［Ｐ２１・Ｐ３１］。

Ｑ２２’　　　−［Ｐ２１　　・　Ｐ３２コそしてこの
場合、仮に０２１’　ｋ　Ｑ　２２’であった場合には
、Ｑ２１’が所定の閾値Ｔ以上であるか否かの判定が行
われる。しかしこの場合には、特徴パターンＰ１２は正
しい音声区間の前方にノイズが加わった特徴パターンで
あることから、正しい音声区間の特徴パターンＰ２１と
の類似度Ｑ２１’　は小さいものとなっている。この結
果、例えば前述した所定の閾値Ｔより大きいと云う条件
が満たされなくなるので、この場合には２回目の発声入
力音声から求められた音声区間には前記音声区間ＬＬ２
に対応するものがないと判定される。

しかし仮にＱ２１′が所定の閾値Ｔ以上である場合には
、音声区間Ｌ１２と音声区間Ｌ２１とが対応するとして
判定される。従ってこの場合には、３回目の発声入力音
声から求められた音声区間Ｌ３１゜Ｌ３２に対して同様
に。それらの音声区間における特徴パターン間での類似
度Ｑが次のように計算される。

Ｑ３１’　　−［Ｐ２１−Ｐ３１コ　。

Ｑ３２’　　　−［Ｐ２１　　・　Ｐ３２コそしてＱ３
１’　≧Ｑ３２′なる関係が導き出された場合には、Ｑ
　８１’が所定の閾値Ｔ以上であるか否かの判定が行わ
れる。

しかしこの場合、前述したように特徴パターンＰ１２は
正しい音声区間の前方にノイズ区間が加わって求められ
た特徴パターンであることから、３回目の発声入力音声
から求められた特徴パターンＰ３１との類似度Ｑ３１の
値は小さく、−膜内には前述した所定の閾値Ｔに対する
条件が満たされない。

このような結果から、３回目の発声入力音声から求めら
れる音声区間Ｌ３１．　　Ｌ３２は前述した１回目の発
声から求められる音声区間ＬＬ２には対応しないとして
判定される。

このようにして１回目の発声入力音声から求められた音
声区間Ｌ１２に対して、２回目および３回目の発声入力
音声から求められた音声区間中に対応するものがないと
判定された場合、その音声区間は正しくないと判定され
る。この結果、この第２図に示す例では、１回目乃至３
回目の発声入力音声から求められた音声区間Ｌｌｌ、　
　Ｌ２１．　　Ｌ８２の組み合わせについてだけ、それ
らの間の類似度に対する判定条件が満たされることから
、これらの音声区間の組が正しい音声区間のものである
と判断される。そしてこれらの音声区間に対応する第１
の特徴パターンｐＨ，Ｐ２１．　　Ｐ３２を前記第１の
リサンプル部１３から求め、これらの第１の特徴パター
ンｐＨ，Ｐ２１．　　Ｐ３２に基づいて該入力音声カテ
ゴリについての標準パターンの作成が行われる。

この標準パターンの作成は、例えばこれらの第１の特徴
パターンＰＩＬ、　　Ｐ２１．　　Ｐ３１を平均化する
等して求められる。

ところで上述したようにして複数回の発声入力音声から
それぞれ求められる特徴パターンの組み合わせを求める
場合、その特徴パターンの組み合わせが複数通り求めら
れる場合がある。

このような場合には、そのいずれの組み合わせの特徴パ
ターンが正しい音声区間のものであるかをこのままでは
判定することができないので、例えばその組み合わせ判
定に使用した類似度Ｑの情報を用い、類似度Ｑが大きい
方をより信頼性の高い音声区間のものであると判定する
ようにすれば良い。

或いは１回目の特徴パターンの組み合わせを得た類似度
の内の大きい方ｗａｘ　［Ｑ　２１＋　Ｑ　３２］と、
２回目の特徴パターンの組み合わせを得た類似度の内の
大きい方ｗａｘ　［Ｑ　２１＋　Ｑ　３２］　とをそれ
ぞれ求め、これらを相互に判定してその値の大きい方を
標準パターン作成用として採用するようにすれば良い。

また逆に１回目の特徴パターンの組み合わせを得た類似
度の内の小さい方ｗｉｎ　ＣＱ　２１＋　Ｑ　３２］と
、２回目の特徴パターンの組み合わせを得た類似度の内
の小さい方ｗｉｎ　［Ｑ　２１＋　Ｑ　８２］　とをそ
れぞれ求め、これらを相互に判定して標準パターンの選
択決定を行うようにすることも可能である。

またこのような類似度に着目することに代えて、特徴パ
ターンの組み合わせについて、その音声区間長を調べ、
その長さの長い方を最長マツチングの原則に従って標準
パターン作成用として採用することも可能である。この
音声区間長を比較する場合にも、その組み合わせにおけ
る特徴パターンの各音声区間長の和を求めたり、最大区
間長や最小区間長を相互に比較するようにすれば良い。

尚、最長マツチングの原則は、複数回の発声において正
しい音声区間にそれぞれ同様なノイズが付加され、これ
によって正しい音声区間より長い音声区間の特徴パター
ンの組み合わせが求められることは極めて希であり、一
般にその音声区間が最も長い特徴パターンの組み合わせ
が、その音声区間を正しく表現しているとの観点に立脚
したものである。

そして実際的には、無声化等により正しい音声区間の一
部が欠落して正しい音声区間よりも短い音声区間の特徴
パターンの組み合わせが求められることが多々在る。ま
た多くの場合、単語は複数の音声により構成されて有音
区間と無音区間とが交互に繰り返されることが多い。こ
のような場合にも、正しい音声区間よりも短い区間での
特徴ベクトルの組み合わせが求められることが往々にし
である。従ってこのようなことを配慮し、特徴パターン
の組み合わせが複数通り求められるような場合には、上
述したようにその中で音声区間が最も長いものを正しい
音声区間の特徴パターンであると判定することは非常に
有用であると云える。

尚、特徴パターンの組み合わせが複数通り求められるよ
うな場合、これらの特徴パターンのそれぞれから標準パ
ターンを求め、これによって標準パターン辞書１５の学
習を行うようにすることも有用である。

このようにして本装置では、複数回の同一カテゴリの発
声入力単語音声についてそれぞれ求められる音声区間候
補のリサンプル数の多い第２の特徴パターン間での類似
度（尤度）を求め、所定の閾値Ｔを越える音声区間候補
の組み合わせが各発声での音声区間中に存在するとき、
これを正しく区間検出された音声区間として抽出してい
る。そしてこれらの正しく区間検出された音声区間の第
１の特徴パターンを抽出し、この第１の特徴パターンに
基づいてその標準パターンを作成し、標準パターン辞書
１５に登録して単語音声の認識処理に供するものとなっ
ている。

従って本装置によれば、標準パターン自体をその音声区
間が正しく検出されているときの特徴パターンとするこ
とができるので、その認識辞書性能を十分高いものとす
ることができる。この結果、その認識性能を十分に高く
することができる。

また上述したように入力音声の音声区間を、特徴パター
ン間での類似度から音声区間候補の組み合わせとしで評
価し、正しい音声区間での特徴パターンだけを抽出して
標準パターンを作成するので、その処理手続きが非常に
簡単であり、処理効率が高い。そして少ない発声回数で
効果的にその標準パターンを作成していくことができ、
る等の効果が奏せられる。しかもその処理負担がさほど
増大することがない等の効果が奏せられる。

尚、本発明は上述した実施例に限定されるものではない
。例えば４回以上の発声入力音声についての特徴パター
ン間で類似度（尤度）を計算して音声区間の正しい特徴
パターンを抽出するようにしても良い。このようにすれ
ば、標準パターン作成の信頼性を高め、より性能の高い
標準パターン（認識辞書）を構築していくことが可能と
なる。

また上述した実施例では、１回目の発声入力音声から求
められる特徴パターンを基準として２回目および３回目
の発声入力音声から求められる特徴パターンとの組み合
わせを決定するようにしたが、２回目や３回目の発声入
力音声から求められる特徴パターンを基準としてその組
み合わせ決定を行うようにしても良い。また候補区間数
の多い発声入力音声の音声区間候補を基準として組み゛
合わせ決定処理を進めることも可能である。更には音声
区間検出に用いる特徴パターンのリサンプル点数は、そ
の仕様に応じて認識処理に用いる特徴パターンのリサン
プル点数よりも多くなるように定めれば良いものである
。その他、本発明はその要旨を逸脱しない範囲で種々変
形して実施することができる。

［発明の効果］以上説明したように本発明によれば、ノイズの付加や音
声区間の脱落の影響を排除して入力音声の音声区間を正
しく検出してその特徴パターンを抽出するので、信頼性
の高い音声区間候補の特徴パターンだけを用いて効率的
に高性能な標準パターンを作成することができ、その認
識性能の向上を効果的に図ることができる等の実用上多
大なる効果が奏せられる。

【図面の簡単な説明】

準パターン作成時での複数回の入力音声に対する音声区
間候補とその特徴パターンについて模式的に示す図、第
３図は従来の一般的な単語音声認識装置の概略構成図で
ある。ｉｔ・・・音響分析部、１２・・・単語境界仮説生成部
、１３・・・第１のリサンプル部、１４・・・第１の類
似度計算部（特徴パターンと標準パターンとの類似度計
算手段）、１５・・・標準パターン辞書、ｉ６・・・認
識結果出力部、１７・・・第２のリサンプル部、１８・
・・第２の類似度計算部（特徴パターン間での尤度計算
処理）、１９・・・標準パターン作成部。

Claims

【特許請求の範囲】

入力単語音声を音響分析してその特徴パラメータを求め
る音響分析部と、この音響分析された特徴パラメータか
ら上記入力単語音声の音声区間候補を求める単語境界仮
説生成部と、この単語境界仮説生成部にて求められる音
声区間毎に前記特徴パラメータを正規化して認識処理に
用いられる前記入力音声の特徴パターンを生成する第１
のリサンプル部と、この第１のリサンプル部で求められ
る入力単語音声の特徴パターンと認識対象単語音声の標
準パターンとの類似度を計算する類似度演算部と、この
類似度演算結果に従って前記入力単語音声に対する単語
音声認識結果を求める認識結果出力部と、前記音響分析
部にて音響分析して求められる認識対象単語音声につい
ての特徴パラメータを、前記単語境界仮説生成部にて求
められる音声区間毎に前記第１のリサンプル部よりも多
い標本化点数で正規化して標準パターンの作成に用いら
れる特徴パターンを生成する第２のリサンプル部と、こ
の第２のリサンプル部で求められた認識対象単語音声に
ついての特徴パターンから当該認識対象単語の前記標準
パターンを作成する標準パターン作成部とを具備したこ
とを特徴とする単語音声認識方式。