JPH0246960B2

JPH0246960B2 -

Info

Publication number: JPH0246960B2
Application number: JP58205241A
Authority: JP
Inventors: Satoru Taguchi
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1983-11-01
Filing date: 1983-11-01
Publication date: 1990-10-17
Also published as: JPS6097400A

Description

【発明の詳細な説明】本発明は音声認識装置に関する。入力音声信号
を分析処理し、その意味内容や話者の認識を行な
うことを目的とする音声認識装置は近時よく知ら
れている。

この音声認識装置は、通常、話者によつて発声
される単語、いわゆる音声単語を入力音声信号と
し、この入力音声信号の音声的特徴を予め登録し
た特定話者による複数の音声単語それぞれの音声
的特徴と照合して最もよく合致する音声単語を認
識単語として選択する、いわば一種のパターン認
識手段を介して音声認識を行なうものである。

このような音声認識においては、入力音声信号
の話者を特定する場合と話者が不特定の場合とで
は認識処理の困難性に大きな差がある。即ち、音
声の音響的特徴は時変のスペクトル包絡から構成
される時間周波数パタンとして考えられるが、話
者、発声時刻の違いによりこの時間周波数パタン
が異なる事が知られている。同一話者の発声した
同一単語も時間周波数パタンが異なるが、この変
異の主要なものは周波数パタンの時間的変化速度
である。従つて特定の話者を認識対称とする場合
には予じめ同一の話者が発声した単語の標準パタ
ンの時間的変化速度と、認識時に発声された単語
のパタンの時間的変化速度とを、相互に最もよく
一致するように一方を時間伸縮することにより良
好に単語の認識が行なえる。特定の話者に対する
音声単語の標準パタンは、その話者が発生する予
め設定した複数の単語のそれぞれについてその全
継続時間にわたつて分析した特徴パラメータの時
系列に関するデータを登録しストアしたものを標
準パタンとしてフアイルし、特定話者による発声
単語は、分析したLPCの如き特徴パラメータを
標準パタンの特徴パラメータと照合し、２つの特
徴パラメータ間の類似度が最も高い標準パタンの
単語を選択するという手段、云わゆるDPマツチ
ング法によつて行なわれ、一般的に十分高い認識
率が得られる。上述した２つの特徴パラメータ間
の類似度は、通常特徴パラメータ、たとえばαパ
ラメータ等をひとつの空間ベクトルと見なしてこ
れら空間ベクトル間の空間的距離を示すベクトル
距離を測定しこれを尺度として表わすことがで
き、最もこのスペクトル距離が小さい標準パタン
を有する登録単語が入力単語として選択されると
いう手段によつて処理されている。なお、スペク
トル距離は、照合すべき２つの単語の分析窓ごと
の空間ベクトルに関する対数スペクトルの自乗平
均値等によつて表わされ、これらについては管
村、板倉：パタンマツチング符号化による音声情
報圧縮、音響学会音響研究会資料、S79−08、
1979年５月その他に詳述されている。

さて、特定の話者による標準パタンは、それ以
外の不特定話者の音声に対する照合に利用すると
認識率が一般的に大きく低下する。これは、音声
の特徴パラメータの時間的および周波数的分布に
個人差、発声時刻による差があり、前述のように
DPマツチングにより吸収できる部分は、特徴パ
ラメータの時間的変化速度の変動分で、個人差に
起因する周波数分布（スペクトル包絡）の差異は
補正されない。従つて特定の話者による標準パタ
ンを不特定話者に対しても認識率の高いものにす
るためにはこの個人差を不特定話者ごとに補正す
ることが必要となる。

このような補正は通常、時間正規化および周波
数正規化という２つの処理手法を利用して処理さ
れ得る。

上述した２つの処理手法のうち時間正規化は特
定、非特定話者いずれにも発生する特徴パラメー
タの時間的分布の伸縮、すなわち音声単語を構成
する個個の音素ごとの継続時間の伸縮により入力
音声信号と標準パターンとの間で同一の単語音声
でも常に音素単位間に発生する時間的に非線形な
対応を決定するものである。この時間正規化のの
ち、標準パタンに登録されている複数の単語音声
とのスペクトル距離等の測定を介して最もこの距
離の短いものをダイナミツク・プログラミング
（Dynamic Programming、以下DPと略称する）
によつて選択し、これを入力単語音声に対する最
適単語音声とするものであるが、前述した如く標
準パタンとのDPマツチング処理では、入力音声
パタンと最も良く照合のとれた標準パタンが時間
正規化も最も良くとれた標準パタンとして選択さ
れる。

また周波数正規化は、声帯波形の差はスペクト
ル包絡の概形の傾きにより、また声道長の差は周
波数スペクトル包絡の周波数軸方向の伸縮に対す
る個人差の正規化を標準パタンに対して行なうも
ので、この正規化のうち標準パタンとの間でDP
手法により周波数パタンの最適な標準パタンを選
択しこれを入力音声単語に対する最適音声単語と
するものである。

特定話者の音声単語に基づいて作成された標準
パタンを利用して不特定話者の音声単語に対する
音声認識を行なうには、上述した時間および周波
数正規化ならびにこれらの正規化処理後のDP手
法による評価を介して行なう最適標準パタンの選
択によつて入力音声単語に最もよく適合する標準
パタンの登録単語を標準単語とすることによつて
基本的には実施することが可能である。

しかしながら、このような不特定話者の音声認
識においては、認識処理において通常最も有効な
手段とされているDP手法による最適標準パタン
とのマツチング（照合）、選択処理を２重に実施
する必要があり、このような処理は演算量が非現
実的な程ぼう大になるため実際上実現が困難で現
時点ではまだ実現されていない、また、現時点で
実用化されている音声認識の手段としては、周波
数正規化の不必要な特定話者単語認識と、DP手
法によらない手法、たとえば識別関数法、線形判
別関数法とがあり、これらのうち識別関数法は不
特定話者認識に対して有効な手段とされているが
前処理の演算量が、たとえば10単語程度で大型コ
ンピユータによる１ケ月程度の処理を必要とする
ため、たかだか４〜10単語程度の認識が実用上の
限度となつているという欠点がある。

本発明の目的は上述した欠点を除去し、音声認
識装置において、入力音声単語をLPC分析して
得られる分析次数Ｎ、Ｎ＋１、Ｎ＋２、……Ｎ＋
ＩのＩ＋１組のαパラメータベクトルの次数に対
応するLPC極周波数の連続性をDP手法によつて
評価し最適なLPC分析次数を分析窓ごとに推定
しつつ、選択されたLPC分析次数に基づく極周
波数ベクトルの時間的変化範囲における第１〜第
３フオルマントで形成する３次元極座標によつて
示される入力音声単語を標準パタンの複数の登録
単語と照合したうえ最もよく時間正規化しうる標
準パタンを選択決定するという手段を備えること
により不特定話者認識における認識単語数を特定
話者認識における認識単語数並みにすることがで
きる音声認識装置を提供することにある。

本発明の装置は、音声認識装置において、入力
音声信号をLPC分析し、予め設定する分析次数
Ｎ次からＮ＋Ｉ（Ｉ＝０、１、２、３……）次ま
でのＩ＋１個のLPC（αパラメータ）ベクトルを
算出するLPC分析手段と、このLPC分析手段に
よつて得られるLPCベクトルに基づき前記Ｉ＋
１組のLPCベクトルの組数に対応する数のLPC
極周波数ベクトルを算出するLPC極周波数算出
手段と、第１乃至第３フオルマントに対応する前
記LPC極周波数ベクトルの周波数ずれを評価尺
度とし前記LPC極周波数ベクトルの連続性を最
もよく確保しうる最適LPC分析次数を分析窓ご
とにダイナミツク・プログラミング法によつて推
定するLPC分析次数推定手段と、このLPC分析
次数推定手段によつて推定された最適LPC分析
次数に対応するLPC極周波数ベクトルの時間的
変化範囲から不要もしくは冗長な極、例えばケプ
ストラム分析を実施しない場合に発生する不要な
音源極あるいは第４フオルマント以上の冗長な極
を除去したうえ第１乃至第３フオルマントに対応
するLPC極周波数ベクトルを極座標表現するこ
とにより入力音声信号の３次元極座標化を行なう
極座標化手段と、予め特定する任意の話者による
複数単語の前記極座標化手段による３次元極座標
データを分析窓ごとに登録し複数の標準パタンと
してストアする標準パタン登録手段と、前記極座
標化手段における３次元極座標データの分析窓ご
との時間系列と前記複数の標準パタンとを前記３
次元極座標データ間のベクトル距離を評価尺度と
してダイナミツク・プログラミング法によつて照
合し前記３次元極座標データの分析窓ごとの時間
系列の前記複数の標準パタンに対する時間正規化
を行なう時間正規化手段と、この時間正規化手段
によつて最もよく時間正規化しうる標準パタンを
入力音声信号の認識単語として前記複数の標準パ
タンから選択する認識単語選択手段とを備えて構
成される。

次に図面に参照して本発明を詳細に説明する。

第１図は本発明の一実施例を示すブロツク図で
ある。

第１図に示す実施例は、LPC分析器１、極周
波数算出器２、分析次数推定器３、極座標化器
４、標準パタンフアイル５、時間正規化器６およ
び認識単語選択器７等を備えて構成される。

入力端子１００１を介して入力した単語音声は
LPC分析器１によつてLPC分析を行なう。

LPC分析器１は、入力した単語音声を予め設
定するビツト数のデジタル量に変換して量子化し
たうえ分析処理単位時間、すなわち分析窓ごとに
これをLPC分析し、次数Ｎ、Ｎ＋１、Ｎ＋２、
…Ｎ＋Ｉの連続するＩ＋１組のαパラメータ群を
LPCベクトルとして算出する。本実施例におい
ては上述したLPC分析次数は８次〜14次に設定
してあり、これによつて８次〜14次の７組の
LPCベクトルが抽出される。

LPC分析器１からはこのようにして抽出され
た８次〜14次のLPCベクトルが極周波数算出器
２に送出される。

極周波数算出器２は、入力した８次から14次の
LPCベクトルのそれぞれについて、これらLPC
ベクトルを係数とする高次方程式を零とする根と
して求められる極周波数を算出する。この極周波
数は分析次数が_p次の場合は次の(1)式に示す高次
方程式の根として求められる。

１＋α₁Z^-1＋α₂Z^-2＋……＋α_pZ^-p＝０ ………(1) (1)式において、α₁、α₂、……α_pはLPCベクト
ル、Ｚ＝e^jwでありかつ(1)式はLPC分析器１によ
る線形予測モデルの伝達関数Ｈ（Z^-1）＝１／A_p
（Z^-1）の右辺の分母A_p（Z^-1）を表わすものであ
ることはよく知られている。

(1)式の根はLPC分析次数の1/2組の複素数根と
して求まり、従つて極周波数算出器２は４〜７の
極に対する共振周波数すなわち極周波数とその帯
域幅とを分析次数８〜14次のLPCベクトルそれ
ぞれについて算出する。

上述した帯域幅Biは次の(2)式で示される。

Bi＝−logγi／π△Ｔ ………(2) (2)式において△Ｔは入力音声信号の標本化周
期、また、γiは(1)式の根を極座標表示してZi＝
γie^j〓ⁱで表わしたときのベクトルの大きさγiに対
応し、またλiは極周波数fiに対応する波長を示
す。

極周波数算出器２はこうして得られる極周数と
その帯域幅に関する４個の極から７個の極までの
データを分析次数推定器３に送出する。

極周波数算出器２によつて算出される極周波数
はまた、LPC分析器１によつて擬似的に表わさ
れる声道フイルタ、すなわち前述した伝達関数Ｈ
（Z^-1）をもつ音響生成フイルタの共振周波数であ
り、従つて声道フイルタの共振周波数を示し、こ
の共振周波数すなわち極周波数は周波数スペクト
ルのエネルギーが集中したいわゆるフオルマント
周波数ともほぼ一致することはよく知られてい
る。

分析次数推定器３は、メモリ回路３１および
DP処理回路３２等を備えて構成され、メモリ回
路３１は入力した４個ないし７個の極周波数デー
タをいつたんストアしたうえこれをDP処理回路
３２に送出するが、メモリ回路３１にストアされ
る極周波数データはそれぞれの分析窓の前後にわ
たるデータの連続性を次のDP処理回路３２で判
定するに十分なぶん確保されるようにストアされ
る。

所で一定の周波数帯域幅、例えば100〜3400Hz
の音声信号が有する極周波数の個数は一定でな
い。これは第４フオルマントが帯域内に存在する
か否かは不定である等の理由による。又、LPC
係数から正確に極周波数を抽出するためには、帯
域内に存在する極の総数の二倍程度のLPC次数
にする必要があり、それにより少なくても、多く
ても極周波数の抽出精度が低下する。

一方フオルマント周波数の時間的変化は一般に
ゆるやかである。そこで本発明に於いては、分析
周波数帯域内に存在する極の数の最小を４、最大
を７とし、分析フレーム毎にLPC次数８次（極
の数４に相当）から14次（極の数７に相当）につ
いて求められる全ての粒周波数を算出し、時間的
に前後の極周波数との連続性を考慮し、最適な
LPC分析次数を推定している。

DP処理回路３２は、メモリ回路３１から読出
される極周波数データに関する連続性をフレーム
間の極周波数差を歪として最小歪となる最適パス
を漸化式で用いて選択するDP手法によつて、た
とえば単音節の如きひとつの処理単位ごとに評価
する。極周波数の連続性は、分析次数の1/2の個
数で表わされるある分析窓に関する極周波数がそ
れぞれの帯域幅に関する条件を含め、そのレベル
と周波数配列が分析窓の前後において予め設定す
る個数の分析窓における極数波数データとどれ程
よく連続性を保つかについてDP手法を利用し、
上述した処理単位ごとに得られる８次から14次の
LPCベクトルから算出した極周波数ベクトル群
ごとにしらべ、これら極周波数ベクトル群間の連
続性が最適となるLPC分析次数を各音声単語に
つい分析窓ごとに推定する。

第２図は、極周波数の一般的特性を示す極周波
数特性図である。

第２図に示す極周波数特性図は、分析次数８次
の場合の分析窓における極周波数の一例であり、
いわゆるフオルマントに対応する第１〜第４の４
個の極P₁、P₂、P₃およびP₄ならびに音源情報と
してのピツチ周期に対応する音源P₀を有し、第
２図に示す如きエネルギー対周波数特性で分布す
る。

第１〜第４の極、および音源極のエネルギーは
通常第２図に示す如く周波数とともに慚減し、ま
たそれぞれ帯域幅B₁、B₂、B₃およびB₄を有する
第１〜第４の極周波数f₁、f₂、f₃およびf₄は第１
〜第４フオルマント周波数に対応する。なお、f₀
は音源極周波数である。

DP処理回路３２は、８次から14次にわたる
LPC分析次数に対応して得られる４個から７個
の極周波数ベクトル群に対し、その帯域幅に関す
る条件を含み、予め設定する個数の分析窓を単位
とする分析区間ごとに分析窓間の周波数ずれの最
も少ないものを推定しつつ時間系列としてのいわ
ゆるDPパスを求める。この場合、次の分析窓に
存在する極周波数候補としての条件は、周波数差
分が最も少ないことに加え上述した帯域幅の条件
も加味する。このことは、音声分析においては、
正常な極周波数ベクトルに近接してランダムに発
生するランダムな帯域幅の偽極周波数等による誤
推定を排除することを目的としている。このよう
にして、８次のLPC分析次数に対応する４個の
極周波数ベクトルから14次のLPC分析次数に対
応する７個の極周波数ベクトルまで、それぞれの
極周波数の時系列データとしての４つのDPパス
から最大７つまでのDPパスが得られる。さて、
これらのDPパスには、第１乃至第３フオルマン
トに対応する３つの極周波数が存在する。この３
つの極周波数は、第１から第３フオルマントに向
つて周波数が高くなることや、帯域幅、レベル等
に関する特有の条件にもとづいて推定される。本
実施例では第１から第３フオルマントに対応する
推定極周波数ベクトルの周波数ずれを評価尺度と
し、この周波数ずれが最小の３つの極周波数ベク
トルを提供するLPC分析次数を、連続性が最も
よくとれたLPC分析次数として推定する。音声
認識における認識信頼性を確保するうえで最も重
要なことは、分析データ自体が連続性を確保した
信頼性の高いものであるということで、本実施例
でもこのようなダイナミツク・プログラミングに
よつて極めて高い信頼性を確保している。

このようにして分析窓ごとに推定された最適
LPC次数の極周波数に関するデータは次に極座
標化器４に送出される。

極座標化器４は、不要ポール除去回路４１およ
び極座標化回路４２を備えて構成される。

不要ポール除去回路４１は、選択されたLPC
次数に基づく分析窓ごとの極周波数ベクトルの時
間的変化範囲から不要な極（ポール）、すなわち
音源極と第４フオルマント以上の極に対応するデ
ータを除去し、第１〜第３フオルマントに対応す
る極周波数ベクトルを極座標化回路４２に送出す
る。

上述した不要ポールとは、極座標化回路４２に
おける３次元極座標化処理に不要なポールを意味
し、発生状態が不安定な第４フオルマント以上の
極、ならびに個人差を伴なう音源極がこれに該当
する。極座標化回路４２は、第１〜第３フオルマ
ントに対応する極周波数ベクトルを極座標表示し
この極座標によつて表わされる空間ベクトルを分
析窓ごとに次次に出力する。

第３図は極周波数の３次元極座標表示図であ
る。

極座標系の原点０で直交する３軸f₁、f₂および
f₃はそれぞれ第１、第２および第３フオルマント
に対応する極周波数を示し、Ｖはこれらの極周波
数の合成ベクトルであり、このようにして第１〜
第３フオルマント周波数で形成した３次元極座標
による合成ベクトルＶの空間方向を決定する２つ
の角度θ、は音声単語の周波数スペクトルを表
現するものであり、かつこの２つの角度によつて
示される音声周波数スペクトルは話者独自の特性
が除去されたものとして利用しうることもよく知
られている。

標準パタンフアイル５は、特定話者に関するこ
のような周波数スペクトルに関するデータを分析
窓ごとに全単語数ぶん登録、ストアしこれらを標
準パタンとしてフアイルする。こうして登録され
る標準パタンは、明らかに連続性の極めて高い内
容を有する。このようにして標準パタンフアイル
を作成したあと、不特定話者の音声単語による極
座標化器４の出力、すなわち分析窓ごとの周波数
スペクトルの時間系列に関するデータを時間正規
化器６に送出し、標準パタンフアイルに予め登録
された全音声単語に関する複数の標準パタンに対
して時間正規化する。

時間正規化器６は、極座標化器４から出力する
上述した２つの角度θ、の分析窓ごとの時系列
データとしての時間関数X₁、X₂、X₃……と、標
準パタンフアイル５にフアイルされている全単語
音声のθ、に関する時間関数S₁、S₂、S₃……と
の差を表わす誤差関数R₁、R₂、R₃……を最小と
する時間関数X₁、X₂、X₃……をDP手法によつ
て評価して全単語音声の組について時間正規化を
行なつたのち、次に認識単語選択器４において、
誤差関数R₁、R₂、R₃……等によつて示される入
力単語音声と標準パタンフアイルに登録されてい
る全単語音声とのベクトル距離が最小となるも
の、換言すれば上述した２つの角度θ、ψの差に
もとづいて示される標準パタンと分析窓ごとの周
波数スペクトルの時間系列とのユークリツド距離
もしくは市街地距離が最小となり最もよく時間正
規化できる標準パタンをこれら誤差関数値間の大
小比較によつて選択し、この標準パタンを入力単
語音声に最も類似した最適パタンとして認識して
出力端子７００１を介して出力する。

本実施例では不要な音源極を不要ポール除去回
路４１で除去しているが、LPC分析の前処理と
してケプストラム分析を実施することにより同様
な音声認識装置を実現し得る。

第４図はLPC分析の前処理としてケプストラ
ム分析を実施する場合の一例を説明するためのブ
ロツク図である。

入力端子８００１を介して入力した単語音声は
ケプストラム分析器８によつてケプストラム分析
を行なう。

ケプストラム分析器８は、入力した単語音声を
予め設定するビツト数のデジタル量に変換して量
子化したうえ分析処理単位時間、すなわち分析窓
ごとにこれをケプストラム分析する。なお、ケプ
ストラム分析はフーリエ変換、フーリエ係数の絶
対値化及び対数化、逆フーリエ変換を遂次実施し
て算出する広く知られた方法を用いている。

ケプストラム分析器８からはこのようにして抽
出されたケプストラム係数列がリフタ９に送出さ
れる。

リフタ９は入力したケプストラム係数列から声
道伝送特性を主として表現する低ケフレンシー部
分を選択し、声帯振動数等の音源特性を主として
表現する高ケフレンシー部分もしくはピツチ周期
成分を除去する。高ケフレンシー部分もしくはピ
ツチ周期成分を除去したケプストラム係数列は音
源極の情報を有しないこととなる。

リフタ９からは音源極の情報が除去されたケプ
ストラム係数列がLPC係数算出器１０に送出さ
れる。

LPC係数算出器１０は入力したケプストラム
係数列をフーリエ変換、逆対数化により擬似波形
を発生する。LPC係数算出器１０は更に発生し
た擬似波形をLPC分析し、次数Ｎ、Ｎ＋１、Ｎ
＋２、……、Ｎ＋Ｉの連続するＩ＋１組のαパラ
メータ群をLPCベクトルとして算出する。

なお、ケプストラム分析およびケプストラム分
析の音声信号に対する効果は、斉藤収三・中田和
男「音声情報処理の基礎」オーム社、昭和56年11
月30日、第７，３項“ケプストラム分析”に詳し
く述べられている。

又、リフタに於いて使用される時間遅れ方向の
窓の形状には高ケフレンシー部分を一括して除去
する場合にはCOSINE窓（COSINEリフタ）等
が、又、ピツチ周期成分を除去する場合には、ピ
ツチ周期に対応するCOMB窓（COMBリフタ）
等が選択される。

LPC係数算出器１０からはこのようにして抽
出された例えば８次〜14次のLPCベクトルが第
１図に示す極周波数算出器２に送出される。

このようにして、特定話者による標準パタンを
利用して不特定話者による認識単語数を特定話者
による認識単語数まで大幅に増加した音声認識を
行なうことが可能となる。

本発明は、音声認識装置において入力音声単語
をLPC分析して得られるαパラメータの分析次
数に対応するLPC極周波数の連続性を評価して
最適LPC分析次数を分析窓ごとに推定したうえ、
この推定されたLPC次数に基づく極周波数ベク
トルの時間的変化範囲における第１〜第３フオル
マントに対応する極周波数ベクトルに基づき設定
する３次元極座標によつて話者の個人差を除去し
た入力音声単語の空間ベクトルの時間系列を、分
析窓ごとに次次に形成しこれを予め登録した特定
話者による複数単語音声の標準パタンに対して時
間正規化し最もよく時間正規化できる標準パタン
を認識単語として選択して不特定音声認識におけ
る認識単語数を特定話者における認識単語数なみ
とする点に基本的特徴を有するものであり、第１
図に示す本発明の実施例の変形も種種考えられ
る。

たとえば、第１図に示す実施例ではLPC分析
器１による分析次数８〜14次を対象としているが
これは分析精度等を勘案し所望に応じ任意に設定
しうるものであり、また第１図に示す各構成機器
はこれらを任意の組合せによつて構成しても差支
えなく、これらはすべて本発明の主旨を損なうこ
となく容易に実施しうるものである。

以上説明した如く本発明によれば、音声認識装
置において、入力音声単語を次数Ｎ〜Ｎ＋Ｉにわ
たつてLPC分析して得られる連続するＩ＋１組
のαパラメータベクトルの極周波数の連続性を
DP手法によつて評価して得られる最適LPC次数
における極周波数ベクトルのうち、第１〜第３フ
オルマントに対応する極周波数によつて形成した
３次元極座標の時間系列を特定話者による複数の
標準パタンに対して最適時間正規化しうるものを
認識単語として選択するという手段を備えること
により、不特定話者による認識単語数を特定話者
なみに大幅に改善することができる音声認識装置
が実現できるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロツク図、
第２図は極周波数の一般的特性を示す極周波数特
性図、第３図は極周波数の３次元極座標表示図、
第４図はLPC分析の前処理にケプストラム分析
を実施する場合の一構成例を示すブロツク図であ
る。１……LPC分析器、２……極周波数算出器、
３……分析次数推定器、４……極座標化器、５…
…標準パタンフアイル、６……時間正規化器、７
……認識単語選択器、８……ケプストラム分析
器、９……リフタ、１０……LPC係数算出器、
３１……メモリ回路、３２……DP処理（マツチ
ング）回路、４１……不要ポール除去回路、４２
……極座標化回路。

Claims

【特許請求の範囲】１音声認識装置において、入力音声信号を
LPC（Linear Prediction Coefficient、線形予測
係数）分析し予め設定する分析次数Ｎ次からＮ＋
Ｉ（Ｉ＝０、１、２、３……）次までのＩ＋１組
のLPC（αパラメータ）ベクトルを算出するLPC
分析手段と、このLPC分析手段によつて得られ
るLPCベクトルに基づき前記Ｉ＋１組のLPCベ
クトルの組数に対応する数のLPC極周波数ベク
トルを算出するLPC極周波数演算手段と、第１
乃至第３フオルマントに対応する前記LPC極周
波数ベクトルの分析窓間の周波数ずれを評価尺度
とし前記LPC極周波数ベクトルの連続性を最も
よく確保しうる最適LPC分析次数を分析窓ごと
にダイナミツク・プログラミング法によつて推定
するLPC分析次数推定手段と、このLPC分析次
数推定手段によつて推定された最適LPC分析次
数に対応するLPC極周波数ベクトルの時間的変
化範囲から音源極および第４フオルマント以上を
除去したうえ第１乃至第３フオルマントに対応す
るLPC極周波数ベクトルを極座標表現すること
により入力音声信号の３次元極座標化を行なう極
座標化手段と、予め特定する任意の話者による複
数単語の前記極座標化手段による３次元極座標デ
ータを分析窓ごとに登録し複数の標準パタンとし
てストアする標準パタン登録手段と、前記極座標
化手段における３次元極座標データの分析窓ごと
の時間系列と前記複数の標準パタンとを前記３次
元極座標データ間のベクトル距離を評価尺度とし
てダナミツク・プログラミング法によつて照合し
前記３次元極座標データの分析窓ごとの時間系列
の前記複数の標準パタンに対する時間正規化を行
なう時間正規化手段と、この時間正規化手段によ
つて最もよく時間正規化しうる標準パタンを入力
音声信号の認識単語として前記複数の標準パタン
から選択する認識単語選択手段とを備えて音声認
識を行なうことを特徴とする音声認識装置。２音声認識装置において、入力音声信号をケプ
ストラム分析しケプストラム係数列を算出するケ
プストラム分析手段と、このケプストラム分析手
段によつて得られるケプストラム係数列の高ケフ
レンシー部分もしくはピツチ周期成分を除去する
リフタ実行手段と、このリフタ実行手段によつて
高ケフレンシー部分もしくはピツチ周期成分が除
去されたケプストラム係数列を予め設定する分析
次数Ｎ次からＮ＋Ｉ（Ｉ＝０、１、２、３……）
次までのＩ＋１組のLPC（αパラメータ）ベクト
ルを算出するLPC分析手段と、このLPC分析手
段によつて得られるLPCベクトルに基づき前記
Ｉ＋１組のLPCベクトルの組数に対応する数の
LPC極周波数ベクトルを算出するLPC極周波数
算出手段と、第１乃至第３フオルマントに対応す
る前記LPC極周波数ベクトルの分析窓間の周波
数ずれを評価尺度とし前記LPC極周波数ベクト
ルの連続性を最もよく確保しうる最適LPC分析
次数を分析窓ごとにダイナミツク・プログラミン
グ法によつて推定するLPC分析次数推定手段と、
このLPC分析次数推定手段によつて推定された
最適LPC分析次数に対応するLPC極周波数ベク
トルの時間的変化範囲から音源極および第４フオ
ルマント以上を除去したうえ第１乃至第３フオル
マントに対応するLPC極周波数ベクトルを極座
標表現することにより入力音声信号の３次元極座
標化を行なう極座標化手段と、予め特定する任意
の話者による複数単語の前記極座標化手段による
３次元極座標データを分析窓ごとに登録し複数の
標準パタンとしてストアする標準パタン登録手段
と、前記極座標化手段における３次元極座標デー
タの分析窓ごとの時間系列と前記複数の標準パタ
ンとを前記３次元極座標データ間のベクトル距離
を評価尺度としてダイナミツク・プログラミング
法によつて照合し前記３次元極座標データの分析
窓ごとの時間系列の前記複数の標準パタンに対す
る時間正規化を行なう時間正規化手段と、この時
間正規化手段によつて最もよく時間正規化しうる
標準パタンを入力音声信号の認識単語として前記
複数の標準パタンから選択する認識単語選択手段
とを備えて音声認識を行なうことを特徴とする音
声認識装置。