JPH0638199B2

JPH0638199B2 - 音声認識装置

Info

Publication number: JPH0638199B2
Application number: JP60194336A
Authority: JP
Inventors: 哲田口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1985-09-02
Filing date: 1985-09-02
Publication date: 1994-05-18
Anticipated expiration: 2009-05-18
Also published as: US4852172A; JPS6254297A; CA1258128A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識に関し、特に不特定話者により単語音
声の認識も可能な音声認識装置に関する。

〔従来の技術〕

入力音声信号を分析処理し、その内容ならびに話者の認
識を行なうことを目的とする音声認識装置はよく知られ
ている。

この音声認識装置は、通常は入力音声信号として単語音
声を利用し、特定話者による複数の単語音声のスペクト
ル包絡パラメータを標準パターンとして登録しておき入
力した単語音声とのスペクトル包絡パラメータが最もよ
く合致する標準パタンを認識単語として決定するもので
あり、いわば音声的パタン認識といった機能をもつもの
である。

このような音声認識装置では、入力する単語音声が特定
の話者によるものと不特定の話者によるものとによって
認識処理の困難性に極めて大きい差があり、話者が不特
定の場合には認識が極めて難しくなる。この理由は次の
ような事実にもとづくものである。

すなわち、一般的に音声の音響的特徴は時変（time var
iant）性をもつスペクトル包絡によって示される時間周
波数パタンとみなすことができるが、この時間周波数パ
タンは話者、発声時刻に対して変動し、さらに同一話者
の発声する同一の単語音声でも発生機会ごとにその時間
周波数パタンが異る。このような時間周波数パタンの変
動をもたらす主因は時間周波数パタンの時間的変化速度
の相違による。従って、特定の話者を認識対象とする場
合は予め同一の特定話者が発生した単語音声の標準パタ
ンの時間的変化速度と、認識時に発声した単語音声のパ
タンの時間的変化速度とを相互に最もよく一致するよう
に一方を他方に対して時間的に伸縮せしめる時間正規化
を実施することによって良好に認識を行なうことができ
る。

上述した標準パタンとしては、特定の話者が発生すべき
複数の単語のそれぞれについて、全継続時間にわたって
分析フレーム単位ごとに分析した特徴パラメータの時系
列データを登録する。一方、特定話者による認識時の発
生単語は分析フレームごとに分析して特徴パラメータが
抽出され、パタン照合はこれと標準パタンの特徴パラメ
ータとの相互の時間的変化速度が最もよく一致するよう
に標準パタンもしくは分析した特徴パラメータを伸縮し
つつ照合するいわゆる時間正規化をＤＰ手法を介して実
施し一般的に良好な認識率を得ており、このようなＤＰ
手法はＤＰマッチングとして知られている。

上述したスペクトル距離は空間ベクトルとしての各種特
徴パラメータの空間的距離を示すものとして表現され、
これらスペクトル距離ならびにこのスペクトル距離を介
して行なうパタンマッチングに関しては、たとえば菅
村、板倉：「パタンマッチング符号化による音声情報圧
縮」、音響学会音響研究会資料、Ｓ７９−０８、１９７
９年５月その他に詳述されている。

さて、特定話者による標準パタンを利用して不特定話者
の単語音声を認識する場合には認識率が大きく低下す
る。これは前述した如く音声のスペクトル包絡パラメー
タの時間的および周波数的分布には個人差、発声時刻に
よる相違があり、前述したＤＰマッチング手法によって
吸収できる部分はスペクトル包絡パラメータの時間的変
化速度に関する変動分のみで個人差に起因する周波数分
布に関する部分は補正されない。

従って特定の話者による標準パタンを不特定話者に対し
ても認識率の高いものとするためにはこの個人差分を不
特定話者ごとに補正する必要がある。

このような補正は原理的には時間正規化および周波数正
規化という２つの処理手法を利用して処理することがで
きる。

これら２つの正規化処理のうち時間正規化は特定、非特
定話者いずれにも発生する特徴パラメータの時間的分布
の伸縮により同一単語音声でも音素単位間に発生する時
間的に非線形な対応を決定するものである。具体的には
分析パタンと標準パタンとを時間座標で対応せしめる写
像関数を見出すことであり、ＤＰマッチング手法でスペ
クトル距離が最小となる写像関数を提供しうる標準パタ
ンが分析パタンに最適合するパタンとして選択するもの
である。

また、周波数正規化は話写、発生時刻に対応して変動す
る時間周波数パタンの正規化を図るもので、音声波形の
差はスペクトル包絡の概形の傾きにより、また声道長の
差は周波数スペクトル包絡の周波数軸方向の伸縮に対す
る個人差の正規化を標準パタンに対して行なうものであ
り、標準パタンとのＤＰマッチング手法でスペクトル距
離を評価尺度とし時間周波数パタンの最適な標準パタン
を選択するものである。

上述した手段のほかに不特定話者に対する音声認識手段
としてはＤＰマッチングを利用しない識別関数法が比較
的有効な手段として考えられている。

〔発明が解決しようとする問題点〕

しかしながら上述した従来のこの種の非特定話者向けの
音声認識手法には次のような問題点がある。

すなわち、ＤＰマッチング手法にもとづいて時間正規化
と周波数正規化とを併用する処理は演算量が非現実的と
言っていい程膨大なものとなってしまうため原理的には
可能性があっても実現困難で実際には利用されていな
い。

また、識別関数法は現時点で実用化されている手段であ
るが、前処理の演算量が１０語程度でも大型コンピュー
タによる１ケ月程度の処理を必要とするためたかだか
４，５ないし１０単語程度の認識が実用上の限度となっ
ている。

さらに、上述した問題点を回避すべく、入力音声信号の
分析フレームごとに複数の分析次数それぞれのＬＰＣ極
周波数ベクトルの連続性をダイナミック・プログラミン
グ（以下ＤＰと略称する）手法によって評価して最適の
分析次数を分析フレームごとに推定し、推定した最適分
析次数でのＬＰＣ極周波数ベクトルの極座標データを標
準の極座標データ（座標パタン）に対して時間正規化
し、最もよく時間正規化しうる標準パタンを認識単語と
して選択するＬＰＣ次数推定（ディシジョンメーキン
グ）を前提とした音声認識手法（特開昭６０−９７４０
０号公報）も紹介されているが、この手法によればディ
シジョンメーキングによる認識エラーが発生することが
避けられないという問題点がある。

本発明の目的は上述した問題点を解決し、分析フレーム
ごとの複数の分析次数による複数のフォルマント周波数
ベクトルまたはこれらベクトルから導出される複数のベ
クトルから１個のフォルマント周波数ベクトルまたはこ
れから導出されるベクトルを標準パタンとの時間正規化
を伴うパタン照合により選択することによりディシジョ
ンメーキングを行なうことなく最適次数が決定できてデ
ィシジョンメーキングによるエラー発生を根本的に排除
しうる音声認識装置を提供することにある。

〔問題点を解決するための手段〕

本発明による音声認識装置は、フォルマント周波数ベク
トルまたはこのベクトルより導出されるベクトルの時系
列データを標準パタンとして記憶する標準パタンメモリ
と、入力音声をフレーム毎に分析して得られる異る分析
字数のＬＰＣ係数を介して算出される複数のフォルマン
ト周波数ベクトルまたはこれらのベクトルより導出され
る複数のベクトルから分析フレーム毎に１個のフォルマ
ント周波数ベクトルまたはこれより導出されるベクトル
を前記標準パタンとの時間正規化にもとづいて選択しか
つ同時にパタン照合を実施する手段を有する。

〔実施例〕

次に図面を参照して本発明を詳細に説明する。

第１図は本発明による音声認識装置の第１の実施例の構
成を示すブロック図であり、ＬＰＣ分析器１、極算出器
２、フォルマント仮決定器３、極座標角算出器４、ＤＰ
マッチング処理器５、標準パタンフィルム６、認識単語
決定器７を備えて構成される。

ＬＰＣ分析器１は入力音単語音声を予め設定する周波数
帯域たとえば１００〜３．４００Ｈｚに設定したあと所
定のビット数の量子化信号に変換し分析処理時間単位、
すなわち分析フレームごとにこれをＬＰＣ分析し複数の
分析次数、本実施例では連続する８〜１４次のαパラメ
ータをＬＰＣ係数として抽出する。この場合分析次数は
連続する複数であってもまた断続する複数でもよく、さ
らにその数も任意に設定して差支えない。このようにし
て複数の組のＬＰＣ係数を抽出するのは、後述するよう
に分析次数の１／２もしくはそれ以下の個数で表現され
る極周波数を抽出する際、その帯域幅を含み、レベルな
らびに周波数配列が分析フレームの前後における特定数
の分析フレームの極周波数に関する当該データと出来る
限り良き連続性を保ちつつ出来る限り正確に抽出される
ようにするためである。

８〜１４次のＬＰＣ係数は極算出器２に供給されて極周
波数とその帯域幅とが算出される。

極算出器２は、分析フレームごとに入力した８〜１４次
のＬＰＣ係数の組のそれぞれを係数とする高次方程式を
零とする根として求まる共役複素解によって極周波数を
算出する。この高次方程式は一般的には次の(1)式で示
される。

１＋α₁Ｚ^-1＋α₂Ｚ^-2＋………＋α_pＺ^-p＝０……(1) (1)式においてα₁〜α_pは分析次数ｐ次のαパラメー
タ、Ｚ＝ｅ^j ^ωであり、また(1)式の左辺は線形予測モデ
ルの伝達関数Ｈ(Ｚ^-1)＝1/A_p(Ｚ^-1)の右辺の分母を表わ
すものであることもよく知られている。

(1)式の根はｐの偶、奇数に対応しｐ／２個もしくはそ
れ以下の数の共役複素根として得られ、この共役複素根
以外の根は実数根として得られる。共役複素根として求
まる解が極周波数を提供するものである。

本実施例では８〜１４次の分析次数に対し最小３程度か
ら最大７個の極周波数が求まり次に(2)式によってその
帯域幅を得る。

Ｂ_i＝logγi／π・ΔＴ ……(2) (2)式においてΔＴは入力音声信号の標本化周期、γ_iは
(1)式の根を極座標表示したＺ_ｉ＝ｒ_ｉｅ_j ^λ ⁱにおける
ｒ_ｉ，またλ_ｉは極周波数ｆ_ｉに対応する波長を示す。

極算出器２はこうして得られる極周波数と帯域に関する
情報をフォルマント仮決定器３に供給する。

フォルマント仮決定器３は多くの音声資料に関する経験
的設定基準にもとづいて８次から１４次までの各分析次
数におけるフォルマント周波数のうち第１、第２、およ
び第３フォルマント周波数を分析フレームごとに仮決定
し分析次数８次のｆ₁ ⁽⁸⁾，ｆ₂ ⁽⁸⁾，ｆ₃ ⁽⁸⁾から分析次数
１４次のｆ₁ ⁽¹⁴⁾，ｆ₂ ⁽¹⁴⁾，ｆ₃ ⁽¹⁴⁾までを出力、これ
を極座標各算出器４に供給する。

フォルマント周波数とその帯域幅の分布範囲等は第１フ
ォルマントから第４もしくはそれ以上の高域フォルマン
トまで経験的にいずれもよく知られている。従って分析
フレームごとに入力する８〜１４次の分析次数に対応し
た４〜７個の極周波数に含まれるフオルマントを仮決定
しこれらのうち第１〜第３フォルマント周波数とそれら
の帯域幅の出力することは容易に実施できる。最適分析
次数の決定を含むフォルマント周波数のリアルタイム処
理は一般的に相当に困難でありまた演算量も多い。本発
明もこの点に着目しフォルマント周波数は一旦仮決定し
ておき、後述するＤＰマッチング手法実施の際に最適分
析次数の自動的決定とフォルマント周波数の実質的本決
定とを同時に効果的に行なっている。

ところで、一定の周波数帯域内に存在する極周波数の個
数は一定ではない。これは第４フォルマントの存在が不
定である等の理由による。また、ＬＰＣ係数から正確に
極周波数を抽出するためには帯域内に存在すべき極の総
数の２倍程度のＬＰＣ分析次数とする必要があり、これ
より少なくともまた多くても極周波数の抽出精度が低下
する。一方、フォルマントの時間的変化は一般にゆるや
かである。このような背景を勘案し本実施例では分析周
波数帯域内に存在する極の数を最小４、最大７と設定し
分析フレームごとにＬＰＣ次数８次（極数４）から１４
次（極数７）について求められるすべての極周波数を算
出し時間的に前後かつ予め設定する個数の分析フレーム
の極周波数との連続性の最もよいものを後述するＤＰマ
ッチング処理器５によるＤＰマッチング処理に含めて選
択している。

また、フォルマント仮決定器３からは上述した観点にも
とずいて抽出したＬＰＣ係数分析次数８〜１４次のフォ
ルマント周波数ｆ₁ ⁽⁸⁾〜ｆ₃ ⁽⁸⁾からｆ₁ ⁽¹⁴⁾〜ｆ₃ ⁽¹⁴⁾が
出力されるが、これらが第１〜第３フォルマントに限定
されている理由は次のとおりである。

すなわち、本実施例ではトレーニング不要な不特定話者
単語音声認識装置の構成を目的としており、このために
は特定話者による標準パタンがいかなる不特定話者にも
適合しうるものとして作成されなければならない。しか
しながら音声のスプクトル分布は話者ごとに異り、この
ことは話者ごとの声道長と、声帯から発する音源の特性
とが異ることに起因する。この問題点を解決するために
本発明では相連続する３個のフォルマント周波数を利用
してこれを３次元極座標表現し、その合成ベクトルの極
座標系における方向を決定する２つの角度情報θ，を
介して声道長の正規化を図っている。さらに第１〜第３
フォルマント周波数の比の分布を話者にかかわらず音声
についてほぼ一定であり音元特性からも個人差をほぼ除
去できるのでこれらの理由にもとづき第１〜第３フォル
マント周波数を選択出力しているのである。

第３図は第１ないし第３フォルマント周波数の極座標表
示図である。

互いに直交するフォルマント周波数軸Ｆ₁，Ｆ₂，Ｆ₃軸
に第１〜第３フォルマント周波数ｆ₁，ｆ₂，ｆ₃をそれ
ぞれ設定し合成ベクトルＶを得る。この合成ベクトルＶ
の方向を決定する２つの角度情報θ，はフォルマント
周波数ｆ₁，ｆ₂，ｆ₃の比によってその大きさが決定す
る周波数スペクトルに関連したパラメータである。この
θ，を介して声道長が正規化され、また声帯音源特性
もフォルマント周波数比ｆ₁：ｆ₂：ｆ₃で代表されるス
ペクトル包絡という形式で個人差がはぼ除去されること
となる。

極座標角算出器４は入力した仮決定フォルマント周波数
ｆ₁ ⁽⁸⁾〜ｆ₃ ⁽⁸⁾〜ｆ₁ ⁽¹⁴⁾〜ｆ₃ ⁽¹⁴⁾に対応したそれぞれ
の極座標角θ，の組を求める。こうして求まったθ，
の組に関するデータをそれぞれ(θ₁ ⁽⁸⁾，₁ ⁽⁸⁾)…
(θ_M ⁽⁸⁾，_M ⁽⁸⁾)…(θ₁ ⁽¹⁴⁾，₁ ⁽¹⁴⁾)…(θ_M ⁽¹⁴⁾，
_M ⁽¹⁴⁾)で表わす。ここに添字(s)…(14)＝Ｋはそれぞれ
分析次数を示し、またＭはは入力パタンの最大パタン
長、１，…Ｍ＝Ｊは最大パタンの長時系列における分析
フレーム周期に対応した時間位置である。

標準パタンファイル６は特定話者の発声した複数の単語
音声のそれぞれについて分析フレームの周期ごとに極座
標角θ，を予め求めておき、これを標準パタン
(θ₁ ^s，₁ ^s)，(θ₂ ^s，₂ ^s)………(θ_N ^s，_N ^s)として
ファイルする。ここで添字Ｓは標準パタンを、また１，
２，…Ｎ＝ｉは最大パタン長Ｎの標準パタン時系列にお
ける分析フレーム周期に対応した時間位置である。この
ような標準パタンはコンピュータシステムもしくは本実
施例による装置等を利用しオフライン的に極力正確なデ
ータの確保を前提として特定話者の音声単語にもとづき
音声資料等を利用しつつ予め作成される。

ＤＰマッチング処理器５は、こうして入力する入力パタ
と全標準パタンとの最適分析次数の選択を含むパタンマ
ッチングをＤＰ手法によって実施し両者の時間正規化を
行なう。このＤＰマッチング処理は次の(2)式で示す市
街地距離（以下単に距離という）を入力パタンと標準パ
タンのそれぞれについて求め、ＤＰパスの全長にわたっ
て積算した総市街地距離（以下単に総距離という）が最
短となるようなＤＰパスを選択する形式で処理される。

dij＝min(|θ_i ^s-θ_i ^k|+|_i ^s-_i ^k|)……(2) (2)式においてdijは距離、ｉ＝１，２，３，…Ｎ，ｊ＝
１，２，３，…Ｍ，Ｋ＝８，９，10，…１４でありＳは
標準パタン、Ｋは入力パタンを示す。

第４図は第１図に示す実施例におけるＤＰマッチングの
内容を説明するためのＤＰマッチング説明図である。

互いに直交する時間軸ｔ，τ上のＮ，Ｍはそれぞれ始点
Ｐからの時間位置が最大パタン長に等しい時点を示し、
またｉ，ｊはこれら時間軸上の任意の時点である。さら
にＤＰマッチングによって決定される最適ＤＰパスＲの
始点Ｐおよび終点Ｑからそれぞれ出ている線分ｌ_１およ
びｌ_２ならびにｌ₁′およびｌ₂′はＤＰ処理によって設
定されるＤＰパスの存在しうる傾斜制限領域を設定する
傾斜制限ラインである。

先ず公知の手段によって入力パタンと標準パタンとの始
点検出を行ない始点Ｐが設定される。次に各格子点ごと
に(1)式に示す距離dijを１分析フレーム周期前の各格子
と総当り的組合せで計算する。

この格子点間の距離計測は、たとえば第４図に示す如く
格子点(ｉ，ｊ)と、２重矢印で示す１分析フレーム周期
前かつ傾斜制限領域内の各格子点との距離を計算するよ
うな組合せで行なわれる。この計測では各格子点におけ
る入力パタンの分析次数は(1)式にもとづく距離dijを最
小とするものが選定されつつ行なわれ、かくして求めら
れるＤＰパスのうち総距離を最小とする単調増加パスが
最適ＤＰパスとして選択される。この最適ＤＰパスの選
択を全標準パタンのそれぞれについて実施し、これら全
標準パタンぶんの最適ＤＰパスに対応する総距離がＤＰ
マッチング処理器５から確認単語決定器７に供給され
る。このような最適ＤＰパスの決定手段によって入力パ
タンの分析次数の決定とフォルマント周波数の事実上の
決定とが平行して処理されている。

本実施例においては標準パタンを入力パタンに対して時
間圧縮もしくは伸張せしめるように時間正規化を行なっ
ているが、入力パタンを標準パタンに対して時間圧縮も
しくは伸張せしめてもマッチング誤差の補正等を配慮す
るだけでほぼ同様に実施でき、また入力パタンと標準パ
タンとの両者を互いに時間圧縮もしくは伸張せしめ合う
ように時間正規化を図ることもほぼ同様に実施できる。
いずれにせよ、こうして得られる最適ＤＰパスＲはそれ
ぞれ互いに直交する時間軸上に表現される入力パタンと
標準パタンとを互いに写像関係に対応せしめる写像関数
でありこれを介して時間正規化が図られるものである。

認識単語決定器７はこうして入力単語音声ごとに全標準
パタンに関する総距離データを受け、これらの大小関係
を比較し最小の総距離を提供する標準パタンに対応する
標準単語音声を認識結果として出力する。かくして不特
定話者にも適合し易いパタンマッチングをトレーニング
不要なフォルマント周波数の極座標表現という形式で実
施し、しかも入力単語音声からのフォルマント周波数の
抽出は経験的資料にもとづいて仮決定したうえＤＰマッ
チング処理で最適分析次数とともに事実上の決定を行な
うという手段で演算量も著しく抑圧したものとしてい
る。

第２図は本発明の第２の実施例の音声認識装置の構成を
示すブロック図である。

第２図に示す第２の実施例の構成はＬＰＣ分析器１′、
極算出器２、フォルマント仮決定器３、極座標角算出器
４、ＤＰマッチング処理器５、標準パタンファイル６、
認識単語決定器７を備えて構成され、これらのうちＬＰ
Ｃ分析器１′以外の構成内容については第１図に示す同
一記号のものと同一であるのでこれら同一内容に関する
詳細な説明は省略する。

この第２の実施例は、ＬＰＣ分析の前処理としてケプス
トラム（Ｃｅｐｓｔｒｕｍ）分析を実施することを特徴
とするものであり、その内容は次のとおりである。

すなわち、入力音声単語はＬＰＣ分析器１′に供給され
る。ＬＰＣ分析器１′はケプストラム分析器１１、リフ
タ１２およびＬＰＣ係数算出器１３を備えて構成され、
入力音声単語は先ずケプストラム分析器１１で予め設定
するビット数のディジタル量の量子化データとされたの
ち分析フレーム単位でケプストラム分析を受ける。この
場合のケプストラム分析はフーリェ変換、フーリェ係数
の絶対値化および対数化、逆フーリェ変化の逐次実施に
よる公知の手段を介して実行される。

ケプストラム分析器１１から出力したケプストラム係数
列はリフタ（Ｌｉｆｔｅｒ）１２に供給され、これら係
数列のうち声道伝送特性を主として表現する低ケフレン
シー（Ｑｕｅｆｒｅｎｃｙ）を選択し、一方声帯振動数
等の音源特性を主として表現する高ケフレンシー成分を
除去する。このようにして高ケフレンシー成分もしくは
ピッチ周期成分を除去したケプストラムは音源極の情報
を有しないもの、つまり話者依存性を排除したものとな
る。

リフタ１２の出力はＬＰＣ係数算出器１３に供給され
る。ＬＰＣ係数算出器１３は入力したケプストラム係数
列をフーリェ変換し、さらに逆対数化を施して擬似波形
を発生する。このあとＬＰＣ分析して複数の分析次数ご
とのαパラメータ群を算出しこれを極算出器２に供給
し、このあと第１の実施例と同様にして認識結果を得
る。

なお、ケプストラム分析およびケプストラム分析の音声
信号に対する効果等については斉藤収三、中田和男「音
声情報処理の基礎」オーム社、昭和５６年１１月３０日
その他に詳述されている。

本発明は入力単語音声の複数のＬＰＣ分析次数の１／２
もしくはそれ以下の割合で得られる極周波数にもとづい
て分析次数ごとに第１〜第３フォルマント周波数を一旦
仮決定したあとこれらフォルマント周波数を３次元極座
標化し、その合成ベクトルの極座標角θ，と特定話者
の標準単語音声の極座標角θ，との時間正規化をＤＰ
マッチング手法を利用して実施し最もよく正規化しうる
標準パタンを提供する入力単語音声を認識単語として決
定するという手段を備えることにより最適分析次数の決
定を含む実質的フォルマント周波数の決定を極めて容易
なものとし、演算量を大幅に低減した状態で不特定話者
向けの音声認識装置をトレーニング不要で提供しうる点
に基本的な特徴を有するものであり、第１，２図に示す
実施例の変形も種種考えられる。

たとえば第１，２の実施例ではいずれもＬＰＣ分析次数
を相連続する８〜１４次としているが、これは分析精度
等を勘案しその連続性と次数とのいずれも任意に設定で
きる。

また、第１，２の実施例では標準パタンを入力パタンに
対して時間伸縮せしめるようにして時間正規化を行なっ
ているがこれは入力パタンを標準パタンに合わせるよう
に時間伸縮するものとしても、また双方を時間伸縮する
ものとして時間正規化を行なってもほぼ同様に実施しう
ることは明らかである。

さらに、第１，２の実施例では固定の分析フレーム周期
でＬＰＣ分析しているがこれを可変長分析フレーム周期
としても容易に実施しうることは明らかであり以上はす
べて本発明の主旨を損なうことなく容易に実施しうる。

〔発明の効果〕

以上説明したように本発明は、分析フレームごとの複数
の次数による複数のフォルマント周波数ベクトルまたは
これらベクトルから導出される複数のベクトルから１個
のフォルマント周波数またはこれから導出されるベクト
ルを標準パタンとの時間正規化を伴うパタン照合により
選択することにより、次性推定を不要として次数推定に
伴うエラー発生を根本的に抑圧したトレーニング不要な
不特定話者向けの音声認識が可能となる効果を有し、副
次的にはフォルマント抽出および分析次数決定における
演算量を大幅に圧縮することができる効果を有する。

【図面の簡単な説明】

第１図は本発明の第１の実施例の構成を示すブロック
図、第２図は本発明の第２の実施例の構成を示すブロッ
ク図、第３図は第１ないし第３フォルマントの３次極座
標表示図、第４図は第１図に示す実施例におけるＤＰマ
ッチングの内容を説明するためのＤＰマッチング説明図
である。１，１′……ＬＰＣ分析器、２……極算出器、３……フ
ォルマント仮決定器、４……極座標角算出器、５……Ｄ
Ｐマッチング処理器、６……標準パタンファイル、７…
…認識単語決定器、１１……ケプストラム分析器、１２
……リフタ、１３……ＬＰＣ係数算出器。

Claims

【特許請求の範囲】

【請求項１】フォルマント周波数ベクトルまたはこのベ
クトルより導出されるベクトルの時系列データを標準パ
タンとして記憶する標準パタンメモリと、入力音声をフ
レーム毎に分析して得られる異なる分析次数のＬＰＣ係
数を介して算出される複数のフォルマント周波数ベクト
ルまたはこれらのベクトルより導出される複数のベクト
ルから分析フレーム毎に１個のフォルマント周波数ベク
トルまたはこれより導出されるベクトルを前記標準パタ
ンとの時間正規化にもとづいて選択しかつ同時にパタン
照合を実施する手段を有することを特徴とする音声認識
装置。
【請求項２】特許請求の範囲(1) 項における手段が入力
音声信号と複数の分析次数で分析してＬＰＣ係数を抽出
するＬＰＣ分析手段と、このＬＰＣ分析手段で抽出され
たＬＰＣ係数にもとづき各分析次数ごとに極周波数を算
出する極周波数算出手段と、この極周波数算出手段で算
出した各分析次数ごとの極周波数にもとづき各分析次数
における第１ないし第３フォルマント周波数を仮決定し
て出力するフォルマント周波数仮決定手段と、このフォ
ルマント周波数仮決定手段によって仮決定された各分析
次数ごとの第１ないし第３フォルマント周波数を３次元
極座標表現することによって得られる合成ベクトルの方
向を決定する２つの極座標角θおよびψを分析次数ごと
に算出する極座標各算出手段と、前記極座標各算出手段
によって出力される各分析次数ごとの前記極座標角θお
よびψと前記標準パタンの極座標角θおよびψとのスペ
クトル距離を評価尺度として入力音声信号と標準パタン
との時間正規化およびパタン照合をＤＰマッチング手法
により実施し最もよく時間正規化しうる標準パタンを入
力音声信号の認識単語として決定する認識単語決定手段
とを備え、前記標準パタンメモリがあらかじめ設定した
複数の単語音声のそれぞれについて求めた前記２つの極
座標角θおよびψを前記標準パタンとして格納したこと
を特徴とする音声認識装置。