JPH0246960B2 - - Google Patents

Info

Publication number
JPH0246960B2
JPH0246960B2 JP58205241A JP20524183A JPH0246960B2 JP H0246960 B2 JPH0246960 B2 JP H0246960B2 JP 58205241 A JP58205241 A JP 58205241A JP 20524183 A JP20524183 A JP 20524183A JP H0246960 B2 JPH0246960 B2 JP H0246960B2
Authority
JP
Japan
Prior art keywords
lpc
analysis
frequency
polar
polar coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58205241A
Other languages
English (en)
Other versions
JPS6097400A (ja
Inventor
Satoru Taguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58205241A priority Critical patent/JPS6097400A/ja
Publication of JPS6097400A publication Critical patent/JPS6097400A/ja
Publication of JPH0246960B2 publication Critical patent/JPH0246960B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声認識装置に関する。入力音声信号
を分析処理し、その意味内容や話者の認識を行な
うことを目的とする音声認識装置は近時よく知ら
れている。
この音声認識装置は、通常、話者によつて発声
される単語、いわゆる音声単語を入力音声信号と
し、この入力音声信号の音声的特徴を予め登録し
た特定話者による複数の音声単語それぞれの音声
的特徴と照合して最もよく合致する音声単語を認
識単語として選択する、いわば一種のパターン認
識手段を介して音声認識を行なうものである。
このような音声認識においては、入力音声信号
の話者を特定する場合と話者が不特定の場合とで
は認識処理の困難性に大きな差がある。即ち、音
声の音響的特徴は時変のスペクトル包絡から構成
される時間周波数パタンとして考えられるが、話
者、発声時刻の違いによりこの時間周波数パタン
が異なる事が知られている。同一話者の発声した
同一単語も時間周波数パタンが異なるが、この変
異の主要なものは周波数パタンの時間的変化速度
である。従つて特定の話者を認識対称とする場合
には予じめ同一の話者が発声した単語の標準パタ
ンの時間的変化速度と、認識時に発声された単語
のパタンの時間的変化速度とを、相互に最もよく
一致するように一方を時間伸縮することにより良
好に単語の認識が行なえる。特定の話者に対する
音声単語の標準パタンは、その話者が発生する予
め設定した複数の単語のそれぞれについてその全
継続時間にわたつて分析した特徴パラメータの時
系列に関するデータを登録しストアしたものを標
準パタンとしてフアイルし、特定話者による発声
単語は、分析したLPCの如き特徴パラメータを
標準パタンの特徴パラメータと照合し、2つの特
徴パラメータ間の類似度が最も高い標準パタンの
単語を選択するという手段、云わゆるDPマツチ
ング法によつて行なわれ、一般的に十分高い認識
率が得られる。上述した2つの特徴パラメータ間
の類似度は、通常特徴パラメータ、たとえばαパ
ラメータ等をひとつの空間ベクトルと見なしてこ
れら空間ベクトル間の空間的距離を示すベクトル
距離を測定しこれを尺度として表わすことがで
き、最もこのスペクトル距離が小さい標準パタン
を有する登録単語が入力単語として選択されると
いう手段によつて処理されている。なお、スペク
トル距離は、照合すべき2つの単語の分析窓ごと
の空間ベクトルに関する対数スペクトルの自乗平
均値等によつて表わされ、これらについては管
村、板倉:パタンマツチング符号化による音声情
報圧縮、音響学会音響研究会資料、S79−08、
1979年5月その他に詳述されている。
さて、特定の話者による標準パタンは、それ以
外の不特定話者の音声に対する照合に利用すると
認識率が一般的に大きく低下する。これは、音声
の特徴パラメータの時間的および周波数的分布に
個人差、発声時刻による差があり、前述のように
DPマツチングにより吸収できる部分は、特徴パ
ラメータの時間的変化速度の変動分で、個人差に
起因する周波数分布(スペクトル包絡)の差異は
補正されない。従つて特定の話者による標準パタ
ンを不特定話者に対しても認識率の高いものにす
るためにはこの個人差を不特定話者ごとに補正す
ることが必要となる。
このような補正は通常、時間正規化および周波
数正規化という2つの処理手法を利用して処理さ
れ得る。
上述した2つの処理手法のうち時間正規化は特
定、非特定話者いずれにも発生する特徴パラメー
タの時間的分布の伸縮、すなわち音声単語を構成
する個個の音素ごとの継続時間の伸縮により入力
音声信号と標準パターンとの間で同一の単語音声
でも常に音素単位間に発生する時間的に非線形な
対応を決定するものである。この時間正規化のの
ち、標準パタンに登録されている複数の単語音声
とのスペクトル距離等の測定を介して最もこの距
離の短いものをダイナミツク・プログラミング
(Dynamic Programming、以下DPと略称する)
によつて選択し、これを入力単語音声に対する最
適単語音声とするものであるが、前述した如く標
準パタンとのDPマツチング処理では、入力音声
パタンと最も良く照合のとれた標準パタンが時間
正規化も最も良くとれた標準パタンとして選択さ
れる。
また周波数正規化は、声帯波形の差はスペクト
ル包絡の概形の傾きにより、また声道長の差は周
波数スペクトル包絡の周波数軸方向の伸縮に対す
る個人差の正規化を標準パタンに対して行なうも
ので、この正規化のうち標準パタンとの間でDP
手法により周波数パタンの最適な標準パタンを選
択しこれを入力音声単語に対する最適音声単語と
するものである。
特定話者の音声単語に基づいて作成された標準
パタンを利用して不特定話者の音声単語に対する
音声認識を行なうには、上述した時間および周波
数正規化ならびにこれらの正規化処理後のDP手
法による評価を介して行なう最適標準パタンの選
択によつて入力音声単語に最もよく適合する標準
パタンの登録単語を標準単語とすることによつて
基本的には実施することが可能である。
しかしながら、このような不特定話者の音声認
識においては、認識処理において通常最も有効な
手段とされているDP手法による最適標準パタン
とのマツチング(照合)、選択処理を2重に実施
する必要があり、このような処理は演算量が非現
実的な程ぼう大になるため実際上実現が困難で現
時点ではまだ実現されていない、また、現時点で
実用化されている音声認識の手段としては、周波
数正規化の不必要な特定話者単語認識と、DP手
法によらない手法、たとえば識別関数法、線形判
別関数法とがあり、これらのうち識別関数法は不
特定話者認識に対して有効な手段とされているが
前処理の演算量が、たとえば10単語程度で大型コ
ンピユータによる1ケ月程度の処理を必要とする
ため、たかだか4〜10単語程度の認識が実用上の
限度となつているという欠点がある。
本発明の目的は上述した欠点を除去し、音声認
識装置において、入力音声単語をLPC分析して
得られる分析次数N、N+1、N+2、……N+
IのI+1組のαパラメータベクトルの次数に対
応するLPC極周波数の連続性をDP手法によつて
評価し最適なLPC分析次数を分析窓ごとに推定
しつつ、選択されたLPC分析次数に基づく極周
波数ベクトルの時間的変化範囲における第1〜第
3フオルマントで形成する3次元極座標によつて
示される入力音声単語を標準パタンの複数の登録
単語と照合したうえ最もよく時間正規化しうる標
準パタンを選択決定するという手段を備えること
により不特定話者認識における認識単語数を特定
話者認識における認識単語数並みにすることがで
きる音声認識装置を提供することにある。
本発明の装置は、音声認識装置において、入力
音声信号をLPC分析し、予め設定する分析次数
N次からN+I(I=0、1、2、3……)次ま
でのI+1個のLPC(αパラメータ)ベクトルを
算出するLPC分析手段と、このLPC分析手段に
よつて得られるLPCベクトルに基づき前記I+
1組のLPCベクトルの組数に対応する数のLPC
極周波数ベクトルを算出するLPC極周波数算出
手段と、第1乃至第3フオルマントに対応する前
記LPC極周波数ベクトルの周波数ずれを評価尺
度とし前記LPC極周波数ベクトルの連続性を最
もよく確保しうる最適LPC分析次数を分析窓ご
とにダイナミツク・プログラミング法によつて推
定するLPC分析次数推定手段と、このLPC分析
次数推定手段によつて推定された最適LPC分析
次数に対応するLPC極周波数ベクトルの時間的
変化範囲から不要もしくは冗長な極、例えばケプ
ストラム分析を実施しない場合に発生する不要な
音源極あるいは第4フオルマント以上の冗長な極
を除去したうえ第1乃至第3フオルマントに対応
するLPC極周波数ベクトルを極座標表現するこ
とにより入力音声信号の3次元極座標化を行なう
極座標化手段と、予め特定する任意の話者による
複数単語の前記極座標化手段による3次元極座標
データを分析窓ごとに登録し複数の標準パタンと
してストアする標準パタン登録手段と、前記極座
標化手段における3次元極座標データの分析窓ご
との時間系列と前記複数の標準パタンとを前記3
次元極座標データ間のベクトル距離を評価尺度と
してダイナミツク・プログラミング法によつて照
合し前記3次元極座標データの分析窓ごとの時間
系列の前記複数の標準パタンに対する時間正規化
を行なう時間正規化手段と、この時間正規化手段
によつて最もよく時間正規化しうる標準パタンを
入力音声信号の認識単語として前記複数の標準パ
タンから選択する認識単語選択手段とを備えて構
成される。
次に図面に参照して本発明を詳細に説明する。
第1図は本発明の一実施例を示すブロツク図で
ある。
第1図に示す実施例は、LPC分析器1、極周
波数算出器2、分析次数推定器3、極座標化器
4、標準パタンフアイル5、時間正規化器6およ
び認識単語選択器7等を備えて構成される。
入力端子1001を介して入力した単語音声は
LPC分析器1によつてLPC分析を行なう。
LPC分析器1は、入力した単語音声を予め設
定するビツト数のデジタル量に変換して量子化し
たうえ分析処理単位時間、すなわち分析窓ごとに
これをLPC分析し、次数N、N+1、N+2、
…N+Iの連続するI+1組のαパラメータ群を
LPCベクトルとして算出する。本実施例におい
ては上述したLPC分析次数は8次〜14次に設定
してあり、これによつて8次〜14次の7組の
LPCベクトルが抽出される。
LPC分析器1からはこのようにして抽出され
た8次〜14次のLPCベクトルが極周波数算出器
2に送出される。
極周波数算出器2は、入力した8次から14次の
LPCベクトルのそれぞれについて、これらLPC
ベクトルを係数とする高次方程式を零とする根と
して求められる極周波数を算出する。この極周波
数は分析次数がp次の場合は次の(1)式に示す高次
方程式の根として求められる。
1+α1Z-1+α2Z-2+……+αpZ-p=0 ………(1) (1)式において、α1、α2、……αpはLPCベクト
ル、Z=ejwでありかつ(1)式はLPC分析器1によ
る線形予測モデルの伝達関数H(Z-1)=1/Ap
(Z-1)の右辺の分母Ap(Z-1)を表わすものであ
ることはよく知られている。
(1)式の根はLPC分析次数の1/2組の複素数根と
して求まり、従つて極周波数算出器2は4〜7の
極に対する共振周波数すなわち極周波数とその帯
域幅とを分析次数8〜14次のLPCベクトルそれ
ぞれについて算出する。
上述した帯域幅Biは次の(2)式で示される。
Bi=−logγi/π△T ………(2) (2)式において△Tは入力音声信号の標本化周
期、また、γiは(1)式の根を極座標表示してZi=
γiejiで表わしたときのベクトルの大きさγiに対
応し、またλiは極周波数fiに対応する波長を示
す。
極周波数算出器2はこうして得られる極周数と
その帯域幅に関する4個の極から7個の極までの
データを分析次数推定器3に送出する。
極周波数算出器2によつて算出される極周波数
はまた、LPC分析器1によつて擬似的に表わさ
れる声道フイルタ、すなわち前述した伝達関数H
(Z-1)をもつ音響生成フイルタの共振周波数であ
り、従つて声道フイルタの共振周波数を示し、こ
の共振周波数すなわち極周波数は周波数スペクト
ルのエネルギーが集中したいわゆるフオルマント
周波数ともほぼ一致することはよく知られてい
る。
分析次数推定器3は、メモリ回路31および
DP処理回路32等を備えて構成され、メモリ回
路31は入力した4個ないし7個の極周波数デー
タをいつたんストアしたうえこれをDP処理回路
32に送出するが、メモリ回路31にストアされ
る極周波数データはそれぞれの分析窓の前後にわ
たるデータの連続性を次のDP処理回路32で判
定するに十分なぶん確保されるようにストアされ
る。
所で一定の周波数帯域幅、例えば100〜3400Hz
の音声信号が有する極周波数の個数は一定でな
い。これは第4フオルマントが帯域内に存在する
か否かは不定である等の理由による。又、LPC
係数から正確に極周波数を抽出するためには、帯
域内に存在する極の総数の二倍程度のLPC次数
にする必要があり、それにより少なくても、多く
ても極周波数の抽出精度が低下する。
一方フオルマント周波数の時間的変化は一般に
ゆるやかである。そこで本発明に於いては、分析
周波数帯域内に存在する極の数の最小を4、最大
を7とし、分析フレーム毎にLPC次数8次(極
の数4に相当)から14次(極の数7に相当)につ
いて求められる全ての粒周波数を算出し、時間的
に前後の極周波数との連続性を考慮し、最適な
LPC分析次数を推定している。
DP処理回路32は、メモリ回路31から読出
される極周波数データに関する連続性をフレーム
間の極周波数差を歪として最小歪となる最適パス
を漸化式で用いて選択するDP手法によつて、た
とえば単音節の如きひとつの処理単位ごとに評価
する。極周波数の連続性は、分析次数の1/2の個
数で表わされるある分析窓に関する極周波数がそ
れぞれの帯域幅に関する条件を含め、そのレベル
と周波数配列が分析窓の前後において予め設定す
る個数の分析窓における極数波数データとどれ程
よく連続性を保つかについてDP手法を利用し、
上述した処理単位ごとに得られる8次から14次の
LPCベクトルから算出した極周波数ベクトル群
ごとにしらべ、これら極周波数ベクトル群間の連
続性が最適となるLPC分析次数を各音声単語に
つい分析窓ごとに推定する。
第2図は、極周波数の一般的特性を示す極周波
数特性図である。
第2図に示す極周波数特性図は、分析次数8次
の場合の分析窓における極周波数の一例であり、
いわゆるフオルマントに対応する第1〜第4の4
個の極P1、P2、P3およびP4ならびに音源情報と
してのピツチ周期に対応する音源P0を有し、第
2図に示す如きエネルギー対周波数特性で分布す
る。
第1〜第4の極、および音源極のエネルギーは
通常第2図に示す如く周波数とともに慚減し、ま
たそれぞれ帯域幅B1、B2、B3およびB4を有する
第1〜第4の極周波数f1、f2、f3およびf4は第1
〜第4フオルマント周波数に対応する。なお、f0
は音源極周波数である。
DP処理回路32は、8次から14次にわたる
LPC分析次数に対応して得られる4個から7個
の極周波数ベクトル群に対し、その帯域幅に関す
る条件を含み、予め設定する個数の分析窓を単位
とする分析区間ごとに分析窓間の周波数ずれの最
も少ないものを推定しつつ時間系列としてのいわ
ゆるDPパスを求める。この場合、次の分析窓に
存在する極周波数候補としての条件は、周波数差
分が最も少ないことに加え上述した帯域幅の条件
も加味する。このことは、音声分析においては、
正常な極周波数ベクトルに近接してランダムに発
生するランダムな帯域幅の偽極周波数等による誤
推定を排除することを目的としている。このよう
にして、8次のLPC分析次数に対応する4個の
極周波数ベクトルから14次のLPC分析次数に対
応する7個の極周波数ベクトルまで、それぞれの
極周波数の時系列データとしての4つのDPパス
から最大7つまでのDPパスが得られる。さて、
これらのDPパスには、第1乃至第3フオルマン
トに対応する3つの極周波数が存在する。この3
つの極周波数は、第1から第3フオルマントに向
つて周波数が高くなることや、帯域幅、レベル等
に関する特有の条件にもとづいて推定される。本
実施例では第1から第3フオルマントに対応する
推定極周波数ベクトルの周波数ずれを評価尺度と
し、この周波数ずれが最小の3つの極周波数ベク
トルを提供するLPC分析次数を、連続性が最も
よくとれたLPC分析次数として推定する。音声
認識における認識信頼性を確保するうえで最も重
要なことは、分析データ自体が連続性を確保した
信頼性の高いものであるということで、本実施例
でもこのようなダイナミツク・プログラミングに
よつて極めて高い信頼性を確保している。
このようにして分析窓ごとに推定された最適
LPC次数の極周波数に関するデータは次に極座
標化器4に送出される。
極座標化器4は、不要ポール除去回路41およ
び極座標化回路42を備えて構成される。
不要ポール除去回路41は、選択されたLPC
次数に基づく分析窓ごとの極周波数ベクトルの時
間的変化範囲から不要な極(ポール)、すなわち
音源極と第4フオルマント以上の極に対応するデ
ータを除去し、第1〜第3フオルマントに対応す
る極周波数ベクトルを極座標化回路42に送出す
る。
上述した不要ポールとは、極座標化回路42に
おける3次元極座標化処理に不要なポールを意味
し、発生状態が不安定な第4フオルマント以上の
極、ならびに個人差を伴なう音源極がこれに該当
する。極座標化回路42は、第1〜第3フオルマ
ントに対応する極周波数ベクトルを極座標表示し
この極座標によつて表わされる空間ベクトルを分
析窓ごとに次次に出力する。
第3図は極周波数の3次元極座標表示図であ
る。
極座標系の原点0で直交する3軸f1、f2および
f3はそれぞれ第1、第2および第3フオルマント
に対応する極周波数を示し、Vはこれらの極周波
数の合成ベクトルであり、このようにして第1〜
第3フオルマント周波数で形成した3次元極座標
による合成ベクトルVの空間方向を決定する2つ
の角度θ、は音声単語の周波数スペクトルを表
現するものであり、かつこの2つの角度によつて
示される音声周波数スペクトルは話者独自の特性
が除去されたものとして利用しうることもよく知
られている。
標準パタンフアイル5は、特定話者に関するこ
のような周波数スペクトルに関するデータを分析
窓ごとに全単語数ぶん登録、ストアしこれらを標
準パタンとしてフアイルする。こうして登録され
る標準パタンは、明らかに連続性の極めて高い内
容を有する。このようにして標準パタンフアイル
を作成したあと、不特定話者の音声単語による極
座標化器4の出力、すなわち分析窓ごとの周波数
スペクトルの時間系列に関するデータを時間正規
化器6に送出し、標準パタンフアイルに予め登録
された全音声単語に関する複数の標準パタンに対
して時間正規化する。
時間正規化器6は、極座標化器4から出力する
上述した2つの角度θ、の分析窓ごとの時系列
データとしての時間関数X1、X2、X3……と、標
準パタンフアイル5にフアイルされている全単語
音声のθ、に関する時間関数S1、S2、S3……と
の差を表わす誤差関数R1、R2、R3……を最小と
する時間関数X1、X2、X3……をDP手法によつ
て評価して全単語音声の組について時間正規化を
行なつたのち、次に認識単語選択器4において、
誤差関数R1、R2、R3……等によつて示される入
力単語音声と標準パタンフアイルに登録されてい
る全単語音声とのベクトル距離が最小となるも
の、換言すれば上述した2つの角度θ、ψの差に
もとづいて示される標準パタンと分析窓ごとの周
波数スペクトルの時間系列とのユークリツド距離
もしくは市街地距離が最小となり最もよく時間正
規化できる標準パタンをこれら誤差関数値間の大
小比較によつて選択し、この標準パタンを入力単
語音声に最も類似した最適パタンとして認識して
出力端子7001を介して出力する。
本実施例では不要な音源極を不要ポール除去回
路41で除去しているが、LPC分析の前処理と
してケプストラム分析を実施することにより同様
な音声認識装置を実現し得る。
第4図はLPC分析の前処理としてケプストラ
ム分析を実施する場合の一例を説明するためのブ
ロツク図である。
入力端子8001を介して入力した単語音声は
ケプストラム分析器8によつてケプストラム分析
を行なう。
ケプストラム分析器8は、入力した単語音声を
予め設定するビツト数のデジタル量に変換して量
子化したうえ分析処理単位時間、すなわち分析窓
ごとにこれをケプストラム分析する。なお、ケプ
ストラム分析はフーリエ変換、フーリエ係数の絶
対値化及び対数化、逆フーリエ変換を遂次実施し
て算出する広く知られた方法を用いている。
ケプストラム分析器8からはこのようにして抽
出されたケプストラム係数列がリフタ9に送出さ
れる。
リフタ9は入力したケプストラム係数列から声
道伝送特性を主として表現する低ケフレンシー部
分を選択し、声帯振動数等の音源特性を主として
表現する高ケフレンシー部分もしくはピツチ周期
成分を除去する。高ケフレンシー部分もしくはピ
ツチ周期成分を除去したケプストラム係数列は音
源極の情報を有しないこととなる。
リフタ9からは音源極の情報が除去されたケプ
ストラム係数列がLPC係数算出器10に送出さ
れる。
LPC係数算出器10は入力したケプストラム
係数列をフーリエ変換、逆対数化により擬似波形
を発生する。LPC係数算出器10は更に発生し
た擬似波形をLPC分析し、次数N、N+1、N
+2、……、N+Iの連続するI+1組のαパラ
メータ群をLPCベクトルとして算出する。
なお、ケプストラム分析およびケプストラム分
析の音声信号に対する効果は、斉藤収三・中田和
男「音声情報処理の基礎」オーム社、昭和56年11
月30日、第7,3項“ケプストラム分析”に詳し
く述べられている。
又、リフタに於いて使用される時間遅れ方向の
窓の形状には高ケフレンシー部分を一括して除去
する場合にはCOSINE窓(COSINEリフタ)等
が、又、ピツチ周期成分を除去する場合には、ピ
ツチ周期に対応するCOMB窓(COMBリフタ)
等が選択される。
LPC係数算出器10からはこのようにして抽
出された例えば8次〜14次のLPCベクトルが第
1図に示す極周波数算出器2に送出される。
このようにして、特定話者による標準パタンを
利用して不特定話者による認識単語数を特定話者
による認識単語数まで大幅に増加した音声認識を
行なうことが可能となる。
本発明は、音声認識装置において入力音声単語
をLPC分析して得られるαパラメータの分析次
数に対応するLPC極周波数の連続性を評価して
最適LPC分析次数を分析窓ごとに推定したうえ、
この推定されたLPC次数に基づく極周波数ベク
トルの時間的変化範囲における第1〜第3フオル
マントに対応する極周波数ベクトルに基づき設定
する3次元極座標によつて話者の個人差を除去し
た入力音声単語の空間ベクトルの時間系列を、分
析窓ごとに次次に形成しこれを予め登録した特定
話者による複数単語音声の標準パタンに対して時
間正規化し最もよく時間正規化できる標準パタン
を認識単語として選択して不特定音声認識におけ
る認識単語数を特定話者における認識単語数なみ
とする点に基本的特徴を有するものであり、第1
図に示す本発明の実施例の変形も種種考えられ
る。
たとえば、第1図に示す実施例ではLPC分析
器1による分析次数8〜14次を対象としているが
これは分析精度等を勘案し所望に応じ任意に設定
しうるものであり、また第1図に示す各構成機器
はこれらを任意の組合せによつて構成しても差支
えなく、これらはすべて本発明の主旨を損なうこ
となく容易に実施しうるものである。
以上説明した如く本発明によれば、音声認識装
置において、入力音声単語を次数N〜N+Iにわ
たつてLPC分析して得られる連続するI+1組
のαパラメータベクトルの極周波数の連続性を
DP手法によつて評価して得られる最適LPC次数
における極周波数ベクトルのうち、第1〜第3フ
オルマントに対応する極周波数によつて形成した
3次元極座標の時間系列を特定話者による複数の
標準パタンに対して最適時間正規化しうるものを
認識単語として選択するという手段を備えること
により、不特定話者による認識単語数を特定話者
なみに大幅に改善することができる音声認識装置
が実現できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロツク図、
第2図は極周波数の一般的特性を示す極周波数特
性図、第3図は極周波数の3次元極座標表示図、
第4図はLPC分析の前処理にケプストラム分析
を実施する場合の一構成例を示すブロツク図であ
る。 1……LPC分析器、2……極周波数算出器、
3……分析次数推定器、4……極座標化器、5…
…標準パタンフアイル、6……時間正規化器、7
……認識単語選択器、8……ケプストラム分析
器、9……リフタ、10……LPC係数算出器、
31……メモリ回路、32……DP処理(マツチ
ング)回路、41……不要ポール除去回路、42
……極座標化回路。

Claims (1)

  1. 【特許請求の範囲】 1 音声認識装置において、入力音声信号を
    LPC(Linear Prediction Coefficient、線形予測
    係数)分析し予め設定する分析次数N次からN+
    I(I=0、1、2、3……)次までのI+1組
    のLPC(αパラメータ)ベクトルを算出するLPC
    分析手段と、このLPC分析手段によつて得られ
    るLPCベクトルに基づき前記I+1組のLPCベ
    クトルの組数に対応する数のLPC極周波数ベク
    トルを算出するLPC極周波数演算手段と、第1
    乃至第3フオルマントに対応する前記LPC極周
    波数ベクトルの分析窓間の周波数ずれを評価尺度
    とし前記LPC極周波数ベクトルの連続性を最も
    よく確保しうる最適LPC分析次数を分析窓ごと
    にダイナミツク・プログラミング法によつて推定
    するLPC分析次数推定手段と、このLPC分析次
    数推定手段によつて推定された最適LPC分析次
    数に対応するLPC極周波数ベクトルの時間的変
    化範囲から音源極および第4フオルマント以上を
    除去したうえ第1乃至第3フオルマントに対応す
    るLPC極周波数ベクトルを極座標表現すること
    により入力音声信号の3次元極座標化を行なう極
    座標化手段と、予め特定する任意の話者による複
    数単語の前記極座標化手段による3次元極座標デ
    ータを分析窓ごとに登録し複数の標準パタンとし
    てストアする標準パタン登録手段と、前記極座標
    化手段における3次元極座標データの分析窓ごと
    の時間系列と前記複数の標準パタンとを前記3次
    元極座標データ間のベクトル距離を評価尺度とし
    てダナミツク・プログラミング法によつて照合し
    前記3次元極座標データの分析窓ごとの時間系列
    の前記複数の標準パタンに対する時間正規化を行
    なう時間正規化手段と、この時間正規化手段によ
    つて最もよく時間正規化しうる標準パタンを入力
    音声信号の認識単語として前記複数の標準パタン
    から選択する認識単語選択手段とを備えて音声認
    識を行なうことを特徴とする音声認識装置。 2 音声認識装置において、入力音声信号をケプ
    ストラム分析しケプストラム係数列を算出するケ
    プストラム分析手段と、このケプストラム分析手
    段によつて得られるケプストラム係数列の高ケフ
    レンシー部分もしくはピツチ周期成分を除去する
    リフタ実行手段と、このリフタ実行手段によつて
    高ケフレンシー部分もしくはピツチ周期成分が除
    去されたケプストラム係数列を予め設定する分析
    次数N次からN+I(I=0、1、2、3……)
    次までのI+1組のLPC(αパラメータ)ベクト
    ルを算出するLPC分析手段と、このLPC分析手
    段によつて得られるLPCベクトルに基づき前記
    I+1組のLPCベクトルの組数に対応する数の
    LPC極周波数ベクトルを算出するLPC極周波数
    算出手段と、第1乃至第3フオルマントに対応す
    る前記LPC極周波数ベクトルの分析窓間の周波
    数ずれを評価尺度とし前記LPC極周波数ベクト
    ルの連続性を最もよく確保しうる最適LPC分析
    次数を分析窓ごとにダイナミツク・プログラミン
    グ法によつて推定するLPC分析次数推定手段と、
    このLPC分析次数推定手段によつて推定された
    最適LPC分析次数に対応するLPC極周波数ベク
    トルの時間的変化範囲から音源極および第4フオ
    ルマント以上を除去したうえ第1乃至第3フオル
    マントに対応するLPC極周波数ベクトルを極座
    標表現することにより入力音声信号の3次元極座
    標化を行なう極座標化手段と、予め特定する任意
    の話者による複数単語の前記極座標化手段による
    3次元極座標データを分析窓ごとに登録し複数の
    標準パタンとしてストアする標準パタン登録手段
    と、前記極座標化手段における3次元極座標デー
    タの分析窓ごとの時間系列と前記複数の標準パタ
    ンとを前記3次元極座標データ間のベクトル距離
    を評価尺度としてダイナミツク・プログラミング
    法によつて照合し前記3次元極座標データの分析
    窓ごとの時間系列の前記複数の標準パタンに対す
    る時間正規化を行なう時間正規化手段と、この時
    間正規化手段によつて最もよく時間正規化しうる
    標準パタンを入力音声信号の認識単語として前記
    複数の標準パタンから選択する認識単語選択手段
    とを備えて音声認識を行なうことを特徴とする音
    声認識装置。
JP58205241A 1983-11-01 1983-11-01 音声認識装置 Granted JPS6097400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58205241A JPS6097400A (ja) 1983-11-01 1983-11-01 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58205241A JPS6097400A (ja) 1983-11-01 1983-11-01 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6097400A JPS6097400A (ja) 1985-05-31
JPH0246960B2 true JPH0246960B2 (ja) 1990-10-17

Family

ID=16503732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58205241A Granted JPS6097400A (ja) 1983-11-01 1983-11-01 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6097400A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638199B2 (ja) * 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
JP2569470B2 (ja) * 1985-10-04 1997-01-08 日本電気株式会社 ホルマント抽出器
JPS63143598A (ja) * 1986-12-06 1988-06-15 日本電気株式会社 音声特徴パラメ−タ抽出回路
JP6051996B2 (ja) * 2013-03-26 2016-12-27 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837695A (ja) * 1981-08-20 1983-03-04 三洋電機株式会社 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837695A (ja) * 1981-08-20 1983-03-04 三洋電機株式会社 音声認識装置

Also Published As

Publication number Publication date
JPS6097400A (ja) 1985-05-31

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
EP0938727B1 (en) Speech processing system
US5146539A (en) Method for utilizing formant frequencies in speech recognition
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US5774836A (en) System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
US4852172A (en) Speech recognition system
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP2002366192A (ja) 音声認識方法及び音声認識装置
JPH0246960B2 (ja)
JP3354252B2 (ja) 音声認識装置
JPH0797279B2 (ja) 音声認識装置
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
Chakraborty et al. An automatic speaker recognition system
Hamid Speech sound coding using linear predictive coding (LPC)
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP3100180B2 (ja) 音声認識方法
JPH0441357B2 (ja)
Levin On the representation of speech and music
CN118136001A (zh) 语音识别模型训练方法、装置、设备及存储介质