JPH0638199B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0638199B2
JPH0638199B2 JP60194336A JP19433685A JPH0638199B2 JP H0638199 B2 JPH0638199 B2 JP H0638199B2 JP 60194336 A JP60194336 A JP 60194336A JP 19433685 A JP19433685 A JP 19433685A JP H0638199 B2 JPH0638199 B2 JP H0638199B2
Authority
JP
Japan
Prior art keywords
analysis
standard pattern
formant
frequency
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60194336A
Other languages
English (en)
Other versions
JPS6254297A (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60194336A priority Critical patent/JPH0638199B2/ja
Priority to US06/902,817 priority patent/US4852172A/en
Priority to CA000517276A priority patent/CA1258128A/en
Publication of JPS6254297A publication Critical patent/JPS6254297A/ja
Publication of JPH0638199B2 publication Critical patent/JPH0638199B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Detergent Compositions (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識に関し、特に不特定話者により単語音
声の認識も可能な音声認識装置に関する。
〔従来の技術〕
入力音声信号を分析処理し、その内容ならびに話者の認
識を行なうことを目的とする音声認識装置はよく知られ
ている。
この音声認識装置は、通常は入力音声信号として単語音
声を利用し、特定話者による複数の単語音声のスペクト
ル包絡パラメータを標準パターンとして登録しておき入
力した単語音声とのスペクトル包絡パラメータが最もよ
く合致する標準パタンを認識単語として決定するもので
あり、いわば音声的パタン認識といった機能をもつもの
である。
このような音声認識装置では、入力する単語音声が特定
の話者によるものと不特定の話者によるものとによって
認識処理の困難性に極めて大きい差があり、話者が不特
定の場合には認識が極めて難しくなる。この理由は次の
ような事実にもとづくものである。
すなわち、一般的に音声の音響的特徴は時変(time var
iant)性をもつスペクトル包絡によって示される時間周
波数パタンとみなすことができるが、この時間周波数パ
タンは話者、発声時刻に対して変動し、さらに同一話者
の発声する同一の単語音声でも発生機会ごとにその時間
周波数パタンが異る。このような時間周波数パタンの変
動をもたらす主因は時間周波数パタンの時間的変化速度
の相違による。従って、特定の話者を認識対象とする場
合は予め同一の特定話者が発生した単語音声の標準パタ
ンの時間的変化速度と、認識時に発声した単語音声のパ
タンの時間的変化速度とを相互に最もよく一致するよう
に一方を他方に対して時間的に伸縮せしめる時間正規化
を実施することによって良好に認識を行なうことができ
る。
上述した標準パタンとしては、特定の話者が発生すべき
複数の単語のそれぞれについて、全継続時間にわたって
分析フレーム単位ごとに分析した特徴パラメータの時系
列データを登録する。一方、特定話者による認識時の発
生単語は分析フレームごとに分析して特徴パラメータが
抽出され、パタン照合はこれと標準パタンの特徴パラメ
ータとの相互の時間的変化速度が最もよく一致するよう
に標準パタンもしくは分析した特徴パラメータを伸縮し
つつ照合するいわゆる時間正規化をDP手法を介して実
施し一般的に良好な認識率を得ており、このようなDP
手法はDPマッチングとして知られている。
上述したスペクトル距離は空間ベクトルとしての各種特
徴パラメータの空間的距離を示すものとして表現され、
これらスペクトル距離ならびにこのスペクトル距離を介
して行なうパタンマッチングに関しては、たとえば菅
村、板倉:「パタンマッチング符号化による音声情報圧
縮」、音響学会音響研究会資料、S79−08、197
9年5月その他に詳述されている。
さて、特定話者による標準パタンを利用して不特定話者
の単語音声を認識する場合には認識率が大きく低下す
る。これは前述した如く音声のスペクトル包絡パラメー
タの時間的および周波数的分布には個人差、発声時刻に
よる相違があり、前述したDPマッチング手法によって
吸収できる部分はスペクトル包絡パラメータの時間的変
化速度に関する変動分のみで個人差に起因する周波数分
布に関する部分は補正されない。
従って特定の話者による標準パタンを不特定話者に対し
ても認識率の高いものとするためにはこの個人差分を不
特定話者ごとに補正する必要がある。
このような補正は原理的には時間正規化および周波数正
規化という2つの処理手法を利用して処理することがで
きる。
これら2つの正規化処理のうち時間正規化は特定、非特
定話者いずれにも発生する特徴パラメータの時間的分布
の伸縮により同一単語音声でも音素単位間に発生する時
間的に非線形な対応を決定するものである。具体的には
分析パタンと標準パタンとを時間座標で対応せしめる写
像関数を見出すことであり、DPマッチング手法でスペ
クトル距離が最小となる写像関数を提供しうる標準パタ
ンが分析パタンに最適合するパタンとして選択するもの
である。
また、周波数正規化は話写、発生時刻に対応して変動す
る時間周波数パタンの正規化を図るもので、音声波形の
差はスペクトル包絡の概形の傾きにより、また声道長の
差は周波数スペクトル包絡の周波数軸方向の伸縮に対す
る個人差の正規化を標準パタンに対して行なうものであ
り、標準パタンとのDPマッチング手法でスペクトル距
離を評価尺度とし時間周波数パタンの最適な標準パタン
を選択するものである。
上述した手段のほかに不特定話者に対する音声認識手段
としてはDPマッチングを利用しない識別関数法が比較
的有効な手段として考えられている。
〔発明が解決しようとする問題点〕
しかしながら上述した従来のこの種の非特定話者向けの
音声認識手法には次のような問題点がある。
すなわち、DPマッチング手法にもとづいて時間正規化
と周波数正規化とを併用する処理は演算量が非現実的と
言っていい程膨大なものとなってしまうため原理的には
可能性があっても実現困難で実際には利用されていな
い。
また、識別関数法は現時点で実用化されている手段であ
るが、前処理の演算量が10語程度でも大型コンピュー
タによる1ケ月程度の処理を必要とするためたかだか
4,5ないし10単語程度の認識が実用上の限度となっ
ている。
さらに、上述した問題点を回避すべく、入力音声信号の
分析フレームごとに複数の分析次数それぞれのLPC極
周波数ベクトルの連続性をダイナミック・プログラミン
グ(以下DPと略称する)手法によって評価して最適の
分析次数を分析フレームごとに推定し、推定した最適分
析次数でのLPC極周波数ベクトルの極座標データを標
準の極座標データ(座標パタン)に対して時間正規化
し、最もよく時間正規化しうる標準パタンを認識単語と
して選択するLPC次数推定(ディシジョンメーキン
グ)を前提とした音声認識手法(特開昭60−9740
0号公報)も紹介されているが、この手法によればディ
シジョンメーキングによる認識エラーが発生することが
避けられないという問題点がある。
本発明の目的は上述した問題点を解決し、分析フレーム
ごとの複数の分析次数による複数のフォルマント周波数
ベクトルまたはこれらベクトルから導出される複数のベ
クトルから1個のフォルマント周波数ベクトルまたはこ
れから導出されるベクトルを標準パタンとの時間正規化
を伴うパタン照合により選択することによりディシジョ
ンメーキングを行なうことなく最適次数が決定できてデ
ィシジョンメーキングによるエラー発生を根本的に排除
しうる音声認識装置を提供することにある。
〔問題点を解決するための手段〕
本発明による音声認識装置は、フォルマント周波数ベク
トルまたはこのベクトルより導出されるベクトルの時系
列データを標準パタンとして記憶する標準パタンメモリ
と、入力音声をフレーム毎に分析して得られる異る分析
字数のLPC係数を介して算出される複数のフォルマン
ト周波数ベクトルまたはこれらのベクトルより導出され
る複数のベクトルから分析フレーム毎に1個のフォルマ
ント周波数ベクトルまたはこれより導出されるベクトル
を前記標準パタンとの時間正規化にもとづいて選択しか
つ同時にパタン照合を実施する手段を有する。
〔実施例〕
次に図面を参照して本発明を詳細に説明する。
第1図は本発明による音声認識装置の第1の実施例の構
成を示すブロック図であり、LPC分析器1、極算出器
2、フォルマント仮決定器3、極座標角算出器4、DP
マッチング処理器5、標準パタンフィルム6、認識単語
決定器7を備えて構成される。
LPC分析器1は入力音単語音声を予め設定する周波数
帯域たとえば100〜3.400Hzに設定したあと所
定のビット数の量子化信号に変換し分析処理時間単位、
すなわち分析フレームごとにこれをLPC分析し複数の
分析次数、本実施例では連続する8〜14次のαパラメ
ータをLPC係数として抽出する。この場合分析次数は
連続する複数であってもまた断続する複数でもよく、さ
らにその数も任意に設定して差支えない。このようにし
て複数の組のLPC係数を抽出するのは、後述するよう
に分析次数の1/2もしくはそれ以下の個数で表現され
る極周波数を抽出する際、その帯域幅を含み、レベルな
らびに周波数配列が分析フレームの前後における特定数
の分析フレームの極周波数に関する当該データと出来る
限り良き連続性を保ちつつ出来る限り正確に抽出される
ようにするためである。
8〜14次のLPC係数は極算出器2に供給されて極周
波数とその帯域幅とが算出される。
極算出器2は、分析フレームごとに入力した8〜14次
のLPC係数の組のそれぞれを係数とする高次方程式を
零とする根として求まる共役複素解によって極周波数を
算出する。この高次方程式は一般的には次の(1)式で示
される。
1+α1-1+α2-2+………+αp-p=0……(1) (1)式においてα1〜αpは分析次数p次のαパラメー
タ、Z=ej ωであり、また(1)式の左辺は線形予測モデ
ルの伝達関数H(Z-1)=1/Ap(Z-1)の右辺の分母を表わ
すものであることもよく知られている。
(1)式の根はpの偶、奇数に対応しp/2個もしくはそ
れ以下の数の共役複素根として得られ、この共役複素根
以外の根は実数根として得られる。共役複素根として求
まる解が極周波数を提供するものである。
本実施例では8〜14次の分析次数に対し最小3程度か
ら最大7個の極周波数が求まり次に(2)式によってその
帯域幅を得る。
i=logγi/π・ΔT ……(2) (2)式においてΔTは入力音声信号の標本化周期、γi
(1)式の根を極座標表示したZ=rj λ iにおける
,またλは極周波数fに対応する波長を示す。
極算出器2はこうして得られる極周波数と帯域に関する
情報をフォルマント仮決定器3に供給する。
フォルマント仮決定器3は多くの音声資料に関する経験
的設定基準にもとづいて8次から14次までの各分析次
数におけるフォルマント周波数のうち第1、第2、およ
び第3フォルマント周波数を分析フレームごとに仮決定
し分析次数8次のf1 (8),f2 (8),f3 (8)から分析次数
14次のf1 (14),f2 (14),f3 (14)までを出力、これ
を極座標各算出器4に供給する。
フォルマント周波数とその帯域幅の分布範囲等は第1フ
ォルマントから第4もしくはそれ以上の高域フォルマン
トまで経験的にいずれもよく知られている。従って分析
フレームごとに入力する8〜14次の分析次数に対応し
た4〜7個の極周波数に含まれるフオルマントを仮決定
しこれらのうち第1〜第3フォルマント周波数とそれら
の帯域幅の出力することは容易に実施できる。最適分析
次数の決定を含むフォルマント周波数のリアルタイム処
理は一般的に相当に困難でありまた演算量も多い。本発
明もこの点に着目しフォルマント周波数は一旦仮決定し
ておき、後述するDPマッチング手法実施の際に最適分
析次数の自動的決定とフォルマント周波数の実質的本決
定とを同時に効果的に行なっている。
ところで、一定の周波数帯域内に存在する極周波数の個
数は一定ではない。これは第4フォルマントの存在が不
定である等の理由による。また、LPC係数から正確に
極周波数を抽出するためには帯域内に存在すべき極の総
数の2倍程度のLPC分析次数とする必要があり、これ
より少なくともまた多くても極周波数の抽出精度が低下
する。一方、フォルマントの時間的変化は一般にゆるや
かである。このような背景を勘案し本実施例では分析周
波数帯域内に存在する極の数を最小4、最大7と設定し
分析フレームごとにLPC次数8次(極数4)から14
次(極数7)について求められるすべての極周波数を算
出し時間的に前後かつ予め設定する個数の分析フレーム
の極周波数との連続性の最もよいものを後述するDPマ
ッチング処理器5によるDPマッチング処理に含めて選
択している。
また、フォルマント仮決定器3からは上述した観点にも
とずいて抽出したLPC係数分析次数8〜14次のフォ
ルマント周波数f1 (8)〜f3 (8)からf1 (14)〜f3 (14)
出力されるが、これらが第1〜第3フォルマントに限定
されている理由は次のとおりである。
すなわち、本実施例ではトレーニング不要な不特定話者
単語音声認識装置の構成を目的としており、このために
は特定話者による標準パタンがいかなる不特定話者にも
適合しうるものとして作成されなければならない。しか
しながら音声のスプクトル分布は話者ごとに異り、この
ことは話者ごとの声道長と、声帯から発する音源の特性
とが異ることに起因する。この問題点を解決するために
本発明では相連続する3個のフォルマント周波数を利用
してこれを3次元極座標表現し、その合成ベクトルの極
座標系における方向を決定する2つの角度情報θ,を
介して声道長の正規化を図っている。さらに第1〜第3
フォルマント周波数の比の分布を話者にかかわらず音声
についてほぼ一定であり音元特性からも個人差をほぼ除
去できるのでこれらの理由にもとづき第1〜第3フォル
マント周波数を選択出力しているのである。
第3図は第1ないし第3フォルマント周波数の極座標表
示図である。
互いに直交するフォルマント周波数軸F1,F2,F3
に第1〜第3フォルマント周波数f1,f2,f3をそれ
ぞれ設定し合成ベクトルVを得る。この合成ベクトルV
の方向を決定する2つの角度情報θ,はフォルマント
周波数f1,f2,f3の比によってその大きさが決定す
る周波数スペクトルに関連したパラメータである。この
θ,を介して声道長が正規化され、また声帯音源特性
もフォルマント周波数比f1:f2:f3で代表されるス
ペクトル包絡という形式で個人差がはぼ除去されること
となる。
極座標角算出器4は入力した仮決定フォルマント周波数
1 (8)〜f3 (8)〜f1 (14)〜f3 (14)に対応したそれぞれ
の極座標角θ,の組を求める。こうして求まったθ,
の組に関するデータをそれぞれ(θ1 (8)1 (8))…
M (8)M (8))…(θ1 (14)1 (14))…(θM (14)
M (14))で表わす。ここに添字(s)…(14)=Kはそれぞれ
分析次数を示し、またMはは入力パタンの最大パタン
長、1,…M=Jは最大パタンの長時系列における分析
フレーム周期に対応した時間位置である。
標準パタンファイル6は特定話者の発声した複数の単語
音声のそれぞれについて分析フレームの周期ごとに極座
標角θ,を予め求めておき、これを標準パタン
1 s1 s),(θ2 s2 s)………(θN sN s)として
ファイルする。ここで添字Sは標準パタンを、また1,
2,…N=iは最大パタン長Nの標準パタン時系列にお
ける分析フレーム周期に対応した時間位置である。この
ような標準パタンはコンピュータシステムもしくは本実
施例による装置等を利用しオフライン的に極力正確なデ
ータの確保を前提として特定話者の音声単語にもとづき
音声資料等を利用しつつ予め作成される。
DPマッチング処理器5は、こうして入力する入力パタ
と全標準パタンとの最適分析次数の選択を含むパタンマ
ッチングをDP手法によって実施し両者の時間正規化を
行なう。このDPマッチング処理は次の(2)式で示す市
街地距離(以下単に距離という)を入力パタンと標準パ
タンのそれぞれについて求め、DPパスの全長にわたっ
て積算した総市街地距離(以下単に総距離という)が最
短となるようなDPパスを選択する形式で処理される。
dij=min(|θi si k|+|i s-i k|)……(2) (2)式においてdijは距離、i=1,2,3,…N,j=
1,2,3,…M,K=8,9,10,…14でありSは
標準パタン、Kは入力パタンを示す。
第4図は第1図に示す実施例におけるDPマッチングの
内容を説明するためのDPマッチング説明図である。
互いに直交する時間軸t,τ上のN,Mはそれぞれ始点
Pからの時間位置が最大パタン長に等しい時点を示し、
またi,jはこれら時間軸上の任意の時点である。さら
にDPマッチングによって決定される最適DPパスRの
始点Pおよび終点Qからそれぞれ出ている線分lおよ
びlならびにl1′およびl2′はDP処理によって設
定されるDPパスの存在しうる傾斜制限領域を設定する
傾斜制限ラインである。
先ず公知の手段によって入力パタンと標準パタンとの始
点検出を行ない始点Pが設定される。次に各格子点ごと
に(1)式に示す距離dijを1分析フレーム周期前の各格子
と総当り的組合せで計算する。
この格子点間の距離計測は、たとえば第4図に示す如く
格子点(i,j)と、2重矢印で示す1分析フレーム周期
前かつ傾斜制限領域内の各格子点との距離を計算するよ
うな組合せで行なわれる。この計測では各格子点におけ
る入力パタンの分析次数は(1)式にもとづく距離dijを最
小とするものが選定されつつ行なわれ、かくして求めら
れるDPパスのうち総距離を最小とする単調増加パスが
最適DPパスとして選択される。この最適DPパスの選
択を全標準パタンのそれぞれについて実施し、これら全
標準パタンぶんの最適DPパスに対応する総距離がDP
マッチング処理器5から確認単語決定器7に供給され
る。このような最適DPパスの決定手段によって入力パ
タンの分析次数の決定とフォルマント周波数の事実上の
決定とが平行して処理されている。
本実施例においては標準パタンを入力パタンに対して時
間圧縮もしくは伸張せしめるように時間正規化を行なっ
ているが、入力パタンを標準パタンに対して時間圧縮も
しくは伸張せしめてもマッチング誤差の補正等を配慮す
るだけでほぼ同様に実施でき、また入力パタンと標準パ
タンとの両者を互いに時間圧縮もしくは伸張せしめ合う
ように時間正規化を図ることもほぼ同様に実施できる。
いずれにせよ、こうして得られる最適DPパスRはそれ
ぞれ互いに直交する時間軸上に表現される入力パタンと
標準パタンとを互いに写像関係に対応せしめる写像関数
でありこれを介して時間正規化が図られるものである。
認識単語決定器7はこうして入力単語音声ごとに全標準
パタンに関する総距離データを受け、これらの大小関係
を比較し最小の総距離を提供する標準パタンに対応する
標準単語音声を認識結果として出力する。かくして不特
定話者にも適合し易いパタンマッチングをトレーニング
不要なフォルマント周波数の極座標表現という形式で実
施し、しかも入力単語音声からのフォルマント周波数の
抽出は経験的資料にもとづいて仮決定したうえDPマッ
チング処理で最適分析次数とともに事実上の決定を行な
うという手段で演算量も著しく抑圧したものとしてい
る。
第2図は本発明の第2の実施例の音声認識装置の構成を
示すブロック図である。
第2図に示す第2の実施例の構成はLPC分析器1′、
極算出器2、フォルマント仮決定器3、極座標角算出器
4、DPマッチング処理器5、標準パタンファイル6、
認識単語決定器7を備えて構成され、これらのうちLP
C分析器1′以外の構成内容については第1図に示す同
一記号のものと同一であるのでこれら同一内容に関する
詳細な説明は省略する。
この第2の実施例は、LPC分析の前処理としてケプス
トラム(Cepstrum)分析を実施することを特徴
とするものであり、その内容は次のとおりである。
すなわち、入力音声単語はLPC分析器1′に供給され
る。LPC分析器1′はケプストラム分析器11、リフ
タ12およびLPC係数算出器13を備えて構成され、
入力音声単語は先ずケプストラム分析器11で予め設定
するビット数のディジタル量の量子化データとされたの
ち分析フレーム単位でケプストラム分析を受ける。この
場合のケプストラム分析はフーリェ変換、フーリェ係数
の絶対値化および対数化、逆フーリェ変化の逐次実施に
よる公知の手段を介して実行される。
ケプストラム分析器11から出力したケプストラム係数
列はリフタ(Lifter)12に供給され、これら係
数列のうち声道伝送特性を主として表現する低ケフレン
シー(Quefrency)を選択し、一方声帯振動数
等の音源特性を主として表現する高ケフレンシー成分を
除去する。このようにして高ケフレンシー成分もしくは
ピッチ周期成分を除去したケプストラムは音源極の情報
を有しないもの、つまり話者依存性を排除したものとな
る。
リフタ12の出力はLPC係数算出器13に供給され
る。LPC係数算出器13は入力したケプストラム係数
列をフーリェ変換し、さらに逆対数化を施して擬似波形
を発生する。このあとLPC分析して複数の分析次数ご
とのαパラメータ群を算出しこれを極算出器2に供給
し、このあと第1の実施例と同様にして認識結果を得
る。
なお、ケプストラム分析およびケプストラム分析の音声
信号に対する効果等については斉藤収三、中田和男「音
声情報処理の基礎」オーム社、昭和56年11月30日
その他に詳述されている。
本発明は入力単語音声の複数のLPC分析次数の1/2
もしくはそれ以下の割合で得られる極周波数にもとづい
て分析次数ごとに第1〜第3フォルマント周波数を一旦
仮決定したあとこれらフォルマント周波数を3次元極座
標化し、その合成ベクトルの極座標角θ,と特定話者
の標準単語音声の極座標角θ,との時間正規化をDP
マッチング手法を利用して実施し最もよく正規化しうる
標準パタンを提供する入力単語音声を認識単語として決
定するという手段を備えることにより最適分析次数の決
定を含む実質的フォルマント周波数の決定を極めて容易
なものとし、演算量を大幅に低減した状態で不特定話者
向けの音声認識装置をトレーニング不要で提供しうる点
に基本的な特徴を有するものであり、第1,2図に示す
実施例の変形も種種考えられる。
たとえば第1,2の実施例ではいずれもLPC分析次数
を相連続する8〜14次としているが、これは分析精度
等を勘案しその連続性と次数とのいずれも任意に設定で
きる。
また、第1,2の実施例では標準パタンを入力パタンに
対して時間伸縮せしめるようにして時間正規化を行なっ
ているがこれは入力パタンを標準パタンに合わせるよう
に時間伸縮するものとしても、また双方を時間伸縮する
ものとして時間正規化を行なってもほぼ同様に実施しう
ることは明らかである。
さらに、第1,2の実施例では固定の分析フレーム周期
でLPC分析しているがこれを可変長分析フレーム周期
としても容易に実施しうることは明らかであり以上はす
べて本発明の主旨を損なうことなく容易に実施しうる。
〔発明の効果〕
以上説明したように本発明は、分析フレームごとの複数
の次数による複数のフォルマント周波数ベクトルまたは
これらベクトルから導出される複数のベクトルから1個
のフォルマント周波数またはこれから導出されるベクト
ルを標準パタンとの時間正規化を伴うパタン照合により
選択することにより、次性推定を不要として次数推定に
伴うエラー発生を根本的に抑圧したトレーニング不要な
不特定話者向けの音声認識が可能となる効果を有し、副
次的にはフォルマント抽出および分析次数決定における
演算量を大幅に圧縮することができる効果を有する。
【図面の簡単な説明】
第1図は本発明の第1の実施例の構成を示すブロック
図、第2図は本発明の第2の実施例の構成を示すブロッ
ク図、第3図は第1ないし第3フォルマントの3次極座
標表示図、第4図は第1図に示す実施例におけるDPマ
ッチングの内容を説明するためのDPマッチング説明図
である。 1,1′……LPC分析器、2……極算出器、3……フ
ォルマント仮決定器、4……極座標角算出器、5……D
Pマッチング処理器、6……標準パタンファイル、7…
…認識単語決定器、11……ケプストラム分析器、12
……リフタ、13……LPC係数算出器。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】フォルマント周波数ベクトルまたはこのベ
    クトルより導出されるベクトルの時系列データを標準パ
    タンとして記憶する標準パタンメモリと、入力音声をフ
    レーム毎に分析して得られる異なる分析次数のLPC係
    数を介して算出される複数のフォルマント周波数ベクト
    ルまたはこれらのベクトルより導出される複数のベクト
    ルから分析フレーム毎に1個のフォルマント周波数ベク
    トルまたはこれより導出されるベクトルを前記標準パタ
    ンとの時間正規化にもとづいて選択しかつ同時にパタン
    照合を実施する手段を有することを特徴とする音声認識
    装置。
  2. 【請求項2】特許請求の範囲(1) 項における手段が入力
    音声信号と複数の分析次数で分析してLPC係数を抽出
    するLPC分析手段と、このLPC分析手段で抽出され
    たLPC係数にもとづき各分析次数ごとに極周波数を算
    出する極周波数算出手段と、この極周波数算出手段で算
    出した各分析次数ごとの極周波数にもとづき各分析次数
    における第1ないし第3フォルマント周波数を仮決定し
    て出力するフォルマント周波数仮決定手段と、このフォ
    ルマント周波数仮決定手段によって仮決定された各分析
    次数ごとの第1ないし第3フォルマント周波数を3次元
    極座標表現することによって得られる合成ベクトルの方
    向を決定する2つの極座標角θおよびψを分析次数ごと
    に算出する極座標各算出手段と、前記極座標各算出手段
    によって出力される各分析次数ごとの前記極座標角θお
    よびψと前記標準パタンの極座標角θおよびψとのスペ
    クトル距離を評価尺度として入力音声信号と標準パタン
    との時間正規化およびパタン照合をDPマッチング手法
    により実施し最もよく時間正規化しうる標準パタンを入
    力音声信号の認識単語として決定する認識単語決定手段
    とを備え、前記標準パタンメモリがあらかじめ設定した
    複数の単語音声のそれぞれについて求めた前記2つの極
    座標角θおよびψを前記標準パタンとして格納したこと
    を特徴とする音声認識装置。
JP60194336A 1985-09-02 1985-09-02 音声認識装置 Expired - Lifetime JPH0638199B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP60194336A JPH0638199B2 (ja) 1985-09-02 1985-09-02 音声認識装置
US06/902,817 US4852172A (en) 1985-09-02 1986-09-02 Speech recognition system
CA000517276A CA1258128A (en) 1985-09-02 1986-09-02 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60194336A JPH0638199B2 (ja) 1985-09-02 1985-09-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6254297A JPS6254297A (ja) 1987-03-09
JPH0638199B2 true JPH0638199B2 (ja) 1994-05-18

Family

ID=16322892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60194336A Expired - Lifetime JPH0638199B2 (ja) 1985-09-02 1985-09-02 音声認識装置

Country Status (3)

Country Link
US (1) US4852172A (ja)
JP (1) JPH0638199B2 (ja)
CA (1) CA1258128A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216748A (en) * 1988-11-30 1993-06-01 Bull, S.A. Integrated dynamic programming circuit
JPH04194999A (ja) * 1990-11-27 1992-07-14 Sharp Corp 学習を用いた動的計画法
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
EP0619913B1 (en) * 1991-12-31 2002-03-06 Unisys PulsePoint Communications Voice controlled messaging system and processing method
JP2692581B2 (ja) * 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
WO1996008005A1 (en) * 1994-09-07 1996-03-14 Motorola Inc. System for recognizing spoken sounds from continuous speech and method of using same
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5671555A (en) * 1995-02-08 1997-09-30 Fernandes; Gary L. Voice interactive sportscard
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
GB2416874B (en) * 2004-08-02 2006-07-26 Louis Augustus George Atteck A translation and transmission system
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
DE102006031325B4 (de) * 2006-07-06 2010-07-01 Airbus Deutschland Gmbh Verfahren zur Herstellung eines Faserverbundbauteils für die Luft- und Raumfahrt
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
US8123532B2 (en) * 2010-04-12 2012-02-28 Tyco Electronics Corporation Carrier system for an electrical connector assembly
JP6263868B2 (ja) 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP7000773B2 (ja) 2017-09-27 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3989896A (en) * 1973-05-08 1976-11-02 Westinghouse Electric Corporation Method and apparatus for speech identification
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
JPS6097400A (ja) * 1983-11-01 1985-05-31 日本電気株式会社 音声認識装置

Also Published As

Publication number Publication date
US4852172A (en) 1989-07-25
JPS6254297A (ja) 1987-03-09
CA1258128A (en) 1989-08-01

Similar Documents

Publication Publication Date Title
JPH0638199B2 (ja) 音声認識装置
Dhingra et al. Isolated speech recognition using MFCC and DTW
JP3055691B2 (ja) 音声認識装置
US6292775B1 (en) Speech processing system using format analysis
US5305421A (en) Low bit rate speech coding system and compression
US6836761B1 (en) Voice converter for assimilation by frame synthesis with temporal alignment
JP4354653B2 (ja) ピッチ追跡方法および装置
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
JPH04158397A (ja) 声質変換方式
US10706867B1 (en) Global frequency-warping transformation estimation for voice timbre approximation
JP4323029B2 (ja) 音声処理装置およびカラオケ装置
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP3354252B2 (ja) 音声認識装置
JPH0797279B2 (ja) 音声認識装置
JPH0246960B2 (ja)
JP2002372982A (ja) 音響信号分析方法及び装置
JP3868798B2 (ja) 音声認識装置
Cook Word verification in a speech understanding system
JPH0449720B2 (ja)
JPH05313695A (ja) 音声分析装置
JPS59114600A (ja) 話者識別方式
Padellini et al. Dynamic unit selection for Very Low Bit Rate coding at 500 bits/sec