JP2766393B2 - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JP2766393B2
JP2766393B2 JP2306061A JP30606190A JP2766393B2 JP 2766393 B2 JP2766393 B2 JP 2766393B2 JP 2306061 A JP2306061 A JP 2306061A JP 30606190 A JP30606190 A JP 30606190A JP 2766393 B2 JP2766393 B2 JP 2766393B2
Authority
JP
Japan
Prior art keywords
hmm
unit
learning
label
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2306061A
Other languages
English (en)
Other versions
JPH04178700A (ja
Inventor
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2306061A priority Critical patent/JP2766393B2/ja
Publication of JPH04178700A publication Critical patent/JPH04178700A/ja
Application granted granted Critical
Publication of JP2766393B2 publication Critical patent/JP2766393B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、発生された音声を高精度に認識することの
できる音声認識方式に関する。
(従来の技術) 近年、発生された音声を認識する音声認識方式におい
て、音声を一定の符号系列に変換するベクトル量子化を
行ない、量子化符号系列をHMMで認識する方式が成功を
収めている。
(発明が解決しようとする課題) しかし、従来の音声認識方式には次のような問題があ
った。すなわち、ベクトル量子化では、通常、単純な距
離尺度が使われることから、量子化誤差による性能低下
により、HMMの性能を生かしきれないという問題があっ
た。また、量子化誤差を減らすために、連続出力確率分
布HMMなどへ移行する検討がなされているが、計算量が
増えるため実用化が難しいという問題があった。
そこで、本発明は、HMMの性能を生かし、発生された
音声を簡易にしかも高精度に認識することのできる音声
認識方式を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明の音声認識方式は、入力される音声信号を音響
分析することにより特徴パラメータを求める音響分析手
段と、この音響分析手段により求められた特徴パラメー
タよりフレームごと第n位までのラベル系列を求める手
段と、この手段で求めたラベル系列のうち第1位のラベ
ル系列から第n位までのラベル系列をそれぞれ別の学習
ラベル系列として供給する供給手段と、この供給手段で
供給されたラベル系列を学習する学習手段とを具備して
いる。
(作用) 入力される音声信号を音響分析することにより特徴パ
ラメータを求め、この求めた特徴パラメータよりフレー
ムごと第n位までの各ラベル系列を求めて、第n位まで
のラベル系列ごとにHMMで学習することにより、認識率
の高い学習が可能となり、音声を高精度に認識すること
ができる。
(実施例) 以下、本発明の一実施例について図面を参照して説明
する。
第1図は、本発明に係る音声認識装置を概略的に示す
もので、基本的には、音声学的に意味のあるセグメント
(Phonetic Segment;以下PSと記述する)を認識処理単
位とし、このPS単位の認識辞書との間で時間軸方向に連
続的にマッチング処理してPS系列とその類似度(距離
値)を求める。そして、求めた類似度を正規化した後、
正規化尺度値を単語照合部に送る。
ここまでの処理概念を更に詳しく説明すると、まず、
音響分析部11にて、入力される音声信号を、例えばLPC
分析(BPF分析でも良い)する。この分析された特徴パ
ラメータを連続マッチング処理部12に与え、PS辞書13に
登録されている所定のPS単位の認識辞書と時間軸方向に
連続的にマッチング処理する。なお、上記認識辞書は、
各PS毎に複数の標準パターンから作成された識別用辞書
からなる。この連続マッチング処理部12で求められたPS
系列とその類似度を類似度正規化部14に与え、正規化テ
ーブル15を参照して前記PS系列の各PS単位の類似度をそ
れぞれ正規化する。この正規化は、正規化テーブル15か
ら前記各PS毎に正規化のための定数を求め、この定数に
従って前記各PS単位の類似度を正規化して、その正規化
尺度値を求めることによって行なわれる。この正規化処
理結果に従って上位の第n位までのPS系列を抽出し、こ
れをHMM認識部16に送る。
ここで、本発明で用いられるPSとしては、例えば次の
ようなものからなる。
(1)持続性セグメント;(1−1)母音定常部 (1−2)摩擦子音部 (2)子音セグメント ;母音への渡り(過渡部)を含
む部分[半音節] (3)音節境界セグメント;(3−1)母音境界 (3−2)母音,子音境界 (3−3)母音,無音境界 (4)その他のセグメント;無声化母音等 このうち、(1),(2)および(4)の一部につい
ては音節を認識セグメントとする場合にも採用されるこ
とが多い。しかし、本発明に係るPSの長所は、上記
(1),(2),(4)に示されるセグメントに加えて
上記(3)の音節境界セグメントを採用したことにあ
る。
ここで、(3)の音節境界セグメントについて更に詳
しく説明する。
(3−1)母音境界; 通常は、異なる母音V1,V2の境界に生じる母音V1から
母音V2への過渡的な部分をセグメントとして扱う。ま
た、例えば1秒間に10音節の近い速度の速い発生時に出
現する三連母音(撥音「ん」も母音として扱う)V1,V2,
V3の速い過渡部の、上記母音V2を中心とする前後の過渡
部分も、この認識セグメントに加える。
(3−2)母音,子音境界または (3−3)母音,無音境界; 母音から子音に至る過渡区間を認識セグメントとす
る。このセグメント単位は、比較的少ない数(VCV単位
の半分以下)で、しかも時間的にも短い範囲を扱うので
連続マッチングの際の演算量の点でも有利となる。
ここで、従来のセグメント単位について考察してみる
と、連続音声に対して認識セグメントを時間軸に沿って
連続的にマッチングしていくと、子音部や母音部につい
ては比較的良く、その本来のセグメントに対応したラベ
ル(認識セグメントの名称)が得られる。しかし、母音
と子音との境界や母音と無音との境界では、特別なラベ
ルを準備していないためにランダムなラベル系列が出現
する。
通常、このような場合には、入力ラベル系列と標準ラ
ベル系列との間で動的計画法(以下「DP」と記述する)
に基づくマッチングを行ない、ランダムなラベルが出現
する区間を迂回する。しかし、この手法は便宜的な解決
法であり、実際の適用にあたってはDPのパス(迂回路)
には制限が加えられるため、即ち区間の確実に吸収する
ことが困難である場合が多い。
一方、従来より認識セグメントとしてVCVを用いるこ
とが行なわれている。この手法は、子音を母音で挟むこ
とによって、その子音部を安定に認識しようとするもの
である。即ち、VCVを採用することによって、対応する
ラベルも安定して得られることを期待している。しか
し、VCV単位の数は900にも及ぶため、実用性の点で問題
が残されている。しかも、この単位は時間的に長い範囲
を対象とするので、連続マッチングを行なう際の演算量
が増大するという不具合を持っている。
更に、VCV単位では、母音Vから子音C、および子音
Cから母音Vへの2つの区間変動要因を同時に抱えるた
め、認識セグメントとして見るときパターンの変動が大
きい。換言すれば、パターン変動を吸収するためには、
より多くの音声データを必要とする。
さて、上述したPSを認識セグメントとする場合、セグ
メントの特徴パラメータの次元数と時間幅(フレーム
数)が問題となる。即ち、母音定常部等についてはその
特徴パラメータの次元数を多く必要とするが、そのフレ
ーム数は少なくて良い。また、破裂子音等については、
特徴パラメータの次元数も、そのフレーム数もある程度
必要である。更に、摩擦子音等にあっては、特徴パラメ
ータの次元数は少なくて良いが、多くのフレーム数を必
要とする。
一方、例えば上記特徴パラメータの次元数、およびそ
のフレーム数をそれぞれの最大値に設定して連続音声を
認識しようとすると、連続マッチングの際の演算量が膨
大化する。しかも、フレーム数を最大値に設定してしま
うことで、本来の短い時間の現象が捕らえ難くなるとい
う不具合が生じる。
そこで、本発明では、各認識セグメントPSの特徴パラ
メータとフレーム数を、例えばそのフレーム周期を8mse
cとしたとき、 (特徴パラメータ,フレーム数);(16,4)(14,6)
(12,8)(10,10,)(8,12) の組合わせの中から選択するようにしている。この結
果、母音では特徴パラメータの次元数を「16」と大きく
取り、また摩擦子音についてはフレーム数を「12」と多
く取るようにしている。
また、このようにすることでPS全体の次元数を64〜10
0と、上述したように特徴パラメータの次元数およびそ
のフレーム数をそれぞれの最大値に設定する場合のほぼ
半分に押さえている。この結果、連続マッチング時の演
算量を実用的な範囲に納めることが可能となる。
さて、このように、その構成(特徴パラメータ,フレ
ーム数)の異なるセグメントを採用した場合、連続マッ
チングの結果として得られる各PSの類似度を相互に比較
することができないという問題が生じる。そこで、類似
度Sj(時刻jにおける類似度)を正規化し、この正規化
尺度を用いて照合するようにする。
この類似度Sjの正規化は次のように行なわれる。すな
わち、入力されたPSの名がKiで示されるとき、Kiの類似
度がSjである確率をPr(Sj|Ki)とする。又、全ての類
似度の出現確率をPr(Sj)、Kiが生起する確率をPr
(Ki)とすると、ある類似度Sjが与えられたとき、それ
が前記Kiに属する確率Pr(Ki|Sj)はベイズ則から となる。ここで、上記Pr(Ki)は、前記各PSがそれぞれ
独立であると考えられるならば定数としておくことが可
能である。また、上記Pr(Sj)は、前記各PSに依存する
ことはない。従って、上記Pr(Sj|Ki)を予め各PSにつ
いて求めておけば、上記確率Pr(Ki|Sj)を比較的簡単
に計算することができる。即ち、多量の音声サンプルか
ら上記Pr(Sj),Pr(Sj|Ki)をそれぞれ計算しておけ
ば、その類似度Sjを上述した式を用いて正規化すること
が可能となる。
しかし、この式で示される演算を実際に実行すること
は煩雑である。そこで、例えば次のような近似を用い
る。
第2図(a)は、2種類のPS、つまりK1,K2について
その類似度の確率Pr(Sj|K1),Pr(Sj|K2)を全ての類
似度の出現確率をPr(Sj)と対比して示している。ま
た、第2図(b)は、上記2種類のK1,K2について求め
られた確率Pr(K1|Sj),Pr(K2|Sj)を示している。そ
こで、これをモデル化して次のべき乗の式で近似し、第
2図(c)に示すようにする。
この式の両辺の対数を求め、 であることを考慮すると、 K1; logP1=logA1+SjlogB1 =1−(Sj−Smax1)logB1 K2; logP2=logA2+SjlogB2 =1−(Sj−Smax2)logB2 と表現することができる。この式を用いることにより、
例えば前記各PSごとに(logBi,Smax1)を求めておき、
これをテーブル化しておくことによって、容易に正規化
した新しい尺度logPiを計算することが可能になること
がわかる。
次に、本発明における単語照合につき説明する。単語
照合は、例えば上位第n位までのPS系列を求め、これを
単語毎のHMMに通して行なう。ここで、HMMの一般的定式
化について述べる。HMMでは、N個の状態S1,S2,…,SN
持ち、初期状態がこれらN個の状態に確率的に分布して
いるとする。音声では、一定のフレーム周期ごとに、あ
る確率(遷移確率)で状態を遷移するモデルが使われ
る。遷移の際には、ある確率(出力確率)でラベルを出
力するが、ラベルを出力しないで状態を遷移するナル遷
移を導入することもある。出力ラベル系列が与えられて
も状態遷移系列は一意には決まらない。観測できるの
は、ラベル系列だけであることからhidden(隠れ)mark
ov model(HMM)と呼ばれている。HMMのモデルMは次の
6つのパラメータから定義される。
N:状態数(状態S1,S2,…,SN) K:ラベル数(ラベルR=1,2,…,K) pij:遷移確率SiにいてSjに遷移する確率 qij(k):SiからSjへの遷移の際にラベルkを出力する
確率 mi:初期状態確率 初期状態がSiである確率 F:最終状態の集合 次に、モデルMに対して音声の特徴を反映した遷移上
の制限を加える。音声では、一般に状態Siから以前に通
過した状態(Si-1,S1-2,…)に戻るようなループの遷移
は時間的前後関係を乱すため許されない。上記のような
HMMの構造としては、第4図のような例が代表的であ
る。HMMの評価は、モデルMが第1位のラベル系列O1=o
11,o21,…,oT1を出力する確率Pr(O/M)を求める。確認
時には、HMM認識部16で各モデルを仮定してPr(O/M)が
最大になるようなモデルMを探す。
また、HMMの学習は、学習データ供給部17でラベル系
列を第1位から第n位のラベル系列 に分解し、それをHMM学習部18に与え、そこでPr(O/M)
が最大となるモデルMのパラメータを推定すればよい。
そして、その推定結果をHMMバッファ19に蓄積する。
以上のようにして、発生された入力音声を認識処理す
ることによって、その入力音声を高精度に認識すること
が可能となる。
さらに、第3図に従って第7図に示す32の単語を音声
認識することを目的とした音声認識装置を例に説明す
る。
入力音声は、A/D変換器21にて、例えばサンプリング
周波数12kHz,21ビットで量子化された後、パワー計算部
22に入力されて、その音声パワーが計算されて、またLP
C分析部23に入力されて音響分析される。このLPC分析
は、例えばフレーム長16msec、フレーム周期8msecで16
次のLPCメルケプストラムを分析パラメータとして行な
われる。
そして、連続マッチング部24でのPSによる連続マッチ
ング処理は、次式に示す複合LPCメルケプストラム類似
尺度を用いて行なわれる。
なお、CはLPCメルケプストラム、 はそれぞれPS名Kiの固有値から求められる重みと固有ベ
クトルである。また、( ・ )は内積を示し、‖ ‖
はノルムを示している。
ここで、32の単語の学習資料に対して選定した191種
の音声セグメントを以下に示す。
持続性セグメント: AA1A,AA2A,II1A,II2A,II3A,UU1A,UU2A,UU3A,EE1A,EE2A,
OO1A,OO2A,NN1A,NN2A,NN4A,NN5A,BZ1A,MM1A,RR1A,BB1A,
SS1C,SH1C,CC1C,ZZ1A,HHAB,HHIB,HHUB,HHEB,HHOB,HVAA,
HVIA,HVUA,HVEA 子音セグメント: QA1D,KA1E,KA2C,SA2E,TA2C,NA2B,HA2B,GA2C,DA1E,DA2B,
CA1E,FA1C,FA2C ,KI1E,KI2C,SI2E,NI1C,NI2B,HI1D,HI2C,MI2B,RI2B,BI1
C,BI2B,PI1C,PI2C ,KU1E,KU2C,SU2D,CU1E,CU2E,HU1D,RU2B,ZU2D,BU2B ,QE1D,KE1E,KE2C,SE1E,SE2E,TE1D,TE2C,NE1C,NE2B,HE1
D,HE2B,ME1C,ME2B,RE1C,RE2B,GE1D,GE2E,ZE1E,ZE2E,DE1
C,DE2B,DE1C,BE2B,PE1C,PE2B ,QO1D,KO1D,KO2C,TO1D,TO2C,NO2B,HO1D,FO1E,FO2E,MO2
B,GO2C,DO2B,BO2B,PO1C,PO2B ,KY1E,SY1E,CY1E,NY2D,HY2E,RV1D,RV2D,ZY2D 境界セグメント; AI1E,ANNC,INNC,IE1C,IA1E,UA1C,EI1C,HO1E,ENNC,EU1C,
OI1E,OU1C,ONNC,NNOC,NNEB,YA1E,YU1E,YO1E ,AS1A,AN1A,AM1A,AR1A,AZ1A,AD1A,AB1A ,IS1A,IN1A,IH1A,IR1A,IG1A,ID1A,IB1A ,US1A,UN1A,UM1A,UD1A,UB1A ,EN1A,EH1A,EF1A,EM1A,ER1A,EG1A ,ON1A,OH1A,AM1A,OR1A,OG1A,OD1A,OB1A ,NS1A,NH1A,NG1A,NZ1A ,AQ1A,UQ1A,IQ1A,EQ1A,OQ1A,NQ1A その他のセグメント; ANAC,ANEC,ARUC,AREC,IRIC,IBOC,UNEC,UDAC,UBUC,EREC,
ERUC,ORIC,ORUC,KS1D,KQID,ALQA なお、持続性セグメント中のAA1,AA2は、後者がスト
レスの弱い母音[a]の一部から切り出されたことを示
す。また、II3,UU3は無声化したセグメントである。NN1
〜NN5は異なる音素環境に対応している。BZ1〜ZZ1は子
音に先立って出現する声帯音他の現象、HHA〜HHOは無声
の[h]、またHVA〜HVEは有声化した[h]に対応して
いる。
次に、子音セグメント中のQA1は語頭の母音を、またK
A1,KA2は原則として後者が語中から切り出されたもので
あることを示す。拗音に属する[t∫a]などは、CA1
→YA1→AA1と境界セグメントをはさんで構成している
(実際の音声では、CA1→AA1またはAA2と遷移すること
もありうる)。
境界セグメントとしては、母音境界(AI1)、母音−
子音境界(AS1)、母音−無音境界(AQ1)などが登録さ
れている。なお、母音境界を表すセグメントでは、撥音
はNNと記されている(ANN)。
その他のセグメントには、発生速度の速い場合に観測
される、子音の脱落しかけたVCVセグメント(ANA)、母
音の脱落したセグメント(KS1)などがある。
このような191種の音声セグメントの情報が直交化辞
書としてPS複合辞書部25に格納されている。
前記連続マッチングで求められた類似度 (時刻jにおけるPS名Kiに対する類似度)は、類似度正
規化部26にて前述した構成の正規化テーブル27を参照し
て正規化尺度に変換される。そして、第1位のPS系列が
HMM認識部28に送られる。
第5図は、HMM認識部28に送られるPS系列の出力例と
その声紋、および音声パワーの例を示すもので、単語
「絵入り」を発生入力したときを示している。
なお、前述した例では、PS毎にそれぞれ別の正規化処
理を行なったが、(logBi,Smax1)のPSによる差が少な
い場合には、単一の変換テーブルを用いて、その正規化
処理を簡単化するようにしても良い。また、区間検出部
29は、前記音声パワーとLPC分析結果とに従って、単語
音声区間を検出しており、音声区間の始端と終端をHMM
認識部28に送っている。
次に、このようなPS系列に対する単語認識処理につい
て説明する。ここで用いたHMMは、第6図に示すような
レフト・ツウ・ライト(left to right)型で、10個の
状態S1,S2,…,S10を持ち、初期状態はS1のみとし、8ms
のフレーム周期で、ある遷移確率で状態を遷移する。そ
の遷移の際に、ある出力確率でラベルを出力するモデル
である。
本装置のHMMのモデルMのパラメータは次のようにな
っている。
N:状態数=10(状態S1,S2,…,S10) K:ラベル数191(PSそれぞれをコードにするR=1,2,…,
191) pij:遷移確率SiについてSjに遷移する確率 qij(k):SiからSjへの遷移の際にラベルkを出力する
確率 また、最終状態はS10に限定して扱う。
HMMの学習は、学習用のデータに対して類似度正規化
部26で類似度を正規化し、各フレームで1位となったPS
系列を求める。多数の学習用データを学習データ供給部
30よりHMM学習部31に与えて、確率Pr(O/M)を最大にす
るように、32の単語に対応する各モデルMのパラメータ
を推定する。このモデルはHMMバッファ32に蓄積され
る。
次に、HMMの認識は、HMM学習部31で学習され、HMMバ
ッファ32に蓄積された各モデルに対して、HMM認識部28
において、入力された音声に対するPS系列の確率Pr(O/
M)を求め、この確率が最大になるようなモデルMを求
める。そのモデルの単語が認識結果である。男性30人の
各1回の音声データを学習し、別の男性10人分のデータ
を認識した実験結果を第7図に示すが、かなり高性能の
結果が得られる。
次に、HMMのパラメータ推定について詳しく説明す
る。
離散出力分布HMMの場合、状態iからjへのアークの
遷移確率pijおよび、そのアーク上でのラベルkの生起
確率pij(k)を学習データから求めるためのアルゴリ
ズムとして、バウムウェルチ(Baum Welch)のアルゴリ
ズムが知られている。このバウムウェルチのアルゴリズ
ムについて説明する。すなわち、ラベル系列の長さをT
とし、o1,o2,…,otを生成して状態iに達する確率(前
向き確率)をα(i,t)(i=1,2,…,N;t=0,1,…,
T)、状態jから始まる状態遷移によって、ot+1,ot+2,
…,oTが生じる確率(後向き確率)をβ(i,t)(j=1,
2,…,N;t=T,T−1,…,0)およびモデルMがラベル系列
o=o1,o2,…,oTを出力する確率をP(O/M)とすれば、 が定義できる。
遷移確率pijと出力確率qij(k)の再推定値は となる。
この処理で、多数の学習データを学習データ供給部30
よりHMM学習部31に順次与えて再推定する。
上記の再推定をパラメータが局所的に最適な値に収束
するまで、あるいは最大な繰り返し回数に達するまで、
上記多数の学習データを学習しながら繰り返す。
本発明の要旨とするところは、この学習データの作成
法におる。第5図に示すように音声セグメントは、例え
ば10位まで各フレームについて求められている。学習デ
ータとしては、スタートからエンドまでの第1位のPS系
列(TE2C,EE1A,……,EQ1A,YO1E)、第2位のPS系列(PE
1C,QE1D,RE2B,……,HVUA)のように第n位のPS系列まで
利用する。これにより、PS系列で1位に必ずしも正しい
PSが類似度正規化部26で得られない場合についてHMMの
パラメータを推定しておくので、認識性能が格段に向上
する。
第8図(a),(b)は単語セットの例を示す。すな
わち、第8図(a)は、第7図の高い認識結果を得た単
語セットである。第8図(a)の単語セットと同図
(b)の単語セットとを比較して、第8図(b)は、類
似単語、すなわち「絵入り」と「出入り」のように、似
た単語の16組から構成されているので、認識は難しくな
っている。この単語セットについてPS系列の1位のみ、
2位まで、3位まで、4位まで、5位まで、6位まで、
7位までを学習データとして用いた場合の認識実験の結
果を第9図に示す。ここで、学習データは、男性話者30
名が各1回当て発生したものであり、評価データは学習
データを発生した話者とは別の男性話者10名である。第
9図に示す通り、PS系列の1位のみで学習するよりも2
位、3位、4位、5位までと使うに従って認識率が良く
なることが分かる。しかし、6位まで使っても5位と変
わらず、7位まで使うと認識率は低下している。
なお、PS系列の1位を5個、2位を4個、3位を3
個、4位を2個、5位を1個のようにして学習データ供
給部30よりHMM学習部31に与えることにより、順位に応
じて重みづけすることも可能である。
[発明の効果] 以上詳述したように本発明の音声認識方式によれば、
HMMの学習(パラメータ推定)をする際、第n位までの
ラベル系列も学習することにより、性能の高い学習が可
能となり、音声を高精度に認識することができる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は本発明に
係る音声認識装置の基本構成を示すブロック図、第2図
は類似度の正規化の過程を示す図、第3図は本発明の一
実施例に係る音声認識装置の概略構成を示すブロック
図、第4図はHMMの構造の代表例を示す図、第5図はPS
系列の一例を示す図、第6図はHMMの構成を示す図、第
7図は音声認識率を説明するための図、第8図は単語セ
ット例を示す図、第9図は学習に用いたPS系列の順位と
認識率の関係を示す図である。 11……音響分析部、12……連続マッチング処理部、13…
…PS辞書、14……類似度正規化部、15……正規化テーブ
ル、16……HMM認識部、17……学習データ供給部、18…
…HMM学習部、19……HMMバッファ、21……A/D変換器、2
2……パワー計算部、23……LPC分析部、24……連続マッ
チング部、25……PS複合辞書部、26……類似度正規化
部、27……正規化テーブル、28……HMM認識部、29……
区間検出部、30……学習データ供給部、31……HMM学習
部、32……HMMバッファ。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】入力される音声信号を音響分析することに
    より特徴パラメータを求める音響分析手段と、 この音響分析手段により求められた特徴パラメータより
    フレームごと第n位までのラベル系列を求める手段と、 この手段で求めたラベル系列のうち第1位のラベル系列
    から第n位までのラベル系列をそれそれ別の学習ラベル
    系列として供給する供給手段と、 この供給手段で供給されたラベル系列を学習する学習手
    段と、 を具備したことを特徴とする音声認識方式。
  2. 【請求項2】前記学習手段による学習は、HMM(hidden
    markov model)のバウムウェルチ(Baum Welch)アルゴ
    リズムによるパラメータ推定によることを特徴とする請
    求項1記載の音声認識方式。
JP2306061A 1990-11-14 1990-11-14 音声認識方式 Expired - Fee Related JP2766393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2306061A JP2766393B2 (ja) 1990-11-14 1990-11-14 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2306061A JP2766393B2 (ja) 1990-11-14 1990-11-14 音声認識方式

Publications (2)

Publication Number Publication Date
JPH04178700A JPH04178700A (ja) 1992-06-25
JP2766393B2 true JP2766393B2 (ja) 1998-06-18

Family

ID=17952579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2306061A Expired - Fee Related JP2766393B2 (ja) 1990-11-14 1990-11-14 音声認識方式

Country Status (1)

Country Link
JP (1) JP2766393B2 (ja)

Also Published As

Publication number Publication date
JPH04178700A (ja) 1992-06-25

Similar Documents

Publication Publication Date Title
Anusuya et al. Speech recognition by machine, a review
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
Hemakumar et al. Speech recognition technology: a survey on Indian languages
Hasnat et al. Isolated and continuous bangla speech recognition: implementation, performance and application perspective
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
US6301561B1 (en) Automatic speech recognition using multi-dimensional curve-linear representations
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
Ostendorf et al. The impact of speech recognition on speech synthesis
Hasija et al. Out domain data augmentation on Punjabi children speech recognition using Tacotron
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
US5764851A (en) Fast speech recognition method for mandarin words
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP4283133B2 (ja) 音声認識装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
Golda Brunet et al. Transcription correction using group delay processing for continuous speech recognition
JP2766393B2 (ja) 音声認識方式
Soe et al. Syllable-based speech recognition system for Myanmar
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080403

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090403

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees