JP3033514B2 - 大語彙音声認識方法及び装置 - Google Patents
大語彙音声認識方法及び装置Info
- Publication number
- JP3033514B2 JP3033514B2 JP9080547A JP8054797A JP3033514B2 JP 3033514 B2 JP3033514 B2 JP 3033514B2 JP 9080547 A JP9080547 A JP 9080547A JP 8054797 A JP8054797 A JP 8054797A JP 3033514 B2 JP3033514 B2 JP 3033514B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- word
- output
- recognition
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 19
- 230000007704 transition Effects 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 36
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、未知入力音声を認
識する音声認識方法及び装置に関し、特に、多数の単語
を認識できる大語彙音声認識方法及び装置に関する。
識する音声認識方法及び装置に関し、特に、多数の単語
を認識できる大語彙音声認識方法及び装置に関する。
【0002】
【従来の技術】大語彙音声認識方法として、「三つ組音
素(triphone)HMM(隠れマルコフモデル:Hidden Mar
kov Model)」を用いる方法が広く用いられている。こ
の方法は、隠れマルコフモデル(以下、HMMとする)
による方法であって、認識単位として、音素単位をその
音素の単語(あるいは文)中における前後に隣接する音
素毎に別々に用意した「三つ組音素単位」を用いるもの
である。この「三つ組音素HMM」に関しては文献「音
声認識の基礎(上・下)、NTTアドバンステクノロジ
株式会社、ISBN-4-900886-01-7」または文献「Fundamen
tals of Speech Recognition, Prentice Hall, ISBN-0-
13-015157-2」に詳しく解説されている。
素(triphone)HMM(隠れマルコフモデル:Hidden Mar
kov Model)」を用いる方法が広く用いられている。こ
の方法は、隠れマルコフモデル(以下、HMMとする)
による方法であって、認識単位として、音素単位をその
音素の単語(あるいは文)中における前後に隣接する音
素毎に別々に用意した「三つ組音素単位」を用いるもの
である。この「三つ組音素HMM」に関しては文献「音
声認識の基礎(上・下)、NTTアドバンステクノロジ
株式会社、ISBN-4-900886-01-7」または文献「Fundamen
tals of Speech Recognition, Prentice Hall, ISBN-0-
13-015157-2」に詳しく解説されている。
【0003】
【発明が解決しようとする課題】しかしながら、三つ組
音素HMMによる音声認識では、HMMの種類数が音素
の種類数の3乗ほども存在し、限られた少ない学習用音
声データからすべての三つ組音素HMMを正確に推定す
ることは困難であるという問題点がある。そこで、上述
した文献などに詳しく述べられているように、三つ組音
素HMMの種類数を削減するために、トップダウンやボ
トムアップのクラスタリングなどが用いられている。こ
のようにしてHMMの種類数を削減した場合には、HM
Mとしての最適性も保証されず、また不確実な音素に関
する知識を援用するなどの問題点が生じる。
音素HMMによる音声認識では、HMMの種類数が音素
の種類数の3乗ほども存在し、限られた少ない学習用音
声データからすべての三つ組音素HMMを正確に推定す
ることは困難であるという問題点がある。そこで、上述
した文献などに詳しく述べられているように、三つ組音
素HMMの種類数を削減するために、トップダウンやボ
トムアップのクラスタリングなどが用いられている。こ
のようにしてHMMの種類数を削減した場合には、HM
Mとしての最適性も保証されず、また不確実な音素に関
する知識を援用するなどの問題点が生じる。
【0004】本発明の目的は、三つ組音素などの認識単
位の設定を行うことなしに、音素の環境依存性も考慮し
て高精度に不定話者の音声認識を行うことができる大語
彙音声認識方法及び装置を提供することにある。
位の設定を行うことなしに、音素の環境依存性も考慮し
て高精度に不定話者の音声認識を行うことができる大語
彙音声認識方法及び装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の大語彙音声認識
方法は、特徴ベクトル時系列で表された未知入力音声を
認識する音声認識方法において、複数の認識対象単語の
音素記号列を記憶するとともに、N個の順序付けられた
状態の間のN×N個の相互の状態遷移に付随する遷移確
率と、各状態遷移に付随する音素記号の出力確率と特徴
ベクトルの出力確率を記憶し、エルゴディック隠れマル
コフモデルにより、未知入力音声の特徴ベクトル時系列
と認識対象単語仮説の音素記号列の組に対する確率を算
出し、すべての認識対象単語中で最大確率の単語を認識
結果として出力する。
方法は、特徴ベクトル時系列で表された未知入力音声を
認識する音声認識方法において、複数の認識対象単語の
音素記号列を記憶するとともに、N個の順序付けられた
状態の間のN×N個の相互の状態遷移に付随する遷移確
率と、各状態遷移に付随する音素記号の出力確率と特徴
ベクトルの出力確率を記憶し、エルゴディック隠れマル
コフモデルにより、未知入力音声の特徴ベクトル時系列
と認識対象単語仮説の音素記号列の組に対する確率を算
出し、すべての認識対象単語中で最大確率の単語を認識
結果として出力する。
【0006】本発明の大語彙認識装置は、特徴ベクトル
時系列で表された未知入力音声を認識する音声認識装置
において、複数の認識対象単語の音素記号列を記憶する
単語辞書部と、N個の順序付けられた状態の間のN×N
個の相互の状態遷移に付随する遷移確率を格納する遷移
確率記憶部と、各状態遷移に付随する音素記号の出力確
率と特徴ベクトルの出力確率を記憶する出力確率記憶部
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部と、すべての認識対象単語中で最大確率の単語を認識
結果として出力する認識結果出力部と、を有する。
時系列で表された未知入力音声を認識する音声認識装置
において、複数の認識対象単語の音素記号列を記憶する
単語辞書部と、N個の順序付けられた状態の間のN×N
個の相互の状態遷移に付随する遷移確率を格納する遷移
確率記憶部と、各状態遷移に付随する音素記号の出力確
率と特徴ベクトルの出力確率を記憶する出力確率記憶部
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部と、すべての認識対象単語中で最大確率の単語を認識
結果として出力する認識結果出力部と、を有する。
【0007】本発明においては、各状態遷移に付随する
話者クラスタ番号をも記憶させ、確率として、未知入力
音声の特徴ベクトル時系列と認識対象単語仮設の音素記
号列と話者クラスタ番号仮設との組に対する確率を算出
し、すべての認識対象単語および話者クラスタ番号の中
で最大確率を与える単語を出力するようにしてもよい。
話者クラスタ番号をも記憶させ、確率として、未知入力
音声の特徴ベクトル時系列と認識対象単語仮設の音素記
号列と話者クラスタ番号仮設との組に対する確率を算出
し、すべての認識対象単語および話者クラスタ番号の中
で最大確率を与える単語を出力するようにしてもよい。
【0008】本発明による音声認識方法及び装置が従来
法と比べたときに大きく異なる点は、従来法ではHMM
において出力されるものが特徴ベクトルのみであったの
に対して、本発明では、特徴ベクトルに加えて、音素記
号もHMMによって出力される点である。さらに、請求
項2あるいは4の場合には、話者クラスタ番号もHMM
によって出力される。また従来法では、認識対象単語ご
とにそれぞれ三つ組音素HMMを連結した単語HMMを
別々に構築して標準パターンとしていたが、本発明では
ただ一つのエルゴディックHMMを標準パターンとして
すべての認識対象単語で共用している。これにより、モ
デルパラメータの最適かつ自然な共有化が行われる。
法と比べたときに大きく異なる点は、従来法ではHMM
において出力されるものが特徴ベクトルのみであったの
に対して、本発明では、特徴ベクトルに加えて、音素記
号もHMMによって出力される点である。さらに、請求
項2あるいは4の場合には、話者クラスタ番号もHMM
によって出力される。また従来法では、認識対象単語ご
とにそれぞれ三つ組音素HMMを連結した単語HMMを
別々に構築して標準パターンとしていたが、本発明では
ただ一つのエルゴディックHMMを標準パターンとして
すべての認識対象単語で共用している。これにより、モ
デルパラメータの最適かつ自然な共有化が行われる。
【0009】
【発明の実施の形態】次に、本発明の実施の形態につい
て、図面を参照して説明する。図1は本発明の実施の一
形態の音声認識装置の構成を示すブロック図である。
て、図面を参照して説明する。図1は本発明の実施の一
形態の音声認識装置の構成を示すブロック図である。
【0010】この音声認識装置は、特徴ベクトルの時系
列で表された未知入力音声を認識するものであって、複
数の認識対象単語の音素記号列を記憶する単語辞書部1
0と、N個の順序付けられた状態の間のN×N個の相互
の状態遷移に付随する遷移確率を格納する遷移確率記憶
部20と、各状態遷移に付随する音素記号の出力確率と
特徴ベクトルの出力確率を記憶する出力確率記憶部30
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部40と、すべての認識対象単語中で最大確率の単語を
認識結果として出力する認識結果出力部50とを備えて
いる。
列で表された未知入力音声を認識するものであって、複
数の認識対象単語の音素記号列を記憶する単語辞書部1
0と、N個の順序付けられた状態の間のN×N個の相互
の状態遷移に付随する遷移確率を格納する遷移確率記憶
部20と、各状態遷移に付随する音素記号の出力確率と
特徴ベクトルの出力確率を記憶する出力確率記憶部30
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部40と、すべての認識対象単語中で最大確率の単語を
認識結果として出力する認識結果出力部50とを備えて
いる。
【0011】入力音声は特徴ベクトルxtの時系列 X=x1x2…xt…xT で表される。ここで特徴ベクトルxtはたとえば10次
元のケプストラム・ベクトルで、添字tは時間順序をあ
らわす番号(自然数)である。
元のケプストラム・ベクトルで、添字tは時間順序をあ
らわす番号(自然数)である。
【0012】単語辞書部10には、認識対象単語それぞ
れの音素記号列が記憶されている。ここで音素記号は、
音節など、認識対象単語を一意に定義できる単語より小
さい記号単位であれば十分である。
れの音素記号列が記憶されている。ここで音素記号は、
音節など、認識対象単語を一意に定義できる単語より小
さい記号単位であれば十分である。
【0013】第m番目の認識対象単語をwmで表わし、
その音素記号列を
その音素記号列を
【0014】
【数1】 で表わす。ここでKmは音素記号列の長さである。音素
記号の種類数をNP個とし、すべての音素記号を並べて
順番に番号付けを行う。
記号の種類数をNP個とし、すべての音素記号を並べて
順番に番号付けを行う。
【0015】
【表1】 すると認識対象単語が「あかい(音素記号では“aka
i”)」の場合は、P1=1,P2=6,P3=1,P4=2,
Km=4となる。また認識対象単語の総数をNW個とす
る。なおこの実施の形態では、例として音素記号を用い
て単語を表しているが、音節など別の記号体系を用いて
も同様に適用することができる。
i”)」の場合は、P1=1,P2=6,P3=1,P4=2,
Km=4となる。また認識対象単語の総数をNW個とす
る。なおこの実施の形態では、例として音素記号を用い
て単語を表しているが、音節など別の記号体系を用いて
も同様に適用することができる。
【0016】本実施の形態では、HMMとして、エルゴ
ード的なマルコフ連鎖を用いたエルゴディックHMMに
より、音声認識を行う。エルゴディックHMMの詳細
は、先に述べた文献中に記載されている。図2は、エル
ゴディックHMMを説明するための図であって、状態1
と状態2の2個の状態とそのすべての状態間の遷移を示
している。図2において、例えばa12は、状態1から状
態2への状態遷移に付随した遷移確率である。以下にお
いてはより一般的なNS個の状態とその相互間の状態遷
移から構成されるエルゴディックHMMを用いた場合を
説明する。
ード的なマルコフ連鎖を用いたエルゴディックHMMに
より、音声認識を行う。エルゴディックHMMの詳細
は、先に述べた文献中に記載されている。図2は、エル
ゴディックHMMを説明するための図であって、状態1
と状態2の2個の状態とそのすべての状態間の遷移を示
している。図2において、例えばa12は、状態1から状
態2への状態遷移に付随した遷移確率である。以下にお
いてはより一般的なNS個の状態とその相互間の状態遷
移から構成されるエルゴディックHMMを用いた場合を
説明する。
【0017】遷移確率記憶部20には、エルゴディック
HMMの状態遷移に付随する確率が記憶されている。第
i番目の状態から第j番目の状態への状態遷移に付随す
る遷移確率をaijで表す。遷移確率aijの値は、確率と
して、下式に示すように、それぞれ値が0以上であり、
かつ総和が1であるという条件を満たしている。
HMMの状態遷移に付随する確率が記憶されている。第
i番目の状態から第j番目の状態への状態遷移に付随す
る遷移確率をaijで表す。遷移確率aijの値は、確率と
して、下式に示すように、それぞれ値が0以上であり、
かつ総和が1であるという条件を満たしている。
【0018】
【数2】 また各状態の初期確率も遷移確率記憶部20に記憶して
おく。第i番目の状態の初期確率をπiで表す。初期確
率πiについても以下の条件が成立する。
おく。第i番目の状態の初期確率をπiで表す。初期確
率πiについても以下の条件が成立する。
【0019】
【数3】 出力確率記憶部30には、状態遷移に付随する音素記号
出力確率および特徴ベクトル出力確率が記憶されてい
る。第i番目の状態から第j番目の状態への状態遷移に
付随する音素記号出力確率をfij(p)で表す。ここでp
は第p番目の音素記号を表わし、音素記号の種類数がN
P個であるので、
出力確率および特徴ベクトル出力確率が記憶されてい
る。第i番目の状態から第j番目の状態への状態遷移に
付随する音素記号出力確率をfij(p)で表す。ここでp
は第p番目の音素記号を表わし、音素記号の種類数がN
P個であるので、
【0020】
【数4】 である。例えば、fij(1)は、i番目の状態から第j番
目の状態への状態遷移に付随して音素記号aが出力され
る確率を表わしている。
目の状態への状態遷移に付随して音素記号aが出力され
る確率を表わしている。
【0021】第i番目の状態から第j番目の状態への状
態遷移に付随する特徴ベクトル出力確率をgij(x)とす
る。この特徴ベクトル出力確率gij(x)は、例えば、下
式のような特徴ベクトル出力確率は多次元ガウス分布で
表わすこととする。
態遷移に付随する特徴ベクトル出力確率をgij(x)とす
る。この特徴ベクトル出力確率gij(x)は、例えば、下
式のような特徴ベクトル出力確率は多次元ガウス分布で
表わすこととする。
【0022】
【数5】 ここで、Dは特徴ベクトルの次元数、μijは平均ベクト
ル、Σijは共分散行列である。
ル、Σijは共分散行列である。
【0023】単語照合部40では、NW個の認識対象単
語のそれぞれに対する確率(すなわち、その認識対象単
語仮説の尤度)が算出される。以下において第m番目の
認識対象単語wmに対する確率P(wm,X)の対数値を算
出する手順を説明する。なお、上述したように、
語のそれぞれに対する確率(すなわち、その認識対象単
語仮説の尤度)が算出される。以下において第m番目の
認識対象単語wmに対する確率P(wm,X)の対数値を算
出する手順を説明する。なお、上述したように、
【0024】
【数6】 である。
【0025】対数確率の部分和を次式で定義する。
【0026】
【数7】 この初期化と漸化式によって、第t番目の時刻と、第i
番目の状態と、第k番目の音素記号の3つの添字で指定
される3次元の配列である対数確率の部分和φt(i,k)
をすべての時刻
番目の状態と、第k番目の音素記号の3つの添字で指定
される3次元の配列である対数確率の部分和φt(i,k)
をすべての時刻
【0027】
【数8】 と、すべての状態
【0028】
【数9】 と、認識対象単語中のすべての音素記号
【0029】
【数10】 に対して算出する。
【0030】結果として得られた対数確率の部分和φ
t(i,km)から、次式によって、第m番目の認識対象単
語wmに対する確率P(wm,X)の対数値が得られる。
t(i,km)から、次式によって、第m番目の認識対象単
語wmに対する確率P(wm,X)の対数値が得られる。
【0031】
【数11】 単語照合部40は、すべての認識対象単語に対して上記
の対数確率を算出する。この処理の具体的手順の一例を
図3及び図4のフローチャートに示す。ステップ101
〜108において対数確率の部分和の初期化を行い、ス
テップ109〜133において漸化式計算を行って確率
の対数値Lを算出し、ステップ134において対数値L
を出力している。初期化の過程では、ステップ102に
おいて第i番目の初期確率πiをt=0,k=1に対応す
るφ(0,i,1)に代入し、kが2以上であるときのφ
(0,i,k)にはステップ104において−∞を代入して
いる。ここでは、対数確率を扱っているので、−∞は真
数での0に対応する。同様に、ステップ113において
も真数0に対応する対数として、Φ(t,i,k)に−∞を
代入している。
の対数確率を算出する。この処理の具体的手順の一例を
図3及び図4のフローチャートに示す。ステップ101
〜108において対数確率の部分和の初期化を行い、ス
テップ109〜133において漸化式計算を行って確率
の対数値Lを算出し、ステップ134において対数値L
を出力している。初期化の過程では、ステップ102に
おいて第i番目の初期確率πiをt=0,k=1に対応す
るφ(0,i,1)に代入し、kが2以上であるときのφ
(0,i,k)にはステップ104において−∞を代入して
いる。ここでは、対数確率を扱っているので、−∞は真
数での0に対応する。同様に、ステップ113において
も真数0に対応する対数として、Φ(t,i,k)に−∞を
代入している。
【0032】このようにして、全ての認識対象単語に対
する対数確率が求められたら、認識結果出力部50は、
これらの対数確率の中で最大値を与える単語
する対数確率が求められたら、認識結果出力部50は、
これらの対数確率の中で最大値を与える単語
【0033】
【外1】 を認識結果として出力する。すなわち、
【0034】
【数12】 である。
【0035】以上、本発明の実施の形態について説明し
たが、本発明は上述したものに限定されるものではな
い。上述した実施の形態では、状態遷移に対して特徴ベ
クトルの出力確率と音素記号の出力確率を付随させてH
MMの出力を行ったが、さらに、状態遷移に対して話者
クラスタ番号の出力確率を付随させてもよい。
たが、本発明は上述したものに限定されるものではな
い。上述した実施の形態では、状態遷移に対して特徴ベ
クトルの出力確率と音素記号の出力確率を付随させてH
MMの出力を行ったが、さらに、状態遷移に対して話者
クラスタ番号の出力確率を付随させてもよい。
【0036】話者クラスタ番号の出力確率を付随させる
場合、話者クラスタ番号の出力確率をhij(q)で表わ
す。qはq番目の話者クラスタをあらわし、話者クラス
タの総数がNQ個であるとすると、
場合、話者クラスタ番号の出力確率をhij(q)で表わ
す。qはq番目の話者クラスタをあらわし、話者クラス
タの総数がNQ個であるとすると、
【0037】
【数13】 である。話者クラスタ番号は出力確率記憶部30内に格
納しておく。対数確率の部分和を4次元の配列として、
前述の初期化・漸化式を次のように拡張する。
納しておく。対数確率の部分和を4次元の配列として、
前述の初期化・漸化式を次のように拡張する。
【0038】
【数14】 結果として得られた対数確率の部分和から、次式によっ
て、認識対象単語wmに対する確率の対数値が得られ
る。これらの演算は単語照合部40で行われる。
て、認識対象単語wmに対する確率の対数値が得られ
る。これらの演算は単語照合部40で行われる。
【0039】
【数15】 そして、認識結果出力部50は、すべての認識対象単語
及び話者クラスタ番号の中で最大確率の単語を認識結果
として出力する。
及び話者クラスタ番号の中で最大確率の単語を認識結果
として出力する。
【0040】このように話者クラスタ番号をエルゴディ
ックHMMの出力に加えることにより、不定話者の音声
認識においても、話者性を自動的に最適決定しながら、
音声認識を行うことが可能になる。
ックHMMの出力に加えることにより、不定話者の音声
認識においても、話者性を自動的に最適決定しながら、
音声認識を行うことが可能になる。
【0041】
【発明の効果】以上説明したように本発明は、音素記号
列と特徴ベクトル列を出力するただ一つのエルゴディッ
クHMMを用いることにより、「三つ組音素」などの認
識単位の設定を行う必要なしに、音素の環境依存性をも
考慮した高精度な大語彙音声認識装置を実現することが
できるという効果がある。また、また話者クラスタ番号
もエルゴディックHMMの出力に加えることにより、不
特定話者の音声認識においても話者性を自動的に最適決
定しながら認識する装置を実現することができる。
列と特徴ベクトル列を出力するただ一つのエルゴディッ
クHMMを用いることにより、「三つ組音素」などの認
識単位の設定を行う必要なしに、音素の環境依存性をも
考慮した高精度な大語彙音声認識装置を実現することが
できるという効果がある。また、また話者クラスタ番号
もエルゴディックHMMの出力に加えることにより、不
特定話者の音声認識においても話者性を自動的に最適決
定しながら認識する装置を実現することができる。
【図1】本発明の実施の一形態の大語彙音声認識装置の
構成を示すブロック図である。
構成を示すブロック図である。
【図2】本発明で用いるエルゴディックHMMの例を示
す図である。
す図である。
【図3】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。
処理を示すフローチャートである。
【図4】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。
処理を示すフローチャートである。
10 単語辞書 20 遷移確率記憶部 30 出力確率記憶部 40 単語照合部 50 認識結果出力部 101〜134 ステップ
フロントページの続き (56)参考文献 特開 平8−123463(JP,A) 米国特許5778341(US,A) 欧州特許出願公開869478(EP,A 2) 欧州特許出願公開786761(EP,A 2) 電子情報通信学会論文誌 Vol.J 77−A No.2,Feburary 1994,「全音素エルゴディックHMMを 用いた教師なし話者適応」,p.112− 119,(平成6年2月25日発行) 電子情報通信学会技術研究報告[音声 ] Vol.92,No.274,SP92− 75,「全音素エルゴディックHMMによ る教師なし話者適応」,p.15−20, (1992年10月21日発行) 電子情報通信学会技術研究報告[音声 ] Vol.92,No.410,SP92− 129,「エルゴディックHMMを用いた 音声による多言語の識別」,p.49− 56,(1993年1月19日発行) 電子情報通信学会論文誌 Vol.J 77−A No.2,Feburary, 「エルゴディックHMMとその状態シー ケンスを用いた音声による言語の識 別」,p.182−189,(平成6年2月25 日発行) L.R.Rabiner,B−H.J uang著,古井監訳「音声認識の基 礎」(下)(1995年11月発行)NTTア ドバンスドテクノロジ,p.135−138 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/18 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】 特徴ベクトル時系列で表された未知入力
音声を認識する音声認識方法において、 複数の認識対象単語の音素記号列を記憶するとともに、
N個の順序付けられた状態の間のN×N個の相互の状態
遷移に付随する遷移確率と、各状態遷移に付随する音素
記号の出力確率と特徴ベクトルの出力確率と記憶し、 エルゴディック隠れマルコフモデルにより、未知入力音
声の特徴ベクトル時系列と認識対象単語仮説の音素記号
列の組に対する確率を算出し、 すべての認識対象単語中で最大確率の単語を認識結果と
して出力することを特徴とする大語彙音声認識方法。 - 【請求項2】 特徴ベクトル時系列で表された未知入力
音声を認識する音声認識方法において、 複数の認識対象単語の音素記号列を記憶するとともに、
N個の順序付けられた状態の間のN×N個の相互の状態
遷移に付随する遷移確率と、各状態遷移に付随する音素
記号の出力確率と特徴ベクトルの出力確率と話者クラス
タ番号を記憶し、 エルゴディック隠れマルコフモデルにより、未知入力音
声の特徴ベクトル時系列と認識対象単語仮設の音素記号
列と話者クラスタ番号仮設との組に対する確率を算出
し、 すべての認識対象単語および話者クラスタ番号の中で最
大確率を与える単語を出力することを特徴とする大語彙
音声認識方法。 - 【請求項3】 特徴ベクトル時系列で表された未知入力
音声を認識する音声認識装置において、 複数の認識対象単語の音素記号列を記憶する単語辞書部
と、 N個の順序付けられた状態の間のN×N個の相互の状態
遷移に付随する遷移確率を格納する遷移確率記憶部と、 各状態遷移に付随する音素記号の出力確率と特徴ベクト
ルの出力確率を記憶する出力確率記憶部と、 未知入力音声の特徴ベクトル時系列と認識対象単語仮説
の音素記号列の組に対する確率を算出する単語照合部
と、 すべての認識対象単語中で最大確率の単語を認識結果と
して出力する認識結果出力部と、を有することを特徴と
する大語彙音声認識装置。 - 【請求項4】 特徴ベクトル時系列で表された未知入力
音声を認識する音声認識装置において、 複数の認識対象単語の音素記号列を記憶する単語辞書部
と、 N個の順序付けられた状態の間のN×N個の相互の状態
遷移に付随する遷移確率を格納する遷移確率記憶部と、 各状態遷移に付随する音素記号の出力確率と特徴ベクト
ルの出力確率と話者クラスタ番号を記憶する出力確率記
憶部と、 未知入力音声の特徴ベクトル時系列と認識対象単語仮説
の音素記号列と話者クラスタ番号仮説との組に対する確
率を算出する単語照合部と、 すべての認識対象単語及び話者クラスタ番号の中で最大
確率の単語を認識結果として出力する認識結果出力部
と、を有することを特徴とする大語彙音声認識装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9080547A JP3033514B2 (ja) | 1997-03-31 | 1997-03-31 | 大語彙音声認識方法及び装置 |
EP98105750A EP0869478A3 (en) | 1997-03-31 | 1998-03-30 | Speech recognition method and apparatus |
US09/050,948 US6092042A (en) | 1997-03-31 | 1998-03-31 | Speech recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9080547A JP3033514B2 (ja) | 1997-03-31 | 1997-03-31 | 大語彙音声認識方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10274995A JPH10274995A (ja) | 1998-10-13 |
JP3033514B2 true JP3033514B2 (ja) | 2000-04-17 |
Family
ID=13721381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9080547A Expired - Lifetime JP3033514B2 (ja) | 1997-03-31 | 1997-03-31 | 大語彙音声認識方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6092042A (ja) |
EP (1) | EP0869478A3 (ja) |
JP (1) | JP3033514B2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE331417T1 (de) | 2000-04-04 | 2006-07-15 | Gn Resound As | Eine hörprothese mit automatischer hörumgebungsklassifizierung |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7418386B2 (en) | 2001-04-03 | 2008-08-26 | Intel Corporation | Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system |
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
US6862359B2 (en) | 2001-12-18 | 2005-03-01 | Gn Resound A/S | Hearing prosthesis with automatic classification of the listening environment |
US7062436B1 (en) * | 2003-02-11 | 2006-06-13 | Microsoft Corporation | Word-specific acoustic models in a speech recognition system |
US7529671B2 (en) * | 2003-03-04 | 2009-05-05 | Microsoft Corporation | Block synchronous decoding |
US7076422B2 (en) * | 2003-03-13 | 2006-07-11 | Microsoft Corporation | Modelling and processing filled pauses and noises in speech recognition |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US7693715B2 (en) * | 2004-03-10 | 2010-04-06 | Microsoft Corporation | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
WO2008024800A2 (en) * | 2006-08-21 | 2008-02-28 | Western Slope Utilities, Inc. | Systems and methods for swab transport in pipeline rehabilitation |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
CN105336335B (zh) * | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
CN104635146B (zh) * | 2015-02-06 | 2017-04-19 | 南京农业大学 | 基于随机正弦信号测试和hmm的模拟电路故障诊断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778341A (en) | 1996-01-26 | 1998-07-07 | Lucent Technologies Inc. | Method of speech recognition using decoded state sequences having constrained state likelihoods |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
JPH071435B2 (ja) * | 1993-03-16 | 1995-01-11 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音響モデル適応方式 |
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
JP2738508B2 (ja) * | 1994-10-27 | 1998-04-08 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル作成装置及び音声認識装置 |
US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
US6009390A (en) * | 1997-09-11 | 1999-12-28 | Lucent Technologies Inc. | Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition |
-
1997
- 1997-03-31 JP JP9080547A patent/JP3033514B2/ja not_active Expired - Lifetime
-
1998
- 1998-03-30 EP EP98105750A patent/EP0869478A3/en not_active Withdrawn
- 1998-03-31 US US09/050,948 patent/US6092042A/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778341A (en) | 1996-01-26 | 1998-07-07 | Lucent Technologies Inc. | Method of speech recognition using decoded state sequences having constrained state likelihoods |
Non-Patent Citations (5)
Title |
---|
L.R.Rabiner,B−H.Juang著,古井監訳「音声認識の基礎」(下)(1995年11月発行)NTTアドバンスドテクノロジ,p.135−138 |
電子情報通信学会技術研究報告[音声] Vol.92,No.274,SP92−75,「全音素エルゴディックHMMによる教師なし話者適応」,p.15−20,(1992年10月21日発行) |
電子情報通信学会技術研究報告[音声] Vol.92,No.410,SP92−129,「エルゴディックHMMを用いた音声による多言語の識別」,p.49−56,(1993年1月19日発行) |
電子情報通信学会論文誌 Vol.J77−A No.2,Feburary 1994,「全音素エルゴディックHMMを用いた教師なし話者適応」,p.112−119,(平成6年2月25日発行) |
電子情報通信学会論文誌 Vol.J77−A No.2,Feburary,「エルゴディックHMMとその状態シーケンスを用いた音声による言語の識別」,p.182−189,(平成6年2月25日発行) |
Also Published As
Publication number | Publication date |
---|---|
EP0869478A3 (en) | 1999-05-26 |
US6092042A (en) | 2000-07-18 |
EP0869478A2 (en) | 1998-10-07 |
JPH10274995A (ja) | 1998-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3033514B2 (ja) | 大語彙音声認識方法及び装置 | |
US6539353B1 (en) | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition | |
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
US7054810B2 (en) | Feature vector-based apparatus and method for robust pattern recognition | |
US4783804A (en) | Hidden Markov model speech recognition arrangement | |
EP1204091B1 (en) | A system and method of pattern recognition in very high-dimensional space | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
US6567776B1 (en) | Speech recognition method using speaker cluster models | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
Chou et al. | A minimum error rate pattern recognition approach to speech recognition | |
JPH08227298A (ja) | クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 | |
JPH11338491A (ja) | 固有声に基いた最尤法を含む話者と環境適合化 | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
Tran et al. | A proposed decision rule for speaker recognition based on fuzzy c-means clustering. | |
KR20050088014A (ko) | 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 | |
JP3368989B2 (ja) | 音声認識方法 | |
Matrouf et al. | Structural linear model-space transformations for speaker adaptation. | |
Homma et al. | Iterative unsupervised speaker adaptation for batch dictation | |
KR20030082265A (ko) | 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치 | |
JP3291073B2 (ja) | 音声認識方式 |