JP2543148B2 - 音声認識装置を学習させる装置 - Google Patents
音声認識装置を学習させる装置Info
- Publication number
- JP2543148B2 JP2543148B2 JP63194665A JP19466588A JP2543148B2 JP 2543148 B2 JP2543148 B2 JP 2543148B2 JP 63194665 A JP63194665 A JP 63194665A JP 19466588 A JP19466588 A JP 19466588A JP 2543148 B2 JP2543148 B2 JP 2543148B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- label
- transition
- speaker
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007704 transition Effects 0.000 claims description 155
- 230000004044 response Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 description 35
- 238000004364 calculation method Methods 0.000 description 28
- 239000011159 matrix material Substances 0.000 description 19
- 238000000034 method Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000009499 grossing Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000011524 similarity measure Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 以下のとおりこの発明を説明する。
A.産業上の利用分野 B.従来の技術 C.発明が解決しようとする問題点 D.問題点を解決するための手段 E.実施例 E1.音声フォーン・マシーンの音声認識システム環境 E2.フィーニーム・フォーン・マシーンの音声認識 E3.フォーン・マシーンの学習 F.発明の効果 表1 表2 A.産業上の利用分野 この発明は、一旦標準話者について学習の行われたマ
ルコフ・モデル音声認識装置の統計量を、後の話者に対
して学習させる装置に関する。
ルコフ・モデル音声認識装置の統計量を、後の話者に対
して学習させる装置に関する。
B.従来の技術 音声認識の一手法にヒドン・マルコフ・モデル(HM
M)を採用するものがある。HMMは種々の論文で検討され
てきた。たとえば“Continuous Speech Recognition by
Statistcal Methods",F.Jelinek,Proceedings of IEE
E,Vol.64,No4,1976や“A Maximum Likelihood Approach
to Continuous Speech Recognition",L.R.Bahl,F.Jeli
nekおよびR.L.Mercer,IEEE Transactions on Pattern A
nalysis and Machine Intelligence,Vol.PAMI-5,No2,19
83年3月で検討されている。
M)を採用するものがある。HMMは種々の論文で検討され
てきた。たとえば“Continuous Speech Recognition by
Statistcal Methods",F.Jelinek,Proceedings of IEE
E,Vol.64,No4,1976や“A Maximum Likelihood Approach
to Continuous Speech Recognition",L.R.Bahl,F.Jeli
nekおよびR.L.Mercer,IEEE Transactions on Pattern A
nalysis and Machine Intelligence,Vol.PAMI-5,No2,19
83年3月で検討されている。
HMMに基づいて音声認識を行う際には、音響プロセッ
サを用いて音声の一連の間隔を音声の種々の特徴に応じ
て検査する。たとえば、種々のエネルギ周波数帯の各々
の強度が各間隔ごとに決定される。各強度は要素すなわ
ち特徴を表わす。そして要素を結合して特徴ベクトルが
形成される。
サを用いて音声の一連の間隔を音声の種々の特徴に応じ
て検査する。たとえば、種々のエネルギ周波数帯の各々
の強度が各間隔ごとに決定される。各強度は要素すなわ
ち特徴を表わす。そして要素を結合して特徴ベクトルが
形成される。
音響プロセッサはプロトタイプすなわち標準のベクト
ルの有限集合を規定する。各プロトタイプ・ベクトルは
自己を特定する固有のラベルを有している。各時間間隔
の特徴ベクトルは各プロトタイプ・ベクトルに比較され
る。所定の距離測度に基づいて、最も近いプロトタイプ
が選択される。したがって、各時間間隔に1つのプロト
タイプ・ベクトルが選定され、このプロトタイプ・ベク
トルはその時間間隔の特徴ベクトルを最もよく表わす。
音声が発生されるとき、音響プロセッサはその出力とし
てラベルのストリングを供給する。
ルの有限集合を規定する。各プロトタイプ・ベクトルは
自己を特定する固有のラベルを有している。各時間間隔
の特徴ベクトルは各プロトタイプ・ベクトルに比較され
る。所定の距離測度に基づいて、最も近いプロトタイプ
が選択される。したがって、各時間間隔に1つのプロト
タイプ・ベクトルが選定され、このプロトタイプ・ベク
トルはその時間間隔の特徴ベクトルを最もよく表わす。
音声が発生されるとき、音響プロセッサはその出力とし
てラベルのストリングを供給する。
マルコフ・モデル音声認識では、マルコフ・モデルの
集合が定義される。典型的にはそのようなマルコフ・モ
デルは音声要素と一対一に対応する。80個の音声要素が
あれば、対応する80個のマルコフ・モデルがある。1つ
の単語の一連の音声要素に対応するマルコフ・モデルを
結合するとその単語についてのマルコフ・モデル・ベー
スフォームを形成する。
集合が定義される。典型的にはそのようなマルコフ・モ
デルは音声要素と一対一に対応する。80個の音声要素が
あれば、対応する80個のマルコフ・モデルがある。1つ
の単語の一連の音声要素に対応するマルコフ・モデルを
結合するとその単語についてのマルコフ・モデル・ベー
スフォームを形成する。
各マルコフ・モデルは複数の状態および複数の遷移を
有するものとして特徴付けられる。各遷移はある状態か
ら他の状態へと延びている。少なくともいくつかの遷移
が時間間隔を表わし、この時間間隔に音響プロセッサが
1つのプロトタイプ・ベクトルを選択する。各遷移には
遷移確率があり、所定の場合には出力確率がある。遷移
確率はマルコフ・モデルにおいて所定の遷移が採られる
ゆう度を示す。出力確率は所定の遷移において所定の出
力ラベル(たとえばプロトタイプ・ベクトル・ラベル)
が生成されるゆう度を示す。
有するものとして特徴付けられる。各遷移はある状態か
ら他の状態へと延びている。少なくともいくつかの遷移
が時間間隔を表わし、この時間間隔に音響プロセッサが
1つのプロトタイプ・ベクトルを選択する。各遷移には
遷移確率があり、所定の場合には出力確率がある。遷移
確率はマルコフ・モデルにおいて所定の遷移が採られる
ゆう度を示す。出力確率は所定の遷移において所定の出
力ラベル(たとえばプロトタイプ・ベクトル・ラベル)
が生成されるゆう度を示す。
状態iから状態jに延びる所定の遷移Aijについて、
関連する遷移確率P(Aij)が存在する。また200のプロ
トタイプ・ベクトルが存在すれば、関連する200個の出
力確率が存在する。
関連する遷移確率P(Aij)が存在する。また200のプロ
トタイプ・ベクトルが存在すれば、関連する200個の出
力確率が存在する。
通常(しかし必須ではない)、連結遷移を伴う骨格状
の状態(確率値が付与されていない)は各マルコフ・モ
デルにつき共通である。
の状態(確率値が付与されていない)は各マルコフ・モ
デルにつき共通である。
1人の所定の話者について、種々の音声要素に対応す
る種々のマルコフ・モデルは関連する確率値において典
型的には異なっている。動作に際しては、種々の遷移確
率および出力確率が各マルコフ・モデルについて決定さ
れなければならない。
る種々のマルコフ・モデルは関連する確率値において典
型的には異なっている。動作に際しては、種々の遷移確
率および出力確率が各マルコフ・モデルについて決定さ
れなければならない。
マルコフ・モデルの物理的な構成は「フォーン・マシ
ーン」と呼ばれる。またはマルコフ・モデル・フォーン
・マシーンと呼ばれる。1の音声要素に対応するフォー
ン・マシーンは、遷移確率、出力確率、フォーン・マシ
ーンの形状、どの音声要素を表現するかの識別子および
そのマルコフ・モデルを特徴付ける他の情報をストアす
るメモリ位置を含んでいる。
ーン」と呼ばれる。またはマルコフ・モデル・フォーン
・マシーンと呼ばれる。1の音声要素に対応するフォー
ン・マシーンは、遷移確率、出力確率、フォーン・マシ
ーンの形状、どの音声要素を表現するかの識別子および
そのマルコフ・モデルを特徴付ける他の情報をストアす
るメモリ位置を含んでいる。
遷移確率および出力確率をフォーン・マシーンにスト
アできるように決定する過程を学習(training)と呼
ぶ。
アできるように決定する過程を学習(training)と呼
ぶ。
典型的には、各話者に応じて別個の組の遷移確率およ
び出力確率が決定されなければならない。すなわち各話
者に応じて音声認識装置は対応するフォーン・マシーン
の組のデータ(遷移確率値や出力確率値)をストアす
る。
び出力確率が決定されなければならない。すなわち各話
者に応じて音声認識装置は対応するフォーン・マシーン
の組のデータ(遷移確率値や出力確率値)をストアす
る。
学習の慣用的な手法では話者が既知のサンプル・テキ
ストを音響プロセッサに発声入力する。サンプル・テキ
ストは音声要素の既知の系列を表わす。すなわち既知の
対応するフォーン・マシーンの系列である。音響プロセ
ッサは発声入力に応じてプロトタイプ・ラベルのストリ
ングを生成する。既知のサンプル・テキストのプロトタ
イプ・ラベル・ストリングと遷移確率および出力確率の
初期の値の組(この初期の値は実際の音声特性を反映し
ていない)とから改善された確率値を生成する。この生
成を行うには、まずフォワード・バックワード・アルゴ
リズムないしBaum-Welchアルゴリズムを適用して遷移カ
ウントおよび出力カウントを生成し、つぎにそれらカウ
ントから遷移確率および出力確率を新たに導出し、この
導出確率値にさらにフォワード・バックワード・アルゴ
リズムを適用し、さらに多数回の繰り返しを行う。最後
の繰り返し後の確率値をここでは基本遷移確率および基
本出力確率と呼ぶ。
ストを音響プロセッサに発声入力する。サンプル・テキ
ストは音声要素の既知の系列を表わす。すなわち既知の
対応するフォーン・マシーンの系列である。音響プロセ
ッサは発声入力に応じてプロトタイプ・ラベルのストリ
ングを生成する。既知のサンプル・テキストのプロトタ
イプ・ラベル・ストリングと遷移確率および出力確率の
初期の値の組(この初期の値は実際の音声特性を反映し
ていない)とから改善された確率値を生成する。この生
成を行うには、まずフォワード・バックワード・アルゴ
リズムないしBaum-Welchアルゴリズムを適用して遷移カ
ウントおよび出力カウントを生成し、つぎにそれらカウ
ントから遷移確率および出力確率を新たに導出し、この
導出確率値にさらにフォワード・バックワード・アルゴ
リズムを適用し、さらに多数回の繰り返しを行う。最後
の繰り返し後の確率値をここでは基本遷移確率および基
本出力確率と呼ぶ。
適度に正確な基本確率を生成するには、話者が比較的
長いサンプル・テキスト、たとえば20分に及ぶものを発
声しなければならない。
長いサンプル・テキスト、たとえば20分に及ぶものを発
声しなければならない。
従来の手法では、話者は各自の音声について学習を実
行するためにそれぞれが20分のサンプル・テキストを発
声しなければならない。
行するためにそれぞれが20分のサンプル・テキストを発
声しなければならない。
話者ごとに20分の学習時間を要するのは、好ましくな
いしまた不便である。
いしまた不便である。
また、音声認識装置が基本確率を決定するのに20分の
学習テキストにつきフォワード・バックワード・アルゴ
リズムを実行するのに要するコンピューティング量は極
めて多大である。
学習テキストにつきフォワード・バックワード・アルゴ
リズムを実行するのに要するコンピューティング量は極
めて多大である。
したがって、話者依存型マルコフ・モデル音声認識に
おける深刻な問題は、話者が長時間テキストを読みあげ
なければならず、また話者ごとフル・テキストをフォワ
ード・バックワード・アルゴリズムで処理することによ
り計算コストが膨大になるということである。
おける深刻な問題は、話者が長時間テキストを読みあげ
なければならず、また話者ごとフル・テキストをフォワ
ード・バックワード・アルゴリズムで処理することによ
り計算コストが膨大になるということである。
米国特許出願06/845155号には、いくつかの遷移をグ
ループ化して共通の出力確率を用いることが示されてい
る。この場合学習用データの量は少なくなるけれど、依
然話者ごとに学習を行う必要があった。
ループ化して共通の出力確率を用いることが示されてい
る。この場合学習用データの量は少なくなるけれど、依
然話者ごとに学習を行う必要があった。
C.発明が解決しようとする問題点 この発明の目的は、標準話者向けに学習の施された音
声認識装置を後の話者向けに迅速に学習させることがで
きる装置を提供することにある。
声認識装置を後の話者向けに迅速に学習させることがで
きる装置を提供することにある。
すなわち、標準話者向けの遷移確率および出力確率が
決定されたのち、後の話者向けの学習統計値が決定され
る。この発明によれば、後の話者が学習用に発声する時
間が減少する。
決定されたのち、後の話者向けの学習統計値が決定され
る。この発明によれば、後の話者が学習用に発声する時
間が減少する。
また後の話者向けの遷移確率や出力確率を決定するの
に要する計算量も減少する。
に要する計算量も減少する。
D.問題点を解決するための手段 この発明では、以上の目的を達成するために、(a)
標準話者に対して音声認識装置を学習させる際に決定さ
れたデータと、(b)標準話者向けに生成されたデータ
および短かいサンプル・テキストを後の話者が発声する
際に生成されたデータの間の類似関係とを用いている。
標準話者データおよび類似関係データを採用する際の計
算量は、フル学習テキストの発声に応じて生成されるプ
ロトタイプ出力にフォワード・バックワード・アルゴリ
ズムを適用する場合に較べ極めて小さいものとなる。
標準話者に対して音声認識装置を学習させる際に決定さ
れたデータと、(b)標準話者向けに生成されたデータ
および短かいサンプル・テキストを後の話者が発声する
際に生成されたデータの間の類似関係とを用いている。
標準話者データおよび類似関係データを採用する際の計
算量は、フル学習テキストの発声に応じて生成されるプ
ロトタイプ出力にフォワード・バックワード・アルゴリ
ズムを適用する場合に較べ極めて小さいものとなる。
この発明では、後の話者の各々について状態iから状
態jへの遷移ごとに対応する遷移確率P(Aij)がある
ものと仮定する。この確率P(Aij)が計算目標であ
る。またラベルが生成される遷移ごとに多数のラベル出
力確率が割り当てられ、これが計算される。200個の個
有のラベルがあると、非空遷移ごとに通常200個のラベ
ル出力確率がある。したがって状態iから状態jへの遷
移の各々について(1)遷移確率P(Aij)があり、し
たがって(2)各非遷移にl番目のラベルを出力する確
率P(F2(l)|Aij)が存在する。ただしF2(l)は
後の話者のl番目のラベルを表わす。この発明では、状
態iから状態jへの遷移を複数の並行遷移として再構築
することによって膨大な確力P(F2(l)|Aij)を見
出すのに要するデータを減少させる。並行遷移の各々の
確率はつぎのようである。
態jへの遷移ごとに対応する遷移確率P(Aij)がある
ものと仮定する。この確率P(Aij)が計算目標であ
る。またラベルが生成される遷移ごとに多数のラベル出
力確率が割り当てられ、これが計算される。200個の個
有のラベルがあると、非空遷移ごとに通常200個のラベ
ル出力確率がある。したがって状態iから状態jへの遷
移の各々について(1)遷移確率P(Aij)があり、し
たがって(2)各非遷移にl番目のラベルを出力する確
率P(F2(l)|Aij)が存在する。ただしF2(l)は
後の話者のl番目のラベルを表わす。この発明では、状
態iから状態jへの遷移を複数の並行遷移として再構築
することによって膨大な確力P(F2(l)|Aij)を見
出すのに要するデータを減少させる。並行遷移の各々の
確率はつぎのようである。
P(F1(k)|Aij)P(F2(l)|F(k)) ただしkは標準話者のN個のラベルの1つを表わす。
kについて和を採ると、遷移Aijにおけるl番目のラベ
ルのラベル出力確率は である。
kについて和を採ると、遷移Aijにおけるl番目のラベ
ルのラベル出力確率は である。
上の式を調べると、P(F1(k)|Aij)の要素が先
行して決定された標準話者用データに対応することがわ
かる。またP(F2(l)|F1(k))の要素がコンフュ
ージョン・マトリックスに対応することがわかる。コン
フュージョン・マトリックスは標準話者のラベルと後の
話者ラベルとの間の関係を規定する。コンフュージョン
・マトリックスはN×Nのマトリックスである(たとえ
ば200個のラベルがある例では200×200)。各エントリ
は後の話者による発声されるラベルlがどのくらいの確
率で標準話者により発声されるラベルkに対応するかを
表わす。並行遷移によって拡張されたモデルでは、各遷
移の確率がP(F1(k)|Aij)に対応し、出力確率が
コンフュージョン・マトリックスの値P(F2(l)|F1
(k))に対応する。
行して決定された標準話者用データに対応することがわ
かる。またP(F2(l)|F1(k))の要素がコンフュ
ージョン・マトリックスに対応することがわかる。コン
フュージョン・マトリックスは標準話者のラベルと後の
話者ラベルとの間の関係を規定する。コンフュージョン
・マトリックスはN×Nのマトリックスである(たとえ
ば200個のラベルがある例では200×200)。各エントリ
は後の話者による発声されるラベルlがどのくらいの確
率で標準話者により発声されるラベルkに対応するかを
表わす。並行遷移によって拡張されたモデルでは、各遷
移の確率がP(F1(k)|Aij)に対応し、出力確率が
コンフュージョン・マトリックスの値P(F2(l)|F1
(k))に対応する。
コンフュージョン・マトリックスおよび他の情報か
ら、更新され再パラメータ化されたラベル出力確率が計
算される。更新再パラメータ化ずみラベル出力確率は削
除評価プロセッサにおいて初期化ラベル出力確率との間
で線形に平均化されスムーズな関係確率を生成する。基
本パラメータ・ラベル出力確率は通常のフォワード・バ
ックワード手法で決定され、スムーズな関係ラベル出力
確率との間で線形に平均化され最終的なラベル出力確率
が後の話者用に生成される。後の話者向けの最終版ラベ
ル出力確率はフル学習テキストのたったの1/3の発声で
生成することができる。しかもこの最終版ラベル出力確
率を用いたマルコフ・モデルで達成された精度はフル・
テキストの場合と同等であった。さらに最終ラベル出力
確率を計算する全コストはフル・テキストとくらべ極め
て少ないものであった。
ら、更新され再パラメータ化されたラベル出力確率が計
算される。更新再パラメータ化ずみラベル出力確率は削
除評価プロセッサにおいて初期化ラベル出力確率との間
で線形に平均化されスムーズな関係確率を生成する。基
本パラメータ・ラベル出力確率は通常のフォワード・バ
ックワード手法で決定され、スムーズな関係ラベル出力
確率との間で線形に平均化され最終的なラベル出力確率
が後の話者用に生成される。後の話者向けの最終版ラベ
ル出力確率はフル学習テキストのたったの1/3の発声で
生成することができる。しかもこの最終版ラベル出力確
率を用いたマルコフ・モデルで達成された精度はフル・
テキストの場合と同等であった。さらに最終ラベル出力
確率を計算する全コストはフル・テキストとくらべ極め
て少ないものであった。
E.実施例 E1.音声フォーン・マシーンの音声認識システム環境 第1図において、基本音声認識システム100は音響プ
ロセッサ102、スタック、デコーダ104、音響マッチ・プ
ロセッサ106および言語モデル・プロセッサ108を有して
いる。
ロセッサ102、スタック、デコーダ104、音響マッチ・プ
ロセッサ106および言語モデル・プロセッサ108を有して
いる。
簡単にいえば、音響プロセッサ102はいくつかの予め
定められた特徴に基づいて音声タイプのアルファベット
(集合)を定義する。各特徴は好ましくはエネルギ周波
数帯に応じた値に関連する。
定められた特徴に基づいて音声タイプのアルファベット
(集合)を定義する。各特徴は好ましくはエネルギ周波
数帯に応じた値に関連する。
すべての音声をスペクトラル空間として定義すると、
音声タイプはその空間中の領域を表わす。各音声タイプ
はその空間において固有の音のクラスタ(かたまり)を
覆う。その空間の各要素は上述予め定められた特徴の各
々に対応する。したがって各特徴につき値が付与される
と、空間におけるポイントすなわちベクトルが特定され
る。そして各ポインタすなわちベクトルがクラスタの1
つに含まれる。所定のポイントすなわちベクトルに適切
なクラスタを決定する便利な手法はプロトタイプを利用
することである。各クラスタあて代表プロトタイプ・ベ
クトルが定義される。どのクラスタ(音声タイプ)にポ
イントすなわちベクトルが属するかを決定するのに、そ
のポイントと各プロトタイプ・ベクトルとの間の距離が
既知の手法によって測定される。当該ポイントは最も近
いプロトタイプ・ベクトルを有する音声タイプに属する
ことになる。
音声タイプはその空間中の領域を表わす。各音声タイプ
はその空間において固有の音のクラスタ(かたまり)を
覆う。その空間の各要素は上述予め定められた特徴の各
々に対応する。したがって各特徴につき値が付与される
と、空間におけるポイントすなわちベクトルが特定され
る。そして各ポインタすなわちベクトルがクラスタの1
つに含まれる。所定のポイントすなわちベクトルに適切
なクラスタを決定する便利な手法はプロトタイプを利用
することである。各クラスタあて代表プロトタイプ・ベ
クトルが定義される。どのクラスタ(音声タイプ)にポ
イントすなわちベクトルが属するかを決定するのに、そ
のポイントと各プロトタイプ・ベクトルとの間の距離が
既知の手法によって測定される。当該ポイントは最も近
いプロトタイプ・ベクトルを有する音声タイプに属する
ことになる。
順次続く音声の時間間隔の各々について所定の複数の
特徴の値が組み合わされて「特徴ベクトル」を表わす。
各時間間隔ごとに、その時間間隔で発声された特徴ベク
トルをどの音声タイプが一番よく表現するかを決定す
る。好ましい例では、音響プロセッサ102は200個の異な
った音声タイプを定義し、音声タイプはそれぞれプロト
タイプ・ベクトルを有する。各音声タイプは対応する番
号の識別子すなわちラベルによる識別される。表1はラ
ベルAA11からZX3−を有する200個の音声タイプの好まし
いリストを含む。ラベルをそれによって表わされる音に
適合させることによって(AA1を“A"の音に、ZX3−を
“Z"の音に)、人間の理解が容易になるようにしてい
る。ラベルのもっとも一般的な体系は、200個のラベル
を単にL1からL200として識別する。
特徴の値が組み合わされて「特徴ベクトル」を表わす。
各時間間隔ごとに、その時間間隔で発声された特徴ベク
トルをどの音声タイプが一番よく表現するかを決定す
る。好ましい例では、音響プロセッサ102は200個の異な
った音声タイプを定義し、音声タイプはそれぞれプロト
タイプ・ベクトルを有する。各音声タイプは対応する番
号の識別子すなわちラベルによる識別される。表1はラ
ベルAA11からZX3−を有する200個の音声タイプの好まし
いリストを含む。ラベルをそれによって表わされる音に
適合させることによって(AA1を“A"の音に、ZX3−を
“Z"の音に)、人間の理解が容易になるようにしてい
る。ラベルのもっとも一般的な体系は、200個のラベル
を単にL1からL200として識別する。
音声波形の継続した間隔を処理する際に、音響プロセ
ッサ102はラベル・ストリングy1y2y3…yTを生成する。
このストリング中のラベルは200個のラベルからなるア
ルファベットから選ばれる。この選択は所定の間隔tに
ついてどの音声タイプが最も近いかによって決まる。
ッサ102はラベル・ストリングy1y2y3…yTを生成する。
このストリング中のラベルは200個のラベルからなるア
ルファベットから選ばれる。この選択は所定の間隔tに
ついてどの音声タイプが最も近いかによって決まる。
先行技術は、音声を音声タイプにクラスタリングし、
これら音声タイプをプロトタイプで表わし、さらに継続
する時間間隔の各々につき最も近いプロトタイプを選択
する手法を種々開示している。
これら音声タイプをプロトタイプで表わし、さらに継続
する時間間隔の各々につき最も近いプロトタイプを選択
する手法を種々開示している。
音響プロセッサ102によって生成されたラベル・スト
リングはスタック・デコーダ104および音響マッチ・プ
ロセッサ106に入力される。スタック・デコーダ104の役
割はどの単語のパスが入力ラベル・ストリングにふさわ
しいかを、音響マッチおよび言語モデル入力に基づいて
決定することである。具体的には、収集した多くの単語
が予め検査され、3単語列(トリグラム)、2単語列
(バイグラム)のそれぞれの頻度が単一単語(ユニグラ
ム)の頻度と同様に求められている。トリグラム、バイ
グラムおよびユニグラムのデータに基づいて、言語モデ
ル・プロセッサ104が、先行の2つの単語に続く具体的
な単語のゆう度に関するデータをスタック・デコーダ10
4に入力する。
リングはスタック・デコーダ104および音響マッチ・プ
ロセッサ106に入力される。スタック・デコーダ104の役
割はどの単語のパスが入力ラベル・ストリングにふさわ
しいかを、音響マッチおよび言語モデル入力に基づいて
決定することである。具体的には、収集した多くの単語
が予め検査され、3単語列(トリグラム)、2単語列
(バイグラム)のそれぞれの頻度が単一単語(ユニグラ
ム)の頻度と同様に求められている。トリグラム、バイ
グラムおよびユニグラムのデータに基づいて、言語モデ
ル・プロセッサ104が、先行の2つの単語に続く具体的
な単語のゆう度に関するデータをスタック・デコーダ10
4に入力する。
スタック・デコーダ104への他の入力は、音響マッチ
・プロセッサ106からのものである。音響マッチ・プロ
セッサ106は語彙中の各単語に対する音響マッチ・スコ
アを生成する。音響マッチ・スコアはフォーン・マシー
ンとして実現されているマルコフ・モデルに基づいて決
定される。マルコフ・モデル120の構造は第2図に示す
ようなものである。第2図のマルコフ・モデル120は、
音声要素に対応するので、音声モデルである。音声要素
(たとえば国際音声アルファベット中の要素)は周知で
あり、広く使用されている。
・プロセッサ106からのものである。音響マッチ・プロ
セッサ106は語彙中の各単語に対する音響マッチ・スコ
アを生成する。音響マッチ・スコアはフォーン・マシー
ンとして実現されているマルコフ・モデルに基づいて決
定される。マルコフ・モデル120の構造は第2図に示す
ようなものである。第2図のマルコフ・モデル120は、
音声要素に対応するので、音声モデルである。音声要素
(たとえば国際音声アルファベット中の要素)は周知で
あり、広く使用されている。
第2図の音声マルコフ・モデル120は複数の状態およ
び遷移として表わされ、各遷移はある状態からある状態
へ伸びている。各遷移は、音響プロセッサ102(第1
図)が1個のラベルを生成する1時間間隔に対応すると
考えることができる。継続した時間間隔において、遷移
に沿って音声が状態から状態へと通過していく際にその
音声が生成されると考えることができる。
び遷移として表わされ、各遷移はある状態からある状態
へ伸びている。各遷移は、音響プロセッサ102(第1
図)が1個のラベルを生成する1時間間隔に対応すると
考えることができる。継続した時間間隔において、遷移
に沿って音声が状態から状態へと通過していく際にその
音声が生成されると考えることができる。
音声マルコフ・モデル120は7個の状態S1〜S7および1
3個の遷移を有する。初期状態S1からは3個の実現可能
のパスが出ている。第1のパスは遷移tr1を介して状態S
4に伸びている。第2のパスは遷移tr8を介して状態S2に
伸びている。第3のパスは遷移tr11を介して最終状態S7
に伸びている。状態S2は遷移tr9またはtr11を介して状
態S3またはS7に続いている。状態S3は遷移tr10又はtr13
を介して状態S7に続いている。遷移tr11、tr12およびtr
13は破線で示されており、これは「空遷移」を示す。空
遷移はラベルを出力することなしに状態を変えることに
対応する。
3個の遷移を有する。初期状態S1からは3個の実現可能
のパスが出ている。第1のパスは遷移tr1を介して状態S
4に伸びている。第2のパスは遷移tr8を介して状態S2に
伸びている。第3のパスは遷移tr11を介して最終状態S7
に伸びている。状態S2は遷移tr9またはtr11を介して状
態S3またはS7に続いている。状態S3は遷移tr10又はtr13
を介して状態S7に続いている。遷移tr11、tr12およびtr
13は破線で示されており、これは「空遷移」を示す。空
遷移はラベルを出力することなしに状態を変えることに
対応する。
状態S4、S5およびS6は次の状態へと伸びる第1の遷移
と、元の状態に戻る自己回帰の第2の遷移とを有してい
る。自己回帰では、新しい状態に移行することなしに、
継続する時間間隔だけ順次にラベルを出力できる。
と、元の状態に戻る自己回帰の第2の遷移とを有してい
る。自己回帰では、新しい状態に移行することなしに、
継続する時間間隔だけ順次にラベルを出力できる。
空遷移と自己回帰遷移は打2図のマルコフ・モデルに
自由度を与え、種々の変化に対応することができるよう
にする。この変化は異なった時間や環境で発声する場合
によく起こる。
自由度を与え、種々の変化に対応することができるよう
にする。この変化は異なった時間や環境で発声する場合
によく起こる。
好ましい例では、発声環境において各音声要素がそれ
ぞれマルコフ・モデルで表わされる。単語は継続する音
声要素のマルコフ・モデルを結合することによって単語
ベースフォームとして表わされる。第3図において、単
語“THE"の1つの形は音声学上“DH-UH1"と記述され
る。DHの発声マルコフ・モデルにUH1の音声マルコフ・
モデルが続く。したがって単語“THE"は2つのマルコフ
・モデルの系列として表わされる。
ぞれマルコフ・モデルで表わされる。単語は継続する音
声要素のマルコフ・モデルを結合することによって単語
ベースフォームとして表わされる。第3図において、単
語“THE"の1つの形は音声学上“DH-UH1"と記述され
る。DHの発声マルコフ・モデルにUH1の音声マルコフ・
モデルが続く。したがって単語“THE"は2つのマルコフ
・モデルの系列として表わされる。
音声マルコフ・モデルは類似の一般的構造(たとえば
7個の状態と13個の状態の遷移からなる)を有するもの
として表わされている。しかし、マルコフ・モデル120
について再言するならば、遷移tr1〜tr13は各モデルに
固有の確率を有し、かつ各空遷移はラベルごとに出力確
率を付与されることがわかる。各遷移tr1〜tr13につい
て、200個の確率がある。すなわちラベルL1(アルファ
ベット中の第1のラベル)が所定の遷移で生成されるゆ
う度を示す1個の確率、ラベルL2(アルファベット中の
第2のラベル)がその遷移で生成されるゆう度を示す1
個の確率、………、およびラベルL200(アルファベット
中の第200番目ラベル)がその遷移で生成されるゆう度
を示す1個の確率である。これは第2図においてつぎの
ように示される。
7個の状態と13個の状態の遷移からなる)を有するもの
として表わされている。しかし、マルコフ・モデル120
について再言するならば、遷移tr1〜tr13は各モデルに
固有の確率を有し、かつ各空遷移はラベルごとに出力確
率を付与されることがわかる。各遷移tr1〜tr13につい
て、200個の確率がある。すなわちラベルL1(アルファ
ベット中の第1のラベル)が所定の遷移で生成されるゆ
う度を示す1個の確率、ラベルL2(アルファベット中の
第2のラベル)がその遷移で生成されるゆう度を示す1
個の確率、………、およびラベルL200(アルファベット
中の第200番目ラベル)がその遷移で生成されるゆう度
を示す1個の確率である。これは第2図においてつぎの
ように示される。
80個の音声要素があれば、80個の異なるマルコフ・モ
デルからなる対応する集合が存在する(所定の1人の話
者ごとに)。その集合中の各マルコフ・モデルは固有の
遷移確率およびラベル出力確率を有する。この確率は学
習期間(のちに詳述する)に決定され、音響マッチ・プ
ロセッサ106中のメモリにストアされる(第1図)。確
率および他の関連データをストアしているマルコフ・モ
デルの構成を「フォーン・マシーン」と呼ぶ。
デルからなる対応する集合が存在する(所定の1人の話
者ごとに)。その集合中の各マルコフ・モデルは固有の
遷移確率およびラベル出力確率を有する。この確率は学
習期間(のちに詳述する)に決定され、音響マッチ・プ
ロセッサ106中のメモリにストアされる(第1図)。確
率および他の関連データをストアしているマルコフ・モ
デルの構成を「フォーン・マシーン」と呼ぶ。
フォーン・マシーンの確率をストアする簡易な手法が
第4図に示されている。音声要素DHのフォーン・マシー
ンが集合中の第3番目のフォーン・マシーンとすると、
DHフォーン・マシーンの13個の遷移の各々の確率はp
3〔tri〕(ただし1≦i≦13)で特定されるメモリ・ロ
ケーションにストアされる。各空遷移のラベル出力確率
はp3〔1〕〜p3〔200〕で特定されるロケーションにス
トアされる。
第4図に示されている。音声要素DHのフォーン・マシー
ンが集合中の第3番目のフォーン・マシーンとすると、
DHフォーン・マシーンの13個の遷移の各々の確率はp
3〔tri〕(ただし1≦i≦13)で特定されるメモリ・ロ
ケーションにストアされる。各空遷移のラベル出力確率
はp3〔1〕〜p3〔200〕で特定されるロケーションにス
トアされる。
UH1に対応するフォーン・マシーンについても同様な
記憶がなされる。UH1が集合中の75番目のフォーン・マ
シーンに対応するならば、UH1の確率にはすべてサフィ
ックス75が付される。
記憶がなされる。UH1が集合中の75番目のフォーン・マ
シーンに対応するならば、UH1の確率にはすべてサフィ
ックス75が付される。
第2図のようなマルコフ・モデルに80個の音声フォー
ン・マシーンがあると、通常つぎのような確率が決定さ
れてストアされる。
ン・マシーンがあると、通常つぎのような確率が決定さ
れてストアされる。
したがって全体で160000+1040=161040個の確率があ
り、これらが求められる。
り、これらが求められる。
全確率を生成するのに要する時間や、それらをストア
する領域を減少させるために、いくつかの手法が実現さ
れている。1つの手法によれば、各フォーン・マシーン
の非空遷移が3つの部分にグルーピングできると仮定す
る。第1の部分は遷移1、2および8を含む。第2の部
分は遷移3、4、5および9を含む。そして第3の部分
は遷移6、7および10を含む。また各遷移はそれぞれの
確率を保持するけれど、1の部分中の種々の遷移のラベ
ル出力確率は同一と仮定する。すなわち、遷移1、2お
よび8に関しては、単一の共通ラベル出力確率分布が存
在する。同様に、第2の部分および第3の部分について
もそれぞれ共通のラベル出力確率分布が存在する。
する領域を減少させるために、いくつかの手法が実現さ
れている。1つの手法によれば、各フォーン・マシーン
の非空遷移が3つの部分にグルーピングできると仮定す
る。第1の部分は遷移1、2および8を含む。第2の部
分は遷移3、4、5および9を含む。そして第3の部分
は遷移6、7および10を含む。また各遷移はそれぞれの
確率を保持するけれど、1の部分中の種々の遷移のラベ
ル出力確率は同一と仮定する。すなわち、遷移1、2お
よび8に関しては、単一の共通ラベル出力確率分布が存
在する。同様に、第2の部分および第3の部分について
もそれぞれ共通のラベル出力確率分布が存在する。
表2は上述の手法によるDHフォーンのストア状態を示
す。表2において、ノードが状態番号に符号する。アー
クは2つのノード間の遷移に対応する。カウントは学習
によって決定された値である。プロブ(PROB)は対応す
る遷移の確率値である。AA11からZX3−までの各ラベル
出力の各々について3個のカウントが与えられている。
表2は所定のスレッションド(たとえば0.01)を超える
カウント値を有するAE13からXX23間でのラベル出力を示
している。この表は理解を容易にするために凝縮されて
いるけれども、実際のシステムにストアされている表は
200個のラベルの各々に3つのカウント・エントリを有
することに留意されたい。第1列のカウントは、フォー
ン・マシーンの第1の部分に対応する遷移で生成された
カウントに符号する。第2列のカウントは第2の部分の
カウントに、第3列のカウントは第3の部分のカウント
にそれぞれ符号する。各非空遷移は対応する列番号4、
5または6に割り当てられていることにも留意された
い。たとえば遷移1→2は列4に、遷移6→6は列6に
割り当てられている。
す。表2において、ノードが状態番号に符号する。アー
クは2つのノード間の遷移に対応する。カウントは学習
によって決定された値である。プロブ(PROB)は対応す
る遷移の確率値である。AA11からZX3−までの各ラベル
出力の各々について3個のカウントが与えられている。
表2は所定のスレッションド(たとえば0.01)を超える
カウント値を有するAE13からXX23間でのラベル出力を示
している。この表は理解を容易にするために凝縮されて
いるけれども、実際のシステムにストアされている表は
200個のラベルの各々に3つのカウント・エントリを有
することに留意されたい。第1列のカウントは、フォー
ン・マシーンの第1の部分に対応する遷移で生成された
カウントに符号する。第2列のカウントは第2の部分の
カウントに、第3列のカウントは第3の部分のカウント
にそれぞれ符号する。各非空遷移は対応する列番号4、
5または6に割り当てられていることにも留意された
い。たとえば遷移1→2は列4に、遷移6→6は列6に
割り当てられている。
フォーン・マシーンのもう1つのメモリ構成が第4図
および第5図に示されている。第4図において、1個の
フォーン・マシーンがその番号ラベル3(たとえばDHの
音声要素のフォーン・マシーン)によって特定される。
メモリ中にフォーン・マシーンの状態の数がストアされ
る。また各状態ごとにアーク(すなわち遷移)の数がス
トアされる。また各アークごとに宛先状態が示され、ア
ーク型が特定される。表2と同様に、各フォーン・マシ
ーンがそれに関連する3つのラベル出力確率分布を有す
る。すなわちフォーン・マシーンの第1の部分、第2の
部分および第3の部分のそれぞれのラベル出力確率分布
である。80個のフォーン・マシーンに対して、240個の
ラベル出力分布がある。第5図において、マトリックス
状に240個のラベル出力確率分布がストアされている。
マトリックスの各列はラベル出力確率分布(200個のラ
ベルにわたる)を表わし、各々が別異のアーク型に対応
する。第4図においてアーク型項目は第5図のマトリッ
クスの列の1つを指示する。
および第5図に示されている。第4図において、1個の
フォーン・マシーンがその番号ラベル3(たとえばDHの
音声要素のフォーン・マシーン)によって特定される。
メモリ中にフォーン・マシーンの状態の数がストアされ
る。また各状態ごとにアーク(すなわち遷移)の数がス
トアされる。また各アークごとに宛先状態が示され、ア
ーク型が特定される。表2と同様に、各フォーン・マシ
ーンがそれに関連する3つのラベル出力確率分布を有す
る。すなわちフォーン・マシーンの第1の部分、第2の
部分および第3の部分のそれぞれのラベル出力確率分布
である。80個のフォーン・マシーンに対して、240個の
ラベル出力分布がある。第5図において、マトリックス
状に240個のラベル出力確率分布がストアされている。
マトリックスの各列はラベル出力確率分布(200個のラ
ベルにわたる)を表わし、各々が別異のアーク型に対応
する。第4図においてアーク型項目は第5図のマトリッ
クスの列の1つを指示する。
各フォーン・マシーンについて確率がストアされ、フ
ォーン・マシーンの所定の系列で語彙中の単語を表わ
し、この結果音響マッチ・プロセッサ106は単語がラベ
ル(音声タイプ)の1のストリングであるゆう度を決定
できる。すなわちラベル・ストリングが与えられると音
響マッチ・プロセッサ106は第1の単語に含まれるフォ
ーン・マシーンを調べ、これらフォーン・マシーンがそ
のストリング中の継続したラベルを生成するゆう度を決
定する。簡単にいえば、単語を構成するフォーン・マシ
ーンを介してラベル・ストリングが沿うことができる種
々のパスを追い、かつ適切に確率を適用することによっ
て音響マッチ・スコアを計算する。
ォーン・マシーンの所定の系列で語彙中の単語を表わ
し、この結果音響マッチ・プロセッサ106は単語がラベ
ル(音声タイプ)の1のストリングであるゆう度を決定
できる。すなわちラベル・ストリングが与えられると音
響マッチ・プロセッサ106は第1の単語に含まれるフォ
ーン・マシーンを調べ、これらフォーン・マシーンがそ
のストリング中の継続したラベルを生成するゆう度を決
定する。簡単にいえば、単語を構成するフォーン・マシ
ーンを介してラベル・ストリングが沿うことができる種
々のパスを追い、かつ適切に確率を適用することによっ
て音響マッチ・スコアを計算する。
短かい例を挙げよう。第1図の音響プロセッサ102が
ラベルL200-L199-L15-L14−…を生成するとする。音響
マッチ・プロセッサ106(第1図)による“THE"に対す
る音響マッチ・スコアの計算はつぎのように進む。最初
の時間間隔では、ラベルL200が音響プロセッサ102によ
って生成される。2つの初期ブランチが考えられる。第
1のブランチでは、遷移tr1に沿ってラベルL200が生成
される。また第2のブランチでは遷移tr8に沿ってラベ
ルL200が生成される。音響マッチ・プロセッサ106は音
声要素DHのフォーン・マシーンを調べて(1)遷移tr1
を採る確率、および(2)遷移tr1で(フォーン・マシ
ーンの第1の部分において)ラベルL200を生成する確率
を求める。tr1の確率が0.5で、L200のラベル出力確率が
0.001であれば、第1のパスを通りL200を出力するゆう
度は0.0005(=0.5×0.001)である。
ラベルL200-L199-L15-L14−…を生成するとする。音響
マッチ・プロセッサ106(第1図)による“THE"に対す
る音響マッチ・スコアの計算はつぎのように進む。最初
の時間間隔では、ラベルL200が音響プロセッサ102によ
って生成される。2つの初期ブランチが考えられる。第
1のブランチでは、遷移tr1に沿ってラベルL200が生成
される。また第2のブランチでは遷移tr8に沿ってラベ
ルL200が生成される。音響マッチ・プロセッサ106は音
声要素DHのフォーン・マシーンを調べて(1)遷移tr1
を採る確率、および(2)遷移tr1で(フォーン・マシ
ーンの第1の部分において)ラベルL200を生成する確率
を求める。tr1の確率が0.5で、L200のラベル出力確率が
0.001であれば、第1のパスを通りL200を出力するゆう
度は0.0005(=0.5×0.001)である。
状態4に致着したのち、ラベルL199を生成するパスは
2つある。1つのパスは自己回帰の遷移tr2に沿ってラ
ベルL199を生成するものである。他のパスは状態S5への
遷移tr3を介してラベルL199を生成するものである。DH
のフォーン・マシーンで遷移tr2を通る確率を0.3とし、
遷移tr3を通る確率を0.7としよう。またDHのフォーン・
マシーンで遷移tr2でラベルL199を生成する確率を0.025
とし、同様の遷移tr3での確率を0.004としよう。すると
遷移tr2に沿ってラベルL199を生成する確率は0.0075
(=0.3×0.025)である。遷移tr3に沿ってラベルL199
を生成する確率は0.0028(=0.7×0.004)である。遷移
tr1およびtr2を順次通りラベルL200、L199を生成するゆ
う度は0.005×0.0075であり、遷移tr1およびtr3を順次
通りラベルL200、L199を生成するゆう度は0.005×0.002
8である。したがって遷移tr1でラベルL200を生成し、そ
のうち遷移tr2またはtr3でラベルL199を生成する結合確
率は PROBI=(0.0005)(0.0075) +(0.0005)(0.0028)= 0.00000515 となる。
2つある。1つのパスは自己回帰の遷移tr2に沿ってラ
ベルL199を生成するものである。他のパスは状態S5への
遷移tr3を介してラベルL199を生成するものである。DH
のフォーン・マシーンで遷移tr2を通る確率を0.3とし、
遷移tr3を通る確率を0.7としよう。またDHのフォーン・
マシーンで遷移tr2でラベルL199を生成する確率を0.025
とし、同様の遷移tr3での確率を0.004としよう。すると
遷移tr2に沿ってラベルL199を生成する確率は0.0075
(=0.3×0.025)である。遷移tr3に沿ってラベルL199
を生成する確率は0.0028(=0.7×0.004)である。遷移
tr1およびtr2を順次通りラベルL200、L199を生成するゆ
う度は0.005×0.0075であり、遷移tr1およびtr3を順次
通りラベルL200、L199を生成するゆう度は0.005×0.002
8である。したがって遷移tr1でラベルL200を生成し、そ
のうち遷移tr2またはtr3でラベルL199を生成する結合確
率は PROBI=(0.0005)(0.0075) +(0.0005)(0.0028)= 0.00000515 となる。
状態S1から遷移tr8を介して伸びる第2のブランチに
関して、音響マッチ・プロセッサ106(第1図)は遷移t
r8を沿う確率および遷移tr8ラベルL200を生成する確率
を受け取る。p(tr8)×p8〔200〕の積を求めると遷移
tr8を通ってラベルL200を生成する確率が得られる。DH
フォーン・マシーンが状態S2でラベルL199を生成するな
ら、遷移tr9に沿らなくてはならない。このときの関連
確率はp(tr9)×p9〔199〕である。したがって、遷移
tr8およびtr9に順に沿ってラベルL200、L199を生成する
確率はPROBII={p(tr8)×p8〔200〕}{p(tr9)
×p9〔199〕}である。
関して、音響マッチ・プロセッサ106(第1図)は遷移t
r8を沿う確率および遷移tr8ラベルL200を生成する確率
を受け取る。p(tr8)×p8〔200〕の積を求めると遷移
tr8を通ってラベルL200を生成する確率が得られる。DH
フォーン・マシーンが状態S2でラベルL199を生成するな
ら、遷移tr9に沿らなくてはならない。このときの関連
確率はp(tr9)×p9〔199〕である。したがって、遷移
tr8およびtr9に順に沿ってラベルL200、L199を生成する
確率はPROBII={p(tr8)×p8〔200〕}{p(tr9)
×p9〔199〕}である。
したがってDHのフォーン・マシーンがラベルL200-L19
9を生成する確率はPROB=PROBI+PROBIIである。
9を生成する確率はPROB=PROBI+PROBIIである。
ラベルL200およびL199に続くラベルについてさらに計
算が実行され、種々のブランチに計算が及んでいくこと
になる。
算が実行され、種々のブランチに計算が及んでいくこと
になる。
この点で、第3図のDHフォーン・マシーンが通過され
て、多くのラベルが生成されることがわかる。空遷移tr
11に沿ってDHフォーン・マシーンは実際何らラベルを出
力することがない。この場合、空遷移tr11を沿う確率が
計算に導入され、UH1フォーン・マシーンについてラベ
ル・ストリングを生成する確率が続けられる。
て、多くのラベルが生成されることがわかる。空遷移tr
11に沿ってDHフォーン・マシーンは実際何らラベルを出
力することがない。この場合、空遷移tr11を沿う確率が
計算に導入され、UH1フォーン・マシーンについてラベ
ル・ストリングを生成する確率が続けられる。
ラベル・ストリングを分割する手法として単語に基づ
くものと、フォーン・マシーンに基づくものとが種々知
られている。単語に基づく手法では、単語が識別用ポー
ズをいれて発声され、システムが検出サイレンスの時間
間隔に基づいて各単語に対応するサブ・ラベル・ストリ
ングを検出できるようになっている。音声フォーン・マ
シーンを用い、100分の1秒の時間間隔で音響プロセッ
サ102がラベルを発声する場合では、典型的には単語あ
たり80から100個のラベルがある。このような離散単語
音声では順次発声される単語の各々に対応するラベルが
特定される。
くものと、フォーン・マシーンに基づくものとが種々知
られている。単語に基づく手法では、単語が識別用ポー
ズをいれて発声され、システムが検出サイレンスの時間
間隔に基づいて各単語に対応するサブ・ラベル・ストリ
ングを検出できるようになっている。音声フォーン・マ
シーンを用い、100分の1秒の時間間隔で音響プロセッ
サ102がラベルを発声する場合では、典型的には単語あ
たり80から100個のラベルがある。このような離散単語
音声では順次発声される単語の各々に対応するラベルが
特定される。
上述の米国特許出願第06/845155号では、音声フォー
ン・マシーンの終了時の確率分布が決定される。したが
って順次続くフォーン・マシーンの1つに対するラベル
は確率に基づいて決定される。
ン・マシーンの終了時の確率分布が決定される。したが
って順次続くフォーン・マシーンの1つに対するラベル
は確率に基づいて決定される。
語彙中の単語は順次選択されて音響マッチ・スコアが
計算される。各単語についてフォーン・マシーンの系列
および確率が検索される。特定されたラベルがフォーン
・マシーンの系列を通って続くことができる実現可能な
パスが上述のように決定され、確率が計算される。
計算される。各単語についてフォーン・マシーンの系列
および確率が検索される。特定されたラベルがフォーン
・マシーンの系列を通って続くことができる実現可能な
パスが上述のように決定され、確率が計算される。
この手法は詳細音響マッチと呼ばれ先の米国特許出願
第06/845155号に説明されている。
第06/845155号に説明されている。
E2.フィーニーム・フォーン・マシーンの音声認識 音声フォーン・マシーンに代わるものとして「フィー
ニーム」フォーン・マシーンを採用して単語ベース・フ
ォームを構築してもよい。フィーニームはフロント・エ
ンド(Front End)から取り出される微小音素というこ
とから(FEneme)名付けられている。
ニーム」フォーン・マシーンを採用して単語ベース・フ
ォームを構築してもよい。フィーニームはフロント・エ
ンド(Front End)から取り出される微小音素というこ
とから(FEneme)名付けられている。
フィーニームは簡単にいえばラベルのことである。フ
ィーニーム・フォーン・マシーンはフィーニームすなわ
ちラベルに対応するフォーン・マシーンである。ラベル
・アルファベット中には200個の別異のラベルがあるか
ら、200個のフィーニーム・フォーン・マシーンがある
ことになる。
ィーニーム・フォーン・マシーンはフィーニームすなわ
ちラベルに対応するフォーン・マシーンである。ラベル
・アルファベット中には200個の別異のラベルがあるか
ら、200個のフィーニーム・フォーン・マシーンがある
ことになる。
各フィーニーム・フォーン・マシーンは第6図に示す
ような構成160を有している。フィーニーム・フォーム
・マシーンは2個の状態S1およびS2を有する。状態S1と
S2との間には空遷移と非空遷移とがある。状態S1におい
て自己帰還の非空遷移がある。各遷移は学習時に決定さ
れる確率をそれぞれ有する。各非空遷移は各ラベル出力
に対する確率を有する。たとえば、フィーニーム・フォ
ーン・マシーンAA11の自己帰還遷移はp(trs)の遷移
確率を有し、また各ラベルを生成する確率を有する。こ
の各ラベルを生成する確率はつぎのように表わされる。
ような構成160を有している。フィーニーム・フォーム
・マシーンは2個の状態S1およびS2を有する。状態S1と
S2との間には空遷移と非空遷移とがある。状態S1におい
て自己帰還の非空遷移がある。各遷移は学習時に決定さ
れる確率をそれぞれ有する。各非空遷移は各ラベル出力
に対する確率を有する。たとえば、フィーニーム・フォ
ーン・マシーンAA11の自己帰還遷移はp(trs)の遷移
確率を有し、また各ラベルを生成する確率を有する。こ
の各ラベルを生成する確率はつぎのように表わされる。
AA11のフィーニーム・マシーンに関しては音声タイプ
AA11を生成する確率が大きいであろう。しかし発声時間
の違いによって、AA11のフォーン・マシーンの遷移時に
他のラベルを生成する確率もあることはある。
AA11を生成する確率が大きいであろう。しかし発声時間
の違いによって、AA11のフォーン・マシーンの遷移時に
他のラベルを生成する確率もあることはある。
音声フォーンの場合と同じく、単語ベース・フォーム
は、フィーニーム・フォーン・マシーンの対応する系列
によって構築される。ラベルが100分の1秒ごとに生成
される場合には、通常1個の単語あたり80〜100個のオ
ーダーのフィーニーム・フォーン・マシーンが存在す
る。
は、フィーニーム・フォーン・マシーンの対応する系列
によって構築される。ラベルが100分の1秒ごとに生成
される場合には、通常1個の単語あたり80〜100個のオ
ーダーのフィーニーム・フォーン・マシーンが存在す
る。
継続するフィーニームまたは音声のフォーン・マシー
ンからなるすべてのパスを記述する便利な手法はトレリ
スを利用するものである。フィーニーム・フォーン・マ
シーンのトレリスが第7図に示されている。音響プロセ
ッサ102(第1図)で生成された所定のラベル・ストリ
ングについて、トレリスの種々のパスを通ることができ
る。左上すなわち時刻t1、状態S1から出発すると、最初
フィニーム・フォーンは空遷移(破線)を真下に状態S2
への沿うことによって飛び超されるかもしれない。状態
S2は第2のフィーニーム・フォーン・マシーンの初期状
態を示す。また時刻t1、状態S1から自己帰還ループを沿
ってラベル出力を行うかもしれない。これは状態S1から
状態S1へと戻る水平方向の移動である。最後に、状態S1
から時刻t2に状態S2へと移行してラベルを出力する場合
がある。フィーニーム・フォーンでは、トレリスの各点
は類似の代替パスを与える。
ンからなるすべてのパスを記述する便利な手法はトレリ
スを利用するものである。フィーニーム・フォーン・マ
シーンのトレリスが第7図に示されている。音響プロセ
ッサ102(第1図)で生成された所定のラベル・ストリ
ングについて、トレリスの種々のパスを通ることができ
る。左上すなわち時刻t1、状態S1から出発すると、最初
フィニーム・フォーンは空遷移(破線)を真下に状態S2
への沿うことによって飛び超されるかもしれない。状態
S2は第2のフィーニーム・フォーン・マシーンの初期状
態を示す。また時刻t1、状態S1から自己帰還ループを沿
ってラベル出力を行うかもしれない。これは状態S1から
状態S1へと戻る水平方向の移動である。最後に、状態S1
から時刻t2に状態S2へと移行してラベルを出力する場合
がある。フィーニーム・フォーンでは、トレリスの各点
は類似の代替パスを与える。
さらに第7図を参照しよう。第7図において、トレリ
スが1のラベル・ストリングに対して膨大な数の実現可
能なルートを与えることがわかる。たとえば時刻t1、状
態S1と時刻t3、状態S3との間に2つのラベルが出力され
たとすると、13個のルートが可能である。たとえば第1
のルートは状態S1で2回の自己帰還があったのち時刻t3
で2回の空遷移が有るものである。第2のルートは状態
S1で1回の自己帰還があったのち時刻t3で状態S2に遷移
し、さらに時刻t3で1回の空遷移があるものである。第
3のルートは状態S1で1回自己帰還があったのち、状態
S2への空遷移があり、こののち状態S2で1回自己帰還が
あり、つぎに状態S3への空遷移があるものである。以下
同様である。
スが1のラベル・ストリングに対して膨大な数の実現可
能なルートを与えることがわかる。たとえば時刻t1、状
態S1と時刻t3、状態S3との間に2つのラベルが出力され
たとすると、13個のルートが可能である。たとえば第1
のルートは状態S1で2回の自己帰還があったのち時刻t3
で2回の空遷移が有るものである。第2のルートは状態
S1で1回の自己帰還があったのち時刻t3で状態S2に遷移
し、さらに時刻t3で1回の空遷移があるものである。第
3のルートは状態S1で1回自己帰還があったのち、状態
S2への空遷移があり、こののち状態S2で1回自己帰還が
あり、つぎに状態S3への空遷移があるものである。以下
同様である。
好ましい例では計算はトレリスの各ノード(状態時刻
で決まるポイント)の確率を繰り返し計算することによ
って行われる。この点は先のF.Jelinekの論文“Continu
ous Speech Recognition Statistical Methods"に評述
されている。
で決まるポイント)の確率を繰り返し計算することによ
って行われる。この点は先のF.Jelinekの論文“Continu
ous Speech Recognition Statistical Methods"に評述
されている。
フィーニーム単語ベース・フォームを構築する手法に
ついては米国特許出願第06/697174号に記載されてい
る。
ついては米国特許出願第06/697174号に記載されてい
る。
音声フォーン・マシーンを使うにしろ、フィーニーム
・フォーン・マシーンを使うにしろ、単語ベースフォー
ムに対する音響マッチ・スコアは少なくともいくつかの
語彙単語に関して計算される。そして最も高いスコアを
持つ単語が認識対象発声単語のよりそれらしい候補とし
て選ばれる。
・フォーン・マシーンを使うにしろ、単語ベースフォー
ムに対する音響マッチ・スコアは少なくともいくつかの
語彙単語に関して計算される。そして最も高いスコアを
持つ単語が認識対象発声単語のよりそれらしい候補とし
て選ばれる。
E3.フォーン・マシーンの学習 今までフォーン・マシーンに基づく(たとえば音声フ
ォーン・マシーンやフィーニーム・フォーン・マシー
ン)認識装置の動作について説明してきたが、それはす
でに学習の実行されたものであった。この発明は学習に
関するものであり、以下説明する。具体的には標準話者
についての学習に続けて後の話者に対するラベル出力確
率を決定する装置および方法について説明する。
ォーン・マシーンやフィーニーム・フォーン・マシー
ン)認識装置の動作について説明してきたが、それはす
でに学習の実行されたものであった。この発明は学習に
関するものであり、以下説明する。具体的には標準話者
についての学習に続けて後の話者に対するラベル出力確
率を決定する装置および方法について説明する。
第8図はこの発明にしたがってフォーン・マシーンを
学習する装置200を全体として示す。この図において、
学習テキストの入力音声はラベル発生器202に入力され
る。ラベル発生器202は、1個時間間隔の発声を順次調
べ、その音声に関する種々の特徴の値を決定する。特徴
の各々は特徴ベクトルの各要素に対応する。各時間間隔
ごとに、特徴ベクトルが生成される。
学習する装置200を全体として示す。この図において、
学習テキストの入力音声はラベル発生器202に入力され
る。ラベル発生器202は、1個時間間隔の発声を順次調
べ、その音声に関する種々の特徴の値を決定する。特徴
の各々は特徴ベクトルの各要素に対応する。各時間間隔
ごとに、特徴ベクトルが生成される。
個有のプロトタイプ・ベクトル・アルファベットが各
話者ごとに特定される。各話者のプロトタイプ・ベクト
ル・アルファベットはプロトタイプ・ストレージ204に
ストアされる。継続する時間間隔の継続する特徴ベクト
ルに対して、最も近いプロトタイプ・ベクトルが決定さ
れる。そしてこの最も近いプロトタイプ・ベクトルのラ
ベルがその時間間隔に割り当てられる。こうして継続し
た時間間隔についてラベル・ストリングが生成される。
話者ごとに特定される。各話者のプロトタイプ・ベクト
ル・アルファベットはプロトタイプ・ストレージ204に
ストアされる。継続する時間間隔の継続する特徴ベクト
ルに対して、最も近いプロトタイプ・ベクトルが決定さ
れる。そしてこの最も近いプロトタイプ・ベクトルのラ
ベルがその時間間隔に割り当てられる。こうして継続し
た時間間隔についてラベル・ストリングが生成される。
第1図を参照するとラベル発生器202およびプロトタ
イプ・ストレージ204が音響プロセッサ102に対応するこ
とがわかる。
イプ・ストレージ204が音響プロセッサ102に対応するこ
とがわかる。
第8図に戻る。第8図において確率初期化部206が示
されている。この確率初期化部206の目的は初期確率値
を与えることであり、この初期確率値から正確で有益な
確率値を決定することができる。初期値は通常実際の音
声を忠実に反映するものではなく、音声認識に用いるに
は不適切である。好ましい初期化部300が第9図に示さ
れている。
されている。この確率初期化部206の目的は初期確率値
を与えることであり、この初期確率値から正確で有益な
確率値を決定することができる。初期値は通常実際の音
声を忠実に反映するものではなく、音声認識に用いるに
は不適切である。好ましい初期化部300が第9図に示さ
れている。
この発明によれば、標準話者に先に学習フル・テキス
トを発声しており、この標準話者の発声に応じて一連の
入力ベクトルが生成され、遷移確率P(Aij)およびラ
ベル出力確率P(F1(k)|Aij)がすでに決定されて
いるものとする。標準話者の入力ベクトルはラベリング
部302に入力される。ラベリング部302は各入力ベクトル
にラベルを割り当てる。重要なことは、ラベリング部30
2が後の話者のプロトタイプ・ベクトルに基づいてラベ
ルが割り当てられるということである。後の話者のプロ
トタイプ・ベクトルは後の話者が学習テキストの一部に
ついて行った発声に応じて生成されたデータのみによっ
て決定される。プロトタイプ・ベクトルの定義および特
徴ベクトルの音声タイプへのクラスタリングは周知であ
る。
トを発声しており、この標準話者の発声に応じて一連の
入力ベクトルが生成され、遷移確率P(Aij)およびラ
ベル出力確率P(F1(k)|Aij)がすでに決定されて
いるものとする。標準話者の入力ベクトルはラベリング
部302に入力される。ラベリング部302は各入力ベクトル
にラベルを割り当てる。重要なことは、ラベリング部30
2が後の話者のプロトタイプ・ベクトルに基づいてラベ
ルが割り当てられるということである。後の話者のプロ
トタイプ・ベクトルは後の話者が学習テキストの一部に
ついて行った発声に応じて生成されたデータのみによっ
て決定される。プロトタイプ・ベクトルの定義および特
徴ベクトルの音声タイプへのクラスタリングは周知であ
る。
ラベリング部302から出て来るラベル・ストリングをA
2=x1x2x3…で表わす。ラベル・ストリングA2は初期確
率計算部306に供給される。またこの初期確率計算部306
には時間整合ストレージ308から整合情報が供給され
る。ストレージ308はフォーン・マシーン遷移をラベル
関係付けるデータが含まれている。この点、標準話者の
学習時にはフォーン・マシーンの所定のシーケンスに応
じたテキストが発声されることがわかる。ビタービ整合
によれば、各フォーン・マシーン(標準話者用の)とス
トリングA1中のラベル・セグメント(すなわち標準話者
プロトタイプに基づくラベル・ストリング)との相関は
既知である。ストリングA2はストリングA1と同じように
ラベルごとに整合される。もしストリングA1のb1個のラ
ベルが第1のフォーン・マシーンと整合されるならば、
ストリングA2のb1個のラベルも第1のフォーン・マシー
ンに整合される。以下同様である。A2のラベル・とフォ
ーン・マシーンとの間の相関はストレージ308に供給さ
れる。
2=x1x2x3…で表わす。ラベル・ストリングA2は初期確
率計算部306に供給される。またこの初期確率計算部306
には時間整合ストレージ308から整合情報が供給され
る。ストレージ308はフォーン・マシーン遷移をラベル
関係付けるデータが含まれている。この点、標準話者の
学習時にはフォーン・マシーンの所定のシーケンスに応
じたテキストが発声されることがわかる。ビタービ整合
によれば、各フォーン・マシーン(標準話者用の)とス
トリングA1中のラベル・セグメント(すなわち標準話者
プロトタイプに基づくラベル・ストリング)との相関は
既知である。ストリングA2はストリングA1と同じように
ラベルごとに整合される。もしストリングA1のb1個のラ
ベルが第1のフォーン・マシーンと整合されるならば、
ストリングA2のb1個のラベルも第1のフォーン・マシー
ンに整合される。以下同様である。A2のラベル・とフォ
ーン・マシーンとの間の相関はストレージ308に供給さ
れる。
一例としてフォーン・マシーンPM1を考えよう。標準
話者の学習期間にビタービ整合は、ストリングA1中の最
初のp個のラベルがフォーン・マシーンPM1に相関する
と特定する。各フォーン・マシーン遷移に割り当てられ
るラベルの個数が時間整合ストレージ308にストアされ
る。初期確率計算部306はラベル・ストリングA1と同様
の態様でラベル・ストリングA2を分割しストリングA2の
最初のp個のラベルを遷移PM1に相関させる。
話者の学習期間にビタービ整合は、ストリングA1中の最
初のp個のラベルがフォーン・マシーンPM1に相関する
と特定する。各フォーン・マシーン遷移に割り当てられ
るラベルの個数が時間整合ストレージ308にストアされ
る。初期確率計算部306はラベル・ストリングA1と同様
の態様でラベル・ストリングA2を分割しストリングA2の
最初のp個のラベルを遷移PM1に相関させる。
フォーン・マシーンとラベル・ストリングA2との間の
整合に基づいて、後の話者の初期カウント(これは所定
のフォーン・マシーンに対して所定のラベルが起こる頻
度に対応する)が計算される。たとえば、学習テキスト
において、フォーン・マシーンPM1が15回起こる。PM1の
各々に対応するラベルは整合プロセスでわかる。各ラベ
ルについて、そのラベルがフォーン・マシーンPM1の各
々の発生時に発生するように整合される回数がカウント
される、すなわち、ラベルL1がフォーン・マシーンPM1
に整合されると、対応するカウントが行われる。またラ
ベルL2がフォーン・マシーンPM1に整合されると、対応
するカウントが行われる。その他も同様である。類似の
処理が各フォーン・マシーンについて実行されていく。
この結果各フォーン・マシーンは各ラベルについて対応
するカウントを持つことになる。初期確率計算部306は
これらのカウントを正規化してP0(F2(l)|PM1)の
確率の値を生成する。ただし、lはラベルを表わし、PM
1はi番目のフォーン・マシーンを表わす。種々のフォ
ーン・マシーン遷移に関してラベルの分布が一様と仮定
すれば、初期確率計算部306はP0(F2(l)|Aij)のラ
ベル出力確率を出力する。ただし、P0は初期確率を表わ
す。
整合に基づいて、後の話者の初期カウント(これは所定
のフォーン・マシーンに対して所定のラベルが起こる頻
度に対応する)が計算される。たとえば、学習テキスト
において、フォーン・マシーンPM1が15回起こる。PM1の
各々に対応するラベルは整合プロセスでわかる。各ラベ
ルについて、そのラベルがフォーン・マシーンPM1の各
々の発生時に発生するように整合される回数がカウント
される、すなわち、ラベルL1がフォーン・マシーンPM1
に整合されると、対応するカウントが行われる。またラ
ベルL2がフォーン・マシーンPM1に整合されると、対応
するカウントが行われる。その他も同様である。類似の
処理が各フォーン・マシーンについて実行されていく。
この結果各フォーン・マシーンは各ラベルについて対応
するカウントを持つことになる。初期確率計算部306は
これらのカウントを正規化してP0(F2(l)|PM1)の
確率の値を生成する。ただし、lはラベルを表わし、PM
1はi番目のフォーン・マシーンを表わす。種々のフォ
ーン・マシーン遷移に関してラベルの分布が一様と仮定
すれば、初期確率計算部306はP0(F2(l)|Aij)のラ
ベル出力確率を出力する。ただし、P0は初期確率を表わ
す。
初期遷移確率P0(Aij)は単純に話者に独立な固定値
を割り当てることによって得られる。
を割り当てることによって得られる。
再び第8図を参照しよう。第8図において、初期確率
は再びパラメータ化フォワード・バックワード・プロセ
ッサ208および基本パラメータ・フォワード・バックワ
ード・プロセッサ210に供給される。
は再びパラメータ化フォワード・バックワード・プロセ
ッサ208および基本パラメータ・フォワード・バックワ
ード・プロセッサ210に供給される。
再パラメータ化フォワード・バックワード・プロセッ
サ208は入力として(i)初期確率、(ii)後の話者が
学テキストの一部を発声したときに、後の話用のプロト
タイプに基づいて生成されるラベル・ストリングy1y2y3
…および(iii)先の標準話者学習時に決定されている
標準話者用のラベル出力確率P(F1(k)|Aij)を受
け取る。
サ208は入力として(i)初期確率、(ii)後の話者が
学テキストの一部を発声したときに、後の話用のプロト
タイプに基づいて生成されるラベル・ストリングy1y2y3
…および(iii)先の標準話者学習時に決定されている
標準話者用のラベル出力確率P(F1(k)|Aij)を受
け取る。
簡単にいえば、再パラメータ化フォード・バックワー
ド・プロセッサ208は標準話者と後の話者との間の類似
度データを含む拡張グラス形態へと元のマルコフ・モデ
ルを特定しなおす。言葉をかえていえば、元のマルコフ
・モデルの非空遷移は遷移確率とを有し、拡張グラムに
対してマルコフ・モデルの出力確率が再定義されるので
ある。マルコフ・モデルの各出力確率P(F2(l)|A
ij)は、すべてのkににわたって類似度測度P(F
2(l)|F1(k)を足し、これをP(F1(k)|Aij)
で正規化したものとして特定し直される。ここでkはN
個のラベルからなるアルファベット中の個々のラベルを
特定する。再パラメータ化フォワード・バックワード・
プロセッサ208はつぎの式によって拡張されたマルコフ
・モデルに基づいてパラメータ化し直されたラベル出力
確率を生成する。
ド・プロセッサ208は標準話者と後の話者との間の類似
度データを含む拡張グラス形態へと元のマルコフ・モデ
ルを特定しなおす。言葉をかえていえば、元のマルコフ
・モデルの非空遷移は遷移確率とを有し、拡張グラムに
対してマルコフ・モデルの出力確率が再定義されるので
ある。マルコフ・モデルの各出力確率P(F2(l)|A
ij)は、すべてのkににわたって類似度測度P(F
2(l)|F1(k)を足し、これをP(F1(k)|Aij)
で正規化したものとして特定し直される。ここでkはN
個のラベルからなるアルファベット中の個々のラベルを
特定する。再パラメータ化フォワード・バックワード・
プロセッサ208はつぎの式によって拡張されたマルコフ
・モデルに基づいてパラメータ化し直されたラベル出力
確率を生成する。
第10図はラベル出力用の元のマルコフ・グラフを表わ
す。
す。
第11図は先に説明した式に基づく拡張グラフを示す。
再パラメータ化フォワード・バックワード・プロセッ
サ400の具体的な例を第12図に示す。この図において、
初期確率P0(Aij)およびP0(F2(l)|Aij)ならびに
後の話者ラベル・ストリングy1y2y3…がフォワード・バ
ックワード・アルゴリスゴ・プロセッサ402に入力され
る。これら入力に応じて、プロセッサ402は遷移カウン
トcountn+1(Aij)およびラベル出力カウントcountn+1
(F2(l)、Aij)を発生する。nは繰り返し指数であ
り、初期確率についてはゼロに設定される。遷移カウン
トは遷移確率計算部404において正規化され、更新遷移
確率Pnr1(Aij)が出出力され、カウンタ・マルチプレ
クサ406に供給されるn<nmax(nmaxは好ましくは3)
を満たすnについては、更新遷移確率はプロセッサ402
にその入力として供給される。nがnmaxに達すると更新
遷移確率は再パラメータ化フォワード・バックワード・
プロセッサ400(第12図)から再パラメータ化遷移確率
P(Aij)として出力される。
サ400の具体的な例を第12図に示す。この図において、
初期確率P0(Aij)およびP0(F2(l)|Aij)ならびに
後の話者ラベル・ストリングy1y2y3…がフォワード・バ
ックワード・アルゴリスゴ・プロセッサ402に入力され
る。これら入力に応じて、プロセッサ402は遷移カウン
トcountn+1(Aij)およびラベル出力カウントcountn+1
(F2(l)、Aij)を発生する。nは繰り返し指数であ
り、初期確率についてはゼロに設定される。遷移カウン
トは遷移確率計算部404において正規化され、更新遷移
確率Pnr1(Aij)が出出力され、カウンタ・マルチプレ
クサ406に供給されるn<nmax(nmaxは好ましくは3)
を満たすnについては、更新遷移確率はプロセッサ402
にその入力として供給される。nがnmaxに達すると更新
遷移確率は再パラメータ化フォワード・バックワード・
プロセッサ400(第12図)から再パラメータ化遷移確率
P(Aij)として出力される。
第12図において、ラベル出力確率カウントcount
n+1(F2(l)、Aij)は拡張グラフ・カウント計算部40
8に入力される。さらにこの計算部408には、標準話者用
に先に決定されたラベル出力確率P(F1(k)|
Aij)、n回目のときにラベル出力確率用に決定された
値Pn(F2(l)|Aij)および先に決定されている類似
測度Pn(Fn(l)|F1(k))も入力される。ラベル出
力確率P(F1(k)|Aij)は、標準話者についてのデ
ータをストアする外部要素からの入力として受け取られ
る。
n+1(F2(l)、Aij)は拡張グラフ・カウント計算部40
8に入力される。さらにこの計算部408には、標準話者用
に先に決定されたラベル出力確率P(F1(k)|
Aij)、n回目のときにラベル出力確率用に決定された
値Pn(F2(l)|Aij)および先に決定されている類似
測度Pn(Fn(l)|F1(k))も入力される。ラベル出
力確率P(F1(k)|Aij)は、標準話者についてのデ
ータをストアする外部要素からの入力として受け取られ
る。
第1回目の繰り返し、すなわちn=0では、各P0確率
は初期値である。
は初期値である。
その結果、計算部408はつぎの計算を実行して関係あ
るカウントを決定する。
るカウントを決定する。
この式の右辺は計算部408へ入力される要素を含む。
加算器410において、すべての遷移Aijにわたってカウ
ントcountn+1(F2(l)、F1(k)、Aij)を加算する
ことによってつぎの計算が実行される。
ントcountn+1(F2(l)、F1(k)、Aij)を加算する
ことによってつぎの計算が実行される。
更新コンフュージョン・マトリックス・エントリ計算
部412において加算カウントを正規化することによっ
て、(n+1)回目の更新類似測度をPn+1(F2(l)|
F1(k))が計算される。各類似測度の最新の更新値は
コンフュージョン・マトリックス・ストレージ414に入
力される。ストレージ414はラベル対(l、k)の各々
について1個のエントリを有する。したがって、N=20
0個のラベルからなるアルファベットについては、マト
リックスは200×200個のエントリを有することになる。
部412において加算カウントを正規化することによっ
て、(n+1)回目の更新類似測度をPn+1(F2(l)|
F1(k))が計算される。各類似測度の最新の更新値は
コンフュージョン・マトリックス・ストレージ414に入
力される。ストレージ414はラベル対(l、k)の各々
について1個のエントリを有する。したがって、N=20
0個のラベルからなるアルファベットについては、マト
リックスは200×200個のエントリを有することになる。
サンプル・マトリックスが第13図に示される。このサ
ンプルでは標準話者の所定のラベルK1に対する後の話者
のラベルL1の確率は0.002である。k1列に沿う確率の合
計は1であり、他の列でも同様である。
ンプルでは標準話者の所定のラベルK1に対する後の話者
のラベルL1の確率は0.002である。k1列に沿う確率の合
計は1であり、他の列でも同様である。
第12図において、コンフュージョン・マトリックスの
エントリは繰り返し更新されることがわかる。繰り返し
の各々において最新のエントリ値がつぎの繰り返し(も
しあれば)のために計算部408に入力される。
エントリは繰り返し更新されることがわかる。繰り返し
の各々において最新のエントリ値がつぎの繰り返し(も
しあれば)のために計算部408に入力される。
さらに、最新に更新されたエントリ値は更新ラベル出
力確率計算部416に入力される。計算部416の他の入力は
標準話者に関連したラベル出力確率である。すなわち各
kについてのP(F1(k)Aij)である。計算部416はつ
ぎのような更新ラベル出力確率を生成する。
力確率計算部416に入力される。計算部416の他の入力は
標準話者に関連したラベル出力確率である。すなわち各
kについてのP(F1(k)Aij)である。計算部416はつ
ぎのような更新ラベル出力確率を生成する。
n=nmaxの繰り返しのち、更新カウンタ・マルチプレ
クサ418は更新ラベル出力確率Pr(F2(l)|Aij)を再
パラメータ化フォワード・バックワード・プロセッサ40
0からの出力として送出する。それ以前の繰り返し(n
<nmax)においては、計算部416からのラベル出力確率
はPn(F2(l)|Aij)としてプロセッサ402および計算
部408に送出され、つぎの繰り返しに用いられる。
クサ418は更新ラベル出力確率Pr(F2(l)|Aij)を再
パラメータ化フォワード・バックワード・プロセッサ40
0からの出力として送出する。それ以前の繰り返し(n
<nmax)においては、計算部416からのラベル出力確率
はPn(F2(l)|Aij)としてプロセッサ402および計算
部408に送出され、つぎの繰り返しに用いられる。
さらに言及を続けよう。フォワード・バックワード・
アルゴリズム・プロセッサ402は先に説明したIEEEの論
文に示される手法にしたがって動作する。簡単にいえ
ば、フォワード・バックワード・アルゴリズムはマルコ
フ・モデルの状態iからそのマルコフ・モデルの状態j
までの移動に関する計算である。初期状態から出発して
時刻tで状態iに到着した際には、αt(state(i))
という予め定められた確率がある。同様に時刻(tt1)
にマルコフ・モデルの状態jから出発して最終状態に到
る確率tt1(state(j))がある。α確率は状態iから前方
に進むものであり、β確率は最終状態から逆向きに戻る
ものである。初期状態から最終状態へのパスがi→jと
いう遷移を介して行われる階数がどのくらいかを示すカ
ウントは、(ラベルlが出力される)つぎの式で表わさ
れる。
アルゴリズム・プロセッサ402は先に説明したIEEEの論
文に示される手法にしたがって動作する。簡単にいえ
ば、フォワード・バックワード・アルゴリズムはマルコ
フ・モデルの状態iからそのマルコフ・モデルの状態j
までの移動に関する計算である。初期状態から出発して
時刻tで状態iに到着した際には、αt(state(i))
という予め定められた確率がある。同様に時刻(tt1)
にマルコフ・モデルの状態jから出発して最終状態に到
る確率tt1(state(j))がある。α確率は状態iから前方
に進むものであり、β確率は最終状態から逆向きに戻る
ものである。初期状態から最終状態へのパスがi→jと
いう遷移を介して行われる階数がどのくらいかを示すカ
ウントは、(ラベルlが出力される)つぎの式で表わさ
れる。
ただしtはt=1からt=Tへの時間間隔を表わし、
yt=F2(l)ならばδ=1でそれ以外はδ=0である。
yt=F2(l)ならばδ=1でそれ以外はδ=0である。
つぎのことは極めて重要である。すなわち、拡張マル
コフ・モデル・グラフについてすべてのカウントcount
n+1(F2(l)、Aij)が、元のグラフについて得られて
いるカウント、すなわちラベル出力確率に関するカウン
トを用いて容易に計算するということである。
コフ・モデル・グラフについてすべてのカウントcount
n+1(F2(l)、Aij)が、元のグラフについて得られて
いるカウント、すなわちラベル出力確率に関するカウン
トを用いて容易に計算するということである。
プロセッサ402は継続する繰り返しにおける上の計算
を実行する(nを増分させなから)。
を実行する(nを増分させなから)。
第14図は基本パラメータ・フォワード・バックワード
・プロセッサ500を示す。この図において、基本パラメ
ータ・フォワード・バックワード・アルゴリズム・プロ
セッサ502はプロセッサ402と同様に初期確率およびラベ
ル・ストリングy1y2y3…を入力として受け取る。確率値
P′n(Aij)およびP′(Fn(l)|Aij)は下記のと
おり計算されるものであり、その発生の都度、繰り返し
入力としてプロセッサ502に入力される。最初の繰り返
しではn=0である。プロセッサ502遷移およびラベル
出力のそれぞれについて基本カウントcount′
n+1(Aij)およびcount′n+1(F2、Aij)を決定する。
計算部504および506は、カウントを正規化することによ
ってそれぞれ基本遷移確率および基本ラベル出力確率を
生成する。この基本確率P′n+1(Aij)およびP′n+1
(F2(l)|Aij)は更新カウンタ・マルチプレクサ508
に入力される。カウントnが値nmax′より小さければ、
基本確率はプロセッサ502に入力P′n(Aij)および
P′n+1(F2(l)|Aij)として入力され、フォワード
・バックワード計算のづきの繰り返しに用いられる。n
がnmax′になったときは、最終の更新基本確率P′(A
ij)およびP′(F2(l)|Aij)が出力される。
・プロセッサ500を示す。この図において、基本パラメ
ータ・フォワード・バックワード・アルゴリズム・プロ
セッサ502はプロセッサ402と同様に初期確率およびラベ
ル・ストリングy1y2y3…を入力として受け取る。確率値
P′n(Aij)およびP′(Fn(l)|Aij)は下記のと
おり計算されるものであり、その発生の都度、繰り返し
入力としてプロセッサ502に入力される。最初の繰り返
しではn=0である。プロセッサ502遷移およびラベル
出力のそれぞれについて基本カウントcount′
n+1(Aij)およびcount′n+1(F2、Aij)を決定する。
計算部504および506は、カウントを正規化することによ
ってそれぞれ基本遷移確率および基本ラベル出力確率を
生成する。この基本確率P′n+1(Aij)およびP′n+1
(F2(l)|Aij)は更新カウンタ・マルチプレクサ508
に入力される。カウントnが値nmax′より小さければ、
基本確率はプロセッサ502に入力P′n(Aij)および
P′n+1(F2(l)|Aij)として入力され、フォワード
・バックワード計算のづきの繰り返しに用いられる。n
がnmax′になったときは、最終の更新基本確率P′(A
ij)およびP′(F2(l)|Aij)が出力される。
第8図において、再パラメータ化フォワード・バック
ワード・プロセッサ208によって再パラメータ化されて
もたらされた確率Pr(Aij)およびPr(F2(l)|Aij)
は省略推定プロセッサ212に供給される。同様にプロセ
ッサ210から出力された基本パラメータ確率P′(Aij)
およびP′(F2(l)|Aij)は他の省略推定プロセッ
サ212に入力される。各省略推定プロセッサ212および21
4は同様の態様で動作し線形に確率を平均化し、確率の
分布を平滑化する。平滑化はラベル出力確率分布のピー
クをまるめ、谷をうめることを意味する。平滑化は学習
データが少ないこと、ラベル出力確率のコントラストが
強いことがあるから必要となる。より学習データが多く
なればコントラストは弱くなるであろう。省略推定処理
についてはF.JelinekおよびR.L.Mercerの“Interpolate
d Estimation of Markov Source Parameters from Spar
se Data"に記述されている。またGelsema他による“Pat
tern Recognition in Practice"のpp381-402も省略推定
処理について検討を加えている。
ワード・プロセッサ208によって再パラメータ化されて
もたらされた確率Pr(Aij)およびPr(F2(l)|Aij)
は省略推定プロセッサ212に供給される。同様にプロセ
ッサ210から出力された基本パラメータ確率P′(Aij)
およびP′(F2(l)|Aij)は他の省略推定プロセッ
サ212に入力される。各省略推定プロセッサ212および21
4は同様の態様で動作し線形に確率を平均化し、確率の
分布を平滑化する。平滑化はラベル出力確率分布のピー
クをまるめ、谷をうめることを意味する。平滑化は学習
データが少ないこと、ラベル出力確率のコントラストが
強いことがあるから必要となる。より学習データが多く
なればコントラストは弱くなるであろう。省略推定処理
についてはF.JelinekおよびR.L.Mercerの“Interpolate
d Estimation of Markov Source Parameters from Spar
se Data"に記述されている。またGelsema他による“Pat
tern Recognition in Practice"のpp381-402も省略推定
処理について検討を加えている。
第15図は好ましい省略推定プロセッサ600を示す。こ
の図において省略推定プロセッサ600は3個の入力を有
する。第1の入力はラベル・ストリングy1y2y3…であ
る。
の図において省略推定プロセッサ600は3個の入力を有
する。第1の入力はラベル・ストリングy1y2y3…であ
る。
第2の入力はフォワード・バックワード処理された確
率に対応する。省略推定プロセッサ212に対しては、第
2の入力は再パラメータ化フォワード・バックワード・
プロセッサ208からの出力である。省略推定プロセッサ2
14に対しては基本フォワード・バックワード・プロセッ
サ210からの出力が第2の入力に対応する。
率に対応する。省略推定プロセッサ212に対しては、第
2の入力は再パラメータ化フォワード・バックワード・
プロセッサ208からの出力である。省略推定プロセッサ2
14に対しては基本フォワード・バックワード・プロセッ
サ210からの出力が第2の入力に対応する。
第3の入力はコントラスト確率に対応する。省略推定
プロセッサ212に対しては、第3の入力は初期設定部206
によって生成された初期確率である。省略推定プロセッ
サ214に対しては、省略推定プロセッサ212によって計算
された平滑化確率が第3の入力となる。
プロセッサ212に対しては、第3の入力は初期設定部206
によって生成された初期確率である。省略推定プロセッ
サ214に対しては、省略推定プロセッサ212によって計算
された平滑化確率が第3の入力となる。
省略推定プロセッサの出力は(i)線形平均化された
遷移確率および(ii)線形平均化されたラベル出力確率
を含む。この場合確率分布は平滑化されている。
遷移確率および(ii)線形平均化されたラベル出力確率
を含む。この場合確率分布は平滑化されている。
好ましい省略推定プロセッサ600(第15図)は学習デ
ータ分割部602を有し、この分割部602は後の話者の学習
テキスト・ラベルを2つの部分に分割する。第1の部分
とフォワード・バックワード処理された確率(プロセッ
サ208または210からの)とは第1フォワード・バックワ
ード・プロセッサ604に入力される。プロセッサ604はそ
れからカウントおよび確率を計算する。ラベルの第2の
部分とフォワード・バックワード処理された確率(プロ
セッサ208または210からの)とは第2フォワード・バッ
クワード・プロセッサ606に入力される。プロセッサ606
はそれらからカウントおよび確率を計算する。プロセッ
サ604および606からのカウントおよび確率は最大ゆう度
平滑化プロセッサ608入力される。プロセッサ608への他
の入力コントラスト確率である。プロセッサ608は入力
の線形平均化を実行する。
ータ分割部602を有し、この分割部602は後の話者の学習
テキスト・ラベルを2つの部分に分割する。第1の部分
とフォワード・バックワード処理された確率(プロセッ
サ208または210からの)とは第1フォワード・バックワ
ード・プロセッサ604に入力される。プロセッサ604はそ
れからカウントおよび確率を計算する。ラベルの第2の
部分とフォワード・バックワード処理された確率(プロ
セッサ208または210からの)とは第2フォワード・バッ
クワード・プロセッサ606に入力される。プロセッサ606
はそれらからカウントおよび確率を計算する。プロセッ
サ604および606からのカウントおよび確率は最大ゆう度
平滑化プロセッサ608入力される。プロセッサ608への他
の入力コントラスト確率である。プロセッサ608は入力
の線形平均化を実行する。
省略推定プロセッサ212の場合は、フォワード・バッ
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントはC1(F2(l)、Aij)およびC
1(Aij)として特定され、ラベル出力確率はP1(F
2(l)|Aij)として特定される。フォワード・バック
ワード・プロセッサ606からのラベル出力カウントはC2
として特定され、ラベル出力確率はP2として特定され
る。好ましい例ではC1およびP1は奇数センテンスのラベ
ル・ストリングに対応し、C2およびP2は偶数センテンス
のラベル・ストリングに対応する。学習データ分割部60
2によってそのように分割される。
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントはC1(F2(l)、Aij)およびC
1(Aij)として特定され、ラベル出力確率はP1(F
2(l)|Aij)として特定される。フォワード・バック
ワード・プロセッサ606からのラベル出力カウントはC2
として特定され、ラベル出力確率はP2として特定され
る。好ましい例ではC1およびP1は奇数センテンスのラベ
ル・ストリングに対応し、C2およびP2は偶数センテンス
のラベル・ストリングに対応する。学習データ分割部60
2によってそのように分割される。
省略推定プロセッサ212の最大ゆう度平滑化プロセッ
サ608によって実行される計算はつぎのようなものであ
る。
サ608によって実行される計算はつぎのようなものであ
る。
ただしλmは選択可能な重み付け要素であり、Aijはフ
ォーン・マシーンにおける状態iからjへの遷移を表わ
す。
ォーン・マシーンにおける状態iからjへの遷移を表わ
す。
好ましい例では、λmに関しつぎの式の値を最大にす
るようにλmを選ぶ。ただしπはすべてのmの値または
すべてのAijεSm値にわたる積を表わす。
るようにλmを選ぶ。ただしπはすべてのmの値または
すべてのAijεSm値にわたる積を表わす。
ただしPoは初期確率を表わし、SmはM個のクラスの遷
移のうちm番目のクラスを表わす。すべての(Aij)の
イベントはつぎのようにクラス分けされるのが好まし
い。
移のうちm番目のクラスを表わす。すべての(Aij)の
イベントはつぎのようにクラス分けされるのが好まし
い。
Sm={(Aij)|Tm-1<C1(Aij) +C2(Aij)<Tm} ただしTmは予定義されたカウント範囲境界であり、1
つのアーク・クラスを他のアーク・クラスから分離する
ものである。
つのアーク・クラスを他のアーク・クラスから分離する
ものである。
値Mについて説明すると、240個のアークの各々は後
の話者の学習時に得られるカウントの1つである。平滑
化に先だって、アーク(すなわち遷移)はカウント値に
応じてM個の異なるクラスに分類される。たとえば、0
から10のカウント範囲境界を有するアークは第1のクラ
ス(m=1)を形成し、10から100までの境界を有する
アークは第2のクラスを形成する。そして100を超える
境界を有するアークは第3のクラスを形成する(この例
ではM=3である。)平滑化の量はアークがどのクラス
に属するかによって異なる。Mは典型的には10未満であ
る。
の話者の学習時に得られるカウントの1つである。平滑
化に先だって、アーク(すなわち遷移)はカウント値に
応じてM個の異なるクラスに分類される。たとえば、0
から10のカウント範囲境界を有するアークは第1のクラ
ス(m=1)を形成し、10から100までの境界を有する
アークは第2のクラスを形成する。そして100を超える
境界を有するアークは第3のクラスを形成する(この例
ではM=3である。)平滑化の量はアークがどのクラス
に属するかによって異なる。Mは典型的には10未満であ
る。
省略推定プロセッサ214の場合は、フォワード・バッ
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントは▲C* 1▼として特定され、ラベル出
力確率は▲P* 1▼として特定される。またフォワード・
バックワード・プロセッサ606からのラベル出力カウン
トおよび遷移カウントは▲C* 2▼として特定され、ラベ
ル出力確率は▲P* 2▼として特定される。好ましくは▲C
* 1▼および▲P* 1▼が奇数センテンス・ラベル・ストリ
ングに対応し、▲C* 2▼および▲P* 2▼が偶数センテンス
・ラベル・ストリング・に対応する。学習データ分割部
602がこの割り振りを行う。
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントは▲C* 1▼として特定され、ラベル出
力確率は▲P* 1▼として特定される。またフォワード・
バックワード・プロセッサ606からのラベル出力カウン
トおよび遷移カウントは▲C* 2▼として特定され、ラベ
ル出力確率は▲P* 2▼として特定される。好ましくは▲C
* 1▼および▲P* 1▼が奇数センテンス・ラベル・ストリ
ングに対応し、▲C* 2▼および▲P* 2▼が偶数センテンス
・ラベル・ストリング・に対応する。学習データ分割部
602がこの割り振りを行う。
省略推定プロセッサ214の最大ゆう度平滑化プロセッ
サ608で実行される計算はつぎのようなものである。
サ608で実行される計算はつぎのようなものである。
好ましい例では要素▲λ* m▼は▲λ* m▼に関するつぎ
式の値を最大にするように選ばれる。
式の値を最大にするように選ばれる。
ただし、Psは平滑化確率を表わし、Smは遷移カウント
値に基づくM個の遷移クラスのm番目のクラスを表わ
し、つぎのように定義される。
値に基づくM個の遷移クラスのm番目のクラスを表わ
し、つぎのように定義される。
S* m={Aij|Tm-1<C* 1(Aij) +C* 2(Aij)<Tm} 省略推定プロセッサ214によって計算されるラベル出
力確率P*(F2(l)|Aij)は基本ラベル出力確率に較
べて大幅に改善されている。また再パラメータ化ラベル
出力確率Pr(F2(l)|Aij)、第1の省略推定プロセ
ッサ212からの平滑化ラベル出力確率Ps(F2(l)|
Aij)に対しても改善されている。上述のものと同様の
省略推定プロセッサは遷移確率にも適用されP*(Aij)
を得る。ただし、P*(Aij)のP′(Aij)、Pr(Aij)
またはPs(Aij)に対する改善はさほど顕著ではない。
力確率P*(F2(l)|Aij)は基本ラベル出力確率に較
べて大幅に改善されている。また再パラメータ化ラベル
出力確率Pr(F2(l)|Aij)、第1の省略推定プロセ
ッサ212からの平滑化ラベル出力確率Ps(F2(l)|
Aij)に対しても改善されている。上述のものと同様の
省略推定プロセッサは遷移確率にも適用されP*(Aij)
を得る。ただし、P*(Aij)のP′(Aij)、Pr(Aij)
またはPs(Aij)に対する改善はさほど顕著ではない。
この点に、再パラメータ化された値からラベル出力確
率を決定する再パラメータ・メソドロジがIBM MVSシス
テム上に実装された。サンプル・学習原稿を用いて多く
の話者に対して一連の実験が行われた。後の話者の学習
に100個のセンテンスのサンプル・テキストを用いた。
ときには、平均認識率は95%に達した。より短い30個の
センテンスのときは89%の精度であった。30個のセンテ
ンスについて再パラメータ化が採用されたときには、平
均で92.5%に達した。再パラメータ化によって単純な30
個のセンテンスに較べて30%の改善があった。プロセッ
サに2つの省略推定ステップが加わると、精度はほぼ95
%まで上がった。後の話者の1/3の学習テキストであっ
ても、本発明によればフル・テキストと同様の精度を達
成することができる。
率を決定する再パラメータ・メソドロジがIBM MVSシス
テム上に実装された。サンプル・学習原稿を用いて多く
の話者に対して一連の実験が行われた。後の話者の学習
に100個のセンテンスのサンプル・テキストを用いた。
ときには、平均認識率は95%に達した。より短い30個の
センテンスのときは89%の精度であった。30個のセンテ
ンスについて再パラメータ化が採用されたときには、平
均で92.5%に達した。再パラメータ化によって単純な30
個のセンテンスに較べて30%の改善があった。プロセッ
サに2つの省略推定ステップが加わると、精度はほぼ95
%まで上がった。後の話者の1/3の学習テキストであっ
ても、本発明によればフル・テキストと同様の精度を達
成することができる。
後の話者は学習テキストを20分間発声するのにかえ
て、たった7分間発声するだけでよくなる。
て、たった7分間発声するだけでよくなる。
さらに、この発明によれば通常のフォワード・バック
ワード・アルゴリズムでフル・テキストを処理するのに
較べて計算量の削減にもなる。
ワード・アルゴリズムでフル・テキストを処理するのに
較べて計算量の削減にもなる。
第16図はこの発明を実現するアルゴリズム700のフロ
ーチャートを示す。ステップ701および702においてイン
デックスnはゼロに設定され、また遷移、ラベル出力お
よびコンフュージョン・マトリックス・エントリ確率が
初期値に設定される。ステップ704では、フォワード・
バックワード・アルゴリズムが適用されて、元のマルコ
フ・モデル・グラムに対する遷移確率およびラベル出力
確率に関するカウントが生成される。ステップ706で
は、ラベル出力確率に対するカウントcountn+1(F
2(l),Aij)が再特定化されて拡張マルコフ・モデル
・グラフに対するカウントcountn+1(F2(l),F
1(k),Aij)が生成される。拡張マルコフ・モデル・
グラフでは出力確率がコンフュージョン・マトリックス
・エントリに対応する。
ーチャートを示す。ステップ701および702においてイン
デックスnはゼロに設定され、また遷移、ラベル出力お
よびコンフュージョン・マトリックス・エントリ確率が
初期値に設定される。ステップ704では、フォワード・
バックワード・アルゴリズムが適用されて、元のマルコ
フ・モデル・グラムに対する遷移確率およびラベル出力
確率に関するカウントが生成される。ステップ706で
は、ラベル出力確率に対するカウントcountn+1(F
2(l),Aij)が再特定化されて拡張マルコフ・モデル
・グラフに対するカウントcountn+1(F2(l),F
1(k),Aij)が生成される。拡張マルコフ・モデル・
グラフでは出力確率がコンフュージョン・マトリックス
・エントリに対応する。
カウントはすべてのi→j遷移にわたって加算され、
後の話者のl番目のラベルと標準話者のk番目のラベル
との間の類似測度を反映したカウントが生成される(ス
テップ708)。エントリ・カウントをもちいてコンフュ
ージョン・マトリックス・エントリの確率値が更新され
る(ステップ710)。更新再パラメータ化ラベル出力確
率はステップ712で計算される。
後の話者のl番目のラベルと標準話者のk番目のラベル
との間の類似測度を反映したカウントが生成される(ス
テップ708)。エントリ・カウントをもちいてコンフュ
ージョン・マトリックス・エントリの確率値が更新され
る(ステップ710)。更新再パラメータ化ラベル出力確
率はステップ712で計算される。
更新再パラメータ化ラベル出力確率が決定されるとき
に、通常の手法を用いて遷移確率が更新される(ステッ
プ714)。
に、通常の手法を用いて遷移確率が更新される(ステッ
プ714)。
ステップ712および714ののち、nの値が増分去れる
(ステップ716)。ステップ718においてnの新しい値が
nmax値以上であれば(nmaxは好ましくは3)、ステップ
712および714で得た最新の出力が省略推定ステップ720
に入る。nがnmax未満であれば、ステップ704〜718が繰
り返される。省略推定ステップ720は出力として平滑化
確率Ps(Aij)およびPs(F2(l)|Aij)を送出する。
ここではラベル出力確率が部分的に標準話者と後の話者
との間の類似度情報に基づいている。
(ステップ716)。ステップ718においてnの新しい値が
nmax値以上であれば(nmaxは好ましくは3)、ステップ
712および714で得た最新の出力が省略推定ステップ720
に入る。nがnmax未満であれば、ステップ704〜718が繰
り返される。省略推定ステップ720は出力として平滑化
確率Ps(Aij)およびPs(F2(l)|Aij)を送出する。
ここではラベル出力確率が部分的に標準話者と後の話者
との間の類似度情報に基づいている。
確率Ps(Aij)およびPs(F2(l)|Aij)が計算され
る間に、基本フォワード・バックワード・アルゴリズム
が繰り返し適用される(ステップ730)。この場合n=
0の第1の繰り返しでは初期確率から始まる。継続した
繰り返しにわたって、更新遷移およびラベル確率が通常
の手法で計算される(ステップ732)。ステップ734およ
び736はn≧nmaxになるまで適用される。他方最後の更
新基本遷移確率P′(Aij)および最後の更新基本ラベ
ル出力確率P′(F2(l)|Aij)が第2の省略推定ス
テップ740に供給される。
る間に、基本フォワード・バックワード・アルゴリズム
が繰り返し適用される(ステップ730)。この場合n=
0の第1の繰り返しでは初期確率から始まる。継続した
繰り返しにわたって、更新遷移およびラベル確率が通常
の手法で計算される(ステップ732)。ステップ734およ
び736はn≧nmaxになるまで適用される。他方最後の更
新基本遷移確率P′(Aij)および最後の更新基本ラベ
ル出力確率P′(F2(l)|Aij)が第2の省略推定ス
テップ740に供給される。
ステップ740においては、第1の省略推定ステップ720
から平滑化確率およびステップ736からの最後の更新基
本ラベル出力および遷移確率が省略推定プロセッサ(た
とえば上述のプロセッサ600)にラベル・ストリングy1y
2y3…とともに入力される。ステップ740においては、最
終的なラベル出力確率P*(F2(l)|Aij)および遷移
確率P*(Aij)が決定される。
から平滑化確率およびステップ736からの最後の更新基
本ラベル出力および遷移確率が省略推定プロセッサ(た
とえば上述のプロセッサ600)にラベル・ストリングy1y
2y3…とともに入力される。ステップ740においては、最
終的なラベル出力確率P*(F2(l)|Aij)および遷移
確率P*(Aij)が決定される。
なお、この発明はフィーニーム・フォーン・マシーン
のマルコフ・モデルのみでなく、音声フォーン・マシー
ン等他のマルコフ・モデルにも適用できることは明らか
である。
のマルコフ・モデルのみでなく、音声フォーン・マシー
ン等他のマルコフ・モデルにも適用できることは明らか
である。
F.発明の効果 以上説明したように、この発明によれば後の話者の少
ないサンプル・データに基づいて生成された基本確率
と、コンフュージョン・マトリックスによる平滑化確率
とを補間して最終的なパラメータを得るようにしている
ので、後の話者の負担も少なく計算コストも少ない。し
かも認識精度はフル・テキストの場合に匹敵するもので
ある。
ないサンプル・データに基づいて生成された基本確率
と、コンフュージョン・マトリックスによる平滑化確率
とを補間して最終的なパラメータを得るようにしている
ので、後の話者の負担も少なく計算コストも少ない。し
かも認識精度はフル・テキストの場合に匹敵するもので
ある。
この表では2個のアルファベット文字および2個の数
字でおよその音声タイプを特徴付けている。2個の文字
はサウンドを表わす、数字2文字は母音を表わし、その
前者がストレスを、後者が特定番号を表わす。数字1文
字は子音に関連し、特定番号を表わす。
字でおよその音声タイプを特徴付けている。2個の文字
はサウンドを表わす、数字2文字は母音を表わし、その
前者がストレスを、後者が特定番号を表わす。数字1文
字は子音に関連し、特定番号を表わす。
第1図は音声認識措置を示すブロック図、 第2図は音声マルコフ・モデルを説明する図、 第3図は単語THEのベース・フォームを構成するように
結合されたマルコフ・モデルを示す図、 第4図はフォーン・マシーンがストアする情報を示す
図、 第5図はコンフュージョン・マトリックスがストアする
情報を示す図、 第6図はフィーニーム・マルコフ・モデルを示す図、 第7図は連結されたフィーニーム・マルコフ・モデルを
表わすトレリス、 第8図は学習装置を示すブロック図、 第9図、第12A図、第12B図、第14図および第15図は第8
図の細部を詳細に示すブロック図、 第10図、第11図、第13図、第16A図および第16B図は第8
図装置の動作を説明する図である。 208……再パラメータ化フォワード・バックワード・プ
ロセッサ、210……基本パラメータ・フォワード・バッ
クワード・プロセッサ、212、214……省略推定プロセッ
サ。
結合されたマルコフ・モデルを示す図、 第4図はフォーン・マシーンがストアする情報を示す
図、 第5図はコンフュージョン・マトリックスがストアする
情報を示す図、 第6図はフィーニーム・マルコフ・モデルを示す図、 第7図は連結されたフィーニーム・マルコフ・モデルを
表わすトレリス、 第8図は学習装置を示すブロック図、 第9図、第12A図、第12B図、第14図および第15図は第8
図の細部を詳細に示すブロック図、 第10図、第11図、第13図、第16A図および第16B図は第8
図装置の動作を説明する図である。 208……再パラメータ化フォワード・バックワード・プ
ロセッサ、210……基本パラメータ・フォワード・バッ
クワード・プロセッサ、212、214……省略推定プロセッ
サ。
フロントページの続き (72)発明者 デヴイド・ネハモー アメリカ合衆国ニユーヨーク州ホワイ ト・プレーンズ、エルムウツド・ロード 12番地
Claims (1)
- 【請求項1】相継ぐ音声間隔の各々がラベル出力アルフ
ァベット中の1つのレベル出力に関連づけられ、単語が
マルコフ・モデル・フォーン・マシンのシーケンスに対
応し、各フォーン・マシンが1つの状態から他の状態ま
で延びている遷移を複数個有し、各遷移の確率と遷移に
おいて生成されるラベル出力の確率が話者毎に異なって
いるごとき音声認識装置を、標準話者によるサンプル・
テキストの発声に応答して標準話者の確率で学習させた
後にその後の話者の確率に対して学習させるための装置
であって、 音声入力に応答して相継ぐ時間間隔で順次ラベルを出力
する音響プロセッサ手段と、 後の話者によるサンプル・テキストの1部分の発声に応
答して前記音響プロセッサ手段により生成されたラベル
から基本ラベル出力確率値を計算する手段と、 後の話者と標準話者との間で決まる類似度に基づいて後
の話者に対する平滑化ラベル出力確率を生成する手段
と、 後の話者による前記サンプル・テキストの1部分の発声
に応答してラベル出力が生成された場合に平滑化ラベル
出力確率に対して基本ラベル出力確率の線形平均を求め
最終ラベル出力確率を生成する手段と、 よりなる音声認識装置を学習させる装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US84712 | 1987-08-10 | ||
US07/084,712 US4817156A (en) | 1987-08-10 | 1987-08-10 | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6466698A JPS6466698A (en) | 1989-03-13 |
JP2543148B2 true JP2543148B2 (ja) | 1996-10-16 |
Family
ID=22186748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63194665A Expired - Fee Related JP2543148B2 (ja) | 1987-08-10 | 1988-08-05 | 音声認識装置を学習させる装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4817156A (ja) |
EP (1) | EP0303022B1 (ja) |
JP (1) | JP2543148B2 (ja) |
CA (1) | CA1332195C (ja) |
DE (1) | DE3874049T2 (ja) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
DE4110300C2 (de) * | 1991-03-28 | 1995-04-06 | Telefonbau & Normalzeit Gmbh | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5278942A (en) * | 1991-12-05 | 1994-01-11 | International Business Machines Corporation | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data |
ES2128390T3 (es) * | 1992-03-02 | 1999-05-16 | At & T Corp | Metodo de adiestramiento y dispositivo para reconocimiento de voz. |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6073095A (en) * | 1997-10-15 | 2000-06-06 | International Business Machines Corporation | Fast vocabulary independent method and apparatus for spotting words in speech |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6205428B1 (en) * | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US7031925B1 (en) | 1998-06-15 | 2006-04-18 | At&T Corp. | Method and apparatus for creating customer specific dynamic grammars |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
EP1126438B1 (en) * | 1998-09-09 | 2008-07-16 | Asahi Kasei Kabushiki Kaisha | Speech recognizer and speech recognition method |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6466908B1 (en) * | 2000-01-14 | 2002-10-15 | The United States Of America As Represented By The Secretary Of The Navy | System and method for training a class-specific hidden Markov model using a modified Baum-Welch algorithm |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
KR20030046434A (ko) * | 2001-07-06 | 2003-06-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 스피치 인식의 빠른 검색 |
JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
US7028038B1 (en) | 2002-07-03 | 2006-04-11 | Mayo Foundation For Medical Education And Research | Method for generating training data for medical text abbreviation and acronym normalization |
US7149689B2 (en) * | 2003-01-30 | 2006-12-12 | Hewlett-Packard Development Company, Lp. | Two-engine speech recognition |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US7231349B2 (en) * | 2003-05-30 | 2007-06-12 | Microsoft Corporation | Method and apparatus for compressing asymmetric clustering language models |
US20100246837A1 (en) * | 2009-03-29 | 2010-09-30 | Krause Lee S | Systems and Methods for Tuning Automatic Speech Recognition Systems |
US7603372B1 (en) * | 2004-10-29 | 2009-10-13 | Netapp, Inc. | Modeling file system operation streams |
JP2006154926A (ja) * | 2004-11-25 | 2006-06-15 | Denso Corp | キャラクタ表示を利用した電子機器操作システム及び電子機器 |
KR100717401B1 (ko) * | 2006-03-02 | 2007-05-11 | 삼성전자주식회사 | 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치 |
EP2851895A3 (en) * | 2011-06-30 | 2015-05-06 | Google, Inc. | Speech recognition using variable-length context |
US9685154B2 (en) | 2012-09-25 | 2017-06-20 | Nvoq Incorporated | Apparatus and methods for managing resources for a system using voice recognition |
ES2605779T3 (es) * | 2012-09-28 | 2017-03-16 | Agnitio S.L. | Reconocimiento de orador |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9276893B2 (en) * | 2013-01-15 | 2016-03-01 | International Business Machines Corporation | Determining states of a threaded communication |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
CA3117645C (en) | 2016-09-19 | 2023-01-03 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10553218B2 (en) * | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
WO2019229755A2 (en) * | 2018-05-30 | 2019-12-05 | Tiktalk To Me Ltd. | Method and systems for speech therapy computer-assisted training and repository |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
-
1987
- 1987-08-10 US US07/084,712 patent/US4817156A/en not_active Expired - Lifetime
-
1988
- 1988-06-16 EP EP88109620A patent/EP0303022B1/en not_active Expired
- 1988-06-16 DE DE8888109620T patent/DE3874049T2/de not_active Expired - Fee Related
- 1988-06-30 CA CA000570927A patent/CA1332195C/en not_active Expired - Fee Related
- 1988-08-05 JP JP63194665A patent/JP2543148B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS6466698A (en) | 1989-03-13 |
DE3874049D1 (de) | 1992-10-01 |
EP0303022A3 (en) | 1989-08-23 |
DE3874049T2 (de) | 1993-04-08 |
EP0303022A2 (en) | 1989-02-15 |
CA1332195C (en) | 1994-09-27 |
EP0303022B1 (en) | 1992-08-26 |
US4817156A (en) | 1989-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2543148B2 (ja) | 音声認識装置を学習させる装置 | |
US5502790A (en) | Speech recognition method and system using triphones, diphones, and phonemes | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
EP0771461B1 (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US5983180A (en) | Recognition of sequential data using finite state sequence models organized in a tree structure | |
JPH0581918B2 (ja) | ||
US20140025379A1 (en) | Method and System for Real-Time Keyword Spotting for Speech Analytics | |
JPS62231995A (ja) | 音声認識方法 | |
WO1992014237A1 (en) | Method for recognizing speech using linguistically-motivated hidden markov models | |
Qu et al. | Syllable-based acoustic modeling with CTC-SMBR-LSTM | |
Uebel et al. | Improvements in linear transform based speaker adaptation | |
US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Prabhavalkar et al. | Discriminative articulatory models for spoken term detection in low-resource conversational settings | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system | |
Kaiser et al. | Overall risk criterion estimation of hidden Markov model parameters | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
Sukkar | Subword-based minimum verification error (SB-MVE) training for task independent utterance verification | |
Park et al. | Real-time continuous phoneme recognition system using class-dependent tied-mixture hmm with hbt structure for speech-driven lip-sync | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Kang et al. | Lattice based transcription loss for end-to-end speech recognition | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Khosravani et al. | Comparison of Subword Segmentation Methods for Open-vocabulary ASR using a Difficulty Metric | |
Rao et al. | Articulatory Features for Phone Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |