JPH09152886A - 不特定話者モデル生成装置及び音声認識装置 - Google Patents
不特定話者モデル生成装置及び音声認識装置Info
- Publication number
- JPH09152886A JPH09152886A JP7312286A JP31228695A JPH09152886A JP H09152886 A JPH09152886 A JP H09152886A JP 7312286 A JP7312286 A JP 7312286A JP 31228695 A JP31228695 A JP 31228695A JP H09152886 A JPH09152886 A JP H09152886A
- Authority
- JP
- Japan
- Prior art keywords
- state
- speaker
- likelihood
- states
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 181
- 238000009826 distribution Methods 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims description 82
- 230000008569 process Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 24
- 241000021559 Dicerandra Species 0.000 claims 1
- 235000010654 Melissa officinalis Nutrition 0.000 claims 1
- 239000000865 liniment Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 15
- 238000002474 experimental method Methods 0.000 description 25
- 238000012360 testing method Methods 0.000 description 22
- 230000001419 dependent effect Effects 0.000 description 20
- 238000003066 decision tree Methods 0.000 description 17
- 239000000203 mixture Substances 0.000 description 17
- 238000000638 solvent extraction Methods 0.000 description 17
- 238000007476 Maximum Likelihood Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000013461 design Methods 0.000 description 15
- 238000005192 partition Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 13
- 230000008449 language Effects 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006854 communication Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 240000002768 Alpinia galanga Species 0.000 description 2
- 235000006887 Alpinia galanga Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 108010014173 Factor X Proteins 0.000 description 1
- 101150087426 Gnal gene Proteins 0.000 description 1
- 241000489861 Maximus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011981 development test Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
なくてすみ、その計算時間を短縮することができる不特
定話者モデル作成装置及び音声認識装置を提供する。 【解決手段】 複数の特定話者の発声音声データに基づ
いて、バーム・ウェルチの学習アルゴリズムを用いて単
一ガウス分布のHMMを生成し、1つの状態をコンテキ
スト方向又は時間方向に分割したときに、最大の尤度の
増加量を有する状態を検索する。次いで、最大の尤度の
増加量を有する状態を、最大の尤度の増加量に対応する
コンテキスト方向又は時間方向に分割した後、バーム・
ウェルチの学習アルゴリズムを用いて単一ガウス分布の
HMMを生成し、上記の処理を、単一ガウス分布のHM
M内の状態を分割することができなくなるまで又は予め
決められた分割数となるまで繰り返すことにより、話者
独立型のHMMを生成する。また、生成された話者独立
型のHMMを用いて音声認識する。
Description
発声音声データに基づいて不特定話者の隠れマルコフモ
デル(以下、HMMという。)を生成する不特定話者モ
デル生成装置、及び、入力される発声音声文の音声信号
に基づいて当該不特定話者のHMMを参照して音声認識
する音声認識装置に関する。
et al.,“A successive sta
te splitting algorithm fo
r efficient allophone mod
eling”,Proceedings of the
International Conference
on Acoustic Speech and Si
gnal Processing,vol.I,pp.
573−576,1992年」において、従来例の逐次
状態分割法(以下、SSS法という。)を用いたHMM
の生成方法が開示されており、当該SSS法はHMM生
成のために有効的な技術であり、最適なHMMのトポロ
ジーを自動的に学習するメカニズムを提供するものであ
る。従来例のSSS法の背景にある基本的発想は、HM
Mにおける状態を分割するための最も大きな分散を有す
る状態を選択し、次いでその状態にとって最適な分割方
向を採用すれば、HMMの状態ネットーワーク(以下、
HM網という。)を増大させることができるというもの
である。この分割を繰り返し適用して得た結果がHM網
であり、特定の単語より小さいのサブワードの単位(例
えば音素、モーラ)によるコンテキスト及び時間に対す
る分散性を効果的に表している。本出願人が行った幾つ
かの研究においてSSS法は成功裡に使用されており、
また他のHMM設計を凌ぐ性能を示している(例えば、
従来文献2「A.Nagai etal.,“The
SSS法−LR Continuous Speech
Recognition System:Integ
rating SSS−Derived Alloph
one Models and a Phoneme−
Context−Dependent LR Pars
er”,Proceedings of Intern
ational Conference onSpok
en Language Processing,p
p.1511−1514,1992年」、従来文献3
「A.Nagai et al.,“ATREUS:A
Comparative Study of Con
tinuous Speech Recognitio
n Systems at ATR”,Proceed
ings of the International
Conference onAcoustic Sp
eech and Signal Processin
g,vol.II,pp.139−142,1993
年」、及び、従来文献4「S.Sagayama et
al.,“ATREUS:a Speech Rec
ognition Front−end fora S
peech Translation System,
Proceedings of European C
onference on Speech Commu
nication and Technology,p
p.1287−1290,1993年」参照。)。
SS法の不利な点は、これが良好に動作するのが話者依
存型データのトポロジーの学習に限定されていることで
ある。話者独立型の学習においては、SSS法によって
選択される、最も分散の大きな状態は、調音結合の影響
又は時間方向の影響よりもむしろ、話者の分散性をより
反映するものと思われる。SSS法を使用して話者独立
型のモデルを構築するためには、従来文献5「T.Ko
saka et al.,“Tree−Structu
red Speaker Clustering fo
r Speaker−Independent Con
tinuous Speech Recognitio
n”,Proceedings of Interna
tional Conference on Spok
en Language Processing,p
p.1375−1378,1994年」において開示さ
れているように、まず話者依存型のトポロジーを設計
し、次いでそれを話者独立型データについて再学習す
る。この解法は、プロの話者が注意深く読み上げる音声
実験では良好に作用する(例えば、従来文献6「J.T
akami et al.,“Automatic G
eneration of Speaker−Comm
on Hidden Markov Network
by Adding the Speaker Spl
itting Domain to the Succ
essive State Splitting Al
gorithm”,Proceedings of A
coustic Society in Japan,
pp.155−156,1992年」参照。)が、管理
の行き届かない状況においては、認識の点で限界がある
ものと思われる。特に自然に発話する発声音声において
は、一人の話者にとって最適なトポロジーが、異なるア
クセント、テンポ、スタイルの他の話者には適さない場
合もある。
使用されているもので、このSSS法に似た技術として
は、時々決定木のコンテキスト方向のモデリングと呼ば
れる、分割型分布クラスタリングがある。決定木の設計
技術を利用した分布状態の分割型クラスタリングは、例
えば、従来文献7「L.R.Bahl et al.,
“Decision trees for phono
logical rules in continuo
us speech”,in Proceedings
of the International Con
ferenceon Acoustic Speech
and Signal Processing,p
p.185−188,1991年」、及び、従来文献8
「K.−F.Lee et al.,“Allopho
ne Clustering for Continu
ous Speech Recognition”,P
roceedings of the Interna
tional Conference on Acou
stic Speech and SignalPro
cessing,pp.749−752,April
1990年」において全音素のモデルクラスタリング用
として最初に提案され、後に連結された混合のための状
態レベルのクラスタリング(例えば、従来文献9「X.
Huanget al.,“An overview
of the SPHINX−II speech r
ecognition system”,Procee
dings of ARPA Workshop on
Human Language Technolog
y,pp.81−86,1993年」参照。)、及び、
単一ガウス分布へのクラスタリング(例えば、従来文献
10「A.Kannan et al.,“Maxim
um Likelihood Clustering
of Gaussians for Speech R
ecognition”,IEEE Transact
ions on Speech and Audio
Processing,vol.2,no.3,pp.
453−455,1994年」、従来文献11「S.
J.Young et al.,“Tree−base
d state tying for high ac
curacy acoustic modelin
g”,in Proceedings of ARPA
Workshop on Human Langua
ge Technology,pp.307−312,
1994年」、及び、従来文献12「L.Bahl e
t al.,“Context−dependent
vector quantization for c
ontinuous speech recognit
ion”,Proceedings ofthe In
ternational Conference on
Acoustic Speech and Sign
al Processing,vol.II,pp.6
32−635,1993年」参照。)に拡張されてい
る。これらの方法のアプローチは、ビタビ(Viter
bi)のアルゴリズム又は前向き後向きアルゴリズムの
何れかを使用して学習の観測データを、予め決定された
幾つかのHMMのトポロジーが与えられた状態とを結合
させ、次いで学習データの最大尤度に関する目的関数に
基づいてコンテキスト方向の分割のために決定木を成長
させている。SSS法とは違い、決定木のコンテキスト
方向のモデリングは話者独立型HMMの学習において有
効的に利用されている。決定木法とSSS法の両方法間
の重大な相違点は、どの分布を分割するかの選択が、S
SS法では状態分布の分散の包括的な測定に基づいて行
なわれるのに対して、決定木モデリングでは特定のコン
テキスト方向の分割に基づいているという点である。
は、図10に示すHM網を連続して成長させる繰り返し
アルゴリズムである。HM網の各状態にはそれぞれ、下
記の情報が割り当てられている。 (1)状態番号、(2)受理可能な異音カテゴリー(音
素環境要因の直積空間として定義される。)、(3)先
行状態及び後続状態のリスト、(4)出力確率分布のパ
ラメータ、及び、(5)自己遷移確率及び後続状態への
遷移確率。このHM網に対してある音素サンプルとその
音素環境情報が与えられた場合、その音素環境を受理可
能な状態を先行及び後続状態リストの制約内で始端から
終端まで結ぶ1本の経路を一意に決定することができ
る。この経路に沿って各状態を連結したものは、図11
に示すようなHMMと等価なモデルとなる。従って、経
路選択後は通常のHMMと同様に、出力尤度計算やモデ
ルパラメータの推定のためのアルゴリズムをそのまま使
用することができる。
に、まず、2つの混合からどちらがより大きく発散して
いるかに基づいて分割すべき状態を選択し、次にコンテ
キスト方向(音素環境方向ともいう。)及び時間方向へ
の分割についてテストする。図4はそのトポロジーの変
化を図示したものであり、選択された状態がコンテキス
ト方向及び時間方向に分割される様子を表している。
処理を示すフローチャートを図13に示す。図13にお
いて、まず、ステップS1で複数の特定話者の発声音声
データに基づいて、公知のバーム・ウェルチの学習アル
ゴリズムを用いて混合数2の混合ガウス分布のHM網を
生成する。次いで、ステップS2で、最大の分散を有す
る分割すべき状態を検索して決定する。そして、ステッ
プS3で決定された分割すべき状態に対してコンテキス
ト方向の分割テストと、2個の時間方向の分割テストを
実行して、状態を分割するための最良の方向を決定す
る。さらに、ステップS4では、被影響状態を検索して
決定し、K個の被影響状態に対してK個のコンテキスト
方向のクラスタリングを実行することにより、各被影響
状態に対して新しい混合ガウス分布の初期状態の混合分
布パラメータを計算する。次いで、ステップS5では、
被影響状態に対してバーム・ウェルチの学習アルゴリズ
ムを用いて混合数2の混合ガウス分布のHM網を生成す
る。そして、ステップS6で各状態が分割不可能である
か否か又は予め決められた分割数(以下、所定の分割数
という。)となったか否かが判断され、分割可能であり
かつ所定の分割数に達していないならば、ステップS2
に戻って上記の処理を繰り返す。一方、分割できないと
き又は所定の分割数に達しているときは、ステップS7
で得られたHM網をメモリに格納する。
ているものと仮定すれば、この分割によりパラメーター
が変化する可能性のあるすべての状態が含まれる。音素
境界の存在は、手動でラベル付けされたマーク又はビタ
ビの調整方法を用いて知ることができる。さらに詳細に
言えば、被影響状態は、図4が示すように、ネットワー
クがダミー開始ノード及び終了ノードで切断された後に
分割すべき現在の状態に連結される複数の状態のサブネ
ットワーク内のすべての状態である。この定義によれ
ば、より特定的な音素依存サブネットワークが展開され
るまで、分割が行われる毎にほとんど全ての状態が影響
を受けることになる。コンテキスト方向の分割の場合、
コンテキスト依存上のミスマッチによって状態間の幾つ
かの新規パスが不可能になって取り除かれている場合が
ある点に注目する必要がある。図4の(b)では、
「x」がパスの「取り除き」を示している。
主な問題点は、分割すべき最適状態の選択が、実際の分
割方向の選択に先立って行われることにある。各状態の
出力分布は2つのガウス分布が混合されたものであり、
「最適」状態とは、この2つの混合要素間の離散度が最
大のものをいう。但し、こうした混合要素は包括的なも
のであり、可能な分割とは必ずしも対応していないた
め、可能な分割に制約があるとすれば、この基準による
分割最適状態は事実上の最適な選択とはならない場合が
ある。例えば、話者独立型HMMの学習の場合、話者の
多様性によって混合要素を十分に分離することは可能で
あるが、可能な分割が音声的なコンテキスト方向又は時
間方向のものである場合は、新しい状態を加えることに
よって、この分散性をモデル化することはできない。そ
の分割方法自体とは別に分割すべき状態を選択すること
により、我々はまた非減少尤度の保証を失っている。但
し、実際には、尤度の減少に出会うことはまれである。
し、多数の話者の膨大な学習用テキストデータを必要と
せず、従来例に比較して処理装置のメモリ容量の少なく
てすみ、その計算時間を短縮することができる不特定話
者モデル作成装置を提供することにある。
目的に加えて、生成された不特定話者モデルを参照して
音声認識することができ、従来例に比較して音声認識率
を改善することができる音声認識装置を提供することに
ある。
載の不特定話者モデル生成装置は、複数の特定話者の発
声音声データに基づいて話者独立型の隠れマルコフモデ
ルを生成するモデル生成手段を備えた不特定話者モデル
生成装置において、上記モデル生成手段は、複数の特定
話者の発声音声データに基づいて、バーム・ウェルチの
学習アルゴリズムを用いて単一ガウス分布の隠れマルコ
フモデルを生成した後、上記単一ガウス分布の隠れマル
コフモデルにおいて、1つの状態をコンテキスト方向又
は時間方向に分割したときに、最大の尤度の増加量を有
する状態を分割することを繰り返すことにより話者独立
型の隠れマルコフモデルを生成することを特徴とする。
成装置は、請求項1記載の不特定話者モデル生成装置に
おいて、上記モデル生成手段は、複数の特定話者の発声
音声データに基づいて、バーム・ウェルチの学習アルゴ
リズムを用いて単一ガウス分布の隠れマルコフモデルを
生成する初期モデル生成手段と、上記初期モデル生成手
段によって生成された単一ガウス分布の隠れマルコフモ
デルにおいて、1つの状態をコンテキスト方向又は時間
方向に分割したときに、最大の尤度の増加量を有する状
態を検索する検索手段と、上記検索手段によって検索さ
れた最大の尤度の増加量を有する状態を、最大の尤度の
増加量に対応するコンテキスト方向又は時間方向に分割
した後、バーム・ウェルチの学習アルゴリズムを用いて
単一ガウス分布の隠れマルコフモデルを生成する生成手
段と、上記生成手段の処理と上記検索手段の処理を、単
一ガウス分布の隠れマルコフモデル内の状態を分割する
ことができなくなるまで又は単一ガウス分布の隠れマル
コフモデル内の状態数が予め決められた分割数となるま
で繰り返すことにより、話者独立型の隠れマルコフモデ
ルを生成する制御手段とを備えたことを特徴とする。
生成装置は、請求項2記載の不特定話者モデル生成装置
において、上記検索手段によって検索される状態は、直
前の処理で上記生成手段によって分割された新しい2つ
の状態に限定されることを特徴とする。
生成装置は、請求項2記載の不特定話者モデル生成装置
において、上記検索手段によって検索される状態は、直
前の処理で上記生成手段によって分割された新しい2つ
の状態と、上記新しい2つの状態から距離が1だけ離れ
た状態とに限定されることを特徴とする。
は、入力される発声音声文の音声信号に基づいて所定の
隠れマルコフモデルを参照して音声認識する音声認識手
段を備えた音声認識装置において、上記音声認識手段
は、請求項1乃至4のうちの1つに記載の不特定話者モ
デル生成装置によって生成された話者独立型の隠れマル
コフモデルを参照して音声認識することを特徴とする。
る実施形態について説明する。 <1.本実施形態の特徴>図1は、本発明に係る一実施
形態である不特定話者連続音声認識装置のブロック図で
ある。本実施形態の音声認識装置は、特に、特定話者の
発声音声データメモリ30に格納された複数N人の特定
話者の発声音声データに基づいて、従来例のSSS法を
改良した話者独立型SSS法(以下、SI−SSS法と
いう。)を用いて、不特定話者の話者独立型HM網11
を生成してそのメモリに格納する不特定話者モデル生成
部31を備え、HM網11を参照して音声認識を行うこ
とを特徴とする。この音声認識装置は、マイクロホン1
と、特徴抽出部2と、バッファメモリ3と、音素照合部
4と、文脈自由文法データベース20内の所定の文脈自
由文法に基づいて生成されたLRテーブル13を参照し
て音声認識処理を実行する音素コンテキスト依存型LR
パーザ(以下、LRパーザという。)5とを備える。
生成処理>図2は、不特定話者モデル生成部31によっ
て実行される不特定話者モデル生成処理を示すフローチ
ャートである。ここで我々は、「話者独立型HM網のト
ポロジー学習問題」に対して従来例のSSS法とは異な
る解決方法を提案する。すなわち、単に状態にとって最
適な分割法を求める段階、及び分割に最適な状態の摘出
段階とを再配列する方法である。SSS法と区別するた
め、ここではSI−SSS法と呼称するこの新アルゴリ
ズムについて図2を参照して説明する。
の特定話者の発声音声データ(具体的には、発声音声の
特徴パラメータのデータである。)30に基づいてそれ
ぞれ後述する所定の音声の特徴パラメータを抽出した後
音素を切り出して、従来の方法で複数の特定話者用単一
ガウス分布のHM網を生成する。そして、生成したHM
網に基づいて、公知のバーム・ウェルチの学習アルゴリ
ズムを用いて学習を行って単一ガウス分布のHM網を生
成する。次いで、ステップS12では、HM網内のすべ
ての状態に対して分割可能な状態の分割情報を得る。こ
の処理は、ステップS15と同様に実行される。すなわ
ち、詳細後述する最尤分割設定処理を用いてすべての状
態に対して将来の分割の中で最良の分割方向及び音素
(又は音素ラベル)を検索して決定し、これらを分割情
報としてメモリに記憶する。すなわち、分割情報とは、
以下の通りである。 (1)分割したときの期待される尤度の増加量、(2)
分割は、コンテキスト方向であるか、時間方向である
か、並びに、(3)コンテキスト方向の前の音素、当該
音素、後の音素。
報に基づいて最大の尤度の増加量を有する分割すべき状
態を検索し、検索した状態を分割情報に従って分割す
る。すなわち、最大の尤度を有する分割すべき状態を最
良の方向(すなわち、コンテキスト方向か、時間方向)
で分割する。さらに、ステップS14では、分割したと
きの被影響状態を検索して決定し、これらの被影響状態
に対して公知のバーム・ウェルチの学習アルゴリズムを
用いて学習を行って単一ガウス分布のHM網を生成す
る。そして、ステップS15で、詳細後述する最尤分割
設定処理を用いて、ステップS13で分割された2つの
状態及び被影響状態に対して将来の分割の中で最良の分
割方向及び音素(又は音素ラベル)を検索して決定し、
これらを分割情報としてメモリに記憶する。ここで、K
個の被影響状態に対して(K−1)個のコンテキスト方
向の分割テストと1個の時間方向の分割テストが実行さ
れる。ステップS16では、単一ガウス分布のHM網内
の状態が分割不可能であるか、又は単一ガウス分布のH
M網内の状態数が予め決められた分割数(以下、所定の
分割数という。)となったか否かが判断され、分割可能
でありかつ所定の分割数に達していないときはステップ
S13に戻って上記の処理を繰り返す。一方、ステップ
S16で分割が不可能であるとき、又は所定の分割数に
達しているときは、ステップS17で得られたHM網1
1をメモリに格納する。
ータを計算するSSS法の処理の図12のステップS4
は、音素コンテキストの最適な分割法を見つけるステッ
プに非常に良く似ている。初期化には、異なるコンテキ
スト用のサンプル平均値に対して実施するVQ(ベクト
ル量子化)学習手順が含まれている。これは、詳細後述
する分割アルゴリズムに類似している。この段階を少し
改良し、後のテストのために最適な分割からの利得を保
存することによって、図12のステップS3を効率良く
省略し、同時により正確な走査を実現することができ
る。本実施形態のSI−SSS法のアルゴリズムのさら
なる優位点は、バーム・ウェルチの学習アルゴリズムを
用いて単一ガウス分布に対して学習を実行する点であ
る。これは混合ガウス分布の場合より遥かに早い速度で
実行される。
る学習がSSS法アルゴリズムよりSI−SSS法アル
ゴリズムにおいて遥かに高速であるにも関わらず、この
2つの方法による計算コストは、同一規模になると予想
される。全ての被影響状態が更新された場合、両アルゴ
リズムにおけるコンテキスト方向の分割テストの回数は
本質的に同数である。すなわち、被影響状態数をKと仮
定した場合、SSS法は(K+1)回である一方、SI
−SSS法はK回である。SI−SSS法のコンテキス
ト方向の分割テストは、従来例のSSS法の混合初期化
段階より幾分高価であるが、これは最短距離よりクラス
タリングの最尤規準の方を使用しているからである。但
し、その差は僅かなものであり、また、この段階はSS
S法の全体的な計算量からすると比較的小さい部分でし
かない。また、本実施形態のSI−SSS法の時間方向
の分割も、詳細後述されるように、被分割状態から結果
的に生じる2つのガウス分布に対してバーム・ウェルチ
の学習アルゴリズムを用いた学習を必要とすることか
ら、SSS法の時間方向の分割において用いられる単一
の前向きアルゴリズムパスに比較するとやはり経費が掛
かるはずである。さらに、2回のSSS法による時間方
向の分割テストに比べると、K回のSI−SSS法によ
る時間方向の分割テストの方に可能性があるはずであ
る。但し、時間方向の分割コストは、前向きアルゴリズ
ムによるデータ処理量が小さく(単一状態に写象するの
み)、また、時間方向の分割は最大状態長の制約によっ
て結果的に却下されることから、すべてのアルゴリズム
のコストのほんの一部を占めるだけである。従って、S
I−SSS法の時間方向の分割の追加コストが問題とな
ることはない。事実、詳細後述するように、本発明者に
よる実験によれば、SI−SSS法は、分離された26
20単語の話者依存型学習においてはSSS法より早い
ことが示されている。
理時間がSSS法と同等か、又は僅かに早いだけである
としても、HM網の生成コストを削減する利点は依然と
して存在する。被影響状態の部分集合(サブセット)に
関するパラメータの再初期化(SSS法用)、又は最適
分割方法の再評価(SI−SSS法用)を行なうだけ
で、SSS法及びSI−SSS法両方のコスト削減が可
能である。例えば、被影響状態に関しては以下の3つの
レベルが指定可能である。 (A)分割により生成される2つの新たな状態、(B)
これら新たな2つの状態にすぐに近接する全ての状態、
すなわち、分割された新たな2つの状態から距離1にあ
る各状態、並びに、(C)その他のすべての被影響状
態。言い換えれば、図2のステップS15において対象
となる状態を、上記セット(A)のみにするか、上記セ
ット(A)及び(B)のみにするか、上記すべてのセッ
ト(A)、(B)及び(C)としてもよい。
(C)に属する状態の混合パラメータを再設定すること
は必要のない場合がある。SI−SSS法では分割によ
る変更が最小限であることが予想されることから、セッ
ト(C)に当たる状態の分割パラメータを幾つか再推定
することは理に適っている。電子計算機の使用を増やす
ためのSI−SSS法のオプションには以下のものが含
まれる。 (1)同一の分割を保持し、分割の平均値と分散のみを
更新して新しい利得を計算する。 (2)分割方向(例えば、左コンテキスト方向)を保持
するが、早期の収束のために、前のコンテキストを用い
た分割アルゴリズムの初期化を行ってその方向における
コンテキスト方向の最適分割を再評価する。 (3)全般的な状態の再評価を行う。
いては、可能な分割方法の全てに対して評価を行わなけ
ればならない、また全般的な再評価を行なわずに済ます
ことのできるのは、その他の被影響状態だけであるとい
う2点である。被影響状態が完全に再評価されれば、改
善された本実施形態のSI−SSS法のアルゴリズムは
どの段階においても、同一のHMMモデルから開始され
る従来例のSSS法のアルゴリズムに比べて学習データ
の尤度のより大きな増加を保証することになる。しかし
ながら、実際には完全な再評価を行なうことなく、かつ
かなりの低コストでも良い結果が達成される。
生成に使用される可能性のある最大の尤度に関しては、
3つの一般的な目標関数が存在する。最も単純なもの
は、他の幾つかの研究(従来文献9、10、及び12)
で実証されているように、学習データを幾つかの事前指
定されたトポロジーにおける状態に位置調整し、次いで
その結果である状態分布をクラスタ化して、データ及び
所定の状態シーケンスの接続尤度を最大化する方法であ
る。この方法は、多くの用途において成功裡に使用され
てきたもので本質的にはビタビスタイルの学習である
が、バーム・ウェルチの学習アルゴリズムに関連した部
分最適として知られている。
直接的に最大化することであるが、尤度の算定には発話
境界のような固定点間における前向きアルゴリズムの駆
動が必要となる。従って、直接的な尤度規準が有効であ
るのは、SSS法における音素境界のような中間固定点
が使用されている場合に限られる。分割尤度は、被分割
状態が区分される固定された境界回数の範囲内で、全て
のデータサンプル及び状態を前向きアルゴリズムを使用
して算出する。分割結果の良好性の尺度には、それが真
の尤度であり、隣接する状態に対する分割の影響を組み
入れているという優位点がある。不利な点は、音素境界
を必要とすることであり、特に、従来例のSSS法は、
手動でラベル付けされた音素境界を付して使用されてき
た。ビタビ法により調整された音素境界も、ほぼ同じよ
うに動作するものと思われるが、実験において検証され
ていない。但し、分割尤度規準の真の不利な点は単に、
最も要求頻度の高いと思われるSI−SSS法において
使用するには単に高価すぎることである。
り、標準的なバーム・ウェルチ学習アルゴリズムの背後
にある期待値−最大値(Expectation Ma
xization:EM)のアルゴリズム(以下、EM
アルゴリズムという。)の概念(従来文献13「A.
P.Dempster et al.,“Maximu
mLikelihood from Incomple
te Data viathe EM Algorit
hm”,Journal of the Royal
Statistical Society,Vol.3
7,No.1,pp.1−38,1977年」を利用し
て、期待された対数尤度を最大化することである。EM
アルゴリズムの背後にある基本的な結果は、観測データ
y1 T及び隠された又は非観測要素s1 Tの期待された対数
尤度の増加を意味している。この要素は、例えば、HM
Mの状態である。期待された対数尤度Q(θ|θ(p))
は次式で表わすことができ、ここで、Eθ(p)[・]は
パラメータθ(p)に関する対数尤度の期待値である。
s1 T|y1 T,θ)]
(θ)=logp(y1 T|θ)の尤度には変化を与えな
い。
(θ)≧L(θ(p))
り、期待された対数尤度は以下のように表すことができ
る。
|y1 T,θ(p))
タθA(S)及び遷移確率θB(S)の分離最大化を考慮したも
のである。これによって、我々は期待された尤度が増加
するように単一の状態(又は、分割後の2つの状態)に
対するパラメータを推定することができ、それによって
観測データの尤度に減少のないことが保証される。
々はγt(s)及びξt(s,s’)が全てのs≠s*に
関し固定されているという条件にしたがってQ(θ|θ
(p))を最大化している。ここで、「s*」は、状態s
の被分割状態(分割された状態)を表しており、
「s’」は、状態sの1つ前の時間の状態を表わす。詳
細後述するように、初期分割が適正に選択された場合、
条件付き関数Q(θ|θ(p))は、s≠s*に依存する
項が変化せず、従って、他の項に関わる尤度も減少でき
ないために、その非減少が保証される。従って、L
(θ)は、非減少として保証される。状態s*から状態
s0及び状態s1への分割Sに対する期待された対数尤度
の利得は以下のように求められる。
s’,θB(θ))であり、次式の通りである。
下のように表すことができる。
れ、下付き文字mはM次元ベクトル要素を表わすものと
仮定する。この特別な利得の形式は、従来文献10に記
載された、結合された平均値と共分散の尤度規準を使用
している(従来文献14「T.W.Anderson,
“An Introduction to Multi
variate Statistical Analy
sis”,J.Wiley & Sons,New Y
ork,1984年」の第10節3項の結果に基づ
く。)。コンテキスト方向の分割の場合、状態遷移確率
は一定に保持され、数10は期待された全体の利得をも
たらす。一方、時間方向の分割では、期待された全体の
利得は以下の式で求められる。
使用すれば、分割方向の範囲内、及び範囲外の、また状
態間での異なる分割候補を比較し、すべての学習セット
の期待される尤度を最大化させる分割を選択することが
できる。ただ数10及び数11は、尤度自体の増加では
なく、期待される尤度の増加を示しているため、Sにわ
たるG(S)の最大化は、尤度が非減少であることのみ
を保証するものであり、必ずしも尤度を最大化させる分
割を選択しているという点を保証するものではないとい
うことに注意すべきである。
期待される結合尤度が増大するため、従来例のSSS法
において観測尤度に基づく分割方向の選択に使用された
テストとは異なる形式となっている。さらに、これらの
数10及び数11は、分割に最も適したノードを決定す
る際にもSSS法で使用される規準(従来文献1の式
(1))とは異なる形式を採用しているが、この場合
は、SI−SSS法の規準の方が望ましい。従来例のS
SS法の規準は、2つの包括的混合要素の間の距離の度
合いであり、単一状態を有することに関連する尤度の利
得ではない。まして、学習データの尤度の増加に関連づ
けられるようなものではない。
t(s)及びξt(s,s’)の使用は、メモリ容量の増
大化を意味している。メモリ容量を減少させるために、
我々は従来例のSSS法で使用された技術を利用してい
る。それは、音素境界(手動でラベル付けされた又はビ
タビ法により調整された)を使用して各回毎に非ゼロ確
率を有する状態のセットを制約する(すなわち{γ
t(s)}のサイズの減少させる)というものである。
ーチ>従来例のSSS法は基本的には分割クラスタリン
グのアルゴリズムであるため、類似問題の処理における
進歩(すなわち、決定木による設計(従来文献15
「L.Breiman et al.,“Classi
fication andRegression Tr
ees”,Wadsworth Internatio
nal Group,1984年」参照。)から恩恵を
享受することができる。決定木による設計における問題
は、XからYを予測するための関数Yh=f(X)を設
計することである。Yが値y∈RMをとる場合、当該関
数は通常、回帰木と呼ばれる。また、y∈{1,...,
M}である場合には分類木と呼ばれる。決定木関数f
は、Yを直接的に予測するよりむしろ、音声認識(従来
文献16「L.Bahl et al.,“A tre
e−based statistical langu
age model for natural lan
guage speech recognitio
n”,IEEE Transactions on A
coustic Speech,and Signal
Processing,Vol.37,No.7,p
p.1001−1008,1989年」参照。)で使用
される木言語モデルの場合のように確率分布Ph(y|
X)=P(y|f(X))を推定するために使用可能で
ある。推定分布の解釈は、音声認識(例えば、従来文献
10、11参照。)における分割分布クラスタリングの
使用に対応しているため、決定木による設計方法をここ
で適用している。
スタリングにおける典型的なアプローチは、旺盛に成長
するアルゴリズムであり、各段階で目的関数を最も進歩
させる分割を行ないながら連続的に木を成長させてい
る。このアルゴリズムは、可能性のある全ての木木の
葉、すべての可能な変数X(Xの要素)、及び変数X上
で分割可能なすべての方法についてテストを行うことを
要求している。変数X用の最適分割の選択が最も頻度の
高いルーチンであることから、それが比較的高速である
ことが重要である。離散変数Xが値Jを持っている場
合、テストすべきバイナリー分割(又は2分割)は約2
J-1個存在し、これはほとんど絶望的に高価である。従
来文献15のブレーマンほかは、M=2である場合に関
しては、素早い解答を与えている。後に、従来文献17
「P.A.Chou,“Optimalpartiti
oning for classification
andregression trees”,IEEE
Transactionson Pattern A
nalysis and Machine Intel
ligence,Vol.13,No.4,pp.34
0−354,1991年4月」において、ジョウは、さ
らに一般的な事例(J≧2及びM≧2)に対する高速分
割設計用のアルゴリズムを提供している。ジョウのアル
ゴリズムは、単に多くの木設計の目標関数に対して局部
的な最適化を示すだけであるにも関わらず、M及びJに
比例していることから、M>2の場合には、こうしたパ
ラメータの1つ又はその他方において指数関数的であ
る。先に提案されたCARTアルゴリズム(従来文献1
5)よりもさらに効率が良い。例えば音素モデルを使用
するHM網の生成問題においては、Xは分割可能方向
(例えば時間的、又は左、右又は中央音素コンテキスト
方向)である絶対的な(無条件の)変数で構成されてい
る。コンテキスト方向の何れに対しても、Xの値は音素
ラベルであり、日本語ではN=26音素である。従っ
て、状態分割に関するHM網の生成問題は、決定木の無
条件の質問設計に類似しており、可能性のある分割を効
率的にサーチするためのアルゴリズムの恩恵を受けるこ
とができる。
ム(従来文献17参照。)について再検討することから
開始し、次いでこのアルゴリズムが最大のガウスログ尤
度の目的関数にどのように適用されるかを示す。我々は
「HMM生成への適用」を明確にするため、「ノード」
ではなく「状態」、「木」ではなく「HM網」といった
用語を使用して、標準的な決定木の専門用語(及び簡略
表記法)を用いて説明する。標準的な決定木の設計との
1つの相違点は、観測データを単一のノード又は状態に
割り当ることではなく、異なった状態にある観測データ
の尤度を記述する確率分布が存在していることである。
最初の議論を単純化するために、観測データはビタビ法
による調整(学習)によって得ることができる唯一の状
態に関連するものと仮定する。次いで、その結果をバー
ム・ウェルチの学習アルゴリズムに使用できるように拡
張する方法を示す。
ゴリズム>以下では、変数Xを使用して状態sを分割す
るためのジョウ(従来文献17参照。)による分割アル
ゴリズムについて説明する。仮に状態sに導く変数xが
セットASを形成すると仮定しよう。我々はまず、観測
データL(y,yh)を、HM網の(又は決定木)生成
において最小化されるべき損失関数と定義することから
開始する。変数yhはyの1つの表示であって、量子
化、回帰又は直接分類の場合と同様に、Yと同じ空間に
おける値を取ることが可能であり、もしくは、上記の木
言語モデル及び分布クラスタリング例の場合と同様に、
Yを表す確率分布とすることができる。HM網における
状態sの不純性は、ある状態における期待される最小損
失であり、以下の式で与えられる。
定したときの条件付き期待値であり、θ(s)は状態s
のセントロイド(重心、質量重心)であり次式で表され
る。
としてセントロイドθ(s)の代わりにyhを使用する
ときと比較したときの、期待された損失における差であ
る。
は、我々はまずi(s)を固定値とし、次式で表わされ
るiJ(s)を、J個のアレイに分割することによって
達成される可能な最小不純度(これも固定値である。)
として開始する。
クタXが取り得る可能な値である。状態s0及びs1への
バイナリー分割の不純度は以下の式で表される。
め、それらの差異も固定値であり、旺盛に成長する分割
設計においては公知であるように、Δ1を最大にするこ
とは、Δ2を最小にすることと等価である。ジョウは、
次式を示している。
計問題として解釈することが可能である」ということを
意味しており、その目標は、予想される発散を最小化す
るための「エンコーダ」α(xJ)及び「デコーダ」又
はセントロイドθ(sK)を設計することにある。ここ
で、エンコーダは、K=0,1に対してパーティション
AK={xJ:α(xJ)=sK}として記述が可能であ
る。この問題に対する局部的に最適な解は、K−平均値
アルゴリズム、又はベクトル量子化(従来文献18
「Y.Linde et al.,“An algor
ithm for vector quantizer
design”,IEEE Transaction
s on Communication,vol.CO
M−28,pp.84−95,1980年1月」のため
のリンデ・ブゾー・グレイ(Linde−Buzo−G
ray)のアルゴリズムと類似する反復アルゴリズムを
使用して求めることができる。すなわち、これは収束
し、又は、平均的な損失の相対的な変化量が幾つかのし
きい値より小さくなるまで、パラメータα及びθの再推
定を反復することである。さらに明確に言えば、以下の
2つのステップを実行することである。
α(xj)(p+1)を見つける。
するiの値を示す関数であり、数19はk=0,1のと
きに次式を与える。また同様に、「argmin」に代
えて、「argmax」のときは、引数を最大にするi
の値を示す関数である。
θ(sk)(p+1)を見つける。
ウの反復の分割アルゴリズムは、ナーダスほか(従来文
献19「A.Nadas et al.,“An it
erative “flip−flop”approx
imation of the most infor
mative split in the const
ruction of decision tree
s”,Proceedings of the Int
ernational Conferenceon A
coustic Speech and Signal
Processing,pp.565−568,19
91年」によって提案された反復アルゴリズムと同様で
あるが、最小値Δ2に対する最大値Δ1の解釈によってこ
の2段階のメカニズムには差異がある。
のための重み付け2乗エラー値(y∈RM)及び分類の
ための重み付けギニ・インデックス(Gini ind
ex)及び対数尤度(yT=[00...010...
0]クラスMを指示するために第m列に1を有するM値
のクラスインディケータ)等を含む種々の損失関数によ
ってこのアルゴリズムが使用可能であることを示してい
る。ここでは、ガウス分布によって分布が特徴づけられ
ていると仮定して、特に最大の対数尤度の目的関数のた
めのアルゴリズムについて特に説明する。
ウス分布のクラスタリングの問題に関して、y∈RMは
我々の音声認識のアプリケーションにおけるケプストラ
ムベクトルに対応している。Xの各要素は可能な分割方
向(例えば、左コンテキスト方向の音素ラベル)であ
り、XはJ値の離散セットをとるXの要素である(例え
ば、26個の可能な日本語の音素である。)。我々は、
平均値μ(s)及び共分散行列Σ(s)によってパラメ
トリック・ガウス分布のHMMモデルP(y|s)を仮
定する。従って、状態はθ(s)=(μ(s),Σ
(s))によって表される。状態sに対応するXの可能
な値の空間は、ASによって特徴づけられていることを
思い出させる。目標は、AS=A0∪A1である場合に、
状態s0及びs1への状態sの最適な分割を見つけること
にある。
すると、予め決められた幾つかの観測データL(y,
θ)に基づいて、d(s,θ)及び最適デコーダを見つ
けるための式を決定する必要がある。目的が最大尤度
(最尤)である場合は、観測データは、L(y,θ)=
−logP(y|θ)と表わすことができる。この目的
関数のもとでは、数13は以下のようになる。
t∈AsのΣは、xtがAsに属するときのtを変化して
(log p(yt|θ))の和を計算するものであ
る。我々は学習用データから学習しており、また真値P
(y|s)が未知であるために、ここでは経験的分布を
使用している。このことは、標準的な最大尤度のパラメ
ータ推定であり、これは、平均値μ(s)及び共分散Σ
(s)を与えていることに留意する。従って、数21で
表される発散は以下のようになる。
ピング)するときの観測回数であり、θ=(μ、Σ)で
ある。上付きの記号「t」はベクトル転置行列を指し、
|A|は行列Aの行列式を表す。単一のJ個の変数のた
めの状態sにおけるバイナリー分割設定処理は次のよう
に実行される。
尤分割設定処理を示す。図3において、まず、ステップ
S21で、2つの仮定状態の単一ガウス分布の分布パラ
メータに対して次式のように初期値を割り当てる。
の状態の分布パラメータを持っているため、ベクトル量
子化器設計で使用される方法と同様に、尤度が増加する
ことが保証される。次いで、ステップS22でパラメー
タpに1がセットされ、ステップS23で新しいパーテ
ィション{A0 (p),A1 (p)}(具体的には、分割された
状態である。)を見つける。そして、ステップS23で
パラメータjに1をセットし、ステップS25で次の数
26が成立するか否かが判断される。
プS26で各音素ラベルxj、j=1,...,Jに対
して、パーティションA0 (p)にxjを割り当て、NOで
あれば、ステップS27でパーティションA1 (p)にxj
を割り当てる。そして、ステップS28でパラメータj
が個数Jであるか否かが判断され、Kでないときは、ス
テップS29でパラメータjを1だけインクリメントし
てステップS25に戻り上記の処理を繰り返す。ステッ
プS28でYESであるとき、ステップS30で、標準
的な最大尤度パラメータ推定法によりセントロイド{θ
(p)(sK)=(μ(p)(sK)、Σ(p)(sK)):K=
0,1}を次式を用いて計算する。
素の数であり、N0+N1=Nsである。次いで、ステッ
プS31で第1の収束条件としてパーティションは変化
しないか否かが判断され、変化するときはメインルーチ
ンに戻るが、変化しないときはステップS32で第2の
収束条件として、次の数29を満足するか否かが判断さ
れる。
log|Σ(p)(s1)|
めのしきい値である。また、次式が満足することに注意
する。
ば、メインルーチンに戻り、一方、数29ゐ満足しない
ならば、ステップS33でパラメータpを1だけインク
リメントしてステップS23に戻り上記の処理を繰り返
す。
らゆるデータポイントに関するログ確率を累積すること
よりも十分な統計量を使ってデータを示すことにより計
算過程を保存することができる。特に、まず、対象とな
る変数Xが取る得る各xjにおいて対して、状態sに関
連したデータytについて記述する累積統計量を計算す
る。ここで、NjはX=xjを有する状態sにおけるサン
プル(フレーム)数を表すものとする。そして、次式の
ように、1次及び2次統計量を定義する。
段階で一度計算され、回数Njと共にメモリに格納され
ている。下記のパラグラフでは、再分割テスト(数2
7)及びパラメータ再推定におけるこうした統計量の使
用方法を示している。ここで、まず、再分割テスト(数
26)を拡張することについて説明する。
上付きの記号(p)を省略する。総和の項は、数32及
び数33により与えられる統計量を使用するため、以下
のように簡単化することができる。
tA)、及び追跡関数tr(・)が1次演算子であると
いう事実を使用した。これらの結果を数34に組み合え
ると、以下のようなテストの式が得られる。
0)t+Njμ(s0)μ(s0)t)Σ(s0)-1]≦2Njlog|Σ(s1)
|+tr[(Sj 2−2Sj 1μ(s1)t+Njμ(s1)μ(s1)t)
Σ(s1)-1]
方程式は以下の通りである。
の両方は、もし対角共分散であると仮定すれば簡単化さ
れる。クラスタ尤度テストを簡単化するために、以下の
式が成立することに留意する必要がある。
になる。
した場合、数38は次式のように簡単化される。
ムではなくバーム・ウェルチの学習アルゴリズムを介し
て、観測データが状態に蓋然的に(見込みに基づいて)
関連している場合にまで拡張するために、更新されてい
る状態に存在する尤度によって、単に数32及び数33
の和の内側の各項を単に重み付けする。特に、γ
t(s)を時間tのときの状態をsであるときの確率に
対応させる。このとき、新しい十分な統計量は次式で表
される。
両方を使用して計算するものとする。原理上、この情報
は、SSS法及びSI−SSS法におけるバーム・ウェ
ルチの反復から利用可能であるが、SSS法にはこの情
報を全て格納するためのデータ構造がなく、SI−SS
S法の場合はそれを付加する必要がある。SSS法で
は、分割に最適なノード、及びノードが決定されている
場合の最適な分割方法の何れかを求めるに当たってγt
(s)の項を必要としない。これは、分割に最適なノー
ドは包括的な混合ガウス分布から選択され、最良の分割
は前向きアルゴリズムを使用するためである。
HM網の生成における我々の目標は、前述されたサーチ
方法を用いて、各ステップ毎に学習用データの尤度を最
大にまで増加させることである。我々は、上述のよう
に、制約つきEM(期待値−最大値)アルゴリズムの方
法を肯定する議論を行ったが、これは、HM網に予想さ
れる尤度の増加量が、全体でも被分割状態と2つの新し
い状態の期待される尤度の差に過ぎないというものであ
る。並行する2つの状態の尤度は和をとれば元の状態の
尤度になることから、コンテキスト方向の分割において
前後の方向数を制限することは、すなおな方法である。
しかしながら、シーケンス内の2つの状態の尤度は、単
純な和によって与えられない。
分割は、HMMの前向きアルゴリズムの使用、及び分割
された状態以外の状態の状態尤度(γt(s):時間t
における状態sの尤度)の変更を含む。この場合、ネッ
トワークの大部分は、HM網の全体としての尤度におけ
る変化を確立するように評価する必要がある。できる限
り大きなサブネットワークを評価するために必要な追加
コストに加えて、他の状態の尤度が、時間方向の分割に
対して変化するが、コンテキスト方向で変化しないとい
う問題は、時間の方向で分割することを選択する方向に
向かうバイアスとなるであろう。
計におけるこうした問題点を処理するものであり、被分
割状態以外の状態の尤度は分割設計のパラメータ推定段
階において変化しないという制約がある。より明確化す
るために、図5のように状態s*を分割された状態と
し、状態q0及びq1を時間方向の分割によって得られる
2つの状態とする。これらの関係をより明確にするた
め、仮説の新しい状態をqとし、分割された状態候補を
s*と表記する。新しい状態を記述するために推定しな
ければならないパラメータθは、θ={μ(q0),σ
(q0),ν(q0),μ(q1),σ(q1),ν
(q1)}である。ここで、μ(q)は状態qの平均値
ベクトルであり、σ(q)は分散量ベクトルであり、ν
(q)は状態qから状態qへの復帰確率、すなわち、セ
ルフループ状の遷移確率を意味する。HM網におけるこ
うしたパラメータのみが変動し、他は変動しないという
点を保証するためには、次のような制約が必要である。
(q1,q0)+ξt(q1,q1) ここで、
な一般的な項であり、Yはすべての学習セットを表して
いる。これらの制約条件は、数52及び数53を定義し
かつ条件つき確率及び冗長性st=s*の定義を用いる
ことにより、容易に満足させることができ、数54及び
数55を得ることができる
q’|st=s*,st-1=s*,Y)
は、γt(s*)>0であるデータのみを使用し、かつ
γtb(q0)+γtb(q1)=1となるような状態q
0及びq1に対してのみの非ゼロ状態尤度を有する前向き
−後ろ向き標準アルゴリズムを用いて計算することがで
きる。従って、前向き−後ろ向きアルゴリズムを制約す
ることは、単に前向きパス及び後ろ向きパスを適正に初
期化し、もしくは、図6のハッチング部分として表され
ているようなすべてのデータ構造のサブセットを通過さ
せるということに過ぎない。図6は、γht(q)及び
ξht(q,q’)を時間方向の分割に対して計算する
ときに用いるデータと状態とを示し、ここで、図6にお
いて、0は、不可能な状態を示している。一旦、項γt
b(q)及びξtb(q,q’)が計算されると、次式
に従ってパラメータθを計算する。
及びξtb(q,q’)の計算に使用される前向き−後
ろ向きアルゴリズムは、2つの新しい状態に写像する
(マッピングされる)観測データの尤度を見つけるため
に用いることができない。従って、尤度における相対的
な変化は、時間方向の分割の再学習のための停止基準と
して用いることができない。分割は後にバーム・ウェル
チの学習アルゴリズムによって再学習されるため、単に
固定された数の再学習の反復を実行することが妥当であ
り、ここでは4回の反復を使用した。
問題は、コンテキスト方向の分割とは異なり、非減少尤
度の保証がない点である。SI−SSS法による時間方
向の分割再推定方法の場合は、それがEMアルゴリズム
の制約つきバージョンであるために非減少尤度が保証さ
れているが、1つの状態から2つの状態への分割におい
ては、尤度が減少しないことを保証するように初期設定
することができない。この処理において採用している適
当な初期推定は、元の状態の観測分布を使用し、かつ、
仮説の2つの状態における期待される持続時間の和が元
の状態の期待される持続時間と同一になるように、遷移
確率を選択するものである。実際には、まれではあるが
時に尤度の減少は生じる。この場合、その状態の時間方
向への分割は絶対に選択されない。SSS法の時間方向
分割アルゴリズムも同様の問題を抱えている。これは、
ガウス分布の固定されたセット用に最適の時間方向の分
割を選択するからであるが、このガウス分布は時間方向
の分割を特に想定して設計されたものではないため、こ
ういった分割には必ずしも整合しない。しかしながら、
ノードは混合要素間の距離に基づいて、実際の結果に関
わらず分割されるため、従来例のSSS法のアルゴリズ
ムは、悪い時間方向の分割を回避することができない。
もちろん、SSS法のアルゴリズムは、分割処理におい
て状態の再調整を実行することによって、SI−SSS
法の時間分割より大きな中間利得を達成する可能性を有
しているが、この差は小さいと考えられる。なぜなら、
SI−SSS法が直後に続くバーム・ウェルチの再推定
処理において状態の再調整を可能にしているためであ
る。従って、結果的には、SI−SSS法による時間方
向の分割テストの方が、SSS法の場合より改善されて
いる。
識装置>本実施形態においては、音声認識のための統計
的音素モデルセットとしてHM網11を使用している。
当該HM網11は効率的に表現された音素環境依存モデ
ルである。1つのHM網は多数の音素環境依存モデルを
包含する。HM網11はガウス分布を含む状態の結合で
構成され、個々の音素環境依存モデル間で状態が共有さ
れる。このためパラメータ推定のためのデータ数が不足
する場合も、頑健なモデルを生成することができる。こ
のHM網11は、従来例のSSS法から改善されたSI
−SSS法を用いて自動生成される。上記SI−SSS
法ではHM網11のトポロジーの決定、異音クラスの決
定、各々の状態におけるガウス分布のパラメータの推定
を同時に行なう。本実施形態においては、HM網11の
パラメータとして、ガウス分布で表現される出力確率及
び遷移確率を有する。このため認識時には一般のHMM
と同様に扱うことができる。さらに、上記HM網11を
用いた、SSS−LR(left-to-right rightmost型)
不特定話者連続音声認識装置について説明する。この音
声認識装置は、メモリに格納されたHM網11と呼ばれ
る音素環境依存型の効率のよいHMMの表現形式を用い
ている。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
各状態をノードとする複数のネットワークとして表さ
れ、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、不特定話者モデルを用いて音素照
合区間内のデータに対する尤度が計算され、この尤度の
値が音素照合スコアとしてLRパーザ5に返される。こ
のときに用いられるモデルは、HMMと等価であるため
に、尤度の計算には通常のHMMで用いられている前向
きパスアルゴリズムをそのまま使用する。
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブル13を生成してそのメモリに格納さ
れる。LRパーザ5は、上記LRテーブル13を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、LRテーブル13か
ら次にくる音素を予測して音素予測データを音素照合部
4に出力する。これに応答して、音素照合部4は、その
音素に対応するHM網11内の情報を参照して照合し、
その尤度を音声認識スコアとしてLRパーザ5に戻し、
順次音素を連接していくことにより、連続音声の認識を
行い、その音声認識結果データを出力する。上記連続音
声の認識において、複数の音素が予測された場合は、こ
れらすべての存在をチェックし、ビームサーチの方法に
より、部分的な音声認識の尤度の高い部分木を残すとい
う枝刈りを行って高速処理を実現する。
と、音素照合部4と、LRパーザ5と、不特定話者モデ
ル生成部31とは、例えばディジタル計算機によって構
成される。また、特定話者の発声音声データ30とHM
網11と文脈自由文法データベース20とLRテーブル
13とが格納される各メモリとバッファメモリ3とは、
例えばハードディスクメモリで構成される。
法の有効性を確立するための事前作業に相当する2つの
実験について説明する。実験に使用したコーパスについ
て説明した後、読み上げ音声に対する話者依存型音声認
識の実験結果について述べる。この実験は、SSS法が
開発されたときに用いられた典型的な実験であり、極度
に制御されたコーパスではSI−SSS法が解決しよう
としているタイプの問題が現れないために、SI−SS
S法にとっては最も難しいテストとなっている。次い
で、我々の目標である話者独立型音声認識により近いタ
スクにおける利得を実証する予備段階として、多数話者
タスクの実験を行った結果について説明する。
は、発声音声としてより良い話者独立型HMMを開発す
ること、話者独立型音声認識装置の動作において可能な
限り最適な性能を獲得すること、及び話者適合化のより
良い開始点を提供することである。本発明を発明したと
きに可能であった発声音声データ量がバーム・ウェルチ
の学習アルゴリズムを使用する学習には不十分であった
ため、我々は実際の読み上げ音声に対して初期話者モデ
ルを学習させ、発声音声に対してベクトル場平滑化を用
いてそのモデルを適合化することに重きを置いた。
語資料)を使用した。話者独立型実験(話者1−2名)
における初回のトポロジー学習と、話者依存型実験(話
者6名)では、最も使用頻度の高い5240単語(Aセ
ット)からなる分離された単語の読み上げによる日本語
コーパスが使用されている。すべての読み上げ音声コー
パスは、音素ラベルのシーケンスと、各音声セグメント
に対する開始点と終了点とを用いて手書きで書き写され
たものであり、このことにより、SSS法の学習を容易
にしている。音声は、低ノイズ下でプロの話者により録
音された。話者独立型実験では、Aセットで設計された
プロトタイプモデルを、話者独立型読み上げ音声データ
ベース(Cセット:15名の話者が50音素を均等に配
置した文章を異なる発話速度で3回発音している。)の
サブセット上で再学習させた。Cセットデータの録音に
は、Aセットデータの場合と同じタイプのマイクロホン
を使用した。ポーズ単位(休止単位)は手書きでマーク
が付けられたが、音素境界にはマークが付与されていな
い。AセットとCセットコーパスに関しては、従来文献
20「A.Kurematsu et al.,“AT
R Japanese speech databas
e as a tool of speech rec
ognition and synthesis”,S
peechCommunication,9:357−
363,1990年」において説明されている。最後
に、発声音声コーパスを使用して、音声認識の性能評価
を行った(発声音声コーパスは、例えば、従来文献21
「N.Uratani etal.,“ATR Int
egrated Speech and Langua
ge Database”,ATR Technica
l Report TR−IT−0056,1994
年」参照。)。このコーパスは、従来文献22「H.S
inger et al.,“Development
testsets and administrat
ive tools for ATR’snon−re
ad speech databases(SLDB
andSDB)”,Technical Report
TR−IT−0118,ATR,1995年」におい
て明記されているように、学習セットとテストセットと
に分割した。すべての発声音声学習データは、日本語話
者1名、英語話者1名、及び翻訳者(音声言語パート)
2名を含む2言語の会話の集合からなる。データを収集
したのは異なる3つの会社であるために、その品質(例
えば、SNR(信号雑音比))にはかなりの差がある。
使用するのは翻訳者でない話者による音声のみとし、メ
モリ上の制約から、少数の6秒以上のポーズ単位は学習
セットから除外した。
タには、発声音声コーパスの音声言語パート及び音声パ
ートの両方(すなわち、日本語話者2名間の単一言語会
話)を使用した。このデータは、こうした発音には埋ま
ったポーズが多いという点から、より「自然な」ものと
なっている。このテストセットには、女性話者4名(会
話形文体15、音素9711)と男性話者3名(会話形
文体16、音素11231)が含まれている。
2000Hz、フレームシフト5ms、フレーム長20
ms、プリエンファシス0.98、16次のLPC分析
及び16次ケプストラム計算、16次Δケプストラム、
パワー値、及びΔパワー値であった。Δケプストラム計
算用の三角形の回帰窓の長さは、両面とも9フレーム分
(すなわち、90msの両面窓)であった。認識実験
は、日本語を音素対文法で表現した、音素配列上に制約
のあるワンパス−ビタビアルゴリズムを使用して行った
(従来文献23「H.Singer et al.,
“Speech recognition witho
ut grammar or vocabulary
constraints”,Proceedings
of International Conferen
ce on Spoken Language Pro
cessing,pp.2207−2210,1994
年」参照。)。
SSS法アルゴリズムが、少なくとも常にSSS法アル
ゴリズムと同等の性能を示すことを証明するため、我々
は、初回の実験を話者依存型のモードで行った。200
及び400状態数の単一ガウス分布HMMと混合数3の
400状態ガウス分布HMMを、各話者毎にAセットの
偶数番単語(2620語)について学習を行った。初回
のトポロジーでは26の状態を使用して(図7が示すよ
うに、24音素のそれぞれの中心に各1状態と、全音素
が共有する形の左右各1状態)、初回のHM網の学習時
間を減少させ、また各音素が認識可能となることを保証
した。これら複数のHMMは、1310語の奇数番単語
についてテストされた。HM網のトポロジー生成後は、
最大21の反復のバーム・ウェルチ反復を実行し、単一
ガウス分布HMMの状態観測分布を推定した。単一ガウ
ス分布HMMの場合、相対的な尤度利得に関するしきい
値テストを用いて、通常10回未満の反復を必要とす
る。この実験結果は表1の通りである。
93.6 95.1 95.5 ─────────────────────────────────── 平均値 91.9 92.1 93.7 94.1 95.3 95.5 ───────────────────────────────────
(大部分がこの場合である)では、本実施形態のSI−
SSS法の方が従来例のSSS法より僅かに良い結果を
示していることが解る。唯一の例外が話者MHTであ
り、ほとんどのSSS法の開発作業に使用されたもので
ある。特に、話者がプロでありまた録音が高品質である
ことから、この話者依存型データの状態分布の不要な分
散はコンテキスト方向のものであり、その差は予想通り
僅かなものである。
の場合、本実施形態のSI−SSS法は、従来例のSS
S法よりも多くの音素にわたって多数の異音を分配(又
は分類)することがわかった。SI−SSS法は子音に
対してSSS法より多くの異音を分配し、また、母音に
関しては異音を幾分より均等に分配している。分配の相
違点は、特に、/a/と/u/の対比において顕著であ
り、SSS法は/u/よりも/a/に関して格段に多く
の異音を分配するが、SI−SSS法の場合、状態数4
00のHMMでは同様の数の異音を有するが、状態数2
00のHMMでは/u/の方に多くの異音を有してい
る。
PUの計算時間を測定した。計算時間は、SI−SSS
法の方がSSS法より格段に短かった。これは、SI−
SSS法の場合、時間方向の分割の方がコスト高である
ことから、特に可能性のあるすべての時間方向の分割が
選択された後にこれが顕著である。シーケンス内の最大
状態数が、最小の音素持続時間の制約条件である20m
sを有効に確立させるために、4に制限されているた
め、ここでは、時間方向分割数が限定されている。
時間の差を図示したものである。一方、本実施形態のS
I−SSS法は、分割に使用するためバーム・ウェルチ
の状態尤度を格納しなくてはならず、SSS法より以上
の記憶装置を必要とする。2620単語の学習セットで
は、そのコストの差はおよそ、80MBに対して50M
Bである。話者10名であって、話者1名当たり100
0語の話者独立型学習は、100MBの主記憶装置を使
用し、パラメータファイルをディスクへスワップするこ
とによって実行されるものと推定される。
1の連続音声認識装置を用いて、複数話者の音声認識実
験を行い、従来例のSSS法と本実施形態のSI−SS
S法を比較した。6名の話者(MAU、MHT、MX
M、FYM、FMS、FTK)の各人に関し、5240
語のデータベースの偶数番単語から500語をランダム
に選択した(データベースについては、従来技術20参
照。)。選択されたデータは、総計で3000語とな
り、話者依存型の各実験に使用したものとほぼ同数であ
る。複数話者のHMM又は話者依存型HMMの場合、明
らかにより多量の学習データが必要であるが、当実験の
目的は主として、デバッキングのためであった。HM網
の生成処理は、話者依存実験の場合と同じ処理を使用し
た。すなわちHMMを、状態数200の場合は単一ガウ
ス(混合数1)分布で、また状態数400では混合数1
及び3で保持した。音声認識に際しては、話者6名の各
人に付きランダムに選んだ100語を使用して、複数話
者モードでテストした。
ように、本実施形態のSI−SSS法は、一貫して従来
例のSSS法より良い結果を示している。その差が最も
大きいのは、単一(混合数1)の混合ガウス分布を用い
たより高いコンテキスト方向の分解度を有するHMM
(状態数400)の場合である。混合数3を使用する場
合はこの差が小さくなるが、このことは驚くことではな
い。なぜならば、混合数を複数にすることによって、異
音の欠落を補償することができるためである。
1記載の不特定話者モデル生成装置によれば、複数の特
定話者の発声音声データに基づいて話者独立型の隠れマ
ルコフモデルを生成するモデル生成手段を備えた不特定
話者モデル生成装置において、上記モデル生成手段は、
複数の特定話者の発声音声データに基づいて、バーム・
ウェルチの学習アルゴリズムを用いて単一ガウス分布の
隠れマルコフモデルを生成した後、上記単一ガウス分布
の隠れマルコフモデルにおいて、1つの状態をコンテキ
スト方向又は時間方向に分割したときに、最大の尤度の
増加量を有する状態を分割することを繰り返すことによ
り話者独立型の隠れマルコフモデルを生成する。従っ
て、多数の話者の膨大な学習用テキストデータを必要と
せず、従来例に比較して処理装置のメモリ容量の少なく
てすみ、その計算時間を短縮することができる。
成装置においては、請求項1記載の不特定話者モデル生
成装置において、上記モデル生成手段は、複数の特定話
者の発声音声データに基づいて、バーム・ウェルチの学
習アルゴリズムを用いて単一ガウス分布の隠れマルコフ
モデルを生成する初期モデル生成手段と、上記初期モデ
ル生成手段によって生成された単一ガウス分布の隠れマ
ルコフモデルにおいて、1つの状態をコンテキスト方向
又は時間方向に分割したときに、最大の尤度の増加量を
有する状態を検索する検索手段と、上記検索手段によっ
て検索された最大の尤度の増加量を有する状態を、最大
の尤度の増加量に対応するコンテキスト方向又は時間方
向に分割した後、バーム・ウェルチの学習アルゴリズム
を用いて単一ガウス分布の隠れマルコフモデルを生成す
る生成手段と、上記生成手段の処理と上記検索手段の処
理を、単一ガウス分布の隠れマルコフモデル内の状態を
分割することができなくなるまで又は又は単一ガウス分
布の隠れマルコフモデル内の状態数が予め決められた分
割数となるまで繰り返すことにより、話者独立型の隠れ
マルコフモデルを生成する制御手段とを備える。従っ
て、多数の話者の膨大な学習用テキストデータを必要と
せず、従来例に比較して処理装置のメモリ容量の少なく
てすみ、その計算時間を短縮することができる。
生成装置においては、請求項2記載の不特定話者モデル
生成装置において、上記検索手段によって検索される状
態は、直前の処理で上記生成手段によって分割された新
しい2つの状態に限定される。これによって、請求項1
又は2記載の装置に比較して処理装置の計算時間を短縮
することができる。
生成装置においては、請求項2記載の不特定話者モデル
生成装置において、上記検索手段によって検索される状
態は、直前の処理で上記生成手段によって分割された新
しい2つの状態と、上記新しい2つの状態から距離が1
だけ離れた状態とに限定される。これによって、請求項
1、2又は3記載の装置に比較して処理装置の計算時間
を短縮することができる。
においては、入力される発声音声文の音声信号に基づい
て所定の隠れマルコフモデルを参照して音声認識する音
声認識手段を備えた音声認識装置において、上記音声認
識手段は、請求項1乃至4のうちの1つに記載の不特定
話者モデル生成装置によって生成された話者独立型の隠
れマルコフモデルを参照して音声認識する。従って、生
成された不特定話者モデルを参照して音声認識すること
ができ、従来例に比較して音声認識率を改善することが
できる音声認識装置を提供することができる。
のブロック図である。
実行されるSI−SSS法の話者モデル生成処理を示す
フローチャートである。
処理のサブルーチンを示すフローチャートである。
HM網の一例の状態遷移図であって、(a)は元のHM
網であり、(b)はコンテキスト方向の分割を示すHM
網であり、(c)は時間方向の分割を示すHM網であ
る。
によって実行される時間方向の分割を示す状態遷移図で
ある。
によって実行される時間方向の分割のために、数52及
び数53を用いてパラメータγht(q)及びξht
(q,q’)を計算するときに用いるデータ及び状態を
示す図である。
ジーを示す状態遷移図である。
と図13のSSS法の話者モデル生成処理に対するCP
U時間の比較を示すグラフである。
話者認識タスクに対する図2のSI−SSS法の話者モ
デル生成処理と図13のSSS法の話者モデル生成処理
の音素認識率を示すグラフである。
ある。
構造を示す状態遷移図である。
原理を示す図である。
示すフローチャートである。
Claims (5)
- 【請求項1】 複数の特定話者の発声音声データに基づ
いて話者独立型の隠れマルコフモデルを生成するモデル
生成手段を備えた不特定話者モデル生成装置において、 上記モデル生成手段は、複数の特定話者の発声音声デー
タに基づいて、バーム・ウェルチの学習アルゴリズムを
用いて単一ガウス分布の隠れマルコフモデルを生成した
後、上記単一ガウス分布の隠れマルコフモデルにおい
て、1つの状態をコンテキスト方向又は時間方向に分割
したときに、最大の尤度の増加量を有する状態を分割す
ることを繰り返すことにより話者独立型の隠れマルコフ
モデルを生成することを特徴とする不特定話者モデル生
成装置。 - 【請求項2】 上記モデル生成手段は、 複数の特定話者の発声音声データに基づいて、バーム・
ウェルチの学習アルゴリズムを用いて単一ガウス分布の
隠れマルコフモデルを生成する初期モデル生成手段と、 上記初期モデル生成手段によって生成された単一ガウス
分布の隠れマルコフモデルにおいて、1つの状態をコン
テキスト方向又は時間方向に分割したときに、最大の尤
度の増加量を有する状態を検索する検索手段と、 上記検索手段によって検索された最大の尤度の増加量を
有する状態を、最大の尤度の増加量に対応するコンテキ
スト方向又は時間方向に分割した後、バーム・ウェルチ
の学習アルゴリズムを用いて単一ガウス分布の隠れマル
コフモデルを生成する生成手段と、 上記生成手段の処理と上記検索手段の処理を、単一ガウ
ス分布の隠れマルコフモデル内の状態を分割することが
できなくなるまで又は単一ガウス分布の隠れマルコフモ
デル内の状態数が予め決められた分割数となるまで繰り
返すことにより、話者独立型の隠れマルコフモデルを生
成する制御手段とを備えたことを特徴とする請求項1記
載の不特定話者モデル生成装置。 - 【請求項3】 上記検索手段によって検索される状態
は、直前の処理で上記生成手段によって分割された新し
い2つの状態に限定されることを特徴とする請求項2記
載の不特定話者モデル生成装置。 - 【請求項4】 上記検索手段によって検索される状態
は、直前の処理で上記生成手段によって分割された新し
い2つの状態と、上記新しい2つの状態から距離が1だ
け離れた状態とに限定されることを特徴とする請求項2
記載の不特定話者モデル生成装置。 - 【請求項5】 入力される発声音声文の音声信号に基づ
いて所定の隠れマルコフモデルを参照して音声認識する
音声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1乃至4のうちの1つに記
載の不特定話者モデル生成装置によって生成された話者
独立型の隠れマルコフモデルを参照して音声認識するこ
とを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7312286A JP2871561B2 (ja) | 1995-11-30 | 1995-11-30 | 不特定話者モデル生成装置及び音声認識装置 |
US08/758,378 US5839105A (en) | 1995-11-30 | 1996-11-29 | Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7312286A JP2871561B2 (ja) | 1995-11-30 | 1995-11-30 | 不特定話者モデル生成装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09152886A true JPH09152886A (ja) | 1997-06-10 |
JP2871561B2 JP2871561B2 (ja) | 1999-03-17 |
Family
ID=18027425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7312286A Expired - Fee Related JP2871561B2 (ja) | 1995-11-30 | 1995-11-30 | 不特定話者モデル生成装置及び音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5839105A (ja) |
JP (1) | JP2871561B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999059135A2 (de) * | 1998-05-11 | 1999-11-18 | Siemens Aktiengesellschaft | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner |
WO2000014723A1 (fr) * | 1998-09-09 | 2000-03-16 | Asahi Kasei Kabushiki Kaisha | Dispositif de reconnaissance de la parole |
JP2014071417A (ja) * | 2012-10-01 | 2014-04-21 | National Institute Of Advanced Industrial & Technology | Ar−hmmのトポロジ自動生成 |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
US6549899B1 (en) * | 1997-11-14 | 2003-04-15 | Mitsubishi Electric Research Laboratories, Inc. | System for analyzing and synthesis of multi-factor data |
US6691087B2 (en) * | 1997-11-21 | 2004-02-10 | Sarnoff Corporation | Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components |
JP3412496B2 (ja) * | 1998-02-25 | 2003-06-03 | 三菱電機株式会社 | 話者適応化装置と音声認識装置 |
US6049797A (en) * | 1998-04-07 | 2000-04-11 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for clustering databases with categorical attributes |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) * | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6269334B1 (en) * | 1998-06-25 | 2001-07-31 | International Business Machines Corporation | Nongaussian density estimation for the classification of acoustic feature vectors in speech recognition |
US6377921B1 (en) * | 1998-06-26 | 2002-04-23 | International Business Machines Corporation | Identifying mismatches between assumed and actual pronunciations of words |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US6380934B1 (en) * | 1998-11-30 | 2002-04-30 | Mitsubishi Electric Research Laboratories, Inc. | Estimating targets using statistical properties of observations of known targets |
US6195636B1 (en) * | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
US6377924B1 (en) * | 1999-03-12 | 2002-04-23 | Texas Instruments Incorporated | Method of enrolling phone-based speaker specific commands |
US6804648B1 (en) * | 1999-03-25 | 2004-10-12 | International Business Machines Corporation | Impulsivity estimates of mixtures of the power exponential distrubutions in speech modeling |
US6421641B1 (en) * | 1999-11-12 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for fast adaptation of a band-quantized speech decoding system |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6535849B1 (en) * | 2000-01-18 | 2003-03-18 | Scansoft, Inc. | Method and system for generating semi-literal transcripts for speech recognition systems |
US6697769B1 (en) * | 2000-01-21 | 2004-02-24 | Microsoft Corporation | Method and apparatus for fast machine training |
US7099809B2 (en) * | 2000-05-04 | 2006-08-29 | Dov Dori | Modeling system |
US6910000B1 (en) * | 2000-06-02 | 2005-06-21 | Mitsubishi Electric Research Labs, Inc. | Generalized belief propagation for probabilistic systems |
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US8788452B2 (en) * | 2001-03-08 | 2014-07-22 | Deloitte Development Llc | Computer assisted benchmarking system and method using induction based artificial intelligence |
US7239324B2 (en) * | 2001-03-23 | 2007-07-03 | Microsoft Corporation | Methods and systems for merging graphics for display on a computing device |
US7038690B2 (en) * | 2001-03-23 | 2006-05-02 | Microsoft Corporation | Methods and systems for displaying animated graphics on a computing device |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
GB0204474D0 (en) * | 2002-02-26 | 2002-04-10 | Canon Kk | Speech recognition system |
WO2003077423A2 (en) | 2002-03-08 | 2003-09-18 | Quellan, Inc. | High speed analog-to-digital converter using a unique gray code having minimal bit transitions |
GB2387008A (en) | 2002-03-28 | 2003-10-01 | Qinetiq Ltd | Signal Processing System |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US7788097B2 (en) * | 2002-06-06 | 2010-08-31 | Nuance Communications, Inc. | Multiple sound fragments processing and load balancing |
US7340392B2 (en) * | 2002-06-06 | 2008-03-04 | International Business Machines Corporation | Multiple sound fragments processing and load balancing |
US7035361B2 (en) | 2002-07-15 | 2006-04-25 | Quellan, Inc. | Adaptive noise filtering and equalization for optimal high speed multilevel signal decoding |
US7934144B2 (en) | 2002-11-12 | 2011-04-26 | Quellan, Inc. | High-speed analog-to-digital conversion with improved robustness to timing uncertainty |
US7571097B2 (en) * | 2003-03-13 | 2009-08-04 | Microsoft Corporation | Method for training of subspace coded gaussian models |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
JP2007502054A (ja) | 2003-08-07 | 2007-02-01 | ケラン インコーポレイテッド | クロストークキャンセルのための方法とシステム |
US7804760B2 (en) | 2003-08-07 | 2010-09-28 | Quellan, Inc. | Method and system for signal emulation |
JP2005141601A (ja) * | 2003-11-10 | 2005-06-02 | Nec Corp | モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム |
WO2005050896A2 (en) | 2003-11-17 | 2005-06-02 | Quellan, Inc. | Method and system for antenna interference cancellation |
US7616700B2 (en) | 2003-12-22 | 2009-11-10 | Quellan, Inc. | Method and system for slicing a communication signal |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
US7725079B2 (en) | 2004-12-14 | 2010-05-25 | Quellan, Inc. | Method and system for automatic control in an interference cancellation device |
US7522883B2 (en) | 2004-12-14 | 2009-04-21 | Quellan, Inc. | Method and system for reducing signal interference |
US20070033044A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition |
US8924212B1 (en) | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8700403B2 (en) * | 2005-11-03 | 2014-04-15 | Robert Bosch Gmbh | Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling |
DE112007001045B4 (de) | 2006-04-26 | 2019-05-16 | Intersil Americas LLC | Verfahren und System zur Reduzierung von Strahlungs-Emissionen aus einem Kommunikationskanal |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US8423364B2 (en) * | 2007-02-20 | 2013-04-16 | Microsoft Corporation | Generic framework for large-margin MCE training in speech recognition |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
KR101780760B1 (ko) * | 2011-06-30 | 2017-10-10 | 구글 인코포레이티드 | 가변길이 문맥을 이용한 음성인식 |
US8727991B2 (en) | 2011-08-29 | 2014-05-20 | Salutron, Inc. | Probabilistic segmental model for doppler ultrasound heart rate monitoring |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9626960B2 (en) * | 2013-04-25 | 2017-04-18 | Nuance Communications, Inc. | Systems and methods for providing metadata-dependent language models |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
CN104821934B (zh) * | 2015-03-20 | 2018-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
CN111523565B (zh) * | 2020-03-30 | 2023-06-20 | 中南大学 | 一种大数据的流式处理方法、系统及存储介质 |
-
1995
- 1995-11-30 JP JP7312286A patent/JP2871561B2/ja not_active Expired - Fee Related
-
1996
- 1996-11-29 US US08/758,378 patent/US5839105A/en not_active Expired - Lifetime
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999059135A2 (de) * | 1998-05-11 | 1999-11-18 | Siemens Aktiengesellschaft | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner |
WO1999059135A3 (de) * | 1998-05-11 | 2003-04-03 | Siemens Ag | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner |
US7003460B1 (en) | 1998-05-11 | 2006-02-21 | Siemens Aktiengesellschaft | Method and apparatus for an adaptive speech recognition system utilizing HMM models |
WO2000014723A1 (fr) * | 1998-09-09 | 2000-03-16 | Asahi Kasei Kabushiki Kaisha | Dispositif de reconnaissance de la parole |
KR100415217B1 (ko) * | 1998-09-09 | 2004-01-16 | 아사히 가세이 가부시키가이샤 | 음성인식 장치 |
JP2014071417A (ja) * | 2012-10-01 | 2014-04-21 | National Institute Of Advanced Industrial & Technology | Ar−hmmのトポロジ自動生成 |
Also Published As
Publication number | Publication date |
---|---|
US5839105A (en) | 1998-11-17 |
JP2871561B2 (ja) | 1999-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
Shinoda et al. | A structural Bayes approach to speaker adaptation | |
US5835890A (en) | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon | |
EP0533491B1 (en) | Wordspotting using two hidden Markov models (HMM) | |
US7664643B2 (en) | System and method for speech separation and multi-talker speech recognition | |
WO1996022514A2 (en) | Method and apparatus for speech recognition adapted to an individual speaker | |
US20050119885A1 (en) | Speech recognition utilizing multitude of speech features | |
Hazen | A comparison of novel techniques for rapid speaker adaptation | |
Chen et al. | Automatic transcription of broadcast news | |
Ketabdar et al. | Enhanced phone posteriors for improving speech recognition systems | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
Das et al. | Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions. | |
Su | Combining speech and speaker recognition: A joint modeling approach | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
Sirigos et al. | A hybrid syllable recognition system based on vowel spotting | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
Mandal et al. | Improving robustness of MLLR adaptation with speaker-clustered regression class trees | |
Digalakis et al. | Continuous Speech Dictation on ARPA's North American Business News Domain | |
Chien | Online unsupervised learning of hidden Markov models for adaptive speech recognition | |
Gorin et al. | Component structuring and trajectory modeling for speech recognition | |
Kim et al. | Online adaptation using speatransformation space model evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090108 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090108 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100108 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110108 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110108 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120108 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140108 Year of fee payment: 15 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |