JP5065693B2 - 空間−時間パターンを同時に学習し認識するためのシステム - Google Patents

空間−時間パターンを同時に学習し認識するためのシステム Download PDF

Info

Publication number
JP5065693B2
JP5065693B2 JP2007018135A JP2007018135A JP5065693B2 JP 5065693 B2 JP5065693 B2 JP 5065693B2 JP 2007018135 A JP2007018135 A JP 2007018135A JP 2007018135 A JP2007018135 A JP 2007018135A JP 5065693 B2 JP5065693 B2 JP 5065693B2
Authority
JP
Japan
Prior art keywords
state
new
feature vector
transition
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007018135A
Other languages
English (en)
Other versions
JP2008186171A (ja
Inventor
コンスタンティン・マルコフ
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007018135A priority Critical patent/JP5065693B2/ja
Publication of JP2008186171A publication Critical patent/JP2008186171A/ja
Application granted granted Critical
Publication of JP5065693B2 publication Critical patent/JP5065693B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明はパターン認識システムに関し、特に、測定値又は観察値の空間−時間パターンを同時に学習し認識するための、教師無しの適応学習能力を有するパターン認識装置に関する。
<はじめに>
現在の自動音声認識システムは、2つの別々の動作モードを有する。トレーニングと、認識とである。トレーニングの後、システムのパラメータは固定され、トレーニング条件とテスト条件との間にミスマッチが生じると、通常は適応手順が行なわれる。
生物学的及び技術的観点から見れば、ライフスパンを学習段階と認識段階とに人為的に分離することは現在の自動音声認識(Automatic Speech Recognition:ASR)システムの欠点である。こうした方法は、整合した環境で動作するシステムでは可能であるが、環境が変わればうまくいかない。費用のかかる再トレーニングを避けるため、最近の研究では高速適応化とオンライン適応学習とに焦点をあてている。
しかし、このような方法は必然的に、それまでよく学習してきたパターンを破壊してしまう。これは、認知科学において壊滅的忘却(catastrophic forgetting)として知られる現象である。インテリジェントなシステムであれば、変化する環境に適応するのみならず、その知識を保存することもできなければならない。これは、壊滅的忘却なしの、生涯にわたる、すなわち終わりのない学習能力を示唆する。もちろん、段階的な干渉(知識の消去)は不可避であり、望ましくさえある。これがなければ、このようなシステムは遅かれ早かれそのメモリ資源を使い果たしてしまうからである。現実の応用では、環境を制御できることは稀であり、またその特徴について前もって知識を得ることも稀である。このため、システムには新たな要求が生じることになる。すなわち、このシステムは教師無しの適応学習が可能でなければならない、ということであり、これはニューラルネットワークの文献では自己組織化と称されている。
現在のASRシステムの主たる目標は、所与の音声信号について最も確率の高い単語シーケンスを見出すことである。言い換えれば、興味があるのはその信号が持つ語彙的な情報のみであり、話者が誰であるか(identity:ID)、話し方のスタイル、感情的な状態等の存在する他の情報は、信号特性に望ましくない変動を生じる「ノイズ」であると考えられる。これは、このような変動に対し頑健なシステムを要求する。信号の可変性が非静止環境、通信チャンネル、付加的ノイズ等によってももたらされる場合、この課題は特に困難となる。
ASRシステムの頑健性を改善するために、多くの方法とアルゴリズムとが提案されてきた。しかしながら、依然として、可能な状況の全てにおいて一貫してうまく働くような、この問題に対する効果的な解決策はない。
人間との自然なコミュニケーションが可能な機械を構築するにあたっては、発話の語彙的内容のみでなく、話者(ID、アクセント、感情)及び環境(オフィス、街路等)の情報も重要となる。現在は、このような情報を得るために、通常は単一のファクタのみ、例えば話者のID又は発話された言語のみを認識又は特定可能な、別個のシステムが用いられる。この場合、言語学的内容から来る変動性は「不所望」であり、これに対処しなければならない。このような方法は、実務的な観点からはきわめて非効率である。
別の選択肢は、音声信号の変動性を正規化又は減少させる代わりに、これを学習して、語彙的情報だけでなく、興味のある他の何らかの情報とともに、同時に出力するようなシステムを設計することである。このようなシステムは、教師無しのやり方で連続して学習を行なうことができなければならない。変動性の元となるものすべてについて、前以って知識を得ることは不可能だからである。このこともまた、自己組織化する終わりのない学習システムを持つ、という思想につながる。
人間と機械との学習能力のギャップを埋めるために、多くの研究者が、このようなシステムを設計するための思想の源として人間の能力の研究に目を向けてきた。日常の経験から、人間は生涯を通じて学習が可能であり、新たな知識を獲得しても、先に学習したことの記憶が流し去られるわけではない、ということができる。
人間の脳がどのように働いているかについては、多くが依然としてよく分かっていないが、ニューロンレベルの学習には、ヘッブ則等のいくつかの基本的な原則が定式化されている。ヘッブ則は、シナプス前後のニューロンにおいて同時に発生する活動が、これらのニューロン間の接続を強化するにあたって決定的に重要である、という仮説である。脳の研究によって、神経系はトポロジー的な構造を有することが示された。類似の刺激は脳の中でトポロジー的に近い区域を活性化させるのである。この観察が、いくつかのニューラルネットワークアーキテクチャの開発につながった。
終わりのない、又は生涯にわたる学習の原理は、いわゆる安定性−柔軟性のジレンマを生み出す。システムは如何にして、それまでに学習した知識を保存しながら、新たな事物の学習を続けることができるか、という問題である。この問題については、ニューラルネットワークの研究分野において、以下を含むいくつかの解決策が提案されている。すなわち、適応共振理論(Adaptive Resonance Theory:ART)[非特許文献1]、生涯学習セル構造(Life−long Learning Cell Structures)[非特許文献2]、及び自己組織化漸次的ニューラルネットワーク(Self−Organizing Incremental Neural Network)[非特許文献3]である。通常は、新たな知識を受容するために新たなノードを追加することによって保証され、一方で接続の重みによって学習率を減じることによって、必要とされるネットワークの安定性を提供する。
空間−時間パターンの学習と認識とを同時に行ない、これらを思い出すことのできるシステムが、非特許文献4で提案されている。このシステムは自己組織化マップ(Self−Organizing map:SOM)と、同様の有限長さの入力パターンのみをとるARTネットワークとの組合せである。加えて、入力空間におけるシステムの動作範囲を決定する最初のSOM層を学習するために、オフラインの前処理ステップが必要とされる。
いわゆるガイド付伝播ネットワーク(Guided Propagation Networks:GPNs)に基づく、終わりのない学習システムが、非特許文献5に示されている。音声及び自然言語処理を含む、このシステムの様々な考え得る応用が提示されている。
G.カーペンター及びS.グロスバーグ、「自己組織化ニューラルネットワークによる適応パターン認識のART」、コンピュータ、77−88ページ、1988年3月。(G. Carpenter and S. Grossberg, "The ART of adaptive pattern recognition by a self-organizing neural network," Computer, pp. 77-88, Mar. 1988.) F.ハムカー、「生涯学習セル構造−壊滅的干渉無しの連続した学習」、ニューラルネットワークス、第14巻、551−573ページ、2001年。(F. Hamker, "Life-long learning Cell Structures -continuously learning without catastrophic interference," Neural Networks, vol. 14, pp. 551-573, 2001.) S.フラオ及びO.ハセガワ、「オンラインの教師無し分類及びトポロジー学習のための漸次的ネットワーク、ニューラルネットワークス、第19巻、90−106ページ、2006年。(S. Furao and O. Hasegawa, "An incremental network for on-line unsupervised classification and topology learning," Neural Networks, vol. 19, pp. 90-106, 2006.) N.スリニバサ及びN.アージャ、「空間時間パターン学習、認識及び想起のためのトポロジー的時間的相関器ネットワーク、IEEEトランザクション、ニューラルネットワーク、第10巻、第2号、356−371ページ、1999年3月。(N. Srinivasa and N. Ahuja, "A topological and temporal correlator network for spatiotemporal pattern learning, recognition and recall," IEEE Trans. Neural Networks, vol. 10, no. 2, pp. 356-371, Mar. 1999.) D.ベロー、「時間的符号化に依拠した一致検出アーキテクチャの例」、IEEEトランザクション、ニューラルネットワークス、第15巻、第5号、963−979ページ、2004年9月。(D. Beroule, "An instance of coincidence detection architecture relying on temporal coding," IEEE Trans. Neural Networks, vol. 15, no. 5, pp. 963-979, Sept. 2004.) T.マルチネス及びK.シュルテン、「トポロジー表現ネットワーク」ニューラルネットワークス、第7巻、第3号、507−522ページ、1994年。(T. Martinetz and K. Schulten, "Topology representing networks," Neural Networks, vol. 7, no. 3, pp. 507-522, 1994.)
真正で効果的な終わりのない学習システムは、実時間の適応学習が望ましい広範な分野で用いることができる。このようなシステムが利用可能となれば、人と機械との対話は全く違ったものとなるであろう。残念ながら、先行技術のニューラルネットワークは、音声パターンのような空間−時間データでは動かない。非特許文献4で提案されたシステムは、入力空間におけるシステムの動作範囲を決定する最初のSOM層を学習するために、オフラインの前処理ステップを必要とする。従って、これは真正の終わりのない学習システムではない。非特許文献5で提案されたGPNシステムは、確証となる実験結果を欠いている。さらに、GPNの実際的な欠点は、空間−時間的入力データを、2進パターンに変換する必要があるということである。
従って、この発明の目的の一つは、測定値又は観測値の所与の空間的−時間的パターンを実時間で、かつ教師無しで適応学習及し認識する能力を有するシステムを提供することである。
この発明の別の目的は、オフラインのトレーニング無しで、測定値又は観測値の所与の空間的−時間的パターンを同時に学習し認識する能力を有するシステムを提供することである。
この発明の第1の局面は、ネットワークモデルを用いて物理的測定値から導出された特徴ベクトルのシーケンスの空間−時間パターンを同時に学習し認識するためのシステムに関する。特徴ベクトルの各々は予め定められた特徴量空間内に定義されている。ネットワークモデルは、特徴量空間に定義される一組の状態と、状態間の遷移と、状態間の横方向接続とを含む。状態の各々は、出力値の確率密度関数を規定する。遷移の各々は、状態から状態への遷移を規定するとともに遷移の発生頻度と関連付けられている。横方向接続の各々は、隣接する状態の対を規定するとともに、横方向接続によって接続された状態のいずれかがシステムによって最後に経由されてからの経過時間の測定値と関連付けられている。
このシステムは、ネットワークモデルを表すデータセットを記憶するためのモデル記憶手段と、現在の状態の識別子を記憶するための現在状態記憶手段と、新たな特徴ベクトルに応答して、新たな特徴ベクトルに最も良く整合する状態であって、かつ特徴量空間において新たな特徴ベクトルからしきい値距離内にある状態が存在する場合は、それを次の状態と決定し、存在しない場合はネットワークに新たな状態を追加するための手段とを含む。新たな状態は、新たな特徴ベクトルと現在の状態の識別子によって特定される現在の状態とによって規定される。新たな状態は、現在の状態からの次の遷移を規定する。
このシステムはさらに、次の状態が決定されたことに応答して、モデル記憶手段に記憶されたモデルにおける次の遷移の頻度を更新するための手段と、次の状態が決定されたことに応答して、次の状態と、それに隣接する状態との確率密度関数の各々を、予め定められた更新関数によって更新するための手段と、次の状態が決定されたことに応答して、次の状態と、その隣接する状態との接続に関連付けられた経過時間の測定値が予め定められた初期値にリフレッシュされ、かつ他の接続に関連付けられた経過時間の測定値が増分されるように、ネットワークモデル内の横方向接続を更新するための手段と、横方向接続が更新されたことに応答して、予め定められたしきい値より大きい経過時間の測定値と関連付けられている接続を削除するための手段と、接続のいずれかが削除されたことに応答して、何の接続も有していない状態をネットワークモデルから除去するための手段と、現在の状態の識別子を出力状態シーケンスの末尾に追加するための手段と、現在状態記憶手段に記憶された現在の状態の識別子を、次の状態の識別子で置換するための手段とを含む。
決定するための手段は、現在の状態からの遷移を有する状態の組にあって、かつ新たな特徴ベクトルからしきい値距離内にある、新たな特徴ベクトルに最も近い、次の状態の候補を発見するための第1の発見手段と、第1の発見手段が次の状態の候補を発見できなかったことに応答して、現在の状態からの遷移を持たず、新たな特徴ベクトルからしきい値距離内にある、新たな特徴ベクトルに最も近い、次の状態の候補を発見するとともに、ネットワークモデルを、現在の状態から次の状態の候補への新たな遷移が生成されるように更新するための、第2の発見手段と、第1又は第2の発見手段によって次の状態の候補が発見されたことに応答して、次の状態の識別子を次の状態の候補の識別子に設定するための手段と、第1又は第2の発見手段によって次の状態の候補が発見されなかったことに応答して、ネットワークモデルに新たな状態を追加するための手段とを含んでもよく、新たな状態は新たな特徴ベクトルによって規定される確率密度関数と現在の状態からの遷移とを有し、新たな状態の遷移は初期頻度の値と関連付けられている。
横方向接続を更新するための手段は、次の状態と、新たな特徴ベクトルに次に近い状態との間の接続が生成されるようにネットワークモデルを更新するための手段と、次の状態とそれに隣接する状態との間の接続の経過時間の測定値をリフレッシュするための手段と、ネットワークモデル内の接続の経過時間の測定値を増分するための手段とを含んでもよい。
この発明の第2の局面に従ったコンピュータプログラムは、コンピュータ上で実行されると、コンピュータを上述のシステムのいずれかとして機能させる。
[第1の実施の形態]
我々は、終わりのない学習原理を実現し、既存の生涯学習構造の限界を避けようと試みた。そうするにあたって、目標としたのは、自己組織化する、かつトポロジーを表す、終わりのない学習システムであって、発話パターンの持続時間、ダイナミックレンジ又はパラメータ化に何ら制限を課さないシステムを生成することである。
<ダイナミック隠れマルコフネットワーク>
1.一般的構造
上述の問題への解決策を求め、さらに最近の神経学的−生物学的研究結果から刺激を受けて、教師無しでオンラインの適応学習が可能であり、一方で、以前に獲得した知識を保存できる、隠れマルコフ状態のネットワークを開発した。発話パターンは、ネットワークを通る状態のシーケンス、すなわち経路として表される。ネットワークは以前に見たことのないパターンを検出することができ、もしこのような新たなパターンに遭遇すると、これは新たな状態と遷移とをネットワークに追加することで学習される。不要なイベント又は「ノイズ」に対応する経路及び状態を経由することは、従って、稀にしかないので、これらは段階的に除去される。従って、ネットワークは必要に応じて成長したり収縮したりする。すなわち、ダイナミック隠れマルコフネットワークはその構造をダイナミックに変化させる。
学習プロセスは、ネットワークが存続する限り、すなわち理論的には永久に続くので、これは終わりのない学習と呼ばれる。発話パターンの認識は、学習と同時に行なわれ、従ってネットワークは常に、単一の学習/認識モードで動作する。
先に説明したとおり、この学習及び認識の新たな枠組に従ったネットワークは隠れマルコフモデル(Hidden Markov Model:HMM)を基本とする。これは、測定値又は観測値の入力シーケンスに応じて、その構造をダイナミックに変化させる。従って、これを、ダイナミック隠れマルコフネットワーク(Dynamic Hidden Markov network、略して「DHMネット」)と呼ぶことにする。
分離して綴った文字からなる小規模データベースでの初期の実験では、DHMネットは終わりのない学習が可能であることを示し、以前に学習した発話パターンを完璧に認識した。
DHMネットは自己ループと、それらの間の遷移とを備えた、隠れマルコフ状態を含む。
図1は、簡単な左から右へのHMM構造を概略的に示す。なお、これはDHMネットではない。図1を参照して、このHMMは3個のHMM状態80、82、84を含む。HMM状態80、82、84の各々は他の状態への1又は複数の遷移エッジ92、96及び100と、自己ループ90、94及び98とを有する。各HMM状態の遷移の各々について、遷移確率が割当てられる。同様に、HMM状態80、82、84の各々は、可能な出力値に関する確率分布を有する。
HMMにおいては、モデルの挙動を規定するパラメータ(確率)は不可視であり、不明である。これらのパラメータは統計学的に学習される。
同様に、DHMネットにおける可能な出力に関する状態遷移の確率と確率分布も、統計学的に学習される。一例を図3に示す。
図3を参照して、DHMネット140はHMM状態150、152、154、156、158、160、162及び164と、実線の矢印で示す状態間の学習済み経路(状態遷移)とを含む。図3において、HMM状態160は削除された状態である。従って、状態160と、状態160へ/からの遷移200及び202(長い破線矢印で示す。)とは、削除されている。これに対して、HMM状態162及び164は新たにDHMネット140に追加されたものであり、これらの状態へ/からの遷移210、212及び214(短い破線矢印で示す。)もまた、新たに追加されたものである。
さらに、DHMネット140において、隣接する状態は横方向接続で接続されている。図3において、横方向接続は、矢印でない破線180、182、184、186、188、190、192及び194で示される。
各状態は多変量ガウス関数によってモデル化された入力特徴量空間の一部を表す。従って、これらの状態はそれぞれ平均ガウスベクトルを有する。ネットワークを通る状態シーケンスすなわち経路は、学習された発話パターン又はパターンのクラスに対応する。これを図2に示す。
図2を参照して、特徴量空間が座標のX、Y及びZ軸で規定されると仮定する。観察された状態は超空間120上にある。状態の各々は入力特徴ベクトルによって特定される。例えば、状態122は入力ベクトル124に対応し、物理的測定値の所与の観察パターンにおいて状態122に隣り合う状態126は入力ベクトル128によって規定される。状態122から状態126への遷移130は入力パターンの経路の一部となる。状態間の遷移を接続することにより、入力パターンに対応する経路が特定される。
他の方法と同様、DHMネットのネットワークの柔軟性は、新たなパターンに遭遇するたびに新たな状態及び遷移を付加していくことで保証される。
DHMネットにおける実際的な問題は、何をもって「新たな」パターンと定義し、それをいかにして検出するか、ということである。偽イベントやノイズは、必然的に状態を割当てるが、その経路が再び経由されることはないであろう。このような状態(及び経路)は「死んだ」と考えられ、ネットワークから段階的に除去されるべきものである。
2.「新しさ」の検出
一般に、すでに学習済みのものから十分に異なるパターンはいずれも、新たなパターンと考えることができる。何をもって十分に異なると判断するかに関して、再び、人間の聴覚系の研究に目を向ける。
音圧レベルの変化に対する人間の感受性には限界があることが知られている。多くの心理学的−生物学的研究がこの調査を行なっているが、広帯域のノイズについては、強度の検出可能な最小の変化ΔIは刺激の強度Iにほぼ比例することが分かっている。すなわち、ΔI/Iは一定である(ウェーバーの法則)。対数の領域では、検出可能な最小変化はΔL=log(1+ΔI/I)であり、これは全ての強度値について一定で、約0.23であると推定される。
発話音声に対してもウェーバーの法則がほぼ当てはまると仮定し、かつASRシステムフロントエンドで推定される発話スペクトルパワーが発話強度に比例すると仮定すれば、概念的には、同じように「聞こえる」全ての発話パターンはΔLに等しい固定された分散を持つガウス関数でモデル化できることになる。従って、対数パワースペクトルが(それまでに学習された全てのパターンを表す)ガウス平均のいずれからもΔLより遠くにあるパターンはいずれも、新たな、すなわち異なる、発話パターンであると考えられる。このため、ΔLは新しさを検出する基準として好適である。
しかし、全帯域のパワースペクトルで作業するのは好ましくない。なぜなら、実際のところ、パワースペクトルは、通常であればフィルターバンク(FB)で推定されるからである。この場合、ΔLは平均FBパワー差に適用されることになり、これは単一のフィルタ出力より大きくなる可能性がある。
知覚的な差を生じさせないようなFBエネルギ変動の上方の境界を推定するために、以下の実験を行なった。5秒の音声発話を、標準的な前処理手順に従って48チャンネルのFB対数エネルギベクトルのシーケンスに変換した。その後、平均が0.23、分散が0.2から3.0の範囲のガウスノイズが特徴ベクトルに付加された。修正されたFBエネルギから音声波形を再構築し、これを何人かの被験者に提示して、知覚的評価を行なった。変化に気づいたのは、ガウスノイズの分散が2.0より大きい場合のみであった。
上述の考察に従い、DHMネット状態確率密度モデルに、固定対角共分散行列を伴う、単一の多変量ガウス関数を選択した。DHMネットは入力ベクトルが条件付きで独立であると仮定される一次のマルコフ鎖であるので、パターンレベルの新しさの検出は、複数のフレームレベルでの新しさの検出と置換えることができる。従って、所与の入力ベクトルxはいずれも、もし(x−μ2>θであれば、「新しい」と考えることができる。ただし、μは最も良く整合する状態の平均であり、θはいわゆるビジランスしきい値である。ここで、「最も良く整合する」状態とは、入力ベクトルに最も近い状態を意味する。
これを図4に概略的に示す。図4を参照して、DHMネット内に5個のHMM状態232、234、236、238及び240があり、新たな特徴ベクトルが与えられたと仮定する。この新たなベクトルは特徴量空間内で新たなデータ点230を規定する。もしHMM状態232、234、236、238及び240のうちいずれかがこの新たなデータ点230からある距離θの範囲内(円250で示す)にある場合、この入力データは新しいとは考えられない。図4において、状態点234が新たなデータ点と最もよく整合し、かつこれが円250内にあるため、この入力パターンは新しいものではないと判断される。
3.安定な学習
「はじめに」の部分で検討した型のニューラルネットワークでは、各学習の繰返しにおいて、重みの更新ΔWnは一般に次のように設定される。
Figure 0005065693
ここでXは入力ベクトルであり、αはn回目の繰返しにおける学習率である。安定な学習は、αが以下の制約(非特許文献3)に従った場合に保証される。
Figure 0005065693
DHMネットの状態確率密度関数(Probability Density Function:PDF)学習としては、最大尤度推定アルゴリズムをシーケンシャルにしたものを用いる。この場合、入力ベクトルXの後のガウス平均更新Δμは以下のようになる。
Figure 0005065693
これは式(1)と全く同じである。学習率はα=1/であり、これは明らかに式(2)の制約を満足している。
4.トポロジーの表現
DHMネットの状態は、入力特徴量空間の異なる領域を表すため、図2に示すように、隣接する状態が隣接する領域に対応することが重要である。すなわち、状態ネットワークはトポロジーを表すネットワークでなければならない。ニューラルネットワークのノード(DHMネットの場合は状態)間の横方向接続が、競合ヘッブ則(非特許文献6)を用いて構築される場合、結果として得られるネットワークは完全にトポロジーを表すネットワークである。横方向接続の各々が、特徴量空間におけるトポロジー的に隣接した状態の対を規定している。
競合ヘッブ則は、以下のように説明できる。すなわち、入力ベクトルの各々について、最も近い2個のノードをエッジによって互いに接続する。このようなネットワークは、2つの非常に有用な特性を有する。すなわち、1)入力空間において互いに隣接するベクトルは、互いに隣接するノードによって表される。2)入力空間において2つのベクトル間に経路がある場合、これらのベクトルを表す2個のノードを接続する経路がある筈である。これらの特性はしばしば、隣接性及び経路保存特性と称される。
5.「死んだ」状態の除去
ネットワークがダイナミックにその構造を変化させるとき、状態の隣接性関係もまた変わる。これらの変化に対処するため、横方向接続の各々には年齢が与えられる。これは接続が生成されたか、リフレッシュされた場合にゼロとなる。その他の場合、接続年齢は、接続の状態の一つが経由されるたびに増加する。従って、年齢は、その接続のいずれかの状態をシステムが最後に経由してからの経過時間の測定値として機能する。このようにして、ある年齢に達した接続、すなわち、ある程度の期間にわたってリフレッシュされていないものは、除去される。
DHMネットは多くの横方向接続を持つことができ、ある状態について、その全ての接続が除去された場合、この状態は「死んだ」と宣言され、その状態に入る遷移、及びその状態から遷移の全てとともに、除去される。
6.復号
特徴ベクトルのシーケンスによって表されるいずれかの入力発話パターンに関して、ネットワークを通る最良の状態シーケンスすなわち経路を発見することが目標である。これは以下のように定式化できる。
Figure 0005065693
ネットワークの隣接性及び経路保存特性は、所与の現在のベクトルxに対し、現在の状態sの各々が最良の状態であることを保証する。最良の状態シーケンスは、再帰的な手順を用いて見出すことができる。Sは時間tまでの最良の経路であると仮定する。すると、以下が成り立つ。
Figure 0005065693
ここで、Succ(s)は状態sに後続する状態の集合、すなわち、状態sから入来する遷移を有する状態の集合である。この集合は(自己ループがあるため)s自身を含み、さらに、おそらくは新たに追加された状態を含む。上の再帰は、最良の状態シーケンスは、次の入力ベクトルの各々について最良となる次の状態を発見することによって、シーケンシャルなフレーム同期の方法で得られることを示している。
7.認識
DHMネットでの認識は、復号された最良の状態シーケンスを適切に解釈することによって行なわれる。人間がこの課題を遂行するのと同じやり方で、ネットワーク中の経路が、それらが表すパターンの特性と関連付けられる。最初の近似では、各経路と、それに対応する状態とが、この経路が生成されたか又は再び経由されたときの情報の全てでラベル付けされることを意味する。これは、語彙的内容、話者の情報、環境情報等を含み得る。
音声発話がネットワークに提示されるとき、一般には次の2つの事例が生じうる。1)復号された状態シーケンスが「古い」状態のみからなる場合。これは、全ての発話パターン又はその全てのセグメントがすでに見たことのあるものであって学習済みであることを意味する。この場合、経路と状態のラベルとから、入力発話を認識することができる。2)復号された状態シーケンスが、完全に、又は部分的に、新たに追加された状態からなる場合。この場合、新たな状態の各々について、それに最も近接する状態からラベルを得て、新たな状態をその隣接するものと「同じように聞こえる」と解釈する。
この認識原理は極めて一般的なものであって、大規模な音声認識を可能にするためには、明らかに、別のインテリジェントなシステム、例えばより高度なDHMネット層であって最良の状態シーケンスについて最良の解釈を自動的に発見できるようなものが必要となるであろう。
8.DHMネットアルゴリズム
完全なDHMネットのアルゴリズムを以下に要約して述べる。
(1)空のネットワークから開始する。
(2)現在の状態をsCURRとして与えられているとき、次の入力ベクトルxについて、最も良く整合する後続の状態sを見つける。もしこれがビジランス試験に合格すれば、これを次の状態として設定して、すなわちsNEXT=sとして、(5)に進む。
(3)他の全ての状態から、最良の状態sを見出す。もしこれがビジランス試験に合格すれば、sNEXT=sとして、(5)に進む。
(4)新たな状態sを末尾に付加する、すなわちsNEXT=sとし、その平均をxに設定する。
(5)遷移を現在の状態sCURRからsNEXTにする(更新する)。
(6)sNEXTとそれに隣接するもの全ての平均を、式(3)に従って更新する。
(7)sNEXTと次に最良の状態との接続を生成(又はリフレッシュ)する。全てのsNEXTの接続の年齢を増加させる。
(8)いずれかの接続の年齢が年齢しきい値THAGEに達したら、その接続を除去する。接続のない状態を除去する。
(9)最良の状態シーケンスの末尾にsNEXTを付加する。現在の状態sCURR=sNEXTに設定し、(2)に進む。
このアルゴリズムを実現するコンピュータプログラムの制御フローは、図7に関連して後で説明する。
<音声認識フロントエンドユニットの構造>
図5は、上述の復号アルゴリズムを組入れた音声認識フロントエンドユニット260の機能を示すブロック図である。音声認識フロントエンドユニット260はマイクロフォン262からのオーディオ信号を受け、DHMネット音響モデルを構築してこれをトレーニングし、音響モデルを利用して音声信号を復号し、復号された(推定された)状態シーケンスを出力する。音声認識フロントエンドユニット260は例えば、より高度な音声認識システムのフロントエンドとして用いることもできる。
図5を参照して、音声認識フロントエンドユニット260は、マイクロフォン262からのオーディオ信号を採取し、オーディオ信号を、10ミリ秒のレート、20ミリ秒のスライド量で移動するウィンドウで、入力オーディオ信号のディジタル形式の音声フレームのストリームに変換する音声キャプチャブロック280を含む。
音声認識フロントエンドユニット260はさらに、入来する音フレームをウィンドウ処理し、ウィンドウ処理されたフレームにFFT(Fast Fourier Transform:高速フーリエ変換)を施すFFTブロック282と、FFTブロック282の出力を受けるように接続されたFB284と、FB284のエネルギビンの各々の対数をとり、特徴ベクトルのシーケンスを出力するための対数関数ブロック286とを含む。
音声認識フロントエンドユニット260はさらに、特徴ベクトルのシーケンスを受け、DHMモデルを生成してトレーニングし、DHMネットモデルを利用して、特徴ベクトルのシーケンスを同時に復号するためのデコーダ288と、デコーダ288によって生成されトレーニングされたDHMネットモデルを記憶するための記憶部290と、DHMネットのトレーニングに用いる定数THAGE、THVIGI及び他の変数を記憶するための記憶部292とを含む。THAGEは横方向接続を削除すべきか否かを判断するために用いられるしきい値であり、THVIGIは入力ベクトルが特徴量空間において新たな状態を規定するか否かを判断するのに用いられる、図4に示されるビジランスしきい値θである。
デコーダ288の出力は、DHMネットにおけるHMM状態のシーケンスであり、そのパターンが音声認識に用いられる。
図6はDHMネットで生成される状態の各々に関する状態レコード300の構造を示す。状態レコードのデータセットは全体としてDHMネットを定義し、これを表している。
図6を参照して、状態レコード300は、状態レコード300を特定する2進値を記憶するための識別子(ID)フィールド302と、この状態からの出力トークンのPDFの平均ベクトルを記憶するための平均ベクトルフィールド304と、DHMネットにおいてこの状態に後続する1又は複数の状態のリンクトリストである、後続状態リスト306と、この状態との間で横方向接続を有する1又は複数の状態の、これもまたリンクトリストである隣接状態リスト308とを含む。
後続状態リスト306は状態識別子項目320のリストを含む。状態識別子項目320の各々は後続状態のうち1つを特定する後続状態IDフィールド330と、状態レコード300によって規定された状態から後続状態IDフィールド330によって特定された状態への遷移の発生頻度を記憶する遷移頻度フィールド332とを含む。この頻度は、後続状態への遷移の確率を計算するのに用いることができる。
状態が自己ループを有する場合、状態レコード300の状態のID、すなわちIDフィールド302の値もまた、状態識別項目320のうち1つに記憶される。
隣接状態リスト308は、横方向接続項目340のリストを含む。項目340の各々は、この状態と横方向接続を有する状態を特定する隣接状態IDフィールド350と、この接続の年齢を記憶するための接続年齢フィールド352とを含む。
図7はデコーダ288を実現するコンピュータプログラムの制御構造を示す。図7を参照して、このプログラムは、このプログラムで用いられる変数、インデックス、及びデータベース接続を初期化する初期化ステップ370と、図5に示される記憶部290に空のDHMネットワークを準備するステップとを含む。このプログラムで用いられる変数は、sCURR,s,s,sNEXT及びsを含み、これらについては全て後述する。変数sCURRは現在の状態のIDを示し、ステップ372で初期化される。最良の状態シーケンス、すなわち最も確からしい状態のシーケンスもまた、空のリストとしてステップ372で準備される。
プログラムはさらに、対数関数ブロック286から供給される入力ベクトルXを読むステップ374と、sCURRの状態レコード300の後続状態リスト306に列挙された状態の中から、入力特徴ベクトルXに最も良く整合する後続状態sを見出すステップ376と、ステップ376で見出された最も良く整合する後続状態がビジランス試験に合格するか否かを判定し、テストの結果に従って命令実行シーケンスのフローを制御するステップ378とを含む。
この実施の形態では、「ビジランス試験に合格する」とは、当該状態と入力ベクトルとの特徴量空間内の距離が、ビジランスしきい値θ(又は「THVIGI」)に等しいかそれより小さいことを意味する。
プログラムはさらに、ステップ378での判断が「NO」であった場合に実行され、DHMネットの他の全ての状態から最良の状態sを見出すステップ382と、ステップ382の後、状態sがビジランス試験に合格するか否かを判断し、試験結果に従って命令実行シーケンスのフローを制御するステップ384と、ステップ384の結果が「NO」であった場合に実行され、DHMネットに新たな状態sを付加する、すなわち状態sの新たなレコード300を生成するステップ388とを含む。
プログラムはさらに、ステップ388の後、新たな状態sを次の状態sNEXTとして設定するステップ390を含む。ここで、新たな状態識別子項目320がsCURRの状態レコード300の後続状態リスト306に追加される。後続状態IDフィールド330にはs=sNEXTのIDが書込まれ、遷移頻度フィールド332はゼロに設定される。
プログラムはさらに、ステップ380、386及び390の後に、状態sCURRからsNEXTへの遷移を行なうステップ392を含み、ここでは状態sCURRのレコード300の後続状態IDフィールド330でsNEXTのIDを有する状態識別子項目320の遷移頻度フィールド332に1が加算される。プログラムはさらに、上述の式(3)により、sNEXTとその全ての隣接する状態との平均を更新するステップ393を含む。ステップ392において、sCURRからsNEXTへの遷移がない場合、状態sCURRの状態レコード300の後続状態リスト306に新たな状態識別子項目320が追加される。ここでsNEXTの値(次の状態のID)が、後続状態IDフィールド330内に書込まれ、遷移頻度フィールド332はゼロに設定される。
プログラムはさらに、ステップ378の判断が「YES」であった場合に実行され、状態sを次の状態sNEXTとして設定し、制御をステップ392に移すステップ380と、ステップ384の判断が「YES」であることに応答して、状態sを次の状態sNEXTとして設定し、制御をステップ392に移すステップ386とを含む。
図8を参照して、プログラムはさらに、ステップ393に続いて、sNEXTと次に最良の状態との接続をリフレッシュするステップ394を含む。すなわち、次に最良の状態と同じIDを有するsNEXTの状態レコードの横方向接続項目340(図6を参照)の隣接状態リスト308において、接続年齢フィールド352が「0」にリフレッシュされ、同様に、sNEXTと同じIDを有する次に最良の状態の横方向接続項目340の隣接状態リスト308において、接続年齢フィールド352が「0」にリフレッシュされる。もし次に最良の状態とsNEXTとの間に接続がない場合には、次に最良の状態とsNEXTとの状態レコード300の各々に新たな横方向接続項目340が生成される。ここで、次に最良の状態とsNEXTとのIDが、次に最良の状態とsNEXTとの状態レコード300のそれぞれの隣接状態IDフィールド350に書込まれる。
プログラムはさらに、ステップ394に続いて、sNEXTの全ての横方向接続の年齢を増加させるステップ396と、ステップ396に続いて、接続年齢のうちしきい値THAGEと等しいものがある状態レコードが存在するか否かによって条件付きで分岐するステップ398と、いずれかの接続年齢=THAGEである状態レコードが存在する場合に実行され、その状態レコードの接続を除去するステップ400と、ステップ400に続いて、接続無しの状態レコードが存在するか否かによって条件付きで分岐するステップ402と、接続無しの状態レコード300が存在する場合に実行され、その状態レコード300を、記憶部290に記憶されたDHMネットから除去するステップ404とを含む。
プログラムはさらに、ステップ404に続いて、最良の状態シーケンスの末尾にsNEXTを付加するステップ406と、ステップ406に続いて、sCURRにsNEXTを設定し、その後図7に示すステップ374に進むステップ408とを含む。ステップ398で、接続年齢がTHAGEと等しい状態レコードがないと判断された場合、又はステップ402で接続無しの状態がないと判断された場合には、制御はステップ406に進む。
このプログラムでプログラムされたコンピュータにより、図5に示された音声認識フロントエンドユニット260のデコーダ288が実現される。
<コンピュータによる実現>
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で実行される上記コンピュータプログラムとによって実現できる。図11はこの実施の形態で用いられるコンピュータシステム450の外観を示し、図12はコンピュータシステム450のブロック図である。ここで示されるコンピュータシステム450は単なる例示であって、他の構成でも利用可能である。
図11を参照して、コンピュータシステム450は、コンピュータ460と、全てコンピュータ460に接続された、モニタ462、キーボード466、スピーカ458、マイクロフォン490、及びマウス468とを含む。コンピュータ460はさらに、DVD(Digital Versatile Disc:デジタル多用途ディスク)ドライブ470とメモリポート472とを含む。
図12を参照して、コンピュータ460はさらに、DVDドライブ470とメモリポート472とに接続されたバス486と、全てバス486に接続された、CPU(Central Processing Unit:中央処理装置)476、コンピュータ460のブートアッププログラム等を記憶するROM(Read Only Memory:読出専用メモリ)478、CPU476によって使用される作業領域を提供するとともにCPU476によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory:ランダムアクセスメモリ)480、スピーカ458及びマイクロフォン490が接続されるサウンドボード488、及びハードディスク474とを含む。
上述の実施の形態のシステムを実現するソフトウェアは、DVD482又は着脱可能メモリ484等の記憶媒体上に記録されて配布され、DVDドライブ470又はメモリポート472等の読出装置を介してコンピュータ460に提供され、ハードディスク474に記憶される。CPU476がプログラムの実行を開始すると、プログラムはハードディスク474から読出され、RAM480に記憶される。CPU476内の図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、命令が実行される。CPU476は処理対象のデータをハードディスク474から読出し、処理の結果をこれもまたハードディスク474に記憶する。
コンピュータシステム450の一般的動作は周知であるので、ここではその詳細は説明しない。
ソフトウェアの配布の仕方については、これは必ずしもDVD482等の記録媒体上に固定されていなくてもよい。例えば、ソフトウェアはネットワークを介して接続された別のコンピュータから分配されてもよい。ソフトウェアの一部はハードディスク474に記憶されてもよく、残りの部分がネットワークを介してハードディスク474に入れられ実行の際に統合されてもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に応じて制御された様態で機能を実行する。従って、OSによって又はサードパーティによって提供されうる一般的な機能を含まないプログラムであって単に一般的機能を実行する命令の組合せのみを指定するプログラムもまた、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれることは明らかである。
<音声認識フロントエンドユニット260の動作>
音声認識フロントエンドユニット260は以下のように動作する。話者が1つ又は複数の文章を発話する。音声はマイクロフォン262によってアナログ音声信号に変換され、音声キャプチャブロック280に供給される。音声キャプチャブロック280は入力音声信号をディジタル形式に変換し、10ミリ秒のレートで、20ミリ秒のスライド幅で移動するウィンドウのディジタル音声信号フレームのシーケンスを出力する。
FFTブロック282は供給された音声信号フレームの各々を周波数の領域に変換する。FFTブロック282の出力はFB284に供給される。各音声信号フレームについて、FB284は24ビンの出力スペクトルを出力し、これらは次に対数関数ブロック286に与えられて、これらのスペクトルの対数がとられ、それによって特徴ベクトルのシーケンスが出力される。
音声認識フロントエンドユニット260の開始時に、デコーダ288は記憶部292(すなわち図12のRAM480)を初期化し、初期の空のDHMネットを生成する(図7のステップ370及び372)。デコーダ288はさらに、変数sCURRをヌルに設定し、これは、DHMネットがこれから構築されるべきことを示す。
−1回目の繰返し−
図7に示されるように、デコーダ288はステップ374で入力特徴ベクトルを読出す。すなわち、デコーダ282は、対数関数ブロック286から特徴ベクトルを受け、このベクトルを読込む。
ステップ376で、デコーダは最も良く整合する後続の状態sを発見しようとする。開始時にはDHMネットは空なので、最も良く整合する後続状態sは存在しない。この場合、図示しないが、デコーダ288は第1のレコードに対し、新たなレコード300を生成する。すなわち、デコーダ288は記憶部290に新たな状態レコード300を生成する。この状態レコード300のIDフィールド302には、新たに生成されたID=IDを入れる。平均ベクトルフィールド304には入力された特徴ベクトルが入る。後続状態リスト306と隣接状態リスト308とは、この新たな状態(この状態sを「s」と称する)が遷移を有していないことを意味する値であるヌルに設定される。横方向接続も存在しない。変数sCURRは「s」に設定される。制御はステップ374に戻る。
−2回目の繰返し−
ステップ374で、デコーダ288は次の入力特徴ベクトルを読込む。デコーダ288は、最も良く整合する後続状態sを発見しようとする。この段階で、DHMネットには状態が一つ、すなわちsしかない。従って、この例では状態sがここで発見される。
次に、ステップ378で、sが新たに入力されたベクトルXに関しビジランス試験に合格するか否かが判断される。すなわち、状態sと入力ベクトルXとの特徴量空間における距離がビジランスしきい値THVIGI以下であるか否かが判断される。
−ビジランス試験合格の場合−
状態sがビジランス試験に合格した場合、デコーダ288はステップ380を実行し、ここでsが次の状態として設定される。つまり、sNEXTの値にsが代入される。これは、遷移が自己ループであることを意味する。
ステップ392で、sからsへの遷移がなされる。すなわち、後続状態リスト306がヌルであるので、デコーダ288はsの状態レコード300に新たな状態識別子項目320を生成し、ここで後続状態IDフィールド330には「ID」(=状態sのID)が入り、遷移頻度フィールド332は0に設定される。sの状態レコード300では、後続状態idはid=「ID」である状態識別子項目320の遷移頻度フィールド332に1が加算される。ステップ393で、sの状態レコード300の平均が式(3)を用いて更新される。ステップ394で、デコーダ288はDHMネット内の接続をリフレッシュしようとする。横方向接続がないので、ステップ394では何も行なわれない。
ステップ396で、デコーダ288は全てのsの接続の年齢を増加させようとする。sには接続がないので、ここでは何も行なわれない。
同様に、ステップ398から404までも行なわれず、ステップ406で、状態sを表すID=「ID」が最良の状態シーケンスの末尾に添付される。こうして、最良の状態シーケンスは、{ID ID}となる。
ステップ408で、sCURRに再びsが設定され、制御はステップ374(図7)に戻る。
−ビジランス試験に不合格の場合−
状態sがステップ378のビジランス試験に合格しない場合、入力ベクトルは状態sから十分異なるので、「新しい」と考えられる。ステップ382で、デコーダ288はDHMネット内の他の全ての状態から、最良の状態sを発見しようとする。動作のこの段階では、s以外の状態はないので、ステップ384での判断は「NO」となり、ステップ388で、デコーダ288はDHMネットに新たな状態sを追加する。
すなわち、状態sについて新たな状態レコード300が生成され、ここでIDフィールド302にはこの状態のための新たに生成されたIDであるIDが入り、平均ベクトルフィールド304には第2の繰返しのステップ374で得られたベクトルが入り、後続状態リスト306及び隣接状態リスト308はヌルに設定される。ステップ390で、デコーダ288はsを次の状態として設定する。すなわち、sNEXTの値はsに設定される。
ステップ392で、sからsへの遷移がなされる。sの状態レコード300にはsからsへの遷移がないので、sの状態レコード300内の後続状態リスト306に新たな状態識別子項目320が追加され、後続状態IDフィールド330にはID(=状態sのID)が入り、遷移頻度フィールド332は0に設定される。その後、遷移頻度フィールド332に1が加算される。
ステップ394で、デコーダ288はDHMネット内の接続をリフレッシュする。すなわち、sとsの状態レコード300にはsとsとの間の接続項目がないので、sとsの状態レコード300の各々の隣接状態リスト308において新たな横方向接続項目340が生成され、それぞれの隣接状態IDフィールド350にはID及びIDがそれぞれ入る。その後、sの状態レコード300の隣接状態IDフィールド350において「ID」を有する横方向接続項目340(すなわち、sとsとの接続)の接続年齢フィールドがゼロにリフレッシュされる。同様に、sの状態レコード300の隣接状態IDフィールド350において「ID」を有する横方向接続項目340の接続年齢フィールドがゼロにリフレッシュされる。こうして、sとsとの接続の接続年齢がゼロにリフレッシュされる。
ステップ396で、デコーダ288がsとsとの接続の年齢を1だけ増加させる。THAGEが1より大きいと仮定して、ステップ398、400、402又は404では何も行なわれない。新たに生成された状態sがステップ406で最良の状態シーケンスに付加される。すなわち、sのID(=ID)が最良の状態シーケンスの末尾に付加される。従って、最良の状態シーケンスは{ID ID}となる。ステップ408で変数sCURRの値はsに設定され、制御はステップ374(図7)に戻る。
−第3及びそれ以降の繰返し−
第2の繰返しの後、ステップ374でデコーダ288によって読込まれたベクトルの各々について、デコーダ288はステップ376のsCURRに後続する状態の内で最も良く整合する状態を発見しようとする。このような状態があり、かつその状態がビジランス試験に合格すれば、この状態が次の状態に設定される。このような状態がなければ、ステップ382で、他の状態の中から最も良く整合する状態を発見する。このような状態が存在し、その状態がビジランス試験に合格すれば、その状態が次の状態に設定される。そのような状態がなければ、新たな状態と、現在の状態からその新たな状態への遷移とが、ステップ388と392とでそれぞれ生成される。
ある状態を経由するごとに、対応する遷移の頻度がステップ392で1づつ増分される。ある状態から出る遷移全ての頻度を用いれば、その状態の各々の遷移の遷移確率を計算することができる。
ある状態を再経由するか、新たな状態が生成されるたびに、その状態と隣接する状態との接続がゼロにリフレッシュされ、他の接続の年齢は1だけ増分される。年齢がTHAGEと等しい接続があれば、その接続はステップ400で削除される。従って、稀にしか再経由されない状態の接続は、時間がたてば削除される。ある状態の接続全てが削除されると、その状態はそれに関連する遷移とともにDHMネットから除去される。従って、偽イベント又は「ノイズ」に相当する経路や状態は段階的に除去される。
この結果、ネットワークは必要に応じて成長したり収縮したりする。言換えれば、ネットワークはダイナミックにその構造を変える。
典型的には、DHMネットは高速動作のため、状態レコード300の集合の形でRAM480に記憶されることになる。しかし、音声認識フロントエンドユニット260がシャットダウンされる前に、DHMネットをハードディスク等の不揮発性記憶装置に保存してもよい。音声認識フロントエンドユニット260がその動作を再開する場合、ハードディスクから状態レコード300を読出し、RAMにロードしても良い。この場合、音声認識フロントエンドユニット260はDHMネットを何もないところから作成する必要がない。当業者には容易に理解されるように、このようにしてトレーニングされたDHMネットを他のシステムに移植することもできる。
<実験>
DHMネット等の終わりのない学習システムにとって、入手可能なデータをトレーニング、開発及びテスト、モデルトレーニング、チューニング及びテスト、に分割するという、伝統的な評価手法はあまり意味を成さない。
実験のために、日本人の話者20名(男性10名、女性10名)が発話した、22の英語の文字の単一のサンプルからなる、スペルされた文字の発話の小規模データベースを選択した。合計発話数は440であった。発話の各々は、10−msのレートで20−msのスライドウィンドウで計算した24個の対数フィルタバンクエネルギからなる特徴ベクトルのシーケンスに変換された。全てのDHMネットの状態の共分散が単位行列に設定された。すなわちビジランスしきい値θ=1.0に設定された。
第1の実験では、ネットワークの学習能力をテストした。全てのデータを用いた学習が20回繰返された。図9は観察されたデータ尤度の変化を示す。図9を参照して、増加している飽和曲線が、DHMネットは安定した学習が可能であることを明確に示している。
次に、ネットワークが以前に学習した知識を忘れることなく新たな事柄を学習できるかを確認するために、以下の実験を行なった。始めに、「MAU」という文字列で識別されるある話者のみによる学習の繰返しを10回行なった。その後、次の10回の繰返しに、別の話者によるデータ(「MMS」という文字列で識別される。)を用いた。その後、MAUからのデータをさらに10回繰返してネットワークに与えた。最後に、同じ手順をMMSのデータでも繰返した。
図10は、このような学習の間の、データ尤度を示す。図10を参照して、データがそれまでに見たのことのあるパターンに変わる20回目と30回目の繰返しで、尤度はそれらを最後に見たときの点からの上昇を続けた。これは、異なる話者のデータによる学習も、以前に記憶した知識を破壊しないこと、すなわち、ネットワークが終わりのない学習を可能とするものであることを意味する。
最後の実験は、学習の繰返しごとに、ネットワークの認識能力を確認するために設計された。発話の各々について、デコードされた状態シーケンスが記憶され、話者と文字IDでラベル付けされた。各学習の繰返しごとに、得られた状態シーケンスを先行する繰返しからのものと比較して、最も良く整合するシーケンスを発見した。ラベルが一致すれば、ヒットであると考えられた。
わずか2回の繰返しで、認識率は97.44%となり、3回目以降の繰返しでは、100%となった。これは、全く誤りなしに同時に音声及び話者の認識がされたことを意味する。
上述の説明から理解されるように、DHMネットを利用したシステムは、現在の音声モデルとは対照的に、壊滅的忘却なしで、終わりのない、教師無しの適応学習が可能である。このネットワークを、同じ学習原理に従って構築されたフルスケールの音声認識用の階層的システムの最初の前処理層として利用することができる。上記したDHMネットは単一の学習/認識モードで動作するが、これは、所与の経路に沿った状態のPDFからのサンプリングにより、対応する音声パターンを再構築するような、パターンを再現(recall)するモードに容易に拡張可能である。このような2つのモードを有するDHMネットは、音声認識のみならず、音声合成、音声変換、音声強調等に用いることができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
HMMの構造を概略的に示す図である。 特徴ベクトルによって規定される特徴量空間を概略的に示す図である。 ダイナミック隠れマルコフネットワークの概略構造を示す図である。 入力特徴ベクトルがどのようにして「新しい」と判断されるかを概略的に示す図である。 この発明の一実施の形態に従った音声認識フロントエンドユニット260の機能的ブロック図である。 状態レコード300の構造を示す図である。 図5に示したデコーダ288を実現するプログラムのフローチャートの前半を示す図である。 デコーダ288を実現するプログラムのフローチャートの後半を示す図である。 20回の繰返し学習の間の尤度の変化を示すグラフである。 交互の話者によるデータ学習の間の尤度の変化を示すグラフである。 コンピュータシステム450の外観を示す図である。 コンピュータシステム450の構造を示すブロック図である。
符号の説明
80、82、84、150、152、154、156、158、160、162、164 HMM状態
140 DHMネット
180、182、184、186、188、190、192、194 横方向接続
260 音声認識フロントエンドユニット
262 マイクロフォン
280 音声キャプチャブロック
282 FFTブロック
284 フィルタバンク(FB)
286 対数関数ブロック
288 デコーダ
290及び292 記憶部
300 状態レコード
304 平均ベクトルフィールド
306 後続状態リスト
330 後続状態IDフィールド
308 隣接状態リスト
332 遷移頻度フィールド
350 隣接状態IDフィールド
352 接続年齢フィールド

Claims (4)

  1. ネットワークモデルを用いて物理的測定値から導出された特徴ベクトルのシーケンスの空間−時間パターンを同時に学習し認識するためのシステムであって、
    前記特徴ベクトルは予め定められた特徴量空間内で定義されており、
    前記ネットワークモデルは、前記特徴量空間に定義される一組の状態と、前記状態間の遷移と、前記状態間の横方向接続とを含み、
    前記状態の各々は、出力値の確率密度関数を規定し、前記遷移の各々は、状態から状態への遷移を規定するとともに前記遷移の発生頻度と関連付けられており、前記横方向接続の各々は、隣接する状態の対を規定するとともに、前記横方向接続によって接続された状態のいずれかが前記システムによって最後に経由されてからの経過時間の測定値と関連付けられており、
    前記システムは、
    前記ネットワークモデルを表すデータセットを記憶するためのモデル記憶手段と、
    現在の状態の識別子を記憶するための現在状態記憶手段と、
    新たな特徴ベクトルに応答して、新たな特徴ベクトルに最も良く整合する状態であって、かつ前記特徴量空間において前記新たな特徴ベクトルからあるしきい値距離内にある状態が存在する場合は、それを次の状態と決定し、存在しない場合は前記ネットワークに新たな状態を追加するための決定手段とを含み、前記新たな状態は、前記新たな特徴ベクトルと現在の状態の識別子によって特定される現在の状態とによって規定され、かつ前記新たな状態は、前記現在の状態からの次の遷移を規定し、
    前記システムはさらに、
    前記次の状態が決定されたことに応答して、前記モデル記憶手段に記憶された前記モデルにおける次の遷移の頻度を更新するための手段と、
    前記次の状態が決定されたことに応答して、前記次の状態と、それに隣接する状態との前記確率密度関数の各々を、予め定められた更新関数によって更新するための手段と、
    前記次の状態が決定されたことに応答して、前記次の状態と、その隣接する状態との接続に関連付けられた経過時間の測定値が予め定められた初期値にリフレッシュされ、かつ他の接続に関連付けられた経過時間の測定値が増分されるように、前記ネットワークモデル内の横方向接続を更新するための手段と、
    前記横方向接続が更新されたことに応答して、予め定められたしきい値より大きい経過時間の測定値と関連付けられている接続を削除するための手段と、
    前記接続のいずれかが削除されたことに応答して、何の接続も有していない状態を前記ネットワークモデルから除去するための手段と、
    前記現在の状態の識別子を出力状態シーケンスの末尾に追加するための手段と、
    前記現在状態記憶手段に記憶された前記現在の状態の識別子を、前記次の状態の識別子で置換するための手段とを含む、システム。
  2. 前記決定手段は、
    前記現在の状態からの遷移を有する状態の組にあって、かつ前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するための第1の発見手段と、
    前記第1の発見手段が次の状態の候補を発見できなかったことに応答して、前記現在の状態からの遷移を持たず、前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するとともに、前記ネットワークモデルを、前記現在の状態から前記次の状態の候補への新たな遷移が生成されるように更新するための、第2の発見手段と、
    前記第1又は第2の発見手段によって次の状態の候補が発見されたことに応答して、前記次の状態の識別子を前記次の状態の候補の識別子に設定するための手段と、
    前記第1又は第2の発見手段によって次の状態の候補が発見されなかったことに応答して、前記ネットワークモデルに新たな状態を追加するための手段とを含み、前記新たな状態は前記新たな特徴ベクトルによって規定される確率密度関数と前記現在の状態からの遷移とを有し、前記新たな状態の前記遷移は初期頻度の値と関連付けられている、請求項1に記載のシステム。
  3. 前記横方向接続を更新するための手段は
    前記次の状態と、前記新たな特徴ベクトルに次に近い状態との間の接続が生成されるように前記ネットワークモデルを更新するための手段と、
    前記次の状態とそれに隣接する状態との間の接続の経過時間の測定値をリフレッシュするための手段と、
    前記ネットワークモデル内の接続の経過時間の測定値を増分するための手段とを含む、請求項1に記載のシステム。
  4. コンピュータ上で実行されると、コンピュータを請求項1〜請求項3のいずれかに記載のシステムとして機能させる、コンピュータプログラム。
JP2007018135A 2007-01-29 2007-01-29 空間−時間パターンを同時に学習し認識するためのシステム Expired - Fee Related JP5065693B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007018135A JP5065693B2 (ja) 2007-01-29 2007-01-29 空間−時間パターンを同時に学習し認識するためのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007018135A JP5065693B2 (ja) 2007-01-29 2007-01-29 空間−時間パターンを同時に学習し認識するためのシステム

Publications (2)

Publication Number Publication Date
JP2008186171A JP2008186171A (ja) 2008-08-14
JP5065693B2 true JP5065693B2 (ja) 2012-11-07

Family

ID=39729187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007018135A Expired - Fee Related JP5065693B2 (ja) 2007-01-29 2007-01-29 空間−時間パターンを同時に学習し認識するためのシステム

Country Status (1)

Country Link
JP (1) JP5065693B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484154B2 (en) 2009-12-14 2013-07-09 Intel Corporation Methods and systems to traverse graph-based networks
CN113884903B (zh) * 2021-10-19 2023-08-18 中国计量大学 一种基于多层感知器神经网络的电池故障诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム

Also Published As

Publication number Publication date
JP2008186171A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
Wang et al. Towards scaling up classification-based speech separation
CN110349597B (zh) 一种语音检测方法及装置
WO2019202941A1 (ja) 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム
KR20200119377A (ko) 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
Monteiro et al. Residual convolutional neural network with attentive feature pooling for end-to-end language identification from short-duration speech
Tóth et al. A perceptually inspired data augmentation method for noise robust cnn acoustic models
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
Silva et al. Exploring convolutional neural networks for voice activity detection
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
Khademian et al. Monaural multi-talker speech recognition using factorial speech processing models
Gupta et al. Implicit language identification system based on random forest and support vector machine for speech
EP3267438B1 (en) Speaker authentication with artificial neural networks
Silva et al. Intelligent genetic fuzzy inference system for speech recognition: An approach from low order feature based on discrete cosine transform
JP5065693B2 (ja) 空間−時間パターンを同時に学習し認識するためのシステム
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
Zhuang et al. Multi-task joint-learning for robust voice activity detection
Jolly et al. Machine Learning based Speech Emotion Recognition in Hindi Audio
Lin et al. A Noise Robust Method for Word-Level Pronunciation Assessment.
Zhu et al. End-to-end speech emotion recognition based on neural network
Long et al. Offline to online speaker adaptation for real-time deep neural network based LVCSR systems
Xu et al. An adaptation method in noise mismatch conditions for dnn-based speech enhancement
Oruh et al. Deep learning with optimization techniques for the classification of spoken English digit
Protserov et al. Segmentation of Noisy Speech Signals
Švec et al. An analysis of the RNN-based spoken term detection training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120810

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees