JP3003276B2 - 信号解析装置 - Google Patents

信号解析装置

Info

Publication number
JP3003276B2
JP3003276B2 JP3147440A JP14744091A JP3003276B2 JP 3003276 B2 JP3003276 B2 JP 3003276B2 JP 3147440 A JP3147440 A JP 3147440A JP 14744091 A JP14744091 A JP 14744091A JP 3003276 B2 JP3003276 B2 JP 3003276B2
Authority
JP
Japan
Prior art keywords
equation
likelihood
state
calculating
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3147440A
Other languages
English (en)
Other versions
JPH04369700A (ja
Inventor
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP3147440A priority Critical patent/JP3003276B2/ja
Publication of JPH04369700A publication Critical patent/JPH04369700A/ja
Priority to US08/213,480 priority patent/US5381513A/en
Application granted granted Critical
Publication of JP3003276B2 publication Critical patent/JP3003276B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識等のパターン認
識に適用可能な新しいニューラルネットワークを含む時
系列信号解析装置に関する。
【0002】
【従来の技術】図2は本発明で用いる階層型のニューラ
ルネットワークの一例である。○はユニットと呼ばれる
ものを示している。ユニット間を結ぶ矢線は信号の流れ
る方向を示し、矢線の根元につながっているユニットの
出力に矢線毎に与えられている前記重み係数が乗ぜられ
て矢線の先端部のユニットへの入力となる。ユニットの
横一列の並びは層と呼ばれる。本例は3層からなるニュ
ーラルネットワークを示している。ニューラルネットワ
ークへの入力が直接つながるユニットからなる層は入力
層、その出力がニューラルネットワークからの出力その
ものとなるユニットからなる層は出力層、それら以外の
層は隠れ層または中間層と呼ばれる。本例では、第1層
が入力層、第2層が隠れ層、第3層が出力層と言うこと
になる。各ユニットにおける、入力の総和とその出力と
の関係は、いわゆるシグモイド関数と呼ばれる関数で与
えられる特性を持たせるのが一般的である。図3はシグ
モイド関数の例を示している。通常、入力層はシグモイ
ド関数ではなく、線形関数で与え、入力そのものを伝え
るだけとする場合が多い。
【0003】このニューラルネットワークに対して、重
み係数を調整することによって、入力層にあるパターン
が入力されたときに、それに対して望ましい出力が出力
層から出力されるようにすることが出来る。例えば、手
書き文字「A」「B」「C」を識別する場合を考える。
最も簡単には、各文字を例えば32×32の編目で覆
い、編目の各々をニューラルネットワークの入力ユニッ
トに対応させ(従って入力ユニット数は32×32=1024)、
文字の線がかかる編目を1、そうでない編目を0として
前記ニューラルネットワークの入力層の対応する各ユニ
ットに入力する。出力層は3ユニットとする。「A」が
入力された場合は第1ユニットが「1」他のユニットが
「0」、「B]が入力された場合は第2ユニットが
「1」他のユニットが「0」、「C]が入力された場合
は第3ユニットが「1」他のユニットが「0」となるよ
うに多数の標本から重み係数を調整しておく。このよう
に準備しておけば、未知入力「X」が入力されたとき、
値が最大になる出力ユニットに対応する文字として、未
知入力「X」が「A」「B」「C」の何れであるか判定
することが出来る。階層型ニューラルネットワークにお
いては、前記重み係数を多数の訓練パターンから推定す
る方法が存在し、文字認識等の場合は、高い識別率の得
られることが報告されている。
【0004】
【発明が解決しようとする課題】この例のように、入力
パターンの大きさ(この例では1024ビット)が固定であ
るときは、十分うまく行くが、音声パターンのように時
間軸に伸縮のあるパターンに対しては問題である。音声
の特徴量は、例えば10msec毎に10〜20組程度のパラメー
タに変換されたいわゆる特徴ベクトル系列で表される。
従って、10msec毎に10次元の特徴ベクトルに変換される
ものとすれば、例えば音韻/b/を表す区間は、ある場合
は20フレームであったり、ある場合は30フレームになっ
たりするから、特徴ベクトルの各成分たるパラメータを
ニューラルネットワークの入力ユニットに対応させると
しても、対応するユニット数は20×10=200となったり30
×10=300となったりして一定しない。また、音声は時間
軸に対して非線系な伸縮もあることから、ニューラルネ
ットワークをそのまま音声の識別に用いることにはかな
り問題がある。
【0005】"静的"なパターンに対して高い識別能力を
持つニューラルネットワークを、音声のような"動的"な
時系列パターンにも適用出来るようにすることを目的と
する。
【0006】
【課題を解決するための手段】1つ以上の入出力を有す
る複数のユニットが相互に結合され、各々の結合にはそ
こを流れる信号に対して重み付けを行うその結合固有の
荷重係数が定義され、入力の特徴ベクトル系列{y(t)}に
含まれる幾つかのベクトルの各々の成分が入力される入
力ユニット群と、該入力ユニット群に入力された前記ベ
クトルが前記ユニット及び結合を通過することにより変
換され、該変換されたベクトルを出力する出力ユニット
群と、前記入力ユニット群から前記出力ユニット群に至
る径路としてJ通りの径路を備えたニューラルネットワ
ークと、前記径路をj=1,2,…,Jで区別するとき、これら
径路の各々をその状態に対応させたHMM(ヒト゛ゥン マルコフ
モテ゛ル (Hidden Markov Model))とからなる。
【0007】
【作用】前記ニューラルネットワークにおける前記径路
の選択を前記HMMの状態に対応させて制御する。
【0008】
【実施例】本発明は、パターン変換たる階層型ニューラ
ルネットワーク(以後単にNNと略記する)に時系列信
号処理能力を導入する方法として、NNの入力層から出
力層に至る径路をHMMの状態に対応させるものであ
る。このことによって時系列に対するNNの持つ前記欠
点を排し、NNの持つ"静的"パターンに対する優れたパ
ターン処理能力を"動的"な時系列パターンの処理にまで
拡大することを可能としたものである。
【0009】従って、本発明の詳細を説明するに先立っ
て、先ず、HMMについて説明する。
【0010】本発明は一般の時系列信号に適用可能なも
のであるが、説明の便宜のために、以下、音声認識を例
に説明する。
【0011】先ずHMMを用いた音声認識装置について
説明する。図4は、HMMを用いた音声認識装置のブロ
ック図である。301は特徴抽出部であって、入力音声
信号をフィルタバンク、フーリエ変換、LPC分析等の
周知の方法により、一定時間間隔(フレームと呼ぶ)例
えば 10msec 毎に特徴ベクトルに変換する。従って、入
力音声信号は特徴ベクトルの系列 Y=y(1),y(2),…,y
(T) に変換される。y(t)は時点tにおける特徴ベクト
ル、T は前記系列のフレーム数である。302はパラメ
ータ推定部であって、訓練データから認識語彙たる各単
語に対応するHMMを作成するものである。即ち、単語
vに対応するHMMを作るには、先ず、HMMの構造
(状態数やそれら状態の間に許される遷移構造)を適当
に定め、然る後、単語vを多数回発声して得られた特徴
ベクトル系列から、それら特徴ベクトル系列の発生確率
(密度)が出来るだけ高くなるように、前記モデルにおけ
る状態遷移確率や状態の遷移に伴って発生する特徴ベク
トルの発生確率(密度)を求めるものである。303はH
MM記憶部であって、このようにして得られたHMMを
各単語毎に記憶するものである。304は尤度計算部で
あって、認識すべき未知入力音声の特徴ベクトル系列に
対し、前記HMM記憶部303に記憶されているそれぞ
れのモデルのその特徴ベクトル系列に対する尤度を計算
するものである。305は比較判定部であって尤度計算
部304で得られた前記それぞれのモデルに対する尤度
の最大値を与えるモデルに対応する単語を認識結果とし
て判定するものである。
【0012】HMMによる認識は次のようにして行われ
る。即ち、未知入力に対して得られた特徴ベクトル系列
を Y= y(1),y(2),…,y(T)、モデルλv により発生され
るTの長さの任意の状態系列を X = x(1),x(2),…,x(T)
とするとき、λvから特徴ベクトル系列 Y の発生する確
率密度は 〔厳密解〕
【0013】
【数12】
【0014】〔近似解〕
【0015】
【数13】
【0016】または、対数をとって
【0017】
【数14】
【0018】で与えられる。ここで、P{Y,X|λv} は、
モデルλv における X,Y の同時確率密度である。
【0019】従って、例えば、(数12)を用いれば
【0020】
【数15】
【0021】とするとき、v∧ が認識結果となる。
(数13)(数14)を用いるときも同様である。
【0022】P{Y,X|λ} は(数12)の場合は、次のよ
うにして求められる。いま、HMM λ の状態j(j=1〜
J)に対して、状態j毎に、特徴ベクトルyの発生確率密
度 bj(y) と状態iから状態j への遷移確率 aij が与
えられているとき、状態系列 X = x(1),x(2),…,x(T+1)
と特徴ベクトル系列 Y=y(1),y(2),…,y(T)のHMM λ
から発生する同時確率は
【0023】
【数16】
【0024】と定義出来る。ここでax(0)x(1)は状態 x
(1) の初期確率である。また、x(T+1)=J+1は最終状態
で、フレームTの入力後遷移して終了する状態であっ
て、如何なるベクトルも発生しない。
【0025】この例では入力の特徴ベクトルy(t)をその
まま用いる場合を説明したが、特徴ベクトルy(t)をベク
トル量子化によってラベルに変換する方法もある。即
ち、この場合は、各状態jにおいてbj(y(t))の代わりに
ラベルo(t)の状態jにおける発生確率bj(o(t))を用いる
ことになる。
【0026】次に、以上に述べたNNにHMMを導入し
た、本願発明による新しいモデルについて具体例を挙げ
て説明する。NNは入力パターンをパターン変換するの
に用いられる。如何なるパターンに変換するかは種々考
えられるが、時間的動的特徴を反映させるためには、複
数フレームを同時に入力して適当なパターンに変換する
のが良いと考えられる。即ち、NNの入力ユニットに
は、時刻tにおいてy(t-c1),y(t-c2),・・・,y(t-cM) (cm
≠0)が入力され、NNにおけるHMMの状態jに対応
する径路を通過することによってパターン変換器から出
力される値をgj(t)とするとき、このgj(t)を用いて入力
パターンYに対する本モデルの尤度を定義するものであ
る。
【0027】その1つの方法として本例ではパターン変
換器を予測器として構成する場合について説明する。即
ち、NNの入力ユニットには、時刻tにおいてy(t-c1),
y(t-c2),・・・,y(t-cM) (cmは零でない整数で、c1>c2
・・・>cMで、cm>0のときは前向き予測、cm<0のときは
後向き予測と呼ばれる)が入力され、NNにおけるHM
Mの状態jに対応する径路を通過することによってパタ
ーン変換器から出力される値gj(t)を状態jにおけるy
(t)の予測値であるとする。このようにすることによっ
て、次のような利点が招来される。
【0028】時刻t、HMMの状態jにおける観測ベク
トルy(t)の確率密度を正規分布とすれば、通常のHMM
においては
【0029】
【数17】
【0030】のように表される。ここで、μjjはそ
れぞれHMMの状態jにおける平均ベクトル、および分
散共分散行列である。通常のHMMにおいては、μj
tに関わらず一定で、状態jの自己ループにおいてy(t)
の出現順序は考慮されない(y(t)の出現順序は尤度に反
映されない)。これが通常のHMMが時系列信号の過渡
的変化特性の記述能力に乏しいと言われる所以である。
【0031】本例では、このμjを状態jに対応したy
(t)の予測値gj(t)に置き換え、μjj(t)=gj(t)とする
ものである。NNを予測器とすることによって各状態に
対応する音声区間の特徴量の変化傾向が前記予測器の構
成に反映されるので、従来のHMMのもつ前記欠点が除
去できる。NNの重み係数の学習は、教師信号をy(t)と
することによって実行出来る。
【0032】状態jに対応して本NNから出力されるy
(t)の予測値を
【0033】
【数18】
【0034】と表す。ここでhj(t)は、一般に、hj(t)=h
(y(t-c1),…,y(t-cM);wj)と表される関数である。wj
それを規定するパラメータ集合で、wjはHMMの状態j
(NNの経路j)に対応する径路群jに含まれる重み係
数集合である。
【0035】この μj(t)を前記平均ベクトルμjと置き
換えることによって、y(t)の前後のベクトルの出現状況
に応じてその平均ベクトルが可変となり、前記通常のH
MMの持つ欠点を排除することが可能となる。状態jに
おける予測誤差ベクトルをej(t)とすれば、(数17)
に相当する式は
【0036】
【数19】
【0037】となる。μ0j は状態j毎に定まるベクト
ルで状態jに留まっている間は不変であって、wjに含ま
せることも可能であるが、ここでは、wjと分離して取り
扱うこととする。 図5(a)は本発明によるNNの一例
である。本例においてはy(t-2)とy(t-1)からy(t)を予測
することとし、HMMのループをもった状態数Jを3
(最終状態を含まず)、NNの層数を3、第1層と第2
層の間の重み係数はHMMの最終状態を除いた全状態で
共有し、第2層と第3層の間の重み係数は状態毎に固有
のものであるとする場合である。(b),(c),(d)は、NN
(a)に対し、それぞれHMMの状態1、状態2、状態3
に対応している場合で、太線で示した径路が各々の状態
に対応して選択されている様子を表したものである。本
例では、出力ユニットが状態に対応する場合を示してい
るが、図6のように入力ユニットが状態に対応するよう
にもできるし、図7のように4層以上の場合は中間層が
状態に対応するようにも構成できる(長方形で囲んだユ
ニット群を通る径路が各々の状態に対応している)。こ
こで注意すべきは、図5、図6は各状態で共有される重
み係数が存在するが、図8(a)(b)(c)(d)等は各状態に対
応する径路は状態に関して共有する重み係数はなく全く
独立であり、同図(e)と等価になるということである。
同図(e)は状態毎に別々のNNを定義することに等し
い。音声現象は、区間毎に完全に分離したものではない
から、状態が変われば完全に予測器を切り替えるのでは
なく、状態間である程度共有部分をもたせる方がより現
実に即していると考えられる。
【0038】図1(f),(l),(m),(n)は本発明のNNの他
の実施例であって、3層で、HMMのループを有する状
態数が5の場合を示している。本図では、表記の簡単の
ために、各層のユニット群は長方形で示し、HMMの各
状態に対応する径路群は斜線や網点で区別して示してい
る。
【0039】(f),(n)は第2層と第3層の間の重み係数
も相隣る状態間で共有する場合、(l),(m)は第2層と第
3層の間の重み係数は状態間で独立な場合である。ま
た、(f),(l)は第1層と第2層の間の重み係数を相隣る
状態間で半分づつ共有する構造で、両端の状態を除いて
は第1層と第2層の間の重み係数は必ず2つの状態で共
有される場合で、(m),(n)は第1層と第2層の間の重み
係数が相隣る状態間で共有する部分と独立な部分を有す
る場合である。
【0040】図9は4層の他の実施例を示している。4
層のモデルの場合は、1層目と2層目、2層目と3層目
の間は状態毎に共有していて、2層目と3層目の間の重
み係数は状態毎に分離しているとか、その逆に1層目と
2層目、2層目と3層目の間は状態毎に分離していて、
2層目と3層目の間の重み係数は状態間で共有している
場合等、この場合は更に多くの径路の設定法が考えられ
る。図7、図9はその例である。さらに、ある状態同士
は共有する重み係数はあるが、他の状態同士では全く独
立していると言うようにも構成できることは勿論であ
る。
【0041】以上のように、本発明は、HMMを組み込
むことによって階層型ニューラルネットワークによる時
系列信号処理を可能としたものであると言える。従っ
て、以後、このモデルを、ヒト゛ゥン マルコフ ト゛リフ゛ン ニューラル ネッ
トワーク モテ゛ル (Hidden Markov driven Neural Network mod
el) 略してHMNNと呼ぶことにする。
【0042】HMMの一般的問題は、 1)観測時系列パターン{y(t)}に対するHMM λの尤
度を求めること 2)カテゴリvに対応するHMMのパラメータλvを多
数の標本(訓練)パターンから推定すること 3)HMM λの観測時系列パターン{y(t)}に対応する
最適な状態系列を求めること がある。単語音声認識の場合は、1)は、認識方法に関
係し、各単語毎に定義されているHMMの何れが観測
(入力)ベクトル系列{y(t)}を発生させる可能性が高い
かを求める問題、2)は認識に先立って各単語毎にそれ
に対応するモデルを作成する問題、3)は入力音声を音
韻毎に区切る場合やViterbiアルゴリズムを用いてモデ
ルを作成する際に生ずる問題である。
【0043】そこで、本発明を実現する上での問題は、
前述の構造を持つ本発明になるHMNNに対して、上記
諸問題を解く方法を与えることが必要となる。
【0044】図10は本発明の原理を説明する原理図で
ある。同図を用いて上記問題の解決法を説明する。n単
語の認識の場合は本図のようなモデルが各単語に対応し
てn種類あると言うことになる。ある単語に対して本モ
デルを特徴付けるパラメータの集合をλとすれば、λ =
(A,{μ0j},{Σj},w)である。ただし、A=[aij]は第
i行第j列の要素をaijとする遷移マトリクス、{μ0j},
j},wは、それぞれ{μj0}={μ01,…,μ0J}、{Σj}=
1,…,ΣJ}、w はHMNNの重み係数集合とし、wi
状態iに対応する径路群に含まれる重み係数集合とする
とき、i≠jのとき、wiとwjには一般に共通の元が存在す
る可能性がある。
【0045】 901は予測器で、観測ベクトル系列{y
(t)}における特徴ベクトルy(t)に対して、その周辺のベ
クトルy(t-c1),…,y(t-cm),…,y(t-cM)が入力され、y
(t)のJ種類の予測値がNNのJ通りの信号径路に従っ
て出力され、信号径路jを通った場合の予測値μj(t)=g
j(t)=μj0+hj(t)が予測器から出力される。y(t)の次元
をdとすれば、ニューラルネットの出力もd次元で、各
々の成分を一つ一つの出力端子に割り当てることになる
から、前記各々の状態に対応する出力端子群の端子数は
d個である。
【0046】ただし、後に述べるように、状態によって
異なった出力ユニット群が割り当てられる場合と、出力
ユニット群が全てあるいは一部の状態に対して共通に割
り当てられる場合がある。後者の場合も図面の上では、
状態毎に分離した形で描いてある。予測器jに得られる
予測値は、観測特徴ベクトル系列の第j部分区間の特徴
ベクトル系列に対する予測の結果得られるものである。
【0047】902は格子グラフであって横軸は入力フ
レーム番号、縦軸は予測回路網の各径路群に対応付けら
れており、本格子グラフの格子点(t,j)によって入力フレ
ームtとNNの信号径路群jとの対応付けが表現され
る。
【0048】903はマルコフ連鎖であって、各状態は
前記予測回路網のそれぞれの信号径路群に対応してい
る。
【0049】先ず、上記1)の問題を解くと言うことを
本図を用いて説明すると次のようになる。
【0050】問題は、格子点(t,j)におけるy(t)とμ
j(t)との予測誤差ベクトル ej(t)の確からしさをbj(y
(t))とするとき、マルコフ連鎖903で規定される遷移
条件で入力フレームと予測回路網出力端子との対応関係
を定め、この対応によってマルコフ連鎖903の遷移確
率から計算される格子グラフ上の径路の発生確率P{X|
λ}と、格子点に対して計算される前記bj(y(t))から計
算されるその径路に沿う観測ベクトル系列の発生確率密
度P{Y|X,λ}から、本モデルλから観測系列 {y(t)}の生
ずる確からしさp(λ)=P{X|λ}P{Y|X,λ}を計算すること
である。式で書けば(数20)のようになる。ただし、
x(T+1)=J+1であって、状態J+1はいわゆる吸収状態
で、他の状態から遷移はするが他の状態に遷移はせず、
ベクトルは観測されないとする。また、t=1で状態jに
ある確率をπjとするとき、一般には、ax (0)x(1)
x(1)であるが、本例では、x(1)=1が必ず成立するとし、
ax(0)x(1)=1、ax(0)x( j)=0 (j≠1のとき)であるとす
る。
【0051】
【数20】
【0052】ここで、マルコフ連鎖903に対応する径
路の制限条件は図10の格子グラフ上に太線で示したも
のとなる。即ち、状態jの1つ前(1フレーム前)に取
り得る状態は、この場合はj,j-1,j-2の何れかであるか
ら、格子グラフ上では格子点(t,j)を通る径路で、(t,j)
の1つ前の格子点は(t-1,j),(t-1,j-1),(t-1,j-2)の何
れかである。
【0053】(数20)は、厳密解を与えるものである
が、近似解として次式(数21)が用いられ得る。
【0054】
【数21】
【0055】(数20)はいわゆるForwardあるいはBac
kwardアルゴリズムによって計算することが出来る。次
にこれを説明する。先ず、Forwardアルゴリズムによる
場合は次のようになる。
【0056】
【数22】
【0057】とすれば、
【0058】
【数23】
【0059】となる。本例の場合は
【0060】
【数24】
【0061】である。従って、
【0062】
【数25】
【0063】を初期値としてt=2,…,T,j=1,…,Jについ
て(数24)を漸化的に計算することによって
【0064】
【数26】
【0065】として求められる。Backwardアルゴリズム
による場合は次のようになる。
【0066】
【数27】
【0067】とすれば、
【0068】
【数28】
【0069】本例の場合は
【0070】
【数29】
【0071】である。従って、
【0072】
【数30】
【0073】を初期値として t=T-1,…,1,j=J,…,1 に
ついて(数29)を漸化的に計算することによって
【0074】
【数31】
【0075】として求められる。αj(t)とβi(t)には次
の関係がある。
【0076】
【数32】
【0077】次に(数21)に基づく近似解を求める。
この場合は動的計画法によって効率的に計算する、いわ
ゆるViterbi アルゴリズムが適用できる。対数をとって
積を和の形にして計算するのが普通であるので以下では
そのようにする場合について説明する。
【0078】(数21)において両辺の対数をとれば次
式が得られる。
【0079】
【数33】
【0080】いま、
【0081】
【数34】
【0082】とおけば、次の漸化式が成り立つ。
【0083】
【数35】
【0084】特に、本例の場合は
【0085】
【数36】
【0086】となる。但し、初期値は
【0087】
【数37】
【0088】であって、漸化式(数36)をt=2,…,T,
j=1,…,J+1について順次計算することによって次式が得
られる。
【0089】
【数38】
【0090】以上の原理に基づいて単語認識を行う場合
の実施例は図11のようになる。HMNN記憶部100
3は図4のHMM記憶部303に、尤度計算部1004
は図4の尤度計算部304に対応し、HMNN記憶部1
003におけるHMNNvは、単語vに対応するHMN
Nを記憶し、尤度計算部1004は尤度を前記(数2
6)、(数31)、(数38)の何れかで定義すると
き、各々に対して(数24)、(数29)、(数36)
を計算するものである。1101、1002、1005
は図4における301、302、305と同様の動作を
する。
【0091】単語vに対応するHMNNを学習する方法
について述べる(前記HMMの一般的問題の2))。
【0092】問題は、単語vについて準備されたr=1〜R
の訓練パターンに対して尤度関数(確率密度)P{Y(1),Y
(2),…,Y(R)|λ}を最大にするパラメータλを推定する
ことである。以後、第rの訓練パターンに関係する量は
必要に応じて右肩に(r)を付して表記することとする。
【0093】Y(r)がrに関して互いに独立であるとすれ
【0094】
【数39】
【0095】が成立する。ここで、次の補助関数Q(λ,
λ')を定義する。
【0096】
【数40】
【0097】このとき、次のことが言える。「Q(λ,
λ')≧Q(λ,λ)が成立すれば、P{Y(1),…,Y(R)|λ'}≧P
{Y(1),…,Y(R)|λ}であって、等号はλ'=λの時に成り
立つ。」故に、
【0098】
【数41】
【0099】を求めることが出来れば、λ"→λとして
(数41)を繰り返し適用することにより、λはP
{Y(1),…,Y(R)|λ}の停留点、即ち、P{Y(1),…,Y(R)|
λ} の極大値または鞍点を与える点に収束し、P{Y(1),
…,Y(R)|λ} の改善率が予め定めた閾値以下になるまで
この操作を繰り返すことにより局所最適解が得られる。
【0100】次にその具体的方法を説明する。(数4
0)を変形すれば、次式が得られる。
【0101】
【数42】
【0102】前述の説明に従えば、Q(λ,λ')をλ'の関
数と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなるが、P{Y(1),…,Y(R)|
λ}はλ'に関しては一定値となり、Q(λ,λ')>Q(λ,
λ)となるλ'を探索する場合、これは定数であるから省
略し、ここでは改めて
【0103】
【数43】
【0104】とおくことにする。ただし、C(r)=1/P{Y
(r)|λ}とおいている。図12はパラメータ推定の第
1、第2の実施例を説明する図である。図13、図14
はその処理手順の詳細を示す図である。以下、これら図
面に従って説明する。
【0105】パラメータの推定は多数の訓練パターンか
ら反復計算を行うことによって実行される。図12はそ
の一実施例である。
【0106】特徴抽出部1101は図4における特徴抽
出部301と同一のものである。訓練パターン記憶部1
102はHMNNのパラメータを推定するR種類の訓練
パターンを記憶する部分である。
【0107】部分尤度算出部1103は以後のステップ
におけるパラメータの推定値を算出するために用いる諸
量を計算する部分である。
【0108】パラメータ記憶部1104は前記反復計算
の都度更新されたパラメータを記憶する部分である。
【0109】遷移確率推定部1105は遷移確率aij
再推定値をi=1,…,J,j=1,…,J+1について計算する部分
である。
【0110】確率分布パラメータ推定部1106は予測
誤差ベクトルej(t)の確率分布の形を規定するパラメー
タμ0jjの再推定値をi=1,…,J,j=1,…,J+1について
算出する部分である。
【0111】重み係数推定部1107は本発明モデルを
構成するNNの重み係数wの再推定値を計算する部分で
ある。
【0112】前記遷移確率aijの再推定値は、他のパラ
メータμ0j',Σj',w'とは独立して計算できる。
【0113】μ0jjの再推定値はw'を固定すれば、μ
0jjに関する推定式を連立させて求めることが出来
る。
【0114】wの再推定値はμ0j',Σj'を固定し、階層
型NNの重み係数を推定する方法として知られているい
わゆるバックプロパゲーション法の適用によっ計算でき
る。このバックプロパゲーション法には2通りの方法が
ある(第1、第2の実施例として後述)。
【0115】μ0jj,wの再推定値はμ0j',Σj',w'に
関する連立方程式を解くことによって得られるものであ
るが、解析的にこれを行うのは困難であるから、前記の
ごとくμ0jjの推定とwの推定を、一方を固定して、
予め定めた収束条件が満足されるまで交互に行うもので
ある。
【0116】以上のようにして得られた再推定値は、次
の反復計算に備えてパラメータ記憶部1104に記憶さ
れる。
【0117】以上の各パラメータの再推定値の計算が予
め定めた収束条件が満足されるまで繰り返され、最終的
な推定値がパラメータ記憶部1104に記憶されること
になる。前記収束条件としては、部分尤度算出部110
3におけるα(r) J+1(T(r)+1)から L(λ)=Σr {log α
(r) J+1(T(r)+1)} を算出し、前記反復計算の都度L(λ)
の改善比率を計算し、これが予め定めた閾値以下になっ
た時点で収束したと判定する等が可能である。
【0118】図13、図14は図12のシステムの処理
手順を説明する図である。本実施例をソフトウェアで実
現する場合はこの手順によることが出来る。
【0119】図13は第1の実施例である。ステップ1
201はパラメータλを初期化する部分である。
【0120】ステップ1202は目的関数値を初期化す
る部分である。ステップ1203において、
【0121】
【数44】
【0122】であって、同ステップ以降のステップのパ
ラメータの逐次近似の各反復計算において、前記目的関
数の改善率を閾値ε1と比較し、この改善率がε1以下に
なれば収束したとしてその時の値をパラメータλの推定
値とし、この改善率がε1以上の時はこの反復計算を続
行するという制御をする部分である。
【0123】ステップ1204は次の反復計算における
ステップ1203での評価に備えてL1をL(λ)に書き換
えるステップである。
【0124】ステップ1205は遷移確率行列A を推定
する部分である(推定値A∧)。ステップ1206は逐
次近似によりλ'からAを除いたパラメータを推定する
反復計算に際して初期化する部分である。即ち、Aの再
推定式にはζ'=[{μ0j'},{Σj'},w']は含まれないか
ら、A の再推定はステップ1205で単独に可能である
のに対し、{μ0j'},{Σj'},w'は互いに再推定式に含ま
れるのでその解は連立方程式を解くことになるが、解析
的には求められないからこの計算も逐次的に求めるもの
である。
【0125】ステップ1207はζ'に関して、同ステ
ップ以降のステップの前記パラメータの逐次近似の各反
復計算において、目的関数Q(λ,λ')の改善率を閾値ε2
と比較し、この改善率がε2 以下になれば収束したとし
てその時の値をパラメータζ'の推定値とし、この改善
率がε2 以上の時はこの反復計算を続行するという制御
をする部分である。
【0126】ステップ1208は次の反復計算における
ステップ1207での評価に備えてL2をQ(λ,λ')に書
き換えるステップである。
【0127】ステップ1209は {μ0j'},{Σj'}の再
推定値を求める部分であって、同ステップにおける{μ
0j'}{Σj'}に関する連立方程式を解くことによって得ら
れる。 ステップ1210はステップ1209で得られ
た解をλ'における {μj0'},{Σj'}として書き換える部
分である。
【0128】ステップ1211〜1214はNNの重み
係数を推定するいわゆるバックプロパゲーションと呼ば
れる方法を実行している部分である。
【0129】ステップ1211はw'に関して、同ステッ
プ以降のステップの前記パラメータの逐次近似の各反復
計算において、目的関数Q(λ,λ') の改善率を閾値ε3
と比較し、この改善率がε3以下になれば収束したとし
てその時の値をパラメータwの推定値とし、この改善率
がε3 以上の時はこの反復計算を続行するという制御を
する部分である。
【0130】ステップ1212は次の反復計算における
ステップ1211での評価に備えてL3をQ(λ,λ') に書
き換えるステップである。
【0131】ステップ1213はQ(λ,λ')をw'の関数
とみなして、Q(λ,λ')をw'に関して増加させるΔw'を
求める部分である。
【0132】ステップ1214は w'をw'+Δw'に更新す
る部分である。ステップ1215はλ全体を通しての各
反復においてλ=[A∧,{μ0j'},{Σj'},w']とするもので
ある。このλを用いてステップ1203の評価結果に応
じて更に反復を繰り返すか否かを決定する。改善率がε
1以下になるとその時のλが最後の推定値とされる。
【0133】図14は第2の実施例である。図13のス
テップ1212〜1214に対する別解であって、図1
3においては、モデル作成のための訓練パターンをすべ
て提示する毎に重み係数の修正を1回行うものである
が、図14においては、訓練パターンを1つ提示する毎
に重み係数の修正を1回行うものである。従って図13
の場合は、重み係数の修正は必ず Q(λ,λ')を増加させ
る方向に行われるが、図14の場合は必ずしもそうはな
らず、確率的に最終的には Q(λ,λ')を増加させる方向
に修正されることになる。この場合は、
【0134】
【数45】
【0135】とおけば、パラメータの推定の手順は次の
ようになる。ここで、前記Q(λ,λ')とQ(r)(λ,λ')は
次の関係がある。
【0136】
【数46】
【0137】ステップ1216はステップ1212と同
様な目的で同様な操作を行う部分である。
【0138】ステップ1217は学習すべきパタンを順
次提示するよう制御する部分である。
【0139】ステップ1218はQ(r)(λ,λ')を w'の
関数とみなして、Q(r)(λ,λ')を w'に関して増加させ
るΔw'を求める部分である。
【0140】ステップ1219はw'を更新する部分であ
る。ステップ1220は、r=1,・・・,Rについて反復計算
をさらに繰り返すべきか否かをステップ1211にて判
定するために、Q(λ,λ')をQ(R)(λ,λ')とみなす部分
である。
【0141】次に以上の各ステップにおいて具体的に行
うべき計算方法を説明する。(数43)は次のようにな
る。
【0142】
【数47】
【0143】ここで
【0144】
【数48】
【0145】
【数49】
【0146】とおけば、次式が成り立つ。
【0147】
【数50】
【0148】
【数51】
【0149】ただし、
【0150】
【数52】
【0151】である。遷移確率aijの推定 (数50)から(数53)が得られる。
【0152】
【数53】
【0153】ラグランジュの未定乗数法により、(数5
3)を用いて
【0154】
【数54】
【0155】より、
【0156】
【数55】
【0157】であるから、両辺にaij'を掛けて、j=1〜J
+1について総和を取れば、
【0158】
【数56】
【0159】となる。故にaijの再推定値は
【0160】
【数57】
【0161】となる。ξ(r) ij(t)=P{Y,x(r)(t-1)=i,x
(r)(t)=j|λ}は前記α、βを用いて次のようにして求め
られる。
【0162】
【数58】
【0163】従って、α,βとしてパラメータλに適当
な初期値を与え、t=2〜T(r)、j=1〜Jについて(数2
3)に従ってα(r) j(t)を、t=T(r)-1〜1、i=J〜1につい
て(数28)に従ってβ(r) i(t)をそれぞれ漸化的に順
次計算して行けば、(数58)が計算できる。bj(y)のパラメータの推定 bj(y)は従来のHMMにおいては特徴ベクトルyの状態j
における確率密度として定義されるのが普通であった。
【0164】本発明は、入力音声信号の時刻tにおける
特徴ベクトルy(t)に対する予測値を各状態に対応したユ
ニット群に出力するネットワークを備えたことを特徴と
するHMMであって、状態jに対応するユニット群の出
力には、予測値μj(t)を得、その予測誤差ej(t)=y(t)-
μj(t)の確率密度をbj(y(t))とするもので、このとき
(数51)から
【0165】
【数59】
【0166】を解くことになる。例えば、y(t-c1),y(t-
c2),…,y(t-cM) (ckは零でない整数)からy(t)を予測す
るものとし、この予測誤差が正規分布で与えられ、y(t)
の次元をdとすれば、
【0167】
【数60】
【0168】即ち、
【0169】
【数61】
【0170】から、次のようにして再推定式が導かれ
る。 (a)μj0の推定 (数61)より
【0171】
【数62】
【0172】に注意すれば、∂Q(λ,λ')/∂μj0'= 0
よりμj0の再推定式は
【0173】
【数63】
【0174】(b)分散共分散行列Σjの推定 同様に∂Q(λ,λ')/∂Σj'= 0 よりΣjの再推定式は
【0175】
【数64】
【0176】(C)重み係数wの推定 ステップ1211〜1214を用いる場合は次のように
なる。
【0177】状態毎に予測器が独立している場合は、状
態jにおける重み係数集合をwjとするとき、状態jにお
ける重み係数の再推定値は、j毎にQ(λ,λ')を最大化
するw j'として誤差逆伝播法で計算すれば良かった。こ
れは、Q(λ,λ') を目的関数とする非線形計画問題であ
って、何回目かの反復計算における重み係数をwj'とす
るとき、何等かの方法によって修正量Δwj'を決定し、w
j'= wj'+Δwj'を求めるという操作を繰り返すことによ
り、求むべき再推定値wj -を得る。
【0178】Δwj'の算出に当たっては、非線形計画問
題の分野で開発されている様々な方法を用いることが出
来るが、最も単純には
【0179】
【数65】
【0180】とすることが出来る。ここにεは適当に選
ばれた小さな正数である。HMNNは、予測器は状態毎
に独立ではなく、状態間で共有される重み係数が存在す
る。従って、状態毎にΔwj'を個別に求めるのではな
く、推定すべき重み係数の属する径路群全てに渡って同
時に計算される。
【0181】先ず、次なる諸量を定義する。 wu-1 mn:第u-1層の第mユニットから、第u層の第nユニッ
トまでの径路に沿う重み係数。 i(r) j u n(t):観測系列Y(r)において、径路群jが選ばれ
たときの、時点tにおける第u層の第nユニットへの入
力。 o(r) j u m(t):観測系列Y(r)において、径路群jが選ばれ
たときの、時点tにおける第u層の第mユニットからの
出力。 z(r) j u n(t):z(r) j u n(t)= ∂h(r) j(t)/∂i(r) j u n(t)
(d次元ベクトル) Su mn:重み係数wu mnを共有する径路群の集合。 q(r) j u m(t):q(r) j u m(t) = ∂o(r) j u m(t)/∂i
(r) j u m(t)。
【0182】各ユニットの入出力特性をf(θ)=2/{1+exp
(-θ)}-1とすれば、
【0183】
【数66】
【0184】である。このとき、(数65)に相当する
式は、要素毎に書けば、
【0185】
【数67】
【0186】となる。j∈Su-1 mnとすれば、
【0187】
【数68】
【0188】であって、
【0189】
【数69】
【0190】であるから、(数73)を(数72)に代入し
て次式を得る。
【0191】
【数70】
【0192】また、z(r) j u n(t)について(数72)(数
74)(数75)が成立する。ただし、最終層をUとす
る。 u≠U の場合:
【0193】
【数71】
【0194】から
【0195】
【数72】
【0196】u=U の場合:図1(l)(m)のように、出力ユ
ニットを各状態で共有しているときは、状態jに対応す
る出力ユニット群の出力はh(r) j(t)であるから、h
(r) j(t)*=(h(r) j1(t),・・・,h(r) jd(t))とおけば、
【0197】
【数73】
【0198】である。故に
【0199】
【数74】
【0200】である。同図(f)(n)のようにh(r) j(t)を出
力するユニット群が状態毎に分離しているときは、
【0201】
【数75】
【0202】となる。以上のことから、前記ニューラル
ネットワークの構造に従って(数74)または(数7
5)を先ず計算し、(数72)(数70)(数67)を
u=U,U-1,・・・,1について、m,nのあらゆる組合せに関して
順次計算すれば、Δw'が得られる。
【0203】以上はフォワート゛・ハ゛ックワート゛(Forward-Backwar
d)法による推定であったが、訓練データが大量にある場
合はViterbi法によってより簡単にパラメータの推定が
出来る。図15はヒ゛ターヒ゛(Viterbi)法によるパラメータ
推定の実施例である。この場合もバックプロパゲーショ
ン法には2通りの方法がある(第3、第4の実施例とし
て後述)。
【0204】これは、モデルλの、Y(r)に対して最大の
尤度を与える状態系列をX(r)∧とするとき、
【0205】
【数76】
【0206】とおき、L(λ)を最大化するパラメータλ
を求めるものである。(数76)は次のように書ける。
【0207】
【数77】
【0208】そこで
【0209】
【数78】
【0210】とおけば、
【0211】
【数79】
【0212】
【数80】
【0213】ここで、n(r) ijは径路X(r)∧が状態i,jを
通過する回数である。図15はこの場合のパラメータ推
定の実施例である。
【0214】特徴抽出部1301、訓練パターン記憶部
1302はそれぞれ図12の特徴抽出部1101、訓練
パターン記憶部1102と全く同様である。
【0215】セグメンテーション・尤度算出部1303
はパラメータ記憶部1304に記憶されているパラメー
タを基にして、(数36)の漸化式を計算し、(数3
8)により訓練パターン記憶部1402に記憶されてい
るr=1,…,Rのそれぞれについて第rの訓練パターンY(r)
に対するlog p(r)(λ)を計算すると共に、このlog p(r)
(λ)を与える最適径路、即ち、各状態に対応する入力フ
レームを求める部分である。
【0216】パラメータ記憶部1304は前記反復計算
の都度更新されたパラメータを記憶する部分である。
【0217】遷移回数算出部1305は、r=1,…,Rの訓
練パターンrに対して、i=1,…,J,j=1,…,J+1について
状態iからjに遷移する回数n(r) ij、状態jに対応する
フレーム数n(r) jを算出する部分である。これはセグメ
ンテーション及び尤度算出部1303における結果から
算出される。
【0218】遷移確率推定部1306は遷移回数算出部
1303の結果から遷移確率aij (i=1,…,J, j=1,…,J+
1)を求める部分である。
【0219】確率分布パラメータ推定部1307は予測
誤差ベクトルej(t)の確率分布の形を規定するパラメー
タμj0jの再推定値をi=1,…,J,j=1,…,J+1について
算出する部分であって、セグメンテーション・尤度算出
部1303において得られる各状態に対応する特徴ベク
トルと、遷移回数算出部1305で得られるn(r) jを用
いてこれらのパラメータを算出する部分である。
【0220】重み係数推定部1308は、本発明モデル
を構成するNNの重み係数wの再推定値を計算する部分
であって、セグメンテーション及び尤度算出部1303
において得られる各状態に対応する特徴ベクトルと、遷
移回数算出部1305で得られるn(r) jを用いてこれら
の重み係数を算出する部分である。
【0221】この場合も前記フォワート゛・ハ゛ックワート゛(Forward-
Backward)法による場合と同様に次のことが言える。
【0222】前記遷移確率aijの再推定値は、他のパラ
メータμ0j',Σj',w'とは独立して計算できる。
【0223】μ0jjの再推定値はw'を固定すれば、μ
0jjに関する推定式を連立させて求めることが出来
る。
【0224】wの再推定値はμj0',Σj'を固定し、階層
型NNの重み係数を推定する方法として知られているい
わゆるバックプロパゲーション法によって計算できる。
このバックプロパゲーション法には2通りの方法がある
(後述)。
【0225】本当ならば、μj0j,wの再推定値は
μj0',Σj',w'に関する連立方程式を解くことによって
得られるものであるが、解析的にこれを行うのが困難で
あるから、前記のごとくμj0jの推定とwの推定を、
一方を固定して、予め定めた収束条件が満足されるまで
交互に行う。
【0226】以上のようにして得られた再推定値は、次
の反復計算に備えてパラメータ記憶部1304に記憶さ
れる。
【0227】以上の各パラメータの再推定値の計算が予
め定めた収束条件が満足されるまで繰り返され、最終的
な推定値がパラメータ記憶部1304に記憶されること
になる。前記収束条件としては、セグメンテーション・
尤度算出部1303におけるφ(r) J+1(T(r)+1)から L
(λ)=Σrφ(r) J+1(T(r)+1)を算出し、前記反復計算の都
度L(λ)の改善比率を計算し、これが予め定めた閾値以
下になった時点で収束したと判定する等が可能である。
【0228】パラメータ推定のステップの詳細は図1
6、図17のようになる。フォワート゛・ハ゛ックワート゛(Forward-Ba
ckward)法の場合と同様にこの場合も重み係数の推定法
には2通りある。従って、それぞれをViterbi法に組み
込んだものを、第3の実施例として図16、第4の実施
例として図17に示す。本例をソフトウェア的に実現す
る場合もこの手順にし従えばよい。
【0229】図16、図17においては、図13におけ
るQ(λ,λ')をL(λ)とおいたものになっている。
【0230】図16を用いる場合は次のようになる。遷移確率aijの再推定 Lagrangeの未定乗数法を用いる。
【0231】
【数81】
【0232】両辺にaijを掛けてjについて総和を取れ
ば、
【0233】
【数82】
【0234】となる。ここに、n(r) iは径路X(r)∧が状
態iを通過する回数であって
【0235】
【数83】
【0236】である。(数82)を(数81)に代入し
て整理すれば、aijの再推定値aij∧が次のように求めら
れる。
【0237】
【数84】
【0238】bj(y)のパラメータの推定(数80)から
【0239】
【数85】
【0240】が得られる。 (a)μj0の推定 (数61)を参照して
【0241】
【数86】
【0242】であるから、μj0の推定値μj0∧は次のよ
うになる。
【0243】
【数87】
【0244】(b)Σjの推定 同様に(数61)を参照して∂Lb(λ)/∂Σj = 0から
Σjの推定値Σj∧は次のように与えられる。
【0245】
【数88】
【0246】(c)重み係数wの推定 前記Baum-Welch法のQ(λ,λ')を L(λ)に変更すること
によって同様に推定式が得られる。Baum-Welch法におけ
る(数67)に相当する式は次のようになる。
【0247】
【数89】
【0248】上記説明では、フォワート゛・ハ゛ックワート゛(Foward-B
ackward)法においてもヒ゛ターヒ゛(Viterbi)法においても、
NNを構成する各ユニットの入出力特性は、入力層は線
形、隠れ層および出力層は非線形であるとしたが、出力
層を線形にすることも勿論可能である。このときは、z
(r) j u n(t)は、u=U のときは、図1(l)(m)のように出力
ユニットを各状態で共有しているときは、(数74)に
相当する式は(数75)においてq(r) j U n(t)=1としたも
のになる。また、同図(f)(n)のようにh(r) j(t)を出力す
るユニット群が状態毎に分離しているときは、(数7
5)においてqj U (j-1)d+k=1としたものになる。全ての
ユニットの入出力特性を線形にすることも可能である。
このときは、u=Uのときは上記と同じであり、u≠Uのと
きは、qj u n(t)=1として全く同様の手続きにより、計算
できる。
【0249】次に、前記HMMの問題3の解法について
述べる。これは、前記ヒ゛ターヒ゛(Viterbi)法において述べ
たセグメンテーションを行う場合に必要とされるもので
ある。 (数35)の漸化式を計算する際に、B1(1)=0
とおいて(数35)を満足するiをi∧とするとき、B
j(t)=Bi∧(t-1),Sj(t)=i∧ という操作を平行して行
えば、求められた最適の径路に沿って、各々の状態の最
終フレームを入力パターンの最終フレームTから逆順に
求められる。即ち、状態Jの一つ前の状態はi∧=S
J(T)、 その状態の最終フレームはt∧=BJ(T)、状態Jの
二つ前の状態はi∧=Si∧(t)、その状態の最終フレーム
はt∧=Bi∧(t),・・・・・という操作をBi∧(t)=0になるま
で行えば、状態系列と各状態の最終フレームが入力パタ
ーンの最終フレームTから逆順に求められる。従って、
状態jの最終フレームがtjであるとき、その開始フレー
ムはBj(tj)+1であって、状態jに対応するフレーム数は
nij=tj-Bj(tj)となる。また、状態jに対応する入力特
徴ベクトルは、y(Bj(tj)+1)〜y(tj)ということになる。
このような処理によって、前記ヒ゛ターヒ゛(Viterbi)法によ
ってパラメータを推定する場合に用いられるn(r) i, n
(r) ij, δ(x(r)∧(t),j)が求められる。
【0250】以上のモデルは、NN内部の信号径路をH
MMの状態に対応させたが、これを簡略化することによ
り従来のDPマッチングと同様な枠組みで定式化するこ
とが出来る。次にこれを説明する。
【0251】前記HMMにおいて、時点t1からt2までの
任意の状態系列の発生確率をすべて等しくなるようにす
る。これは図10に示すようなモデルを用いる場合は、
例えば遷移確率をaij=1/3 (ただし、j=i,i+1,i+2)とす
れば(数90)が成立し、
【0252】
【数90】
【0253】時点t1からt2までの任意の状態系列の発生
確率はすべて等しくなる。ここで、前記Viterbiアルゴ
リズムを適用すれば、前記(数34)は(数91)のよ
うになる。
【0254】
【数91】
【0255】故に(数92)が成立するから、
【0256】
【数92】
【0257】(数93)とおき、
【0258】
【数93】
【0259】漸化式(数94)
【0260】
【数94】
【0261】を(数95)を初期値として計算し、
【0262】
【数95】
【0263】(数96)を尤度とする。
【0264】
【数96】
【0265】即ち、T log (1/3) は入力パターンのフレ
ーム数のみに関連する量であるから、入力パターンYに
対する各モデルの尤度を比較するときは、全モデルに共
通の量であるので省略することが出来、結局、(数9
4)の漸化式を計算し、(数96)を尤度としたもので
ある。
【0266】本例の場合のパラメータの推定方法は、前
記HMMと同じ考え方で実行できる。即ち、前記HMM
の場合の遷移確率はこれを無視し、前記HMMの場合と
同様にbj(y(t))のパラメータを、この場合は{μ0j},w
についてフォワート゛・ハ゛ックワート゛(Forward-Backward)あるいはヒ
゛ターヒ゛(Viterbi)法を用いればよい。
【0267】図18はフォワート゛・ハ゛ックワート゛(Forward-Backwa
rd)によるパラメータ推定の実施例である。図12にお
ける遷移確率推定部1105を省略したものとなる。前
記したように尤度の表現式が異なることを除けば、15
01〜1504、1506、1507は1101〜11
04、1106、1107とそれぞれ同様な動作をする
ものである。
【0268】図19はViterbi法によるパラメータ推定
の実施例である。図15における遷移確率推定部130
6を省略したものとなる。前記したように尤度の表現式
が異なることを除けば、1601〜1605、160
7、1608は1301〜1305、1307、130
8とそれぞれ同じものである。
【0269】ここで、さらに、bj(y(t))の分散共分散行
列を単位行列とすれば、(数91)は(数97)のよう
になり、(数92)は(数98)のようになる。
【0270】
【数97】
【0271】
【数98】
【0272】符号を変えることにより最大化問題を最小
化問題にすることにより、(数99)とおき、
【0273】
【数99】
【0274】漸化式(数100)を(数101)を初期
値として計算し、(数102)を非尤度とする。
【0275】
【数100】
【0276】
【数101】
【0277】
【数102】
【0278】この場合はp(λ)が小さいほど尤度が高い
と言うことになる。図20はForward-Backwardによるこ
の場合のパラメータ推定の一実施例を示す図である。こ
の場合は図18において確率分布パラメータ推定部15
06をさらに省略したものとなる。前記したように尤度
の表現式が異なることを除けば、1701〜1704、
1707は1501〜1504、1507と同様な動作
をするものである。ただし、前記説明から明らかなよう
に図18部分尤度算出部1503は部分非尤度算出部1
703となり、重み係数推定部1707における重み係
数推定のための目的関数はこの非尤度であって、これを
最小化することになる。 図21はViterbi法によるこ
の場合のパラメータ推定の実施例である。図19におけ
る遷移回数推定部1605、確率分布パラメータ推定部
1607を省略したものとなる。前記したように尤度の
表現式が異なることを除けば、1801〜1804、1
808は1601〜1604、1608とそれぞれ同様
な動作をするものである。ただし、セグメンテーション
・尤度算出部1603をセグメンテーション・非尤度算
出部1803に変更する必要がある。また、重み係数算
出部1808における重み係数推定のための目的関数は
この非尤度であって、これを最小化することになる点に
ついては、図20の場合と同様である。
【0279】図18〜図21何れにおいても、重み係数
の推定は、前記2通りの方法がある。
【0280】さらに、ここの実施例で述べたものは、N
Nは予測器を構成する場合を述べたが、パターン変換と
して例えば「迫江,磯,“ダイナミックニューラルネッ
トワークの検討",電子情報通信学会技術研究報告,SP8
7-102(1987年12月)」にDNNとして記載のNNにも本
願発明と全く同様に、HMMの状態に入力層から出力層
に至る径路を状態に対応させたモデルとして実現するこ
とは勿論可能である。
【0281】
【発明の効果】以上のように、本発明によれば、ニュー
ラルネットワークにおける信号の伝播径路をHMMの状
態に対応させることによって、"静的"なパターンに対し
て高い識別能力を持つニューラルネットワークを音声の
ような"動的"な時系列パターンにも適用出来るようにな
った。
【図面の簡単な説明】
【図1】本発明によるニューラルネットワークの一実施
例を例示する構成図
【図2】階層型ニューラルネットワークの構成図
【図3】ニューラルネットワークのユニットの非線形特
性の説明図
【図4】HMMによる音声認識装置の従来例のブロック
【図5】本発明によるニューラルネットワークの一実施
例を例示する構成図
【図6】本発明によるニューラルネットワークの他の実
施例を例示する構成図
【図7】本発明によるニューラルネットワークの更に他
の実施例を例示する構成図
【図8】本発明によるニューラルネットワークの更に他
の実施例を例示する構成図
【図9】本発明によるニューラルネットワークの更に他
の実施例を例示する構成図
【図10】本発明の原理を説明する原理図
【図11】本発明の原理に基づく音声認識装置の1実施
例を示すブロック図
【図12】本発明によるモデルのパラメータを推定する
第1の実施例を示すブロック図
【図13】第1の実施例の処理手順を示すPAD図
【図14】第1の実施例の処理手順を示すPAD図
【図15】本発明によるモデルのパラメータを推定する
第2の実施例を示すブロック図
【図16】第2の実施例の処理手順を示すPAD図
【図17】第2の実施例の処理手順を示すPAD図
【図18】本発明によるモデルのパラメータを推定する
第3の実施例を示すブロック図
【図19】本発明によるモデルのパラメータを推定する
第4の実施例を示すブロック図
【図20】本発明によるモデルのパラメータを推定する
第5の実施例を示すブロック図
【図21】本発明によるモデルのパラメータを推定する
第6の実施例を示すブロック図
フロントページの続き (56)参考文献 特許2964507(JP,B2) 電子情報通信学会技術研究報告[音声 ]Vol.91 No.95 SP91−14 「時系列処理機能をもつ階層型ニューラ ルネットワーク」p.63−70(1991/6 /20発行) 電子情報通信学会技術研究報告[音声 ]Vol.89 No.340 SP89−83 「ニューラルネット駆動型HMM」p. 55−62(1989/12/14) 日本音響学会平成2年度秋季研究発表 会講演論文集 1−8−22「ニューラル ネット予測型HMMによる音声認識」 p.43−44(平成2年9月19日発表) 電子情報通信学会技術研究報告[音声 ]Vol.89 No.90 SP89−23 「ニューラルネットワークによる予測モ デルを用いた音声認識」p.81−87 (1989/6/22) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 539 G10L 3/00 533 G10L 3/00 535 G10L 9/10 301 G06F 15/18 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 1つ以上の入出力を有する複数のユニッ
    トが相互に結合され、各々の結合にはそこを流れる信号
    に対して重み付けを行うその結合固有の荷重係数が定義
    され、入力の特徴ベクトル系列{y(t)}に含まれる幾つか
    のベクトルの各々の成分が入力される入力ユニット群
    と、該入力ユニット群に入力された前記ベクトルが前記
    ユニット及び結合を通過することにより変換され、該変
    換されたベクトルを出力する出力ユニット群と、前記入
    力ユニット群から前記出力ユニット群に至る径路の少な
    くともの1つを重複させて所定数の径路群に分け、それ
    ぞれの径路群を状態遷移網の状態または状態遷移に対応
    させたニューラルネットワークを含むことを特徴とする
    信号解析装置。
  2. 【請求項2】 ニューラルネットワークの径路群j(=1,
    2,...J)による出力値はy(t)の前記径路群jにおける予
    測値そのものあるいは予測値に関連した値であることを
    特徴とする請求項1記載の信号解析装置。
  3. 【請求項3】 観測特徴ベクトル系列Y={y(t)}に対し、
    請求項2記載のニューラルネットワークの径路群jに基
    づく予測誤差ベクトルe j (t)の確率分布を規定するパラ
    メータを記憶する確率分布パラメータ記憶手段と、状態
    系列をX={x(t)}とし、E(X)={e x(t) (t)}とするとき、前
    記確率分布パラメータ記憶手段に記憶されているパラメ
    ータを用いて計算される各状態あるいは各状態遷移毎の
    確率密度から前記観測系列Yに対するモデルλの尤度を
    (数1)として計算する尤度計算手段を備えたことを特
    徴とする信号解析装置。 【数1】
  4. 【請求項4】 入力特徴ベクトル系列Y={y(t)}に対し、
    請求項2記載のニューラルネットワークの径路群jに基
    づく予測誤差ベクトルe j (t)の確率分布を規定するパラ
    メータを記憶する確率分布パラメータ記憶手段と、状態
    系列をX={x(t)}とし、E(X)={e x(t) (t)}とするとき、前
    記確率分布パラメータ記憶手段に記憶されているパラメ
    ータを用いて計算される各状態あるいは各状態遷移毎の
    確率密度から前記観測系列Yに対するモデルλの尤度を
    (数2)あるいは(数3)として計算する尤度計算手段
    を備えたことを特徴とする時系列信号解析装置。 【数2】 【数3】
  5. 【請求項5】 識別カテゴリC 1 ,C 2 ,…,C m のそれぞれに
    対応して請求項3または4記載のモデルを設け、カテゴ
    C m に対応する前記モデルのパラメータの集合をλ m
    するとき、観測パターンYに対して(数4)を計算し、
    C m∧ を識別結果とする時系列信号解析装置。 【数4】
  6. 【請求項6】 カテゴリCに属する観測パターンY (1) ,Y
    (2) ,…,Y (R) (ただし、Y (r) ={y (r) (t)})に対し、請求
    項3または4におけるYに対するE(X)と同様に、Y (r)
    対するE (r) (X (r) を定義するとき、(数5)を最大化
    するパラメータλを算出するパラメータ推定手段を備え
    たことを特徴とする時系列信号解析装置。 【数5】
  7. 【請求項7】 カテゴリCに属する観測パターンY (1) ,Y
    (2) ,…,Y (R) (ただし、 (r) ={y (r) (t)})に対し、カテ
    ゴリCのパラメータの逐次推定において、逐次推定のあ
    る段階における回路網のパラメータの集合をwとすると
    き、第rの訓練パターンに対する請求項で定義された
    E (r) (X (r) )に対し、(数6)を計算する尤度計算手段
    と、該尤度を増大せしむべきwの修正量Δwを算出するパ
    ラメータ修正量算出手段を含み、w+Δwを新たなwとして
    書換え、該wに関して観測パターンY (r+1) に関する尤度
    を前記尤度計算手段によって算出する、と言う操作をw
    の適当な初期値から始め、r=1,…,R,1,…,R,…について
    予め定めた条件を満たすまで繰り返すことによってカテ
    ゴリCのパラメータを推定するパラメータ推定手段を備
    えたことを特徴とする時系列信号解析装置。 【数6】
  8. 【請求項8】 カテゴリCに属する観測パターンY (1) ,Y
    (2) ,…,Y (R) (ただし、Y (r) ={y (r) (t)})に対し、カテ
    ゴリCのパラメータの逐次推定において、ある時点にお
    ける回路網のパラメータの集合をwとするとき、第rの
    訓練パターンに対する請求項6で定義されたE (r) (X (r) )
    に対し、(数8)または(数9)を算出する尤度計算手
    段と、該尤度を増大せしむべきwの修正量Δwを算出する
    パラメータ修正量算出手段を含み、w+Δwを新たなwとし
    て書換え、該wに関して観測パターンY (r+1) に関する尤
    度を前記尤度算出手段によって算出する、と言う操作を
    wの適当な初期値から始め、r=1,…,R,1,…,R,…につい
    て予め定めた条件を満たすまで繰り返すことによってカ
    テゴリCのパラメータを推定するパラメータ推定手段を
    備えたことを特徴とする時系列信号解析装置。 【数8】 【数9】
  9. 【請求項9】 カテゴリCに属する観測パターンY (1) ,Y
    (2) ,…,Y (R) (ただし、Y (r) ={y (r) (t)})に対し、請求
    項3または4におけるYに対するE(X)と同様に、Y (r)
    対するE (r) (X (r) )を定義するとき、(数10)または
    (数11)を最大化するパラメータλを算定するパラメ
    ータ推定手段を備えたことを特徴とする時系列信号解析
    装置。 【数10】 【数11】
  10. 【請求項10】 請求項2記載のモデルに特徴ベクトル
    系列Yを入力し、該特徴ベクトル系列Yに対する前記予
    測モデルに基づく予測誤差電力の累積値の最小値を動的
    計画法によって求める動的計画手段を備えたことを特徴
    とする時系列信号解析装置。
  11. 【請求項11】 請求項2記載のモデルによって、特徴
    ベクトルの系列からなるカテゴリCに対する訓練パター
    Y (1) ,Y (2) ,…,Y (R) のそれぞれに対する予測誤差電力
    の累積値を請求項記載の手段によって算出する累積予
    測誤差電力算出手段と、該累積予測誤差電力算出手段に
    よって累積予測誤差電力を算出する過程で得られる、予
    測ベクトルを出力する出力ユニット群に対応する前記そ
    れぞれの訓練パターンを構成する個々の特徴ベクトルを
    用いて前記出力ユニット群につながる径路の重み係数の
    推定を行う重み係数推定手段を含むことを特徴とする時
    系列信号解析装置。
JP3147440A 1991-06-19 1991-06-19 信号解析装置 Expired - Fee Related JP3003276B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3147440A JP3003276B2 (ja) 1991-06-19 1991-06-19 信号解析装置
US08/213,480 US5381513A (en) 1991-06-19 1994-03-16 Time series signal analyzer including neural network having path groups corresponding to states of Markov chains

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3147440A JP3003276B2 (ja) 1991-06-19 1991-06-19 信号解析装置

Publications (2)

Publication Number Publication Date
JPH04369700A JPH04369700A (ja) 1992-12-22
JP3003276B2 true JP3003276B2 (ja) 2000-01-24

Family

ID=15430388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3147440A Expired - Fee Related JP3003276B2 (ja) 1991-06-19 1991-06-19 信号解析装置

Country Status (2)

Country Link
US (1) US5381513A (ja)
JP (1) JP3003276B2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2081519C (en) * 1992-10-27 2000-09-05 The University Of Toronto Parametric control device
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
CA2135857A1 (en) * 1994-01-03 1995-07-04 Shay-Ping Thomas Wang Neural network utilizing logarithmic function and method of using same
US5548684A (en) * 1994-04-22 1996-08-20 Georgia Tech Research Corporation Artificial neural network viterbi decoding system and method
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JPH08227410A (ja) * 1994-12-22 1996-09-03 Just Syst Corp ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置
US7076102B2 (en) * 2001-09-27 2006-07-11 Koninklijke Philips Electronics N.V. Video monitoring system employing hierarchical hidden markov model (HMM) event learning and classification
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
KR100434522B1 (ko) * 1997-04-29 2004-07-16 삼성전자주식회사 시간축 상호관계를 이용한 음성인식 방법
US5963906A (en) * 1997-05-20 1999-10-05 At & T Corp Speech recognition training
JP3050180B2 (ja) * 1997-08-08 2000-06-12 日本電気株式会社 音声認識装置
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
US6263326B1 (en) 1998-05-13 2001-07-17 International Business Machines Corporation Method product ‘apparatus for modulations’
US6157899A (en) * 1998-10-21 2000-12-05 Bethlehem Steel Corporation Prediction of responses to different powdering tests on a galvanneal-coated steel substrate or different tests on other substrates, using computer-based systems and methods
US6385607B1 (en) * 1999-03-26 2002-05-07 International Business Machines Corporation Generating regression trees with oblique hyperplanes
US7149689B2 (en) * 2003-01-30 2006-12-12 Hewlett-Packard Development Company, Lp. Two-engine speech recognition
JP2005141601A (ja) * 2003-11-10 2005-06-02 Nec Corp モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム
US8224017B2 (en) * 2006-01-13 2012-07-17 New Jersey Institute Of Technology Method for identifying marked content
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9336774B1 (en) * 2012-04-20 2016-05-10 Google Inc. Pattern recognizing engine
US11049005B2 (en) * 2017-03-22 2021-06-29 At&T Intellectual Property I, L.P. Methods, devices and systems for managing network video traffic
CN115130617B (zh) * 2022-07-27 2024-02-27 西安交通大学 一种自适应卫星数据模式不断增长的检测方法
CN120729775B (zh) * 2025-09-04 2025-10-31 中国电子科技集团公司第三十研究所 路由路径的规划方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964507B2 (ja) 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885757A (en) * 1987-06-01 1989-12-05 Texas Instruments Incorporated Digital adaptive receiver employing maximum-likelihood sequence estimation with neural networks
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964507B2 (ja) 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成2年度秋季研究発表会講演論文集 1−8−22「ニューラルネット予測型HMMによる音声認識」p.43−44(平成2年9月19日発表)
電子情報通信学会技術研究報告[音声]Vol.89 No.340 SP89−83「ニューラルネット駆動型HMM」p.55−62(1989/12/14)
電子情報通信学会技術研究報告[音声]Vol.89 No.90 SP89−23「ニューラルネットワークによる予測モデルを用いた音声認識」p.81−87(1989/6/22)
電子情報通信学会技術研究報告[音声]Vol.91 No.95 SP91−14「時系列処理機能をもつ階層型ニューラルネットワーク」p.63−70(1991/6/20発行)

Also Published As

Publication number Publication date
US5381513A (en) 1995-01-10
JPH04369700A (ja) 1992-12-22

Similar Documents

Publication Publication Date Title
JP3003276B2 (ja) 信号解析装置
JP2964507B2 (ja) Hmm装置
JP2795058B2 (ja) 時系列信号処理装置
EP0705473B1 (en) Speech recognition method using a two-pass search
US10325200B2 (en) Discriminative pretraining of deep neural networks
CN107615308B (zh) 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
JPH10254483A (ja) 音素シンボルの事後確率演算装置及び音声認識装置
Franco et al. Context-dependent connectionist probability estimation in a hybrid hidden Markov model-neural net speech recognition system
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Zhao et al. Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling.
EP0553101B1 (en) A pattern recognition device using an artificial neural network for context dependent modelling
JPH06208392A (ja) パターン認識方法および装置
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
JP2600871B2 (ja) Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Huang et al. Training rnn-t with ctc loss in automatic speech recognition
Konig et al. Supervised and unsupervised clustering of the speaker space for connectionist speech recognition
KR100229438B1 (ko) 계층적 피드백 구조를 갖는 음성인식시스템
Jou et al. Mandarin syllables recognition based on one class one net neural network with modified selective update algorithm
Djuraev et al. An In-Depth Analysis of Automatic Speech Recognition System
JPH0854893A (ja) 帰属度算出装置およびhmm装置
JPH05241593A (ja) 時系列信号処理装置
JP2836968B2 (ja) 信号解析装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees