JP2000338989A

JP2000338989A - 音声認識方法および装置

Info

Publication number: JP2000338989A
Application number: JP11150284A
Authority: JP
Inventors: Tetsuo Kitazoe; 徹郎北添; Seiichi Kin; 星一金; Tomoyuki Ichiki; 知幸市来
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 1999-05-28
Filing date: 1999-05-28
Publication date: 2000-12-08
Anticipated expiration: 2019-05-28
Also published as: JP4028136B2

Abstract

(57)【要約】【課題】従来のヒドンマルコフモデル（ＨＭＭ）に比
べて認識率の一層の向上が可能な音韻認識手段を有する
音声認識方法および装置を提供することにある。【解決手段】ステレオビジョン神経回路方程式を用い
る立体視の知覚のための類似度処理では、方程式中に、
映像のある画素に対応するニューロン（セル）の活性度
（興奮度）を他の画素に対応するニューロンの活性度に
より抑制するように作用する競合項と、活性度を強調す
るように作用する協調項とを併せてもっている。本発明
では、ステレオビジョン神経回路の方程式において、立
体視の左右二つの映像のデータの代わりに、音声認識対
象の入力データの音素が比較基準となる各音素の学習デ
ータについてそれぞれ得られる類似度のデータを適用
し、唯一の音素を決定する音韻認識処理を行なわせるよ
うにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、連続入力される音
声からその要素となっている各音素の種類を識別して音
声を認識する音声認識方法および装置の改良に関する。

【０００２】音声認識では、認識率をいかに向上させる
かが最も重要な問題となっており、本発明では、入力音
声の音素とあらかじめ保持されている基準の各音素とを
比較してそれぞれの類似度を求めた後の、唯一の音素を
決定する音韻認識処理に、脳の立体視に関わる神経回路
モデルを適用することにより、認識率の飛躍的な向上を
図っている。

【０００３】

【従来の技術】最近、大語彙連続音声認識の研究が盛ん
に行なわれるようになり、実用化の兆しも見えて来つつ
ある。この研究には、大きく分けて二つの技術的問題が
ある。一つは音響モデルの問題で、一つ一つの音素の認
識率を向上させようとするものである。もう一つは言語
モデルの問題で、音素の繋がりに関する言語的あるいは
文法的知識を用いて単語や文の認識率を高めようとする
ものである。前者に対してはヒドン（隠れ）マルコフモ
デル（ＨＭＭ）を基本として、それを補強するようなモ
デルが一般的に用いられてきた。現在は、特に後者の言
語モデル改良に力が注入されているが、全体の文認識に
対しては、言語モデルによる１０−２０％の改良は音響
モデルによる１−２％の改良と等価な寄与しかしないこ
とが知られており、大きな期待は望めないものとなって
いる。一方、音響モデルの方でも技術的に限界が感じら
れており、ＨＭＭのもとでこれ以上の発展を見込むのは
困難である。

【０００４】図１０に、従来のＨＭＭモデルによる音声
認識装置のブロック構成を示す。図において、連続音声
入力部１では連続音声入力を行ない、デジタル形式の音
声信号を入力する。音声信号処理部２で、入力された音
声信号を一定の時間間隔（フレーム）に分割し、各フレ
ームにおいて信号処理を行なって、音響パラメータ（通
常メルケプストラム係数ＭＦＣＣ）を抽出する。類似
度計算部３では、抽出された音響パラメータからなる入
力データを、あらかじめ各音韻について学習され統計的
に処理された基準となる学習データと比較し、入力デー
タと各音韻の学習データとの間の類似度を計算する。音
声認識部４は、これらの類似度を入力としてＨＭＭモデ
ルによる音韻認識を行なう。その際、各フレームにおけ
る認識結果を見ながら、各音韻の平均的な長さや辞書的
知識を参照して、音韻境界抽出を行ない、音韻と音韻の
間の望ましい境界を決定する。それらの一連の作業によ
って決定された音韻の列により単語同定部５で単語同定
処理を行ない、ついでそれらの同定された単語の積み上
げとして、文同定部６で文同定を行なう。文同定部６で
は文同定の候補が挙げられるが、その際、文法的知識や
意味的知識による検討が行なわれる。もし、この段階で
文法的および意味的に問題がなければ、文認識部７にお
いて文認識が完成するが、そうでなければ単語同定部
５、音韻認識部４にフィードバックして第二候補が検討
される。

【０００５】

【発明が解決しようとする課題】本発明の課題は、従来
のヒドンマルコフモデル（ＨＭＭ）に比べて認識率の一
層の向上が可能な音韻認識手段を有する音声認識方法お
よび装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明は、音声認識の音
響モデルとして、従来のヒドンマルコフモデルとは全く
異なる原理に基づく神経回路モデルを用いるものであ
る。

【０００７】本発明者らは、先に人間の脳における立体
視（ステレオビジョン）の機能について考察したが、立
体視では、３次元物体を左目と右目の網膜にそれぞれ投
影して得た二つの２次元像を、脳の中の神経回路によっ
て比較して瞬時に類似度処理を行い、物体の立体知覚を
得ていることから、このステレオビジョン神経回路機能
は、音声の入力データと基準の学習データとの間の類似
度の高速処理にも有効であると考えた。そこで、ステレ
オビジョン神経回路から音響モデルのためのステレオビ
ジョン神経回路方程式を発展させ、実際にその神経回路
モデルによる効果を確認できた。

【０００８】本来のステレオビジョン神経回路における
立体視のための類似度処理では、方程式中に、映像のあ
る画素に対応するニューロン（セル）の活性度（興奮
度）を他の画素に対応するニューロンの活性度により抑
制するように作用する競合項と、活性度を強調するよう
に作用する協調項とを併せてもっている。本発明では、
ステレオビジョン神経回路の方程式において、立体視の
左右二つの映像のデータの代わりに、音声認識対象の入
力データの音素が比較基準となる各音素の学習データに
ついてそれぞれ得られる類似度のデータを適用し、唯一
の音素を決定する音韻認識処理を行なわせるようにし
た。なお、本発明によるステレオビジョン神経回路方程
式の詳細については、後述される。

【０００９】本発明は、以下のように構成される。（１）連続して入力された音声からフレームごとに抽
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算し、得られた入力データのフレームごと
の類似度データに基づいて音韻認識処理を行う音声認識
方法において、上記音韻認識処理は神経回路モデルを用
いて行われ、該神経回路モデルでは、出力層における各
音素対応のセルの活性度は、他の音素対応のセルの活性
度に応じて抑制を受け、また近接フレームの同一音素の
活性度に応じて協調を受けるように処理されることを特
徴とする音声認識方法。（２）前項（１）において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識方法。（３）前項（１）において、神経回路モデルは、結合
パターン認識方程式構造をもつことを特徴とする音声認
識方法。（４）前項（１）において、神経回路モデルは、３層
構造をもつことを特徴とする音声認識方法。（５）前項（１）において、神経回路モデルは、２層
構造をもつことを特徴とする音声認識方法。（６）前項（１）において、各音素の学習データは、
ガウス確率分布関数で標準化して保持されていることを
特徴とする音声認識方法。（７）連続して入力された音声からフレームごとに抽
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算する類似度計算手段と、得られた入力デ
ータのフレームごとの類似度データに基づいて音韻認識
を行なう音韻認識手段とを備えた音声認識装置におい
て、上記音韻認識手段は、神経回路モデルを有し、該
神経回路モデルは、出力層における各音素対応のセルの
活性度が、他の音素対応のセルの活性度に応じて抑制さ
れ、また近接フレームの同一音素の活性度に応じて強調
されるように構成されていることを特徴とする音声認識
装置。（８）前項（７）において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識装置。（９）前項（７）において、神経回路モデルは、結合
パターン認識方程式構造をもつものであることを特徴と
する音声認識装置。（１０）前項（７）において、神経回路モデルは、３
層構造をもつものであることを特徴とする音声認識装
置。（１１）前項（７）において、神経回路モデルは、２
層構造をもつものであることを特徴とする音声認識装
置。（１２）前項（７）において、各音素の学習データ
は、ガウス確率分布関数で標準化して保持されているこ
とを特徴とする音声認識装置。

【００１０】図１により、本発明の基本構成を説明す
る。

【００１１】図１において、認識対象の連続音声信号
は、連続音声入力部１１に入力され、次に音声信号処理
部１２で一定時間幅のフレームに分割されて、フレーム
ごとに音響パラメータを抽出される。

【００１２】一方、学習部１３には、あらかじめ認識基
準となる音声データが入力されて学習が行われて、音素
単位にフレームごとに音響パラメータを抽出して作成さ
れた学習データ１３ａが保持されている。

【００１３】類似度計算部１４は、音声信号処理部１２
から出力された入力データと学習データ１３ａの各音素
とをフレームごとに比較し、各音素に対する類似度をそ
れぞれフレームごとに算出して類似度データを作成し、
音韻認識部１５へ出力する。

【００１４】音韻認識部１５は、前述した競合項と協調
項とを持つステレオビジョン神経回路方程式に基づく神
経回路モデル１５ａを備えており、類似度計算部１４か
ら出力された各音素対応の類似度データを入力して動作
させる。その結果、神経回路は一つの音素のみが勝利す
るように収束して、音韻認識出力を生じる。なお神経回
路モデル１５ａは、コンピュータプログラム上に実現さ
れている。

【００１５】音韻認識部１５から順次出力される音韻認
識出力は、図示省略されているが、さらに単語同定処理
や文同定処理をされて、連続音声認識結果として出力さ
れる。

【００１６】学習部１３には、多数の音声の学習データ
が各音素に分類して記憶されている。この学習データ
は、音素ごとにガウス確率分布関数（ｐｄｆ）のような
標準形式で記憶されている。

【００１７】類似度計算部１４では、入力データの音素
が、記憶されている学習データの各音素のガウスｐｄｆ
に対して参照され、比較することによって類似度が求め
られる。類似度の説明ｕをフレーム番号、ａを音素名として、あるフレームｕ
における入力データとある音素/a/ との類似度を次の数
１で表わし、またその類似度が対応する神経回路内のニ
ューロン（セル）の活性度（アクティビティ）、つまり
興奮のレベルを次の数２で表わす。

【００１８】

【数１】

【００１９】

【数２】

【００２０】神経回路方程式は、入力として数１の類似
度データを受け取った後、神経回路が安定点に向かって
動作するように数２の活性度を処理し、安定点に達した
とき認識を完了する。

【００２１】記憶されている学習データは、次の数３に
示すガウスｐｄｆの式(1) で表現される。

【００２２】

【数３】

【００２３】ここで、οは入力、μ_aはある音素/a/ に
対するケプストラムで表わされた学習データの平均値で
ある。Σ_aは、次の数４に示す式(2) で表わされる。

【００２４】

【数４】

【００２５】ここで、ο_nはある音素/a/ の学習データ
である。ある音素/a/ に対するｕ番目のフレームにおけ
る入力データο_uの正規化された類似度を次の数５で表
わした場合、

【００２６】

【数５】

【００２７】次の数６に示す式(3) のように定義され
る。

【００２８】

【数６】

【００２９】ここで、Ｎ′はＮの対数尤度を表わし、＜
Ｎ＞は、各音素の平均値を示す。

【００３０】

【発明の実施の形態】以下に、本発明の具体的な実施の
形態について説明する。

【００３１】図２は、本発明の１実施例による音声認識
処理のフローである。図中、21から23までは音素データ
の学習過程、24から28までは音韻認識過程を示す。な
お、連続音声認識に伴う単語同定や文同定の過程は、省
略されている。

【００３２】21では、入力する音素の学習データとし
て、すでに専門家によって音声データの各音韻部分にラ
ベルが振られたデータが利用される。これらの音声デー
タから、ラベルに基づいて音韻を切り取り、膨大な音素
データを作成する。

【００３３】22では、各音素データからフレームごとに
音響パラメータを抽出する。

【００３４】23では、ガウス確率分布関数（ｐｄｆ）を
用いて各音素の標準モデルを計算し保存する。

【００３５】24では、認識対象の音声データを入力す
る。ここでは、入力データとしてすでに音韻ごとに切り
出された音素データが用いられる。音素データからは、
フレームごとに音響パラメータが抽出される。

【００３６】25では、入力された音素データと保存され
ている標準モデルの各音素データとをフレームごとに比
較して、それぞれの類似度を計算する。

【００３７】26では、フレームごとに各音素の類似度デ
ータを神経回路方程式に入力して、計算処理する。その
際、27で、神経回路の活性度変数に対して適当な初期値
の設定を行う。なお、計算時間を短縮する必要がある場
合には、入力する類似度データ数を限定し、たとえば上
位の５つの音素に限定してもよい。

【００３８】28では、神経回路方程式を計算処理した結
果、定常解が得られたとに音韻認識出力する。フレーム
ごとに、定常解で出力層（最終層）の神経活性度が正の
一定値をとる音素が認識候補となり、０に近い値の音素
は捨てられる。各フレームで認識頻度がもっとも高かっ
た音素がその音韻の第一候補となり、認識結果として出
力される。

【００３９】次に、ステレオビジョン神経回路方程式の
実施例について説明する。

【００４０】本発明において、音韻認識を行なう神経回
路モデルを規定する競合項と協調項をもつステレオビジ
ョン神経回路方程式には種々の態様のものが考えられる
が、以下に、結合パターン認知方程式、３層構造神経回
路方程式、２層構造神経回路方程式、の３つの実施例に
ついて述べる。実施例Ａ：結合パターン認知方程式結合パターン認知（Coupled Pattern Recognition ）方
程式は、競合項と協調項とを結合したパターン認知方程
式であり、立体視の処理のためのステレオビジョン神経
回路方程式を、音韻認識の類似度処理のために変形した
ものである。この方程式は、次の数７中に示す式(4) 、
式(5) 、式(6) の形で与えられる。

【００４１】

【数７】

【００４２】ここで、Ｂ，Ｃ，Ｄ，Ｅは、正の定数であ
る。式(6) の左辺の数８は、神経回路の入力層におい
て、数９で示す類似度が入力されるセルの活性度を表わ
すが、数１０で示す出力層における他の音素の類似度に
対応するセルの活性度および近傍のフレームによっても
影響を受ける。すなわち、数７中の式(6) の右辺第２項
は、数１１で示す他の音素の活性度によって抑制を受け
る競合項を表わし、また右辺第３項は、ｕ−ｌ＜＝ｕ′＜＝ｕ＋ｌの範囲の近接フレーム間での同一音素の活性度により強
調を受ける協調項を表わしている。

【００４３】

【数８】

【００４４】

【数９】

【００４５】

【数１０】

【００４６】

【数１１】

【００４７】この結合パターン認知方程式の解は、入力
λとξの初期値とによって決定される。しかし、後述さ
れるように、ξが正の値から出発するならば、初期条件
とは無関係に、同じ値の解に収束する。

【００４８】数７の結合パターン認知方程式において、
類似度λは、αを介してのみ式(4),(5),(6) へ導入され
て式中で重要な役割を果たす。図３の（ａ）と（ｂ）
は、それぞれαの値が正の場合（α＞０）と負の場合
（α＜−Ｅ²／4 .5Ｃ）の、ξの値に対応する典型的な
ポテンシャル関数波形を示す。なお、図３の（ａ）と
（ｂ）のポテンシャル関数波形では、式(4),(5),(6) 中
の定数として、Ｂ＝0 .25 ，Ｃ＝1 .25 ，Ｄ＝0 .60 ，
Ｅ＝3 .00 ，ｌ＝4 が用いられている。

【００４９】図３の（ａ）に示されるα＞０のポテンシ
ャル関数波形では、結合パターン認知方程式によって、
ξの値は０に向かうように変化する。また、図３の
（ｂ）に示される α＜−Ｅ²／4 .5Ｃのポテンシャ
ル関数波形では、ξの初期値が正の値に設定されるなら
ば、ξは、ポテンシャル波形の絶対的最小値に対応する
ある正の値に向かって変化する。このようにして、ξが
最終的にある正の値になるニューロンを勝者ニューロン
と呼び、またニューロンが活性を全く失ってξが０にな
るニューロンを敗者ニューロンと呼ぶ。しかし実際の時
間経過では、αが周囲のξの値に依存して時間とともに
変化するため、状況はもっと複雑なものになる。

【００５０】この結合パターン認知方程式による神経回
路モデルを用いた音韻認識では、従来のＨＭＭ方式に比
べて、平均８％もの認識率の向上が得られた。実施例Ｂ：３層構造神経回路（３ＬＮＮ）方程式図４は、３層構造のステレオビジョン神経回路方程式に
よる神経回路（ThreeLayered Neural Net：３ＬＮＮ)
モデルを示したものである。図示の神経回路モデルは、
入力層、中間層、出力層の３層からなり、各層には、複
数のセル（ニューロン）が２次元配列されている。２次
元配列の横の各セル行は順次のフレームに対応付けられ
ており、縦の各セル列は異なる音素の種類に対応付けら
れている。

【００５１】入力層、中間層、出力層の各セルの活性度
は、それぞれ数１２のように表される。

【００５２】

【数１２】

【００５３】入力層の各セルには、数１３に示す類似度
データが入力される。また各層のセルには、図中に矢線
で例示されるような、神経回路方程式の競合項と協調項
に基づく結合が設けられている。図５にその結合の様子
を示す。

【００５４】

【数１３】

【００５５】図５において、入力層上の数１４で示す音
素のセルへは、出力層上の数１５で示す同じフレームの
他の複数の音素のセルから、点線の矢線のように競合項
に基づく興奮を抑制する結合が行なわれ、また、出力層
上の近接する複数のフレームにある同一音素に属する数
１６のセルからは、実践の矢線のように協調項に基づく
興奮を強調させる結合が行なわれる。

【００５６】

【数１４】

【００５７】

【数１５】

【００５８】

【数１６】

【００５９】次に、３層構造神経回路モデル（３ＬＮ
Ｎ）の神経回路方程式（以下、３ＬＮＮ方程式という）
について説明する。

【００６０】３ＬＮＮ方程式は、以下の数１７に示す式
(7) で与えられる。

【００６１】

【数１７】

【００６２】ここで、数１８は時間依存の神経活性度を
表わし、f(x)は数１９の式(8) で与えられるSigmoid 関
数を表わしている。また数２０は数２１の式(9) で表わ
され、g(u)は数２２に示す式(10)、(11)で与えられる。

【００６３】

【数１８】

【００６４】

【数１９】

【００６５】

【数２０】

【００６６】

【数２１】

【００６７】

【数２２】

【００６８】なお、Ａ，Ｂ，Ｄ，ｗ，ｈは、それぞれ適
切に選択される正の定数である。

【００６９】図４に示されるように、入力層の数２３で
示す神経活性度は、数２４の類似度入力とともに数２５
で示す近傍の神経活性度の影響をも受ける。式(11)にお
いて、右辺の第２項は入力項、第３項は競合項、第４項
は協調項である。この第２項は、第ｕフレームにおける
ある音素/a/ に対する入力データの類似度を表わす。ま
た第３項は、数２６で示す他の音素の活性度との競合を
表わし、第４項は、同一音素についての近接フレームか
らの協調を表わす。

【００７０】

【数２３】

【００７１】

【数２４】

【００７２】

【数２５】

【００７３】

【数２６】

【００７４】式(11)の第３項中の数２７に示す加算指標
は、a ′≠a の制限のもとで、ａ−ａ_s＜＝ a′＜＝ａ＋ａ_s として定義される不同検索範囲を網羅する。また式(11)
の第４項中の数２８に示す加算指標は、u′≠u の制限
のもとで、ｕ−ｌ＜＝ u′＜＝ｕ＋ｌとして定義される協調範囲を網羅する。

【００７５】

【数２７】

【００７６】

【数２８】

【００７７】方程式の本質的特徴を理解するために数２
９の平衡解を考慮すると、式(10)、(11)は次の数３０の
ように書き替えられる。

【００７８】

【数２９】

【００７９】

【数３０】

【００８０】図６は、曲線ｙ＝ξ および曲線ｙ＝ｆ(
g(α) ＋ g (ξ))のグラフであり、（ａ）〜（ｄ）は、
数３１を正の大きい値４から正の小さい値1.3 まで変化
させたときのものを順に示す。

【００８１】

【数３１】

【００８２】式の解は、図６における二つの曲線の交点
で与えられる。図６において、上記数３１の値が（ａ）
の４から（ｄ）の1.3 まで減少するならば、（ｃ）の値
に達するまで解はほぼ数３２の値を維持する。これとは
反対に、数３１の値が（ｄ）から（ａ）に増加するなら
ば、（ｂ）の値に達するまで解はほぼ数３３の値に維持
される。

【００８３】

【数３２】

【００８４】

【数３３】

【００８５】この事実から、以下の二つの結論が得られ
る。 αの値が大きい場合、ξは比較的大きい値（ほぼ
１）をとり、αの値が小さい場合は、ξは小さい値（ほ
ぼ０）をとる。 αが増加するか減少するかにしたがって、解のξは
異なるパスをとる。これは、ヒステリシス現象の存在を
示唆している。

【００８６】なお、ｗ＞１を仮定するならば、図６の
（ｂ）と（ｃ）の間に、安定でない第３の解が存在す
る。（３ＬＮＮ方程式による音韻認識処理）

【００８７】表１は、実際には/n/ と発音された入力音
素について学習データの各音素との間で類似度計算を行
なった結果の候補のベスト５の類似度マップを示す。こ
こでは、音素/n/,/m/,/o/,/g/,/w/ がベスト５として選
択された。これらのデータが、３ＬＮＮ方程式に入力さ
れて、フレームごとに唯一の音素のξのみが勝利を収め
る勝者決定の処理が行なわれる。表２は、その処理結果
を例示したものである。

【００８８】

【表１】

【００８９】

【表２】

【００９０】表２の例の場合、フレーム１〜１１では音
素/n/ のみが正の大きい値をとって他の音素ではほぼ０
となることから/n/ が勝者となり、一方、フレーム１２
〜１５では音素/m/ のみが正の大きい値をとって他はほ
ぼ０であるから/m/ が勝者となっている。そこで、全フ
レームの平均あるいは頻度から、/n/ を音韻認識結果と
して出力する。

【００９１】３ＬＮＮ方程式のこのような処理について
の動的な理解を得るには、αの典型的な値に応じて変わ
るSigmoid 関数の形に注目するのがよい。また３ＬＮＮ
方程式の安定解は、ほぼ１の大きい値か、ほぼ０の小さ
い値かのどちらかだけを与える式(12)によって決定され
るから、すべてのξに対して、初期値として0.5 を設定
した。

【００９２】図７と図８は、それぞれ、表１の類似度マ
ップが入力されるときの、音素/n/,/m/,/o/,/g/,/w/ に
対する第５フレームにおけるαとξの時間変化特性を示
す。最初に、入力された各音素の類似度データλが異な
っている場合、音素間の差だけがαから３ＬＮＮ方程式
中に導入される。音素/m/,/o/,/g/,/w/ についてのξ
は、α＜０に対するSigmoid 関数形に基づいて、図８に
示すように減少し始める。これに対して、もっとも大き
いλを持つ音素/n/ に対するαは、競合項の値の増加に
つれて正の値をとりはじめる。αⁿが正になると、活性
度ξⁿは図８に示すように、Sigmoid 関数形にしたがっ
て増加に転じる。この段階になると、αⁿの協調項がα
ⁿの立ち上がりを助け、ξⁿの増加を加速することが注
目される。一方、他の各音素のαは、ξⁿの増加に基づ
き競合項の値が増加するため減少し始める。（認識実験例）学習データから各音素についてのガウス
確率分布関数（ｐｄｆ）を作成するために、１０人の男
性話者によって話された４０００語からなるＡＴＲデー
タと、６人の男性話者によって話された５００の文のＡ
ＳＪデータとから、あらかじめラベル付けされている音
素を抽出した。また認識実験のための入力音声データ
は、二つの種類で構成された。その一つは、２１６語の
データベースからのものであり、他の一つは、３人の異
なる男性話者によって話された２４０語の一つからのも
のである。音声データは、次のようにして解析された。

【００９３】本発明による神経回路モデルと従来のモデ
ルとの性能を比較するため、同じデータベースを使用
し、単一の混合と三つの状態をもつヒドンマルコフモデ
ル（ＨＭＭ）により音韻認識実験が行なわれた。認識テ
ストは、表３に示すように、１０次元のＭＦＣＣと、そ
の速度成分の１０次元のデルタＭＦＣＣを使用して実行
された。学習データの各音素のケプストラムデータは、
フレームの中間位置の前半と後半に分けて別々にガウス
ｐｄｆを作成された。入力音声データも前半と後半に分
割され、学習データの前半と後半のガウスｐｄｆの対応
部分と別々に比較され、類似度マップが作成された。音
素の種類は２４あるが、それらの類似度データの上位５
つの候補が、３ＬＮＮ方程式に適用された。表４と表５
に、音韻認識結果を示す。非特定話者認識のときの認識
率は、216 語データベースの場合、ＨＭＭでは71.56 ％
であったのに対して３ＬＮＮでは78.05 ％が得られた。
また240 語データベースの場合は、ＨＭＭでは72.37 ％
であったのに対して３ＬＮＮでは78.94 ％が得られた。

【００９４】

【表３】

【００９５】

【表４】

【００９６】

【表５】

【００９７】実施例Ｃ：２層構造神経回路（２ＬＮＮ）
方程式図９は、２層構造のステレオビジョン神経回路方程式に
よる神経回路（TwoLayered Neural Net：２ＬＮＮ) モ
デルを示したものである。図示の神経回路モデルは、入
力層Ｖ₁と出力層Ｖ₂の２層からなり、各層には、複数
のセル（ニューロン）が２次元配列されている。２次元
配列の横の各セル行は順次のフレームに対応付けられて
おり、縦の各セル列は異なる音素の種類に対応付けられ
ている。入力層と出力層の各セルの活性度は、それぞれ
数３４のように表される。

【００９８】

【数３４】

【００９９】入力層の各セルには、数３５に示す類似度
データが入力される。また各層のセルには、図中に矢線
で例示されるような、２ＬＮＮ方程式の競合項と協調項
に基づく結合が, ３ＬＮＮについて図５で述べたように
設けられている。

【０１００】

【数３５】

【０１０１】次に、２層構造神経回路モデル（２ＬＮ
Ｎ）の神経回路方程式（以下、２ＬＮＮ方程式という）
について説明する。

【０１０２】２ＬＮＮ方程式は、以下の数３６に示す式
(13)および式(14)で与えられる。

【０１０３】

【数３６】

【０１０４】ここで、数３７は時間依存の神経活性度を
表わし、f(x)は数３６中の式 (14)で与えられるSigmoid
関数を表わしている。また数３８は数3 6 中の式(15)
で表わされ、g(u)は数３６中の式(16)で与えられる。

【０１０５】なお、Ａ，Ｂ，Ｄ，ｗ，ｈは、それぞれ適
切に選択される正の定数である。

【０１０６】

【数３７】

【０１０７】図９に示されるように、入力層の数３８で
示す神経活性度は、数３５の類似度入力とともに数２５
で示す近傍の神経活性度の影響をも受ける。数３６中の
式(15)において、右辺の第２項は入力項、第３項は競合
項、第４項は協調項である。この第２項は、第ｕフレー
ムにおけるある音素/a/ に対する入力データの類似度を
表わす。また第３項は、数３９で示す他の音素の活性度
との競合を表わし、第４項は、同一音素についての近接
フレームからの協調を表わす。

【０１０８】

【数３８】

【０１０９】

【数３９】

【０１１０】式 (15) の第３項中の数４０に示す加算指
標は、a ′≠a の制限のもとで、ａ−ａ_s＜＝ a′＜＝ａ＋ａ_s として定義される不同検索範囲を網羅する。また式(15)
の第４項中の数４１に示す加算指標は、u ′≠u の制限
のもとで、ｕ−ｌ＜＝ u′＜＝ｕ＋ｌとして定義される協調範囲を網羅する。

【０１１１】

【数４０】

【０１１２】

【数４１】

【０１１３】方程式の本質的特徴を理解するために数４
２の平衡解を考慮すると、式(15)、(16)は次の数４３の
式(17)および数４４の式(18)のように書き替えられる。

【０１１４】

【数４２】

【０１１５】

【数４３】

【０１１６】

【数４４】

【０１１７】数４３の式(17)では、数３６の式(16)で与
えられるSigmoid 関数により、数38で示す神経活性度に
対する競合と協調の効果によって、直接的に数３７に対
して勝者と敗者の決定が下される仕組みとなっている。
すなわち、数３８で示す神経活性度の大きな値に対して
は１に近い数３７の出力を与え、数３８で示す神経活性
度の小さな値に対しては０に近い小さな数３７の出力を
与える。

【０１１８】この２ＬＮＮ方程式によっても、３ＬＮＮ
方程式の場合と同様に、ＨＭＭに比べて高い音韻認識率
を得ることができる。

【０１１９】

【発明の効果】本発明は、連続して入力される音声から
その要素となっている各音素の種類を識別して音声を認
識する手段として、脳の立体視にかかわる神経回路モデ
ルを適用することにより、認識率の向上を図っている。
従来は、ヒドンマルコフモデル（ＨＭＭ）を基本とし
て、それを補強するようなモデルが一般に用いられてき
たが、ヒドンマルコフモデルでは、技術的限界が見えて
いた。本発明によるステレオビジョン神経回路モデル
は、ヒドンマルコフモデルとは根本的に異なる考え方に
基づいており、音韻認識率を著しく改善することができ
た。この本発明のモデルを連続的な単語認識や文認識に
適用することにより、音声認識の飛躍的向上が期待され
る。

【図面の簡単な説明】

【図１】本発明の基本構成図である。

【図２】本発明の１実施例による音声認識処理のフロー
である。

【図３】結合パターン認知方程式におけるポテンシャル
関数波形の例のグラフである。

【図４】３層構造神経回路モデル（３ＬＮＮ）の概念図
である。

【図５】異なる音素の類似度間の競合と近接フレームデ
ータ間の協調の説明図である。

【図６】ｙ＝ξおよびｙ＝ｆ（ｇ（α）＋ｇ（ξ））の
グラフである。

【図７】αの時間変化特性を示すグラフである。

【図８】ξの時間変化特性を示すグラフである。

【図９】２層構造神経回路モデル（２ＬＮＮ）の概念図
である。

【図１０】従来の連続音声認識装置のブロック構成図で
ある。

【符号の説明】

１１：連続音声入力部１２：音声信号処理部１３：学習部１３ａ：学習データ１４：類似度計算部１５：音韻認識部１５ａ：ステレオビジョン神経回路モデル

Claims

【特許請求の範囲】

【請求項１】連続して入力された音声からフレームご
とに抽出した音響パラメータからなる入力データと、あ
らかじめ学習されている複数の音素の音響パラメータか
らなる基準の学習データとの間でフレームごとに各音素
に対する類似度を計算し、得られた入力データのフレー
ムごとの類似度データに基づいて音韻認識処理を行う音
声認識方法において、上記音韻認識処理は神経回路モデルを用いて行われ、該
神経回路モデルでは、出力層における各音素対応のセル
の活性度は、他の音素対応のセルの活性度に応じて抑制
を受け、また近接フレームの同一音素の活性度に応じて
協調を受けるように処理されることを特徴とする音声認
識方法。
【請求項２】請求項１において、神経回路方程式は、
競合項と協調項とを含むステレオビジョン神経回路方程
式あるいはそれに類似のものであることを特徴とする音
声認識方法。
【請求項３】請求項１において、神経回路モデルは、
結合パターン認識方程式構造をもつことを特徴とする音
声認識方法。
【請求項４】請求項１において、神経回路モデルは、
３層構造をもつことを特徴とする音声認識方法。
【請求項５】請求項１において、神経回路モデルは、
２層構造をもつことを特徴とする音声認識方法。
【請求項６】請求項１において、各音素の学習データ
は、ガウス確率分布関数で標準化して保持されているこ
とを特徴とする音声認識方法。
【請求項７】連続して入力された音声からフレームご
とに抽出した音響パラメータからなる入力データと、あ
らかじめ学習されている複数の音素の音響パラメータか
らなる基準の学習データとの間でフレームごとに各音素
に対する類似度を計算する類似度計算手段と、得られた
入力データのフレームごとの類似度データに基づいて音
韻認識を行なう音韻認識手段とを備えた音声認識装置に
おいて、上記音韻認識手段は、神経回路モデルを有し、該神経回
路モデルは、出力層における各音素対応のセルの活性度
が、他の音素対応のセルの活性度に応じて抑制され、ま
た近接フレームの同一音素の活性度に応じて強調される
ように構成されていることを特徴とする音声認識装置。
【請求項８】請求項７において、神経回路方程式は、
競合項と協調項とを含むステレオビジョン神経回路方程
式あるいはそれに類似のものであることを特徴とする音
声認識装置。
【請求項９】請求項７において、神経回路モデルは、
結合パターン認識方程式構造をもつことを特徴とする音
声認識装置。
【請求項１０】請求項７において、神経回路モデル
は、３層構造をもつものであることを特徴とする音声認
識装置。
【請求項１１】請求項７において、神経回路モデル
は、２層構造をもつものであることを特徴とする音声認
識装置。
【請求項１２】請求項７において、各音素の学習デー
タは、ガウス確率分布関数で標準化して保持されている
ことを特徴とする音声認識装置。