JP2996926B2

JP2996926B2 - 音素シンボルの事後確率演算装置及び音声認識装置

Info

Publication number: JP2996926B2
Application number: JP9056138A
Authority: JP
Inventors: マイク・シュスター; 俊明深田
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-03-11
Filing date: 1997-03-11
Publication date: 2000-01-11
Anticipated expiration: 2017-03-11
Also published as: JPH10254483A; US6041299A; EP0865030A2; EP0865030A3

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される発声音
声の音声信号に基づいて、音素シンボルの事後確率演算
モデルを用いて、音素シンボルの事後確率を演算するた
めの音素シンボルの事後確率演算装置、並びに、上記音
素シンボルの事後確率演算モデルを用いて音声認識する
音声認識装置に関する。

【０００２】

【従来の技術】従来、音声認識に必要な音素シンボルの
事後確率の推定値を、多層パーセプトロン（以下、ＭＬ
Ｐという。）又はリカレント型ニューラルネットワーク
（以下、ＲＮＮという。）及び隠れマルコフモデル（以
下、ＨＭＭという。）とから得られる２つの結果を用い
て演算する方法が、例えば、従来技術文献１「H.Bourla
nd et al.,“Continuous Speech Recognition by Conne
ctionist Statistical Methods",IEEE Transactions on
Neural Networks,Vol.4,No.6,pp.893-909,1993年11
月」（以下、第１の従来例という。）及び従来技術文献
２「A.J.Robinson,“An Application of Recurrent Net
s to Phone Probability Estimation",IEEETransaction
s on Neural Network,Vol.5,No.2,1994年3月」（以下、
第２の従来例という。）において開示されている。この
第１と第２の従来例において、ＨＭＭなどの音響モデル
の代わりに、１フレームの音声特徴パラメータのベクト
ル系列ｘ₁，ｘ₂，…，ｘ_Lが入力されたときに、音素シ
ンボル系列ｃ₁，ｃ₂，…，ｃ_Lが観測される音素シンボ
ル系列の事後確率Ｐｒが最大となる音素シンボル系列
は、次式で表される。

【０００３】

【数１】

【０００４】ここで、Ｃはすべての音素シンボルの集合
を表しており、関数ａｒｇｍａｘはすべての音素シンボ
ルの集合Ｃで変化したときに引数の値が最大となるとき
の音素シンボル系列であり、Ｘは、１フレームの音声特
徴パラメータのベクトル系列ｘ₁，ｘ₂，…，ｘ_Lからな
る１フレームの音声特徴パラメータの行列である。ま
た、数１において、フレーム間の独立性を仮定するとい
う条件で近似すれば次式を得ることができる。

【０００５】

【数２】

【０００６】第１の従来例においては、数２の最終式の
関数ａｒｇｍａｘの引数の第１項Ｐｒ₁はＭＬＰでモデ
ル化され、その第２項Ｐｒ₂はＨＭＭでモデル化され、
ＭＬＰモデルとＨＭＭモデルを用いて音素シンボル系列
の事後確率Ｐｒが最大となる音素シンボル系列を求める
ことができる。一方、第２の従来例においては、数２の
最終式の関数ａｒｇｍａｘの引数の第１項Ｐｒ₁はＲＮ
Ｎでモデル化され、その第２項Ｐｒ₂はＨＭＭでモデル
化され、ＭＬＰモデルとＨＭＭモデルを用いて音素シン
ボル系列の事後確率Ｐｒが最大となる音素シンボル系列
を求めることができる。

【０００７】

【発明が解決しようとする課題】しかしながら、第１と
第２の従来例において、ＨＭＭを用いてモデル化されて
いるので、その構成が複雑であって、集積回路（以下、
ＩＣという。）への実装は極めて困難であるという問題
点があった。

【０００８】本発明の第１の目的は以上の問題点を解決
し、従来例に比較して回路構成が簡単であってＩＣ化が
容易であって、近似なしで音素シンボルの事後確率演算
モデルを用いて、音素シンボルの事後確率を演算するこ
とができる音素シンボルの事後確率演算装置を提供する
ことにある。

【０００９】また、本発明の第２の目的は、上記作成さ
れた音素シンボルの事後確率演算モデルを用いて音声認
識する音声認識装置を提供することにある。

【００１０】

【課題を解決するための手段】本発明に係る請求項１記
載の音素シンボルの事後確率演算装置は、入力された文
字列からなる発声音声文の音声信号から音声特徴パラメ
ータを抽出する特徴抽出手段と、上記特徴抽出手段によ
って抽出された音声特徴パラメータと、仮説の複数の音
素シンボル系列信号とに基づいて、入力層と、複数のユ
ニットを有し少なくとも１層の中間層と、検出すべき音
素シンボルに対応する複数のユニットを有し各音素シン
ボルの事後確率を出力する出力層とを備えた双方向リカ
レント型ニューラルネットワークを用いて、上記音声信
号の音素シンボルの事後確率を演算する演算手段とを備
えた音素シンボルの事後確率演算装置であって、上記入
力層は、複数の音声特徴パラメータと複数の音素シンボ
ル系列信号とを入力とし、複数のユニットを有する第１
の入力ニューロングループと、前向きモジュールと、後
向きモジュールとを備え、上記前向きモジュールは、複
数の音声特徴パラメータと複数の音素シンボル系列信号
とに基づいて、時間的に前向きの帰還接続を有して上記
第１の入力ニューロングループから出力される複数のパ
ラメータよりも所定の単位時間だけ遅延された時刻の複
数のパラメータを生成して上記中間層に出力する一方、
上記後向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に後向きの帰還接続を有して上記第１
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ逆向きに遅延された時刻
の複数のパラメータを生成して上記中間層に出力するこ
とを特徴とする。

【００１１】また、請求項２記載の音素シンボルの事後
確率演算装置は、請求項１記載の音素シンボルの事後確
率演算装置において、上記前向きモジュールは、複数の
音声特徴パラメータと複数の音素シンボル系列信号とを
入力とし、複数のユニットを有する第２の入力ニューロ
ングループと、第２の中間ニューロングループから所定
の単位時間だけ遅延されて出力される複数のパラメータ
を入力とする、複数のユニットを有する第１の中間ニュ
ーロングループと、上記第２の入力ニューロングループ
から出力される複数のパラメータと、上記第１の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続され、複数のユニットを有する第２の中間ニ
ューロングループとを備え、上記後向きモジュールは、
複数の音声特徴パラメータを入力とし、複数のユニット
を有する第３の入力ニューロングループと、第４の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第３の中間ニューロングループ
と、上記第３の入力ニューロングループから出力される
複数のパラメータと、上記第３の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第４の中間ニューロングル
ープとを備え、上記第２の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第１の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第４の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層の複数のユニ
ットに入力されるように接続されたことを特徴とする。

【００１２】本発明に係る請求項３記載の音素シンボル
の事後確率演算装置は、入力された文字列からなる発声
音声文の音声信号から音声特徴パラメータを抽出する特
徴抽出手段と、上記特徴抽出手段によって抽出された音
声特徴パラメータと、仮説の複数の音素シンボル系列信
号とに基づいて、入力層と、複数のユニットを有し少な
くとも１層の中間層と、検出すべき音素シンボルに対応
する複数のユニットを有し各音素シンボルの事後確率を
出力する出力層とを備えた双方向リカレント型ニューラ
ルネットワークを用いて、上記音声信号の音素シンボル
の事後確率を演算する演算手段とを備えた音素シンボル
の事後確率演算装置であって、上記入力層は、複数の音
声特徴パラメータと複数の音素シンボル系列信号とを入
力とし、複数のユニットを有する第１の入力ニューロン
グループと、前向きモジュールと、後向きモジュールと
を備え、上記前向きモジュールは、複数の音声特徴パラ
メータに基づいて、時間的に前向きの帰還接続を有して
上記第１の入力ニューロングループから出力される複数
のパラメータよりも所定の単位時間だけ遅延された時刻
の複数のパラメータを生成して上記中間層に出力する一
方、上記後向きモジュールは、複数の音声特徴パラメー
タと複数の音素シンボル系列信号とに基づいて、時間的
に後向きの帰還接続を有して上記第１の入力ニューロン
グループから出力される複数のパラメータよりも所定の
単位時間だけ逆向きに遅延された時刻の複数のパラメー
タを生成して上記中間層に出力することを特徴とする。

【００１３】また、請求項４記載の音素シンボルの事後
確率演算装置は、請求項３記載の音素シンボルの事後確
率演算装置において、上記前向きモジュールは、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第２の入力ニューロングループと、第２の中間ニュー
ロングループから所定の単位時間だけ遅延されて出力さ
れる複数のパラメータを入力とする、複数のユニットを
有する第１の中間ニューロングループと、上記第２の入
力ニューロングループから出力される複数のパラメータ
と、上記第１の中間ニューロングループから出力される
複数のパラメータに対してそれぞれ各荷重係数を乗算し
てそれぞれ入力されるように接続され、複数のユニット
を有する第２の中間ニューロングループとを備え、上記
後向きモジュールは、複数の音声特徴パラメータと複数
の音素シンボル系列信号とを入力とし、複数のユニット
を有する第３の入力ニューロングループと、第４の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第３の中間ニューロングループ
と、上記第３の入力ニューロングループから出力される
複数のパラメータと、上記第３の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第４の中間ニューロングル
ープとを備え、上記第２の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第１の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第４の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層の複数のユニ
ットに入力されるように接続されたことを特徴とする。

【００１４】さらに、請求項５記載の音素シンボルの事
後確率演算装置は、請求項１乃至４のうちの１つに記載
の音素シンボルの事後確率演算装置において、上記複数
の音素シンボル系列信号を符号化した後、上記第１と第
２と第３の入力ニューロングループに出力する符号化手
段をさらに備えたことを特徴とする。

【００１５】またさらに、請求項６記載の音声認識装置
は、請求項１乃至５のうちの１つに記載の音素シンボル
の事後確率演算装置を備え、上記特徴抽出手段によって
抽出された音声特徴パラメータに基づいて、上記音素シ
ンボルの事後確率演算装置によって演算された事後確率
を有する音素シンボルのうち最大の事後確率を有する音
素シンボルを、検出された音素として選択して、上記音
声信号を音声認識する音声認識手段を備えたことを特徴
とする。

【００１６】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１７】＜音素シンボルの事後確率演算モデルのモ
デル化＞本実施形態において、１フレームの音声特徴パ
ラメータのベクトル系列ｘ₁，ｘ₂，…，ｘ_Lが入力され
たとき、すなわち、１フレームの複数Ｌ個の音声セグメ
ント（例えば、１０ミリ秒のセグメント長さを有す
る。）に分割したときの複数Ｌ個のベクトルからなる系
列が入力されたときに、音素シンボル系列ｃ₁，ｃ₂，
…，ｃ_Lが観測される音素シンボル系列の事後確率が最
大となる音素シンボル系列は、次式の確率に関する公式
を用いて、

【数３】ｐ（ｘ，ｙ）＝ｐ（ｘ）ｐ（ｘ│ｙ）次式で表される。

【００１８】

【数４】

【数５】

【００１９】ここで、数４は、最大事後確率推定法（Ma
ximum A posterior Probability estimation；以下、Ｍ
ＡＰ推定法という。）を用いた前向き事後確率推定法
（以下、ＭＡＰ前向き事後確率推定法という。）による
音素シンボルの事後確率であり、数４の最終式における
確率Ｐ(ｃ_t｜ｃ₁ｃ₂…ｃ_t-1，ｘ₁ｘ₂…ｘ_L）は、１フレ
ームの音声特徴パラメータのベクトル系列ｘ₁，ｘ₂，
…，ｘ_Lが入力されかつ時刻１番目の音素シンボルｃ₁か
ら時刻ｔ−１番目の音素シンボルｃ_t-1が入力されたと
きに、時刻ｔ番目の音素シンボルｃ_tが生じる事後確率
を表している。第１の実施形態においては、確率Ｐ(ｃ_t
｜ｃ₁ｃ₂…ｃ_t-1，ｘ₁ｘ₂…ｘ_L）は、図１及び図２の音
素シンボルの事後確率演算ニューラルネットワーク１１
を用いて計算される。当該音素シンボルの事後確率演算
ニューラルネットワーク１１は、学習用音声データのパ
ラメータファイル３１に記憶された２６次元の音声特徴
パラメータと、学習用音声データの音素シンボル系列フ
ァイル３２に記憶された教師用音素信号とに基づいて予
めニューラルネットワーク学習部１０によって学習され
て生成される。ここで、音素信号とは、音素シンボル系
列信号をいう。また、２６次元の音声特徴パラメータ
は、好ましくは、１２次元のメルケプストラム係数（以
下、ＭＦＣＣという。）と、対数パワーと、それぞれの
１次回帰係数とを含む。また、当該音素シンボルの事後
確率演算ニューラルネットワーク１１の出力値は、６１
個の各音素シンボルの事後確率Ｐ_i（ｉ＝１，２，…，
６１）であり、本実施形態において、６１個の音素シン
ボルは発声言語が英語のときの音素シンボルであって、
次の表１の通りである。

【００２０】

【表１】 ─────────────────────────────────── ａａ，ａｅ，ａｈ，ａｏ，ａｗ，ａｘ，ａｘｈ，ａｘｒ，ａｙ，ｂ，ｂｃｌ，ｃｈ，ｄ，ｄｃｌ，ｄｈ，ｄｘ，ｅｈ，ｅｌ，ｅｍ，ｅｎ，ｅｎｇ，ｅｐｉ，ｅｒ，ｅｙ，ｆ，ｇ，ｇｃｌ，ｓｉｌ，ｈｈ，ｈｖ，ｉｈ，ｉｘ，ｉｙ，ｊｈ，ｋ，ｋｃｌ，ｌ，ｍ，ｎ，ｎｇ，ｎｘ，ｏｗ，ｏｙ，ｐ，ｐａｕ，ｐｃｌ，ｑ，ｒ，ｓ，ｓｈ，ｔ，ｔｃｌ，ｔｈ，ｕｈ，ｕｗ，ｕｘ，ｖ，ｗ，ｙ，ｚ，ｚｈ ───────────────────────────────────

【００２１】本実施形態において、発声言語が英語のと
きの音素シンボルを用いているが、本発明はこれに限ら
ず、他の言語の音素シンボルを用いてもよい。例えば、
発声言語が日本語のときの音素シンボルは、２６個の音
素シンボルを含む。

【００２２】そして、第１の実施形態においては、音素
照合部４は、入力された１フレームの音声特徴パラメー
タと、そのフレームの各セグメントがどの音素シンボル
であるかを仮説として示す仮説音素信号とに基づいて、
学習されて生成された音素シンボルの事後確率演算ニュ
ーラルネットワーク１１を用いて、数４の最大の事後確
率ａｒｇｍａｘＰ(Ｃ｜Ｘ)の音素シンボルを求めること
により、入力された１フレームに対する音素シンボルの
種類を検出する。ここで、注意すべきことは、１つのフ
ァイルでＬｎ個のフレームを検出したときに、各フレー
ム毎に１つの音素シンボルが検出されることである。す
なわち、例えば、発声音声の音素シンボルが／ｏ／ｈ／
ａ／ｙ／ｏ／であるときに、／ｏ／ｏ／ｏ／ｏ／ｈ／ｈ
／ａ／ａ／ａ／ｙ／ｙ／ｙ／ｏ／ｏ／ｏ／ｏと出力され
ることに注意すべきである。

【００２３】数５は、ＭＡＰ推定法を用いた後向き事後
確率推定法（以下、ＭＡＰ後向き事後確率推定法とい
う。）による音素シンボルの事後確率であり、数５の最
終式における確率Ｐ(ｃ_t｜ｃ_t+1ｃ_t+2…ｃ_L,ｘ₁ｘ₂…ｘ
_L)は、１フレームの音声特徴パラメータのベクトル系列
ｘ₁，ｘ₂，…，ｘ_Lが入力されかつ時刻ｔ＋１番目の音
素シンボルｃ_t+1から時刻Ｌ番目の音素シンボルｃ_Lが入
力されたときに、時刻ｔ番目の音素シンボルｃ_tが生じ
る事後確率を表している。第２の実施形態においては、
確率Ｐ(ｃ_t｜ｃ_t+1ｃ_t+2…ｃ_L,ｘ₁ｘ₂…ｘ_L)は、図５の
音素シンボルの事後確率演算ニューラルネットワーク１
１ａを用いて計算される。当該音素シンボルの事後確率
演算ニューラルネットワーク１１ａは、学習用音声デー
タのパラメータファイル３１に記憶された２６次元の音
声特徴パラメータと、学習用音声データの音素シンボル
系列ファイル３２に記憶された教師用音素信号とに基づ
いて予めニューラルネットワーク学習部１０によって学
習されて生成される。

【００２４】そして、第２の実施形態においては、音素
照合部４は、入力された１フレームの音声特徴パラメー
タと、そのフレームの各セグメントがどの音素シンボル
であるかを仮説として示す仮説音素信号とに基づいて、
学習されて生成された音素シンボルの事後確率演算ニュ
ーラルネットワーク１１ａを用いて、数５の最大確率ａ
ｒｇｍａｘＰ(Ｃ｜Ｘ)の音素シンボルを求めることによ
り、入力された１フレームに対する音素シンボルの種類
を検出する。

【００２５】＜第１の実施形態＞図１は、本発明に係る
第１の実施形態である音素シンボルの事後確率演算ニュ
ーラルネットワーク１１を用いた音声認識装置のブロッ
ク図である。この実施形態は、学習用音声データの特徴
パラメータファイル３１と、学習用音声データの音素シ
ンボル系列ファイル３２とに基づいて、所定の学習アリ
ゴリズムを用いて、ＭＡＰ前向き推定法によって形成さ
れた音素シンボルの事後確率演算ニューラルネットワー
クの初期モデル３３を学習することにより、音素シンボ
ルの事後確率演算ニューラルネットワーク１１を得るニ
ューラルネットワーク学習部１０を備え、音素照合部４
は、得られた音素シンボルの事後確率演算ニューラルネ
ットワーク１１を用いて音素シンボルの事後確率を演算
することにより音素シンボルを検出して音声認識を行う
ことを特徴としている。従って、ニューラルネットワー
ク学習部１０は、音素シンボルの事後確率演算ニューラ
ルネットワークの作成装置を構成している。また、音素
照合部４は、入力される音声特徴パラメータに基づい
て、音素シンボルの事後確率演算ニューラルネットワー
ク１１を用いて音素シンボルの事後確率を演算するため
の音素シンボルの事後確率演算装置を構成している。

【００２６】本実施形態においては、音素シンボルの事
後確率を演算するために、図２に示す双方向リカレント
型ニューラルネットワーク（以下、ＢＲＮＮという。）
で構成される音素シンボルの事後確率演算ニューラルネ
ットワーク１１を用いた。一般のリカレント型ニューラ
ルネットワークが時間的に過去の情報を再帰的に利用す
るのに対し、ＢＲＮＮは過去及び未来の入力情報が利用
できることを特徴とする。

【００２７】図２において、入力はケプストラムなどの
音声特徴パラメータＡｂｍと、当該フレームの入力が６
１個の音素シンボルのうちのどの音素シンボルであるか
どうかの６１ビットの教師用音素信号をエンコーダ５
６，６６，７１により符号化した後の６ビットの教師用
符号化音素信号Ａａｍを学習時に与えるとともに、音素
シンボルの事後確率の演算時には、それに代えて仮説の
音素信号をエンコーダ５６，６６，７１により符号化し
た後の６ビットの仮説符号化音素信号Ａａｍを与える。
ここで、音声特徴パラメータＡｂｍは区間［−１，＋
１］に正規化された後入力される一方、符号化音素信号
Ａａｍは区間［０，１］を区間［−１，＋１］に変数変
換した後入力される。一方、学習時の出力は、当該フレ
ームの入力がどの音素シンボルであるかどうかを表わす
確率情報（例えば、当該フレームが当該音素シンボルで
ある場合１，それ以外は０とする。）を学習時に教師信
号として与えるとともに、音素シンボルの事後確率の演
算時には、演算された音素シンボルの事後確率となる。
出力される６１個の音素シンボルの事後確率Ｐ_iは、音
素照合部４によって演算され、例えば、そのうちの最大
の事後確率を有する音素シンボルが当該フレームの音素
シンボル候補として検出される。すなわち、入力ニュー
ロングループＡ（ｔ）のユニット数は音声特徴パラメー
タの次元数２６個と、６ビットの教師用符号化音素信号
（学習時）又は仮説符号化音素信号（音素シンボルの事
後確率の演算時）の６個の符号化音素信号の合計３２個
となり、出力のユニット数は音素シンボル数の６１個と
なる。ここで、音声特徴パラメータは、１２次元のＭＦ
ＣＣと、対数パワーと、それぞれの１次回帰係数とを含
む。以下、１つのファイルの総フレーム数はそれぞれ複
数Ｌとする。

【００２８】本実施形態において、音素信号は符号化し
てビット数を低減しているが、本発明はこれに限らず、
符号化せずにそのまま、ニューラルネットワーク１１の
入力信号としてもよい。

【００２９】図２において、前向きモジュールＢ（ｔ−
１）は、２６個の音声特徴パラメータと６個の符号化音
素信号とに基づいて、時間的に前向きの帰還接続を有し
て入力ニューロングループＡ（ｔ）から出力される３２
個のパラメータよりも所定の単位時間だけ遅延された時
刻ｔ−１の６４個のパラメータを生成して隠れニューロ
ングループＤに出力するモジュールであり、（ａ）２６
個の音声特徴パラメータＡｂｍと６個の符号化音素信号
Ａａｍとを入力とする、３２個のユニットａ₁乃至ａ₃₂
を有する入力ニューロングループ５１と、（ｂ）中間ニ
ューロングループ５３から遅延素子５４を介して出力さ
れる６４個のパラメータを入力とする、６４個のユニッ
トｂ₁乃至ｂ₆₄を有する中間ニューロングループ５２
と、（ｃ）入力ニューロングループ５１から出力される
３２個のパラメータと、中間ニューロングループ５２か
ら出力される６４個のパラメータに対してそれぞれ各荷
重係数を乗算してそれぞれ入力されるように接続される
６４個のユニットｂ₁乃至ｂ₆₄を有する中間ニューロン
グループ５３と、（ｄ）中間ニューロングループ５３か
ら出力される６４個のパラメータを所定の単位時間だけ
遅延させて中間ニューロングループ５２に出力する遅延
素子５４と、（ｅ）６４個のユニットｂ₁乃至ｂ₆₄を有
する前向きモジュールＢ（ｔ−１）の状態ニューロング
ループとなり、前向きモジュールＢ（ｔ−１）の動作終
了時の時刻ｔ−１における中間ニューロングループ５３
から出力される出力値を一時的に記憶して、すなわちラ
ッチして、音素シンボルの事後確率の演算のための右側
のニューラルネットワークの隠れニューロングループＤ
に出力する出力ラッチ５５とを備える。

【００３０】以上のように構成された前向きモジュール
Ｂ（ｔ−１）においては、中間ニューロングループ５２
から中間ニューロングループ５３及び遅延素子５４を介
して中間ニューロングループ５２へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールＢ
（ｔ−１）の動作終了時の時刻ｔ−１における中間ニュ
ーロングループ５３から出力される出力パラメータベク
トルＢ_m（ｍ＝１，２，…，ｔ−１）は次式で表され
る。

【００３１】

【数６】Ｂ_m＝Ｗ_FA・Ａ_m＋Ｗ_FB・Ｂ_m-1

【００３２】ここで、出力値ベクトルＢ_mは６４個のパ
ラメータ値からなり、その初期値ベクトルＢ₀は次式で
表される。

【数７】

【００３３】また、入力ニューロングループ５１への入
力パラメータベクトルＡ_mは次式で表される。

【数８】

【００３４】ここで、時刻ｍにおけるＨ（１）乃至Ｈ
（６）は符号化音素信号であり、Ｏ_m（１）は時刻ｍに
おけるＭＦＣＣの１次の値であり、Ｏ_m（２）は時刻ｍ
におけるＭＦＣＣの２次の値であり、以下同様にして、
Ｏ_m（２６）は時刻ｍにおけるＭＦＣＣの２６次の値で
ある。さらに、数１の荷重係数行列Ｗ_FA，Ｗ_FBはそれぞ
れ、６４×３２の行列、６４×６４の行列であり、次式
で表される。

【００３５】

【数９】

【数１０】

【００３６】さらに、図２において、後向きモジュール
Ｃ（ｔ＋１）は、２６個の音声特徴パラメータと６個の
符号化音素信号に基づいて、時間的に後向きの帰還接続
を有して入力ニューロングループＡ（ｔ）から出力され
る３２個のパラメータよりも所定の単位時間だけ逆向き
に遅延された時刻ｔ＋１の３２個のパラメータを生成し
て隠れニューロングループＤに出力するモジュールであ
って、（ａ）２６個の音声特徴パラメータＡｂｍと、６
個の符号化音素信号Ａａｍとを入力とする、３２個のユ
ニットａ₁乃至ａ₃₂を有する入力ニューロングループ６
１と、（ｂ）中間ニューロングループ６３から逆向き遅
延素子６４を介して出力される３２個のパラメータを入
力とする、３２個のユニットｃ₁乃至ｃ₃₂を有する中間
ニューロングループ６２と、（ｃ）入力ニューロングル
ープ６１から出力される３２個のパラメータのうちの２
６個の音声特徴パラメータＡｂｍと、中間ニューロング
ループ６２から出力される３２個のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ入力されるよう
に接続される３２個のユニットｃ₁乃至ｃ₃₂を有する中
間ニューロングループ６３と、（ｄ）中間ニューロング
ループ６３から出力される３２個のパラメータを所定の
単位時間だけ遅延させて中間ニューロングループ６２に
出力する逆向き遅延素子６４と、（ｅ）３２個のユニッ
トｃ₁乃至ｃ₃₂を有する後向きモジュールＣ（ｔ＋１）
の状態ニューロングループとなり、後向きモジュールＣ
（ｔ＋１）の動作終了時の時刻ｔ＋１における中間ニュ
ーロングループ６３から出力される出力値を一時的に記
憶して、すなわちラッチして、音素シンボルの事後確率
の演算のための右側のニューラルネットワークの隠れニ
ューロングループＤに出力する出力ラッチ６５とを備え
る。ここで、後向きモジュールＣ（ｔ＋１）において、
入力ニューロングループ６１のユニットａ₁乃至ａ₆は中
間ニューロングループ６３のユニットｃ₁乃至ｃ₃₂に接
続されていないことを特徴とする。

【００３７】以上のように構成された後向きモジュール
Ｃ（ｔ＋１）においては、中間ニューロングループ６２
から中間ニューロングループ６３及び逆向き遅延素子６
４を介して中間ニューロングループ６２へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルＣ（ｔ＋１）の動作終了時の時刻ｔ＋１における中間
ニューロングループ６３から出力される出力パラメータ
ベクトルＣ_m（ｍ＝Ｌ，Ｌ−１，…，ｔ＋１）は次式で
表される。

【００３８】

【数１１】Ｃ_m＝Ｗ_BA・Ａ_m＋Ｗ_BC・Ｃ_m+1

【００３９】ここで、出力値ベクトルＣ_mは３２個のパ
ラメータ値からなり、その初期値ベクトルＣ_L+1は次式
で表される。

【数１２】

【００４０】また、入力ニューロングループ６１への入
力パラメータベクトルＡ_mは数３と同様である。さら
に、数６の荷重係数行列Ｗ_BA，Ｗ_BCはそれぞれ、３２×
３２の行列、３２×３２の行列であり、次式で表され
る。

【００４１】

【数１３】

【数１４】

【００４２】さらに、図２に示すように、６４個の隠れ
ユニットｄ₁乃至ｄ₆₄を有する隠れニューロングループ
Ｄと、６１個の出力ユニットｅ₁乃至ｅ₆₁を有し、６１
個の音素シンボルの事後確率Ｐ_i（ｉ＝１，２，…，６
１）を出力する出力ニューロングループＥとを備える。
状態ニューロングループＢ（ｔ−１）のユニットｂ₁乃
至ｂ₆₄の各出力パラメータに対してそれぞれ、各荷重係
数を乗算して隠れニューロングループＤのユニットｄ₁
乃至ｄ₆₄に入力されるように接続され、状態ニューロン
グループＣ（ｔ＋１）のユニットｃ₁乃至ｃ₃₂の各出力
パラメータに対してそれぞれ、各荷重係数で乗算して隠
れニューロングループＤのユニットｄ₁乃至ｄ₆₄に入力
されるように接続され、３２個のユニットａ₁乃至ａ₃₂
を有する入力ニューロングループＡ（ｔ）の各出力パラ
メータに対してそれぞれ各荷重係数で乗算されて隠れニ
ューロングループＤのユニットｄ₁乃至ｄ₆₄に入力され
るように接続される。さらに、隠れニューロングループ
Ｄのユニットｄ₁乃至ｄ₆₄の各出力パラメータに対して
それぞれ各荷重係数で乗算されて出力ニューロングルー
プＥの出力ユニットｅ₁乃至ｅ₆₁に入力されるように接
続される。

【００４３】ここで、状態ニューロングループＢ（ｔ−
１）及びＣ（ｔ＋１）並びに入力ニューロングループＡ
（ｔ）から隠れニューロングループＤを介して出力ニュ
ーロングループＥまでの処理は、前向きモジュールＢ
（ｔ−１）及び後向きモジュールＣ（ｔ＋１）の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層１００
は、入力ニューロングループＡ（ｔ）と、入力ニューロ
ングループＡ（ｔ）の出力時刻ｔから単位時間だけ遅延
された時刻ｔ−１における出力パラメータを計算する前
向きモジュールＢ（ｔ−１）と、時刻ｔから単位時間だ
け逆向きに遅延されたｔ＋１における出力パラメータを
計算する後向きモジュールＣ（ｔ＋１）を備え、中間層
２００は隠れニューロングループＤを備え、出力層３０
０は出力ニューロングループＥを備える。以上のように
構成された音素シンボルの事後確率演算ニューラルネッ
トワーク１１は、等価的には図３に示すように、前向き
モジュールと後向きモジュールが時間方向に接続され、
入力層１００が入力ニューロングループＡ（ｔ）と、前
向きモジュールＢ（ｔ−１）と、後向きモジュールＣ
（ｔ＋１）とからなるＢＲＮＮである。

【００４４】なお、図１において、特徴抽出部２と、音
素照合部４と、ＬＲパーザ５と、ニューラルネットワー
ク学習部１０とは、例えば、デジタル計算機などの演算
制御装置で構成され、バッファメモリ３は例えばハード
ディスクメモリで構成され、学習用音声データの特徴パ
ラメータファイル３１と、学習用音声データの音素シン
ボル系列ファイル３２と、音素シンボルの事後確率演算
ニューラルネットワークの初期モデル３３と、音素シン
ボルの事後確率演算ニューラルネットワーク１１と、Ｌ
Ｒテーブル１２及び文脈自由文法データベース１３とは
例えばハードディスクメモリに記憶される。

【００４５】図４は、図１のニューラルネットワーク学
習部１０によって実行されるニューラルネットワーク学
習処理を示すフローチャートである。図４において、ま
ず。ステップＳ１で特徴パラメータファイル３１と、上
記特徴パラメータファイルに対応する音素シンボル系列
ファイル３２と、音素シンボルの事後確率演算ニューラ
ルネットワークの初期モデル３３とを読み込む。次い
で、ステップＳ２で、音素シンボル系列ファイル３２の
総発声数に対応する特徴パラメータファイル３１のファ
イル数がパラメータＮに設定され、学習の繰り返し数を
パラメータＩに設定する。そして、ステップＳ３でパラ
メータｉを１に初期化し、ステップＳ４でパラメータｎ
を１に初期化する。ステップＳ５でｎファイル目の総フ
レーム数をパラメータＬｎに設定する。次いで、ステッ
プＳ６でＬｎフレームの特徴パラメータを用いて、前向
きモジュールの状態ニューロングループＢ（ｔ−１）、
後向きモジュールの状態ニューロングループＣ（ｔ＋
１）、及び出力ニューロングループＥの出力値（それぞ
れＬｎグループ）を計算し、ニューラルネットワークの
荷重係数更新パラメータを演算する。

【００４６】そして、ステップＳ７でパラメータｎを１
だけインクリメントした後、ステップＳ８でｎ＞Ｎか否
かが判断され、ｎ≦ＮのときはステップＳ５に戻り、上
記の処理を繰り返す。ステップＳ８でｎ＞Ｎのときは、
ステップＳ９でニューラルネットワークの荷重係数の更
新処理を実行して、ステップＳ１０でパラメータｉを１
だけインクリメントした後、ステップＳ１１でｉ＞Ｎか
否かが判断される。ここで、ｉ≦Ｉのときは所定の繰り
返し数に達したと判断し、ステップＳ１２で得られた音
素シンボルの事後確率演算ニューラルネットワーク１１
をメモリに記憶して、当該処理を終了する。学習後の音
素シンボルの事後確率演算ニューラルネットワーク１１
は、音素照合部４に接続される。

【００４７】次いで、不特定話者連続音声認識装置につ
いて説明する。図１において、話者の発声音声はマイク
ロホン１に入力されて音声信号に変換された後、特徴抽
出部２に入力される。特徴抽出部２は、入力された音声
信号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、
１２次元のメルケプストラム係数（以下、ＭＦＣＣとい
う。）と、対数パワーと、それぞれの１次回帰係数とを
含む２６次元の特徴パラメータを抽出する。抽出された
特徴パラメータの時系列はバッファメモリ３を介して音
素照合部４に入力される。

【００４８】音素照合部４は、音素コンテキスト依存型
ＬＲパーザ５からの音素照合要求に応じて音素照合処理
を実行する。そして、学習された音素シンボルの事後確
率演算ニューラルネットワーク１１を用いて音素照合区
間内のデータに対する音素シンボルの事後確率が演算さ
れかつ最尤の音素シンボル候補が検出され、このときの
最尤の音素シンボルの事後確率の値が音素照合スコアと
してＬＲパーザ５に返される。このとき、前向きパスア
ルゴリズムを使用する。

【００４９】一方、文脈自由文法データベース１３内の
所定の文脈自由文法（ＣＦＧ）を公知の通り自動的に変
換してＬＲテーブル１２を作成してそのメモリに格納さ
れる。ＬＲパーザ５は、上記ＬＲテーブル１２を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。ＬＲパーザ５は、上記ＬＲテーブル１
２から次にくる音素を予測して音素予測データを音素照
合部４に出力する。これに応答して、音素照合部４は、
その音素候補に対応する音素シンボルの事後確率演算ニ
ューラルネットワーク１１を参照して照合し、その尤度
を音声認識スコアとしてＬＲパーザ５に戻し、順次音素
を連接していくことにより、連続音声の認識を行う。上
記連続音声の認識において、複数の音素が予測された場
合は、これらすべての存在をチェックし、ビームサーチ
の方法により、部分的な音声認識の尤度の高い部分木を
残すという枝刈りを行って高速処理を実現する。

【００５０】以上説明したように、音素シンボルの事後
確率演算モデル作成装置を構成するニューラルネットワ
ーク学習部１０によって得られた音素シンボルの事後確
率演算ニューラルネットワーク１１によれば、従来例に
比較して回路構成が簡単であってＩＣ化が容易であっ
て、近似なしで音素シンボルの事後確率を求めることが
でき、より高い精度でかつ高速で音素シンボルの事後確
率を演算することができる。また、音素シンボルの事後
確率演算ニューラルネットワーク１１を用いて音声認識
することにより、従来例に比較して高い音声認識率で音
声認識することができる。

【００５１】また、エンコーダ５６，６６，７１を用い
て教師用音素信号又は仮説音素信号を符号化して、ビッ
ト数を低減してそれぞれ入力ニューロングループ５１，
６１，Ａ（ｔ）に入力しているので、当該ニューラルネ
ットワーク１１の構成をさらにきわめて簡単化すること
ができる。

【００５２】＜第２の実施形態＞図５は、本発明に係る
第２の実施形態である音素シンボルの事後確率演算ニュ
ーラルネットワーク１１ａの構成を示すブロック図であ
る。第２の実施形態の音素シンボルの事後確率演算ニュ
ーラルネットワーク１１ａは、第１の実施形態の音素シ
ンボルの事後確率演算ニューラルネットワーク１１に比
較して、前向きモジュールＢ（ｔ−１）及び後向きモジ
ュールＣ（ｔ＋１）の構成が異なる。以下、相違点につ
いて詳細に説明する。

【００５３】図５において、前向きモジュールＢ（ｔ−
１）は、２６個の音声特徴パラメータと６個の符号化音
素信号とに基づいて、時間的に前向きの帰還接続を有し
て入力ニューロングループＡ（ｔ）から出力される３２
個のパラメータよりも所定の単位時間だけ遅延された時
刻ｔ−１の６４個のパラメータを生成して隠れニューロ
ングループＤに出力するモジュールであり、（ａ）２６個の音声特徴パラメータＡｂｍと６個の符号
化音素信号Ａａｍとを入力とする、３２個のユニットａ
₁乃至ａ₃₂を有する入力ニューロングループ５１と、（ｂ）中間ニューロングループ５３から遅延素子５４を
介して出力される３２個のパラメータを入力とする、３
２個のユニットｂ₁乃至ｂ₃₂を有する中間ニューロング
ループ５２と、（ｃ）入力ニューロングループ５１から出力される３２
個のパラメータのうちの２６個の音声特徴パラメータに
対してそれぞれ各荷重係数を乗算してそれぞれ入力され
るように接続される３２個のユニットｂ₁乃至ｂ₃₂を有
する中間ニューロングループ５３と、（ｄ）中間ニューロングループ５３から出力される３２
個のパラメータを所定の単位時間だけ遅延させて中間ニ
ューロングループ５２に出力する遅延素子５４と、（ｅ）３２個のユニットｂ₁乃至ｂ₃₂を有する前向きモ
ジュールＢ（ｔ−１）の状態ニューロングループとな
り、前向きモジュールＢ（ｔ−１）の動作終了時の時刻
ｔ−１における中間ニューロングループ５３から出力さ
れる出力値を一時的に記憶して、すなわちラッチして、
音素シンボルの事後確率の演算のための右側のニューラ
ルネットワークの隠れニューロングループＤに出力する
出力ラッチ５５とを備える。ここで、前向きモジュール
Ｂ（ｔ−１）において、入力ニューロングループ５１の
ユニットａ₁乃至ａ₆は中間ニューロングループ５３のユ
ニットｃ₁乃至ｃ₃₂に接続されていないことを特徴とす
る。

【００５４】以上のように構成された前向きモジュール
Ｂ（ｔ−１）においては、中間ニューロングループ５２
から中間ニューロングループ５３及び遅延素子５４を介
して中間ニューロングループ５２へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールＢ
（ｔ−１）の動作終了時の時刻ｔ−１における中間ニュ
ーロングループ５３から出力される出力パラメータベク
トルＢ_m（ｍ＝１，２，…，ｔ−１）は次式で表され
る。

【００５５】

【数１５】Ｂ_m＝Ｗ_FA・Ａ_m＋Ｗ_FB・Ｂ_m-1

【００５６】ここで、出力値ベクトルＢ_mは３２個のパ
ラメータ値からなり、その初期値ベクトルＢ₀は次式で
表される。

【数１６】

【００５７】また、入力ニューロングループ５１への入
力パラメータベクトルＡ_mは第１の実施形態の数３と同
様である。さらに、数１１の荷重係数行列Ｗ_FA，Ｗ_FBは
それぞれ、３２×３２の行列、３２×３２の行列であ
り、次式で表される。

【００５８】

【数１７】

【数１８】

【００５９】さらに、図５において、後向きモジュール
Ｃ（ｔ＋１）は、２６個の音声特徴パラメータと６個の
符号化音素信号に基づいて、時間的に後向きの帰還接続
を有して入力ニューロングループＡ（ｔ）から出力され
る６４個のパラメータよりも所定の単位時間だけ逆向き
に遅延された時刻ｔ＋１の６４個のパラメータを生成し
て隠れニューロングループＤに出力するモジュールであ
って、（ａ）２６個の音声特徴パラメータＡｂｍと、６
個の符号化音素信号Ａａｍとを入力とする、３２個のユ
ニットａ₁乃至ａ₃₂を有する入力ニューロングループ６
１と、（ｂ）中間ニューロングループ６３から逆向き遅
延素子６４を介して出力される６４個のパラメータを入
力とする、６４個のユニットｃ₁乃至ｃ₆₄を有する中間
ニューロングループ６２と、（ｃ）入力ニューロングル
ープ６１から出力される２６個の音声特徴パラメータＡ
ｂｍと、６個の符号化音素信号とを含む３２個のパラメ
ータに対してそれぞれ各荷重係数を乗算してそれぞれ入
力されるように接続される６４個のユニットｃ₁乃至ｃ
₆₄を有する中間ニューロングループ６３と、（ｄ）中間
ニューロングループ６３から出力される６４個のパラメ
ータを所定の単位時間だけ遅延させて中間ニューロング
ループ６２に出力する逆向き遅延素子６４と、（ｅ）６
４個のユニットｃ₁乃至ｃ₆₄を有する後向きモジュール
Ｃ（ｔ＋１）の状態ニューロングループとなり、後向き
モジュールＣ（ｔ＋１）の動作終了時の時刻ｔ＋１にお
ける中間ニューロングループ６３から出力される出力値
を一時的に記憶して、すなわちラッチして、音素シンボ
ルの事後確率の演算のための右側のニューラルネットワ
ークの隠れニューロングループＤに出力する出力ラッチ
６５とを備える。

【００６０】以上のように構成された後向きモジュール
Ｃ（ｔ＋１）においては、中間ニューロングループ６２
から中間ニューロングループ６３及び逆向き遅延素子６
４を介して中間ニューロングループ６２へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルＣ（ｔ＋１）の動作終了時の時刻ｔ＋１における中間
ニューロングループ６３から出力される出力パラメータ
ベクトルＣ_m（ｍ＝Ｌ，Ｌ−１，…，ｔ＋１）は次式で
表される。

【００６１】

【数１９】Ｃ_m＝Ｗ_BA・Ａ_m＋Ｗ_BC・Ｃ_m+1

【００６２】ここで、出力値ベクトルＣ_mは６４個のパ
ラメータ値からなり、その初期値ベクトルＣ_L+1は次式
で表される。

【数２０】

【００６３】また、入力ニューロングループ６１への入
力パラメータベクトルＡ_mは数３と同様である。さら
に、数６の荷重係数行列Ｗ_BA，Ｗ_BCはそれぞれ、６４×
３２の行列、６４×６４の行列であり、次式で表され
る。

【００６４】

【数２１】

【数２２】

【００６５】さらに、図５に示すように、第１の実施形
態と同様に、６４個の隠れユニットｄ₁乃至ｄ₆₄を有す
る隠れニューロングループＤと、６１個の出力ユニット
ｅ₁乃至ｅ₆₁を有し、６１個の音素シンボルの事後確率
Ｐ_i（ｉ＝１，２，…，６１）を出力する出力ニューロ
ングループＥとを備える。

【００６６】ここで、状態ニューロングループＢ（ｔ−
１）及びＣ（ｔ＋１）並びに入力ニューロングループＡ
（ｔ）から隠れニューロングループＤを介して出力ニュ
ーロングループＥまでの処理は、前向きモジュールＢ
（ｔ−１）及び後向きモジュールＣ（ｔ＋１）の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層１００
は、入力ニューロングループＡ（ｔ）と、入力ニューロ
ングループＡ（ｔ）の出力時刻ｔから単位時間だけ遅延
された時刻ｔ−１における出力パラメータを計算する前
向きモジュールＢ（ｔ−１）と、時刻ｔから単位時間だ
け逆向きに遅延されたｔ＋１における出力パラメータを
計算する後向きモジュールＣ（ｔ＋１）を備え、中間層
２００は隠れニューロングループＤを備え、出力層３０
０は出力ニューロングループＥを備える。以上のように
構成された音素シンボルの事後確率演算ニューラルネッ
トワーク１１ａは、等価的には図６に示すように、前向
きモジュールと後向きモジュールが時間方向に接続さ
れ、入力層１００が入力ニューロングループＡ（ｔ）
と、前向きモジュールＢ（ｔ−１）と、後向きモジュー
ルＣ（ｔ＋１）とからなるＢＲＮＮである。

【００６７】以上のように構成された音素シンボルの事
後確率演算ニューラルネットワークは第１の実施形態と
同様に、図１のニューラルネットワーク学習部１０によ
って学習されて生成され、生成された音素シンボルの事
後確率演算ニューラルネットワーク１１は図１の音声認
識装置によって用いられる。

【００６８】以上説明したように、音素シンボルの事後
確率演算モデル作成装置を構成するニューラルネットワ
ーク学習部１０によって得られた音素シンボルの事後確
率演算ニューラルネットワーク１１ａによれば、従来例
に比較して回路構成が簡単であってＩＣ化が容易であっ
て、近似なしで音素シンボル系列の事後確率を求めるこ
とができ、より高い精度でかつ高速で音素シンボル系列
の事後確率を演算することができる。また、音素シンボ
ルの事後確率演算ニューラルネットワーク１１ａを用い
て音声認識することにより、従来例に比較して高い音声
認識率で音声認識することができる。

【００６９】以上の実施形態においては、好ましい実施
形態の態様について述べており、ニューラルネットワー
クの各ユニットの数はこれに限定されるものではなく、
複数のユニットを有すればよい。なお、中間層２００の
隠れニューロングループＤは出力層３００の出力ニュー
ロングループＥのユニット数よりも多いユニット数を備
えることが好ましい。

【００７０】第１の実施形態において、中間ニューロン
グループ６３に接続されていない入力ニューロングルー
プ６１のユニットａ₁乃至ａ₆については、設けなくても
よい。また、第２の実施形態において、中間ニューロン
グループ５３に接続されていない入力ニューロングルー
プ５１のユニットａ₁乃至ａ₆については、設けなくても
よい。

【００７１】

【実施例】本発明者は、本特許出願人が所有する音素デ
ータベースを用いて、音声特徴パラメータとその仮説音
素を入力とする音素の分類テストを行ったが、すべての
６１種類の音素シンボルを含むデータセットに対して７
７．７５％の正解率で各音素を検出することができた。
これにより、本実施形態の音素シンボルの事後確率演算
ニューラルネットワーク１１を音声認識装置に適用した
ときに、従来例に比較して高い音声認識率で音声認識す
ることができると考えられる。

【００７２】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音素シンボルの事後確率演算装置によれば、入
力された文字列からなる発声音声文の音声信号から音声
特徴パラメータを抽出する特徴抽出手段と、上記特徴抽
出手段によって抽出された音声特徴パラメータと、仮説
の複数の音素シンボル系列信号とに基づいて、入力層
と、複数のユニットを有し少なくとも１層の中間層と、
検出すべき音素シンボルに対応する複数のユニットを有
し各音素シンボルの事後確率を出力する出力層とを備え
た双方向リカレント型ニューラルネットワークを用い
て、上記音声信号の音素シンボルの事後確率を演算する
演算手段とを備えた音素シンボルの事後確率演算装置で
あって、上記入力層は、複数の音声特徴パラメータと複
数の音素シンボル系列信号とを入力とし、複数のユニッ
トを有する第１の入力ニューロングループと、前向きモ
ジュールと、後向きモジュールとを備え、上記前向きモ
ジュールは、複数の音声特徴パラメータと複数の音素シ
ンボル系列信号とに基づいて、時間的に前向きの帰還接
続を有して上記第１の入力ニューロングループから出力
される複数のパラメータよりも所定の単位時間だけ遅延
された時刻の複数のパラメータを生成して上記中間層に
出力する一方、上記後向きモジュールは、複数の音声特
徴パラメータに基づいて、時間的に後向きの帰還接続を
有して上記第１の入力ニューロングループから出力され
る複数のパラメータよりも所定の単位時間だけ逆向きに
遅延された時刻の複数のパラメータを生成して上記中間
層に出力する。従って、本発明の音素シンボルの事後確
率演算ニューラルネットワークによれば、従来例に比較
して回路構成が簡単であってＩＣ化が容易であって、近
似なしで音素シンボル系列の事後確率を求めることがで
き、より高い精度でかつ高速で音素シンボル系列の事後
確率を演算することができる。また、音素シンボルの事
後確率演算ニューラルネットワークを用いて音声認識す
ることにより、従来例に比較して高い音声認識率で音声
認識することができる。

【００７３】また、請求項２記載の音素シンボルの事後
確率演算装置においては、請求項１記載の音素シンボル
の事後確率演算装置において、上記前向きモジュール
は、複数の音声特徴パラメータと複数の音素シンボル系
列信号とを入力とし、複数のユニットを有する第２の入
力ニューロングループと、第２の中間ニューロングルー
プから所定の単位時間だけ遅延されて出力される複数の
パラメータを入力とする、複数のユニットを有する第１
の中間ニューロングループと、上記第２の入力ニューロ
ングループから出力される複数のパラメータと、上記第
１の中間ニューロングループから出力される複数のパラ
メータに対してそれぞれ各荷重係数を乗算してそれぞれ
入力されるように接続され、複数のユニットを有する第
２の中間ニューロングループとを備え、上記後向きモジ
ュールは、複数の音声特徴パラメータを入力とし、複数
のユニットを有する第３の入力ニューロングループと、
第４の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第３の中間ニューロン
グループと、上記第３の入力ニューロングループから出
力される複数のパラメータと、上記第３の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第４の中間ニューロ
ングループとを備え、上記第２の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ上記中間層の複数のユニッ
トに入力されるように接続され、上記第１の入力ニュー
ロングループから出力される複数のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ上記中間層の複
数のユニットに入力されるように接続され、上記第４の
中間ニューロングループから出力される複数のパラメー
タに対してそれぞれ各荷重係数を乗算してそれぞれ上記
中間層の複数のユニットに入力されるように接続され、
上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続される。従って、本
発明の音素シンボルの事後確率演算ニューラルネットワ
ークによれば、従来例に比較して回路構成が簡単であっ
てＩＣ化が容易であって、近似なしで音素シンボル系列
の事後確率を求めることができ、より高い精度でかつ高
速で音素シンボル系列の事後確率を演算することができ
る。また、音素シンボルの事後確率演算ニューラルネッ
トワークを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。

【００７４】本発明に係る請求項３記載の音素シンボル
の事後確率演算装置においては、入力された文字列から
なる発声音声文の音声信号から音声特徴パラメータを抽
出する特徴抽出手段と、上記特徴抽出手段によって抽出
された音声特徴パラメータと、仮説の複数の音素シンボ
ル系列信号とに基づいて、入力層と、複数のユニットを
有し少なくとも１層の中間層と、検出すべき音素シンボ
ルに対応する複数のユニットを有し各音素シンボルの事
後確率を出力する出力層とを備えた双方向リカレント型
ニューラルネットワークを用いて、上記音声信号の音素
シンボルの事後確率を演算する演算手段とを備えた音素
シンボルの事後確率演算装置であって、上記入力層は、
複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第１の入力ニ
ューロングループと、前向きモジュールと、後向きモジ
ュールとを備え、上記前向きモジュールは、複数の音声
特徴パラメータに基づいて、時間的に前向きの帰還接続
を有して上記第１の入力ニューロングループから出力さ
れる複数のパラメータよりも所定の単位時間だけ遅延さ
れた時刻の複数のパラメータを生成して上記中間層に出
力する一方、上記後向きモジュールは、複数の音声特徴
パラメータと複数の音素シンボル系列信号とに基づい
て、時間的に後向きの帰還接続を有して上記第１の入力
ニューロングループから出力される複数のパラメータよ
りも所定の単位時間だけ逆向きに遅延された時刻の複数
のパラメータを生成して上記中間層に出力する。従っ
て、本発明の音素シンボルの事後確率演算ニューラルネ
ットワークによれば、従来例に比較して回路構成が簡単
であってＩＣ化が容易であって、近似なしで音素シンボ
ル系列の事後確率を求めることができ、より高い精度で
かつ高速で音素シンボル系列の事後確率を演算すること
ができる。また、音素シンボルの事後確率演算ニューラ
ルネットワークを用いて音声認識することにより、従来
例に比較して高い音声認識率で音声認識することができ
る。

【００７５】また、請求項４記載の音素シンボルの事後
確率演算装置においては、請求項３記載の音素シンボル
の事後確率演算装置において、上記前向きモジュール
は、複数の音声特徴パラメータを入力とし、複数のユニ
ットを有する第２の入力ニューロングループと、第２の
中間ニューロングループから所定の単位時間だけ遅延さ
れて出力される複数のパラメータを入力とする、複数の
ユニットを有する第１の中間ニューロングループと、上
記第２の入力ニューロングループから出力される複数の
パラメータと、上記第１の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ入力されるように接続され、複数
のユニットを有する第２の中間ニューロングループとを
備え、上記後向きモジュールは、複数の音声特徴パラメ
ータと複数の音素シンボル系列信号とを入力とし、複数
のユニットを有する第３の入力ニューロングループと、
第４の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第３の中間ニューロン
グループと、上記第３の入力ニューロングループから出
力される複数のパラメータと、上記第３の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第４の中間ニューロ
ングループとを備え、上記第２の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ上記中間層の複数のユニッ
トに入力されるように接続され、上記第１の入力ニュー
ロングループから出力される複数のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ上記中間層の複
数のユニットに入力されるように接続され、上記第４の
中間ニューロングループから出力される複数のパラメー
タに対してそれぞれ各荷重係数を乗算してそれぞれ上記
中間層の複数のユニットに入力されるように接続され、
上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続される。従って、本
発明の音素シンボルの事後確率演算ニューラルネットワ
ークによれば、従来例に比較して回路構成が簡単であっ
てＩＣ化が容易であって、近似なしで音素シンボル系列
の事後確率を求めることができ、より高い精度でかつ高
速で音素シンボル系列の事後確率を演算することができ
る。また、音素シンボルの事後確率演算ニューラルネッ
トワークを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。

【００７６】さらに、請求項５記載の音素シンボルの事
後確率演算装置においては、請求項１乃至４のうちの１
つに記載の音素シンボルの事後確率演算装置において、
上記複数の音素シンボル系列信号を符号化した後、上記
第１と第２と第３の入力ニューロングループに出力する
符号化手段をさらに備える。従って、本発明の音素シン
ボルの事後確率演算ニューラルネットワークはさらに簡
単化され、従来例に比較して回路構成が簡単であってＩ
Ｃ化が容易であって、近似なしで音素シンボル系列の事
後確率を求めることができ、より高い精度でかつ高速で
音素シンボル系列の事後確率を演算することができる。
また、音素シンボルの事後確率演算ニューラルネットワ
ークを用いて音声認識することにより、従来例に比較し
て高い音声認識率で音声認識することができる。

【００７７】またさらに、請求項６記載の音声認識装置
においては、請求項１乃至５のうちの１つに記載の音素
シンボルの事後確率演算装置を備え、上記特徴抽出手段
によって抽出された音声特徴パラメータに基づいて、上
記音素シンボルの事後確率演算装置によって演算された
事後確率を有する音素シンボルのうち最大の事後確率を
有する音素シンボルを、検出された音素として選択し
て、上記音声信号を音声認識する音声認識手段を備えた
ことを特徴とする。従って、本発明の音素シンボルの事
後確率演算ニューラルネットワークを用いて音声認識す
ることにより、従来例に比較して高い音声認識率で音声
認識することができる。

【図面の簡単な説明】

【図１】本発明に係る第１の実施形態である音素シン
ボルの事後確率演算ニューラルネットワークを用いた音
声認識装置の構成を示すブロック図である。

【図２】図１の音素シンボルの事後確率演算ニューラ
ルネットワーク１１の構成を示すブロック図である。

【図３】図２の音素シンボルの事後確率演算ニューラ
ルネットワーク１１の等価構造を示すブロック図であ
る。

【図４】図１のニューラルネットワーク学習部１０に
よって学習されるニューラルネットワーク学習処理を示
すフローチャートである。

【図５】本発明に係る第２の実施形態である音素シン
ボルの事後確率演算ニューラルネットワーク１１ａの構
成を示すブロック図である。

【図６】図５の音素シンボルの事後確率演算ニューラ
ルネットワーク１１ａの等価構造を示すブロック図であ
る。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…ＬＲパーザ、１０…ニューラルネットワーク学習部、１１，１１ａ…音素シンボルの事後確率演算ニューラル
ネットワーク、１２…ＬＲテーブル、１３…文脈自由文法データベース、３１…学習用音声データの特徴パラメータファイル、３２…学習用音声データの音素シンボル系列ファイル、３３…音素シンボルの事後確率演算ニューラルネットワ
ークの初期モデル、Ａ（ｔ），５１，６１…入力ニューロングループ、Ｂ（ｔ−１），Ｃ（ｔ＋１）…状態ニューロングルー
プ、Ｄ…隠れニューロングループ、Ｅ…出力ニューロングループ、５２，５３，６２，６３…中間ニューロングループ、５４…遅延素子、６４…逆向き遅延素子、５５，６５…出力ラッチ、５６，６６，７１…エンコーダ、１００…入力層、２００…中間層、３００…出力層。

フロントページの続き (56)参考文献欧州特許出願公開865030（ＥＰ，Ａ２) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．96 Ｎｏ．319 ＳＰ96−56 「双方向リカレントニューラルネットワークに基づく音声認識」ｐ．７−12 （1996／10／18) 日本音響学会平成８年度秋季研究発表会講演論文集▲Ｉ▼ ２−３−15”Ｂｉ −ＤｉｒｅｃｔｉｏｎａｌＲｅｃｃｕｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”ｐ．77−78（平成８年９月25日) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ．４，Ｎｏ．６，”ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｂｙＣｏｎｎｅｃｔｉｏｎｉｓｔＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓ”，ｐ．893−909 ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ．５，Ｎｏ．２，Ｍａｒｃｈ 1994，”ＡｎＡｐｐｌｉｃａｔｉｏｎｏｆＲｅｃｃｕｒｅｎｔＮｅｔｓｔｏＰｈｏｎｅＰｒｏｂａｂｉｌｉｔｙＥｓｔｉｍａｔｉｏｎ”, ｐ．298−305 日本音響学会平成９年度春季研究発表会講演論文集▲Ｉ▼ ３−６−７”ＡｃｏｕｓｔｉｃＭｏｄｅｌｓｂａｓｅｄｏｎｎｏｎ−ＵｎｉｆｏｒｍＳｅｇｍｅｎｔｓａｎｄＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ" ｐ．101−102（平成９年３月17日) 日本音響学会平成９年度春季研究発表会講演論文集▲Ｉ▼ ３−６−８「リカレントニューラルネットワークを用いたセグメント境界推定」ｐ．103−104（平成９年３月17日) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．97 Ｎｏ．114 ＳＰ97−15 「リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用」ｐ．41−48（1997／６／19) 日本音響学会平成９年度秋季研究発表会講演論文集▲Ｉ▼ ２−Ｑ−10「音素境界推定ネットワークを利用した音声の自動セグメンテーション」ｐ．135−136 （平成９年９月17日) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．45，Ｎｏ．11，Ｎｏｖｅｍｂｅｒ 1997，”ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｃｕｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ”，ｐ. 2673−2681 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 539 G10L 3/00 531 G10L 9/10 301 G06F 15/18 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された文字列からなる発声音声文の
音声信号から音声特徴パラメータを抽出する特徴抽出手
段と、上記特徴抽出手段によって抽出された音声特徴パラメー
タと、仮説の複数の音素シンボル系列信号とに基づい
て、入力層と、複数のユニットを有し少なくとも１層の
中間層と、検出すべき音素シンボルに対応する複数のユ
ニットを有し各音素シンボルの事後確率を出力する出力
層とを備えた双方向リカレント型ニューラルネットワー
クを用いて、上記音声信号の音素シンボルの事後確率を
演算する演算手段とを備えた音素シンボルの事後確率演
算装置であって、上記入力層は、複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第１の入力ニ
ューロングループと、前向きモジュールと、後向きモジュールとを備え、上記前向きモジュールは、複数の音声特徴パラメータと
複数の音素シンボル系列信号とに基づいて、時間的に前
向きの帰還接続を有して上記第１の入力ニューロングル
ープから出力される複数のパラメータよりも所定の単位
時間だけ遅延された時刻の複数のパラメータを生成して
上記中間層に出力する一方、上記後向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に後向きの帰還接続を有して上記第１
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ逆向きに遅延された時刻
の複数のパラメータを生成して上記中間層に出力するこ
とを特徴とする音素シンボルの事後確率演算装置。
【請求項２】上記前向きモジュールは、複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第２の入力ニ
ューロングループと、第２の中間ニューロングループから所定の単位時間だけ
遅延されて出力される複数のパラメータを入力とする、
複数のユニットを有する第１の中間ニューロングループ
と、上記第２の入力ニューロングループから出力される複数
のパラメータと、上記第１の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第２の中間ニューロングループと
を備え、上記後向きモジュールは、複数の音声特徴パラメータを入力とし、複数のユニット
を有する第３の入力ニューロングループと、第４の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第３の中間ニューロン
グループと、上記第３の入力ニューロングループから出力される複数
のパラメータと、上記第３の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第４の中間ニューロングループと
を備え、上記第２の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第１の入力ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第４の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続されたことを特徴と
する請求項１記載の音素シンボルの事後確率演算装置。
【請求項３】入力された文字列からなる発声音声文の
音声信号から音声特徴パラメータを抽出する特徴抽出手
段と、上記特徴抽出手段によって抽出された音声特徴パラメー
タと、仮説の複数の音素シンボル系列信号とに基づい
て、入力層と、複数のユニットを有し少なくとも１層の
中間層と、検出すべき音素シンボルに対応する複数のユ
ニットを有し各音素シンボルの事後確率を出力する出力
層とを備えた双方向リカレント型ニューラルネットワー
クを用いて、上記音声信号の音素シンボルの事後確率を
演算する演算手段とを備えた音素シンボルの事後確率演
算装置であって、上記入力層は、複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第１の入力ニ
ューロングループと、前向きモジュールと、後向きモジュールとを備え、上記前向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に前向きの帰還接続を有して上記第１
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ遅延された時刻の複数の
パラメータを生成して上記中間層に出力する一方、上記後向きモジュールは、複数の音声特徴パラメータと
複数の音素シンボル系列信号とに基づいて、時間的に後
向きの帰還接続を有して上記第１の入力ニューロングル
ープから出力される複数のパラメータよりも所定の単位
時間だけ逆向きに遅延された時刻の複数のパラメータを
生成して上記中間層に出力することを特徴とする音素シ
ンボルの事後確率演算装置。
【請求項４】上記前向きモジュールは、複数の音声特徴パラメータを入力とし、複数のユニット
を有する第２の入力ニューロングループと、第２の中間ニューロングループから所定の単位時間だけ
遅延されて出力される複数のパラメータを入力とする、
複数のユニットを有する第１の中間ニューロングループ
と、上記第２の入力ニューロングループから出力される複数
のパラメータと、上記第１の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第２の中間ニューロングループと
を備え、上記後向きモジュールは、複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第３の入力ニ
ューロングループと、第４の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第３の中間ニューロン
グループと、上記第３の入力ニューロングループから出力される複数
のパラメータと、上記第３の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第４の中間ニューロングループと
を備え、上記第２の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第１の入力ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第４の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続されたことを特徴と
する請求項３記載の音素シンボルの事後確率演算装置。
【請求項５】上記複数の音素シンボル系列信号を符号
化した後、上記第１と第２と第３の入力ニューロングル
ープに出力する符号化手段をさらに備えたことを特徴と
する請求項１乃至４のうちの１つに記載の音素シンボル
の事後確率演算装置。
【請求項６】請求項１乃至５のうちの１つに記載の音
素シンボルの事後確率演算装置を備え、上記特徴抽出手段によって抽出された音声特徴パラメー
タに基づいて、上記音素シンボルの事後確率演算装置に
よって演算された事後確率を有する音素シンボルのうち
最大の事後確率を有する音素シンボルを、検出された音
素として選択して、上記音声信号を音声認識する音声認
識手段を備えたことを特徴とする音声認識装置。