JP2996926B2 - 音素シンボルの事後確率演算装置及び音声認識装置 - Google Patents

音素シンボルの事後確率演算装置及び音声認識装置

Info

Publication number
JP2996926B2
JP2996926B2 JP9056138A JP5613897A JP2996926B2 JP 2996926 B2 JP2996926 B2 JP 2996926B2 JP 9056138 A JP9056138 A JP 9056138A JP 5613897 A JP5613897 A JP 5613897A JP 2996926 B2 JP2996926 B2 JP 2996926B2
Authority
JP
Japan
Prior art keywords
parameters
input
neuron group
units
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9056138A
Other languages
English (en)
Other versions
JPH10254483A (ja
Inventor
マイク・シュスター
俊明 深田
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP9056138A priority Critical patent/JP2996926B2/ja
Priority to EP98104222A priority patent/EP0865030A3/en
Priority to US09/038,128 priority patent/US6041299A/en
Publication of JPH10254483A publication Critical patent/JPH10254483A/ja
Application granted granted Critical
Publication of JP2996926B2 publication Critical patent/JP2996926B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される発声音
声の音声信号に基づいて、音素シンボルの事後確率演算
モデルを用いて、音素シンボルの事後確率を演算するた
めの音素シンボルの事後確率演算装置、並びに、上記音
素シンボルの事後確率演算モデルを用いて音声認識する
音声認識装置に関する。
【0002】
【従来の技術】従来、音声認識に必要な音素シンボルの
事後確率の推定値を、多層パーセプトロン(以下、ML
Pという。)又はリカレント型ニューラルネットワーク
(以下、RNNという。)及び隠れマルコフモデル(以
下、HMMという。)とから得られる2つの結果を用い
て演算する方法が、例えば、従来技術文献1「H.Bourla
nd et al.,“Continuous Speech Recognition by Conne
ctionist Statistical Methods",IEEE Transactions on
Neural Networks,Vol.4,No.6,pp.893-909,1993年11
月」(以下、第1の従来例という。)及び従来技術文献
2「A.J.Robinson,“An Application of Recurrent Net
s to Phone Probability Estimation",IEEETransaction
s on Neural Network,Vol.5,No.2,1994年3月」(以下、
第2の従来例という。)において開示されている。この
第1と第2の従来例において、HMMなどの音響モデル
の代わりに、1フレームの音声特徴パラメータのベクト
ル系列x1,x2,…,xLが入力されたときに、音素シ
ンボル系列c1,c2,…,cLが観測される音素シンボ
ル系列の事後確率Prが最大となる音素シンボル系列
は、次式で表される。
【0003】
【数1】
【0004】ここで、Cはすべての音素シンボルの集合
を表しており、関数argmaxはすべての音素シンボ
ルの集合Cで変化したときに引数の値が最大となるとき
の音素シンボル系列であり、Xは、1フレームの音声特
徴パラメータのベクトル系列x1,x2,…,xLからな
る1フレームの音声特徴パラメータの行列である。ま
た、数1において、フレーム間の独立性を仮定するとい
う条件で近似すれば次式を得ることができる。
【0005】
【数2】
【0006】第1の従来例においては、数2の最終式の
関数argmaxの引数の第1項Pr1はMLPでモデ
ル化され、その第2項Pr2はHMMでモデル化され、
MLPモデルとHMMモデルを用いて音素シンボル系列
の事後確率Prが最大となる音素シンボル系列を求める
ことができる。一方、第2の従来例においては、数2の
最終式の関数argmaxの引数の第1項Pr1はRN
Nでモデル化され、その第2項Pr2はHMMでモデル
化され、MLPモデルとHMMモデルを用いて音素シン
ボル系列の事後確率Prが最大となる音素シンボル系列
を求めることができる。
【0007】
【発明が解決しようとする課題】しかしながら、第1と
第2の従来例において、HMMを用いてモデル化されて
いるので、その構成が複雑であって、集積回路(以下、
ICという。)への実装は極めて困難であるという問題
点があった。
【0008】本発明の第1の目的は以上の問題点を解決
し、従来例に比較して回路構成が簡単であってIC化が
容易であって、近似なしで音素シンボルの事後確率演算
モデルを用いて、音素シンボルの事後確率を演算するこ
とができる音素シンボルの事後確率演算装置を提供する
ことにある。
【0009】また、本発明の第2の目的は、上記作成さ
れた音素シンボルの事後確率演算モデルを用いて音声認
識する音声認識装置を提供することにある。
【0010】
【課題を解決するための手段】本発明に係る請求項1記
載の音素シンボルの事後確率演算装置は、入力された文
字列からなる発声音声文の音声信号から音声特徴パラメ
ータを抽出する特徴抽出手段と、上記特徴抽出手段によ
って抽出された音声特徴パラメータと、仮説の複数の音
素シンボル系列信号とに基づいて、入力層と、複数のユ
ニットを有し少なくとも1層の中間層と、検出すべき音
素シンボルに対応する複数のユニットを有し各音素シン
ボルの事後確率を出力する出力層とを備えた双方向リカ
レント型ニューラルネットワークを用いて、上記音声信
号の音素シンボルの事後確率を演算する演算手段とを備
えた音素シンボルの事後確率演算装置であって、上記入
力層は、複数の音声特徴パラメータと複数の音素シンボ
ル系列信号とを入力とし、複数のユニットを有する第1
の入力ニューロングループと、前向きモジュールと、後
向きモジュールとを備え、上記前向きモジュールは、複
数の音声特徴パラメータと複数の音素シンボル系列信号
とに基づいて、時間的に前向きの帰還接続を有して上記
第1の入力ニューロングループから出力される複数のパ
ラメータよりも所定の単位時間だけ遅延された時刻の複
数のパラメータを生成して上記中間層に出力する一方、
上記後向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に後向きの帰還接続を有して上記第1
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ逆向きに遅延された時刻
の複数のパラメータを生成して上記中間層に出力するこ
とを特徴とする。
【0011】また、請求項2記載の音素シンボルの事後
確率演算装置は、請求項1記載の音素シンボルの事後確
率演算装置において、上記前向きモジュールは、複数の
音声特徴パラメータと複数の音素シンボル系列信号とを
入力とし、複数のユニットを有する第2の入力ニューロ
ングループと、第2の中間ニューロングループから所定
の単位時間だけ遅延されて出力される複数のパラメータ
を入力とする、複数のユニットを有する第1の中間ニュ
ーロングループと、上記第2の入力ニューロングループ
から出力される複数のパラメータと、上記第1の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続され、複数のユニットを有する第2の中間ニ
ューロングループとを備え、上記後向きモジュールは、
複数の音声特徴パラメータを入力とし、複数のユニット
を有する第3の入力ニューロングループと、第4の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第3の中間ニューロングループ
と、上記第3の入力ニューロングループから出力される
複数のパラメータと、上記第3の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第4の中間ニューロングル
ープとを備え、上記第2の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第1の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第4の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層の複数のユニ
ットに入力されるように接続されたことを特徴とする。
【0012】本発明に係る請求項3記載の音素シンボル
の事後確率演算装置は、入力された文字列からなる発声
音声文の音声信号から音声特徴パラメータを抽出する特
徴抽出手段と、上記特徴抽出手段によって抽出された音
声特徴パラメータと、仮説の複数の音素シンボル系列信
号とに基づいて、入力層と、複数のユニットを有し少な
くとも1層の中間層と、検出すべき音素シンボルに対応
する複数のユニットを有し各音素シンボルの事後確率を
出力する出力層とを備えた双方向リカレント型ニューラ
ルネットワークを用いて、上記音声信号の音素シンボル
の事後確率を演算する演算手段とを備えた音素シンボル
の事後確率演算装置であって、上記入力層は、複数の音
声特徴パラメータと複数の音素シンボル系列信号とを入
力とし、複数のユニットを有する第1の入力ニューロン
グループと、前向きモジュールと、後向きモジュールと
を備え、上記前向きモジュールは、複数の音声特徴パラ
メータに基づいて、時間的に前向きの帰還接続を有して
上記第1の入力ニューロングループから出力される複数
のパラメータよりも所定の単位時間だけ遅延された時刻
の複数のパラメータを生成して上記中間層に出力する一
方、上記後向きモジュールは、複数の音声特徴パラメー
タと複数の音素シンボル系列信号とに基づいて、時間的
に後向きの帰還接続を有して上記第1の入力ニューロン
グループから出力される複数のパラメータよりも所定の
単位時間だけ逆向きに遅延された時刻の複数のパラメー
タを生成して上記中間層に出力することを特徴とする。
【0013】また、請求項4記載の音素シンボルの事後
確率演算装置は、請求項3記載の音素シンボルの事後確
率演算装置において、上記前向きモジュールは、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第2の入力ニューロングループと、第2の中間ニュー
ロングループから所定の単位時間だけ遅延されて出力さ
れる複数のパラメータを入力とする、複数のユニットを
有する第1の中間ニューロングループと、上記第2の入
力ニューロングループから出力される複数のパラメータ
と、上記第1の中間ニューロングループから出力される
複数のパラメータに対してそれぞれ各荷重係数を乗算し
てそれぞれ入力されるように接続され、複数のユニット
を有する第2の中間ニューロングループとを備え、上記
後向きモジュールは、複数の音声特徴パラメータと複数
の音素シンボル系列信号とを入力とし、複数のユニット
を有する第3の入力ニューロングループと、第4の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第3の中間ニューロングループ
と、上記第3の入力ニューロングループから出力される
複数のパラメータと、上記第3の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第4の中間ニューロングル
ープとを備え、上記第2の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第1の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第4の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層の複数のユニ
ットに入力されるように接続されたことを特徴とする。
【0014】さらに、請求項5記載の音素シンボルの事
後確率演算装置は、請求項1乃至4のうちの1つに記載
の音素シンボルの事後確率演算装置において、上記複数
の音素シンボル系列信号を符号化した後、上記第1と第
2と第3の入力ニューロングループに出力する符号化手
段をさらに備えたことを特徴とする。
【0015】またさらに、請求項6記載の音声認識装置
は、請求項1乃至5のうちの1つに記載の音素シンボル
の事後確率演算装置を備え、上記特徴抽出手段によって
抽出された音声特徴パラメータに基づいて、上記音素シ
ンボルの事後確率演算装置によって演算された事後確率
を有する音素シンボルのうち最大の事後確率を有する音
素シンボルを、検出された音素として選択して、上記音
声信号を音声認識する音声認識手段を備えたことを特徴
とする。
【0016】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0017】<音素シンボルの事後確率演算モデルのモ
デル化>本実施形態において、1フレームの音声特徴パ
ラメータのベクトル系列x1,x2,…,xLが入力され
たとき、すなわち、1フレームの複数L個の音声セグメ
ント(例えば、10ミリ秒のセグメント長さを有す
る。)に分割したときの複数L個のベクトルからなる系
列が入力されたときに、音素シンボル系列c1,c2
…,cLが観測される音素シンボル系列の事後確率が最
大となる音素シンボル系列は、次式の確率に関する公式
を用いて、
【数3】p(x,y)=p(x)p(x│y) 次式で表される。
【0018】
【数4】
【数5】
【0019】ここで、数4は、最大事後確率推定法(Ma
ximum A posterior Probability estimation;以下、M
AP推定法という。)を用いた前向き事後確率推定法
(以下、MAP前向き事後確率推定法という。)による
音素シンボルの事後確率であり、数4の最終式における
確率P(ct|c12…ct-1,x12…xL)は、1フレ
ームの音声特徴パラメータのベクトル系列x1,x2
…,xLが入力されかつ時刻1番目の音素シンボルc1
ら時刻t−1番目の音素シンボルct-1が入力されたと
きに、時刻t番目の音素シンボルctが生じる事後確率
を表している。第1の実施形態においては、確率P(ct
|c12…ct-1,x12…xL)は、図1及び図2の音
素シンボルの事後確率演算ニューラルネットワーク11
を用いて計算される。当該音素シンボルの事後確率演算
ニューラルネットワーク11は、学習用音声データのパ
ラメータファイル31に記憶された26次元の音声特徴
パラメータと、学習用音声データの音素シンボル系列フ
ァイル32に記憶された教師用音素信号とに基づいて予
めニューラルネットワーク学習部10によって学習され
て生成される。ここで、音素信号とは、音素シンボル系
列信号をいう。また、26次元の音声特徴パラメータ
は、好ましくは、12次元のメルケプストラム係数(以
下、MFCCという。)と、対数パワーと、それぞれの
1次回帰係数とを含む。また、当該音素シンボルの事後
確率演算ニューラルネットワーク11の出力値は、61
個の各音素シンボルの事後確率Pi(i=1,2,…,
61)であり、本実施形態において、61個の音素シン
ボルは発声言語が英語のときの音素シンボルであって、
次の表1の通りである。
【0020】
【表1】 ─────────────────────────────────── aa,ae,ah,ao,aw,ax,axh,axr,ay,b,bcl, ch,d,dcl,dh,dx,eh,el,em,en,eng,epi, er,ey,f,g,gcl,sil,hh,hv,ih,ix,iy, jh,k,kcl,l,m,n,ng,nx,ow,oy,p,pau, pcl,q,r,s,sh,t,tcl,th,uh,uw,ux,v,w, y,z,zh ───────────────────────────────────
【0021】本実施形態において、発声言語が英語のと
きの音素シンボルを用いているが、本発明はこれに限ら
ず、他の言語の音素シンボルを用いてもよい。例えば、
発声言語が日本語のときの音素シンボルは、26個の音
素シンボルを含む。
【0022】そして、第1の実施形態においては、音素
照合部4は、入力された1フレームの音声特徴パラメー
タと、そのフレームの各セグメントがどの音素シンボル
であるかを仮説として示す仮説音素信号とに基づいて、
学習されて生成された音素シンボルの事後確率演算ニュ
ーラルネットワーク11を用いて、数4の最大の事後確
率argmaxP(C|X)の音素シンボルを求めること
により、入力された1フレームに対する音素シンボルの
種類を検出する。ここで、注意すべきことは、1つのフ
ァイルでLn個のフレームを検出したときに、各フレー
ム毎に1つの音素シンボルが検出されることである。す
なわち、例えば、発声音声の音素シンボルが/o/h/
a/y/o/であるときに、/o/o/o/o/h/h
/a/a/a/y/y/y/o/o/o/oと出力され
ることに注意すべきである。
【0023】数5は、MAP推定法を用いた後向き事後
確率推定法(以下、MAP後向き事後確率推定法とい
う。)による音素シンボルの事後確率であり、数5の最
終式における確率P(ct|ct+1t+2…cL,x12…x
L)は、1フレームの音声特徴パラメータのベクトル系列
1,x2,…,xLが入力されかつ時刻t+1番目の音
素シンボルct+1から時刻L番目の音素シンボルcLが入
力されたときに、時刻t番目の音素シンボルctが生じ
る事後確率を表している。第2の実施形態においては、
確率P(ct|ct+1t+2…cL,x12…xL)は、図5の
音素シンボルの事後確率演算ニューラルネットワーク1
1aを用いて計算される。当該音素シンボルの事後確率
演算ニューラルネットワーク11aは、学習用音声デー
タのパラメータファイル31に記憶された26次元の音
声特徴パラメータと、学習用音声データの音素シンボル
系列ファイル32に記憶された教師用音素信号とに基づ
いて予めニューラルネットワーク学習部10によって学
習されて生成される。
【0024】そして、第2の実施形態においては、音素
照合部4は、入力された1フレームの音声特徴パラメー
タと、そのフレームの各セグメントがどの音素シンボル
であるかを仮説として示す仮説音素信号とに基づいて、
学習されて生成された音素シンボルの事後確率演算ニュ
ーラルネットワーク11aを用いて、数5の最大確率a
rgmaxP(C|X)の音素シンボルを求めることによ
り、入力された1フレームに対する音素シンボルの種類
を検出する。
【0025】<第1の実施形態>図1は、本発明に係る
第1の実施形態である音素シンボルの事後確率演算ニュ
ーラルネットワーク11を用いた音声認識装置のブロッ
ク図である。この実施形態は、学習用音声データの特徴
パラメータファイル31と、学習用音声データの音素シ
ンボル系列ファイル32とに基づいて、所定の学習アリ
ゴリズムを用いて、MAP前向き推定法によって形成さ
れた音素シンボルの事後確率演算ニューラルネットワー
クの初期モデル33を学習することにより、音素シンボ
ルの事後確率演算ニューラルネットワーク11を得るニ
ューラルネットワーク学習部10を備え、音素照合部4
は、得られた音素シンボルの事後確率演算ニューラルネ
ットワーク11を用いて音素シンボルの事後確率を演算
することにより音素シンボルを検出して音声認識を行う
ことを特徴としている。従って、ニューラルネットワー
ク学習部10は、音素シンボルの事後確率演算ニューラ
ルネットワークの作成装置を構成している。また、音素
照合部4は、入力される音声特徴パラメータに基づい
て、音素シンボルの事後確率演算ニューラルネットワー
ク11を用いて音素シンボルの事後確率を演算するため
の音素シンボルの事後確率演算装置を構成している。
【0026】本実施形態においては、音素シンボルの事
後確率を演算するために、図2に示す双方向リカレント
型ニューラルネットワーク(以下、BRNNという。)
で構成される音素シンボルの事後確率演算ニューラルネ
ットワーク11を用いた。一般のリカレント型ニューラ
ルネットワークが時間的に過去の情報を再帰的に利用す
るのに対し、BRNNは過去及び未来の入力情報が利用
できることを特徴とする。
【0027】図2において、入力はケプストラムなどの
音声特徴パラメータAbmと、当該フレームの入力が6
1個の音素シンボルのうちのどの音素シンボルであるか
どうかの61ビットの教師用音素信号をエンコーダ5
6,66,71により符号化した後の6ビットの教師用
符号化音素信号Aamを学習時に与えるとともに、音素
シンボルの事後確率の演算時には、それに代えて仮説の
音素信号をエンコーダ56,66,71により符号化し
た後の6ビットの仮説符号化音素信号Aamを与える。
ここで、音声特徴パラメータAbmは区間[−1,+
1]に正規化された後入力される一方、符号化音素信号
Aamは区間[0,1]を区間[−1,+1]に変数変
換した後入力される。一方、学習時の出力は、当該フレ
ームの入力がどの音素シンボルであるかどうかを表わす
確率情報(例えば、当該フレームが当該音素シンボルで
ある場合1,それ以外は0とする。)を学習時に教師信
号として与えるとともに、音素シンボルの事後確率の演
算時には、演算された音素シンボルの事後確率となる。
出力される61個の音素シンボルの事後確率Piは、音
素照合部4によって演算され、例えば、そのうちの最大
の事後確率を有する音素シンボルが当該フレームの音素
シンボル候補として検出される。すなわち、入力ニュー
ロングループA(t)のユニット数は音声特徴パラメー
タの次元数26個と、6ビットの教師用符号化音素信号
(学習時)又は仮説符号化音素信号(音素シンボルの事
後確率の演算時)の6個の符号化音素信号の合計32個
となり、出力のユニット数は音素シンボル数の61個と
なる。ここで、音声特徴パラメータは、12次元のMF
CCと、対数パワーと、それぞれの1次回帰係数とを含
む。以下、1つのファイルの総フレーム数はそれぞれ複
数Lとする。
【0028】本実施形態において、音素信号は符号化し
てビット数を低減しているが、本発明はこれに限らず、
符号化せずにそのまま、ニューラルネットワーク11の
入力信号としてもよい。
【0029】図2において、前向きモジュールB(t−
1)は、26個の音声特徴パラメータと6個の符号化音
素信号とに基づいて、時間的に前向きの帰還接続を有し
て入力ニューロングループA(t)から出力される32
個のパラメータよりも所定の単位時間だけ遅延された時
刻t−1の64個のパラメータを生成して隠れニューロ
ングループDに出力するモジュールであり、(a)26
個の音声特徴パラメータAbmと6個の符号化音素信号
Aamとを入力とする、32個のユニットa1乃至a32
を有する入力ニューロングループ51と、(b)中間ニ
ューロングループ53から遅延素子54を介して出力さ
れる64個のパラメータを入力とする、64個のユニッ
トb1乃至b64を有する中間ニューロングループ52
と、(c)入力ニューロングループ51から出力される
32個のパラメータと、中間ニューロングループ52か
ら出力される64個のパラメータに対してそれぞれ各荷
重係数を乗算してそれぞれ入力されるように接続される
64個のユニットb1乃至b64を有する中間ニューロン
グループ53と、(d)中間ニューロングループ53か
ら出力される64個のパラメータを所定の単位時間だけ
遅延させて中間ニューロングループ52に出力する遅延
素子54と、(e)64個のユニットb1乃至b64を有
する前向きモジュールB(t−1)の状態ニューロング
ループとなり、前向きモジュールB(t−1)の動作終
了時の時刻t−1における中間ニューロングループ53
から出力される出力値を一時的に記憶して、すなわちラ
ッチして、音素シンボルの事後確率の演算のための右側
のニューラルネットワークの隠れニューロングループD
に出力する出力ラッチ55とを備える。
【0030】以上のように構成された前向きモジュール
B(t−1)においては、中間ニューロングループ52
から中間ニューロングループ53及び遅延素子54を介
して中間ニューロングループ52へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールB
(t−1)の動作終了時の時刻t−1における中間ニュ
ーロングループ53から出力される出力パラメータベク
トルBm(m=1,2,…,t−1)は次式で表され
る。
【0031】
【数6】Bm=WFA・Am+WFB・Bm-1
【0032】ここで、出力値ベクトルBmは64個のパ
ラメータ値からなり、その初期値ベクトルB0は次式で
表される。
【数7】
【0033】また、入力ニューロングループ51への入
力パラメータベクトルAmは次式で表される。
【数8】
【0034】ここで、時刻mにおけるH(1)乃至H
(6)は符号化音素信号であり、Om(1)は時刻mに
おけるMFCCの1次の値であり、Om(2)は時刻m
におけるMFCCの2次の値であり、以下同様にして、
m(26)は時刻mにおけるMFCCの26次の値で
ある。さらに、数1の荷重係数行列WFA,WFBはそれぞ
れ、64×32の行列、64×64の行列であり、次式
で表される。
【0035】
【数9】
【数10】
【0036】さらに、図2において、後向きモジュール
C(t+1)は、26個の音声特徴パラメータと6個の
符号化音素信号に基づいて、時間的に後向きの帰還接続
を有して入力ニューロングループA(t)から出力され
る32個のパラメータよりも所定の単位時間だけ逆向き
に遅延された時刻t+1の32個のパラメータを生成し
て隠れニューロングループDに出力するモジュールであ
って、(a)26個の音声特徴パラメータAbmと、6
個の符号化音素信号Aamとを入力とする、32個のユ
ニットa1乃至a32を有する入力ニューロングループ6
1と、(b)中間ニューロングループ63から逆向き遅
延素子64を介して出力される32個のパラメータを入
力とする、32個のユニットc1乃至c32を有する中間
ニューロングループ62と、(c)入力ニューロングル
ープ61から出力される32個のパラメータのうちの2
6個の音声特徴パラメータAbmと、中間ニューロング
ループ62から出力される32個のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ入力されるよう
に接続される32個のユニットc1乃至c32を有する中
間ニューロングループ63と、(d)中間ニューロング
ループ63から出力される32個のパラメータを所定の
単位時間だけ遅延させて中間ニューロングループ62に
出力する逆向き遅延素子64と、(e)32個のユニッ
トc1乃至c32を有する後向きモジュールC(t+1)
の状態ニューロングループとなり、後向きモジュールC
(t+1)の動作終了時の時刻t+1における中間ニュ
ーロングループ63から出力される出力値を一時的に記
憶して、すなわちラッチして、音素シンボルの事後確率
の演算のための右側のニューラルネットワークの隠れニ
ューロングループDに出力する出力ラッチ65とを備え
る。ここで、後向きモジュールC(t+1)において、
入力ニューロングループ61のユニットa1乃至a6は中
間ニューロングループ63のユニットc1乃至c32に接
続されていないことを特徴とする。
【0037】以上のように構成された後向きモジュール
C(t+1)においては、中間ニューロングループ62
から中間ニューロングループ63及び逆向き遅延素子6
4を介して中間ニューロングループ62へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力パラメータ
ベクトルCm(m=L,L−1,…,t+1)は次式で
表される。
【0038】
【数11】Cm=WBA・Am+WBC・Cm+1
【0039】ここで、出力値ベクトルCmは32個のパ
ラメータ値からなり、その初期値ベクトルCL+1は次式
で表される。
【数12】
【0040】また、入力ニューロングループ61への入
力パラメータベクトルAmは数3と同様である。さら
に、数6の荷重係数行列WBA,WBCはそれぞれ、32×
32の行列、32×32の行列であり、次式で表され
る。
【0041】
【数13】
【数14】
【0042】さらに、図2に示すように、64個の隠れ
ユニットd1乃至d64を有する隠れニューロングループ
Dと、61個の出力ユニットe1乃至e61を有し、61
個の音素シンボルの事後確率Pi(i=1,2,…,6
1)を出力する出力ニューロングループEとを備える。
状態ニューロングループB(t−1)のユニットb1
至b64の各出力パラメータに対してそれぞれ、各荷重係
数を乗算して隠れニューロングループDのユニットd1
乃至d64に入力されるように接続され、状態ニューロン
グループC(t+1)のユニットc1乃至c32の各出力
パラメータに対してそれぞれ、各荷重係数で乗算して隠
れニューロングループDのユニットd1乃至d64に入力
されるように接続され、32個のユニットa1乃至a32
を有する入力ニューロングループA(t)の各出力パラ
メータに対してそれぞれ各荷重係数で乗算されて隠れニ
ューロングループDのユニットd1乃至d64に入力され
るように接続される。さらに、隠れニューロングループ
Dのユニットd1乃至d64の各出力パラメータに対して
それぞれ各荷重係数で乗算されて出力ニューロングルー
プEの出力ユニットe1乃至e61に入力されるように接
続される。
【0043】ここで、状態ニューロングループB(t−
1)及びC(t+1)並びに入力ニューロングループA
(t)から隠れニューロングループDを介して出力ニュ
ーロングループEまでの処理は、前向きモジュールB
(t−1)及び後向きモジュールC(t+1)の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層100
は、入力ニューロングループA(t)と、入力ニューロ
ングループA(t)の出力時刻tから単位時間だけ遅延
された時刻t−1における出力パラメータを計算する前
向きモジュールB(t−1)と、時刻tから単位時間だ
け逆向きに遅延されたt+1における出力パラメータを
計算する後向きモジュールC(t+1)を備え、中間層
200は隠れニューロングループDを備え、出力層30
0は出力ニューロングループEを備える。以上のように
構成された音素シンボルの事後確率演算ニューラルネッ
トワーク11は、等価的には図3に示すように、前向き
モジュールと後向きモジュールが時間方向に接続され、
入力層100が入力ニューロングループA(t)と、前
向きモジュールB(t−1)と、後向きモジュールC
(t+1)とからなるBRNNである。
【0044】なお、図1において、特徴抽出部2と、音
素照合部4と、LRパーザ5と、ニューラルネットワー
ク学習部10とは、例えば、デジタル計算機などの演算
制御装置で構成され、バッファメモリ3は例えばハード
ディスクメモリで構成され、学習用音声データの特徴パ
ラメータファイル31と、学習用音声データの音素シン
ボル系列ファイル32と、音素シンボルの事後確率演算
ニューラルネットワークの初期モデル33と、音素シン
ボルの事後確率演算ニューラルネットワーク11と、L
Rテーブル12及び文脈自由文法データベース13とは
例えばハードディスクメモリに記憶される。
【0045】図4は、図1のニューラルネットワーク学
習部10によって実行されるニューラルネットワーク学
習処理を示すフローチャートである。図4において、ま
ず。ステップS1で特徴パラメータファイル31と、上
記特徴パラメータファイルに対応する音素シンボル系列
ファイル32と、音素シンボルの事後確率演算ニューラ
ルネットワークの初期モデル33とを読み込む。次い
で、ステップS2で、音素シンボル系列ファイル32の
総発声数に対応する特徴パラメータファイル31のファ
イル数がパラメータNに設定され、学習の繰り返し数を
パラメータIに設定する。そして、ステップS3でパラ
メータiを1に初期化し、ステップS4でパラメータn
を1に初期化する。ステップS5でnファイル目の総フ
レーム数をパラメータLnに設定する。次いで、ステッ
プS6でLnフレームの特徴パラメータを用いて、前向
きモジュールの状態ニューロングループB(t−1)、
後向きモジュールの状態ニューロングループC(t+
1)、及び出力ニューロングループEの出力値(それぞ
れLnグループ)を計算し、ニューラルネットワークの
荷重係数更新パラメータを演算する。
【0046】そして、ステップS7でパラメータnを1
だけインクリメントした後、ステップS8でn>Nか否
かが判断され、n≦NのときはステップS5に戻り、上
記の処理を繰り返す。ステップS8でn>Nのときは、
ステップS9でニューラルネットワークの荷重係数の更
新処理を実行して、ステップS10でパラメータiを1
だけインクリメントした後、ステップS11でi>Nか
否かが判断される。ここで、i≦Iのときは所定の繰り
返し数に達したと判断し、ステップS12で得られた音
素シンボルの事後確率演算ニューラルネットワーク11
をメモリに記憶して、当該処理を終了する。学習後の音
素シンボルの事後確率演算ニューラルネットワーク11
は、音素照合部4に接続される。
【0047】次いで、不特定話者連続音声認識装置につ
いて説明する。図1において、話者の発声音声はマイク
ロホン1に入力されて音声信号に変換された後、特徴抽
出部2に入力される。特徴抽出部2は、入力された音声
信号をA/D変換した後、例えばLPC分析を実行し、
12次元のメルケプストラム係数(以下、MFCCとい
う。)と、対数パワーと、それぞれの1次回帰係数とを
含む26次元の特徴パラメータを抽出する。抽出された
特徴パラメータの時系列はバッファメモリ3を介して音
素照合部4に入力される。
【0048】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、学習された音素シンボルの事後確
率演算ニューラルネットワーク11を用いて音素照合区
間内のデータに対する音素シンボルの事後確率が演算さ
れかつ最尤の音素シンボル候補が検出され、このときの
最尤の音素シンボルの事後確率の値が音素照合スコアと
してLRパーザ5に返される。このとき、前向きパスア
ルゴリズムを使用する。
【0049】一方、文脈自由文法データベース13内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブル12を作成してそのメモリに格納さ
れる。LRパーザ5は、上記LRテーブル12を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、上記LRテーブル1
2から次にくる音素を予測して音素予測データを音素照
合部4に出力する。これに応答して、音素照合部4は、
その音素候補に対応する音素シンボルの事後確率演算ニ
ューラルネットワーク11を参照して照合し、その尤度
を音声認識スコアとしてLRパーザ5に戻し、順次音素
を連接していくことにより、連続音声の認識を行う。上
記連続音声の認識において、複数の音素が予測された場
合は、これらすべての存在をチェックし、ビームサーチ
の方法により、部分的な音声認識の尤度の高い部分木を
残すという枝刈りを行って高速処理を実現する。
【0050】以上説明したように、音素シンボルの事後
確率演算モデル作成装置を構成するニューラルネットワ
ーク学習部10によって得られた音素シンボルの事後確
率演算ニューラルネットワーク11によれば、従来例に
比較して回路構成が簡単であってIC化が容易であっ
て、近似なしで音素シンボルの事後確率を求めることが
でき、より高い精度でかつ高速で音素シンボルの事後確
率を演算することができる。また、音素シンボルの事後
確率演算ニューラルネットワーク11を用いて音声認識
することにより、従来例に比較して高い音声認識率で音
声認識することができる。
【0051】また、エンコーダ56,66,71を用い
て教師用音素信号又は仮説音素信号を符号化して、ビッ
ト数を低減してそれぞれ入力ニューロングループ51,
61,A(t)に入力しているので、当該ニューラルネ
ットワーク11の構成をさらにきわめて簡単化すること
ができる。
【0052】<第2の実施形態>図5は、本発明に係る
第2の実施形態である音素シンボルの事後確率演算ニュ
ーラルネットワーク11aの構成を示すブロック図であ
る。第2の実施形態の音素シンボルの事後確率演算ニュ
ーラルネットワーク11aは、第1の実施形態の音素シ
ンボルの事後確率演算ニューラルネットワーク11に比
較して、前向きモジュールB(t−1)及び後向きモジ
ュールC(t+1)の構成が異なる。以下、相違点につ
いて詳細に説明する。
【0053】図5において、前向きモジュールB(t−
1)は、26個の音声特徴パラメータと6個の符号化音
素信号とに基づいて、時間的に前向きの帰還接続を有し
て入力ニューロングループA(t)から出力される32
個のパラメータよりも所定の単位時間だけ遅延された時
刻t−1の64個のパラメータを生成して隠れニューロ
ングループDに出力するモジュールであり、 (a)26個の音声特徴パラメータAbmと6個の符号
化音素信号Aamとを入力とする、32個のユニットa
1乃至a32を有する入力ニューロングループ51と、 (b)中間ニューロングループ53から遅延素子54を
介して出力される32個のパラメータを入力とする、3
2個のユニットb1乃至b32を有する中間ニューロング
ループ52と、 (c)入力ニューロングループ51から出力される32
個のパラメータのうちの26個の音声特徴パラメータに
対してそれぞれ各荷重係数を乗算してそれぞれ入力され
るように接続される32個のユニットb1乃至b32を有
する中間ニューロングループ53と、 (d)中間ニューロングループ53から出力される32
個のパラメータを所定の単位時間だけ遅延させて中間ニ
ューロングループ52に出力する遅延素子54と、 (e)32個のユニットb1乃至b32を有する前向きモ
ジュールB(t−1)の状態ニューロングループとな
り、前向きモジュールB(t−1)の動作終了時の時刻
t−1における中間ニューロングループ53から出力さ
れる出力値を一時的に記憶して、すなわちラッチして、
音素シンボルの事後確率の演算のための右側のニューラ
ルネットワークの隠れニューロングループDに出力する
出力ラッチ55とを備える。ここで、前向きモジュール
B(t−1)において、入力ニューロングループ51の
ユニットa1乃至a6は中間ニューロングループ53のユ
ニットc1乃至c32に接続されていないことを特徴とす
る。
【0054】以上のように構成された前向きモジュール
B(t−1)においては、中間ニューロングループ52
から中間ニューロングループ53及び遅延素子54を介
して中間ニューロングループ52へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールB
(t−1)の動作終了時の時刻t−1における中間ニュ
ーロングループ53から出力される出力パラメータベク
トルBm(m=1,2,…,t−1)は次式で表され
る。
【0055】
【数15】Bm=WFA・Am+WFB・Bm-1
【0056】ここで、出力値ベクトルBmは32個のパ
ラメータ値からなり、その初期値ベクトルB0は次式で
表される。
【数16】
【0057】また、入力ニューロングループ51への入
力パラメータベクトルAmは第1の実施形態の数3と同
様である。さらに、数11の荷重係数行列WFA,WFB
それぞれ、32×32の行列、32×32の行列であ
り、次式で表される。
【0058】
【数17】
【数18】
【0059】さらに、図5において、後向きモジュール
C(t+1)は、26個の音声特徴パラメータと6個の
符号化音素信号に基づいて、時間的に後向きの帰還接続
を有して入力ニューロングループA(t)から出力され
る64個のパラメータよりも所定の単位時間だけ逆向き
に遅延された時刻t+1の64個のパラメータを生成し
て隠れニューロングループDに出力するモジュールであ
って、(a)26個の音声特徴パラメータAbmと、6
個の符号化音素信号Aamとを入力とする、32個のユ
ニットa1乃至a32を有する入力ニューロングループ6
1と、(b)中間ニューロングループ63から逆向き遅
延素子64を介して出力される64個のパラメータを入
力とする、64個のユニットc1乃至c64を有する中間
ニューロングループ62と、(c)入力ニューロングル
ープ61から出力される26個の音声特徴パラメータA
bmと、6個の符号化音素信号とを含む32個のパラメ
ータに対してそれぞれ各荷重係数を乗算してそれぞれ入
力されるように接続される64個のユニットc1乃至c
64を有する中間ニューロングループ63と、(d)中間
ニューロングループ63から出力される64個のパラメ
ータを所定の単位時間だけ遅延させて中間ニューロング
ループ62に出力する逆向き遅延素子64と、(e)6
4個のユニットc1乃至c64を有する後向きモジュール
C(t+1)の状態ニューロングループとなり、後向き
モジュールC(t+1)の動作終了時の時刻t+1にお
ける中間ニューロングループ63から出力される出力値
を一時的に記憶して、すなわちラッチして、音素シンボ
ルの事後確率の演算のための右側のニューラルネットワ
ークの隠れニューロングループDに出力する出力ラッチ
65とを備える。
【0060】以上のように構成された後向きモジュール
C(t+1)においては、中間ニューロングループ62
から中間ニューロングループ63及び逆向き遅延素子6
4を介して中間ニューロングループ62へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力パラメータ
ベクトルCm(m=L,L−1,…,t+1)は次式で
表される。
【0061】
【数19】Cm=WBA・Am+WBC・Cm+1
【0062】ここで、出力値ベクトルCmは64個のパ
ラメータ値からなり、その初期値ベクトルCL+1は次式
で表される。
【数20】
【0063】また、入力ニューロングループ61への入
力パラメータベクトルAmは数3と同様である。さら
に、数6の荷重係数行列WBA,WBCはそれぞれ、64×
32の行列、64×64の行列であり、次式で表され
る。
【0064】
【数21】
【数22】
【0065】さらに、図5に示すように、第1の実施形
態と同様に、64個の隠れユニットd1乃至d64を有す
る隠れニューロングループDと、61個の出力ユニット
1乃至e61を有し、61個の音素シンボルの事後確率
i(i=1,2,…,61)を出力する出力ニューロ
ングループEとを備える。
【0066】ここで、状態ニューロングループB(t−
1)及びC(t+1)並びに入力ニューロングループA
(t)から隠れニューロングループDを介して出力ニュ
ーロングループEまでの処理は、前向きモジュールB
(t−1)及び後向きモジュールC(t+1)の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層100
は、入力ニューロングループA(t)と、入力ニューロ
ングループA(t)の出力時刻tから単位時間だけ遅延
された時刻t−1における出力パラメータを計算する前
向きモジュールB(t−1)と、時刻tから単位時間だ
け逆向きに遅延されたt+1における出力パラメータを
計算する後向きモジュールC(t+1)を備え、中間層
200は隠れニューロングループDを備え、出力層30
0は出力ニューロングループEを備える。以上のように
構成された音素シンボルの事後確率演算ニューラルネッ
トワーク11aは、等価的には図6に示すように、前向
きモジュールと後向きモジュールが時間方向に接続さ
れ、入力層100が入力ニューロングループA(t)
と、前向きモジュールB(t−1)と、後向きモジュー
ルC(t+1)とからなるBRNNである。
【0067】以上のように構成された音素シンボルの事
後確率演算ニューラルネットワークは第1の実施形態と
同様に、図1のニューラルネットワーク学習部10によ
って学習されて生成され、生成された音素シンボルの事
後確率演算ニューラルネットワーク11は図1の音声認
識装置によって用いられる。
【0068】以上説明したように、音素シンボルの事後
確率演算モデル作成装置を構成するニューラルネットワ
ーク学習部10によって得られた音素シンボルの事後確
率演算ニューラルネットワーク11aによれば、従来例
に比較して回路構成が簡単であってIC化が容易であっ
て、近似なしで音素シンボル系列の事後確率を求めるこ
とができ、より高い精度でかつ高速で音素シンボル系列
の事後確率を演算することができる。また、音素シンボ
ルの事後確率演算ニューラルネットワーク11aを用い
て音声認識することにより、従来例に比較して高い音声
認識率で音声認識することができる。
【0069】以上の実施形態においては、好ましい実施
形態の態様について述べており、ニューラルネットワー
クの各ユニットの数はこれに限定されるものではなく、
複数のユニットを有すればよい。なお、中間層200の
隠れニューロングループDは出力層300の出力ニュー
ロングループEのユニット数よりも多いユニット数を備
えることが好ましい。
【0070】第1の実施形態において、中間ニューロン
グループ63に接続されていない入力ニューロングルー
プ61のユニットa1乃至a6については、設けなくても
よい。また、第2の実施形態において、中間ニューロン
グループ53に接続されていない入力ニューロングルー
プ51のユニットa1乃至a6については、設けなくても
よい。
【0071】
【実施例】本発明者は、本特許出願人が所有する音素デ
ータベースを用いて、音声特徴パラメータとその仮説音
素を入力とする音素の分類テストを行ったが、すべての
61種類の音素シンボルを含むデータセットに対して7
7.75%の正解率で各音素を検出することができた。
これにより、本実施形態の音素シンボルの事後確率演算
ニューラルネットワーク11を音声認識装置に適用した
ときに、従来例に比較して高い音声認識率で音声認識す
ることができると考えられる。
【0072】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音素シンボルの事後確率演算装置によれば、入
力された文字列からなる発声音声文の音声信号から音声
特徴パラメータを抽出する特徴抽出手段と、上記特徴抽
出手段によって抽出された音声特徴パラメータと、仮説
の複数の音素シンボル系列信号とに基づいて、入力層
と、複数のユニットを有し少なくとも1層の中間層と、
検出すべき音素シンボルに対応する複数のユニットを有
し各音素シンボルの事後確率を出力する出力層とを備え
た双方向リカレント型ニューラルネットワークを用い
て、上記音声信号の音素シンボルの事後確率を演算する
演算手段とを備えた音素シンボルの事後確率演算装置で
あって、上記入力層は、複数の音声特徴パラメータと複
数の音素シンボル系列信号とを入力とし、複数のユニッ
トを有する第1の入力ニューロングループと、前向きモ
ジュールと、後向きモジュールとを備え、上記前向きモ
ジュールは、複数の音声特徴パラメータと複数の音素シ
ンボル系列信号とに基づいて、時間的に前向きの帰還接
続を有して上記第1の入力ニューロングループから出力
される複数のパラメータよりも所定の単位時間だけ遅延
された時刻の複数のパラメータを生成して上記中間層に
出力する一方、上記後向きモジュールは、複数の音声特
徴パラメータに基づいて、時間的に後向きの帰還接続を
有して上記第1の入力ニューロングループから出力され
る複数のパラメータよりも所定の単位時間だけ逆向きに
遅延された時刻の複数のパラメータを生成して上記中間
層に出力する。従って、本発明の音素シンボルの事後確
率演算ニューラルネットワークによれば、従来例に比較
して回路構成が簡単であってIC化が容易であって、近
似なしで音素シンボル系列の事後確率を求めることがで
き、より高い精度でかつ高速で音素シンボル系列の事後
確率を演算することができる。また、音素シンボルの事
後確率演算ニューラルネットワークを用いて音声認識す
ることにより、従来例に比較して高い音声認識率で音声
認識することができる。
【0073】また、請求項2記載の音素シンボルの事後
確率演算装置においては、請求項1記載の音素シンボル
の事後確率演算装置において、上記前向きモジュール
は、複数の音声特徴パラメータと複数の音素シンボル系
列信号とを入力とし、複数のユニットを有する第2の入
力ニューロングループと、第2の中間ニューロングルー
プから所定の単位時間だけ遅延されて出力される複数の
パラメータを入力とする、複数のユニットを有する第1
の中間ニューロングループと、上記第2の入力ニューロ
ングループから出力される複数のパラメータと、上記第
1の中間ニューロングループから出力される複数のパラ
メータに対してそれぞれ各荷重係数を乗算してそれぞれ
入力されるように接続され、複数のユニットを有する第
2の中間ニューロングループとを備え、上記後向きモジ
ュールは、複数の音声特徴パラメータを入力とし、複数
のユニットを有する第3の入力ニューロングループと、
第4の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第3の中間ニューロン
グループと、上記第3の入力ニューロングループから出
力される複数のパラメータと、上記第3の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第4の中間ニューロ
ングループとを備え、上記第2の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ上記中間層の複数のユニッ
トに入力されるように接続され、上記第1の入力ニュー
ロングループから出力される複数のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ上記中間層の複
数のユニットに入力されるように接続され、上記第4の
中間ニューロングループから出力される複数のパラメー
タに対してそれぞれ各荷重係数を乗算してそれぞれ上記
中間層の複数のユニットに入力されるように接続され、
上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続される。従って、本
発明の音素シンボルの事後確率演算ニューラルネットワ
ークによれば、従来例に比較して回路構成が簡単であっ
てIC化が容易であって、近似なしで音素シンボル系列
の事後確率を求めることができ、より高い精度でかつ高
速で音素シンボル系列の事後確率を演算することができ
る。また、音素シンボルの事後確率演算ニューラルネッ
トワークを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。
【0074】本発明に係る請求項3記載の音素シンボル
の事後確率演算装置においては、入力された文字列から
なる発声音声文の音声信号から音声特徴パラメータを抽
出する特徴抽出手段と、上記特徴抽出手段によって抽出
された音声特徴パラメータと、仮説の複数の音素シンボ
ル系列信号とに基づいて、入力層と、複数のユニットを
有し少なくとも1層の中間層と、検出すべき音素シンボ
ルに対応する複数のユニットを有し各音素シンボルの事
後確率を出力する出力層とを備えた双方向リカレント型
ニューラルネットワークを用いて、上記音声信号の音素
シンボルの事後確率を演算する演算手段とを備えた音素
シンボルの事後確率演算装置であって、上記入力層は、
複数の音声特徴パラメータと複数の音素シンボル系列信
号とを入力とし、複数のユニットを有する第1の入力ニ
ューロングループと、前向きモジュールと、後向きモジ
ュールとを備え、上記前向きモジュールは、複数の音声
特徴パラメータに基づいて、時間的に前向きの帰還接続
を有して上記第1の入力ニューロングループから出力さ
れる複数のパラメータよりも所定の単位時間だけ遅延さ
れた時刻の複数のパラメータを生成して上記中間層に出
力する一方、上記後向きモジュールは、複数の音声特徴
パラメータと複数の音素シンボル系列信号とに基づい
て、時間的に後向きの帰還接続を有して上記第1の入力
ニューロングループから出力される複数のパラメータよ
りも所定の単位時間だけ逆向きに遅延された時刻の複数
のパラメータを生成して上記中間層に出力する。従っ
て、本発明の音素シンボルの事後確率演算ニューラルネ
ットワークによれば、従来例に比較して回路構成が簡単
であってIC化が容易であって、近似なしで音素シンボ
ル系列の事後確率を求めることができ、より高い精度で
かつ高速で音素シンボル系列の事後確率を演算すること
ができる。また、音素シンボルの事後確率演算ニューラ
ルネットワークを用いて音声認識することにより、従来
例に比較して高い音声認識率で音声認識することができ
る。
【0075】また、請求項4記載の音素シンボルの事後
確率演算装置においては、請求項3記載の音素シンボル
の事後確率演算装置において、上記前向きモジュール
は、複数の音声特徴パラメータを入力とし、複数のユニ
ットを有する第2の入力ニューロングループと、第2の
中間ニューロングループから所定の単位時間だけ遅延さ
れて出力される複数のパラメータを入力とする、複数の
ユニットを有する第1の中間ニューロングループと、上
記第2の入力ニューロングループから出力される複数の
パラメータと、上記第1の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ入力されるように接続され、複数
のユニットを有する第2の中間ニューロングループとを
備え、上記後向きモジュールは、複数の音声特徴パラメ
ータと複数の音素シンボル系列信号とを入力とし、複数
のユニットを有する第3の入力ニューロングループと、
第4の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第3の中間ニューロン
グループと、上記第3の入力ニューロングループから出
力される複数のパラメータと、上記第3の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第4の中間ニューロ
ングループとを備え、上記第2の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ上記中間層の複数のユニッ
トに入力されるように接続され、上記第1の入力ニュー
ロングループから出力される複数のパラメータに対して
それぞれ各荷重係数を乗算してそれぞれ上記中間層の複
数のユニットに入力されるように接続され、上記第4の
中間ニューロングループから出力される複数のパラメー
タに対してそれぞれ各荷重係数を乗算してそれぞれ上記
中間層の複数のユニットに入力されるように接続され、
上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
のユニットに入力されるように接続される。従って、本
発明の音素シンボルの事後確率演算ニューラルネットワ
ークによれば、従来例に比較して回路構成が簡単であっ
てIC化が容易であって、近似なしで音素シンボル系列
の事後確率を求めることができ、より高い精度でかつ高
速で音素シンボル系列の事後確率を演算することができ
る。また、音素シンボルの事後確率演算ニューラルネッ
トワークを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。
【0076】さらに、請求項5記載の音素シンボルの事
後確率演算装置においては、請求項1乃至4のうちの1
つに記載の音素シンボルの事後確率演算装置において、
上記複数の音素シンボル系列信号を符号化した後、上記
第1と第2と第3の入力ニューロングループに出力する
符号化手段をさらに備える。従って、本発明の音素シン
ボルの事後確率演算ニューラルネットワークはさらに簡
単化され、従来例に比較して回路構成が簡単であってI
C化が容易であって、近似なしで音素シンボル系列の事
後確率を求めることができ、より高い精度でかつ高速で
音素シンボル系列の事後確率を演算することができる。
また、音素シンボルの事後確率演算ニューラルネットワ
ークを用いて音声認識することにより、従来例に比較し
て高い音声認識率で音声認識することができる。
【0077】またさらに、請求項6記載の音声認識装置
においては、請求項1乃至5のうちの1つに記載の音素
シンボルの事後確率演算装置を備え、上記特徴抽出手段
によって抽出された音声特徴パラメータに基づいて、上
記音素シンボルの事後確率演算装置によって演算された
事後確率を有する音素シンボルのうち最大の事後確率を
有する音素シンボルを、検出された音素として選択し
て、上記音声信号を音声認識する音声認識手段を備えた
ことを特徴とする。従って、本発明の音素シンボルの事
後確率演算ニューラルネットワークを用いて音声認識す
ることにより、従来例に比較して高い音声認識率で音声
認識することができる。
【図面の簡単な説明】
【図1】 本発明に係る第1の実施形態である音素シン
ボルの事後確率演算ニューラルネットワークを用いた音
声認識装置の構成を示すブロック図である。
【図2】 図1の音素シンボルの事後確率演算ニューラ
ルネットワーク11の構成を示すブロック図である。
【図3】 図2の音素シンボルの事後確率演算ニューラ
ルネットワーク11の等価構造を示すブロック図であ
る。
【図4】 図1のニューラルネットワーク学習部10に
よって学習されるニューラルネットワーク学習処理を示
すフローチャートである。
【図5】 本発明に係る第2の実施形態である音素シン
ボルの事後確率演算ニューラルネットワーク11aの構
成を示すブロック図である。
【図6】 図5の音素シンボルの事後確率演算ニューラ
ルネットワーク11aの等価構造を示すブロック図であ
る。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 10…ニューラルネットワーク学習部、 11,11a…音素シンボルの事後確率演算ニューラル
ネットワーク、 12…LRテーブル、 13…文脈自由文法データベース、 31…学習用音声データの特徴パラメータファイル、 32…学習用音声データの音素シンボル系列ファイル、 33…音素シンボルの事後確率演算ニューラルネットワ
ークの初期モデル、 A(t),51,61…入力ニューロングループ、 B(t−1),C(t+1)…状態ニューロングルー
プ、 D…隠れニューロングループ、 E…出力ニューロングループ、 52,53,62,63…中間ニューロングループ、 54…遅延素子、 64…逆向き遅延素子、 55,65…出力ラッチ、 56,66,71…エンコーダ、 100…入力層、 200…中間層、 300…出力層。
フロントページの続き (56)参考文献 欧州特許出願公開865030(EP,A 2) 電子情報通信学会技術研究報告[音声 ]Vol.96 No.319 SP96−56 「双方向リカレントニューラルネットワ ークに基づく音声認識」p.7−12 (1996/10/18) 日本音響学会平成8年度秋季研究発表 会講演論文集▲I▼ 2−3−15”Bi −Directional Reccu rent Neural Networ ks for Speech Reco gnition”p.77−78(平成8年 9月25日) IEEE Transactions on Neural Network s, Vol.4,No.6,”Con tinuous Speech Rec ognition by Connec tionist Statistica l Methods”,p.893−909 IEEE Transactions on Neural Network s, Vol.5,No.2,Marc h 1994,”An Applicati on of Reccurent Ne ts to Phone Probab ility Estimation”, p.298−305 日本音響学会平成9年度春季研究発表 会講演論文集▲I▼ 3−6−7”Ac oustic Models base d on non−Uniform S egments and Bidire ctional Reccurrent Neural Networks" p.101−102(平成9年3月17日) 日本音響学会平成9年度春季研究発表 会講演論文集▲I▼ 3−6−8「リカ レントニューラルネットワークを用いた セグメント境界推定」p.103−104(平 成9年3月17日) 電子情報通信学会技術研究報告[音声 ]Vol.97 No.114 SP97−15 「リカレントニューラルネットワークを 用いた音素境界推定と音声認識への応 用」p.41−48(1997/6/19) 日本音響学会平成9年度秋季研究発表 会講演論文集▲I▼ 2−Q−10「音素 境界推定ネットワークを利用した音声の 自動セグメンテーション」p.135−136 (平成9年9月17日) IEEE Transactions on Signal Process ing,Vol.45,No.11,Nov ember 1997,”Bidirect ional Reccurent Ne ural Networks”,p. 2673−2681 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 539 G10L 3/00 531 G10L 9/10 301 G06F 15/18 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字列からなる発声音声文の
    音声信号から音声特徴パラメータを抽出する特徴抽出手
    段と、 上記特徴抽出手段によって抽出された音声特徴パラメー
    タと、仮説の複数の音素シンボル系列信号とに基づい
    て、入力層と、複数のユニットを有し少なくとも1層の
    中間層と、検出すべき音素シンボルに対応する複数のユ
    ニットを有し各音素シンボルの事後確率を出力する出力
    層とを備えた双方向リカレント型ニューラルネットワー
    クを用いて、上記音声信号の音素シンボルの事後確率を
    演算する演算手段とを備えた音素シンボルの事後確率演
    算装置であって、 上記入力層は、 複数の音声特徴パラメータと複数の音素シンボル系列信
    号とを入力とし、複数のユニットを有する第1の入力ニ
    ューロングループと、 前向きモジュールと、 後向きモジュールとを備え、 上記前向きモジュールは、複数の音声特徴パラメータと
    複数の音素シンボル系列信号とに基づいて、時間的に前
    向きの帰還接続を有して上記第1の入力ニューロングル
    ープから出力される複数のパラメータよりも所定の単位
    時間だけ遅延された時刻の複数のパラメータを生成して
    上記中間層に出力する一方、 上記後向きモジュールは、複数の音声特徴パラメータに
    基づいて、時間的に後向きの帰還接続を有して上記第1
    の入力ニューロングループから出力される複数のパラメ
    ータよりも所定の単位時間だけ逆向きに遅延された時刻
    の複数のパラメータを生成して上記中間層に出力するこ
    とを特徴とする音素シンボルの事後確率演算装置。
  2. 【請求項2】 上記前向きモジュールは、 複数の音声特徴パラメータと複数の音素シンボル系列信
    号とを入力とし、複数のユニットを有する第2の入力ニ
    ューロングループと、 第2の中間ニューロングループから所定の単位時間だけ
    遅延されて出力される複数のパラメータを入力とする、
    複数のユニットを有する第1の中間ニューロングループ
    と、 上記第2の入力ニューロングループから出力される複数
    のパラメータと、上記第1の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第2の中間ニューロングループと
    を備え、 上記後向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
    を有する第3の入力ニューロングループと、 第4の中間ニューロングループから所定の単位時間だけ
    逆向きに遅延されて出力される複数のパラメータを入力
    とする、複数のユニットを有する第3の中間ニューロン
    グループと、 上記第3の入力ニューロングループから出力される複数
    のパラメータと、上記第3の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第4の中間ニューロングループと
    を備え、 上記第2の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第1の入力ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第4の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記中間層から出力される複数のパラメータに対してそ
    れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
    のユニットに入力されるように接続されたことを特徴と
    する請求項1記載の音素シンボルの事後確率演算装置。
  3. 【請求項3】 入力された文字列からなる発声音声文の
    音声信号から音声特徴パラメータを抽出する特徴抽出手
    段と、 上記特徴抽出手段によって抽出された音声特徴パラメー
    タと、仮説の複数の音素シンボル系列信号とに基づい
    て、入力層と、複数のユニットを有し少なくとも1層の
    中間層と、検出すべき音素シンボルに対応する複数のユ
    ニットを有し各音素シンボルの事後確率を出力する出力
    層とを備えた双方向リカレント型ニューラルネットワー
    クを用いて、上記音声信号の音素シンボルの事後確率を
    演算する演算手段とを備えた音素シンボルの事後確率演
    算装置であって、 上記入力層は、 複数の音声特徴パラメータと複数の音素シンボル系列信
    号とを入力とし、複数のユニットを有する第1の入力ニ
    ューロングループと、 前向きモジュールと、 後向きモジュールとを備え、 上記前向きモジュールは、複数の音声特徴パラメータに
    基づいて、時間的に前向きの帰還接続を有して上記第1
    の入力ニューロングループから出力される複数のパラメ
    ータよりも所定の単位時間だけ遅延された時刻の複数の
    パラメータを生成して上記中間層に出力する一方、 上記後向きモジュールは、複数の音声特徴パラメータと
    複数の音素シンボル系列信号とに基づいて、時間的に後
    向きの帰還接続を有して上記第1の入力ニューロングル
    ープから出力される複数のパラメータよりも所定の単位
    時間だけ逆向きに遅延された時刻の複数のパラメータを
    生成して上記中間層に出力することを特徴とする音素シ
    ンボルの事後確率演算装置。
  4. 【請求項4】 上記前向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
    を有する第2の入力ニューロングループと、 第2の中間ニューロングループから所定の単位時間だけ
    遅延されて出力される複数のパラメータを入力とする、
    複数のユニットを有する第1の中間ニューロングループ
    と、 上記第2の入力ニューロングループから出力される複数
    のパラメータと、上記第1の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第2の中間ニューロングループと
    を備え、 上記後向きモジュールは、 複数の音声特徴パラメータと複数の音素シンボル系列信
    号とを入力とし、複数のユニットを有する第3の入力ニ
    ューロングループと、 第4の中間ニューロングループから所定の単位時間だけ
    逆向きに遅延されて出力される複数のパラメータを入力
    とする、複数のユニットを有する第3の中間ニューロン
    グループと、 上記第3の入力ニューロングループから出力される複数
    のパラメータと、上記第3の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第4の中間ニューロングループと
    を備え、 上記第2の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第1の入力ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第4の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記中間層から出力される複数のパラメータに対してそ
    れぞれ各荷重係数を乗算してそれぞれ上記出力層の複数
    のユニットに入力されるように接続されたことを特徴と
    する請求項3記載の音素シンボルの事後確率演算装置。
  5. 【請求項5】 上記複数の音素シンボル系列信号を符号
    化した後、上記第1と第2と第3の入力ニューロングル
    ープに出力する符号化手段をさらに備えたことを特徴と
    する請求項1乃至4のうちの1つに記載の音素シンボル
    の事後確率演算装置。
  6. 【請求項6】 請求項1乃至5のうちの1つに記載の音
    素シンボルの事後確率演算装置を備え、 上記特徴抽出手段によって抽出された音声特徴パラメー
    タに基づいて、上記音素シンボルの事後確率演算装置に
    よって演算された事後確率を有する音素シンボルのうち
    最大の事後確率を有する音素シンボルを、検出された音
    素として選択して、上記音声信号を音声認識する音声認
    識手段を備えたことを特徴とする音声認識装置。
JP9056138A 1997-03-11 1997-03-11 音素シンボルの事後確率演算装置及び音声認識装置 Expired - Lifetime JP2996926B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9056138A JP2996926B2 (ja) 1997-03-11 1997-03-11 音素シンボルの事後確率演算装置及び音声認識装置
EP98104222A EP0865030A3 (en) 1997-03-11 1998-03-10 Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus
US09/038,128 US6041299A (en) 1997-03-11 1998-03-11 Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9056138A JP2996926B2 (ja) 1997-03-11 1997-03-11 音素シンボルの事後確率演算装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH10254483A JPH10254483A (ja) 1998-09-25
JP2996926B2 true JP2996926B2 (ja) 2000-01-11

Family

ID=13018725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9056138A Expired - Lifetime JP2996926B2 (ja) 1997-03-11 1997-03-11 音素シンボルの事後確率演算装置及び音声認識装置

Country Status (3)

Country Link
US (1) US6041299A (ja)
EP (1) EP0865030A3 (ja)
JP (1) JP2996926B2 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0897223B1 (en) * 1997-08-14 2013-03-20 Her Majesty The Queen In Right Of Canada as represented by the Minister of Industry High-performance low-complexity error-correcting codes
US6947890B1 (en) * 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
US6832194B1 (en) 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
JP2002236904A (ja) * 2001-02-08 2002-08-23 Sony Corp データ処理装置および方法、記録媒体、並びにプログラム
US7149256B2 (en) * 2001-03-29 2006-12-12 Quellan, Inc. Multilevel pulse position modulation for efficient fiber optic communication
US7307569B2 (en) * 2001-03-29 2007-12-11 Quellan, Inc. Increasing data throughput in optical fiber transmission systems
ATE492076T1 (de) * 2001-04-04 2011-01-15 Quellan Inc Verfahren und system zum decodieren von mehrpegelsignalen
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US20030030873A1 (en) * 2001-05-09 2003-02-13 Quellan, Inc. High-speed adjustable multilevel light modulation
WO2003071731A1 (en) * 2002-02-15 2003-08-28 Quellan, Inc. Multi-level signal clock recovery technique
WO2003077423A2 (en) * 2002-03-08 2003-09-18 Quellan, Inc. High speed analog-to-digital converter using a unique gray code having minimal bit transitions
AU2003223687A1 (en) * 2002-04-23 2003-11-10 Quellan, Inc. Combined ask/dpsk modulation system
JP2004013681A (ja) * 2002-06-10 2004-01-15 Bosu & K Consulting Kk 名刺情報管理システム
WO2004008782A2 (en) * 2002-07-15 2004-01-22 Quellan, Inc. Adaptive noise filtering and equalization
WO2004045078A2 (en) 2002-11-12 2004-05-27 Quellan, Inc. High-speed analog-to-digital conversion with improved robustness to timing uncertainty
WO2005018134A2 (en) * 2003-08-07 2005-02-24 Quellan, Inc. Method and system for crosstalk cancellation
US7804760B2 (en) 2003-08-07 2010-09-28 Quellan, Inc. Method and system for signal emulation
KR101197810B1 (ko) * 2003-11-17 2012-11-05 ?란 인코포레이티드 안테나 간섭 소거 시스템 및 방법
US7616700B2 (en) * 2003-12-22 2009-11-10 Quellan, Inc. Method and system for slicing a communication signal
US7720012B1 (en) * 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US7522883B2 (en) 2004-12-14 2009-04-21 Quellan, Inc. Method and system for reducing signal interference
US7725079B2 (en) * 2004-12-14 2010-05-25 Quellan, Inc. Method and system for automatic control in an interference cancellation device
US20060245654A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Utilizing grammatical parsing for structured layout analysis
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
JP5078991B2 (ja) * 2006-04-26 2012-11-21 ケラン エルエルシー 通信チャネルからの放射性放出を削減する方法とシステム
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8566097B2 (en) * 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9620108B2 (en) * 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
JP6389776B2 (ja) * 2015-02-23 2018-09-12 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102423302B1 (ko) 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
WO2017083695A1 (en) * 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks
EP3381033B1 (en) * 2016-03-23 2020-08-12 Google LLC Adaptive audio enhancement for multichannel speech recognition
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
KR20180068475A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
US10762417B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Efficient connectionist temporal classification for binary classification
US11853884B2 (en) * 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
US11080600B2 (en) * 2017-02-10 2021-08-03 Synaptics Incorporated Recurrent neural network based acoustic event classification using complement rule
US11087213B2 (en) * 2017-02-10 2021-08-10 Synaptics Incorporated Binary and multi-class classification systems and methods using one spike connectionist temporal classification
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US10762427B2 (en) * 2017-03-01 2020-09-01 Synaptics Incorporated Connectionist temporal classification using segmented labeled sequence data
JP6772115B2 (ja) * 2017-08-07 2020-10-21 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム
JP7112075B2 (ja) * 2017-08-07 2022-08-03 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
CN111341299B (zh) 2018-11-30 2021-10-15 阿里巴巴集团控股有限公司 一种语音处理方法及装置
CN112530400A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 基于深度学习的文本生成语音的方法、系统、装置及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5408424A (en) * 1993-05-28 1995-04-18 Lo; James T. Optimal filtering by recurrent neural networks
DE19530646C1 (de) * 1995-08-21 1996-10-17 Siemens Ag Lernverfahren für ein rekurrentes neuronales Netz
JPH0973440A (ja) * 1995-09-06 1997-03-18 Fujitsu Ltd コラム構造の再帰型ニューラルネットワークによる時系列トレンド推定システムおよび方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Neural Networks, Vol.4,No.6,"Continuous Speech Recognition by Connectionist Statistical Methods",p.893−909
IEEE Transactions on Neural Networks, Vol.5,No.2,March 1994,"An Application of Reccurent Nets to Phone Probability Estimation",p.298−305
IEEE Transactions on Signal Processing,Vol.45,No.11,November 1997,"Bidirectional Reccurent Neural Networks",p.2673−2681
日本音響学会平成8年度秋季研究発表会講演論文集▲I▼ 2−3−15"Bi−Directional Reccurent Neural Networks for Speech Recognition"p.77−78(平成8年9月25日)
日本音響学会平成9年度春季研究発表会講演論文集▲I▼ 3−6−7"Acoustic Models based on non−Uniform Segments and Bidirectional Reccurrent Neural Networks"p.101−102(平成9年3月17日)
日本音響学会平成9年度春季研究発表会講演論文集▲I▼ 3−6−8「リカレントニューラルネットワークを用いたセグメント境界推定」p.103−104(平成9年3月17日)
日本音響学会平成9年度秋季研究発表会講演論文集▲I▼ 2−Q−10「音素境界推定ネットワークを利用した音声の自動セグメンテーション」p.135−136(平成9年9月17日)
電子情報通信学会技術研究報告[音声]Vol.96 No.319 SP96−56「双方向リカレントニューラルネットワークに基づく音声認識」p.7−12(1996/10/18)
電子情報通信学会技術研究報告[音声]Vol.97 No.114 SP97−15「リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用」p.41−48(1997/6/19)

Also Published As

Publication number Publication date
JPH10254483A (ja) 1998-09-25
US6041299A (en) 2000-03-21
EP0865030A2 (en) 1998-09-16
EP0865030A3 (en) 1999-03-17

Similar Documents

Publication Publication Date Title
JP2996926B2 (ja) 音素シンボルの事後確率演算装置及び音声認識装置
CA2163017C (en) Speech recognition method using a two-pass search
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
US5675706A (en) Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
JP2020505650A (ja) 音声認識システム及び音声認識の方法
EP0617827B1 (en) Composite expert
US20030088412A1 (en) Pattern recognition using an observable operator model
JPS62231995A (ja) 音声認識方法
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
Konig et al. GDNN: a gender-dependent neural network for continuous speech recognition
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2002358097A (ja) 音声認識装置
JP2531227B2 (ja) 音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP3039399B2 (ja) 非母国語音声認識装置
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition
JP4391179B2 (ja) 話者認識システム及び方法
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
JP4004368B2 (ja) 音声認識システム
JP3368989B2 (ja) 音声認識方法
Gemello et al. Hybrid HMM/Neural Network basedSpeech Recognition in Loquendo ASR