JP2000338989A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP2000338989A
JP2000338989A JP11150284A JP15028499A JP2000338989A JP 2000338989 A JP2000338989 A JP 2000338989A JP 11150284 A JP11150284 A JP 11150284A JP 15028499 A JP15028499 A JP 15028499A JP 2000338989 A JP2000338989 A JP 2000338989A
Authority
JP
Japan
Prior art keywords
phoneme
equation
neural network
speech recognition
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11150284A
Other languages
English (en)
Other versions
JP4028136B2 (ja
JP2000338989A5 (ja
Inventor
Tetsuo Kitazoe
徹郎 北添
Seiichi Kin
星一 金
Tomoyuki Ichiki
知幸 市来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP15028499A priority Critical patent/JP4028136B2/ja
Priority to US09/580,449 priority patent/US6947890B1/en
Publication of JP2000338989A publication Critical patent/JP2000338989A/ja
Publication of JP2000338989A5 publication Critical patent/JP2000338989A5/ja
Application granted granted Critical
Publication of JP4028136B2 publication Critical patent/JP4028136B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来のヒドンマルコフモデル(HMM)に比
べて認識率の一層の向上が可能な音韻認識手段を有する
音声認識方法および装置を提供することにある。 【解決手段】 ステレオビジョン神経回路方程式を用い
る立体視の知覚のための類似度処理では、方程式中に、
映像のある画素に対応するニューロン(セル)の活性度
(興奮度)を他の画素に対応するニューロンの活性度に
より抑制するように作用する競合項と、活性度を強調す
るように作用する協調項とを併せてもっている。本発明
では、ステレオビジョン神経回路の方程式において、立
体視の左右二つの映像のデータの代わりに、音声認識対
象の入力データの音素が比較基準となる各音素の学習デ
ータについてそれぞれ得られる類似度のデータを適用
し、唯一の音素を決定する音韻認識処理を行なわせるよ
うにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続入力される音
声からその要素となっている各音素の種類を識別して音
声を認識する音声認識方法および装置の改良に関する。
【0002】音声認識では、認識率をいかに向上させる
かが最も重要な問題となっており、本発明では、入力音
声の音素とあらかじめ保持されている基準の各音素とを
比較してそれぞれの類似度を求めた後の、唯一の音素を
決定する音韻認識処理に、脳の立体視に関わる神経回路
モデルを適用することにより、認識率の飛躍的な向上を
図っている。
【0003】
【従来の技術】最近、大語彙連続音声認識の研究が盛ん
に行なわれるようになり、実用化の兆しも見えて来つつ
ある。この研究には、大きく分けて二つの技術的問題が
ある。一つは音響モデルの問題で、一つ一つの音素の認
識率を向上させようとするものである。もう一つは言語
モデルの問題で、音素の繋がりに関する言語的あるいは
文法的知識を用いて単語や文の認識率を高めようとする
ものである。前者に対してはヒドン(隠れ)マルコフモ
デル(HMM)を基本として、それを補強するようなモ
デルが一般的に用いられてきた。現在は、特に後者の言
語モデル改良に力が注入されているが、全体の文認識に
対しては、言語モデルによる10−20%の改良は音響
モデルによる1−2%の改良と等価な寄与しかしないこ
とが知られており、大きな期待は望めないものとなって
いる。一方、音響モデルの方でも技術的に限界が感じら
れており、HMMのもとでこれ以上の発展を見込むのは
困難である。
【0004】図10に、従来のHMMモデルによる音声
認識装置のブロック構成を示す。図において、連続音声
入力部1では連続音声入力を行ない、デジタル形式の音
声信号を入力する。音声信号処理部2で、入力された音
声信号を一定の時間間隔(フレーム)に分割し、各フレ
ームにおいて信号処理を行なって、音響パラメータ(通
常メルケプストラム係数 MFCC)を抽出する。類似
度計算部3では、抽出された音響パラメータからなる入
力データを、あらかじめ各音韻について学習され統計的
に処理された基準となる学習データと比較し、入力デー
タと各音韻の学習データとの間の類似度を計算する。音
声認識部4は、これらの類似度を入力としてHMMモデ
ルによる音韻認識を行なう。その際、各フレームにおけ
る認識結果を見ながら、各音韻の平均的な長さや辞書的
知識を参照して、音韻境界抽出を行ない、音韻と音韻の
間の望ましい境界を決定する。それらの一連の作業によ
って決定された音韻の列により単語同定部5で単語同定
処理を行ない、ついでそれらの同定された単語の積み上
げとして、文同定部6で文同定を行なう。文同定部6で
は文同定の候補が挙げられるが、その際、文法的知識や
意味的知識による検討が行なわれる。もし、この段階で
文法的および意味的に問題がなければ、文認識部7にお
いて文認識が完成するが、そうでなければ単語同定部
5、音韻認識部4にフィードバックして第二候補が検討
される。
【0005】
【発明が解決しようとする課題】本発明の課題は、従来
のヒドンマルコフモデル(HMM)に比べて認識率の一
層の向上が可能な音韻認識手段を有する音声認識方法お
よび装置を提供することにある。
【0006】
【課題を解決するための手段】本発明は、音声認識の音
響モデルとして、従来のヒドンマルコフモデルとは全く
異なる原理に基づく神経回路モデルを用いるものであ
る。
【0007】本発明者らは、先に人間の脳における立体
視(ステレオビジョン)の機能について考察したが、立
体視では、3次元物体を左目と右目の網膜にそれぞれ投
影して得た二つの2次元像を、脳の中の神経回路によっ
て比較して瞬時に類似度処理を行い、物体の立体知覚を
得ていることから、このステレオビジョン神経回路機能
は、音声の入力データと基準の学習データとの間の類似
度の高速処理にも有効であると考えた。そこで、ステレ
オビジョン神経回路から音響モデルのためのステレオビ
ジョン神経回路方程式を発展させ、実際にその神経回路
モデルによる効果を確認できた。
【0008】本来のステレオビジョン神経回路における
立体視のための類似度処理では、方程式中に、映像のあ
る画素に対応するニューロン(セル)の活性度(興奮
度)を他の画素に対応するニューロンの活性度により抑
制するように作用する競合項と、活性度を強調するよう
に作用する協調項とを併せてもっている。本発明では、
ステレオビジョン神経回路の方程式において、立体視の
左右二つの映像のデータの代わりに、音声認識対象の入
力データの音素が比較基準となる各音素の学習データに
ついてそれぞれ得られる類似度のデータを適用し、唯一
の音素を決定する音韻認識処理を行なわせるようにし
た。なお、本発明によるステレオビジョン神経回路方程
式の詳細については、後述される。
【0009】本発明は、以下のように構成される。 (1) 連続して入力された音声からフレームごとに抽
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算し、得られた入力データのフレームごと
の類似度データに基づいて音韻認識処理を行う音声認識
方法において、上記音韻認識処理は神経回路モデルを用
いて行われ、該神経回路モデルでは、出力層における各
音素対応のセルの活性度は、他の音素対応のセルの活性
度に応じて抑制を受け、また近接フレームの同一音素の
活性度に応じて協調を受けるように処理されることを特
徴とする音声認識方法。 (2) 前項(1)において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識方法。 (3) 前項(1)において、神経回路モデルは、結合
パターン認識方程式構造をもつことを特徴とする音声認
識方法。 (4) 前項(1)において、神経回路モデルは、3層
構造をもつことを特徴とする音声認識方法。 (5) 前項(1)において、神経回路モデルは、2層
構造をもつことを特徴とする音声認識方法。 (6) 前項(1)において、各音素の学習データは、
ガウス確率分布関数で標準化して保持されていることを
特徴とする音声認識方法。 (7) 連続して入力された音声からフレームごとに抽
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算する類似度計算手段と、得られた入力デ
ータのフレームごとの類似度データに基づいて音韻認識
を行なう音韻認識手段とを備えた音声認識装置におい
て、 上記音韻認識手段は、神経回路モデルを有し、該
神経回路モデルは、出力層における各音素対応のセルの
活性度が、他の音素対応のセルの活性度に応じて抑制さ
れ、また近接フレームの同一音素の活性度に応じて強調
されるように構成されていることを特徴とする音声認識
装置。 (8) 前項(7)において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識装置。 (9) 前項(7)において、神経回路モデルは、結合
パターン認識方程式構造をもつものであることを特徴と
する音声認識装置。 (10) 前項(7)において、神経回路モデルは、3
層構造をもつものであることを特徴とする音声認識装
置。 (11) 前項(7)において、神経回路モデルは、2
層構造をもつものであることを特徴とする音声認識装
置。 (12) 前項(7)において、各音素の学習データ
は、ガウス確率分布関数で標準化して保持されているこ
とを特徴とする音声認識装置。
【0010】図1により、本発明の基本構成を説明す
る。
【0011】図1において、認識対象の連続音声信号
は、連続音声入力部11に入力され、次に音声信号処理
部12で一定時間幅のフレームに分割されて、フレーム
ごとに音響パラメータを抽出される。
【0012】一方、学習部13には、あらかじめ認識基
準となる音声データが入力されて学習が行われて、音素
単位にフレームごとに音響パラメータを抽出して作成さ
れた学習データ13aが保持されている。
【0013】類似度計算部14は、音声信号処理部12
から出力された入力データと学習データ13aの各音素
とをフレームごとに比較し、各音素に対する類似度をそ
れぞれフレームごとに算出して類似度データを作成し、
音韻認識部15へ出力する。
【0014】音韻認識部15は、前述した競合項と協調
項とを持つステレオビジョン神経回路方程式に基づく神
経回路モデル15aを備えており、類似度計算部14か
ら出力された各音素対応の類似度データを入力して動作
させる。その結果、神経回路は一つの音素のみが勝利す
るように収束して、音韻認識出力を生じる。なお神経回
路モデル15aは、コンピュータプログラム上に実現さ
れている。
【0015】音韻認識部15から順次出力される音韻認
識出力は、図示省略されているが、さらに単語同定処理
や文同定処理をされて、連続音声認識結果として出力さ
れる。
【0016】学習部13には、多数の音声の学習データ
が各音素に分類して記憶されている。この学習データ
は、音素ごとにガウス確率分布関数(pdf)のような
標準形式で記憶されている。
【0017】類似度計算部14では、入力データの音素
が、記憶されている学習データの各音素のガウスpdf
に対して参照され、比較することによって類似度が求め
られる。類似度の説明 uをフレーム番号、aを音素名として、あるフレームu
における入力データとある音素/a/ との類似度を次の数
1で表わし、またその類似度が対応する神経回路内のニ
ューロン(セル)の活性度(アクティビティ)、つまり
興奮のレベルを次の数2で表わす。
【0018】
【数1】
【0019】
【数2】
【0020】神経回路方程式は、入力として数1の類似
度データを受け取った後、神経回路が安定点に向かって
動作するように数2の活性度を処理し、安定点に達した
とき認識を完了する。
【0021】記憶されている学習データは、次の数3に
示すガウスpdfの式(1) で表現される。
【0022】
【数3】
【0023】ここで、οは入力、μa はある音素/a/ に
対するケプストラムで表わされた学習データの平均値で
ある。Σa は、次の数4に示す式(2) で表わされる。
【0024】
【数4】
【0025】ここで、οn はある音素/a/ の学習データ
である。ある音素/a/ に対するu番目のフレームにおけ
る入力データοu の正規化された類似度を次の数5で表
わした場合、
【0026】
【数5】
【0027】次の数6に示す式(3) のように定義され
る。
【0028】
【数6】
【0029】ここで、N′はNの対数尤度を表わし、<
N>は、各音素の平均値を示す。
【0030】
【発明の実施の形態】以下に、本発明の具体的な実施の
形態について説明する。
【0031】図2は、本発明の1実施例による音声認識
処理のフローである。図中、21から23までは音素データ
の学習過程、24から28までは音韻認識過程を示す。な
お、連続音声認識に伴う単語同定や文同定の過程は、省
略されている。
【0032】21では、入力する音素の学習データとし
て、すでに専門家によって音声データの各音韻部分にラ
ベルが振られたデータが利用される。これらの音声デー
タから、ラベルに基づいて音韻を切り取り、膨大な音素
データを作成する。
【0033】22では、各音素データからフレームごとに
音響パラメータを抽出する。
【0034】23では、ガウス確率分布関数(pdf)を
用いて各音素の標準モデルを計算し保存する。
【0035】24では、認識対象の音声データを入力す
る。ここでは、入力データとしてすでに音韻ごとに切り
出された音素データが用いられる。音素データからは、
フレームごとに音響パラメータが抽出される。
【0036】25では、入力された音素データと保存され
ている標準モデルの各音素データとをフレームごとに比
較して、それぞれの類似度を計算する。
【0037】26では、フレームごとに各音素の類似度デ
ータを神経回路方程式に入力して、計算処理する。その
際、27で、神経回路の活性度変数に対して適当な初期値
の設定を行う。なお、計算時間を短縮する必要がある場
合には、入力する類似度データ数を限定し、たとえば上
位の5つの音素に限定してもよい。
【0038】28では、神経回路方程式を計算処理した結
果、定常解が得られたとに音韻認識出力する。フレーム
ごとに、定常解で出力層(最終層)の神経活性度が正の
一定値をとる音素が認識候補となり、0に近い値の音素
は捨てられる。各フレームで認識頻度がもっとも高かっ
た音素がその音韻の第一候補となり、認識結果として出
力される。
【0039】次に、ステレオビジョン神経回路方程式の
実施例について説明する。
【0040】本発明において、音韻認識を行なう神経回
路モデルを規定する競合項と協調項をもつステレオビジ
ョン神経回路方程式には種々の態様のものが考えられる
が、以下に、結合パターン認知方程式、3層構造神経回
路方程式、2層構造神経回路方程式、の3つの実施例に
ついて述べる。実施例A:結合パターン認知方程式 結合パターン認知(Coupled Pattern Recognition )方
程式は、競合項と協調項とを結合したパターン認知方程
式であり、立体視の処理のためのステレオビジョン神経
回路方程式を、音韻認識の類似度処理のために変形した
ものである。この方程式は、次の数7中に示す式(4) 、
式(5) 、式(6) の形で与えられる。
【0041】
【数7】
【0042】ここで、B,C,D,Eは、正の定数であ
る。式(6) の左辺の数8は、神経回路の入力層におい
て、数9で示す類似度が入力されるセルの活性度を表わ
すが、数10で示す出力層における他の音素の類似度に
対応するセルの活性度および近傍のフレームによっても
影響を受ける。すなわち、数7中の式(6) の右辺第2項
は、数11で示す他の音素の活性度によって抑制を受け
る競合項を表わし、また右辺第3項は、 u−l<=u′<=u+l の範囲の近接フレーム間での同一音素の活性度により強
調を受ける協調項を表わしている。
【0043】
【数8】
【0044】
【数9】
【0045】
【数10】
【0046】
【数11】
【0047】この結合パターン認知方程式の解は、入力
λとξの初期値とによって決定される。しかし、後述さ
れるように、ξが正の値から出発するならば、初期条件
とは無関係に、同じ値の解に収束する。
【0048】数7の結合パターン認知方程式において、
類似度λは、αを介してのみ式(4),(5),(6) へ導入され
て式中で重要な役割を果たす。図3の(a)と(b)
は、それぞれαの値が正の場合(α>0)と負の場合
(α<−E2 /4 .5C)の、ξの値に対応する典型的な
ポテンシャル関数波形を示す。なお、図3の(a)と
(b)のポテンシャル関数波形では、式(4),(5),(6) 中
の定数として、B=0 .25 ,C=1 .25 ,D=0 .60 ,
E=3 .00 ,l=4 が用いられている。
【0049】図3の(a)に示されるα>0のポテンシ
ャル関数波形では、結合パターン認知方程式によって、
ξの値は0に向かうように変化する。また、図3の
(b)に示される α<−E2 /4 .5C のポテンシャ
ル関数波形では、ξの初期値が正の値に設定されるなら
ば、ξは、ポテンシャル波形の絶対的最小値に対応する
ある正の値に向かって変化する。このようにして、ξが
最終的にある正の値になるニューロンを勝者ニューロン
と呼び、またニューロンが活性を全く失ってξが0にな
るニューロンを敗者ニューロンと呼ぶ。しかし実際の時
間経過では、αが周囲のξの値に依存して時間とともに
変化するため、状況はもっと複雑なものになる。
【0050】この結合パターン認知方程式による神経回
路モデルを用いた音韻認識では、従来のHMM方式に比
べて、平均8%もの認識率の向上が得られた。実施例B:3層構造神経回路(3LNN)方程式 図4は、3層構造のステレオビジョン神経回路方程式に
よる神経回路(ThreeLayered Neural Net:3LNN)
モデルを示したものである。図示の神経回路モデルは、
入力層、中間層、出力層の3層からなり、各層には、複
数のセル(ニューロン)が2次元配列されている。2次
元配列の横の各セル行は順次のフレームに対応付けられ
ており、縦の各セル列は異なる音素の種類に対応付けら
れている。
【0051】入力層、中間層、出力層の各セルの活性度
は、それぞれ数12のように表される。
【0052】
【数12】
【0053】入力層の各セルには、数13に示す類似度
データが入力される。また各層のセルには、図中に矢線
で例示されるような、神経回路方程式の競合項と協調項
に基づく結合が設けられている。図5にその結合の様子
を示す。
【0054】
【数13】
【0055】図5において、入力層上の数14で示す音
素のセルへは、出力層上の数15で示す同じフレームの
他の複数の音素のセルから、点線の矢線のように競合項
に基づく興奮を抑制する結合が行なわれ、また、出力層
上の近接する複数のフレームにある同一音素に属する数
16のセルからは、実践の矢線のように協調項に基づく
興奮を強調させる結合が行なわれる。
【0056】
【数14】
【0057】
【数15】
【0058】
【数16】
【0059】次に、3層構造神経回路モデル(3LN
N)の神経回路方程式(以下、3LNN方程式という)
について説明する。
【0060】3LNN方程式は、以下の数17に示す式
(7) で与えられる。
【0061】
【数17】
【0062】ここで、数18は時間依存の神経活性度を
表わし、f(x)は数19の式(8) で与えられるSigmoid 関
数を表わしている。また数20は数21の式(9) で表わ
され、g(u)は数22に示す式(10)、(11)で与えられる。
【0063】
【数18】
【0064】
【数19】
【0065】
【数20】
【0066】
【数21】
【0067】
【数22】
【0068】なお、A,B,D,w,hは、それぞれ適
切に選択される正の定数である。
【0069】図4に示されるように、入力層の数23で
示す神経活性度は、数24の類似度入力とともに数25
で示す近傍の神経活性度の影響をも受ける。式(11)にお
いて、右辺の第2項は入力項、第3項は競合項、第4項
は協調項である。この第2項は、第uフレームにおける
ある音素/a/ に対する入力データの類似度を表わす。ま
た第3項は、数26で示す他の音素の活性度との競合を
表わし、第4項は、同一音素についての近接フレームか
らの協調を表わす。
【0070】
【数23】
【0071】
【数24】
【0072】
【数25】
【0073】
【数26】
【0074】式(11)の第3項中の数27に示す加算指標
は、a ′≠a の制限のもとで、 a−as <= a′<=a+as として定義される不同検索範囲を網羅する。また式(11)
の第4項中の数28に示す加算指標は、u′≠u の制限
のもとで、 u−l<= u′<=u+l として定義される協調範囲を網羅する。
【0075】
【数27】
【0076】
【数28】
【0077】方程式の本質的特徴を理解するために数2
9の平衡解を考慮すると、式(10)、(11)は次の数30の
ように書き替えられる。
【0078】
【数29】
【0079】
【数30】
【0080】図6は、曲線y=ξ および曲線y=f(
g(α) + g (ξ))のグラフであり、(a)〜(d)は、
数31を正の大きい値4から正の小さい値1.3 まで変化
させたときのものを順に示す。
【0081】
【数31】
【0082】式の解は、図6における二つの曲線の交点
で与えられる。図6において、上記数31の値が(a)
の4から(d)の1.3 まで減少するならば、(c)の値
に達するまで解はほぼ数32の値を維持する。これとは
反対に、数31の値が(d)から(a)に増加するなら
ば、(b)の値に達するまで解はほぼ数33の値に維持
される。
【0083】
【数32】
【0084】
【数33】
【0085】この事実から、以下の二つの結論が得られ
る。 αの値が大きい場合、ξは比較的大きい値(ほぼ
1)をとり、αの値が小さい場合は、ξは小さい値(ほ
ぼ0)をとる。 αが増加するか減少するかにしたがって、解のξは
異なるパスをとる。これは、ヒステリシス現象の存在を
示唆している。
【0086】なお、w>1を仮定するならば、図6の
(b)と(c)の間に、安定でない第3の解が存在す
る。 (3LNN方程式による音韻認識処理)
【0087】表1は、実際には/n/ と発音された入力音
素について学習データの各音素との間で類似度計算を行
なった結果の候補のベスト5の類似度マップを示す。こ
こでは、音素/n/,/m/,/o/,/g/,/w/ がベスト5として選
択された。これらのデータが、3LNN方程式に入力さ
れて、フレームごとに唯一の音素のξのみが勝利を収め
る勝者決定の処理が行なわれる。表2は、その処理結果
を例示したものである。
【0088】
【表1】
【0089】
【表2】
【0090】表2の例の場合、フレーム1〜11では音
素/n/ のみが正の大きい値をとって他の音素ではほぼ0
となることから/n/ が勝者となり、一方、フレーム12
〜15では音素/m/ のみが正の大きい値をとって他はほ
ぼ0であるから/m/ が勝者となっている。そこで、全フ
レームの平均あるいは頻度から、/n/ を音韻認識結果と
して出力する。
【0091】3LNN方程式のこのような処理について
の動的な理解を得るには、αの典型的な値に応じて変わ
るSigmoid 関数の形に注目するのがよい。また3LNN
方程式の安定解は、ほぼ1の大きい値か、ほぼ0の小さ
い値かのどちらかだけを与える式(12)によって決定され
るから、すべてのξに対して、初期値として0.5 を設定
した。
【0092】図7と図8は、それぞれ、表1の類似度マ
ップが入力されるときの、音素/n/,/m/,/o/,/g/,/w/ に
対する第5フレームにおけるαとξの時間変化特性を示
す。最初に、入力された各音素の類似度データλが異な
っている場合、音素間の差だけがαから3LNN方程式
中に導入される。音素/m/,/o/,/g/,/w/ についてのξ
は、α<0に対するSigmoid 関数形に基づいて、図8に
示すように減少し始める。これに対して、もっとも大き
いλを持つ音素/n/ に対するαは、競合項の値の増加に
つれて正の値をとりはじめる。αn が正になると、活性
度ξn は図8に示すように、Sigmoid 関数形にしたがっ
て増加に転じる。この段階になると、αnの協調項がα
n の立ち上がりを助け、ξn の増加を加速することが注
目される。一方、他の各音素のαは、ξn の増加に基づ
き競合項の値が増加するため減少し始める。 (認識実験例)学習データから各音素についてのガウス
確率分布関数(pdf)を作成するために、10人の男
性話者によって話された4000語からなるATRデー
タと、6人の男性話者によって話された500の文のA
SJデータとから、あらかじめラベル付けされている音
素を抽出した。また認識実験のための入力音声データ
は、二つの種類で構成された。その一つは、216語の
データベースからのものであり、他の一つは、3人の異
なる男性話者によって話された240語の一つからのも
のである。音声データは、次のようにして解析された。
【0093】本発明による神経回路モデルと従来のモデ
ルとの性能を比較するため、同じデータベースを使用
し、単一の混合と三つの状態をもつヒドンマルコフモデ
ル(HMM)により音韻認識実験が行なわれた。認識テ
ストは、表3に示すように、10次元のMFCCと、そ
の速度成分の10次元のデルタMFCCを使用して実行
された。学習データの各音素のケプストラムデータは、
フレームの中間位置の前半と後半に分けて別々にガウス
pdfを作成された。入力音声データも前半と後半に分
割され、学習データの前半と後半のガウスpdfの対応
部分と別々に比較され、類似度マップが作成された。音
素の種類は24あるが、それらの類似度データの上位5
つの候補が、3LNN方程式に適用された。表4と表5
に、音韻認識結果を示す。非特定話者認識のときの認識
率は、216 語データベースの場合、HMMでは71.56 %
であったのに対して3LNNでは78.05 %が得られた。
また240 語データベースの場合は、HMMでは72.37 %
であったのに対して3LNNでは78.94 %が得られた。
【0094】
【表3】
【0095】
【表4】
【0096】
【表5】
【0097】実施例C:2層構造神経回路(2LNN)
方程式 図9は、2層構造のステレオビジョン神経回路方程式に
よる神経回路(TwoLayered Neural Net:2LNN) モ
デルを示したものである。図示の神経回路モデルは、入
力層V1 と出力層V2 の2層からなり、各層には、複数
のセル(ニューロン)が2次元配列されている。2次元
配列の横の各セル行は順次のフレームに対応付けられて
おり、縦の各セル列は異なる音素の種類に対応付けられ
ている。入力層と出力層の各セルの活性度は、それぞれ
数34のように表される。
【0098】
【数34】
【0099】入力層の各セルには、数35に示す類似度
データが入力される。また各層のセルには、図中に矢線
で例示されるような、2LNN方程式の競合項と協調項
に基づく結合が, 3LNNについて図5で述べたように
設けられている。
【0100】
【数35】
【0101】次に、2層構造神経回路モデル(2LN
N)の神経回路方程式(以下、2LNN方程式という)
について説明する。
【0102】2LNN方程式は、以下の数36に示す式
(13)および式(14)で与えられる。
【0103】
【数36】
【0104】ここで、数37は時間依存の神経活性度を
表わし、f(x)は数36中の式 (14)で与えられるSigmoid
関数を表わしている。また数38は数3 6 中の式(15)
で表わされ、g(u)は数36中の式(16)で与えられる。
【0105】なお、A,B,D,w,hは、それぞれ適
切に選択される正の定数である。
【0106】
【数37】
【0107】図9に示されるように、入力層の数38で
示す神経活性度は、数35の類似度入力とともに数25
で示す近傍の神経活性度の影響をも受ける。数36中の
式(15)において、右辺の第2項は入力項、第3項は競合
項、第4項は協調項である。この第2項は、第uフレー
ムにおけるある音素/a/ に対する入力データの類似度を
表わす。また第3項は、数39で示す他の音素の活性度
との競合を表わし、第4項は、同一音素についての近接
フレームからの協調を表わす。
【0108】
【数38】
【0109】
【数39】
【0110】式 (15) の第3項中の数40に示す加算指
標は、a ′≠a の制限のもとで、 a−as <= a′<=a+as として定義される不同検索範囲を網羅する。また式(15)
の第4項中の数41に示す加算指標は、u ′≠u の制限
のもとで、 u−l<= u′<=u+l として定義される協調範囲を網羅する。
【0111】
【数40】
【0112】
【数41】
【0113】方程式の本質的特徴を理解するために数4
2の平衡解を考慮すると、式(15)、(16)は次の数43の
式(17)および数44の式(18)のように書き替えられる。
【0114】
【数42】
【0115】
【数43】
【0116】
【数44】
【0117】数43の式(17)では、数36の式(16)で与
えられるSigmoid 関数により、数38で示す神経活性度に
対する競合と協調の効果によって、直接的に数37に対
して勝者と敗者の決定が下される仕組みとなっている。
すなわち、数38で示す神経活性度の大きな値に対して
は1に近い数37の出力を与え、数38で示す神経活性
度の小さな値に対しては0に近い小さな数37の出力を
与える。
【0118】この2LNN方程式によっても、3LNN
方程式の場合と同様に、HMMに比べて高い音韻認識率
を得ることができる。
【0119】
【発明の効果】本発明は、連続して入力される音声から
その要素となっている各音素の種類を識別して音声を認
識する手段として、脳の立体視にかかわる神経回路モデ
ルを適用することにより、認識率の向上を図っている。
従来は、ヒドンマルコフモデル(HMM)を基本とし
て、それを補強するようなモデルが一般に用いられてき
たが、ヒドンマルコフモデルでは、技術的限界が見えて
いた。本発明によるステレオビジョン神経回路モデル
は、ヒドンマルコフモデルとは根本的に異なる考え方に
基づいており、音韻認識率を著しく改善することができ
た。この本発明のモデルを連続的な単語認識や文認識に
適用することにより、音声認識の飛躍的向上が期待され
る。
【図面の簡単な説明】
【図1】本発明の基本構成図である。
【図2】本発明の1実施例による音声認識処理のフロー
である。
【図3】結合パターン認知方程式におけるポテンシャル
関数波形の例のグラフである。
【図4】3層構造神経回路モデル(3LNN)の概念図
である。
【図5】異なる音素の類似度間の競合と近接フレームデ
ータ間の協調の説明図である。
【図6】y=ξおよびy=f(g(α)+g(ξ))の
グラフである。
【図7】αの時間変化特性を示すグラフである。
【図8】ξの時間変化特性を示すグラフである。
【図9】2層構造神経回路モデル(2LNN)の概念図
である。
【図10】従来の連続音声認識装置のブロック構成図で
ある。
【符号の説明】
11:連続音声入力部 12:音声信号処理部 13:学習部 13a:学習データ 14:類似度計算部 15:音韻認識部 15a:ステレオビジョン神経回路モデル

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 連続して入力された音声からフレームご
    とに抽出した音響パラメータからなる入力データと、あ
    らかじめ学習されている複数の音素の音響パラメータか
    らなる基準の学習データとの間でフレームごとに各音素
    に対する類似度を計算し、得られた入力データのフレー
    ムごとの類似度データに基づいて音韻認識処理を行う音
    声認識方法において、 上記音韻認識処理は神経回路モデルを用いて行われ、該
    神経回路モデルでは、出力層における各音素対応のセル
    の活性度は、他の音素対応のセルの活性度に応じて抑制
    を受け、また近接フレームの同一音素の活性度に応じて
    協調を受けるように処理されることを特徴とする音声認
    識方法。
  2. 【請求項2】 請求項1において、神経回路方程式は、
    競合項と協調項とを含むステレオビジョン神経回路方程
    式あるいはそれに類似のものであることを特徴とする音
    声認識方法。
  3. 【請求項3】 請求項1において、神経回路モデルは、
    結合パターン認識方程式構造をもつことを特徴とする音
    声認識方法。
  4. 【請求項4】 請求項1において、神経回路モデルは、
    3層構造をもつことを特徴とする音声認識方法。
  5. 【請求項5】 請求項1において、神経回路モデルは、
    2層構造をもつことを特徴とする音声認識方法。
  6. 【請求項6】 請求項1において、各音素の学習データ
    は、ガウス確率分布関数で標準化して保持されているこ
    とを特徴とする音声認識方法。
  7. 【請求項7】 連続して入力された音声からフレームご
    とに抽出した音響パラメータからなる入力データと、あ
    らかじめ学習されている複数の音素の音響パラメータか
    らなる基準の学習データとの間でフレームごとに各音素
    に対する類似度を計算する類似度計算手段と、得られた
    入力データのフレームごとの類似度データに基づいて音
    韻認識を行なう音韻認識手段とを備えた音声認識装置に
    おいて、 上記音韻認識手段は、神経回路モデルを有し、該神経回
    路モデルは、出力層における各音素対応のセルの活性度
    が、他の音素対応のセルの活性度に応じて抑制され、ま
    た近接フレームの同一音素の活性度に応じて強調される
    ように構成されていることを特徴とする音声認識装置。
  8. 【請求項8】 請求項7において、神経回路方程式は、
    競合項と協調項とを含むステレオビジョン神経回路方程
    式あるいはそれに類似のものであることを特徴とする音
    声認識装置。
  9. 【請求項9】 請求項7において、神経回路モデルは、
    結合パターン認識方程式構造をもつことを特徴とする音
    声認識装置。
  10. 【請求項10】 請求項7において、神経回路モデル
    は、3層構造をもつものであることを特徴とする音声認
    識装置。
  11. 【請求項11】 請求項7において、神経回路モデル
    は、2層構造をもつものであることを特徴とする音声認
    識装置。
  12. 【請求項12】 請求項7において、各音素の学習デー
    タは、ガウス確率分布関数で標準化して保持されている
    ことを特徴とする音声認識装置。
JP15028499A 1999-05-28 1999-05-28 音声認識方法および装置 Expired - Fee Related JP4028136B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP15028499A JP4028136B2 (ja) 1999-05-28 1999-05-28 音声認識方法および装置
US09/580,449 US6947890B1 (en) 1999-05-28 2000-05-30 Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15028499A JP4028136B2 (ja) 1999-05-28 1999-05-28 音声認識方法および装置

Publications (3)

Publication Number Publication Date
JP2000338989A true JP2000338989A (ja) 2000-12-08
JP2000338989A5 JP2000338989A5 (ja) 2005-08-18
JP4028136B2 JP4028136B2 (ja) 2007-12-26

Family

ID=15493623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15028499A Expired - Fee Related JP4028136B2 (ja) 1999-05-28 1999-05-28 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP4028136B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133411A (ja) * 2005-11-12 2007-05-31 Sony Computer Entertainment Inc ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN111862954A (zh) * 2020-05-29 2020-10-30 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133411A (ja) * 2005-11-12 2007-05-31 Sony Computer Entertainment Inc ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN111862954A (zh) * 2020-05-29 2020-10-30 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置

Also Published As

Publication number Publication date
JP4028136B2 (ja) 2007-12-26

Similar Documents

Publication Publication Date Title
Shor et al. Personalizing ASR for dysarthric and accented speech with limited data
Venkataramanan et al. Emotion recognition from speech
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN107972028B (zh) 人机交互方法、装置及电子设备
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
EP0549265A2 (en) Neural network-based speech token recognition system and method
WO2014062521A1 (en) Emotion recognition using auditory attention cues extracted from users voice
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN108986798A (zh) 语音数据的处理方法、装置及设备
Abro et al. Qur'an recognition for the purpose of memorisation using Speech Recognition technique
Coto-Jiménez et al. LSTM deep neural networks postfiltering for enhancing synthetic voices
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
US6947890B1 (en) Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
Kalinli Analysis of Multi-Lingual Emotion Recognition Using Auditory Attention Features.
Terbeh et al. Arabic speech analysis to identify factors posing pronunciation disorders and to assist learners with vocal disabilities
Bera et al. Identification of mental state through speech using a deep learning approach
JP4028136B2 (ja) 音声認識方法および装置
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees