JP2000338989A - 音声認識方法および装置 - Google Patents
音声認識方法および装置Info
- Publication number
- JP2000338989A JP2000338989A JP11150284A JP15028499A JP2000338989A JP 2000338989 A JP2000338989 A JP 2000338989A JP 11150284 A JP11150284 A JP 11150284A JP 15028499 A JP15028499 A JP 15028499A JP 2000338989 A JP2000338989 A JP 2000338989A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- equation
- neural network
- speech recognition
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
べて認識率の一層の向上が可能な音韻認識手段を有する
音声認識方法および装置を提供することにある。 【解決手段】 ステレオビジョン神経回路方程式を用い
る立体視の知覚のための類似度処理では、方程式中に、
映像のある画素に対応するニューロン(セル)の活性度
(興奮度)を他の画素に対応するニューロンの活性度に
より抑制するように作用する競合項と、活性度を強調す
るように作用する協調項とを併せてもっている。本発明
では、ステレオビジョン神経回路の方程式において、立
体視の左右二つの映像のデータの代わりに、音声認識対
象の入力データの音素が比較基準となる各音素の学習デ
ータについてそれぞれ得られる類似度のデータを適用
し、唯一の音素を決定する音韻認識処理を行なわせるよ
うにした。
Description
声からその要素となっている各音素の種類を識別して音
声を認識する音声認識方法および装置の改良に関する。
かが最も重要な問題となっており、本発明では、入力音
声の音素とあらかじめ保持されている基準の各音素とを
比較してそれぞれの類似度を求めた後の、唯一の音素を
決定する音韻認識処理に、脳の立体視に関わる神経回路
モデルを適用することにより、認識率の飛躍的な向上を
図っている。
に行なわれるようになり、実用化の兆しも見えて来つつ
ある。この研究には、大きく分けて二つの技術的問題が
ある。一つは音響モデルの問題で、一つ一つの音素の認
識率を向上させようとするものである。もう一つは言語
モデルの問題で、音素の繋がりに関する言語的あるいは
文法的知識を用いて単語や文の認識率を高めようとする
ものである。前者に対してはヒドン(隠れ)マルコフモ
デル(HMM)を基本として、それを補強するようなモ
デルが一般的に用いられてきた。現在は、特に後者の言
語モデル改良に力が注入されているが、全体の文認識に
対しては、言語モデルによる10−20%の改良は音響
モデルによる1−2%の改良と等価な寄与しかしないこ
とが知られており、大きな期待は望めないものとなって
いる。一方、音響モデルの方でも技術的に限界が感じら
れており、HMMのもとでこれ以上の発展を見込むのは
困難である。
認識装置のブロック構成を示す。図において、連続音声
入力部1では連続音声入力を行ない、デジタル形式の音
声信号を入力する。音声信号処理部2で、入力された音
声信号を一定の時間間隔(フレーム)に分割し、各フレ
ームにおいて信号処理を行なって、音響パラメータ(通
常メルケプストラム係数 MFCC)を抽出する。類似
度計算部3では、抽出された音響パラメータからなる入
力データを、あらかじめ各音韻について学習され統計的
に処理された基準となる学習データと比較し、入力デー
タと各音韻の学習データとの間の類似度を計算する。音
声認識部4は、これらの類似度を入力としてHMMモデ
ルによる音韻認識を行なう。その際、各フレームにおけ
る認識結果を見ながら、各音韻の平均的な長さや辞書的
知識を参照して、音韻境界抽出を行ない、音韻と音韻の
間の望ましい境界を決定する。それらの一連の作業によ
って決定された音韻の列により単語同定部5で単語同定
処理を行ない、ついでそれらの同定された単語の積み上
げとして、文同定部6で文同定を行なう。文同定部6で
は文同定の候補が挙げられるが、その際、文法的知識や
意味的知識による検討が行なわれる。もし、この段階で
文法的および意味的に問題がなければ、文認識部7にお
いて文認識が完成するが、そうでなければ単語同定部
5、音韻認識部4にフィードバックして第二候補が検討
される。
のヒドンマルコフモデル(HMM)に比べて認識率の一
層の向上が可能な音韻認識手段を有する音声認識方法お
よび装置を提供することにある。
響モデルとして、従来のヒドンマルコフモデルとは全く
異なる原理に基づく神経回路モデルを用いるものであ
る。
視(ステレオビジョン)の機能について考察したが、立
体視では、3次元物体を左目と右目の網膜にそれぞれ投
影して得た二つの2次元像を、脳の中の神経回路によっ
て比較して瞬時に類似度処理を行い、物体の立体知覚を
得ていることから、このステレオビジョン神経回路機能
は、音声の入力データと基準の学習データとの間の類似
度の高速処理にも有効であると考えた。そこで、ステレ
オビジョン神経回路から音響モデルのためのステレオビ
ジョン神経回路方程式を発展させ、実際にその神経回路
モデルによる効果を確認できた。
立体視のための類似度処理では、方程式中に、映像のあ
る画素に対応するニューロン(セル)の活性度(興奮
度)を他の画素に対応するニューロンの活性度により抑
制するように作用する競合項と、活性度を強調するよう
に作用する協調項とを併せてもっている。本発明では、
ステレオビジョン神経回路の方程式において、立体視の
左右二つの映像のデータの代わりに、音声認識対象の入
力データの音素が比較基準となる各音素の学習データに
ついてそれぞれ得られる類似度のデータを適用し、唯一
の音素を決定する音韻認識処理を行なわせるようにし
た。なお、本発明によるステレオビジョン神経回路方程
式の詳細については、後述される。
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算し、得られた入力データのフレームごと
の類似度データに基づいて音韻認識処理を行う音声認識
方法において、上記音韻認識処理は神経回路モデルを用
いて行われ、該神経回路モデルでは、出力層における各
音素対応のセルの活性度は、他の音素対応のセルの活性
度に応じて抑制を受け、また近接フレームの同一音素の
活性度に応じて協調を受けるように処理されることを特
徴とする音声認識方法。 (2) 前項(1)において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識方法。 (3) 前項(1)において、神経回路モデルは、結合
パターン認識方程式構造をもつことを特徴とする音声認
識方法。 (4) 前項(1)において、神経回路モデルは、3層
構造をもつことを特徴とする音声認識方法。 (5) 前項(1)において、神経回路モデルは、2層
構造をもつことを特徴とする音声認識方法。 (6) 前項(1)において、各音素の学習データは、
ガウス確率分布関数で標準化して保持されていることを
特徴とする音声認識方法。 (7) 連続して入力された音声からフレームごとに抽
出した音響パラメータからなる入力データと、あらかじ
め学習されている複数の音素の音響パラメータからなる
基準の学習データとの間でフレームごとに各音素に対す
る類似度を計算する類似度計算手段と、得られた入力デ
ータのフレームごとの類似度データに基づいて音韻認識
を行なう音韻認識手段とを備えた音声認識装置におい
て、 上記音韻認識手段は、神経回路モデルを有し、該
神経回路モデルは、出力層における各音素対応のセルの
活性度が、他の音素対応のセルの活性度に応じて抑制さ
れ、また近接フレームの同一音素の活性度に応じて強調
されるように構成されていることを特徴とする音声認識
装置。 (8) 前項(7)において、神経回路方程式は、競合
項と協調項とを含むステレオビジョン神経回路方程式あ
るいはそれに類似のものであることを特徴とする音声認
識装置。 (9) 前項(7)において、神経回路モデルは、結合
パターン認識方程式構造をもつものであることを特徴と
する音声認識装置。 (10) 前項(7)において、神経回路モデルは、3
層構造をもつものであることを特徴とする音声認識装
置。 (11) 前項(7)において、神経回路モデルは、2
層構造をもつものであることを特徴とする音声認識装
置。 (12) 前項(7)において、各音素の学習データ
は、ガウス確率分布関数で標準化して保持されているこ
とを特徴とする音声認識装置。
る。
は、連続音声入力部11に入力され、次に音声信号処理
部12で一定時間幅のフレームに分割されて、フレーム
ごとに音響パラメータを抽出される。
準となる音声データが入力されて学習が行われて、音素
単位にフレームごとに音響パラメータを抽出して作成さ
れた学習データ13aが保持されている。
から出力された入力データと学習データ13aの各音素
とをフレームごとに比較し、各音素に対する類似度をそ
れぞれフレームごとに算出して類似度データを作成し、
音韻認識部15へ出力する。
項とを持つステレオビジョン神経回路方程式に基づく神
経回路モデル15aを備えており、類似度計算部14か
ら出力された各音素対応の類似度データを入力して動作
させる。その結果、神経回路は一つの音素のみが勝利す
るように収束して、音韻認識出力を生じる。なお神経回
路モデル15aは、コンピュータプログラム上に実現さ
れている。
識出力は、図示省略されているが、さらに単語同定処理
や文同定処理をされて、連続音声認識結果として出力さ
れる。
が各音素に分類して記憶されている。この学習データ
は、音素ごとにガウス確率分布関数(pdf)のような
標準形式で記憶されている。
が、記憶されている学習データの各音素のガウスpdf
に対して参照され、比較することによって類似度が求め
られる。類似度の説明 uをフレーム番号、aを音素名として、あるフレームu
における入力データとある音素/a/ との類似度を次の数
1で表わし、またその類似度が対応する神経回路内のニ
ューロン(セル)の活性度(アクティビティ)、つまり
興奮のレベルを次の数2で表わす。
度データを受け取った後、神経回路が安定点に向かって
動作するように数2の活性度を処理し、安定点に達した
とき認識を完了する。
示すガウスpdfの式(1) で表現される。
対するケプストラムで表わされた学習データの平均値で
ある。Σa は、次の数4に示す式(2) で表わされる。
である。ある音素/a/ に対するu番目のフレームにおけ
る入力データοu の正規化された類似度を次の数5で表
わした場合、
る。
N>は、各音素の平均値を示す。
形態について説明する。
処理のフローである。図中、21から23までは音素データ
の学習過程、24から28までは音韻認識過程を示す。な
お、連続音声認識に伴う単語同定や文同定の過程は、省
略されている。
て、すでに専門家によって音声データの各音韻部分にラ
ベルが振られたデータが利用される。これらの音声デー
タから、ラベルに基づいて音韻を切り取り、膨大な音素
データを作成する。
音響パラメータを抽出する。
用いて各音素の標準モデルを計算し保存する。
る。ここでは、入力データとしてすでに音韻ごとに切り
出された音素データが用いられる。音素データからは、
フレームごとに音響パラメータが抽出される。
ている標準モデルの各音素データとをフレームごとに比
較して、それぞれの類似度を計算する。
ータを神経回路方程式に入力して、計算処理する。その
際、27で、神経回路の活性度変数に対して適当な初期値
の設定を行う。なお、計算時間を短縮する必要がある場
合には、入力する類似度データ数を限定し、たとえば上
位の5つの音素に限定してもよい。
果、定常解が得られたとに音韻認識出力する。フレーム
ごとに、定常解で出力層(最終層)の神経活性度が正の
一定値をとる音素が認識候補となり、0に近い値の音素
は捨てられる。各フレームで認識頻度がもっとも高かっ
た音素がその音韻の第一候補となり、認識結果として出
力される。
実施例について説明する。
路モデルを規定する競合項と協調項をもつステレオビジ
ョン神経回路方程式には種々の態様のものが考えられる
が、以下に、結合パターン認知方程式、3層構造神経回
路方程式、2層構造神経回路方程式、の3つの実施例に
ついて述べる。実施例A:結合パターン認知方程式 結合パターン認知(Coupled Pattern Recognition )方
程式は、競合項と協調項とを結合したパターン認知方程
式であり、立体視の処理のためのステレオビジョン神経
回路方程式を、音韻認識の類似度処理のために変形した
ものである。この方程式は、次の数7中に示す式(4) 、
式(5) 、式(6) の形で与えられる。
る。式(6) の左辺の数8は、神経回路の入力層におい
て、数9で示す類似度が入力されるセルの活性度を表わ
すが、数10で示す出力層における他の音素の類似度に
対応するセルの活性度および近傍のフレームによっても
影響を受ける。すなわち、数7中の式(6) の右辺第2項
は、数11で示す他の音素の活性度によって抑制を受け
る競合項を表わし、また右辺第3項は、 u−l<=u′<=u+l の範囲の近接フレーム間での同一音素の活性度により強
調を受ける協調項を表わしている。
λとξの初期値とによって決定される。しかし、後述さ
れるように、ξが正の値から出発するならば、初期条件
とは無関係に、同じ値の解に収束する。
類似度λは、αを介してのみ式(4),(5),(6) へ導入され
て式中で重要な役割を果たす。図3の(a)と(b)
は、それぞれαの値が正の場合(α>0)と負の場合
(α<−E2 /4 .5C)の、ξの値に対応する典型的な
ポテンシャル関数波形を示す。なお、図3の(a)と
(b)のポテンシャル関数波形では、式(4),(5),(6) 中
の定数として、B=0 .25 ,C=1 .25 ,D=0 .60 ,
E=3 .00 ,l=4 が用いられている。
ャル関数波形では、結合パターン認知方程式によって、
ξの値は0に向かうように変化する。また、図3の
(b)に示される α<−E2 /4 .5C のポテンシャ
ル関数波形では、ξの初期値が正の値に設定されるなら
ば、ξは、ポテンシャル波形の絶対的最小値に対応する
ある正の値に向かって変化する。このようにして、ξが
最終的にある正の値になるニューロンを勝者ニューロン
と呼び、またニューロンが活性を全く失ってξが0にな
るニューロンを敗者ニューロンと呼ぶ。しかし実際の時
間経過では、αが周囲のξの値に依存して時間とともに
変化するため、状況はもっと複雑なものになる。
路モデルを用いた音韻認識では、従来のHMM方式に比
べて、平均8%もの認識率の向上が得られた。実施例B:3層構造神経回路(3LNN)方程式 図4は、3層構造のステレオビジョン神経回路方程式に
よる神経回路(ThreeLayered Neural Net:3LNN)
モデルを示したものである。図示の神経回路モデルは、
入力層、中間層、出力層の3層からなり、各層には、複
数のセル(ニューロン)が2次元配列されている。2次
元配列の横の各セル行は順次のフレームに対応付けられ
ており、縦の各セル列は異なる音素の種類に対応付けら
れている。
は、それぞれ数12のように表される。
データが入力される。また各層のセルには、図中に矢線
で例示されるような、神経回路方程式の競合項と協調項
に基づく結合が設けられている。図5にその結合の様子
を示す。
素のセルへは、出力層上の数15で示す同じフレームの
他の複数の音素のセルから、点線の矢線のように競合項
に基づく興奮を抑制する結合が行なわれ、また、出力層
上の近接する複数のフレームにある同一音素に属する数
16のセルからは、実践の矢線のように協調項に基づく
興奮を強調させる結合が行なわれる。
N)の神経回路方程式(以下、3LNN方程式という)
について説明する。
(7) で与えられる。
表わし、f(x)は数19の式(8) で与えられるSigmoid 関
数を表わしている。また数20は数21の式(9) で表わ
され、g(u)は数22に示す式(10)、(11)で与えられる。
切に選択される正の定数である。
示す神経活性度は、数24の類似度入力とともに数25
で示す近傍の神経活性度の影響をも受ける。式(11)にお
いて、右辺の第2項は入力項、第3項は競合項、第4項
は協調項である。この第2項は、第uフレームにおける
ある音素/a/ に対する入力データの類似度を表わす。ま
た第3項は、数26で示す他の音素の活性度との競合を
表わし、第4項は、同一音素についての近接フレームか
らの協調を表わす。
は、a ′≠a の制限のもとで、 a−as <= a′<=a+as として定義される不同検索範囲を網羅する。また式(11)
の第4項中の数28に示す加算指標は、u′≠u の制限
のもとで、 u−l<= u′<=u+l として定義される協調範囲を網羅する。
9の平衡解を考慮すると、式(10)、(11)は次の数30の
ように書き替えられる。
g(α) + g (ξ))のグラフであり、(a)〜(d)は、
数31を正の大きい値4から正の小さい値1.3 まで変化
させたときのものを順に示す。
で与えられる。図6において、上記数31の値が(a)
の4から(d)の1.3 まで減少するならば、(c)の値
に達するまで解はほぼ数32の値を維持する。これとは
反対に、数31の値が(d)から(a)に増加するなら
ば、(b)の値に達するまで解はほぼ数33の値に維持
される。
る。 αの値が大きい場合、ξは比較的大きい値(ほぼ
1)をとり、αの値が小さい場合は、ξは小さい値(ほ
ぼ0)をとる。 αが増加するか減少するかにしたがって、解のξは
異なるパスをとる。これは、ヒステリシス現象の存在を
示唆している。
(b)と(c)の間に、安定でない第3の解が存在す
る。 (3LNN方程式による音韻認識処理)
素について学習データの各音素との間で類似度計算を行
なった結果の候補のベスト5の類似度マップを示す。こ
こでは、音素/n/,/m/,/o/,/g/,/w/ がベスト5として選
択された。これらのデータが、3LNN方程式に入力さ
れて、フレームごとに唯一の音素のξのみが勝利を収め
る勝者決定の処理が行なわれる。表2は、その処理結果
を例示したものである。
素/n/ のみが正の大きい値をとって他の音素ではほぼ0
となることから/n/ が勝者となり、一方、フレーム12
〜15では音素/m/ のみが正の大きい値をとって他はほ
ぼ0であるから/m/ が勝者となっている。そこで、全フ
レームの平均あるいは頻度から、/n/ を音韻認識結果と
して出力する。
の動的な理解を得るには、αの典型的な値に応じて変わ
るSigmoid 関数の形に注目するのがよい。また3LNN
方程式の安定解は、ほぼ1の大きい値か、ほぼ0の小さ
い値かのどちらかだけを与える式(12)によって決定され
るから、すべてのξに対して、初期値として0.5 を設定
した。
ップが入力されるときの、音素/n/,/m/,/o/,/g/,/w/ に
対する第5フレームにおけるαとξの時間変化特性を示
す。最初に、入力された各音素の類似度データλが異な
っている場合、音素間の差だけがαから3LNN方程式
中に導入される。音素/m/,/o/,/g/,/w/ についてのξ
は、α<0に対するSigmoid 関数形に基づいて、図8に
示すように減少し始める。これに対して、もっとも大き
いλを持つ音素/n/ に対するαは、競合項の値の増加に
つれて正の値をとりはじめる。αn が正になると、活性
度ξn は図8に示すように、Sigmoid 関数形にしたがっ
て増加に転じる。この段階になると、αnの協調項がα
n の立ち上がりを助け、ξn の増加を加速することが注
目される。一方、他の各音素のαは、ξn の増加に基づ
き競合項の値が増加するため減少し始める。 (認識実験例)学習データから各音素についてのガウス
確率分布関数(pdf)を作成するために、10人の男
性話者によって話された4000語からなるATRデー
タと、6人の男性話者によって話された500の文のA
SJデータとから、あらかじめラベル付けされている音
素を抽出した。また認識実験のための入力音声データ
は、二つの種類で構成された。その一つは、216語の
データベースからのものであり、他の一つは、3人の異
なる男性話者によって話された240語の一つからのも
のである。音声データは、次のようにして解析された。
ルとの性能を比較するため、同じデータベースを使用
し、単一の混合と三つの状態をもつヒドンマルコフモデ
ル(HMM)により音韻認識実験が行なわれた。認識テ
ストは、表3に示すように、10次元のMFCCと、そ
の速度成分の10次元のデルタMFCCを使用して実行
された。学習データの各音素のケプストラムデータは、
フレームの中間位置の前半と後半に分けて別々にガウス
pdfを作成された。入力音声データも前半と後半に分
割され、学習データの前半と後半のガウスpdfの対応
部分と別々に比較され、類似度マップが作成された。音
素の種類は24あるが、それらの類似度データの上位5
つの候補が、3LNN方程式に適用された。表4と表5
に、音韻認識結果を示す。非特定話者認識のときの認識
率は、216 語データベースの場合、HMMでは71.56 %
であったのに対して3LNNでは78.05 %が得られた。
また240 語データベースの場合は、HMMでは72.37 %
であったのに対して3LNNでは78.94 %が得られた。
方程式 図9は、2層構造のステレオビジョン神経回路方程式に
よる神経回路(TwoLayered Neural Net:2LNN) モ
デルを示したものである。図示の神経回路モデルは、入
力層V1 と出力層V2 の2層からなり、各層には、複数
のセル(ニューロン)が2次元配列されている。2次元
配列の横の各セル行は順次のフレームに対応付けられて
おり、縦の各セル列は異なる音素の種類に対応付けられ
ている。入力層と出力層の各セルの活性度は、それぞれ
数34のように表される。
データが入力される。また各層のセルには、図中に矢線
で例示されるような、2LNN方程式の競合項と協調項
に基づく結合が, 3LNNについて図5で述べたように
設けられている。
N)の神経回路方程式(以下、2LNN方程式という)
について説明する。
(13)および式(14)で与えられる。
表わし、f(x)は数36中の式 (14)で与えられるSigmoid
関数を表わしている。また数38は数3 6 中の式(15)
で表わされ、g(u)は数36中の式(16)で与えられる。
切に選択される正の定数である。
示す神経活性度は、数35の類似度入力とともに数25
で示す近傍の神経活性度の影響をも受ける。数36中の
式(15)において、右辺の第2項は入力項、第3項は競合
項、第4項は協調項である。この第2項は、第uフレー
ムにおけるある音素/a/ に対する入力データの類似度を
表わす。また第3項は、数39で示す他の音素の活性度
との競合を表わし、第4項は、同一音素についての近接
フレームからの協調を表わす。
標は、a ′≠a の制限のもとで、 a−as <= a′<=a+as として定義される不同検索範囲を網羅する。また式(15)
の第4項中の数41に示す加算指標は、u ′≠u の制限
のもとで、 u−l<= u′<=u+l として定義される協調範囲を網羅する。
2の平衡解を考慮すると、式(15)、(16)は次の数43の
式(17)および数44の式(18)のように書き替えられる。
えられるSigmoid 関数により、数38で示す神経活性度に
対する競合と協調の効果によって、直接的に数37に対
して勝者と敗者の決定が下される仕組みとなっている。
すなわち、数38で示す神経活性度の大きな値に対して
は1に近い数37の出力を与え、数38で示す神経活性
度の小さな値に対しては0に近い小さな数37の出力を
与える。
方程式の場合と同様に、HMMに比べて高い音韻認識率
を得ることができる。
その要素となっている各音素の種類を識別して音声を認
識する手段として、脳の立体視にかかわる神経回路モデ
ルを適用することにより、認識率の向上を図っている。
従来は、ヒドンマルコフモデル(HMM)を基本とし
て、それを補強するようなモデルが一般に用いられてき
たが、ヒドンマルコフモデルでは、技術的限界が見えて
いた。本発明によるステレオビジョン神経回路モデル
は、ヒドンマルコフモデルとは根本的に異なる考え方に
基づいており、音韻認識率を著しく改善することができ
た。この本発明のモデルを連続的な単語認識や文認識に
適用することにより、音声認識の飛躍的向上が期待され
る。
である。
関数波形の例のグラフである。
である。
ータ間の協調の説明図である。
グラフである。
である。
ある。
Claims (12)
- 【請求項1】 連続して入力された音声からフレームご
とに抽出した音響パラメータからなる入力データと、あ
らかじめ学習されている複数の音素の音響パラメータか
らなる基準の学習データとの間でフレームごとに各音素
に対する類似度を計算し、得られた入力データのフレー
ムごとの類似度データに基づいて音韻認識処理を行う音
声認識方法において、 上記音韻認識処理は神経回路モデルを用いて行われ、該
神経回路モデルでは、出力層における各音素対応のセル
の活性度は、他の音素対応のセルの活性度に応じて抑制
を受け、また近接フレームの同一音素の活性度に応じて
協調を受けるように処理されることを特徴とする音声認
識方法。 - 【請求項2】 請求項1において、神経回路方程式は、
競合項と協調項とを含むステレオビジョン神経回路方程
式あるいはそれに類似のものであることを特徴とする音
声認識方法。 - 【請求項3】 請求項1において、神経回路モデルは、
結合パターン認識方程式構造をもつことを特徴とする音
声認識方法。 - 【請求項4】 請求項1において、神経回路モデルは、
3層構造をもつことを特徴とする音声認識方法。 - 【請求項5】 請求項1において、神経回路モデルは、
2層構造をもつことを特徴とする音声認識方法。 - 【請求項6】 請求項1において、各音素の学習データ
は、ガウス確率分布関数で標準化して保持されているこ
とを特徴とする音声認識方法。 - 【請求項7】 連続して入力された音声からフレームご
とに抽出した音響パラメータからなる入力データと、あ
らかじめ学習されている複数の音素の音響パラメータか
らなる基準の学習データとの間でフレームごとに各音素
に対する類似度を計算する類似度計算手段と、得られた
入力データのフレームごとの類似度データに基づいて音
韻認識を行なう音韻認識手段とを備えた音声認識装置に
おいて、 上記音韻認識手段は、神経回路モデルを有し、該神経回
路モデルは、出力層における各音素対応のセルの活性度
が、他の音素対応のセルの活性度に応じて抑制され、ま
た近接フレームの同一音素の活性度に応じて強調される
ように構成されていることを特徴とする音声認識装置。 - 【請求項8】 請求項7において、神経回路方程式は、
競合項と協調項とを含むステレオビジョン神経回路方程
式あるいはそれに類似のものであることを特徴とする音
声認識装置。 - 【請求項9】 請求項7において、神経回路モデルは、
結合パターン認識方程式構造をもつことを特徴とする音
声認識装置。 - 【請求項10】 請求項7において、神経回路モデル
は、3層構造をもつものであることを特徴とする音声認
識装置。 - 【請求項11】 請求項7において、神経回路モデル
は、2層構造をもつものであることを特徴とする音声認
識装置。 - 【請求項12】 請求項7において、各音素の学習デー
タは、ガウス確率分布関数で標準化して保持されている
ことを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15028499A JP4028136B2 (ja) | 1999-05-28 | 1999-05-28 | 音声認識方法および装置 |
US09/580,449 US6947890B1 (en) | 1999-05-28 | 2000-05-30 | Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15028499A JP4028136B2 (ja) | 1999-05-28 | 1999-05-28 | 音声認識方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000338989A true JP2000338989A (ja) | 2000-12-08 |
JP2000338989A5 JP2000338989A5 (ja) | 2005-08-18 |
JP4028136B2 JP4028136B2 (ja) | 2007-12-26 |
Family
ID=15493623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15028499A Expired - Fee Related JP4028136B2 (ja) | 1999-05-28 | 1999-05-28 | 音声認識方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4028136B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133411A (ja) * | 2005-11-12 | 2007-05-31 | Sony Computer Entertainment Inc | ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置 |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
-
1999
- 1999-05-28 JP JP15028499A patent/JP4028136B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133411A (ja) * | 2005-11-12 | 2007-05-31 | Sony Computer Entertainment Inc | ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置 |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
CN111862954B (zh) * | 2020-05-29 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4028136B2 (ja) | 2007-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shor et al. | Personalizing ASR for dysarthric and accented speech with limited data | |
Venkataramanan et al. | Emotion recognition from speech | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN104575490B (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
WO2014062521A1 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
Abro et al. | Qur'an recognition for the purpose of memorisation using Speech Recognition technique | |
Coto-Jiménez et al. | LSTM deep neural networks postfiltering for enhancing synthetic voices | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
WO2021171956A1 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
US6947890B1 (en) | Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation | |
Kalinli | Analysis of Multi-Lingual Emotion Recognition Using Auditory Attention Features. | |
Terbeh et al. | Arabic speech analysis to identify factors posing pronunciation disorders and to assist learners with vocal disabilities | |
Bera et al. | Identification of mental state through speech using a deep learning approach | |
JP4028136B2 (ja) | 音声認識方法および装置 | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050128 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131019 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |