JPH0642159B2 - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JPH0642159B2 JPH0642159B2 JP1259359A JP25935989A JPH0642159B2 JP H0642159 B2 JPH0642159 B2 JP H0642159B2 JP 1259359 A JP1259359 A JP 1259359A JP 25935989 A JP25935989 A JP 25935989A JP H0642159 B2 JPH0642159 B2 JP H0642159B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- spotting
- context
- free grammar
- parser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 [産業上の利用分野] この発明は連続音声認識装置に関し、特に、連続的に発
生された音声をニューラルネットワークを用いて認識す
るような連続音声認識装置に関する。
生された音声をニューラルネットワークを用いて認識す
るような連続音声認識装置に関する。
[従来の技術および発明が解決しようとする課題] 従来、連続的に発声された音声の認識を行なう場合に
は、まず連続音声中の音韻のセグメントテーションを行
い、次にセグメントテーションされた音声を認識する方
法が一般的に採用されている。また、従来の方式では、
高精度の音韻のセグメンテーション方式と、音韻認識方
式とを確立することが難しく、認識された音韻は暖昧な
「音韻ラティス」の形式で一旦出力された後、辞書など
の情報からトップダウン的に発声内容の同定を行なうの
が通常である。
は、まず連続音声中の音韻のセグメントテーションを行
い、次にセグメントテーションされた音声を認識する方
法が一般的に採用されている。また、従来の方式では、
高精度の音韻のセグメンテーション方式と、音韻認識方
式とを確立することが難しく、認識された音韻は暖昧な
「音韻ラティス」の形式で一旦出力された後、辞書など
の情報からトップダウン的に発声内容の同定を行なうの
が通常である。
しかしながら、このような方式では、認識システムが複
雑になるばかりではなく、高精度な連続音声認識システ
ムを構築することが困難であるという問題点があった。
雑になるばかりではなく、高精度な連続音声認識システ
ムを構築することが困難であるという問題点があった。
それゆえに、この発明の主たる目的は、ニューラルネッ
トワークを用いた音韻スポッティング技術により得られ
た連続音声中の音韻スポッティング結果と、拡張LRパ
ーザによって予測された音韻とを動的計画法「Dyna
mic Time−Wraping Matchin
g」によって統合し、高精度な連続音声認識システムを
構築できるような連続音声認識装置を提供することであ
る。
トワークを用いた音韻スポッティング技術により得られ
た連続音声中の音韻スポッティング結果と、拡張LRパ
ーザによって予測された音韻とを動的計画法「Dyna
mic Time−Wraping Matchin
g」によって統合し、高精度な連続音声認識システムを
構築できるような連続音声認識装置を提供することであ
る。
[課題を解決するための手段] この発明は連続音声認識装置であって、連続的に発声さ
れた入力音声を分析し、特徴パラメータの時系列に変換
する音声分析手段と、音声分析手段によって変換された
特徴パラメータを用いて、時間遅れニューラルネットワ
ークによって連続音声中の音韻をスポッティングする音
韻スポッティング手段と、文脈自由文法を予め格納する
文脈自由文法格納手段と、格納されている文脈自由文法
に従って構文解析法を用いて音韻を予測する音韻予測手
段と、音韻スポッティング結果と予測された音韻とを動
的計画法を用いて検証する音韻認識結果検証手段とを備
えて構成される。
れた入力音声を分析し、特徴パラメータの時系列に変換
する音声分析手段と、音声分析手段によって変換された
特徴パラメータを用いて、時間遅れニューラルネットワ
ークによって連続音声中の音韻をスポッティングする音
韻スポッティング手段と、文脈自由文法を予め格納する
文脈自由文法格納手段と、格納されている文脈自由文法
に従って構文解析法を用いて音韻を予測する音韻予測手
段と、音韻スポッティング結果と予測された音韻とを動
的計画法を用いて検証する音韻認識結果検証手段とを備
えて構成される。
[作用] この発明に係る連続音声認識装置は、入力音声を分析す
ることによって得られた特徴パラメータを用いて時間遅
れニューラルネットワーク(TDNN:Time−De
lay Neural Network)によって連続
音声中の音韻をスポッティングするとともに、予め格納
されている文脈自由文法に従って構文解析法を用いて音
韻を予測し、音韻スポッティング結果と予測された音韻
とを動的計画法を用いて検証する。
ることによって得られた特徴パラメータを用いて時間遅
れニューラルネットワーク(TDNN:Time−De
lay Neural Network)によって連続
音声中の音韻をスポッティングするとともに、予め格納
されている文脈自由文法に従って構文解析法を用いて音
韻を予測し、音韻スポッティング結果と予測された音韻
とを動的計画法を用いて検証する。
[発明の実施例] 第1図はこの発明の一実施例における時間遅れ神経回路
網を示すブロック図である。第1図を参照して、入力層
11には連続音声が入力され、この連続音声は中間層と
してのサブネットワーク12ないし20に与えられる。
これらのサブネットワーク12〜20のうち、サブネッ
トワーク12〜17および19は日本語の全音韻の24
種類(b,d,g,p,t,k,m,n,N,s,s
h,h,z,ch,ts,r,w,y,a,i,u,
e,o,Q(無音))をスポッティングする。
網を示すブロック図である。第1図を参照して、入力層
11には連続音声が入力され、この連続音声は中間層と
してのサブネットワーク12ないし20に与えられる。
これらのサブネットワーク12〜20のうち、サブネッ
トワーク12〜17および19は日本語の全音韻の24
種類(b,d,g,p,t,k,m,n,N,s,s
h,h,z,ch,ts,r,w,y,a,i,u,
e,o,Q(無音))をスポッティングする。
すなわち、サブネットワーク12は3つの音韻b,d,
gを識別し、ネットワーク13はp,t,kを識別し、
サブネットワーク14はm,n,Nを識別し、サブネッ
トワーク15はs,sh,h,zを識別し、サブネット
ワーク16はch,tsを識別し、サブネットワーク1
7はr,w,yを識別し、サブネットワーク19はa,
i,u,e,oを識別する。サブネットワーク18はサ
ブネットワーク12〜17までの6つの音韻グループ間
を識別し、サブネットワーク20は音声であるかあるい
は無音であるかを識別する。
gを識別し、ネットワーク13はp,t,kを識別し、
サブネットワーク14はm,n,Nを識別し、サブネッ
トワーク15はs,sh,h,zを識別し、サブネット
ワーク16はch,tsを識別し、サブネットワーク1
7はr,w,yを識別し、サブネットワーク19はa,
i,u,e,oを識別する。サブネットワーク18はサ
ブネットワーク12〜17までの6つの音韻グループ間
を識別し、サブネットワーク20は音声であるかあるい
は無音であるかを識別する。
これらのサブネットワーク12〜20は統合ネットワー
ク21によって統合され、スポッティングされた24音
韻は出力層22に出力される。なお、ネットワークの学
習は、誤差逆伝搬法(Error Back−Prop
agation)[2]に従って行なわれる。この方法
は評価関数である誤差を特徴空間において、局所的に最
急降下法に基づいて逐次減少させていく方法である。
ク21によって統合され、スポッティングされた24音
韻は出力層22に出力される。なお、ネットワークの学
習は、誤差逆伝搬法(Error Back−Prop
agation)[2]に従って行なわれる。この方法
は評価関数である誤差を特徴空間において、局所的に最
急降下法に基づいて逐次減少させていく方法である。
第2図はこの発明の一実施例における連続音声中の音韻
をスポッティングする方法を説明するための図である。
第2図を参照して、入力データとして入力音声11aが
与えられる。第2図においては、縦軸が周波数を表わ
し、横軸が時間を表わしている。入力音声11aは第1
図に示したニューラルネットワークの入力層11に与え
られ、音韻のスポッティングは第1図のネットワークを
1フレームずつ時間方向に走査することによって行なわ
れる。1フレームシフトするごとに、24音韻のうちの
いずれかの音韻スポッティング結果が出力層22から出
力される。なお、第1図に示したネットワークのうちの
中間層12〜21は省略している。この第2図に示した
方法は、従来の方法のように音韻のセグメンテーション
を必要としない極めて簡易で優れた方法である。
をスポッティングする方法を説明するための図である。
第2図を参照して、入力データとして入力音声11aが
与えられる。第2図においては、縦軸が周波数を表わ
し、横軸が時間を表わしている。入力音声11aは第1
図に示したニューラルネットワークの入力層11に与え
られ、音韻のスポッティングは第1図のネットワークを
1フレームずつ時間方向に走査することによって行なわ
れる。1フレームシフトするごとに、24音韻のうちの
いずれかの音韻スポッティング結果が出力層22から出
力される。なお、第1図に示したネットワークのうちの
中間層12〜21は省略している。この第2図に示した
方法は、従来の方法のように音韻のセグメンテーション
を必要としない極めて簡易で優れた方法である。
第3図はTDNN−LR法の認識システムの構成を示す
ブロック図である。第3図を参照して、入力された音声
1は周波数分析され、FFT出力のような特徴パラメー
タの時系列の形式にされて時間遅れ神経回路網2に与え
られる。時間時れ神経回路網2は第1図で説明したよう
に、24音韻のスポッティング結果を出力する。
ブロック図である。第3図を参照して、入力された音声
1は周波数分析され、FFT出力のような特徴パラメー
タの時系列の形式にされて時間遅れ神経回路網2に与え
られる。時間時れ神経回路網2は第1図で説明したよう
に、24音韻のスポッティング結果を出力する。
一方、文脈自由文法格納部4には文脈自由文法が格納さ
れていて、この文脈自由文法に従ってLRテーブル生成
器5によってLRテーブル6が生成される。LRパーザ
7はLRテーブル6を参照しながら文法上許される音韻
系列を予測する。予測音韻格納部8は予測された音声系
列を予め格納しており、音韻検証部3は予測音韻格納部
8に格納されている予測された音韻系列と、時間遅れ神
経回路網2で得られた音韻のスポッティング結果とをD
TWマッチングを用いて検証を行なう。検証された音韻
系列のうち、最大尤度をとる系列を認識結果として、認
識結果出力部9に出力する。
れていて、この文脈自由文法に従ってLRテーブル生成
器5によってLRテーブル6が生成される。LRパーザ
7はLRテーブル6を参照しながら文法上許される音韻
系列を予測する。予測音韻格納部8は予測された音声系
列を予め格納しており、音韻検証部3は予測音韻格納部
8に格納されている予測された音韻系列と、時間遅れ神
経回路網2で得られた音韻のスポッティング結果とをD
TWマッチングを用いて検証を行なう。検証された音韻
系列のうち、最大尤度をとる系列を認識結果として、認
識結果出力部9に出力する。
ここで、LRパーザ7による音韻予測法について簡単に
説明する。LRパーザ7は文脈自由文法の中で、LR文
法という限定された文法から生成される文法を解析す
る。このパーザは入力信号を受付けながらバックトラッ
クなどに決定的に構文を解析できる。LRパーザ7は動
作表と行先表という2種類の表を見ながら解析を行う。
動作表は次にパーザが行なう動作を示す表であり、行先
表は次にパーザがとる状態を示す表である。パーザの動
作には、次の4種類がある。
説明する。LRパーザ7は文脈自由文法の中で、LR文
法という限定された文法から生成される文法を解析す
る。このパーザは入力信号を受付けながらバックトラッ
クなどに決定的に構文を解析できる。LRパーザ7は動
作表と行先表という2種類の表を見ながら解析を行う。
動作表は次にパーザが行なう動作を示す表であり、行先
表は次にパーザがとる状態を示す表である。パーザの動
作には、次の4種類がある。
移動(shift) 還元(reduce) 受理(accept) 誤り(error) 移動はパーザの状態をスタックに積む動作であり、
還元はスタック上の記号を文法規則に従ってまとめるも
のである。受理は入力文章がLRパーザで解析できた
ことを示し、誤りは解析できなかったことを示す。
還元はスタック上の記号を文法規則に従ってまとめるも
のである。受理は入力文章がLRパーザで解析できた
ことを示し、誤りは解析できなかったことを示す。
次に、解析の手順を示す。
「定義」 s:パーザの状態 a:文法記号(非終端,終端記号) 入力ポインタ:現在処理中の入力記号列を示す。
状態スタック:パーザの状態を保存する。
GOTO(s,a):状態sと文法記号aから次の状態
を求める。
を求める。
ACTION(s,a):状態sと文法記号aからパー
ザの動作を求める。
ザの動作を求める。
「アルゴリズム」 初期化:入力ポインタを入力記号列の先頭に位置づ
ける。状態スタックに0をプツシュする。
ける。状態スタックに0をプツシュする。
現在の状態sと入力ポインタの示す記号aからAC
TION(s,a)を調べる。
TION(s,a)を調べる。
ACTION(s,a)=“shift”ならばG
OTO(s,a)を状態スタックにプッシュし、入力ポ
インタを1つ進める。
OTO(s,a)を状態スタックにプッシュし、入力ポ
インタを1つ進める。
ACTION(s,a)=“reduce,n”な
らば、n番目の文法規則の右辺にある文法記号の数だけ
スタックの状態をポップする。スタック最上段の状態
s′とすると、s′とn番目の文法規則左辺にある文法
規則Aから、次の状態GOTO(s′A)を求め、スタ
ックにプッシュする。
らば、n番目の文法規則の右辺にある文法記号の数だけ
スタックの状態をポップする。スタック最上段の状態
s′とすると、s′とn番目の文法規則左辺にある文法
規則Aから、次の状態GOTO(s′A)を求め、スタ
ックにプッシュする。
ACTION(s,a)=“accept”ならば
解析終了。
解析終了。
ACTION(s,a)=“error”ならば解
析失敗。
析失敗。
に戻る。
拡張LRパーザは、LRパーザでは対処できなかった暖
昧な構文を解析できるようにしたものである。拡張LR
パーザでは、動作表に複数の項目を記述する。パーザが
この複数の項目の表を調べた場合には並列動作を行な
う。このようにして決定的な構文の解析を行なう。
昧な構文を解析できるようにしたものである。拡張LR
パーザでは、動作表に複数の項目を記述する。パーザが
この複数の項目の表を調べた場合には並列動作を行な
う。このようにして決定的な構文の解析を行なう。
第4図は音韻スポッティング結果の一例を示す図であ
る。この第4図に示した例は、「会議に」と発声した場
合であり、入力音声のスペクトログラム11bと音韻ス
ポッティング結果22aとを示す。入力音声と音韻スポ
ッティング結果には、結果の妥当性を検証するために、
予め視察により音韻ラベルが付与されている。第4図に
おいて、黒い四角は出力が活性化したことを表わしてい
る。
る。この第4図に示した例は、「会議に」と発声した場
合であり、入力音声のスペクトログラム11bと音韻ス
ポッティング結果22aとを示す。入力音声と音韻スポ
ッティング結果には、結果の妥当性を検証するために、
予め視察により音韻ラベルが付与されている。第4図に
おいて、黒い四角は出力が活性化したことを表わしてい
る。
第5図は第3図に示した音韻認識結果検証部3における
動作を示すための図であり、音韻スポッティング結果2
2とDPマッチングパス31とLRパーザによって予測
された音韻の系列32とを示している。第5図では、/
kaigini/と発声された入力音声が、予測音韻の
系列32と音韻スポッティング結果22との間でDPマ
ッチングパス31によって整合されていることがわか
る。
動作を示すための図であり、音韻スポッティング結果2
2とDPマッチングパス31とLRパーザによって予測
された音韻の系列32とを示している。第5図では、/
kaigini/と発声された入力音声が、予測音韻の
系列32と音韻スポッティング結果22との間でDPマ
ッチングパス31によって整合されていることがわか
る。
「発明の効果」 以上のように、この発明によれば、入力音声を分析する
ことによって得られた特徴パラメータを用いて時間遅れ
ニューラルネットワークによって音韻をスポッティング
するとともに、予め格納されている文脈自由文法に従っ
て構文解析法を用いて音韻を予測し、音韻スポッティン
グ結果と予測された音韻とを動的計画法を用いて検証す
るようにしたので、高精度で高速に連続音声を認識する
ことができる。
ことによって得られた特徴パラメータを用いて時間遅れ
ニューラルネットワークによって音韻をスポッティング
するとともに、予め格納されている文脈自由文法に従っ
て構文解析法を用いて音韻を予測し、音韻スポッティン
グ結果と予測された音韻とを動的計画法を用いて検証す
るようにしたので、高精度で高速に連続音声を認識する
ことができる。
第1図はこの発明の一実施例に用いられる時間遅れ神経
回路網を示すブロック図である。第2図は連続音声中の
音韻をスポッティングする方法を示す図である。第3図
はTDNN−LR法による認識システムの構成を示すブ
ロック図である。第4図はこの発明の一実施例による音
韻スポッティング結果の一例を示す図である。第5図は
第3図に示した音韻認識結果検証部における動作を示す
図である。 図において、1は入力音声データ、2は音韻スポッティ
ング部、3は音韻認識結果検証部、4は文脈自由文法格
納部、5はLRテーブル生成器、6はLRテーブル、7
はLRパーザ、8は予測音韻格納部、9は認識結果出力
部、11は入力層、12〜20は中間層としてのネット
ワーク、21は統合ネットワーク、22は出力層を示
す。
回路網を示すブロック図である。第2図は連続音声中の
音韻をスポッティングする方法を示す図である。第3図
はTDNN−LR法による認識システムの構成を示すブ
ロック図である。第4図はこの発明の一実施例による音
韻スポッティング結果の一例を示す図である。第5図は
第3図に示した音韻認識結果検証部における動作を示す
図である。 図において、1は入力音声データ、2は音韻スポッティ
ング部、3は音韻認識結果検証部、4は文脈自由文法格
納部、5はLRテーブル生成器、6はLRテーブル、7
はLRパーザ、8は予測音韻格納部、9は認識結果出力
部、11は入力層、12〜20は中間層としてのネット
ワーク、21は統合ネットワーク、22は出力層を示
す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鹿野 清宏 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール自動翻 訳電話研究所内 (56)参考文献 日本音響学会講演論文集、昭和63年10 月、2−P−29、P.259−260 日本音響学会講演論文集、昭和63年10 月、2−P−11、P.223−224 日本音響学会講演論文集、平成元年3 月、2−P−24、P.277−278 電子情報通信学会技術研究報告 SP89 −32 P.63−68(1989−6−23) 電子情報通信学会論文誌 Vol.J72 −D−II No.8 P.1152−1158 (1989−8−25)
Claims (1)
- 【請求項1】連続的に発声された入力音声を分析し、特
徴パラメータの時系列に変換する分析手段、 前記分析手段によって変換された特徴パラメータを用い
て、時間遅れニューラルネットワークによって連続音声
中の音韻をスポッティングする音韻スポッティング手
段、 文脈自由文法を予め格納する文脈自由文法格納手段、 前記文脈自由文法格納手段によって格納されている文脈
自由文法に従って構文解析法を用いて音韻を予測する音
韻予測手段、および 前記音韻スポッティング手段による音韻スポッティング
結果と前記音韻予測手段によって予測された音韻とを動
的計画法を用いて検証する音韻認識結果検証手段とを備
えた、連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1259359A JPH0642159B2 (ja) | 1989-10-03 | 1989-10-03 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1259359A JPH0642159B2 (ja) | 1989-10-03 | 1989-10-03 | 連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03120600A JPH03120600A (ja) | 1991-05-22 |
JPH0642159B2 true JPH0642159B2 (ja) | 1994-06-01 |
Family
ID=17333021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1259359A Expired - Fee Related JPH0642159B2 (ja) | 1989-10-03 | 1989-10-03 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0642159B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
EP3267438B1 (en) * | 2016-07-05 | 2020-11-25 | Nxp B.V. | Speaker authentication with artificial neural networks |
-
1989
- 1989-10-03 JP JP1259359A patent/JPH0642159B2/ja not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
日本音響学会講演論文集、平成元年3月、2−P−24、P.277−278 |
日本音響学会講演論文集、昭和63年10月、2−P−11、P.223−224 |
日本音響学会講演論文集、昭和63年10月、2−P−29、P.259−260 |
電子情報通信学会技術研究報告SP89−32P.63−68(1989−6−23) |
電子情報通信学会論文誌Vol.J72−D−IINo.8P.1152−1158(1989−8−25) |
Also Published As
Publication number | Publication date |
---|---|
JPH03120600A (ja) | 1991-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hori et al. | Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition | |
US20040220809A1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
US20060009965A1 (en) | Method and apparatus for distribution-based language model adaptation | |
JP2004271764A (ja) | 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置 | |
US6662159B2 (en) | Recognizing speech data using a state transition model | |
EP1475779B1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Veilleux et al. | Markov modeling of prosodic phrase structure | |
Nakagawa | Speaker-independent continuous-speech recognition by phoneme-based word spotting and time-synchronous context-free parsing | |
JPH0642159B2 (ja) | 連続音声認識装置 | |
Nakagawa | Spoken sentence recognition by time-synchronous parsing algorithm of context-free grammar | |
JP2871557B2 (ja) | 音声認識装置 | |
JP2871420B2 (ja) | 音声対話システム | |
JP3027557B2 (ja) | 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
Ringger | A robust loose coupling for speech recognition and natural language understanding | |
Nakagawa et al. | Spoken language identification by ergodic HMMs and its state sequences | |
Huang et al. | The use of tree-trellis search for large-vocabulary Mandarin polysyllabic word speech recognition | |
JP2001013992A (ja) | 音声理解装置 | |
Brenner et al. | Word recognition in continuous speech using a phonological based two-network matching parser and a synthesis based prediction | |
Nakagawa et al. | On quick word spotting techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |