JP3293191B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3293191B2 JP3293191B2 JP26451792A JP26451792A JP3293191B2 JP 3293191 B2 JP3293191 B2 JP 3293191B2 JP 26451792 A JP26451792 A JP 26451792A JP 26451792 A JP26451792 A JP 26451792A JP 3293191 B2 JP3293191 B2 JP 3293191B2
- Authority
- JP
- Japan
- Prior art keywords
- duration
- unit
- speech
- voice
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
ものである。
【0002】
【従来の技術】近年、音声認識技術の発達と共に、音
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識(連続音声認識
という)装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現していた。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識(連続音声認識
という)装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現していた。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。
【0003】その1つに、音声の継続時間情報を利用し
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
(以後認識区間という)に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
(以後認識区間という)に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。
【0004】以下,図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。
【0005】図6は、従来の単語音声認識装置のブロッ
ク図である。1は音声入力端子,2は分析部、3は音声
区間検出部、4は次音節候補予測、41は照合部、7は
認識結果出力端子、8は標準音声スヘ゜クトル算出部、42は
標準音声継続時間算出部、13は標準音声保管バッフ
ァ、44は標準音声継続時間保管バッファ、11は文法
規則バッファ、43は入力音声保管バッファ、15はス
イッチである。
ク図である。1は音声入力端子,2は分析部、3は音声
区間検出部、4は次音節候補予測、41は照合部、7は
認識結果出力端子、8は標準音声スヘ゜クトル算出部、42は
標準音声継続時間算出部、13は標準音声保管バッフ
ァ、44は標準音声継続時間保管バッファ、11は文法
規則バッファ、43は入力音声保管バッファ、15はス
イッチである。
【0006】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
れば所定の単位時間(以後フレームという)に所定の個
数を1組としたLPCケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に標準音声スペ
クトル算出部8で、音節毎に分析されたデータをクラス
タリングし、各クラスタの中心データを標準音声保管バ
ッファ12に保管する。また標準音声継続時間算出部4
2で、学習音声の継続時間をフレーム単位で音節毎に集
計し、標準音声継続時間保管バッファ44に保管する。
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
れば所定の単位時間(以後フレームという)に所定の個
数を1組としたLPCケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に標準音声スペ
クトル算出部8で、音節毎に分析されたデータをクラス
タリングし、各クラスタの中心データを標準音声保管バ
ッファ12に保管する。また標準音声継続時間算出部4
2で、学習音声の継続時間をフレーム単位で音節毎に集
計し、標準音声継続時間保管バッファ44に保管する。
【0007】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0008】次に次音節候補予測部4で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファには、認識される全単語の辞書と、認識さ
れるべき全文章についての単語間の連結構造を階層的に
記載してある。この記載内容は、たとえば一例をあげる
と図7の通りである。時間軸に沿って認識処理を行う場
合、上記文法規則により、前に認識されたフレームの音
節候補と隣接する可能性のある音節を次音節候補とす
る。次に照合部101で、左記にて選択された音節候補
の標準音声と入力音声との照合を行う。照合は、学習時
に集計した音節毎の継続時間の最大値と最小値との間を
音節の照合範囲と限定して、(数3)の左辺Dを最小と
するフレームmと音節nを求める。(数3)の左辺の距
離値Dを小さくする上位m個の音節候補を認識結果とし
て、距離値Dと共に入力音声保管バッファ53に保管す
る。この保管結果は、次の音節候補を予測する際に用い
る。
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファには、認識される全単語の辞書と、認識さ
れるべき全文章についての単語間の連結構造を階層的に
記載してある。この記載内容は、たとえば一例をあげる
と図7の通りである。時間軸に沿って認識処理を行う場
合、上記文法規則により、前に認識されたフレームの音
節候補と隣接する可能性のある音節を次音節候補とす
る。次に照合部101で、左記にて選択された音節候補
の標準音声と入力音声との照合を行う。照合は、学習時
に集計した音節毎の継続時間の最大値と最小値との間を
音節の照合範囲と限定して、(数3)の左辺Dを最小と
するフレームmと音節nを求める。(数3)の左辺の距
離値Dを小さくする上位m個の音節候補を認識結果とし
て、距離値Dと共に入力音声保管バッファ53に保管す
る。この保管結果は、次の音節候補を予測する際に用い
る。
【0009】
【数3】
【0010】次音節候補予測と照合処理を音声区間の始
端から終端まで行い、スコアーの値が最大となる音節候
補列を最終認識結果として、認識結果出力端子7より出
力する。なおスイッチ15は、学習時には標準音声スペ
クトル算出部8に、認識時には音声区間検出部3に特徴
パラメータを出力するように動作する。
端から終端まで行い、スコアーの値が最大となる音節候
補列を最終認識結果として、認識結果出力端子7より出
力する。なおスイッチ15は、学習時には標準音声スペ
クトル算出部8に、認識時には音声区間検出部3に特徴
パラメータを出力するように動作する。
【0011】
【発明が解決しようとする課題】しかしながら上記のよ
うな構成では、各音節の継続時間を継続時間の絶対値で
制御しているため、入力音声と標準音声との発声速度が
異なる場合、誤った継続時間を設定してしまう。また、
あらゆる発声速度に対応するためには、あらゆる発声速
度を含む制御が必要となり、処理効率が悪く、また学習
音声も膨大となる。
うな構成では、各音節の継続時間を継続時間の絶対値で
制御しているため、入力音声と標準音声との発声速度が
異なる場合、誤った継続時間を設定してしまう。また、
あらゆる発声速度に対応するためには、あらゆる発声速
度を含む制御が必要となり、処理効率が悪く、また学習
音声も膨大となる。
【0012】また、上記のような構成では、継続時間制
御を音節毎に閉じて行っているため、隣接する音節の継
続時間の差が非現実的に大きい場合でも、スコアーさえ
大きければ、認識候補として成立してしまうという課題
を有していた。
御を音節毎に閉じて行っているため、隣接する音節の継
続時間の差が非現実的に大きい場合でも、スコアーさえ
大きければ、認識候補として成立してしまうという課題
を有していた。
【0013】
【課題を解決するための手段】本発明は、上記課題に鑑
み、入力音声継続時間情報を、継続時間を左右する単数
または複数の要因毎に分類された標標準音声継続時間情
報にて正規化した値を予測値とする数1にて継続時間を
予測し、この予測値を用いて継続時間を制御しているた
め、入力音声と標準音声との発声速度が異なっても、継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。
み、入力音声継続時間情報を、継続時間を左右する単数
または複数の要因毎に分類された標標準音声継続時間情
報にて正規化した値を予測値とする数1にて継続時間を
予測し、この予測値を用いて継続時間を制御しているた
め、入力音声と標準音声との発声速度が異なっても、継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。
【0014】
【作用】この構成によって、同入力音声内の認識単位毎
の継続時間の差が現実的な場合のみ、認識候補として成
立させることが可能となり、より高性能な装置の実現が
可能となる。
の継続時間の差が現実的な場合のみ、認識候補として成
立させることが可能となり、より高性能な装置の実現が
可能となる。
【0015】
【実施例】請求項1に記載の発明の一実施例について図
を参照しながら説明する。図1は請求項1の一実施例に
おける音声認識装置のブロック図である。1は音声入力
端子,2は分析部、3は音声区間検出部、4は次音節候
補予測部、5は継続時間予測部、6は照合部、7は認識
結果出力端子、8は標準音声スペクトル算出部、9は標
準音声分類部、10は標準音声平均継続時間算出部、1
1は文法規則バッファ、12は入力音声継続時間保管バ
ッファ、13は標準音声保管ハ゛ッファ、 14は標準音声
継続時間保管バッファ、15はスイッチである。前記従
来例と同じものは,同一の番号を付与している。
を参照しながら説明する。図1は請求項1の一実施例に
おける音声認識装置のブロック図である。1は音声入力
端子,2は分析部、3は音声区間検出部、4は次音節候
補予測部、5は継続時間予測部、6は照合部、7は認識
結果出力端子、8は標準音声スペクトル算出部、9は標
準音声分類部、10は標準音声平均継続時間算出部、1
1は文法規則バッファ、12は入力音声継続時間保管バ
ッファ、13は標準音声保管ハ゛ッファ、 14は標準音声
継続時間保管バッファ、15はスイッチである。前記従
来例と同じものは,同一の番号を付与している。
【0016】また、図2は上記継続時間予測部の詳細図
である。101は正規化重み算出部、102は継続時間
正規化部、103はバッファメモリ、104は継続時間
予測値算出部である。
である。101は正規化重み算出部、102は継続時間
正規化部、103はバッファメモリ、104は継続時間
予測値算出部である。
【0017】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ13に保管する。
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ13に保管する。
【0018】次に標準音声分類部9で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
【0019】次に標準音声平均継続時間算出部10で、
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の3つとし要因番号をそれぞれ
J1,J2,J3,とし、各々の要因のグループ数(こ
の例では音節数に相当する。)をK1,K2,K3とす
ると、要因J1にはK1個、要因J2にはK2個、要因
J3にはK3個の平均継続時間が計算される。
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の3つとし要因番号をそれぞれ
J1,J2,J3,とし、各々の要因のグループ数(こ
の例では音節数に相当する。)をK1,K2,K3とす
ると、要因J1にはK1個、要因J2にはK2個、要因
J3にはK3個の平均継続時間が計算される。
【0020】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0021】次に次音節候補予測部4で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ10には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ10には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
【0022】次に継続時間予測部5で、次音節候補の継
続時間を、(数4)を用いて算出する。(数4)は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。
続時間を、(数4)を用いて算出する。(数4)は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。
【0023】
【数4】
【0024】継続時間予測部5をより詳細に述べると、
まず、重み算出部101で、要因毎に、予測したいn番
目に相当する音節の平均継続時間を既に認識されている
i番目の音節の平均継続時間で除し、この値の全要因の
平均値を重みとする。これらの平均継続時間は、予め学
習時に標準音声平均継続時間保管バッファに保管されて
いるものである。次に継続時間正規化部102でi番目
の音節のマッチング区間を上記で求められた重みで正規
化し、バッファメモリ103に保管する。この値をn-1
個のマッチング区間について求める。次に、予測値算出
部104で上記正規化部で正規化されたマッチング区間
の平均値を継続時間の予測値とする。
まず、重み算出部101で、要因毎に、予測したいn番
目に相当する音節の平均継続時間を既に認識されている
i番目の音節の平均継続時間で除し、この値の全要因の
平均値を重みとする。これらの平均継続時間は、予め学
習時に標準音声平均継続時間保管バッファに保管されて
いるものである。次に継続時間正規化部102でi番目
の音節のマッチング区間を上記で求められた重みで正規
化し、バッファメモリ103に保管する。この値をn-1
個のマッチング区間について求める。次に、予測値算出
部104で上記正規化部で正規化されたマッチング区間
の平均値を継続時間の予測値とする。
【0025】次に照合部6で、n番目の音節の継続時間
は数5に示した範囲に存在するとして、照合範囲をこの
範囲に限定して、従来例の式に基づいて照合する。照合
結果と音節の終端フレーム及び音節の継続時間入力音声
照合結果保管バッファに保管する。
は数5に示した範囲に存在するとして、照合範囲をこの
範囲に限定して、従来例の式に基づいて照合する。照合
結果と音節の終端フレーム及び音節の継続時間入力音声
照合結果保管バッファに保管する。
【0026】
【数5】
【0027】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
【0028】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節の継続時間と上記平均
継続時間とを用いて、数1を用いて入力音声の認識単位
毎の継続時間を予測し、照合部で予測した継続時間を中
心とする一定範囲で照合することにより、同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節の継続時間と上記平均
継続時間とを用いて、数1を用いて入力音声の認識単位
毎の継続時間を予測し、照合部で予測した継続時間を中
心とする一定範囲で照合することにより、同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。
【0029】請求項2、請求項3の一実施例について図
を参照しながら説明する。図3は請求項2の一実施例に
おける音声認識装置のブロック図である。1は音声入力
端子,2は分析部、3は音声区間検出部、4は次音節候
補予測部、21は継続時間予測部、6は照合部、7は認
識結果出力端子、8は標準音声スペクトル算出部、9は
標準音声分類部、10は標準音声平均継続時間算出部、
22は要因別重み算出部、11は文法規則バッファ、1
2は入力音声継続時間保管バッファ、13は標準音声保
管ハ゛ッファ、 14は標準音声平均継続時間保管バッフ
ァ、15はスイッチである。前記従来例と同じものは,
同一の番号を付与している。
を参照しながら説明する。図3は請求項2の一実施例に
おける音声認識装置のブロック図である。1は音声入力
端子,2は分析部、3は音声区間検出部、4は次音節候
補予測部、21は継続時間予測部、6は照合部、7は認
識結果出力端子、8は標準音声スペクトル算出部、9は
標準音声分類部、10は標準音声平均継続時間算出部、
22は要因別重み算出部、11は文法規則バッファ、1
2は入力音声継続時間保管バッファ、13は標準音声保
管ハ゛ッファ、 14は標準音声平均継続時間保管バッフ
ァ、15はスイッチである。前記従来例と同じものは,
同一の番号を付与している。
【0030】また、図4は上記継続時間予測部の詳細図
である。201は正規化重み算出部、102は継続時間
正規化部、103はバッファメモリ、104は継続時間
予測値算出部である。
である。201は正規化重み算出部、102は継続時間
正規化部、103はバッファメモリ、104は継続時間
予測値算出部である。
【0031】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ13に保管する。
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ13に保管する。
【0032】次に標準音声分類部9で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
【0033】次に標準音声平均継続時間算出部10で、
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の3つとし要因番号をそれぞれ
J1,J2,J3,とし、各々の要因のグループ数(こ
の例では音節数に相当する。)をK1,K2,K3とす
ると、要因J1にはK1個、要因J2にはK2個、要因
J3にはK3個の平均継続時間が計算される。
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の3つとし要因番号をそれぞれ
J1,J2,J3,とし、各々の要因のグループ数(こ
の例では音節数に相当する。)をK1,K2,K3とす
ると、要因J1にはK1個、要因J2にはK2個、要因
J3にはK3個の平均継続時間が計算される。
【0034】次に各要因が継続時間に及ぼす影響度に対
応した重み(請求項8に記載の数6内のβm)を要因別
重み算出部22で算出する。これは請求項2に記載の数
2で求められる継続時間の予測値と実際の継続時間値の
差が最小になるようにβmを求めればよく、下記数5で
示されるL値が最小になればよい。ここではこの最小2
乗法に基づいた(数6)より、結果的に(数7)を用い
てβmを求め、標準音声平均継続時間保管バッファ14
に保管する。
応した重み(請求項8に記載の数6内のβm)を要因別
重み算出部22で算出する。これは請求項2に記載の数
2で求められる継続時間の予測値と実際の継続時間値の
差が最小になるようにβmを求めればよく、下記数5で
示されるL値が最小になればよい。ここではこの最小2
乗法に基づいた(数6)より、結果的に(数7)を用い
てβmを求め、標準音声平均継続時間保管バッファ14
に保管する。
【0035】
【数6】
【0036】
【数7】
【0037】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0038】次に次音節候補予測部4で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ10には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ10には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
【0039】次に継続時間予測部5で、次音節候補の継
続時間を、(数8)を用いて算出する。(数7)は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。
続時間を、(数8)を用いて算出する。(数7)は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。
【0040】
【数8】
【0041】継続時間予測部5をより詳細に述べると、
まず、正規化重み算出部201で、要因毎に、予測した
いn番目に相当する音節の平均継続時間を既に認識され
ているi番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部10
2でi番目の音節のマッチング区間を上記で求められた
正規化重みで正規化すし、バッファメモリ103に保管
する。この値をn-1個のマッチング区間について求め
る。次に、予測値算出部104で上記正規化部で正規化
されたマッチング区間の平均値を継続時間の予測値とす
る。
まず、正規化重み算出部201で、要因毎に、予測した
いn番目に相当する音節の平均継続時間を既に認識され
ているi番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部10
2でi番目の音節のマッチング区間を上記で求められた
正規化重みで正規化すし、バッファメモリ103に保管
する。この値をn-1個のマッチング区間について求め
る。次に、予測値算出部104で上記正規化部で正規化
されたマッチング区間の平均値を継続時間の予測値とす
る。
【0042】次に照合部6で、n番目の音節の継続時間
は請求項1の実施例の(数5)に示した範囲に存在する
として、照合範囲をこの範囲に限定して、従来例の式に
基づいて照合する。照合結果と音節の終端フレーム及び
音節の継続時間入力音声照合結果保管バッファに保管す
る。
は請求項1の実施例の(数5)に示した範囲に存在する
として、照合範囲をこの範囲に限定して、従来例の式に
基づいて照合する。照合結果と音節の終端フレーム及び
音節の継続時間入力音声照合結果保管バッファに保管す
る。
【0043】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
【0044】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを最小2乗法に基づいて
算出し、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節のマッチング区間と、
上記平均継続時間と、要因別重みとを用いて、(数2)
を用いて入力音声の認識単位毎の継続時間を予測し、照
合部で予測した継続時間を中心とする一定範囲で照合す
ることにより、同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを最小2乗法に基づいて
算出し、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節のマッチング区間と、
上記平均継続時間と、要因別重みとを用いて、(数2)
を用いて入力音声の認識単位毎の継続時間を予測し、照
合部で予測した継続時間を中心とする一定範囲で照合す
ることにより、同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。
【0045】次に請求項2、請求項4の一実施例につい
て図を参照しながら説明する。図5は請求項2、請求項
4の一実施例における音声認識装置のブロック図であ
る。1は音声入力端子,2は分析部、3は音声区間検出
部、4は次音節候補予測部、31は継続時間予測部、6
は照合部、7は認識結果出力端子、8は標準音声スペク
トル算出部、9は標準音声分類部、10は標準音声継続
時間算出部、32は偏相関係数算出部、33は要因別重
み算出部、11は文法規則バッファ、12は入力音声継
続時間保管バッファ、13は標準音声保管バッファ、3
4は標準音声平均継続時間保管バッファ、15はスイッ
チである。前記従来例と同じものは,同一の番号を付与
している。
て図を参照しながら説明する。図5は請求項2、請求項
4の一実施例における音声認識装置のブロック図であ
る。1は音声入力端子,2は分析部、3は音声区間検出
部、4は次音節候補予測部、31は継続時間予測部、6
は照合部、7は認識結果出力端子、8は標準音声スペク
トル算出部、9は標準音声分類部、10は標準音声継続
時間算出部、32は偏相関係数算出部、33は要因別重
み算出部、11は文法規則バッファ、12は入力音声継
続時間保管バッファ、13は標準音声保管バッファ、3
4は標準音声平均継続時間保管バッファ、15はスイッ
チである。前記従来例と同じものは,同一の番号を付与
している。
【0046】また、図4は上記継続時間予測部の詳細図
である。201は重み算出部、102は継続時間正規化
部、103はバッファメモリ、104は継続時間予測値
算出部である。
である。201は重み算出部、102は継続時間正規化
部、103はバッファメモリ、104は継続時間予測値
算出部である。
【0047】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎に所定の個数を1組としたLPCケプス
トラム係数が特徴パラメータとして算出される。上記分
析処理を、所定の個数の学習音声データが終わるまで繰
り返す。次に標準音声スペクトル算出部で、音節毎に分
析されたデータをクラスタリングし、各クラスタの中心
データを標準音声保管バッファ13に保管する。
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎に所定の個数を1組としたLPCケプス
トラム係数が特徴パラメータとして算出される。上記分
析処理を、所定の個数の学習音声データが終わるまで繰
り返す。次に標準音声スペクトル算出部で、音節毎に分
析されたデータをクラスタリングし、各クラスタの中心
データを標準音声保管バッファ13に保管する。
【0048】次に標準音声分類部9で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の3つとする。(1)目標となる音節継続時
間を示す音節の種類、(2)目標となる音節継続時間を
示す音節の1つ前の音節の種類、(3)目標となる音節
継続時間を示す音節の2つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。
【0049】次に標準音声継続時間算出部10で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算される。
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算される。
【0050】次に各要因が継続時間に及ぼす影響度に対
応した重み(請求項2に記載の数2内のβm)を算出す
るため、まず、下記要因の音節継続時間に対する偏相関
係数を偏相関係数算出部32で算出する。ここでは、数
量化1類を用いて、上記3つの各々の要因と音節継続時
間との偏相関係数ζm(但しmは要因番号)を(数9)
に基づいて求める。
応した重み(請求項2に記載の数2内のβm)を算出す
るため、まず、下記要因の音節継続時間に対する偏相関
係数を偏相関係数算出部32で算出する。ここでは、数
量化1類を用いて、上記3つの各々の要因と音節継続時
間との偏相関係数ζm(但しmは要因番号)を(数9)
に基づいて求める。
【0051】
【数9】
【0052】次に、 次に、要因別重み付け算出部33
で、この偏相関係数の比を(数10)を用いて求め、こ
れを要因別重みβmとし、上記要因別平均継続時間と共
に標準音声平均継続時間保管バッファ14に保管する。
で、この偏相関係数の比を(数10)を用いて求め、こ
れを要因別重みβmとし、上記要因別平均継続時間と共
に標準音声平均継続時間保管バッファ14に保管する。
【0053】
【数10】
【0054】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0055】次に次音節候補予測部4で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ11には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ11には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。
【0056】次に継続時間予測部5で、次音節候補の継
続時間を、先の実施例(数8)を用いて算出する。数8
は、時間軸に沿ってn-1個の音節が既に認識されていた
として、n番目の音節候補の継続時間をn-1個の認識した
際のマッチング区間を用いて予測するものである。
続時間を、先の実施例(数8)を用いて算出する。数8
は、時間軸に沿ってn-1個の音節が既に認識されていた
として、n番目の音節候補の継続時間をn-1個の認識した
際のマッチング区間を用いて予測するものである。
【0057】継続時間予測部5をより詳細に述べると、
まず、正規化重み算出部201で、要因毎に、予測した
いn番目に相当する音節の平均継続時間を既に認識され
ているi番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部10
2でi番目の音節のマッチング区間を上記で求められた
正規化重みで正規化し、メモリバッファ103に保管す
る。この値をn-1個のマッチング区間について求める。
次に、予測値算出部104で上記正規化部で正規化され
たマッチング区間の平均値を継続時間の予測値とする。
まず、正規化重み算出部201で、要因毎に、予測した
いn番目に相当する音節の平均継続時間を既に認識され
ているi番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部10
2でi番目の音節のマッチング区間を上記で求められた
正規化重みで正規化し、メモリバッファ103に保管す
る。この値をn-1個のマッチング区間について求める。
次に、予測値算出部104で上記正規化部で正規化され
たマッチング区間の平均値を継続時間の予測値とする。
【0058】次に照合部6で、n番目の音節の継続時間
は請求項1の実施例の数4に示した範囲に存在するとし
て、照合範囲をこの範囲に限定して、従来例の式に基づ
いて照合する。照合結果と音節の終端フレーム及び音節
の継続時間入力音声照合結果保管バッファに保管する。
は請求項1の実施例の数4に示した範囲に存在するとし
て、照合範囲をこの範囲に限定して、従来例の式に基づ
いて照合する。照合結果と音節の終端フレーム及び音節
の継続時間入力音声照合結果保管バッファに保管する。
【0059】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
区間の始端から終端まで行い、スコアーSの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ15は、学習時には標準音
声スペクトル算出部8に、認識時には音声区間検出部3
に特徴パラメータを出力するように動作する。
【0060】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを数量化1類に基づく偏
相関係数に基づいて算出し、同入力音声の既に認識され
た入力音声部分の継続時間を入力音声継続時間保管バッ
ファに保管し、継続時間予測部で既に認識された音節の
マッチング区間と、上記平均継続時間と、要因別重みと
を用いて、数2を用いて入力音声の認識単位毎の継続時
間を予測し、照合部で予測した継続時間を中心とする一
定範囲で照合することにより、同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを数量化1類に基づく偏
相関係数に基づいて算出し、同入力音声の既に認識され
た入力音声部分の継続時間を入力音声継続時間保管バッ
ファに保管し、継続時間予測部で既に認識された音節の
マッチング区間と、上記平均継続時間と、要因別重みと
を用いて、数2を用いて入力音声の認識単位毎の継続時
間を予測し、照合部で予測した継続時間を中心とする一
定範囲で照合することにより、同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
【0061】
【発明の効果】請求項1記載の音声認識装置は、認識単
位毎の標準音声の情報を保管している標準音声保管バッ
ファと、同入力音声内の既に認識された入力音声部分の
継続時間情報を認識単位毎に保管しておく入力音声継続
時間保管バッファと、認識単位の継続時間情報を、継続
時間を左右する単数または複数の要因毎に分類して保管
しておく標準音声継続時間保管バッファと、上記入力音
声継続時間保管バッファに保管されている入力音声継続
時間情報(数1内d(i))を、上記標準音声継続時間情報
(数1内dr(n,m))にて正規化した値を予測値とする数
1にて、入力音声の認識単位毎の継続時間の予測を行う
継続時間予測部と、予測した継続時間を利用して照合を
行う照合部とからなることにより、同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となり、より高性能な装置の
実現が可能となる。
位毎の標準音声の情報を保管している標準音声保管バッ
ファと、同入力音声内の既に認識された入力音声部分の
継続時間情報を認識単位毎に保管しておく入力音声継続
時間保管バッファと、認識単位の継続時間情報を、継続
時間を左右する単数または複数の要因毎に分類して保管
しておく標準音声継続時間保管バッファと、上記入力音
声継続時間保管バッファに保管されている入力音声継続
時間情報(数1内d(i))を、上記標準音声継続時間情報
(数1内dr(n,m))にて正規化した値を予測値とする数
1にて、入力音声の認識単位毎の継続時間の予測を行う
継続時間予測部と、予測した継続時間を利用して照合を
行う照合部とからなることにより、同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となり、より高性能な装置の
実現が可能となる。
【0062】請求項2記載の音声認識装置は、認識単位
毎の標準音声の情報を保管している標準音声保管バッフ
ァと、同入力音声内の既に認識された入力音声部分の継
続時間情報を認識単位毎に保管しておく入力音声継続時
間保管バッファと、継続時間に影響を及ぼす要因毎の影
響度に対応した重みを算出する要因別重み決定部と、こ
の要因毎の重みと要因毎に分類された認識単位の継続時
間情報とを保管しておく標準音声継続時間保管バッファ
と、上記入力音声継続時間保管バッファに保管されてい
る入力音声継続時間情報(数2内d(i))を、上記要因毎
の重み(数2内βmと標準音声の継続時間情報(数2内d
r(n,m))にて正規化した値の平均値を予測値とする数2
にて、入力音声の認識単位毎の継続時間の予測を行う継
続時間予測部と、予測した継続時間を利用して照合を行
う照合部とからなることにより、同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。
毎の標準音声の情報を保管している標準音声保管バッフ
ァと、同入力音声内の既に認識された入力音声部分の継
続時間情報を認識単位毎に保管しておく入力音声継続時
間保管バッファと、継続時間に影響を及ぼす要因毎の影
響度に対応した重みを算出する要因別重み決定部と、こ
の要因毎の重みと要因毎に分類された認識単位の継続時
間情報とを保管しておく標準音声継続時間保管バッファ
と、上記入力音声継続時間保管バッファに保管されてい
る入力音声継続時間情報(数2内d(i))を、上記要因毎
の重み(数2内βmと標準音声の継続時間情報(数2内d
r(n,m))にて正規化した値の平均値を予測値とする数2
にて、入力音声の認識単位毎の継続時間の予測を行う継
続時間予測部と、予測した継続時間を利用して照合を行
う照合部とからなることにより、同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。
【0063】請求項3に記載の音声認識装置は、請求項
2に記載の重み決定部において、数2にて予測される継
続時間と実際の継続時間との差が最小になるように重み
を推定することにより、同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。
2に記載の重み決定部において、数2にて予測される継
続時間と実際の継続時間との差が最小になるように重み
を推定することにより、同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。
【0064】請求項4に記載の音声認識装置は、請求項
4に記載の重み決定部において、各要因の、認識単位毎
の継続時間に対する偏相関係数を用いて重みを決定する
ことにより、同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。を
特徴とする音声認識装置。
4に記載の重み決定部において、各要因の、認識単位毎
の継続時間に対する偏相関係数を用いて重みを決定する
ことにより、同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。を
特徴とする音声認識装置。
【図1】本発明の実施例における音声認識装置のブロッ
ク図
ク図
【図2】本発明の図1の実施例における継続時間予測部
のブロック図
のブロック図
【図3】本発明の実施例における音声認識装置のブロッ
ク図
ク図
【図4】本発明の図3、図5の実施例における継続時間
予測部のブロック図
予測部のブロック図
【図5】本発明の実施例における音声認識装置のブロッ
ク図
ク図
【図6】従来例における音声認識装置のブロック図
【図7】文脈自由文法規則の例図
1 信号入力端子 2 分析部 3 音声区間検出部 4 次音節候補予測部 5、21、31 次音節継続時間予測部 6 照合部 7 認識結果出力端子 8 標準音声スヘ゜クトル算出部 9 標準音声分類部 10 標準音声継続時間算出部 11 文法規則バッファ 12 入力音声継続時間保管バッファ 13 標準音声保管バッファ 14、23、34 標準音声継続時間保管バッファ 15 スイッチ 22、33 要因別重み算出部 32 偏相関係数算出部 101、201 正規化重み算出部 102 継続時間正規化部 103 メモリバッファ 104 予測値算出部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/10
Claims (4)
- 【請求項1】認識単位毎の標準音声の情報を保管してい
る標準音声保管バッファと、同入力音声内の既に認識さ
れた入力音声部分の継続時間情報を認識単位毎に保管し
ておく入力音声継続時間保管バッファと、認識単位の継
続時間情報を、継続時間を左右する単数または複数の要
因毎に分類して保管しておく標準音声継続時間保管バッ
ファと、上記入力音声継続時間保管バッファに保管され
ている入力音声継続時間情報(数1内d(i))を、上記標
準音声継続時間情報(数1内dr(n,m))にて正規化した
値を予測値とする数1にて、入力音声の認識単位毎の継
続時間の予測を行う継続時間予測部と、予測した継続時
間を利用して照合を行う照合部とを備えたことを特徴と
する音声認識装置。 【数1】 - 【請求項2】認識単位毎の標準音声の情報を保管してい
る標準音声保管バッファと、同入力音声内の既に認識さ
れた入力音声部分の継続時間情報を認識単位毎に保管し
ておく入力音声継続時間保管バッファと、継続時間に影
響を及ぼす要因毎の影響度に対応した重みを算出する要
因別重み決定部と、この要因毎の重みと要因毎に分類さ
れた認識単位の継続時間情報とを保管しておく標準音声
継続時間保管バッファと、上記入力音声継続時間保管バ
ッファに保管されている入力音声継続時間情報((数
2)内d(i))を、上記要因毎の重み((数2)内βmと
標準音声の継続時間情報((数2)内dr(n,m))にて正
規化した値の平均値を予測値とする数2にて、入力音声
の認識単位毎の継続時間の予測を行う継続時間予測部
と、予測した継続時間を利用して照合を行う照合部とを
備えたことを特徴とする音声認識装置。 【数2】 - 【請求項3】重み決定部で、数2にて予測される継続時
間と実際の継続時間との差が最小になるように重みを推
定することを特徴とする請求項2に記載の音声認識装
置。 - 【請求項4】重み決定部で、各要因の、認識単位毎の継
続時間に対する偏相関係数を用いて重みを決定すること
を特徴とする請求項2に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26451792A JP3293191B2 (ja) | 1992-10-02 | 1992-10-02 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26451792A JP3293191B2 (ja) | 1992-10-02 | 1992-10-02 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06118986A JPH06118986A (ja) | 1994-04-28 |
JP3293191B2 true JP3293191B2 (ja) | 2002-06-17 |
Family
ID=17404352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26451792A Expired - Fee Related JP3293191B2 (ja) | 1992-10-02 | 1992-10-02 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3293191B2 (ja) |
-
1992
- 1992-10-02 JP JP26451792A patent/JP3293191B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH06118986A (ja) | 1994-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6108628A (en) | Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US6208971B1 (en) | Method and apparatus for command recognition using data-driven semantic inference | |
EP0617827B1 (en) | Composite expert | |
EP0555545A1 (en) | Speech recognition apparatus which predicts word classes from context and words from word classes | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
WO1995034063A1 (en) | Method of partitioning a sequence of data frames | |
WO1995034064A1 (en) | Speech-recognition system utilizing neural networks and method of using same | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3293191B2 (ja) | 音声認識装置 | |
JP3114389B2 (ja) | 音声認識装置 | |
Davis et al. | Evaluation of acoustic parameters for monosyllabic word identification | |
JPH0772899A (ja) | 音声認識装置 | |
JP3868798B2 (ja) | 音声認識装置 | |
CN113870839B (zh) | 一种基于多任务的语种识别模型的语种识别装置 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
JP2979912B2 (ja) | 音声認識装置 | |
JPH07281692A (ja) | 音声認識装置 | |
JPH06301400A (ja) | 音声認識装置 | |
CN114822538A (zh) | 重打分模型的训练和语音识别方法、装置、系统及设备 | |
JPS6155680B2 (ja) | ||
JPH04233599A (ja) | 音声認識方法及び装置 | |
JP3412501B2 (ja) | タスク適応化装置及び音声認識装置 | |
JPH0619497A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080405 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090405 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100405 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110405 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120405 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |