JP3050180B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3050180B2 JP3050180B2 JP9227584A JP22758497A JP3050180B2 JP 3050180 B2 JP3050180 B2 JP 3050180B2 JP 9227584 A JP9227584 A JP 9227584A JP 22758497 A JP22758497 A JP 22758497A JP 3050180 B2 JP3050180 B2 JP 3050180B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- recognition result
- candidates
- lattice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 18
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に、二つ以上の発声に対し、それぞれ複数の音声
認識結果候補から全体として最適に認識結果列を選択し
て得るような音声認識装置に関する。
し、特に、二つ以上の発声に対し、それぞれ複数の音声
認識結果候補から全体として最適に認識結果列を選択し
て得るような音声認識装置に関する。
【0002】
【従来の技術】例えば単語毎に発声し、各発声毎の認識
結果の候補から、言語モデルを用いて最適になるような
認識結果列を自動的に選択・表示するという音声認識装
置を考えることができる。
結果の候補から、言語モデルを用いて最適になるような
認識結果列を自動的に選択・表示するという音声認識装
置を考えることができる。
【0003】これに対し、例えば特開平8−32858
0号公報には、連続発声による認識結果の候補に対し、
一方向から動的計画法を用いて言語処理を行ない最適な
認識結果列を自動的に選択し、例えばオペレータの操作
により、ある単語が誤っていた場合に、その候補を削除
してもう一度一方向から動的計画法を用いて言語処理を
行なうことにより、次に適当な認識結果列を選択する単
語列認識方法及び装置が記載されている。
0号公報には、連続発声による認識結果の候補に対し、
一方向から動的計画法を用いて言語処理を行ない最適な
認識結果列を自動的に選択し、例えばオペレータの操作
により、ある単語が誤っていた場合に、その候補を削除
してもう一度一方向から動的計画法を用いて言語処理を
行なうことにより、次に適当な認識結果列を選択する単
語列認識方法及び装置が記載されている。
【0004】上記公報に記載の技術を、離散単語発声に
よる認識結果の候補に適用することにより、ある発声に
対し、最適な候補だけでなく、二位、三位以下の候補を
求めることができる。上記公報に記載の技術を用いて、
ある発声(第i番目の発声)の上位n候補を自動的に求
める場合の動作の流れ図を図11に示す。以下、図11
を参照して前記公報に記載の技術を説明する。
よる認識結果の候補に適用することにより、ある発声に
対し、最適な候補だけでなく、二位、三位以下の候補を
求めることができる。上記公報に記載の技術を用いて、
ある発声(第i番目の発声)の上位n候補を自動的に求
める場合の動作の流れ図を図11に示す。以下、図11
を参照して前記公報に記載の技術を説明する。
【0005】入力された音声は複数候補からなる音声認
識結果候補となり、認識結果保持部に蓄積される。次の
処理をn回繰り返すことで、認識結果保持部中、第i番
目の発声に対し、上位n個の候補を表示する。すなわ
ち、蓄積された全候補について左から右に向かって動的
計画法を用いて言語処理を行ない(ステップ110
1)、最適パスを求める。第i番目の発声の音声認識候
補のうち、最適パスに含まれていた候補を表示し、それ
を音声認識候補から除く(ステップ1102)、という
処理である。
識結果候補となり、認識結果保持部に蓄積される。次の
処理をn回繰り返すことで、認識結果保持部中、第i番
目の発声に対し、上位n個の候補を表示する。すなわ
ち、蓄積された全候補について左から右に向かって動的
計画法を用いて言語処理を行ない(ステップ110
1)、最適パスを求める。第i番目の発声の音声認識候
補のうち、最適パスに含まれていた候補を表示し、それ
を音声認識候補から除く(ステップ1102)、という
処理である。
【0006】このように、上記公報の記載の技術を用い
ることで、ある発声に対する音声認識結果候補の、上位
n候補を表示することができる。
ることで、ある発声に対する音声認識結果候補の、上位
n候補を表示することができる。
【0007】nを音声認識結果候補数とすると、すべて
の音声認識結果候補について上記並べ替えを行なうこと
ができる。
の音声認識結果候補について上記並べ替えを行なうこと
ができる。
【0008】
【発明が解決しようとする課題】このように、従来技術
を用いることにより、単語毎に発声し、各発声毎の認識
結果の候補から、言語モデルを用いて最適な認識結果列
を自動的に選択・表示するような音声認識装置におい
て、ある発声に対する音声認識結果候補の、上位n候補
を表示することができる。しかしながら、そのために
は、動的計画法を用いた言語処理をn回繰り返して行な
う必要があり、多大の計算量を必要とする、という問題
点を有している。
を用いることにより、単語毎に発声し、各発声毎の認識
結果の候補から、言語モデルを用いて最適な認識結果列
を自動的に選択・表示するような音声認識装置におい
て、ある発声に対する音声認識結果候補の、上位n候補
を表示することができる。しかしながら、そのために
は、動的計画法を用いた言語処理をn回繰り返して行な
う必要があり、多大の計算量を必要とする、という問題
点を有している。
【0009】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、蓄積された音声
認識結果候補の両端から、ある発声に向かって前後に動
的計画法を用いて言語処理を行なうことにより、言語処
理を1回行なうだけで、その発声に対する音声認識結果
候補を最適な順番に並べ替えることができる音声認識装
置を提供することにある。
てなされたものであって、その目的は、蓄積された音声
認識結果候補の両端から、ある発声に向かって前後に動
的計画法を用いて言語処理を行なうことにより、言語処
理を1回行なうだけで、その発声に対する音声認識結果
候補を最適な順番に並べ替えることができる音声認識装
置を提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するた
め、本発明の音声認識装置は、その概略を述べれば、単
語毎に発声し、各発声毎の認識結果の候補から、言語モ
デルを用いて最適な認識結果列を自動的に選択・表示す
るような音声認識装置において、ある発声に対する音声
認識結果候補の、言語処理を行なった後の最適な順各発
声毎の認識結果の候補から、順番に候補を並べ替えるよ
うにしたものである。
め、本発明の音声認識装置は、その概略を述べれば、単
語毎に発声し、各発声毎の認識結果の候補から、言語モ
デルを用いて最適な認識結果列を自動的に選択・表示す
るような音声認識装置において、ある発声に対する音声
認識結果候補の、言語処理を行なった後の最適な順各発
声毎の認識結果の候補から、順番に候補を並べ替えるよ
うにしたものである。
【0011】より詳細には、本発明は、単語毎に発声さ
れた入力音声に対し複数の認識結果の候補を求め、言語
モデルを用いて、二つ以上の発声に対して、それぞれの
認識結果の候補中から選択し、全体として最適な認識結
果列を得るような音声認識装置において、ある一つの発
声に対し、該発声よりも前の発声の認識結果候補に対し
て前向きに動的計画法を用いて言語処理を行なうと共
に、該発声よりも後の発声の認識結果候補に対して後向
きに動的計画法を用いて言語処理を行ない、それぞれの
結果を用いて、該発声の各候補について、該候補を含む
最適パスの累積スコアを求めることにより、該発声の候
補の順位を並べ替える手段を備えたことを特徴とする。
れた入力音声に対し複数の認識結果の候補を求め、言語
モデルを用いて、二つ以上の発声に対して、それぞれの
認識結果の候補中から選択し、全体として最適な認識結
果列を得るような音声認識装置において、ある一つの発
声に対し、該発声よりも前の発声の認識結果候補に対し
て前向きに動的計画法を用いて言語処理を行なうと共
に、該発声よりも後の発声の認識結果候補に対して後向
きに動的計画法を用いて言語処理を行ない、それぞれの
結果を用いて、該発声の各候補について、該候補を含む
最適パスの累積スコアを求めることにより、該発声の候
補の順位を並べ替える手段を備えたことを特徴とする。
【0012】
【発明の実施の形態】本発明の実施の形態について図面
を参照して以下に説明する。
を参照して以下に説明する。
【0013】図1は、本発明の音声認識装置の一つの実
施の形態の構成を示すブロック図である。単語毎に発声
された入力音声を音響処理部101で分析し、音響処理
部101で分析された入力音声と標準パターン記憶部1
03に格納されている単語の標準パターンとを音声認識
部102で比較し、入力音声と各標準パターンとの音響
尤度を求める。
施の形態の構成を示すブロック図である。単語毎に発声
された入力音声を音響処理部101で分析し、音響処理
部101で分析された入力音声と標準パターン記憶部1
03に格納されている単語の標準パターンとを音声認識
部102で比較し、入力音声と各標準パターンとの音響
尤度を求める。
【0014】音響処理部101は入力音声を分析し、パ
ラメータベクトル列に変換する。音響処理部101は、
例えば、フィルタバンク、フーリエ変換器、線径予測係
数型分析器などにより構成される。
ラメータベクトル列に変換する。音響処理部101は、
例えば、フィルタバンク、フーリエ変換器、線径予測係
数型分析器などにより構成される。
【0015】標準パターン記憶部103に格納されてい
る標準パターンは、パラメータベクトル列として表現さ
れている。標準パターンの中から、分析された入力音声
との音響尤度の高い複数が認識結果の候補として音声認
識部102で選ばれる。
る標準パターンは、パラメータベクトル列として表現さ
れている。標準パターンの中から、分析された入力音声
との音響尤度の高い複数が認識結果の候補として音声認
識部102で選ばれる。
【0016】音声認識結果の候補は、発声された順番に
一定量、認識結果保持部104で記憶・蓄積される。発
声数が一定量を超えた場合には、認識結果保持部104
では、古い発声の音声認識結果候補から破棄される。
一定量、認識結果保持部104で記憶・蓄積される。発
声数が一定量を超えた場合には、認識結果保持部104
では、古い発声の音声認識結果候補から破棄される。
【0017】文脈記憶部107は、一つ前の発声に対し
言語処理部106において前向きの動的計画法を用いた
言語処理により得られている累積スコアと、一つ前の発
声の認識結果候補を記憶する。文脈記憶部107の記憶
内容は、言語処理部106により更新される。
言語処理部106において前向きの動的計画法を用いた
言語処理により得られている累積スコアと、一つ前の発
声の認識結果候補を記憶する。文脈記憶部107の記憶
内容は、言語処理部106により更新される。
【0018】ラティス構成部105は、認識結果保持部
104から与えられた音声認識結果候補及び文脈記憶部
107から与えられた、これまでの言語処理結果からラ
ティスを構成する。ラティスは、最左端に、文脈記憶部
107から与えられた一つ前の発声の認識結果候補を持
ち、それより右に認識結果保持部104から与えられた
音声認識結果候補を持つ。
104から与えられた音声認識結果候補及び文脈記憶部
107から与えられた、これまでの言語処理結果からラ
ティスを構成する。ラティスは、最左端に、文脈記憶部
107から与えられた一つ前の発声の認識結果候補を持
ち、それより右に認識結果保持部104から与えられた
音声認識結果候補を持つ。
【0019】言語処理部106は、ラティス構成部10
5から与えられるラティスに対し言語モデルを適用し、
特定の発声の音声認識結果候補を最適な順番に並べ替え
る。
5から与えられるラティスに対し言語モデルを適用し、
特定の発声の音声認識結果候補を最適な順番に並べ替え
る。
【0020】図2は、本発明の実施の形態をより詳細に
説明するための一実施例としてラティスの一例を示した
ものである。
説明するための一実施例としてラティスの一例を示した
ものである。
【0021】図3から図5を参照して、本発明の一実施
例として、言語処理部106が所定の発声に対する認識
結果候補を最適な順番に並べ替える例を具体的に説明す
る。なお、発声は、「現在/沖縄/で/開かれて/い
る」とし、最近の発生を「いる」とする。言語モデルと
して、単語bigramを使用した場合の例を示す。実
際には、適用される言語モデルは、例えばn−gram
モデルのように、動的計画法を用いて行なうことができ
るモデルであれば何でもよい。
例として、言語処理部106が所定の発声に対する認識
結果候補を最適な順番に並べ替える例を具体的に説明す
る。なお、発声は、「現在/沖縄/で/開かれて/い
る」とし、最近の発生を「いる」とする。言語モデルと
して、単語bigramを使用した場合の例を示す。実
際には、適用される言語モデルは、例えばn−gram
モデルのように、動的計画法を用いて行なうことができ
るモデルであれば何でもよい。
【0022】ラティスにおいて、最左端の候補をw_
1、並べ替えを行なう所定の発声のそれをw_2、最右
端のそれをw_k+2、と表すこととする。
1、並べ替えを行なう所定の発声のそれをw_2、最右
端のそれをw_k+2、と表すこととする。
【0023】図3は、k=2の例である。言語処理部1
06では、すべてのw_2に対し、次式(1)を求め
る。
06では、すべてのw_2に対し、次式(1)を求め
る。
【0024】
【数1】
【0025】ただし、G(w_1)は最左端の列の累積
スコア、l(w_1,w_2)は単語bigramモデ
ルにより定まる言語スコア(単語w_1の次に単語w_
2が生じる条件つき確率に比例するスコア)、a(w_
i)は単語w_iの音響尤度、wは定数である。上式
(1)は左端から前向きに動的計画法を適用することに
より効率的に求めることができる。
スコア、l(w_1,w_2)は単語bigramモデ
ルにより定まる言語スコア(単語w_1の次に単語w_
2が生じる条件つき確率に比例するスコア)、a(w_
i)は単語w_iの音響尤度、wは定数である。上式
(1)は左端から前向きに動的計画法を適用することに
より効率的に求めることができる。
【0026】また、各w_2に対し、最右端から後ろ向
きに所定の発声まで、次式(2)を、動的計画法を適用
することにより求める。
きに所定の発声まで、次式(2)を、動的計画法を適用
することにより求める。
【0027】
【数2】
【0028】所定の発声において、上記スコアS_f
(w_2)+S_b(w_2)の大きい順に候補を入れ
換える。
(w_2)+S_b(w_2)の大きい順に候補を入れ
換える。
【0029】また、言語処理部106は、文脈記憶部1
04に対し、各w_2と、S_f(w_2)を新たな累
積スコアG(w_2)として出力する。
04に対し、各w_2と、S_f(w_2)を新たな累
積スコアG(w_2)として出力する。
【0030】図3のラティスの各候補について、図4に
示すように、累積スコア及び音響尤度が与えられてお
り、各単語の組に、図5に示すように、言語スコアが与
えられているとし、上式(1)、(2)の重みw=1と
する。
示すように、累積スコア及び音響尤度が与えられてお
り、各単語の組に、図5に示すように、言語スコアが与
えられているとし、上式(1)、(2)の重みw=1と
する。
【0031】また、言語スコアが0の場合はその単語間
の接続を許さないとすると、S_f(w_2)はそれぞ
れ以下のようになる。
の接続を許さないとすると、S_f(w_2)はそれぞ
れ以下のようになる。
【0032】
【数3】
【0033】同様に、S_b(w_2)はそれぞれ以下
のようになる。
のようになる。
【0034】
【数4】
【0035】S_f(w_2)+S_b(w_2)の値
を大きい順に候補を入れ換えると、以下のようになる。
を大きい順に候補を入れ換えると、以下のようになる。
【0036】
【数5】
【0037】このように、動的計画法を一回適用するこ
とで、所定の発声(第二発声)の認識結果候補を最適な
順番に並べ換えることができる。図3は、所定の発声
(第二発声)の認識結果候補を最適な順番(「で」、
「れる」、「見る」の順)に並び替えた結果を示す。
とで、所定の発声(第二発声)の認識結果候補を最適な
順番に並べ換えることができる。図3は、所定の発声
(第二発声)の認識結果候補を最適な順番(「で」、
「れる」、「見る」の順)に並び替えた結果を示す。
【0038】また、同時に、ラティスにおける最適単語
系列も求まるため、これを表示することで、発声に対し
て遅れのない音声認識装置を実現できる。
系列も求まるため、これを表示することで、発声に対し
て遅れのない音声認識装置を実現できる。
【0039】上記最適単語系列のうち、所定の発声以降
の認識結果を用いて、既に結果が表示された発声に対し
ても、後から得られた認識結果を用いて書き換えること
で、認識結果の精度を向上させることができる。
の認識結果を用いて、既に結果が表示された発声に対し
ても、後から得られた認識結果を用いて書き換えること
で、認識結果の精度を向上させることができる。
【0040】次に図6及び図7を参照して、本発明の別
の実施の形態について説明する。
の実施の形態について説明する。
【0041】図6は、本発明の音声認識装置の別の実施
の形態の構成を示すブロック図である。この実施の形態
においては、認識結果保持部104に蓄積される音声認
識結果候補のみから、ラティスを構成する。
の形態の構成を示すブロック図である。この実施の形態
においては、認識結果保持部104に蓄積される音声認
識結果候補のみから、ラティスを構成する。
【0042】図7に、ラティスの一例を示す。
【0043】音声認識結果候補中の第i番目の発声につ
いて、ラティスの最左端からその発声まで、前向きに動
的計画法を用いて言語処理を行ない、同時に、最右端か
らその発声まで、後向きに動的計画法を用いて言語処理
を行ない、それぞれによって得られた累積スコアの和を
比較し、候補を並べ替えることで、最適な順番に並び替
えられた音声認識結果候補を得ることができる。
いて、ラティスの最左端からその発声まで、前向きに動
的計画法を用いて言語処理を行ない、同時に、最右端か
らその発声まで、後向きに動的計画法を用いて言語処理
を行ない、それぞれによって得られた累積スコアの和を
比較し、候補を並べ替えることで、最適な順番に並び替
えられた音声認識結果候補を得ることができる。
【0044】図7に示す例では、i=3である。ラティ
スの最左端のスコアは、例えば、言語モデルとして単語
bigramを使用する場合は単語unigramのよ
うに、ラティスの最左端のみから与えられるスコアを用
いることができる。これにより、文脈記憶部をなくすこ
とができる。また、蓄積された音声認識結果候補以前の
誤りの影響を受けない。
スの最左端のスコアは、例えば、言語モデルとして単語
bigramを使用する場合は単語unigramのよ
うに、ラティスの最左端のみから与えられるスコアを用
いることができる。これにより、文脈記憶部をなくすこ
とができる。また、蓄積された音声認識結果候補以前の
誤りの影響を受けない。
【0045】
【発明の効果】以上説明したように、本発明によれば、
蓄積された音声認識結果候補の両端から、ある発声に向
かって前後に動的計画法を用いて言語処理を行なうこと
により、言語処理を1回行なうだけで、その発声に対す
る音声認識結果候補を最適な順番に並べ替え可能とする
音声認識装置を実現することができる、という効果を奏
する。
蓄積された音声認識結果候補の両端から、ある発声に向
かって前後に動的計画法を用いて言語処理を行なうこと
により、言語処理を1回行なうだけで、その発声に対す
る音声認識結果候補を最適な順番に並べ替え可能とする
音声認識装置を実現することができる、という効果を奏
する。
【図1】本発明の第一の実施の形態の構成を示すブロッ
ク図である。
ク図である。
【図2】本発明の第一の実施の形態における、ラティス
の一例を示す図である。
の一例を示す図である。
【図3】本発明の第一の実施の形態における、所定の発
声の上位n候補を選択する方式の例を説明する図であ
る。
声の上位n候補を選択する方式の例を説明する図であ
る。
【図4】本発明の第一の実施の形態における、累積スコ
ア及び音響スコアの表を示す図である。
ア及び音響スコアの表を示す図である。
【図5】本発明の第一の実施の形態における、言語スコ
アの表を示す図である。
アの表を示す図である。
【図6】本発明の第二の実施の形態の構成を示すブロッ
ク図である。
ク図である。
【図7】本発明の第二の実施の形態における、ラティス
の一例を示す図である。
の一例を示す図である。
【図8】従来技術を用いた音声認識装置における、所定
の発声の上位n候補を選択する際の動作の流れを示す図
である。
の発声の上位n候補を選択する際の動作の流れを示す図
である。
101 音響処理部 102 音声認識部 103 標準パターン記憶部 104 認識結果保持部 105 ラティス構成部 106 言語処理部 107 文脈記憶部
フロントページの続き (56)参考文献 特開 平10−301597(JP,A) 特開 平8−328580(JP,A) 欧州特許出願公開677835(EP,A 2) 欧州特許出願公開896320(EP,A 2) 情報処理学会研究報告[自然言語処理 ]Vol.94,No.47,NL−101, 「前向きDP後向きA*アルゴリズムを 用いた確率的日本語形態素解析システ ム」p.73−80,(1994/5/27) Proceedings of Co ling,15th,Vol.1,”A Stocahstic Japanes e Morphological An alyzer Using a For ward−DP Backward−A * N−Best Search Al gorithm”,p.210−207, (1994) 電子情報通信学会技術研究報告[言語 理解とコミュニケーション]Vol. 90,No.116,NLC90−8,「接続 コスト最小法による形態素解析の提案と 計算量の評価について」p.17−24 (1990年7月3日発行) 日本音響学会平成9年度秋季研究発表 会講演論文集▲I▼ 2−1−5「音声 による文章入力のための言語モデル適用 法の検討」p.57−58(平成9年9月17 日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/12 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)
Claims (5)
- 【請求項1】単語毎に発声された入力音声に対し複数の
認識結果の候補を求め、言語モデルを用いて、二つ以上
の発声に対して、それぞれの認識結果の候補中から選択
し、全体として最適な認識結果列を得るような音声認識
装置において、 ある一つの発声に対し、該発声よりも前の発声の認識結
果候補に対して前向きに動的計画法を用いて言語処理を
行なうと共に、該発声よりも後の発声の認識結果候補に
対して後向きに動的計画法を用いて言語処理を行ない、
それぞれの結果を用いて、該発声の各候補について該候
補を含む最適パスの累積スコアを求めることにより該発
声の各候補の順位を並べ替える手段を備えたことを特徴
とする音声認識装置。 - 【請求項2】単語毎に発声された入力音声を分析する音
響処理部と、 予め分析された音声の標準パターンを持つ標準パターン
記憶部と、前記 標準パターン記憶部に記憶された各標準パターンと
分析された入力音声との類似する度合を示す音響尤度を
求め、発声毎の認識結果の一つ以上の候補を音響尤度と
ともに出力する音声認識部と、 前記音声認識部から出力された発声毎の認識結果の候補
を一定量蓄積し、それをまとめて出力する認識結果保持
部と、 一つ前の発声に対し言語処理部において前向きの動的計
画法を用いた言語処理により得られている結果を記憶
し、これを出力する文脈記憶部と、 前記認識結果保持部と前記文脈記憶部の出力からラティ
スを構成するラティス構成部と、 前記ラティス構成部から出力されるラティスに対し該ラ
ティスの左端から特定の発声に向かって前向きに動的計
画法を用いて言語処理を行い、同時に、該ラティスの右
端から同じ発声に向かって後向きに動的計画法を用いて
言語処理を行ない、それぞれの結果を用いて、該発声の
各候補について、該候補を含む最適パスの累積スコアを
求めることにより、その発声の候補の順位を並べ替え、
前向きの動的計画法による前記処理の結果を前記文脈記
憶部に送出する言語処理部と、 を備えたことを特徴とする音声認識装置。 - 【請求項3】単語毎に発声された入力音声を分析する音
響処理部と、 予め分析された音声の標準パターンを持つ標準パターン
記憶部と、前記 標準パターン記憶部に記憶された各標準パターンと
分析された入力音声との類似する度合を示す音響尤度を
求め、発声毎の認識結果の一つ以上の候補を音響尤度と
ともに出力する音声認識部と、 音声認識部から出力された発声毎の認識結果の候補を一
定量蓄積し、それをまとめて出力する認識結果保持部
と、 前記認識結果保持部の出力からラティスを構成するラテ
ィス構成部と、 前記ラティス構成部から出力されるラティスに対し該ラ
ティスの左端から特定の発声に向かって前向きに動的計
画法を用いて言語処理を行ない、同時に、該ラティスの
右端から同じ発声に向かって後向きに動的計画法を用い
て言語処理を行ない、それぞれの結果を用いて、該発声
の各候補について、該候補を含む最適パスの累積スコア
を求めることにより、該発声の候補の順位を並べ替える
言語処理部と、 を備えたことを特徴とする音声認識装置。 - 【請求項4】前記ラティス構成部が出力するラティスに
対し、該ラティス中の発声すべてについて言語処理を適
用した最適な認識結果列を得ることを特徴とする請求項
2又は3記載の音声認識装置。 - 【請求項5】言語処理により得られた最適な認識結果列
のうち、認識結果候補を最適な順番に並べ替えた発声を
含みそれ以降の発声に対する認識結果列を表示すること
により、発声に遅れることなく認識結果を表示し、か
つ、後続の発声で認識結果が更新されれば順次書き換え
ていくことを特徴とする請求項4記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9227584A JP3050180B2 (ja) | 1997-08-08 | 1997-08-08 | 音声認識装置 |
EP98115009A EP0896320B1 (en) | 1997-08-08 | 1998-08-10 | System for sorting prospective speech recognition results, obtained by a language processor, in optimized order |
US09/131,547 US6088672A (en) | 1997-08-08 | 1998-08-10 | Voice recognition system capable of sorting prospective recognition results obtained for a voice in optimized order by a language processing |
DE69834366T DE69834366T2 (de) | 1997-08-08 | 1998-08-10 | Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9227584A JP3050180B2 (ja) | 1997-08-08 | 1997-08-08 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1152980A JPH1152980A (ja) | 1999-02-26 |
JP3050180B2 true JP3050180B2 (ja) | 2000-06-12 |
Family
ID=16863215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9227584A Expired - Fee Related JP3050180B2 (ja) | 1997-08-08 | 1997-08-08 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6088672A (ja) |
EP (1) | EP0896320B1 (ja) |
JP (1) | JP3050180B2 (ja) |
DE (1) | DE69834366T2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040267529A1 (en) * | 2003-06-24 | 2004-12-30 | Aurilab, Llc | N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram |
US8478578B2 (en) * | 2008-01-09 | 2013-07-02 | Fluential, Llc | Mobile speech-to-speech interpretation system |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
JP3003276B2 (ja) * | 1991-06-19 | 2000-01-24 | 松下電器産業株式会社 | 信号解析装置 |
JP3114468B2 (ja) * | 1993-11-25 | 2000-12-04 | 松下電器産業株式会社 | 音声認識方法 |
JP3311460B2 (ja) * | 1994-01-28 | 2002-08-05 | 富士通株式会社 | 音声認識装置 |
US5655058A (en) * | 1994-04-12 | 1997-08-05 | Xerox Corporation | Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications |
DE4412930A1 (de) * | 1994-04-15 | 1995-10-19 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern |
JP3280825B2 (ja) * | 1995-04-26 | 2002-05-13 | 富士通株式会社 | 音声特徴分析装置 |
-
1997
- 1997-08-08 JP JP9227584A patent/JP3050180B2/ja not_active Expired - Fee Related
-
1998
- 1998-08-10 EP EP98115009A patent/EP0896320B1/en not_active Expired - Lifetime
- 1998-08-10 DE DE69834366T patent/DE69834366T2/de not_active Expired - Lifetime
- 1998-08-10 US US09/131,547 patent/US6088672A/en not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
Proceedings of Coling,15th,Vol.1,"A Stocahstic Japanese Morphological Analyzer Using a Forward−DP Backward−A* N−Best Search Algorithm",p.210−207,(1994) |
情報処理学会研究報告[自然言語処理]Vol.94,No.47,NL−101,「前向きDP後向きA*アルゴリズムを用いた確率的日本語形態素解析システム」p.73−80,(1994/5/27) |
日本音響学会平成9年度秋季研究発表会講演論文集▲I▼ 2−1−5「音声による文章入力のための言語モデル適用法の検討」p.57−58(平成9年9月17日発行) |
電子情報通信学会技術研究報告[言語理解とコミュニケーション]Vol.90,No.116,NLC90−8,「接続コスト最小法による形態素解析の提案と計算量の評価について」p.17−24(1990年7月3日発行) |
Also Published As
Publication number | Publication date |
---|---|
US6088672A (en) | 2000-07-11 |
EP0896320A2 (en) | 1999-02-10 |
EP0896320A3 (en) | 1999-09-01 |
EP0896320B1 (en) | 2006-05-03 |
DE69834366T2 (de) | 2007-04-19 |
DE69834366D1 (de) | 2006-06-08 |
JPH1152980A (ja) | 1999-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3049259B2 (ja) | 音声認識方法 | |
US5241619A (en) | Word dependent N-best search method | |
EP0706171B1 (en) | Speech recognition method and apparatus | |
US6424943B1 (en) | Non-interactive enrollment in speech recognition | |
US6343270B1 (en) | Method for increasing dialect precision and usability in speech recognition and text-to-speech systems | |
EP0720147A1 (en) | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization | |
EP0867857A2 (en) | Enrolment in speech recognition | |
US20010011218A1 (en) | A system and apparatus for recognizing speech | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
EP1209659B1 (en) | Method and apparatus for text input utilizing speech recognition | |
US7233899B2 (en) | Speech recognition system using normalized voiced segment spectrogram analysis | |
US20020038207A1 (en) | Systems and methods for word prediction and speech recognition | |
US7072835B2 (en) | Method and apparatus for speech recognition | |
US6236962B1 (en) | Speech processing apparatus and method and computer readable medium encoded with a program for recognizing input speech by performing searches based on a normalized current feature parameter | |
JP3634863B2 (ja) | 音声認識システム | |
JP4298672B2 (ja) | 混合分布hmmの状態の出力確率計算方法および装置 | |
JP3948260B2 (ja) | テキスト入力方法及びその装置 | |
JP3050180B2 (ja) | 音声認識装置 | |
JPH11143486A (ja) | 話者適応装置および方法 | |
Wang et al. | A multi-space distribution (MSD) approach to speech recognition of tonal languages | |
JP4586386B2 (ja) | 素片接続型音声合成装置及び方法 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3252802B2 (ja) | 音声認識装置 | |
JP3265864B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20000229 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080331 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090331 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090331 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100331 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |