JP4600705B2 - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体 Download PDF

Info

Publication number
JP4600705B2
JP4600705B2 JP2000051464A JP2000051464A JP4600705B2 JP 4600705 B2 JP4600705 B2 JP 4600705B2 JP 2000051464 A JP2000051464 A JP 2000051464A JP 2000051464 A JP2000051464 A JP 2000051464A JP 4600705 B2 JP4600705 B2 JP 4600705B2
Authority
JP
Japan
Prior art keywords
word
score
words
speech recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000051464A
Other languages
English (en)
Other versions
JP2001242883A (ja
Inventor
浩明 小川
活樹 南野
康治 浅野
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000051464A priority Critical patent/JP4600705B2/ja
Publication of JP2001242883A publication Critical patent/JP2001242883A/ja
Application granted granted Critical
Publication of JP4600705B2 publication Critical patent/JP4600705B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、例えば、高速、かつ高精度な音声認識を行うことができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【0002】
【従来の技術】
図1は、従来の音声認識装置の一例の構成を示している。
【0003】
ユーザが発した音声は、マイク(マイクロフォン)1に入力され、マイク1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部2に供給される。AD変換部2では、マイク1からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部3に供給される。
【0004】
特徴抽出部3は、AD変換部2からの音声データについて、適当なフレームごとに音響処理を施し、これにより、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部4に供給する。なお、特徴抽出部3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【0005】
マッチング部4は、特徴抽出部3からの特徴量を用いて、音響モデルデータベース5、辞書データベース6、および文法データベース7を必要に応じて参照しながら、マイク1に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて音声認識する。
【0006】
即ち、音響モデルデータベース5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMM(Hidden Markov Model)が用いられる。辞書データベース6は、認識対象の各単語について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法データベース7は、辞書データベース6の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則(言語モデル)を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0007】
マッチング部4は、辞書データベース6の単語辞書を参照することにより、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部4は、幾つかの単語モデルを、文法データベース7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布HMM法によって、マイク1に入力された音声を認識する。即ち、マッチング部4は、特徴抽出部3が出力する時系列の特徴量が観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【0008】
即ち、マッチング部4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0009】
スコア計算は、一般に、音響モデルデータベース5に記憶された音響モデルによって与えられる音響的なスコア(以下、適宜、音響スコアという)と、文法データベース7に記憶された文法規則によって与えられる言語的なスコア(以下、適宜、言語スコアという)とを総合評価することで行われる。
【0010】
即ち、音響スコアは、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部3が出力する特徴量の系列が観測される確率(出現する確率)に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア(以下、適宜、最終スコアという)に基づいて、音声認識結果が確定される。
【0011】
具体的には、あるN個の単語からなる単語列におけるk番目の単語をwkとして、その単語wkの音響スコアをA(wk)と、言語スコアをL(wk)と、それぞれ表すとき、その単語列の最終スコアSは、例えば、次式にしたがって計算される。
【0012】
S=Σ(A(wk)+Ck×L(wk))・・・(1)
但し、Σは、kを1からNに変えてのサメーションをとることを表す。また、Ckは、単語wkの言語スコアL(wk)にかける重みを表す。
【0013】
マッチング部4では、例えば、式(1)に示す最終スコアを最も大きくするNと、単語列w1,w2,・・・,wNを求めるマッチング処理が行われ、その単語列w1,w2,・・・,wNが、音声認識結果として出力される。
【0014】
以上のような処理が行われることにより、図1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【0015】
ところで、上述の場合において、辞書データベース6の単語辞書に、「ニューヨーク」、「に」、「行きたい」、および「です」の5単語が登録されているとすると、これらの5単語を用いて構成しうる5単語の並びは、55通り存在する。従って、単純には、マッチング部4では、この55通りの単語列を評価し、その中から、ユーザの発話に最も適合するもの(最終スコアを最も大きくするもの)を決定しなければならない。そして、単語辞書に登録する単語数が増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は、膨大な数となる。
【0016】
さらに、一般には、発話中に含まれる単語の数は未知であるから、5単語の並びからなる単語列だけでなく、1単語、2単語、・・・からなる単語列も、評価の対象とする必要がある。従って、評価すべき単語列の数は、さらに膨大なものとなるから、そのような膨大な単語列の中から、音声認識結果として最も確からしいものを、計算量および使用するメモリ容量の観点から効率的に決定することは、非常に重要な問題である。
【0017】
計算量およびメモリ容量の効率化を図る方法としては、例えば、音響スコアを求める過程において、その途中で得られる音響スコアが所定の閾値以下となった場合に、そのスコア計算を打ち切るという音響的な枝刈り手法や、言語スコアに基づいて、スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。
【0018】
これらの枝刈り手法によれば、スコア計算の対象が、所定の判断基準(例えば、上述したような計算途中の音響スコアや、単語に与えられる言語スコア)に基づいて絞り込まれることで、計算量の削減を図ることができる。しかしながら、その反面、絞り込みを強くすると、即ち、判断基準を厳しくすると、本来、音声認識結果として正しいものまでも枝刈りされてしまい、誤認識が生じることになる。従って、枝刈り手法による場合には、音声認識結果として正しいものが枝刈りされないように、ある程度のマージンをもたせた絞り込みを行う必要があり、このため、計算量を大きく削減することは困難である。
【0019】
また、音響スコアを求める場合に、スコア計算の対象となっているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語についての音響スコアの計算の一部を共通化(共有化)する方法が提案されている。この共通化の方法としては、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の異なる音韻には、音響モデルを個々に用いることにより、全体として1つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。具体的には、例えば、いま、単語「秋田」と「曙」を考え、「秋田」の音韻情報が「akita」であり、「曙」の音韻情報が「akebono」であるとすると、単語「秋田」と「曙」の音響スコアは、それぞれの先頭から2番目までの同一の音韻a,kについては兼用で計算される。そして、単語「秋田」の残りの音韻k,i,t,a、および単語「曙」の残りの音韻e,b,o,n,oについては、それぞれ独立に音響スコアが計算される。
【0020】
従って、この方法によれば、音響スコアの計算量を大幅に低減することができる。
【0021】
しかしながら、この方法では、共通化されている部分(音響スコアが兼用で計算される部分)において、その音響スコアの計算の対象となっている単語を決定することができない。即ち、上述の単語「秋田」と「曙」の例でいえば、それぞれの先頭から2番目までの音韻a,kについて音響スコアが計算されている場合は、その音響スコアが計算されている単語が、「秋田」であるのか、または「曙」であるのかを同定することができない。
【0022】
そして、この場合、「秋田」については、その3番目の音韻iについて音響スコアの計算が開始されたときに、その計算対象が「秋田」であることを同定することができ、「曙」についても、その3番目の音韻eについての音響スコアの計算が開始されたときに、その計算対象が「曙」であることを同定することができる。
【0023】
従って、音響スコアの計算の一部を共通化してしまうと、単語の音響スコアの計算の開始時に、その単語を同定することができないため、その単語について、言語スコアを考慮することができない。その結果、単語の音響スコアの開始前に、上述したような言語的な枝刈り手法を用いることが困難となり、無駄な計算が行われることがある。
【0024】
さらに、音響スコアの計算の一部を共通化する場合、単語辞書のすべての単語を対象として、上述したような木構造のネットワークが構成されるから、これを保持するための大きなメモリ容量が必要となる。
【0025】
また、計算量およびメモリ容量の効率化を図る方法としては、音響スコアを計算する場合に、単語辞書のすべての単語を対象とするのではなく、その音響スコアの計算の対象とする単語を予備的に選択(予備選択)し、その予備選択された単語についてだけ、音響スコアを計算する方法がある。ここで、予備選択は、例えば、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。
【0026】
なお、予備選択の方法は、例えば、L. R. Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and R. L. Mercer, "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc., vol. 1, pp.59-67, 1993等に記載されている。
【0027】
ところで、単語の音響スコアは、音声の特徴量の系列を用いて計算されるが、その計算に使用する特徴量の系列の始点や終点が異なれば、求められる音響スコアも変化する。そして、この変化は、音響スコアと言語スコアとを総合評価して求められる式(1)の最終スコアに影響する。
【0028】
ある単語に対応する特徴量の系列の始点および終点、即ち、単語どうしの境界(単語境界)は、例えば、動的計画法(Dynamic Programming)を用いて求めることができる。即ち、特徴量の系列の任意の点を、単語境界の候補とし、音声認識結果の候補となる単語列の単語について、その音響スコアと言語スコアとを総合評価したスコア(以下、適宜、単語スコアという)を、逐次累積していく。そして、その単語スコアの累積の際に、最も大きい累積値を与える単語境界の候補を、その累積値とともに記憶していく。
【0029】
これにより、最終的な単語スコアの累積値が求めらると、最も良い累積値、即ち、最も大きい最終スコアを与える単語境界も求められる。
【0030】
上述のようにして単語境界を求める方法は、ビタビデコーディング(Viterbi decoding)、あるいはワンパスデコーディング(One pass decoding)等と呼ばれ、例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、pp.20-26、1988年7月1日等に、その詳細が記載されている。
【0031】
上述の予備選択を効果的に行うには、単語境界をどこにするか、即ち、特徴量の系列(特徴量系列)のどの点を始点とするかが非常に重要である。
【0032】
具体的には、例えば、図2(A)に示すような、音声「今日はいい天気ですね」について得られた特徴量系列において、「今日」と「は」との正しい単語境界が、時刻t1である場合において、単語「今日」に続く単語「は」に関して予備選択を行うときに、正しい時刻t1より先行する時刻t1-1を始点として予備選択を行うと、その予備選択には、単語「は」の特徴量だけでなく、その直前の単語「今日」の最後の部分の特徴量が影響する。一方、正しい時刻t1より後行する時刻t1+1を始点として予備選択を行うと、その予備選択においては、単語「は」の最初の部分の特徴量が用いられないことになる。
【0033】
従って、いずれにしても、始点を誤ると、予備選択、ひいては、その後に行われるマッチング処理に悪影響を与えることとなる。
【0034】
なお、図2においては(後述する図5および図6においても同様)、左から右方向が、時間の経過を表しており、また、音声区間の開始時刻を0として、音声区間は時刻Tで終了するものとしてある。
【0035】
上述した動的計画法を用いる方法では、特徴量系列の最後、即ち、図2においては、音声区間の終了時刻Tまでの単語スコア(音響スコアおよび言語スコア)の計算が終了しないと、最終的な単語境界を決定することができないため、予備選択を行う段階では、その予備選択の始点となる単語境界を一意に決定することは困難である。
【0036】
そこで、単語境界の候補を、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで保持しておく方法がある。
【0037】
この方法では、例えば、音声区間の開始時刻0を始点として、単語「今日」の単語スコアを計算した場合に、時刻t1-1,t1,t1+1が、単語「今日」の発話の終点の候補として求まったとすると、この3通りの時刻t1-1,t1,t1+1が保持され、それぞれを始点として、次の単語の予備選択が行われる。
【0038】
いま、この予備選択によって、時刻t1-1を始点とした場合には、「は」と「いい」の2単語が、時刻t1を始点とした場合には、「は」の1単語が、時刻t1+1を始点とした場合には、「は」と「いい」の2単語が、それぞれ得られたとし、さらに、これらの各単語を対象として単語スコアの計算を行うことにより、図2(B)乃至図2(G)に示すような結果が得られたとする。
【0039】
即ち、図2(B)は、時刻t1-1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示しており、図2(C)は、時刻t1-1を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻t2+1が得られた状態を示している。また、図2(D)は、時刻t1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2+1が得られた状態を示しており、図2(E)は、時刻t1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示している。さらに、図2(F)は、時刻t1+1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示しており、図2(G)は、時刻t1+1を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻t2+2が得られた状態を示している。なお、図2においては、t1-1<t1<t1+1<t2<t2+1<t2+2となっている。
【0040】
図2(B)乃至図2(G)のうち、図2(B)、図2(E)、および図2(F)に示したものについては、いずれも、音声認識結果の候補としての単語列が、「今日」、「は」で同一あり、さらに、その単語列の最後「は」の終点も、時刻t2で同一であるから、その中から最も適切なものを、例えば、時刻t2までの単語スコアの累積値等に基づいて選び、残りを破棄することが可能である。
【0041】
しかしながら、いまの時点では、図2(B)、図2(E)、または図2(F)のうちから選んだものに、図2(C)、図2(D)、図2(G)に示したものを加えた中から、正しいものを確定することはできないから、これらの4通りの場合を保持しておく必要がある。そして、この4通りの場合それぞれについて、再び、予備選択を行っていくことになる。
【0042】
従って、この方法では、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで、多くの単語境界の候補を保持しながら、単語スコアの計算を行っていく必要があり、計算量およびメモリ容量の効率化の観点からは好ましくない。
【0043】
また、この場合、単語境界の候補として、真に正しい単語境界を保持していれば、原理的には、上述の動的計画法を用いた場合と同様の正しい単語境界を、最終的に得ることができるが、その反面、単語境界の候補として、真に正しい単語境界を保持し損ねると、その単語境界を始点または終点とする単語を誤認識し、さらには、それに起因して、その後に続く単語も誤認識することがある。
【0044】
一方、近年においては、音響モデルとして、前後のコンテキストに依存するもの(考慮したもの)が用いられるようになってきている。前後のコンテキストに依存する音響モデルとは、同一の音節(または音素)の音響モデルであっても、その直前や直後の音節によって異なるものとしてモデル化したもので、従って、例えば、音節「あ」は、その直前や直後の音節が、例えば、「か」の場合と「さ」の場合とで、異なる音響モデルにモデル化される。
【0045】
前後のコンテキストに依存する音響モデルとしては、大きく分けて、単語内のコンテキストに依存する音響モデルと、単語間にまたがるコンテキストに依存する音響モデルとがある。
【0046】
単語内のコンテキストに依存する音響モデルを用いる場合には、「今日」(きょう)という単語モデルを、音響モデル「きょ」と「う」とを連結して作成するときに、音響モデル「きょ」として、その直後の音節「う」に依存したもの(直後の音節「う」の影響を考慮した音響モデル「きょ」)が用いられ、あるいは、音響モデル「う」として、その直前の音節「きょ」に依存したものが用いられる。
【0047】
一方、単語間にまたがるコンテキストに依存する音響モデルを用いる場合には、上述のように、「今日」という単語モデルを、音響モデル「きょ」と「う」とを連結して作成するときに、その後につづく単語が「は」であれば、音響モデル「う」として、その直後の単語の最初の音節「は」に依存したものが用いられる。この単語間にまたがるコンテキストに依存する音響モデルは、クロスワードモデルと呼ばれる。
【0048】
このクロスワードモデルを、予備選択を行う音声認識に適用した場合には、予備選択された単語について、その直前の単語との間のコンテキストは考慮することができるが、その直後の単語は、まだ決まっていないから、その直後の単語との間のコンテキストは考慮することができない。
【0049】
そこで、予備選択される単語について、その単語の直後に位置する可能性の高い単語を、あらかじめ求めておき、その単語との間のコンテキストを考慮して、単語モデルを作成する方法がある。即ち、例えば、単語「今日」について、その直後に、「は」や、「が」、「の」などが位置する可能性が高い場合には、単語「今日」の単語モデルの最後の音節に対応する音響モデル「う」として、「は」、「が」、「の」をそれぞれ考慮したものを用いて、単語モデルを作成する方法がある。
【0050】
しかしながら、この方法では、余分なコンテキストまでも必ず考慮してしまうため、演算量およびメモリ容量の効率化の観点からは好ましくない。
【0051】
また、同様の理由から、予備選択された単語について、その言語スコアを、その直後の単語を考慮して計算することも困難である。
【0052】
一方、注目している単語(注目単語)に対して先行する単語だけでなく、後行する単語も考慮した音声認識方法としては、例えば、R. Schwartz and Y. L. Chow, "The N-Best Algorithm: An Efficient and Exact Procedure for Finding The Most Likely Sentence Hypotheses", Proc. ICASSP, pp.81-84, 1990に記載されているような、2パスデコーディング(2 pass decoding)と呼ばれる方法がある。
【0053】
即ち、図3は、2パスデコーディングによる音声認識を行う、従来の音声認識装置の一例の概略構成を示している。
【0054】
図3において、マッチング部41は、例えば、図1のマッチング部4と同様のマッチング処理を行い、その結果得られる単語列を出力する。但し、マッチング部41は、マッチング処理の結果得られる複数の単語列から、最終的な音声認識結果となるものを1つだけ出力するのではなく、音声認識結果の候補として確からしいものを複数出力する。
【0055】
マッチング部41の出力は、マッチング部42に供給され、マッチング部42は、マッチング部41が出力する複数の単語列それぞれについて、その単語列を音声認識結果とすることの確からしさを再評価するマッチング処理を行う。即ち、マッチング部41が出力する音声認識結果としての単語列においては、ある単語の直前の単語だけでなく、直後の単語も存在するから、マッチング部42では、直前の単語だけでなく、直後の単語も考慮して、クロスワードモデルによって、音響スコアや言語スコアが新たに求められる。そして、マッチング部42は、マッチング部41からの複数の単語列から、各単語列の新たな音響スコアおよび言語スコアに基づいて、音声認識結果として確からしいものを決定して出力する。
【0056】
なお、以上のような2パスデコーディングでは、一般に、最初のマッチング処理を行うマッチング部41では、精度のそれほど高くない、簡易な音響モデル、単語辞書、および文法規則が用いられ、後段のマッチング処理を行うマッチング部42では、高精度の音響モデル、単語辞書、文法規則が用いられる。これにより、図3の音声認識装置では、マッチング部41と42それぞれにおける処理量が、相互に緩和される一方、精度の高い音声認識結果を得ることができるようになっている。
【0057】
図3は、上述のように、2パスデコーディングの音声認識装置であるが、図3の後段のマッチング部42の後段に、同様のマッチング部を追加したマルチパスデコーディング(multi pass decoding)の音声認識装置も提案されている。
【0058】
しかしながら、2パスデコーディングやマルチパスデコーディングでは、最初のマッチング処理が終了するまで、次のマッチング処理を行うことができない。従って、音声の入力があってから、最終的な音声認識結果が出力されるまでの遅延時間が大になる。
【0059】
そこで、例えば、幾つかの単語についての最初のマッチング処理が終了した時点で、その幾つかの単語については、クロスワードモデルを適用して後段のマッチング処理を行うことを逐次的に繰り返す方法が、例えば、M. Schuster, "Evaluation of a Stack Decoder on a Japanese Newspaper Dictation Task", 音講論, 1-R-12, pp.141-142, 1997等で提案されている。
【0060】
【発明が解決しようとする課題】
しかしながら、マッチング処理を逐次的に繰り返す方法でも、最初のマッチング処理においては、予備選択された単語の直後の単語は、まだ決まっていないから、その直後の単語との間のコンテキストを考慮することは困難である。
【0061】
本発明は、このような状況に鑑みてなされたものであり、単語についての音響的または言語的な評価を、その直後の単語も考慮して行うことができるようにするものである。
【0062】
【課題を解決するための手段】
本発明の音声認識装置は、音声認識の対象とする単語群から、既にスコアの計算がされた単語に接続される単語の候補である候補単語と、候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択手段と、ユーザが発した音声の特徴量を、特徴量が抽出された抽出時刻とともに保持する保持手段と、スコアを計算済みの単語発話の終了時刻に基づいて、保持手段から、候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出し手段と、候補単語のスコアを計算するスコア計算手段と、時刻情報を有する、単語どうしの境界を表すノードを介して、計算されたスコアを有する、候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、単語接続情報において、複数のパス毎に、パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、音声認識結果となる単語列を確定する確定手段とを備え、単語列選択手段は、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、単語群が登録されており、単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び特徴量の系列に基づいて、単語辞書に登録されている単語群から単語列を選択し、スコア計算手段は、第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び特徴量の系列に基づいて、候補単語のスコアを計算する。
【0063】
スコア計算手段には、第2の辞書データベース及び第2の音響モデルデータベースを用いて構成される候補単語の単語モデルに基づき、読み出し手段により読み出された特徴量の系列を用いて、候補単語についての音響的なスコアを算出させ、第2の文法データベースに基づいて、候補単語についての言語的なスコアを算出させ、算出した音響的なスコアおよび言語的なスコアを総合評価して得られる候補単語のスコアを計算させることができる。
【0064】
また、スコア計算手段には、第2の文法データベースに基づき、候補単語の前後の単語に応じて、候補単語についての言語的なスコアを計算させることができる。
【0065】
本発明の音声認識装置には、音声認識の対象とする単語群を記憶している記憶手段として、第1の辞書データベースをさらに設けることができる。
【0066】
また、本発明の音声認識装置には、音声から、その特徴量を抽出する抽出手段をさらに設けることができ、この場合、保持手段には、抽出手段により抽出された特徴量を、抽出時刻とともに保持させ、スコア計算手段には、候補単語の単語モデルに基づき、読み出し手段により読み出された特徴量の系列を用いて、前記候補単語についての音響的なスコアを算出させることができる。
【0067】
本発明の音声認識方法は、音声認識の対象とする単語群から、既にスコアの計算がされた単語に接続される単語の候補である候補単語と、候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択ステップと、スコアを計算済みの単語発話の終了時刻に基づいて、ユーザが発した音声の特徴量を、特徴量が抽出された抽出時刻とともに保持する保持手段から、候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出しステップと、候補単語のスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算されたスコアを有する、候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶させる接続関係記憶ステップと、単語接続情報において、複数のパス毎に、パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを備え、単語列選択ステップは、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、単語群が登録されており、単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び特徴量の系列に基づいて、単語辞書に登録されている単語群から単語列を選択し、スコア計算ステップは、第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び特徴量の系列に基づいて、候補単語のスコアを計算する。
【0068】
本発明の記録媒体は、音声認識の対象とする単語群から、既にスコアの計算がされた単語に接続される単語の候補である候補単語と、候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択ステップと、スコアを計算済みの単語発話の終了時刻に基づいて、ユーザが発した音声の特徴量を、特徴量が抽出された抽出時刻とともに保持する保持手段から、候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出しステップと、候補単語のスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算されたスコアを有する、候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶させる接続関係記憶ステップと、単語接続情報において、複数のパス毎に、パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを含み、単語列選択ステップは、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、単語群が登録されており、単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び特徴量の系列に基づいて、単語辞書に登録されている単語群から単語列を選択し、スコア計算ステップは、第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び特徴量の系列に基づいて、候補単語のスコアを計算する音声認識処理を、コンピュータに行なわせるプログラムを記録している。
【0069】
本発明の音声認識装置および音声認識方法、並びに記録媒体においては、音声認識の対象とする単語群から、既にスコアの計算がされた単語に接続される単語の候補である候補単語と、候補単語に連続して続く単語の候補である1以上の単語とからなる単語列が選択され、スコアを計算済みの単語発話の終了時刻に基づいて、ユーザが発した音声の特徴量を、特徴量が抽出された抽出時刻とともに保持する保持手段から、候補単語のスコアを計算するために用いる特徴量の系列が読み出され候補単語のスコアが計算される。そして、時刻情報を有する、単語どうしの境界を表すノードを介して、計算されたスコアを有する、候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報が記憶され、単語接続情報において、複数のパス毎に、パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、音声認識結果となる単語列が確定される。なお、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、単語群が登録されており、単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び特徴量の系列に基づいて、単語辞書に登録されている単語群から単語列が選択され、第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び特徴量の系列に基づいて、候補単語のスコアが計算される。
【0070】
【発明の実施の形態】
図4は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0071】
特徴量抽出部3が出力する、ユーザが発した音声の特徴量の系列は、フレーム単位で、制御部11に供給されるようになっており、制御部11は、特徴量抽出部3からの特徴量を、特徴量記憶部12に供給する。
【0072】
また、制御部11は、単語接続情報記憶部16に記憶された単語接続情報を参照し、マッチング部14や再評価部15を制御する。さらに、制御部11は、マッチング部14が、前述した図1のマッチング部4と同様のマッチング処理を行うことにより得られるマッチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部16の記憶内容を更新する。また、制御部11は、再評価部15の出力に基づいて、単語接続情報記憶部16の記憶内容を修正する。さらに、制御部11は、単語接続情報記憶部16に記憶された単語接続情報に基づいて、最終的な音声認識結果を確定して出力する。
【0073】
特徴量記憶部12は、制御部11から供給される特徴量の系列を、例えば、ユーザの音声の認識結果が得られるまで記憶する。なお、制御部11は、音声区間の開始時刻を基準(例えば0)とする、特徴抽出部3が出力する特徴量が得られた時刻(以下、適宜、抽出時刻という)を、その特徴量とともに、特徴量記憶部12に供給するようになっており、特徴量記憶部12は、特徴量を、その抽出時刻とともに記憶する。
【0074】
単語予備選択部13は、マッチング部14からの要求に応じ、単語接続情報記憶部16、音響モデルデータベース17A、辞書データベース18A、および文法データベース19Aを必要に応じて参照しながら、マッチング部14でマッチング処理の対象とする単語を選択する単語予備選択処理を、特徴量記憶部12に記憶された特徴量を用いて行う。但し、本実施の形態では、単語予備選択部13は、マッチング処理の対象とする単語の他、発話において、その単語の直後の単語である可能性が高いものも選択し、その2つの単語でなる単語列を、単語予備選択処理の結果として、マッチング部14に供給する。
【0075】
ここで、上述のように単語予備選択部13が単語予備選択処理の結果として出力する単語列を構成する2つの単語のうち、先頭の単語を第1単語と、2番目の単語を第2単語という。
【0076】
マッチング部14は、制御部11からの制御に基づき、単語接続情報記憶部16、音響モデルデータベース17B、辞書データベース18B、および文法データベース19Bを必要に応じて参照しながら、単語予備選択部13からの単語予備選択処理の結果得られる単語列の第1単語を対象としたマッチング処理を、特徴量記憶部12に記憶された特徴量を用いて行い、そのマッチング処理の結果を、制御部11に供給する。
【0077】
再評価部15は、制御部11からの制御に基づき、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを必要に応じて参照しながら、単語接続情報記憶部16に記憶された単語接続情報の再評価を、特徴量記憶部12に記憶された特徴量を用いて行い、その再評価結果を制御部11に供給する。
【0078】
単語接続情報記憶部16は、制御部11から供給される単語接続情報を、ユーザの音声の認識結果が得られるまで記憶する。
【0079】
ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続(連鎖または連接)関係を表すもので、各単語の音響スコアおよび言語スコア、並びに各単語に対応する発話の開始時刻および終了時刻も含んでいる。
【0080】
即ち、図5は、単語接続情報記憶部16に記憶される単語接続情報を、グラフ構造を用いて示している。
【0081】
図5の実施の形態において、単語接続情報としてのグラフ構造は、単語を表すアーク(図5において、○印どうしを結ぶ線分で示す部分)と、単語どうしの境界を表すノード(図5において○印で示す部分)とから構成されている。
【0082】
ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を0とする、特徴抽出部3が出力する特徴量が得られた時刻であるから、図5において、音声区間の開始、即ち、最初の単語の先頭に対応するノードNode1が有する時刻情報は0となる。ノードは、アークの始端および終端となるが、始端のノード(始端ノード)、または終端のノード(終端ノード)が有する時刻情報は、それぞれ、そのノードに対応する単語の発話の開始時刻、または終了時刻となる。
【0083】
なお、図5では、左から右方向が、時間の経過を表しており、従って、あるアークの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノードとなる。
【0084】
アークは、そのアークに対応する単語の音響スコアおよび言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ノードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されていく。
【0085】
即ち、制御部11においては、まず最初に、音声区間の開始を表すノードNode1に対して、音声認識結果として確からしい単語に対応するアークが接続される。図5の実施の形態では、「今日」に対応するアークArc1、「いい」に対応するアークArc6、および「天気」に対応するArc11が接続されている。なお、音声認識結果として確からしい単語かどうかは、マッチング部14において求められる音響スコアおよび言語スコアに基づいて決定される。
【0086】
そして、以下、同様にして、「今日」に対応するアークArc1の終端である終端ノードNode2、「いい」に対応するアークArc6の終端である終端ノードNode7、「天気」に対応するArc11の終端である終端ノードNode12それぞれに対して、同様に、確からしい単語に対応するアークが接続されていく。
【0087】
以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される1以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後(図5の実施の形態では、時刻T)に到達すると、制御部11において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが有している音響スコアおよび言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。
【0088】
具体的には、例えば、図5において、ノードNode1から、「今日」に対応するアークArc1、ノードNode2、「は」に対応するアークArc2、ノードNode3、「いい」に対応するアークArc3、ノードNode4、「天気」に対応するアークArc4、ノードNode5、「ですね」に対応するアークArc5、およびノードNode6で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。
【0089】
なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコアから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る(その後に、アークを接続しない)ようにすることが可能である。
【0090】
また、上述のようなパスの構成ルールに従えば、1つのアークの終端が、次に接続される1以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、1つのアークの終端が、他のアークの終端に一致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードに共通化される場合がある。
【0091】
即ち、文法規則としてバイグラムを用いた場合には、別のノードから延びる2つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一であるときには、その2つのアークの終端は一致する。
【0092】
図5において、ノードNode7を始端として延びるアークArc7、およびノードNode13を始端として延びるアークArc13は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、同一のノードNode8に共通化されている。
【0093】
なお、ノードの共通化は行わないようにすることも可能であるが、メモリ容量の効率化の観点からは、行うのが好ましい。
【0094】
また、図5では、文法規則としてバイグラムを用いているが、その他、例えば、トライグラム等を用いる場合も、ノードの共通化は可能である。
【0095】
図4に戻り、音響モデルデータベース17A,17B、および17Cは、基本的には、図1の音響モデルデータベース5において説明したような音響モデルを記憶している。
【0096】
但し、音響モデルデータベース17Bは、音響モデルデータベース17Aよりも精度の高い処理が可能な高精度の音響モデルを記憶しており、音響モデルデータベース17Cは、音響モデルデータベース17Bよりも精度の高い処理が可能なより高精度の音響モデルを記憶している。即ち、音響モデルデータベース17Aにおいて、各音素や音節について、例えば、前後のコンテキストに依存しない1パターンの音響モデルだけが記憶されているとすると、音響モデルデータベース17Bには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルの他、単語間にまたがるコンテキストに依存する音響モデル、つまり、クロスワードモデルも記憶されている。そして、音響モデルデータベース17Cには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルおよびクロスワードモデルの他、単語内のコンテキストに依存する音響モデルも記憶されている。
【0097】
辞書データベース18A,18B、および18Cは、基本的には、図1の辞書データベース6において説明したような単語辞書を記憶している。
【0098】
即ち、辞書データベース18A乃至18Cの単語辞書には、同一セットの単語が登録されている。但し、辞書データベース18Bの単語辞書は、辞書データベース18Aの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶しており、辞書データベース18Cの単語辞書は、辞書データベース18Bの単語辞書よりもさらに精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、辞書データベース18Aの単語辞書には、例えば、各単語に対して、1通りの音韻情報(読み)だけ登録されているとすると、辞書データベース18Bの単語辞書には、例えば、各単語に対して、複数通りの音韻情報が登録されている。そして、辞書データベース18Cの単語辞書には、例えば、各単語に対して、さらに多くの通りの音韻情報が登録されている。
【0099】
具体的には、例えば、単語「お早う」に対して、辞書データベース18Aの単語辞書には、1通りの音韻情報「おはよう」だけが、辞書データベース18Bの単語辞書には、「おはよう」の他、「おはよー」や「おはよ」が、辞書データベース18Cの単語辞書には、「おはよう」、「おはよー」、および「おはよ」の他、「はよう」や「はよー」が、それぞれ音韻情報として登録されている。
【0100】
文法データベース19A,19B、および19Cは、基本的には、図1の文法データベース7において説明したような文法規則を記憶している。
【0101】
但し、文法データベース19Bは、文法データベース19Aよりも精度の高い処理が可能な高精度の文法規則を記憶しており、文法データベース19Cは、文法データベース19Bよりも精度の高い処理が可能なより高精度の文法規則を記憶している。即ち、文法データベース19Aが、例えば、ユニグラム(単語の生起確率)に基づく文法規則を記憶しているとすると、文法データベース19Bは、例えば、バイグラム(直前の単語との関係を考慮した単語の生起確率)を記憶している。そして、文法データベース19Cは、例えば、トライグラム(直前の単語およびそのさらに1つ前の単語との関係を考慮した単語の生起確率)や文脈自由文法等に基づく文法規則を記憶している。
【0102】
以上のように、音響モデルデータベース17Aには、各音素や音節について、1パターンの音響モデルが、音響モデルデータベース17Bには、各音素や音節について、複数パターンの音響モデルが、音響モデルデータベース17Cには、各音素や音節について、さらに多くのパターンの音響モデルが、それぞれ記憶されている。また、辞書データベース18Aには、各単語について、1通りの音韻情報が、辞書データベース18Bには、各単語について、複数通りの音韻情報が、辞書データベース18Cには、各単語について、さらに多くの通りの音韻情報が、それぞれ記憶されている。そして、文法データベース19Aには、簡易な文法規則が、文法データベース19Bには、精度の高い文法規則が、文法データベース19Cには、さらに精度の高い文法規則が、それぞれ記憶されている。
【0103】
これにより、音響モデルデータベース17A、辞書データベース18A、および文法データベース19Aを参照する単語予備選択部13では、それほど精度は高くないが、多くの単語を対象として、迅速に、音響スコアおよび言語スコアを求めることができるようになっている。また、音響モデルデータベース17B、辞書データベース18B、および文法データベース19Bを参照するマッチング部14では、ある程度の数の単語を対象として、迅速に、精度の高い音響スコアおよび言語スコアを求めることができるようになっている。そして、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを参照する再評価部15では、少ない数の単語を対象として、迅速に、より精度の高い音響スコアおよび言語スコアを求めることができるようになっている。
【0104】
なお、ここでは、音響モデルデータベース17A乃至17Cそれぞれに記憶させる音響モデルの精度について優劣を設けるようにしたが、音響モデルデータベース17A乃至17Cには、いずれにも、同一の音響モデルを記憶させることができ、この場合、音響モデルデータベース17A乃至17Cは、1つの音響モデルデータベースに共通化することができる。同様に、辞書データベース18A乃至18Cの単語辞書それぞれの記憶内容や、文法データベース19A乃至19Cそれぞれの文法規則も、同一にすることができる。
【0105】
次に、図6のフローチャートを参照して、図4の音声認識装置による音声認識処理について説明する。
【0106】
ユーザが発話を行うと、その発話としての音声は、マイク1およびAD変換部2を介することにより、ディジタルの音声データとされ、特徴抽出部3に供給される。特徴抽出部3は、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、制御部11に供給する。
【0107】
制御部11は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部3から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部12に供給して記憶させる。
【0108】
さらに、制御部11は、音声区間の開始後、ステップS1において、音声区間の開始を表すノード(以下、適宜、初期ノードという)を生成し、単語接続情報記憶部16に供給して記憶させる。即ち、制御部11は、ステップS1において、図5におけるノードNode1を、単語接続情報記憶部16に記憶させる。
【0109】
そして、ステップS2に進み、制御部11は、単語接続情報記憶部16の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。
【0110】
即ち、上述したように、図5に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップS2では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード(例えば、図5におけるノードNode8や、Node10,Node11)として検索され、そのような途中ノードが存在するかどうかが判定される。
【0111】
なお、上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノードが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。
【0112】
ステップS2において、途中ノードが存在すると判定された場合、ステップS3に進み、制御部11は、情報接続情報の中に存在する途中ノードのうちの1つを、それに接続するアークとしての単語を決定するノード(以下、適宜、注目ノードという)として選択する。
【0113】
即ち、制御部11は、情報接続情報の中に1つの途中ノードしか存在しない場合には、その途中ノードを、注目ノードとして選択する。また、制御部11は、情報接続情報の中に複数の途中ノードが存在する場合には、その複数の途中ノードのうちの1つを注目ノードとして選択する。具体的には、制御部11は、例えば、複数の途中ノードそれぞれが有する時刻情報を参照し、その時刻情報が表す時刻が最も古いもの(音声区間の開始側のもの)、または最も新しいもの(音声区間の終わり側のもの)を、注目ノードとして選択する。あるいは、また、制御部11は、例えば、初期ノードから、複数の途中ノードそれぞれに至るまでのパスを構成するアークが有する音響スコアおよび言語スコアを累積し、その累積値(以下、適宜、部分累積スコアという)が最も大きくなるパス、または小さくなるパスの終端になっている途中ノードを、注目ノードとして選択する。
【0114】
その後、制御部11は、注目ノードが有する時刻情報を開始時刻としてマッチング処理を行う旨の指令(以下、適宜、マッチング処理指令という)を、マッチング部14および再評価部15に出力する。
【0115】
再評価部15は、制御部11からマッチング処理指令を受信すると、ステップS4に進み、単語接続情報記憶部16を参照することにより、初期ノードから注目ノードに至るまでのパス(以下、適宜、部分パスという)を構成するアークによって表される単語列(以下、適宜、部分単語列という)を認識し、その部分単語列の再評価を行う。即ち、部分単語列は、後述するようにして、単語予備選択部13が予備選択した単語を対象に、マッチング部14がマッチング処理を行うことにより得られた音声認識結果の候補とする単語列の途中結果であるが、再評価部15では、その途中結果が、再度、評価される。
【0116】
具体的には、再評価部15は、部分単語列について、言語スコアおよび音響スコアを再計算するため、部分単語列に対応する特徴量の系列を、特徴量記憶部12から読み出す。即ち、再評価部15は、部分パスの先頭のノードである初期ノードが有する時刻情報が表す時刻から、注目ノードが有する時刻情報が表す時刻までに対応付けられている特徴量の系列(特徴量系列)を、特徴量記憶部12から読み出す。さらに、再評価部15は、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを参照し、特徴量記憶部12から読み出した特徴量系列を用いて、部分単語列について、言語スコアおよび音響スコアを再計算する。なお、この再計算は、部分単語列を構成する各単語の単語境界を固定せずに行われる。従って、再評価部15では、部分単語列の言語スコアおよび音響スコアを再計算することにより、部分単語列について、それを構成する各単語の単語境界の決定が、動的計画法に基づいて行われることになる。
【0117】
再評価部15は、以上のようにして、部分単語列の各単語の言語スコアおよび音響スコア、並びに単語境界を新たに得ると、その新たな言語スコアおよび音響スコアによって、単語接続情報記憶部16の部分単語列に対応する部分パスを構成するアークが有する言語スコアおよび音響スコアを修正するとともに、新たな単語境界によって、単語接続情報記憶部16の部分単語列に対応する部分パスを構成するノードが有する時刻情報を修正する。なお、本実施の形態では、再評価部15による単語接続情報の修正は、制御部11を介して行われるようになっている。
【0118】
即ち、例えば、図7に示すノードNode5が注目ノードとされた場合において、初期ノードNode1から注目ノードNode5に至る部分パスのうちの、例えば、ノードNode3、単語「いい」に対応するアークArc3、ノードNode4、単語「天気」に対応するArc4、およびノードNode5の部分で表される単語列「いい」、「天気」に注目すると、再評価部15は、ノードNode3に対応する時刻からノードNode5に対応する時刻までの特徴量系列を用い、音響モデルデータベース17Cおよび辞書データベース18Cを参照することで、単語「いい」、「天気」それぞれの単語モデルを構成し、音響スコアを計算する。さらに、再評価部15は、文法データベース19Cを参照することで、単語「いい」、「天気」それぞれの言語スコアを計算する。具体的には、例えば、文法データベース19Cに、トライグラムに基づく文法規則が記憶されている場合には、再評価部15は、単語「いい」については、その直前の単語「は」と、さらにその前の単語「今日」を用い、単語が、「今日」、「は」、「いい」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。また、再評価部15は、単語「天気」については、その直前の単語「いい」と、さらにその前の単語「は」を用い、単語が、「は」、「いい」、「天気」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。
【0119】
再評価部15は、以上のようにして求められる音響スコアおよび言語スコアを累積し、その累積値が最も大きくなるように、単語「いい」と「天気」の単語境界を決定する。そして、再評価部15は、そのようにして求まった音響スコアおよび言語スコアによって、単語「いい」に対応するアークArc3と、単語「天気」に対応するArc4がそれぞれ有する音響スコアおよび言語スコアを修正するとともに、決定した単語境界によって、単語「いい」と「天気」の単語境界に対応するノードNode4が有する時刻情報を修正する。
【0120】
従って、再評価部15では、部分単語列の各単語どうしの単語境界が、動的計画法に基づいて決定され、単語接続情報16に記憶された単語接続情報が、逐次修正されていく。そして、この修正された単語接続情報を参照して、単語予備選択部13およびマッチング部14で処理が行われるため、それぞれにおける処理の精度および信頼性を向上させることができる。
【0121】
さらに、再評価部15において単語接続情報の単語境界が修正されるため、単語接続情報として記憶しておく単語境界の候補の数を大幅に削減することができる。
【0122】
即ち、従来においては、例えば、前述の図2で説明したように、単語「今日」と「は」との単語境界の候補として、時刻t1-1,t1,t1+1の3つを保持しておく必要があり、また、正しい単語境界である時刻t1を保持し損ねた場合には、その後のマッチング処理に悪影響を与える。これに対して、再評価部15において単語境界を逐次修正する場合には、例えば、誤った単語境界である時刻t1-1の1つだけしか保持しなかったとしても、再評価部15において、その誤った単語境界である時刻t1-1が、正しい単語境界である時刻t1に修正されるから、その後のマッチング処理に悪影響を与えることはない。
【0123】
また、再評価部15では、部分単語列を構成する単語については、最初と最後の単語を除き、その前と後に接続する単語それぞれを考慮したクロスワードモデルを用いて音響スコアを計算し、さらに、言語スコアの計算も、その前と後に接続する単語をそれぞれ考慮して行うことができ、従って、高精度の処理を行うことができる。しかも、再評価部15の処理は、逐次的に行われるため、前述した2パスデコーディングのような大きな遅延は生じない。
【0124】
図6に戻り、以上のようにして、再評価部15は、単語接続情報記憶部16の単語接続情報の修正を終了すると、その旨を、制御部11を介して、マッチング部14に供給する。
【0125】
マッチング部14は、上述したように、制御部11からマッチング処理指令を受信した後、再評価部15から、制御部11を介して、単語接続情報の修正が終了した旨を受信すると、注目ノードと、それが有する時刻情報とを、単語予備選択部13に供給し、単語予備選択処理を要求する。
【0126】
単語予備選択部13は、マッチング部14から、単語予備選択処理の要求を受信すると、ステップS5において、注目ノードに接続されるアークとなる単語の候補と、その後に続く単語の候補それぞれとしての第1単語と第2単語でなる単語列、つまり、マッチング処理の直接の対象となる第1単語と、その後に続く第2単語からなる単語列を選択する単語予備選択処理を、辞書データベース18Aの単語辞書に登録された単語を対象として行う。
【0127】
即ち、単語予備選択部13は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、単語予備選択部13は、辞書データベース18Aの単語辞書に登録された各単語の単語モデルを、音響モデルデータベース17Aに記憶された音響モデルを接続することで構成し、さらに、例えば、任意の2つの単語モデルを接続して、第1単語と第2単語からなる単語列のモデル(単語列モデル)を構成する。そして、単語予備選択部13は、各単語列モデルに対応する単語列の第1単語と第2単語それぞれについて、特徴量記憶部12から読み出した特徴量の系列を用いて、音響スコアを計算する。
【0128】
また、単語予備選択部13は、各単語列モデルに対応する単語列の言語スコアを、文法データベース19Aに記憶された文法規則に基づいて計算する。即ち、単語予備選択部13は、単語列の第1単語については、例えば、ユニグラムに基づいて、その言語スコアを求め、第2単語については、例えば、第1単語と第2単語とが連鎖する確率を規定するバイグラムに基づいて、その言語スコアを求める。
【0129】
なお、単語予備選択部13において、単語列の第1単語または第2単語の音響スコアの計算は、第2単語または第1単語に依存するクロスワードモデルをそれぞれ用いて行うことが可能である。さらに、単語予備選択部13においては、単語接続情報を参照することにより、第1単語の音響スコアの計算を、第1単語の直前の単語(注目ノードが終端となっているアークに対応する単語)に依存するクロスワードモデルを用いて行うことも可能である。
【0130】
また、単語予備選択部13においては、単語接続情報を参照することにより、第1単語の言語スコアの計算を、第1単語の直前の単語と第1単語とが連鎖する確率を規定するバイグラムに基づいて行ったり、第1単語の2つ前の単語、第1単語の直前の単語、および第1単語が連鎖する確率を規定するトライグラムに基づいて行うことが可能である。同様に、第2単語の言語スコアの計算も、第2単語の2つ前の単語(第1単語の直前の単語)、第2単語の直前の単語である第1単語、および第2単語が連鎖する確率を規定するトライグラムに基づいて行うことが可能である。
【0131】
単語予備選択部13は、以上のようにして、第1単語と第2単語からなる各単語列について音響スコアおよび言語スコアを求めると、その音響スコアおよび言語スコアを総合評価したスコアを、以下、適宜、単語列スコアという)を求め、その上位L個を、マッチング処理に用いる単語列として、マッチング部14に供給する。
【0132】
マッチング部14は、単語予備選択部13から、マッチング処理に用いるL個の単語列(以下、適宜、選択単語列という)を受信すると、ステップS6において、各選択単語列の第1単語を対象として、その前後それぞれの単語に依存するクロスワードモデルを用いたマッチング処理を行う。
【0133】
即ち、マッチング部14は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、マッチング部14は、辞書データベース18Bを参照することで、選択単語列の第1単語の音韻情報を認識し、その音韻情報に対応する音響モデルを、音響モデルデータベース17Bから読み出して接続することで、第1単語の単語モデルを構成する。
【0134】
ここで、マッチング部14は、第1単語の各音素(または音節)に対応する音響モデルとして、その前後の音素(または音節)に依存するものを用いて、第1単語の単語モデルを構成する。従って、マッチング部14では、第1単語の最初の音素については、単語接続情報を参照することにより、第1単語の直前の単語の最後の音素に依存したクロスワードモデルを用いて、第1単語の単語モデルが構成される。また、マッチング部14では、第1単語の最後の音素については、その直後の単語である第2単語の最初の音素に依存したクロスワードモデルを用いて、第1単語の単語モデルが構成される。
【0135】
以上により、例えば、第1単語が「おはよう」で、第2単語が「ございます」である場合においては、第1単語の最後の音素/u/については、その直前の音素/o/(「よ」の母音部分)と、その直後の音素/g/(「ご」の子音部分)とに依存した音響モデル、即ち、第1単語の最後の音素/u/を、より高精度に表す音響モデルを用いて、第1単語「おはよう」の単語モデルが構成される。
【0136】
そして、マッチング部14は、上述のようにして構成した単語モデルに基づき、特徴量記憶部12から読み出した特徴量系列を用いて、第1単語の音響スコアを計算する。
【0137】
また、マッチング部14は、文法データベース19Bを参照することで、第1単語の言語スコアを、その前後の単語を考慮して計算する。即ち、マッチング部14は、例えば、単語接続情報を参照することにより、第1単語の直前の単語と、さらにその前の単語を認識し、第1単語の2つ前の単語、第1単語の直前の単語、および第1単語が連鎖するトライグラムに基づく確率、並びに第1単語および第2単語が連鎖するバイグラムに基づく確率を求める。さらに、マッチング部14は、これらのトライグラムに基づく確率と、バイグラムに基づく確率とから、第1単語の言語スコアを求める。
【0138】
マッチング部14は、以上のようにして、単語予備選択部13からのL個の選択単語列の第1単語すべてについて、その音響スコアおよび言語スコアを求め、ステップS7に進む。ステップS7では、L個の選択単語列の第1単語それぞれについて、その音響スコアおよび言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて、単語接続情報記憶部16に記憶された単語接続情報が更新される。
【0139】
即ち、ステップS7では、マッチング部14は、各選択単語列の第1単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を、第1単語の中から絞り込む。そして、マッチング部14は、その絞り込みの結果残った第1単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部11に供給する。
【0140】
なお、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコアおよび言語スコアとのセットが、制御部11に供給される。
【0141】
制御部11は、上述のようにしてマッチング部14から供給される第1単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部14からの各第1単語について、単語接続情報記憶部16に記憶された単語接続情報(図5)における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部11は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップS2に戻り、以下、同様の処理が繰り返される。
【0142】
以上のように、単語接続情報は、マッチング部14の処理結果に基づいて、逐次更新され、さらに、再評価部15において逐次修正されるので、単語予備選択部13およびマッチング部14は、常時、単語接続情報を利用して処理を行うことが可能となる。
【0143】
なお、制御部11は、単語接続情報を更新する際に、可能であれば、上述したような終端ノードの共通化を行う。
【0144】
一方、ステップS2において、途中ノードが存在しないと判定された場合、ステップS8に進み、制御部11は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。
【0145】
以上のように、単語予備選択部13において、途中ノードに続く単語の候補である第1単語だけでなく、その後に続く蓋然性の高い第2単語も選択するようにしたので、第1単語について、第2単語に基づき、精度の高い音響スコアや言語スコアの計算を行うことができ、その結果、音声認識精度を向上させることができる。
【0146】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0147】
そこで、図8は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0148】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0149】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0150】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0151】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0152】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0153】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0154】
なお、マッチング部14でスコア計算の対象となる単語(第1単語)は、単語予備選択部13においてあらかじめ選択されているから、マッチング部14による各単語のスコア計算は、前述したような、音響スコアの計算の一部を共通化する木構造のネットワークを構成せずに、各単語ごとに独立して行うことができる。この場合、マッチング部14が各単語についてスコア計算を行うために確保するメモリ容量を小さく抑えることができる。さらに、この場合、単語のスコア計算を開始するときに、その単語が、どの単語であるのかを同定することができるから、前述したような、単語を同定することができないことによって無駄な計算が行われることを防止することができる。
【0155】
また、マッチング部14や再評価部15によるスコア計算は、各単語ごとに、時間的に独立して行うことができ、この場合、スコア計算に要するメモリ容量を使い回すことにより、必要とするメモリ容量を小さく抑えることができる。
【0156】
なお、図4に示した音声認識装置は、例えば、音声によってデータベースの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデータ入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロボット、キーボードの代わりに音声入力によりテキスト作成を行うディクテーションシステム、ユーザとの会話を行うロボットにおける対話システム等に適用可能である。
【0157】
また、本実施の形態では、単語予備選択部13において、2つの単語(第1単語と第2単語)からなる単語列を選択するようにしたが、単語予備選択部13では、3以上の単語からなる単語列を選択するようにすることも可能である。この場合、マッチング部14では、単語列の先頭の単語について、その後に続く2以上の単語に基づき、より精度の高い文法規則(言語モデル)を用いて、言語スコアを計算することが可能となる。
【0158】
さらに、単語予備選択部13において選択する単語列を構成する単語数は、固定である必要はなく、可変にすることが可能である。
【0159】
【発明の効果】
本発明の音声認識装置および音声認識方法、並びに記録媒体によれば単語についての、例えば、音響的なスコアや言語的なスコアを、その直後の単語も考慮して計算することが可能となり、その結果、音声認識精度を向上させることが可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロック図である。
【図2】単語どうしの境界の候補を保持する必要性を説明する図である。
【図3】従来の音声認識装置の他の一例の構成を示すブロック図である。
【図4】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図5】単語接続情報を説明するための図である。
【図6】図4の音声認識装置の処理を説明するためのフローチャートである。
【図7】再評価部15の処理を説明するための図である。
【図8】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部, 11 制御部, 12特徴量記憶部, 13 単語予備選択部, 14 マッチング部, 15 再評価部, 16 単語接続情報記憶部, 17A乃至17C 音響モデルデータベース, 18A乃至18C 辞書データベース, 19A乃至19C 文法データベース, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (7)

  1. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、
    音声認識の対象とする単語群から、既に前記スコアの計算がされた単語に接続される単語の候補である候補単語と、前記候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択手段と、
    ユーザが発した前記音声の特徴量を、前記特徴量が抽出された抽出時刻とともに保持する保持手段と、
    前記スコアを計算済みの単語発話の終了時刻に基づいて、前記保持手段から、前記候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出し手段と、
    記候補単語のスコアを計算するスコア計算手段と、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された前記スコアを有する、前記候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、
    前記単語接続情報において、前記複数のパス毎に、前記パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定手段と
    を備え
    前記単語列選択手段は、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、前記単語群が登録されており、前記単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、前記単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び前記特徴量の系列に基づいて、前記単語辞書に登録されている前記単語群から前記単語列を選択し、
    前記スコア計算手段は、前記第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、前記第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、前記第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び前記特徴量の系列に基づいて、前記候補単語のスコアを計算する
    音声認識装置。
  2. 前記スコア計算手段は、
    前記第2の辞書データベース及び前記第2の音響モデルデータベースを用いて構成される前記候補単語の単語モデルに基づき、前記読み出し手段により読み出された前記特徴量の系列を用いて、前記候補単語についての音響的なスコアを算出し、
    前記第2の文法データベースに基づいて、前記候補単語についての言語的なスコアを算出し、
    算出した音響的なスコアおよび言語的なスコアを総合評価して得られる前記候補単語のスコアを計算する
    請求項1に記載の音声認識装置。
  3. 前記スコア計算手段は、前記第2の文法データベースに基づき、前記候補単語の前後の単語に応じて、前記候補単語についての前記言語的なスコアを算出する
    請求項2に記載の音声認識装置。
  4. 前記音声認識の対象とする単語群を記憶している記憶手段として、前記第1の辞書データベースをさらに備える
    請求項1に記載の音声認識装置。
  5. 前記音声から、その特徴量を抽出する抽出手段をさらに備え、
    前記保持手段は、前記抽出手段により抽出された前記特徴量を、前記抽出時刻とともに保持し、
    前記スコア計算手段は、前記候補単語の単語モデルに基づき、前記読み出し手段により読み出された前記特徴量の系列を用いて、前記候補単語についての前記音響的なスコアを算出する
    請求項2に記載の音声認識装置。
  6. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置の音声認識方法であって、
    音声認識の対象とする単語群から、既に前記スコアの計算がされた単語に接続される単語の候補である候補単語と、前記候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択ステップと、
    前記スコアを計算済みの単語発話の終了時刻に基づいて、ユーザが発した前記音声の特徴量を、前記特徴量が抽出された抽出時刻とともに保持する保持手段から、前記候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出しステップと、
    記候補単語のスコアを計算するスコア計算ステップと、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された前記スコアを有する、前記候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶させる接続関係記憶ステップと、
    前記単語接続情報において、前記複数のパス毎に、前記パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
    を備え
    前記単語列選択ステップは、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、前記単語群が登録されており、前記単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、前記単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び前記特徴量の系列に基づいて、前記単語辞書に登録されている前記単語群から前記単語列を選択し、
    前記スコア計算ステップは、前記第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、前記第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、前記第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び前記特徴量の系列に基づいて、前記候補単語のスコアを計算する
    音声認識方法。
  7. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    音声認識の対象とする単語群から、既に前記スコアの計算がされた単語に接続される単語の候補である候補単語と、前記候補単語に連続して続く単語の候補である1以上の単語とからなる単語列を選択する単語列選択ステップと、
    前記スコアを計算済みの単語発話の終了時刻に基づいて、ユーザが発した前記音声の特徴量を、前記特徴量が抽出された抽出時刻とともに保持する保持手段から、前記候補単語のスコアを計算するために用いる特徴量の系列を読み出す読み出しステップと、
    記候補単語のスコアを計算するスコア計算ステップと、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された前記スコアを有する、前記候補単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶させる接続関係記憶ステップと、
    前記単語接続情報において、前記複数のパス毎に、前記パスを形成するアークに対応する単語のスコアを累積して得られる最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
    を含み、
    前記単語列選択ステップは、音声認識する音声の言語における個々の音響的な特徴を表す音響モデルを記憶している第1の音響モデルデータベース、前記単語群が登録されており、前記単語群の各単語について、その発音に関する情報を表す音韻情報が記述された単語辞書を記憶している第1の辞書データベース、前記単語群の各単語がどのように連鎖するかを記述した文法規則を記憶している第1の文法データベース、及び前記特徴量の系列に基づいて、前記単語辞書に登録されている前記単語群から前記単語列を選択し、
    前記スコア計算ステップは、前記第1の辞書データベースの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している第2の辞書データベース、前記第1の音響モデルデータベースよりも精度の高い処理が可能な高精度の音響モデルを記憶している第2の音響モデルデータベース、前記第1の文法データベースよりも精度の高い処理が可能な高精度の文法規則を記憶している第2の文法データベース、及び前記特徴量の系列に基づいて、前記候補単語のスコアを計算する
    音声認識処理を、コンピュータに行なわせるプログラムが記録されている記録媒体。
JP2000051464A 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体 Expired - Fee Related JP4600705B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000051464A JP4600705B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000051464A JP4600705B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001242883A JP2001242883A (ja) 2001-09-07
JP4600705B2 true JP4600705B2 (ja) 2010-12-15

Family

ID=18573114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000051464A Expired - Fee Related JP4600705B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4600705B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075885A (ja) * 1998-08-27 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075885A (ja) * 1998-08-27 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Also Published As

Publication number Publication date
JP2001242883A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US7240002B2 (en) Speech recognition apparatus
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP6188831B2 (ja) 音声検索装置および音声検索方法
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Alleva et al. An improved search algorithm using incremental knowledge for continuous speech recognition
US20060195319A1 (en) Method for converting phonemes to written text and corresponding computer system and computer program
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP5274191B2 (ja) 音声認識装置
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3914709B2 (ja) 音声認識方法およびシステム
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPH1145097A (ja) 連続音声認識方式
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP3369121B2 (ja) 音声認識方法および音声認識装置
JP2005070330A (ja) 音声認識装置及びプログラム
Li et al. Large list recognition using voice search framework
Cai et al. Development of a Chinese song name recognition system
JPH1097279A (ja) 音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100915

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees