JP2001249684A - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number
JP2001249684A
JP2001249684A JP2000056999A JP2000056999A JP2001249684A JP 2001249684 A JP2001249684 A JP 2001249684A JP 2000056999 A JP2000056999 A JP 2000056999A JP 2000056999 A JP2000056999 A JP 2000056999A JP 2001249684 A JP2001249684 A JP 2001249684A
Authority
JP
Japan
Prior art keywords
word
score
voice
words
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000056999A
Other languages
English (en)
Inventor
Hiroaki Ogawa
浩明 小川
Katsuki Minamino
活樹 南野
Koji Asano
康治 浅野
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000056999A priority Critical patent/JP2001249684A/ja
Priority to US09/798,521 priority patent/US6961701B2/en
Publication of JP2001249684A publication Critical patent/JP2001249684A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 大語彙を対象として、精度が高く、かつ高速
な音声認識を行う。 【解決手段】 拡張単語選択部21において、1以上の
音韻からなる音韻列について、ユーザの音声に対するス
コアが計算され、そのスコアが所定値以上の音韻列と音
韻が一致または類似する単語が、大語彙辞書から検索さ
れる。そして、マッチング部14において、単語予備選
択部13で予備選択された単語の他に、拡張単語選択部
21で検索された単語も対象として、スコアの計算が行
われ、制御部11において、音声の音声認識結果となる
単語列が確定される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、大語彙
を対象とした精度の高い音声認識を行うことができるよ
うにする音声認識装置および音声認識方法、並びに記録
媒体に関する。
【0002】
【従来の技術】図1は、従来の音声認識装置の一例の構
成を示している。
【0003】ユーザが発した音声は、マイク(マイクロ
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部3に供給される。
【0004】特徴抽出部3は、AD変換部2からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、MFCC(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
4に供給する。なお、特徴抽出部3では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。
【0005】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
【0006】即ち、音響モデルデータベース5は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、例えば、HMM(Hidden Markov M
odel)が用いられる。辞書データベース6は、認識対象
の各単語(語彙)について、その発音に関する情報(音
韻情報)が記述された単語辞書を記憶している。文法デ
ータベース7は、辞書データベース6の単語辞書に登録
されている各単語が、どのように連鎖する(つながる)
かを記述した文法規則(言語モデル)を記憶している。
ここで、文法規則としては、例えば、文脈自由文法(C
FG)や、統計的な単語連鎖確率(N−gram)など
に基づく規則を用いることができる。
【0007】マッチング部4は、辞書データベース6の
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、単
語の音響モデル(単語モデル)を構成する。さらに、マ
ッチング部4は、幾つかの単語モデルを、文法データベ
ース7に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布HMM法によって、マイク1に
入力された音声を認識する。即ち、マッチング部4は、
特徴抽出部3が出力する時系列の特徴量が観測されるス
コア(尤度)が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。
【0008】即ち、マッチング部4は、接続された単語
モデルに対応する単語列について、各特徴量の出現確率
を累積し、その累積値をスコアとして、そのスコアを最
も高くする単語列を、音声認識結果として出力する。
【0009】スコア計算は、一般に、音響モデルデータ
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
【0010】即ち、音響スコアは、例えば、HMM法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
【0011】具体的には、あるN個の単語からなる単語
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
【0012】 S=Σ(A(wk)+Ck×L(wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
【0013】マッチング部4では、例えば、式(1)に
示す最終スコアを最も大きくするNと、単語列w1
2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
【0014】以上のような処理が行われることにより、
図1の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
と、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。
【0015】ところで、上述の場合において、辞書デー
タベース6の単語辞書に、「ニューヨーク」、「に」、
「行きたい」、および「です」の5単語が登録されてい
るとすると、これらの5単語を用いて構成しうる5単語
の並びは、55通り存在する。従って、単純には、マッ
チング部4では、この55通りの単語列を評価し、その
中から、ユーザの発話に最も適合するもの(最終スコア
を最も大きくするもの)を決定しなければならない。そ
して、単語辞書に登録する単語数が増えれば、その単語
数分の単語の並びの数は、単語数の単語数乗通りになる
から、評価の対象としなければならない単語列は、膨大
な数となる。
【0016】さらに、一般には、発話中に含まれる単語
の数は未知であるから、単語辞書に登録された単語数の
並びからなる単語列だけでなく、1単語、2単語、・・
・からなる単語列も、評価の対象とする必要がある。従
って、評価すべき単語列の数は、さらに膨大なものとな
るから、そのような膨大な単語列の中から、音声認識結
果として最も確からしいものを、計算量および使用する
メモリ容量の観点から効率的に決定することは、非常に
重要な問題である。
【0017】計算量およびメモリ容量の効率化を図る方
法としては、例えば、音響スコアを求める過程におい
て、その途中で得られる音響スコアが所定の閾値以下と
なった場合に、そのスコア計算を打ち切るという音響的
な枝刈り手法や、言語スコアに基づいて、スコア計算の
対象とする単語を絞り込む言語的な枝刈り手法がある。
【0018】これらの枝刈り手法によれば、スコア計算
の対象が、所定の判断基準(例えば、上述したような計
算途中の音響スコアや、単語に与えられる言語スコア)
に基づいて絞り込まれることで、計算量の削減を図るこ
とができる。しかしながら、その反面、絞り込みを強く
すると、即ち、判断基準を厳しくすると、本来、音声認
識結果として正しいものまでも枝刈りされてしまい、誤
認識が生じることになる。従って、枝刈り手法による場
合には、音声認識結果として正しいものが枝刈りされな
いように、ある程度のマージンをもたせた絞り込みを行
う必要があり、このため、計算量を大きく削減すること
は困難である。
【0019】また、音響スコアを求める場合に、スコア
計算の対象となっているすべての単語について独立に行
うと、その計算量が大きくなることから、複数の単語に
ついての音響スコアの計算の一部を共通化(共有化)す
る方法が提案されている。この共通化の方法としては、
単語辞書の単語のうち、その先頭の音韻が同一のものに
ついて、その先頭の音韻から、同一になっている音韻ま
では、音響モデルを共通に用い、それ以後の異なる音韻
には、音響モデルを個々に用いることにより、全体とし
て1つの木構造のネットワークを構成し、これを用い
て、音響スコアを求める方法がある。具体的には、例え
ば、いま、単語「秋田」と「曙」を考え、「秋田」の音
韻情報が「akita」であり、「曙」の音韻情報が「akebo
no」であるとすると、単語「秋田」と「曙」の音響スコ
アは、それぞれの先頭から2番目までの音韻a,kについ
ては兼用で計算される。そして、単語「秋田」の残りの
音韻k,i,t,a、および単語「曙」の残りの音韻e,b,o,n,o
については、それぞれ独立に音響スコアが計算される。
【0020】従って、この方法によれば、音響スコアの
計算量を大幅に低減することができる。
【0021】しかしながら、この方法では、共通化され
ている部分(音響スコアが兼用で計算される部分)にお
いて、その音響スコアの計算の対象となっている単語を
決定することができない。即ち、上述の単語「秋田」と
「曙」の例でいえば、それぞれの先頭から2番目までの
音韻a,kについて音響スコアが計算されている場合は、
その音響スコアが計算されている単語が、「秋田」であ
るのか、または「曙」であるのかを同定することができ
ない。
【0022】そして、この場合、「秋田」については、
その3番目の音韻iについて音響スコアの計算が開始さ
れたときに、その計算対象が「秋田」であることを同定
することができ、「曙」についても、その3番目の音韻
eについての音響スコアの計算が開始されたときに、そ
の計算対象が「曙」であることを同定することができ
る。
【0023】従って、音響スコアの計算の一部を共通化
してしまうと、単語の音響スコアの計算の開始時に、そ
の単語を同定することができないため、その単語につい
て、言語スコアを考慮することができない。その結果、
単語の音響スコアの開始前に、上述したような言語的な
枝刈り手法を用いることが困難となり、無駄な計算が行
われることがある。
【0024】さらに、音響スコアの計算の一部を共通化
する場合、単語辞書のすべての単語を対象として、上述
したような木構造のネットワークが構成されるから、こ
れを保持するための大きなメモリ容量が必要となる。
【0025】また、計算量およびメモリ容量の効率化を
図る方法としては、音響スコアを計算する場合に、単語
辞書のすべての単語を対象とするのではなく、その音響
スコアの計算の対象とする単語を予備的に選択(予備選
択)し、その予備選択された単語についてだけ、音響ス
コアを計算する方法がある。ここで、予備選択は、一般
には、多くの単語を対象として行われるため、処理速度
の観点から、それほど精度の高くない、簡易的な音響モ
デルや文法規則を用いて行われる。
【0026】なお、予備選択の方法は、例えば、L. R.
Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and
R. L. Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition", IEEE Tran
s. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等
に記載されている。
【0027】ところで、単語の音響スコアは、音声の特
徴量の系列を用いて計算されるが、その計算に使用する
特徴量の系列の始点や終点が異なれば、求められる音響
スコアも変化する。そして、この変化は、音響スコアと
言語スコアとを総合評価して求められる式(1)の最終
スコアに影響する。
【0028】ある単語に対応する特徴量の系列の始点お
よび終点、即ち、単語どうしの境界(単語境界)は、例
えば、動的計画法(Dynamic Programming)を用いて求め
ることができる。即ち、特徴量の系列の任意の点を、単
語境界の候補とし、音声認識結果の候補となる単語列の
各単語について、その音響スコアと言語スコアとを総合
評価したスコア(以下、適宜、単語スコアという)を、
逐次累積していく。そして、その単語スコアの累積の際
に、最も大きい累積値を与える単語境界の候補を、その
累積値とともに記憶していく。
【0029】これにより、最終的な単語スコアの累積値
が求めらると、最も良い累積値、即ち、最も大きい最終
スコアを与える単語境界も求められる。
【0030】上述のようにして単語境界を求める方法
は、ビタビデコーディング(Viterbi decoding)、あるい
はワンパスデコーディング(One pass decoding)等と呼
ばれ、例えば、中川聖一、「確率モデルによる音声認
識」、電子情報通信学会、pp.20-26、1988年7月1
日等に、その詳細が記載されている。
【0031】上述の予備選択を効果的に行うには、単語
境界をどこにするか、即ち、特徴量の系列(特徴量系
列)のどの点を始点とするかが非常に重要である。
【0032】具体的には、例えば、図2(A)に示すよ
うな、音声「今日はいい天気ですね」について得られた
特徴量系列において、「今日」と「は」との正しい単語
境界が、時刻t1である場合において、単語「今日」に
続く単語「は」に関して予備選択を行うときに、正しい
時刻t1より先行する時刻t1-1を始点として予備選択を
行うと、その予備選択には、単語「は」の特徴量だけで
なく、その直前の単語「今日」の最後の部分の特徴量が
影響する。一方、正しい時刻t1より後行する時刻t1+1
を始点として予備選択を行うと、その予備選択において
は、単語「は」の最初の部分の特徴量が用いられないこ
とになる。
【0033】従って、いずれにしても、始点を誤ると、
予備選択、ひいては、その後に行われるマッチング処理
に悪影響を与えることとなる。
【0034】なお、図2においては(後述する図5およ
び図9においても同様)、左から右方向が、時間の経過
を表しており、また、音声区間の開始時刻を0として、
音声区間は時刻Tで終了するものとしてある。
【0035】上述した動的計画法を用いる方法では、特
徴量系列の最後、即ち、図2においては、音声区間の終
了時刻Tまでの単語スコア(音響スコアおよび言語スコ
ア)の計算が終了しないと、最終的な単語境界を決定す
ることができないため、予備選択を行う段階では、その
予備選択の始点となる単語境界を一意に決定することは
困難である。
【0036】そこで、単語境界の候補を、音声区間の特
徴量系列を用いた単語スコアの計算が終了するまで保持
しておく方法がある。
【0037】この方法では、例えば、音声区間の開始時
刻0を始点として、単語「今日」の単語スコアを計算し
た場合に、時刻t1-1,t1,t1+1が、単語「今日」の
発話の終点の候補として求まったとすると、この3通り
の時刻t1-1,t1,t1+1が保持され、それぞれを始点
として、次の単語の予備選択が行われる。
【0038】いま、この予備選択によって、時刻t1-1
を始点とした場合には、「は」と「いい」の2単語が、
時刻t1を始点とした場合には、「は」の1単語が、時
刻t1 +1を始点とした場合には、「は」と「いい」の2
単語が、それぞれ得られたとし、さらに、これらの各単
語を対象として単語スコアの計算を行うことにより、図
2(B)乃至図2(G)に示すような結果が得られたと
する。
【0039】即ち、図2(B)は、時刻t1-1を始点と
して、単語「は」の単語スコアの計算を行い、その終点
の候補として、時刻t2が得られた状態を示しており、
図2(C)は、時刻t1-1を始点として、単語「いい」
の単語スコアの計算を行い、その終点の候補として、時
刻t2+1が得られた状態を示している。また、図2
(D)は、時刻t1を始点として、単語「は」の単語ス
コアの計算を行い、その終点の候補として、時刻t2+1
が得られた状態を示しており、図2(E)は、時刻t1
を始点として、単語「は」の単語スコアの計算を行い、
その終点の候補として、時刻t2が得られた状態を示し
ている。さらに、図2(F)は、時刻t1+1を始点とし
て、単語「は」の単語スコアの計算を行い、その終点の
候補として、時刻t2が得られた状態を示しており、図
2(G)は、時刻t1+1を始点として、単語「いい」の
単語スコアの計算を行い、その終点の候補として、時刻
2+2が得られた状態を示している。なお、図2におい
ては、t1-1<t1<t1+1<t2<t 2+1<t2+2となって
いる。
【0040】図2(B)乃至図2(G)のうち、図2
(B)、図2(E)、および図2(F)に示したものに
ついては、いずれも、音声認識結果の候補としての単語
列が、「今日」、「は」で同一あり、さらに、その単語
列の最後「は」の終点も、時刻t2で同一であるから、
その中から最も適切なものを、例えば、時刻t2までの
単語スコアの累積値等に基づいて選び、残りを破棄する
ことが可能である。
【0041】しかしながら、いまの時点では、図2
(B)、図2(E)、または図2(F)のうちから選ん
だものに、図2(C)、図2(D)、図2(G)に示し
たものを加えた中から、正しいものを確定することはで
きないから、これらの4通りの場合を保持しておく必要
がある。そして、この4通りの場合それぞれについて、
再び、予備選択を行っていくことになる。
【0042】従って、この方法では、音声区間の特徴量
系列を用いた単語スコアの計算が終了するまで、多くの
単語境界の候補を保持しながら、単語スコアの計算を行
っていく必要があり、計算量およびメモリ容量の効率化
の観点からは好ましくない。
【0043】また、この場合、単語境界の候補として、
真に正しい単語境界を保持していれば、原理的には、上
述の動的計画法を用いた場合と同様の正しい単語境界
を、最終的に得ることができるが、その反面、単語境界
の候補として、真に正しい単語境界を保持し損ねると、
その単語境界を始点または終点とする単語を誤認識し、
さらには、それに起因して、その後に続く単語も誤認識
することがある。
【0044】一方、近年においては、音響モデルとし
て、前後のコンテキストに依存するもの(考慮したも
の)が用いられるようになってきている。前後のコンテ
キストに依存する音響モデルとは、同一の音節(または
音素)の音響モデルであっても、その直前や直後の音節
によって異なるものとしてモデル化したもので、従っ
て、例えば、音節「あ」は、その直前や直後の音節が、
例えば、「か」の場合と「さ」の場合とで、異なる音響
モデルにモデル化される。
【0045】前後のコンテキストに依存する音響モデル
としては、大きく分けて、単語内のコンテキストに依存
する音響モデルと、単語間にまたがるコンテキストに依
存する音響モデルとがある。
【0046】単語内のコンテキストに依存する音響モデ
ルを用いる場合には、「今日」(きょう)という単語モ
デルを、音響モデル「きょ」と「う」とを連結して作成
するときに、音響モデル「きょ」として、その直後の音
節「う」に依存したもの(直後の音節「う」の影響を考
慮した音響モデル「きょ」)が用いられ、あるいは、音
響モデル「う」として、その直前の音節「きょ」に依存
したものが用いられる。
【0047】一方、単語間にまたがるコンテキストに依
存する音響モデルを用いる場合には、上述のように、
「今日」という単語モデルが、音響モデル「きょ」と
「う」とを連結して作成するときに、その後につづく単
語が「は」であれば、音響モデル「う」として、その直
後の単語の最初の音節「は」に依存したものが用いられ
る。この単語間にまたがるコンテキストに依存する音響
モデルは、クロスワードモデルと呼ばれる。
【0048】このクロスワードモデルを、予備選択を行
う音声認識に適用した場合には、予備選択された単語に
ついて、その直前の単語との間のコンテキストは考慮す
ることができるが、その直後の単語は、まだ決まってい
ないから、その直後の単語との間のコンテキストは考慮
することができない。
【0049】そこで、予備選択される単語について、そ
の単語の直後に位置する可能性の高い単語を、あらかじ
め求めておき、その単語との間のコンテキストを考慮し
て、単語モデルを作成する方法がある。即ち、例えば、
単語「今日」について、その直後に、「は」や、
「が」、「の」などが位置する可能性が高い場合には、
単語「今日」の単語モデルの最後の音節に対応する音響
モデル「う」として、「は」、「が」、「の」をそれぞ
れ考慮したものを用いて、単語モデルを作成する方法が
ある。
【0050】しかしながら、この方法では、余分なコン
テキストまでも必ず考慮してしまうため、演算量および
メモリ容量の効率化の観点からは好ましくない。
【0051】また、同様の理由から、予備選択された単
語について、その言語スコアを、その直後の単語を考慮
して計算することも困難である。
【0052】一方、注目している単語(注目単語)に対
して先行する単語だけでなく、後行する単語も考慮した
音声認識方法としては、例えば、R. Schwartz and Y.
L. Chow, "The N-Best Algorithm: An Efficient and E
xact Procedure for FindingThe Most Likely Sentence
Hypotheses", Proc. ICASSP, pp.81-84, 1990に記載さ
れているような、2パスデコーディング(2 pass decodi
ng)と呼ばれる方法がある。
【0053】即ち、図3は、2パスデコーディングによ
る音声認識を行う、従来の音声認識装置の一例の概略構
成を示している。
【0054】図3において、マッチング部41は、例え
ば、図1のマッチング部4と同様のマッチング処理を行
い、その結果得られる単語列を出力する。但し、マッチ
ング部41は、マッチング処理の結果得られる複数の単
語列から、最終的な音声認識結果となるものを1つだけ
出力するのではなく、音声認識結果の候補として確から
しいものを複数出力する。
【0055】マッチング部41の出力は、マッチング部
2に供給され、マッチング部42は、マッチング部41
が出力する複数の単語列それぞれについて、その単語列
を音声認識結果とすることの確からしさを再評価するマ
ッチング処理を行う。即ち、マッチング部41が出力す
る音声認識結果としての単語列においては、ある単語の
直前の単語だけでなく、直後の単語も存在するから、マ
ッチング部42では、直前の単語だけでなく、直後の単
語も考慮して、クロスワードモデルによって、音響スコ
アや言語スコアが新たに求められる。そして、マッチン
グ部42は、マッチング部41からの複数の単語列から、
各単語列の新たな音響スコアおよび言語スコアに基づい
て、音声認識結果として最も確からしいものを決定して
出力する。
【0056】なお、以上のような2パスデコーディング
では、一般に、最初のマッチング処理を行うマッチング
部41では、精度のそれほど高くない、簡易な音響モデ
ル、単語辞書、および文法規則が用いられ、後段のマッ
チング処理を行うマッチング部42では、高精度の音響
モデル、単語辞書、文法規則が用いられる。これによ
り、図3の音声認識装置では、マッチング部41と42
れぞれにおける処理量が、相互に緩和される一方、精度
の高い音声認識結果を得ることができるようになってい
る。
【0057】図3は、上述のように、2パスデコーディ
ングの音声認識装置であるが、図3の後段のマッチング
部42の後段に、同様のマッチング部を追加したマルチ
パスデコーディング(multi pass decoding)の音声認識
装置も提案されている。
【0058】しかしながら、2パスデコーディングやマ
ルチパスデコーディングでは、最初のマッチング処理が
終了するまで、次のマッチング処理を行うことができな
い。従って、音声の入力があってから、最終的な音声認
識結果が出力されるまでの遅延時間が大になる。
【0059】そこで、例えば、幾つかの単語についての
最初のマッチング処理が終了した時点で、その幾つかの
単語については、クロスワードモデルを適用して後段の
マッチング処理を行うことを逐次的に繰り返す方法が、
例えば、M. Schuster, "Evaluation of a Stack Decode
r on a Japanese Newspaper Dictation Task", 音講論,
1-R-12, pp.141-142, 1997等で提案されている。
【0060】
【発明が解決しようとする課題】ところで、図1や図3
の音声認識装置において、連続音声認識等を行う場合に
おいては、装置の演算速度や、メモリ容量等に起因し
て、音声認識の対象とする単語が制限される。即ち、例
えば、IBM社の音声認識ソフトウェアであるViaVoice
GOLD(ViaVoiceは、登録商標)では、標準で、約4万
2千語が、音声認識対象となっており、さらに、ユーザ
が、約2万語を、音声認識対象として追加することがで
きる。従って、ViaVoice GOLDでは、最大で、6万語を
越える単語を、音声認識対象とすることができるが、そ
れでも、固有名詞等の相当数の単語が、音声認識の対象
外となる。
【0061】そして、音声認識の対象とする単語が制限
されると、対象とされなかった単語(以下、適宜、未知
語という)が、ユーザによって発話された場合には、各
種の問題が生じる。
【0062】即ち、未知語については、単語辞書に、そ
の音韻情報が登録されていないため、その音響スコアを
正確に計算することはできない。さらに、未知語につい
ては、文法規則において扱われていないため、その言語
スコアも正確に計算することはできない。従って、ユー
ザの音声の認識結果としての単語列を決定する際に、未
知語の部分において誤りを生じる。さらに、この誤り
は、他の部分の誤りを引き起こす原因にもなる。
【0063】具体的には、例えば、上述のように、ユー
ザが、「ニューヨークに行きたいです」と発話した場合
において、「ニューヨーク」が未知語であるときには、
その「ニューヨーク」の部分において、正確な音響スコ
アおよび言語スコアの計算ができない。さらに、「ニュ
ーヨーク」について正確な音響スコアの計算ができない
ことにより、「ニューヨーク」と、その後に続く「に」
との単語の境界の決定において誤りが生じ、その誤り
が、他の部分の音響スコアの計算に影響を与える。
【0064】音声認識装置において音声認識の対象とす
る単語としては、一般に、例えば、新聞や小説等におい
て出現頻度の高いものが選定されることが多いが、出現
頻度の低い単語が、ユーザによって発話されないという
保証はない。従って、未知語については、何らかの対処
をとるか、なるべくその数を減らすことが必要である。
【0065】そこで、例えば、ユーザの発話から、ユー
ザが今後発話する話題等を推定し、その推定結果に基づ
いて、音声認識の対象とする単語を変更することによ
り、見かけ上、未知語を少なくする方法がある。即ち、
例えば、Tomas Kemp and AlexWaibel, "Reducing the
{OOV} rate in broadcast news speech recognition",P
roceedings of International Conference on Spoken L
anguage Processing.,1998には、文章のデータベースか
ら、ユーザが発話した単語(未知語でない単語)を含む
文章を検索し、その文章に含まれる単語を、音声認識の
対象として追加する方法が記載されている。
【0066】しかしながら、ユーザの発話から、ユーザ
が今後発話する話題を精度良く推定するには、複雑で負
荷の高い処理が要求される。さらに、仮に、話題の推定
を誤った場合には、ユーザが発話する多くの単語が、音
声認識対象から除外されてしまう危険がある。また、ユ
ーザが発話するであろう話題のすべてを精度良く推定す
ることは困難である。
【0067】一方、例えば、Dietrich Klakow and Geor
g Rose and Xavier Aubert, "OOV-detection in large
vocaburary system using automatically defined word
-fragments as fillers", Proceedings on 6th Europea
n conference on speech communication and technolog
y, 1999には、音声認識の対象となっていない単語を、
その単語を構成する音素や、幾つかの音素でなる音素列
といった断片に分割し、この断片を、擬似的に単語とし
て、音声認識の対象とする方法が記載されている。
【0068】単語を構成する音素や音素列の種類は、そ
れほど多くはないから、そのような音素や音素列を、擬
似的な単語として、音声認識の対象とすることにより、
見かけ上は、未知語は0になることになる。
【0069】しかしながら、この場合、音素や音素列
が、認識単位となるから、そのような認識単位の系列で
構成される単語が未知語であるときには、その単語につ
いては、文法規則を適用することができず、これに起因
して、音声認識精度が劣化する。
【0070】さらに、予備選択後に、マッチング処理を
行う場合において、音素や音素列を、擬似的に単語とし
て予備選択を行うときには、音素や音素列の予備選択を
誤ると、その誤りに起因して、その後に行われるマッチ
ング処理で求められるスコアの精度が劣化する。そし
て、このスコアの精度の劣化によって、音声認識精度も
劣化する。
【0071】本発明は、このような状況に鑑みてなされ
たものであり、大語彙を対象として、精度が高く、かつ
高速な音声認識を行うことができるようにするものであ
る。
【0072】
【課題を解決するための手段】本発明の音声認識装置
は、音声に対応する、1以上の音韻からなる音韻列を検
出する検出手段と、その音韻列と音韻が一致または類似
する単語を検索する検索手段と、少なくとも、検索手段
において検索された単語を対象に、音声に対するスコア
の計算を行うスコア計算手段と、単語について計算され
たスコアに基づいて、音声の音声認識結果となる単語列
を確定する確定手段とを備えることを特徴とする。
【0073】検索手段には、音声に対するスコアが所定
値以上の音韻列を対象に、単語の検索を行わせることが
できる。
【0074】本発明の音声認識装置には、大語彙の単語
辞書である大語彙辞書を記憶している大語彙辞書記憶手
段をさらに設けることができ、この場合、検索手段に
は、大語彙辞書を対象に検索を行わせることができる。
【0075】大語彙辞書には、単語を、その音韻情報
と、言語的な情報とともに記憶させておくことができ
る。
【0076】本発明の音声認識装置には、音声認識の対
象とする単語群から、スコア計算手段によるスコアの計
算の対象とする単語を選択する選択手段をさらに設ける
ことができ、この場合、スコア計算手段には、検索手段
において検索された単語と、選択手段において選択され
た単語とを対象に、スコアの計算を行わせることができ
る。
【0077】本発明の音声認識方法は、音声に対応す
る、1以上の音韻からなる音韻列を検出する検出ステッ
プと、その音韻列と音韻が一致または類似する単語を検
索する検索ステップと、少なくとも、検索ステップにお
いて検索された単語を対象に、音声に対するスコアの計
算を行うスコア計算ステップと、単語について計算され
たスコアに基づいて、音声の音声認識結果となる単語列
を確定する確定ステップとを備えることを特徴とする。
【0078】本発明の記録媒体は、音声に対応する、1
以上の音韻からなる音韻列を検出する検出ステップと、
その音韻列と音韻が一致または類似する単語を検索する
検索ステップと、少なくとも、検索ステップにおいて検
索された単語を対象に、音声に対するスコアの計算を行
うスコア計算ステップと、単語について計算されたスコ
アに基づいて、音声の音声認識結果となる単語列を確定
する確定ステップとを備えるプログラムが記録されてい
ることを特徴とする。
【0079】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、音声に対応する、1以
上の音韻からなる音韻列が検出され、その音韻列と音韻
が一致または類似する単語が検索される。そして、少な
くとも、その検索された単語を対象に、スコアの計算が
行われ、単語について計算されたスコアに基づいて、音
声の音声認識結果となる単語列が確定される。
【0080】
【発明の実施の形態】図4は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。
【0081】特徴量抽出部3が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部11
に供給されるようになっており、制御部11は、特徴量
抽出部3からの特徴量を、特徴量記憶部12に供給す
る。
【0082】また、制御部11は、単語接続情報記憶部
16に記憶された単語接続情報を参照し、マッチング部
14や再評価部15を制御する。さらに、制御部11
は、マッチング部14が、前述した図1のマッチング部
4と同様のマッチング処理を行うことにより得られるマ
ッチング処理結果としての音響スコアや言語スコア等に
基づいて、単語接続情報を生成し、その単語接続情報に
よって、単語接続情報記憶部16の記憶内容を更新す
る。また、制御部11は、再評価部15の出力に基づい
て、単語接続情報記憶部16の記憶内容を修正する。さ
らに、制御部11は、単語接続情報記憶部16に記憶さ
れた単語接続情報に基づいて、最終的な音声認識結果を
確定して出力する。
【0083】特徴量記憶部12は、制御部11から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部11は、音声
区間の開始時刻を基準(例えば0)とする、特徴抽出部
3が出力する特徴量が得られた時刻(以下、適宜、抽出
時刻という)を、その特徴量とともに、特徴量記憶部1
2に供給するようになっており、特徴量記憶部12は、
特徴量を、その抽出時刻とともに記憶する。特徴量記憶
部12に記憶された特徴量およびその抽出時刻は、単語
予備選択部13、マッチング部14、再評価部15、お
よび拡張単語選択部21において、必要に応じて参照す
ることができるようになっている。
【0084】単語予備選択部13は、マッチング部14
からの要求に応じ、単語接続情報記憶部16、音響モデ
ルデータベース17A、辞書データベース18A、およ
び文法データベース19Aを必要に応じて参照しなが
ら、マッチング部14でマッチング処理の対象とする1
以上の単語を選択する単語予備選択処理を、特徴量記憶
部12に記憶された特徴量を用いて行う。
【0085】マッチング部14は、制御部11からの制
御に基づき、単語接続情報記憶部16、音響モデルデー
タベース17B、辞書データベース18B、および文法
データベース19Bを必要に応じて参照しながら、単語
予備選択部13からの単語予備選択処理の結果得られる
単語と、拡張単語データベース22に記憶された単語を
対象としたマッチング処理を、特徴量記憶部12に記憶
された特徴量を用いて行い、そのマッチング処理の結果
を、制御部11に供給する。
【0086】再評価部15は、制御部11からの制御に
基づき、音響モデルデータベース17C、辞書データベ
ース18C、および文法データベース19C、さらには
拡張単語データベース22を必要に応じて参照しなが
ら、単語接続情報記憶部16に記憶された単語接続情報
の再評価を、特徴量記憶部12に記憶された特徴量を用
いて行い、その再評価結果を制御部11に供給する。
【0087】単語接続情報記憶部16は、制御部11か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。
【0088】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
(連鎖または連接)関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻も含んでいる。
【0089】即ち、図5は、単語接続情報記憶部16に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。
【0090】図5の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク(図5におい
て、○印どうしを結ぶ線分で示す部分)と、単語どうし
の境界を表すノード(図5において○印で示す部分)と
から構成されている。
【0091】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を0とする、特徴抽出部3が出力する特徴量が得られた
時刻であるから、図5において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode1が有する
時刻情報は0となる。ノードは、アークの始端および終
端となるが、始端のノード(始端ノード)、または終端
のノード(終端ノード)が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻となる。
【0092】なお、図5では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。
【0093】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。
【0094】即ち、制御部11においては、まず最初
に、音声区間の開始を表すノードNode 1に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図5の実施の形態では、「今日」に対応するア
ークArc1、「いい」に対応するアークArc6、および「天
気」に対応するArc11が接続されている。なお、音声認
識結果として確からしい単語かどうかは、マッチング部
14において求められる音響スコアおよび言語スコアに
基づいて決定される。
【0095】そして、以下、同様にして、「今日」に対
応するアークArc1の終端である終端ノードNode2、「い
い」に対応するアークArc6の終端である終端ノードNode
7、「天気」に対応するArc11の終端である終端ノードNo
de12それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。
【0096】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される1以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後(図5の実施の形態では、時刻T)に到達すると、
制御部11において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。
【0097】具体的には、例えば、図5において、ノー
ドNode1から、「今日」に対応するアークArc1、ノード
Node2、「は」に対応するアークArc2、ノードNode3
「いい」に対応するアークArc3、ノードNode4、「天
気」に対応するアークArc4、ノードNode5、「ですね」
に対応するアークArc5、およびノードNode6で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。
【0098】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る(その後に、アークを
接続しない)ようにすることが可能である。
【0099】また、上述のようなパスの構成ルールに従
えば、1つのアークの終端が、次に接続される1以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、1つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードに共通化される場合がある。
【0100】即ち、文法規則としてバイグラムを用いた
場合には、別のノードから延びる2つのアークが、同一
の単語に対応するものであり、さらに、その単語の発話
の終了時刻も同一であるときには、その2つのアークの
終端は一致する。
【0101】図5において、ノードNode7を始端として
延びるアークArc7、およびノードNode13を始端として
延びるアークArc13は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、同一のノードNode8に共通化されてい
る。
【0102】なお、ノードの共通化は行わないようにす
ることも可能であるが、メモリ容量の効率化の観点から
は、行うのが好ましい。
【0103】また、図5では、文法規則としてバイグラ
ムを用いているが、その他、例えば、トライグラム等を
用いる場合も、ノードの共通化は可能である。
【0104】さらに、単語接続情報記憶部16に記憶さ
れている単語接続情報は、単語予備選択部13、マッチ
ング部14、再評価部15、および拡張単語選択部21
において、必要に応じて参照することができるようにな
っている。
【0105】図4に戻り、音響モデルデータベース17
A,17B、および17Cは、基本的には、図1の音響
モデルデータベース5において説明したような音響モデ
ルを記憶している。
【0106】但し、音響モデルデータベース17Bは、
音響モデルデータベース17Aよりも精度の高い処理が
可能な高精度の音響モデルを記憶しており、音響モデル
データベース17Cは、音響モデルデータベース17B
よりも精度の高い処理が可能なより高精度の音響モデル
を記憶している。即ち、音響モデルデータベース17A
において、各音素や音節について、例えば、前後のコン
テキストに依存しない1パターンの音響モデルだけが記
憶されているとすると、音響モデルデータベース17B
には、各音素や音節について、例えば、前後のコンテキ
ストに依存しない音響モデルの他、単語間にまたがるコ
ンテキストに依存する音響モデル、つまり、クロスワー
ドモデルも記憶されている。そして、音響モデルデータ
ベース17Cには、各音素や音節について、例えば、前
後のコンテキストに依存しない音響モデルおよびクロス
ワードモデルの他、単語内のコンテキストに依存する音
響モデルも記憶されている。
【0107】辞書データベース18A,18B、および
18Cは、基本的には、図1の辞書データベース6にお
いて説明したような単語辞書を記憶している。
【0108】即ち、辞書データベース18A乃至18C
の単語辞書には、同一セットの単語が登録されている。
但し、辞書データベース18Bの単語辞書は、辞書デー
タベース18Aの単語辞書よりも精度の高い処理が可能
な高精度の音韻情報を記憶しており、辞書データベース
18Cの単語辞書は、辞書データベース18Bの単語辞
書よりもさらに精度の高い処理が可能な高精度の音韻情
報を記憶している。即ち、辞書データベース18Aの単
語辞書には、例えば、各単語に対して、1通りの音韻情
報(読み)だけ登録されているとすると、辞書データベ
ース18Bの単語辞書には、例えば、各単語に対して、
複数通りの音韻情報が登録されている。そして、辞書デ
ータベース18Cの単語辞書には、例えば、各単語に対
して、さらに多くの通りの音韻情報が登録されている。
【0109】具体的には、例えば、単語「お早う」に対
して、辞書データベース18Aの単語辞書には、1通り
の音韻情報「おはよう」だけが、辞書データベース18
Bの単語辞書には、「おはよう」の他、「おはよー」や
「おはよ」が、辞書データベース18Cの単語辞書に
は、「おはよう」、「おはよー」、および「おはよ」の
他、「はよう」や「はよー」が、それぞれ音韻情報とし
て登録されている。
【0110】文法データベース19A,19B、および
19Cは、基本的には、図1の文法データベース7にお
いて説明したような文法規則を記憶している。
【0111】但し、文法データベース19Bは、文法デ
ータベース19Aよりも精度の高い処理が可能な高精度
の文法規則を記憶しており、文法データベース19C
は、文法データベース19Bよりも精度の高い処理が可
能なより高精度の文法規則を記憶している。即ち、文法
データベース19Aが、例えば、ユニグラム(単語の生
起確率)に基づく文法規則を記憶しているとすると、文
法データベース19Bは、例えば、バイグラム(直前の
単語との関係を考慮した単語の生起確率)を記憶してい
る。そして、文法データベース19Cは、例えば、トラ
イグラム(直前の単語およびそのさらに1つ前の単語と
の関係を考慮した単語の生起確率)や文脈自由文法等に
基づく文法規則を記憶している。
【0112】以上のように、音響モデルデータベース1
7Aには、各音素や音節について、1パターンの音響モ
デルが、音響モデルデータベース17Bには、各音素や
音節について、複数パターンの音響モデルが、音響モデ
ルデータベース17Cには、各音素や音節について、さ
らに多くのパターンの音響モデルが、それぞれ記憶され
ている。また、辞書データベース18Aには、各単語に
ついて、1通りの音韻情報が、辞書データベース18B
には、各単語について、複数通りの音韻情報が、辞書デ
ータベース18Cには、各単語について、さらに多くの
通りの音韻情報が、それぞれ記憶されている。そして、
文法データベース19Aには、簡易な文法規則が、文法
データベース19Bには、精度の高い文法規則が、文法
データベース19Cには、さらに精度の高い文法規則
が、それぞれ記憶されている。
【0113】これにより、音響モデルデータベース17
A、辞書データベース18A、および文法データベース
19Aを参照する単語予備選択部13では、それほど精
度は高くないが、多くの単語を対象として、迅速に、音
響スコアおよび言語スコアを求めることができるように
なっている。また、音響モデルデータベース17B、辞
書データベース18B、および文法データベース19B
を参照するマッチング部14では、ある程度の数の単語
を対象として、迅速に、精度の高い音響スコアおよび言
語スコアを求めることができるようになっている。そし
て、音響モデルデータベース17C、辞書データベース
18C、および文法データベース19Cを参照する再評
価部15では、少ない数の単語を対象として、迅速に、
より精度の高い音響スコアおよび言語スコアを求めるこ
とができるようになっている。
【0114】なお、ここでは、音響モデルデータベース
17A乃至17Cそれぞれに記憶させる音響モデルの精
度について優劣を設けるようにしたが、音響モデルデー
タベース17A乃至17Cには、いずれにも、同一の音
響モデルを記憶させることができ、この場合、音響モデ
ルデータベース17A乃至17Cは、1つの音響モデル
データベースに共通化することができる。同様に、辞書
データベース18A乃至18Cの単語辞書それぞれの記
憶内容や、文法データベース19A乃至19Cそれぞれ
の文法規則も、同一にすることができる。
【0115】拡張単語選択部21は、マッチング部14
からの要求に応じて、辞書データベース18A乃至18
Cの単語辞書に登録された単語(上述したように、辞書
データベース18A乃至18Cには、同一の単語辞書が
記憶されている)以外の単語(未知語)のうち、マッチ
ング部14のマッチング処理の対象とするもの(以下、
適宜、拡張単語という)を選択し、拡張単語データベー
ス22に登録する拡張単語選択処理を行う。
【0116】即ち、図6は、図4の拡張単語選択部21
の構成例を示している。
【0117】ワンパスデコーダ31は、マッチング部1
4から、拡張単語選択処理の要求を受信すると、特徴量
記憶部12から必要な特徴量の系列を読み出し、その特
徴量を用い、音響モデルデータベース33、辞書データ
ベース34、および文法データベース35を必要に応じ
て参照しながら、ワンパスデコーディングを行う。
【0118】即ち、音響モデルデータベース33は、図
1の音響モデルデータベース5と同様に、音声認識する
音声の言語における個々の音素や音節などの音響的な特
徴を表す音響モデルを記憶している。
【0119】辞書データベース34は、後述する大語彙
辞書データベース36の大語彙辞書に登録された各単語
を、それを構成する音素や、幾つかの音素でなる音素列
といった断片に分割したものを、擬似的な単語(以下、
適宜、疑似単語という)とし、その疑似単語について、
その発音に関する音韻情報が記述された疑似単語辞書を
記憶している。なお、前述したように、単語を構成する
音素や音素列の種類は、それほど多くはないから、記事
単語辞書に登録される疑似単語の数も、それほど多くは
ならない。
【0120】文法データベース35は、辞書データベー
ス34の疑似単語辞書に登録された疑似単語が、大語彙
辞書データベース36に登録された単語を構成するの
に、どのように連鎖するかを記述した文法規則として
の、例えば、バイグラムやトライグラムなどを記憶して
いる。
【0121】ワンパスデコーダ31は、辞書データベー
ス34の疑似単語辞書を参照し、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、疑
似単語の音響モデル(疑似単語モデル)を構成する。さ
らに、ワンパスデコーダ31は、幾つかの疑似単語モデ
ルを、文法データベース7に記憶された文法規則を参照
することにより接続し、そのようにして接続された疑似
単語モデルを用いて、特徴量に基づき、ビタビ法によっ
て、マイク1に入力された音声を、疑似単語としての音
素や幾つかの音素の組である音韻単位で認識する。即
ち、ワンパスデコーダ31は、特徴量記憶部12が出力
する時系列の特徴量が観測されるスコア(尤度)が、最
も大きくなる疑似単語モデルの系列を検出し、その疑似
単語モデルの系列に対応する音韻列を、マイク1に入力
された音声の認識結果の候補として出力する。
【0122】なお、ワンパスデコーダ31では、そこに
供給される特徴量系列における、大語彙辞書データベー
ス36の大語彙辞書に登録された単語の終点部分は認識
することができないため、音声区間の先頭から、各フレ
ームごとに、そのフレームまでの特徴量系列から得られ
る音韻列を出力するようになっている。
【0123】検索部32は、ワンパスデコーダ31から
供給される音韻列のうち、そのスコアが所定の閾値以上
のものをキーワードとして、大語彙辞書データベース3
6の大語彙辞書を対象に、いわゆるあいまい検索を行
う。即ち、大語彙辞書データベース36は、辞書データ
ベース18A乃至18Cの単語辞書には登録されていな
い単語が、膨大な数だけ登録された大語彙辞書を記憶し
ており、検索部32は、その大語彙辞書から、音韻列に
近い音韻を有する単語を検索する。
【0124】ここで、大語彙辞書は、図7に示すよう
に、各単語を識別するための識別情報としての、その単
語の表記に対応付けて、その単語の音韻情報と、その単
語の品詞等の言語的な情報(言語情報)を記憶してい
る。
【0125】検索部32は、ワンパスデコーダ31から
の各音韻列に、音韻情報が一致または類似する単語を、
大語彙辞書データベース36の大語彙辞書から検索し、
その単語を、拡張単語として、拡張単語データベース2
2に供給して登録する。即ち、検索部32は、拡張単語
の音韻情報、および言語情報を、拡張単語データベース
22に供給して登録する。
【0126】なお、検索部32が行うあいまい検索とし
ては、例えば、Sun Wu and Udi Manber, "Agrep - a fa
st approximate pattern-maching tool", Proceedings
of USENIX Technical Conference, pp.153-162, San Fr
ancisco, January 1992等に開示されている方法を採用
することが可能である。
【0127】図4に戻り、拡張単語データベース22
は、上述したようにして、拡張単語選択部21から供給
される拡張単語を一時記憶する。
【0128】次に、図8のフローチャートを参照して、
図4の音声認識装置による音声認識処理について説明す
る。
【0129】ユーザが発話を行うと、その発話としての
音声は、マイク1およびAD変換部2を介することによ
り、ディジタルの音声データとされ、特徴抽出部3に供
給される。特徴抽出部3は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部11に供給する。
【0130】制御部11は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部3から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部12に供給して記憶
させる。
【0131】さらに、制御部11は、音声区間の開始
後、ステップS1において、音声区間の開始を表すノー
ド(以下、適宜、初期ノードという)を生成し、単語接
続情報記憶部16に供給して記憶させる。即ち、制御部
11は、ステップS1において、図5におけるノードNo
de1を、単語接続情報記憶部16に記憶させる。
【0132】また、ステップS1においては、拡張単語
データベース22に、後述するようにして登録された拡
張単語がクリア(消去)される。
【0133】そして、ステップS2に進み、制御部11
は、単語接続情報記憶部16の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。
【0134】即ち、上述したように、図5に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップS2では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
(例えば、図5におけるノードNode8や、Node10,Node
11)として検索され、そのような途中ノードが存在する
かどうかが判定される。
【0135】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。
【0136】ステップS2において、途中ノードが存在
すると判定された場合、ステップS3に進み、制御部1
1は、情報接続情報の中に存在する途中ノードのうちの
1つを、それに接続するアークとしての単語を決定する
ノード(以下、適宜、注目ノードという)として選択す
る。
【0137】即ち、制御部11は、情報接続情報の中に
1つの途中ノードしか存在しない場合には、その途中ノ
ードを、注目ノードとして選択する。また、制御部11
は、情報接続情報の中に複数の途中ノードが存在する場
合には、その複数の途中ノードのうちの1つを注目ノー
ドとして選択する。具体的には、制御部11は、例え
ば、複数の途中ノードそれぞれが有する時刻情報を参照
し、その時刻情報が表す時刻が最も古いもの(音声区間
の開始側のもの)、または最も新しいもの(音声区間の
終わり側のもの)を、注目ノードとして選択する。ある
いは、また、制御部11は、例えば、初期ノードから、
複数の途中ノードそれぞれに至るまでのパスを構成する
アークが有する音響スコアおよび言語スコアを累積し、
その累積値(以下、適宜、部分累積スコアという)が最
も大きくなるパス、または小さくなるパスの終端になっ
ている途中ノードを、注目ノードとして選択する。
【0138】その後、制御部11は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令(以下、適宜、マッチング処理指令という)を、マ
ッチング部14および再評価部15に出力する。
【0139】再評価部15は、制御部11からマッチン
グ処理指令を受信すると、ステップS4に進み、単語接
続情報記憶部16を参照することにより、初期ノードか
ら注目ノードに至るまでのパス(以下、適宜、部分パス
という)を構成するアークによって表される単語列(以
下、適宜、部分単語列という)を認識し、その部分単語
列の再評価を行う。即ち、部分単語列は、後述するよう
にして、単語予備選択部13が予備選択した単語、およ
び拡張単語データベース22に登録された単語を対象
に、マッチング部14がマッチング処理を行うことによ
り得られた音声認識結果の候補とする単語列の途中結果
であるが、再評価部15では、その途中結果が、再度、
評価される。
【0140】具体的には、再評価部15は、部分単語列
について、言語スコアおよび音響スコアを再計算するた
め、部分単語列に対応する特徴量の系列を、特徴量記憶
部12から読み出す。即ち、再評価部15は、部分パス
の先頭のノードである初期ノードが有する時刻情報が表
す時刻から、注目ノードが有する時刻情報が表す時刻ま
でに対応付けられている特徴量の系列(特徴量系列)
を、特徴量記憶部12から読み出す。さらに、再評価部
15は、音響モデルデータベース17C、辞書データベ
ース18C、および文法データベース19Cを参照し、
特徴量記憶部12から読み出した特徴量系列を用いて、
部分単語列について、言語スコアおよび音響スコアを再
計算する。なお、この再計算は、部分単語列を構成する
各単語の単語境界を固定せずに行われる。従って、再評
価部15では、部分単語列の言語スコアおよび音響スコ
アを再計算することにより、部分単語列について、それ
を構成する各単語の単語境界の決定が、動的計画法に基
づいて行われることになる。
【0141】再評価部15は、以上のようにして、部分
単語列の各単語の言語スコアおよび音響スコア、並びに
単語境界を新たに得ると、その新たな言語スコアおよび
音響スコアによって、単語接続情報記憶部16の部分単
語列に対応する部分パスを構成するアークが有する言語
スコアおよび音響スコアを修正するとともに、新たな単
語境界によって、単語接続情報記憶部16の部分単語列
に対応する部分パスを構成するノードが有する時刻情報
を修正する。なお、本実施の形態では、再評価部15に
よる単語接続情報の修正は、制御部11を介して行われ
るようになっている。
【0142】即ち、例えば、図9に示すノードNode5
注目ノードとされた場合において、初期ノードNode1
ら注目ノードNode5に至る部分パスのうちの、例えば、
ノードNode3、単語「いい」に対応するアークArc3、ノ
ードNode4、単語「天気」に対応するArc4、およびノー
ドNode5の部分で表される単語列「いい」、「天気」に
注目すると、再評価部15は、ノードNode3に対応する
時刻からノードNode5に対応する時刻までの特徴量系列
を用い、音響モデルデータベース17Cおよび辞書デー
タベース18Cを参照することで、単語「いい」、「天
気」それぞれの単語モデルを構成し、音響スコアを計算
する。さらに、再評価部15は、文法データベース19
Cを参照することで、単語「いい」、「天気」それぞれ
の言語スコアを計算する。具体的には、例えば、文法デ
ータベース19Cに、トライグラムに基づく文法規則が
記憶されている場合には、再評価部15は、単語「い
い」については、その直前の単語「は」と、さらにその
前の単語「今日」を用い、単語が、「今日」、「は」、
「いい」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。また、再評価部15は、単語「天
気」については、その直前の単語「いい」と、さらにそ
の前の単語「は」を用い、単語が、「は」、「いい」、
「天気」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。
【0143】再評価部15は、以上のようにして求めら
れる音響スコアおよび言語スコアを累積し、その累積値
が最も大きくなるように、単語「いい」と「天気」の単
語境界を決定する。そして、再評価部15は、そのよう
にして求まった音響スコアおよび言語スコアによって、
単語「いい」に対応するアークArc3と、単語「天気」に
対応するArc4がそれぞれ有する音響スコアおよび言語ス
コアを修正するとともに、決定した単語境界によって、
単語「いい」と「天気」の単語境界に対応するノードNo
de4が有する時刻情報を修正する。
【0144】従って、再評価部15では、部分単語列の
各単語どうしの単語境界が、動的計画法に基づいて決定
され、単語接続情報16に記憶された単語接続情報が、
逐次修正されていく。そして、この修正された単語接続
情報を参照して、単語予備選択部13、マッチング部1
4、および拡張単語選択部21で処理が行われるため、
それぞれにおける処理の精度および信頼性を向上させる
ことができる。
【0145】さらに、再評価部15において単語接続情
報の単語境界が修正されるため、単語接続情報として記
憶しておく単語境界の候補の数を大幅に削減することが
できる。
【0146】即ち、従来においては、例えば、前述の図
2で説明したように、単語「今日」と「は」との単語境
界の候補として、時刻t1-1,t1,t1+1の3つを保持
しておく必要があり、また、正しい単語境界である時刻
1を保持し損ねた場合には、その後のマッチング処理
に悪影響を与える。これに対して、再評価部15におい
て単語境界を逐次修正する場合には、例えば、誤った単
語境界である時刻t1- 1の1つだけしか保持しなかった
としても、再評価部15において、その誤った単語境界
である時刻t1-1が、正しい単語境界である時刻t1に修
正されるから、その後のマッチング処理に悪影響を与え
ることはない。
【0147】また、再評価部15では、部分単語列を構
成する単語については、最初と最後の単語を除き、その
前と後に接続する単語それぞれを考慮したクロスワード
モデルを用いて音響スコアを計算し、さらに、言語スコ
アの計算も、その前と後に接続する単語それぞれを考慮
して行うことができ、従って、高精度の処理を行うこと
ができる。しかも、再評価部15の処理は、逐次的に行
われるため、前述した2パスデコーディングのような大
きな遅延は生じない。
【0148】なお、マッチング部14では、後述するよ
うに、単語予備選択部13で予備選択された単語、即
ち、辞書データベース18A乃至18Cの単語辞書に登
録されている単語の他、拡張単語データベース22に登
録された単語も対象としてマッチング処理が行われるた
め、単語接続情報記憶部16においては、辞書データベ
ース18A乃至18Cの単語辞書に登録されている単語
ではない拡張単語を含む部分単語列に対応する部分パス
が構成されている場合がある。
【0149】そして、拡張単語については、再評価部1
5が参照する辞書データベース18Cや、文法データベ
ース19Cに、その情報が記憶されていないため、再評
価部15において、それらを参照するだけでは、拡張単
語の音響スコアおよび言語スコアを再計算することがで
きない。そこで、再評価部15は、拡張単語について
は、拡張単語データベース22をさらに参照すること
で、その音響スコアおよび言語スコアを計算するように
なっている。
【0150】即ち、上述したように、拡張単語データベ
ース22には、拡張単語の音韻情報と言語情報が記憶さ
れており、再評価部15は、拡張単語データベース22
に記憶された拡張単語の音韻情報に基づいて、音響モデ
ルデータベース17Cに記憶された音響モデルを接続す
ることにより、その拡張単語の単語モデルを構成し、そ
の音響スコアを再計算する。また、再評価部15は、拡
張単語データベース22に記憶された言語情報と同一ま
たは類似する言語情報を有する単語に適用される文法規
則を、文法データベース19Cから検索し、その文法規
則を用いて、拡張単語の言語スコアを再計算する。
【0151】再評価部15は、以上のようにして、単語
接続情報記憶部16の単語接続情報の修正を終了する
と、その旨を、制御部11を介して、マッチング部14
に供給する。
【0152】マッチング部14は、上述したように、制
御部11からマッチング処理指令を受信した後、再評価
部15から、制御部11を介して、単語接続情報の修正
が終了した旨を受信すると、注目ノード、およびそれが
有する時刻情報を、単語予備選択部13と拡張単語選択
部21に供給し、それぞれに、単語予備選択処理と拡張
単語選択処理を要求して、ステップS5に進む。
【0153】ステップS5では、単語予備選択部13
は、マッチング部14から、単語予備選択処理の要求を
受信した後、注目ノードに接続されるアークとなる単語
の候補を選択する単語予備選択処理を、辞書データベー
ス18Aの単語辞書に登録された単語を対象として行
う。
【0154】即ち、単語予備選択部13は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部12から読み出す。さらに、単語予備選択部13は、
辞書データベース18Aの単語辞書に登録された各単語
の単語モデルを、音響モデルデータベース18Aの音響
モデルを接続することで構成し、その単語モデルに基づ
き、特徴量記憶部12から読み出した特徴量の系列を用
いて、音響スコアを計算する。
【0155】また、単語予備選択部13は、各単語モデ
ルに対応する単語の言語スコアを、文法データベース1
9Aに記憶された文法規則に基づいて計算する。即ち、
単語予備選択部13は、各単語の言語スコアを、例えば
ユニグラムに基づいて求める。
【0156】なお、単語予備選択部13においては、単
語接続情報を参照することにより、各単語の音響スコア
の計算を、その単語の直前の単語(注目ノードが終端と
なっているアークに対応する単語)に依存するクロスワ
ードモデルを用いて行うことが可能である。
【0157】また、単語予備選択部13においては、単
語接続情報を参照することにより、各単語の言語スコア
の計算を、その単語が、その直前の単語と連鎖する確率
を規定するバイグラムに基づいて行うことが可能であ
る。
【0158】単語予備選択部13は、以上のようにし
て、各単語について音響スコアおよび言語スコアを求め
ると、その音響スコアおよび言語スコアを総合評価した
スコアを、以下、適宜、単語スコアという)を求め、そ
の上位L個を、マッチング処理の対象とする単語とし
て、マッチング部14に供給する。
【0159】さらに、ステップS5では、拡張単語選択
部21は、マッチング部14から、拡張単語選択処理の
要求を受信した後、注目ノードに接続されるアークとな
る拡張単語の候補を選択する拡張単語選択処理を行う。
【0160】即ち、拡張単語選択部21(図6)は、図
10のフローチャートに示すように、まず最初に、ステ
ップS11において、ワンパスデコーダ31は、音韻列
の言語スコアおよび音響スコアを計算するのに用いる特
徴量の系列の開始時刻を、注目ノードが有する時刻情報
から認識し、その開始時刻以降の、必要な特徴量の系列
を特徴量記憶部12から読み出す。さらに、ワンパスデ
コーダ31は、辞書データベース34の疑似単語辞書に
登録された各疑似単語の疑似単語モデルを、音響モデル
データベース33の音響モデルを用いて構成し、その類
似単語モデルに基づき、特徴量記憶部12から読み出し
た特徴量の系列を用いて、音響スコアを計算する。
【0161】また、ワンパスデコーダ31は、各疑似単
語モデルに対応する疑似単語の言語スコアを、文法デー
タベース35に記憶された文法規則に基づいて計算す
る。
【0162】そして、ワンパスデコーダ31は、ステッ
プS12に進み、疑似単語モデルの系列に対応する音韻
列の音響スコアおよび言語スコアを総合評価して得られ
るスコア(以下、適宜、音韻列スコアという)が最も大
きい音韻列の、その音韻列スコアが、所定の閾値以上で
あるかどうかを判定し、所定の閾値以上でないと判定し
た場合、拡張単語選択処理を終了する。
【0163】従って、この場合、拡張単語データベース
22には、拡張単語は登録されない。
【0164】一方、ステップS12において、音韻列の
音韻列スコアが所定の閾値以上であると判定された場
合、ワンパスデコーダ31は、その音韻列(以下、適
宜、有効音韻列という)を、検索部32に出力して、ス
テップS13に進む。
【0165】ステップS13では、検索部32は、ワン
パスデコーダ31からの有効音韻列をキーワードとし
て、大語彙辞書データベース36の大語彙辞書を対象
に、あいまい検索を行う。即ち、検索部32は、ユーザ
が発話したと考えられる音韻列に一致または類似する音
韻を有する単語を、大語彙辞書データベース36から検
索する。
【0166】そして、ステップS14に進み、検索部3
2は、有効音韻列と音韻が一致または類似する単語が、
大語彙辞書データベース36の大語彙辞書に存在するか
どうかを判定し、存在しないと判定した場合、拡張単語
選択処理を終了する。
【0167】従って、この場合も、拡張単語データベー
ス22には、拡張単語は登録されない。
【0168】また、ステップS14において、有効音韻
列と音韻が一致または類似する単語が、大語彙辞書デー
タベース36の大語彙辞書に存在すると判定された場
合、検索部32は、その単語すべてを、拡張単語とし
て、大語彙辞書から読み出す。そして、検索部32は、
その拡張単語を、拡張単語データベース22に供給し、
追加する形で記憶させ、拡張単語選択処理を終了する。
【0169】なお、ワンパスデコーダ31においても、
単語予備選択部13における場合と同様に、単語接続情
報を参照して、音響スコアや言語スコアを計算するよう
にすることが可能である。
【0170】また、検索部32では、大語彙辞書から、
有効音韻列と音韻が類似する単語が多数検索された場合
には、その類似性に基づいて、拡張単語データベース2
2に登録する単語(拡張単語)を、所定数に制限するこ
とが可能である。
【0171】図8に戻り、マッチング部14は、単語予
備選択部13から、マッチング処理に用いるL個の単語
を受信すると、ステップS6において、その単語、さら
には、直前のステップS5で行われた拡張単語選択処理
により、拡張単語が、拡張単語データベース22に追加
する形で記憶された場合には、その拡張単語をも対象と
して、マッチング処理を行う。
【0172】即ち、マッチング部14は、言語スコアお
よび音響スコアを計算するのに用いる特徴量の系列の開
始時刻を、注目ノードが有する時刻情報から認識し、そ
の開始時刻以降の、必要な特徴量の系列を特徴量記憶部
12から読み出す。さらに、マッチング部14は、辞書
データベース18Bを参照することで、単語予備選択部
13からの単語の音韻情報を認識し、その音韻情報に対
応する音響モデルを、音響モデルデータベース17Bか
ら読み出して接続することで、単語モデルを構成する。
【0173】そして、マッチング部14は、上述のよう
にして構成した単語モデルに基づき、特徴量記憶部12
から読み出した特徴量系列を用いて、単語予備選択部1
3からの単語の音響スコアを計算する。なお、マッチン
グ部14においては、単語接続情報を参照することによ
り、単語の音響スコアの計算を、クロスワードモデルに
基づいて行うようにすることが可能である。
【0174】さらに、マッチング部14は、文法データ
ベース19Bを参照することで、単語予備選択部13か
らの単語の言語スコアを計算する。即ち、マッチング部
14は、例えば、単語接続情報を参照することにより、
単語予備選択部13からの単語の直前の単語と、さらに
その前の単語を認識し、トライグラムに基づく確率か
ら、単語予備選択部13からの単語の言語スコアを求め
る。
【0175】また、マッチング部14は、直前のステッ
プS5で拡張単語データベース22に追加記憶された拡
張単語の音韻情報に基づいて、音響モデルデータベース
17Bに記憶された音響モデルを接続することにより、
その拡張単語の単語モデルを構成し、特徴量記憶部12
から読み出した特徴量系列を用いて、拡張単語の音響ス
コアを計算する。さらに、マッチング部14は、直前の
ステップS5で拡張単語データベース22に追加記憶さ
れた拡張単語の言語情報と同一または類似する言語情報
を有する単語に適用される文法規則を、文法データベー
ス19Bから検索し、その文法規則を用いて、拡張単語
の言語スコアを計算する。
【0176】マッチング部14は、以上のようにして、
単語予備選択部13からのL個の単語と、直前のステッ
プS5で拡張単語データベース22に追加登録された拡
張単語すべて(以下、適宜、選択単語という)につい
て、その音響スコアおよび言語スコアを求め、ステップ
S7に進む。ステップS7では、選択単語それぞれにつ
いて、その音響スコアおよび言語スコアを総合評価した
単語スコアが求められ、その単語スコアに基づいて、単
語接続情報記憶部16に記憶された単語接続情報が更新
される。
【0177】即ち、ステップS7では、マッチング部1
4は、選択単語について単語スコアを求め、例えば、そ
の単語スコアを所定の閾値と比較すること等によって、
注目ノードに接続するアークとしての単語を、選択単語
の中から絞り込む。そして、マッチング部14は、その
絞り込みの結果残った単語を、その音響スコア、言語ス
コア、およびその単語の終了時刻とともに、制御部11
に供給する。
【0178】なお、単語の終了時刻は、音響スコアを計
算するのに用いた特徴量の抽出時刻から認識される。ま
た、ある単語について、その終了時刻としての蓋然性の
高い抽出時刻が複数得られた場合には、その単語につい
ては、各終了時刻と、対応する音響スコアおよび言語ス
コアとのセットが、制御部11に供給される。
【0179】制御部11は、上述のようにしてマッチン
グ部14から供給される単語の音響スコア、言語スコ
ア、および終了時刻を受信すると、マッチング部14か
らの各単語について、単語接続情報記憶部16に記憶さ
れた単語接続情報(図5)における注目ノードを始端ノ
ードとして、アークを延ばし、そのアークを、終了時刻
の位置に対応する終端ノードに接続する。さらに、制御
部11は、各アークに対して、対応する単語、並びにそ
の音響スコアおよび言語スコアを付与するとともに、各
アークの終端ノードに対して、対応する終了時刻を時刻
情報として与える。そして、ステップS2に戻り、以
下、同様の処理が繰り返される。
【0180】以上のように、単語接続情報は、マッチン
グ部14の処理結果に基づいて、逐次更新され、さら
に、再評価部15において逐次修正されるので、単語予
備選択部13、マッチング部14、および拡張単語選択
部21は、常時、単語接続情報を利用して処理を行うこ
とが可能となる。
【0181】なお、制御部11は、単語接続情報を更新
する際に、可能であれば、上述したような終端ノードの
共通化を行う。
【0182】一方、ステップS2において、途中ノード
が存在しないと判定された場合、ステップS8に進み、
制御部11は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。
【0183】以上のように、拡張単語選択部21におい
て、1以上の音韻からなる音韻列について、スコアが計
算され、そのスコア(音韻列スコア)が所定値以上の音
韻列と一致または類似する単語が、大語彙辞書から検索
される。そして、マッチング部14において、単語予備
選択部13で予備選択された単語の他に、拡張単語選択
部21で検索された単語も対象として、スコアの計算が
行われ、制御部11において、音声の音声認識結果とな
る単語列が確定される。従って、大語彙を対象として、
精度が高く、かつ高速な音声認識を行うことができる。
【0184】即ち、辞書データベース18A乃至18C
の単語辞書に登録されていない単語(未知語)は、大語
彙辞書データベース36(図6)の大語彙辞書に登録し
ておくことにより、拡張単語選択部21が大語彙辞書を
対象として行う検索によって、音声認識の対象とされ
る。そして、拡張単語選択部21が大語彙辞書を対象と
して行う検索は、ユーザが発話している話題等に関係な
く、ユーザの音声の音韻列としての文字列と、単語の音
韻情報としての文字列とが一致する度合いに基づいて行
われるものであり、非常に高速に行うことができるか
ら、例えば、大語彙辞書データベース36の大語彙辞書
に登録する単語数を、100万語程度にしても、音声認
識装置のリアルタイム性に大きな影響を与えない。
【0185】その結果、実質的には、辞書データベース
18A乃至18Cの単語辞書に登録された単語の他、大
語彙辞書データベース36の大語彙辞書に登録された単
語も、音声認識の対象とすることができるから、大語彙
を対象として、精度が高く、かつ高速な音声認識を行う
ことが可能となる。
【0186】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0187】そこで、図11は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0188】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0189】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
【0190】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0191】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0192】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0193】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0194】なお、マッチング部14でスコア計算の対
象となる単語は、単語予備選択部13や拡張単語選択部
21においてあらかじめ選択されているから、マッチン
グ部14による各単語のスコア計算は、前述したよう
な、音響スコアの計算の一部を共通化する木構造のネッ
トワークを構成せずに、各単語ごとに独立して行うこと
ができる。この場合、マッチング部14が各単語につい
てスコア計算を行うために確保するメモリ容量を小さく
抑えることができる。さらに、この場合、単語のスコア
計算を開始するときに、その単語が、どの単語であるの
かを同定することができるから、前述したような、単語
を同定することができないことによって無駄な計算が行
われることを防止することができる。
【0195】また、マッチング部14や再評価部15に
よるスコア計算は、各単語ごとに、時間的に独立して行
うことができ、この場合、スコア計算に要するメモリ容
量を使い回すことにより、必要とするメモリ容量を小さ
く抑えることができる。
【0196】なお、図4に示した音声認識装置は、例え
ば、音声によってデータベースの検索を行う場合や、各
種の機器の操作を行う場合、各機器へのデータ入力を行
う場合、音声対話システム等に適用可能である。より具
体的には、例えば、音声による地名の問合せに対して、
対応する地図情報を表示するデータベース検索装置や、
音声による命令に対して、荷物の仕分けを行う産業用ロ
ボット、キーボードの代わりに音声入力によりテキスト
作成を行うディクテーションシステム、ユーザとの会話
を行うロボットにおける対話システム等に適用可能であ
る。
【0197】また、本実施の形態では、大語彙辞書デー
タベース36(図6)の大語彙辞書に、各単語につい
て、1通りの音韻情報を登録するようにしたので、大語
彙辞書に登録された単語が、検索部32において選択さ
れ、拡張単語データベース22に登録された場合には、
マッチング部14においては、拡張単語データベース2
2に登録された単語について、その1通りの音韻情報に
よってしか単語モデルを構成することができないが、大
語彙辞書データベース36Aの記憶容量に余裕がある場
合には、大語彙辞書において、各単語について、複数通
りの音韻情報を登録することが可能である。この場合、
マッチング部14においては、拡張単語データベース2
2に登録された単語について、その複数通りの音韻情報
によって、複数の単語モデルを構成して、より精度の高
い音響スコアを計算することが可能となる。
【0198】さらに、この場合、検索部32において
も、大語彙辞書から、その複数通りの音韻情報を利用し
て、単語のあいまい検索を行うことが可能となる。
【0199】
【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、音声に対応する、1以上
の音韻からなる音韻列が検出され、その音韻列と音韻が
一致または類似する単語が検索される。そして、少なく
とも、その検索された単語を対象に、音声に対するスコ
アの計算が行われ、単語について計算されたスコアに基
づいて、音声の音声認識結果となる単語列が確定され
る。従って、大語彙を対象として、精度が高く、かつ高
速な音声認識を行うことが可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【図2】単語どうしの境界の候補を保持する必要性を説
明する図である。
【図3】従来の音声認識装置の他の一例の構成を示すブ
ロック図である。
【図4】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図5】単語接続情報を説明するための図である。
【図6】図4の拡張単語選択部21の構成例を示すブロ
ック図である。
【図7】図6の大語彙辞書データベース36の大語彙辞
書の記憶内容の例を示す図である。
【図8】図4の音声認識装置の処理を説明するためのフ
ローチャートである。
【図9】再評価部15の処理を説明するための図であ
る。
【図10】図6の拡張単語選択部21が行う拡張単語選
択処理を説明するためのフローチャートである。
【図11】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部,
11 制御部, 12特徴量記憶部, 13 単語予備
選択部, 14 マッチング部, 15 再評価部,
16 単語接続情報記憶部, 17A乃至17C 音響
モデルデータベース, 18A乃至18C 辞書データ
ベース, 19A乃至19C 文法データベース, 2
1 拡張単語選択部, 22 拡張単語データベース,
31ワンパスデコーダ, 32 検索部, 33 音
響モデルデータベース, 34 辞書データベース,
35 文法データベース, 36 大語彙辞書データベ
ース, 101 バス, 102 CPU, 103 RO
M, 104 RAM,105 ハードディスク, 106
出力部, 107 入力部, 108 通信部, 1
09 ドライブ, 110 入出力インタフェース,
111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 ヘルムート ルッケ 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 AA01 BB01 FF03 HH03 HH12 HH22 LL09 9A001 BB02 BB03 BB04 FF03 HH16 HH17

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を認識する音声認識装置であって、 前記音声に対応する、1以上の音韻からなる音韻列を検
    出する検出手段と、 前記音韻列と音韻が一致または類似する単語を検索する
    検索手段と、 少なくとも、前記検索手段において検索された前記単語
    を対象に、前記音声に対する前記スコアの計算を行うス
    コア計算手段と、 前記単語について計算されたスコアに基づいて、前記音
    声の音声認識結果となる単語列を確定する確定手段とを
    備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記検索手段は、前記音声に対する前記
    スコアが所定値以上の音韻列を対象に、単語の検索を行
    うことを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 大語彙の単語辞書である大語彙辞書を記
    憶している大語彙辞書記憶手段をさらに備え、 前記検索手段は、前記大語彙辞書を対象に検索を行うこ
    とを特徴とする請求項1に記載の音声認識装置。
  4. 【請求項4】 前記大語彙辞書は、単語を、その音韻情
    報と、言語的な情報とともに記憶していることを特徴と
    する請求項3に記載の音声認識装置。
  5. 【請求項5】 音声認識の対象とする単語群から、前記
    スコア計算手段による前記スコアの計算の対象とする単
    語を選択する選択手段をさらに備え、 前記スコア計算手段は、前記検索手段において検索され
    た単語と、前記選択手段において選択された単語とを対
    象に、前記スコアの計算を行うことを特徴とする請求項
    1に記載の音声認識装置。
  6. 【請求項6】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を認識する音声認識方法であって、 前記音声に対応する、1以上の音韻からなる音韻列を検
    出する検出ステップと、 前記音韻列と音韻が一致または類似する単語を検索する
    検索ステップと、 少なくとも、前記検索ステップにおいて検索された前記
    単語を対象に、前記音声に対する前記スコアの計算を行
    うスコア計算ステップと、 前記単語について計算されたスコアに基づいて、前記音
    声の音声認識結果となる単語列を確定する確定ステップ
    とを備えることを特徴とする音声認識方法。
  7. 【請求項7】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を認識する音声認識処理を、コンピュータ
    に行わせるプログラムが記録されている記録媒体であっ
    て、 前記音声に対応する、1以上の音韻からなる音韻列を検
    出する検出ステップと、 前記音韻列と音韻が一致または類似する単語を検索する
    検索ステップと、 少なくとも、前記検索ステップにおいて検索された前記
    単語を対象に、前記音声に対する前記スコアの計算を行
    うスコア計算ステップと、 前記単語について計算されたスコアに基づいて、前記音
    声の音声認識結果となる単語列を確定する確定ステップ
    とを備えるプログラムが記録されていることを特徴とす
    る記録媒体。
JP2000056999A 2000-03-02 2000-03-02 音声認識装置および音声認識方法、並びに記録媒体 Pending JP2001249684A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000056999A JP2001249684A (ja) 2000-03-02 2000-03-02 音声認識装置および音声認識方法、並びに記録媒体
US09/798,521 US6961701B2 (en) 2000-03-02 2001-03-03 Voice recognition apparatus and method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000056999A JP2001249684A (ja) 2000-03-02 2000-03-02 音声認識装置および音声認識方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001249684A true JP2001249684A (ja) 2001-09-14

Family

ID=18577864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000056999A Pending JP2001249684A (ja) 2000-03-02 2000-03-02 音声認識装置および音声認識方法、並びに記録媒体

Country Status (2)

Country Link
US (1) US6961701B2 (ja)
JP (1) JP2001249684A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP2012063651A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
WO2015087372A1 (ja) * 2013-12-12 2015-06-18 救救com株式会社 単一指向性接話型マイクロフォン

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203907B2 (en) * 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
US7359858B2 (en) * 2002-02-07 2008-04-15 Sap Aktiengesellschaft User interface for data access and entry
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7418389B2 (en) * 2005-01-11 2008-08-26 Microsoft Corporation Defining atom units between phone and syllable for TTS systems
JPWO2007097390A1 (ja) * 2006-02-23 2009-07-16 日本電気株式会社 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US8032374B2 (en) * 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
DE102007005704B4 (de) * 2007-02-05 2008-10-30 Voice Trust Ag Digitales Verfahren zur Authentifizierung einer Person und Anordnung zu dessen Durchführung
US20100063817A1 (en) * 2007-03-14 2010-03-11 Pioneer Corporation Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
JP5121930B2 (ja) * 2007-07-17 2013-01-16 サーティコム コーポレーション 暗号値のテキスト表示を提供する方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9129605B2 (en) 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US8645138B1 (en) * 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests
KR20160060243A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 고객 응대 서비스 장치 및 방법
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
JP6821393B2 (ja) * 2016-10-31 2021-01-27 パナソニック株式会社 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10325597B1 (en) 2018-10-08 2019-06-18 Sorenson Ip Holdings, Llc Transcription of communications
CN112397053B (zh) * 2020-11-02 2022-09-06 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质
CN113793600B (zh) * 2021-09-16 2023-12-01 中国科学技术大学 语音识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61238099A (ja) * 1985-04-15 1986-10-23 日本電信電話株式会社 単語音声認識装置
JPS63292200A (ja) * 1987-05-25 1988-11-29 日本電信電話株式会社 単語音声認識装置
JPH04291398A (ja) * 1991-03-20 1992-10-15 Hitachi Ltd 音声認識方式及び音声認識システム
JP2000056793A (ja) * 1998-08-12 2000-02-25 Fuji Xerox Co Ltd 音声認識装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61238099A (ja) * 1985-04-15 1986-10-23 日本電信電話株式会社 単語音声認識装置
JPS63292200A (ja) * 1987-05-25 1988-11-29 日本電信電話株式会社 単語音声認識装置
JPH04291398A (ja) * 1991-03-20 1992-10-15 Hitachi Ltd 音声認識方式及び音声認識システム
JP2000056793A (ja) * 1998-08-12 2000-02-25 Fuji Xerox Co Ltd 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP2012063651A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
WO2015087372A1 (ja) * 2013-12-12 2015-06-18 救救com株式会社 単一指向性接話型マイクロフォン

Also Published As

Publication number Publication date
US20010037200A1 (en) 2001-11-01
US6961701B2 (en) 2005-11-01

Similar Documents

Publication Publication Date Title
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7249017B2 (en) Speech recognition with score calculation
US7725319B2 (en) Phoneme lattice construction and its application to speech recognition and keyword spotting
US7240002B2 (en) Speech recognition apparatus
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
US20140067394A1 (en) System and method for decoding speech
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2938865B1 (ja) 音声認識装置
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Huang et al. Task-independent call-routing
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
Li et al. Large list recognition using voice search framework
JP2000250583A (ja) 統計的言語モデル生成装置及び音声認識装置
Cai et al. Development of a Chinese song name recognition system
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100603