JP3810608B2 - 音声レコグナイザーのためのトレーニング方法 - Google Patents
音声レコグナイザーのためのトレーニング方法 Download PDFInfo
- Publication number
- JP3810608B2 JP3810608B2 JP2000067094A JP2000067094A JP3810608B2 JP 3810608 B2 JP3810608 B2 JP 3810608B2 JP 2000067094 A JP2000067094 A JP 2000067094A JP 2000067094 A JP2000067094 A JP 2000067094A JP 3810608 B2 JP3810608 B2 JP 3810608B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- feature vector
- subband
- fourier transform
- mel filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000012549 training Methods 0.000 title description 32
- 239000013598 vector Substances 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 6
- 238000009966 trimming Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識に関し、特に、隠れマルコフモデル(HMM)ベースの音声認識の方法および装置に関する。
【0002】
【従来の技術】
典型的な連続音声認識は、フロントエンド特徴解析ステージからなり、その後で特徴(フィーチャー)パターン分類を行う。これら2つの間のインターフェースである特徴ベクトル(feature vector)は、その後の分類に関連する音声信号の全ての情報を理想的には含み、音響環境における変化による関連しないバリエーションの影響を受けず、同時に、分類に関する演算上要求を最小化するために低いディメンションとなっている。
【0003】
理想的な音声認識の近似として幾つかの種類の特徴ベクトルが提案されてきた。これは、文献、J. W. Picone, "Signal Modeling Techniques in Speech recognition", Proceedings of the IEEE, Vol. 81, No. 9, 1993, pp. 1215-1247に記載されている。多くの音声認識において、線形予測(LP:linear predictive)解析によって得たケプストラル(cepstral)パラメータを伝統的に用いている。これは、LP解析がスムースなスペクトル、ピッチハーモニックスがないこと、スペクトルピークをよくモデル化できることによる。
【0004】
他方、Melベースのケプストラルパラメータはスペクトルをメルの間隔でサンプリングすることによって人間の聴覚系の認知特性の利点を享受する。論理的に、LP解析とメルフィルタバンク解析の両方の利点を組み合わせると、理論的には、多くのケプストラル特徴が改善するはずである。
【0005】
この事は幾つかの方法により行うことができる。例えば、LPパラメータの対数量スペクトルを計算し、周波数がメルスケールに対応するように周波数をワープさせる。ケプストラムを計算する前に双一次変換(bilinear transformation:メービウス変換)によってLPスペクトルをワープすることによって興味深い音声認識結果が報告された。これは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30のようにワープを用いないのとは対照的である。他の周波数ワープ技術が幾つか提案されている。例えば、H. W. Strube, "Linear Prediction on a Warped Frequency Scale", Journal of Acoustical Society of America, Vol. 68, No. 41980, pp. 1071-1076では、時間領域においてオールパスフィルタリングを用いるメルに似たスペクトルワーク方法が提案されている。
【0006】
別のアプローチにおいて、LP解析の後に、信号にメルフィルターバンク解析を適用して、メル線形予測ケプストラル(mel-lpc)特徴として呼ばれるものを与える(文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30を参照)。メル-lpc特徴の計算は文献、H. Hermansky, "Perceptual Linear Prediction (PLP) analysis of Speech", Journal of Acoustical Society of America, Vol. 87, No.4, 1990, pp.1738-1752 により説明されている聴覚線形予測(PLP:Perceptual Linear Predictive)係数にある意味で似ている。これら両方の技術は、LP解析の前にメルフィルタバンクを適用する。しかし、メル-lpcは聴覚重み付け(perceptual weighting)ないし振幅圧縮を用いない高次LP解析を用いる。上の全ての技術は、音声品質を改善するために音声信号のスペクトルを「認知的(perceptual)(聴覚)」にモデル化し、全バンド(whole band)アプローチにて音声解析、合成、認識をより有効に表現することを試みている。
【0007】
近年に、サブバンドベースの特徴抽出技術の研究がなされている。例えば、文献、H. Bourlard and S. Dupont, "Subband-Based Speech Recognition", Proc. ICASSP, 1997, pp. 1251-1254 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560 、S. Okawa, E. Bocchieri and A. Potamianos, "Multi-Band Speech Recognition in Noisy Environments", Proc. ICASSP, 1998, pp. 641-644 、S. Tibrewala and H.Hermansky, "Subband Based Recognition of Noisy Speech", Proc. ICASSP, 1997, pp. 1255-1258 のものである。文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560は、複数の分解能(multiple resolution)レベルを用いても更に有利にならないことを示している。また、サブバンドからの自己後退スペクトル(auto-regressive spectral)評価がフルバンド自己後退スペクトル評価よりも堅牢で効率的であることを最近の理論的および実験的な結果が示している。すなわち、文献、S. Rao and W. A. Pearlman, "Analysis of Linear Prediction, Coding and Spectral Estimation from Subbands", IEEE Transactions on Information Theory, Vol. 42, 1996, pp. 1160-1178である。
【0008】
【発明が解決しようとする課題】
上記各文献に記載されているように、音声認識において更に改善する必要がある。本発明は、線形予測解析とサブバンド解析の両方の利点を有する音声認識を提供することを目的とする。
【0009】
【課題を解決するための手段】
手短に言うと、本発明により、入力音声の周波数スペクトルから得たメルワープしたサブバンドベースの自己相関関数の数からプレディクターが計算されるような予測解析のアプローチを提供することによって音声リコグナイザーを改善する。また、サブバンドデコンポジションとその後のケプストラル解析のレベルを、ピラミット状の分解能レベルから特徴が選択されるように増やされる。統計的パラメータが評価される大きなディメンション空間を定めて、各マルチ分解能サブバンドからLPケプストラル特徴の連結に基づいて特徴ベクトルを拡張するように形成する。
【0010】
好ましい実施態様において、隠れマルコフモデル(HMM:hidden Markov model)の状態を特徴づけるために連続的密度ミクスチャを用いるHMMに基づくレコクナイザの方法および装置を提供する。サブバンドデコンポジションの異なる分解能を用いて、単一の固定音声バンドデコンポジションを用いることによる制限を有効に緩和し、ストリングエラーの数の減らすことができるようなマルチ分解能特徴を用いて更に利点を発揮することができる。
【0011】
別の実施態様において、マルチ分解能メル-lpc特徴を用いて音声レコグナイザーを提供して改善することができる。
【0012】
図1は、サブバンドのレベルを2つ有する階層的サブバンド線形予測音声レコグナイザー100のブロック図である。第1レベルは標準的な音声バンド幅であり、例えば、0〜4000Hzである。第2レベルは2つのサイドバンドを有し0〜2000Hzと2000〜4000Hzである。これらバンド幅は、階層的サブバンドベースの線形予測ケプストラル(HSLPC)特徴の抽出プロセス102にて適用される。本発明に従うプロセス102により抽出した幾つかのHSLPC特徴によって音声認識を改善することができる。音声レコグナイザーにとって通常のように、まず音声モデルを構築するようにレコグナイザーがトレーニングされそのトレーニングの後に音声モデルが入力音声を認識するために用いられる。まず音声レコグナイザー100が信号コンディショニング(整形)した最小ストリングエラーレートトレーニング(signal conditioned minimum string error rate training)によってトレーニングされる。
【0013】
本発明は、分類のためのより分別可能な特徴を提供するために相関を用いることの調査をすることがその創造の要因の一部となった。一般的に特徴が分別可能であるほど良いレコグナイザーを提供するという認識があるが、一般的な認識が相関を用いて特徴を分別できることを特に指摘したりせず相関を用いてより分別可能な特徴を得るような特定の態様を提供したりしていない。
【0014】
図1は、音声のフレームに対して階層的メル-lpc特徴を計算するプロセス全体を示す。HSLPC特徴抽出プロセス102を信号コンディショニング160と分別トレーニングプロセス170と共に用いて、音声レコグナイザー100に対してトレーニングをし、音声レコグナイザー100によって音声入力を認識させる。このトレーニングプロセスをまず以下に説明する。
【0015】
音声レコグナイザー100は、米国特許出願第09/32902(1998年3月2日出願、発明者:Chengalvarayan、"Speaker Adaptation Using Discriminative Linear Regression On Time-Varying Mean Parameters In Trended HMM")の図1に示したようなデジタルプロセッサプラットフォームで動作するプロセスである。このデジタルプロセッサプラットフォームは、本発明の音声レコグナイザー100が必要とするプロセスを提供するためにリプログラムできる。
【0016】
まず、HSLPC特徴抽出プロセス102は、破線ブロックで示した。HSLPC特徴抽出プロセス102は入力の時変音声を処理する。この処理は、プレエンファシス、音声のフレームへのブロッキング、フレームウィンドーイング、フーリエ変換を含む。これら特定の機能は、高速フーリエ変換(FFT:fast Fourier transform)104により提供される。高速フーリエ変換104は入力音声時間関数を周波数(パワー)スペクトルに変換する。
【0017】
次は、メルフィルタバンク110、120である。フィルタ110、120の中央周波数は音声レコグナイザー100から1000Hzまで線形スケールで等しく離間し、1000Hzより上では対数スケーリングで等しく離間する。1000Hzより上では各中央周波数では前のフィルタの中央周波数よりも1.1倍である。各フィルタの大きさ対周波数応答(magnitude frequency response)は、中央周波数における単位元(unity)に等しい周波数領域における三角形型を有し、2つの隣接フィルタの中央周波数にて0へと線形的に減る。各フレームの周波数領域スペクトルはMの三角形メルフィルタバンクの集合を通って処理される。このMは、音声レコグナイザー100に対しては24にセットされる。
【0018】
第2に、逆離散的フーリエ変換(IDFT:inverse discrete Fourier transforms)112、122、123を用いて自己相関解析を行う。これらIDFTは、Qの自己相関係数を得るために平滑化パワースペクトルに(対数操作無しで)与えられる。ここで、Qはレベル1では10にセットされる。レベル2では、低い方の半分と高い方の半分のサブバンド(0〜2kHzと2〜4kHz)に対して8にセットされる。図1は、分解能レベル1、2に対する各サブバンドにおける動作の流れを示す。2より大きい分解能レベルは、2と3を考えることができる。(図1、2は、便利な例として選択したのみであり、本発明の範囲を制限するように意図したものではない。)
【0019】
第3に、線形予測ケプストラル解析プロセス116、126、127によりケプストラル解析を行う。各自己相関セットをまずLP係数に変換する。これは、文献、L. R. Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, New Jersey, 1993, pp. 115-117 により知られるDurbinの回帰アルゴリズムを用いることができる。そして、標準的なLPからケプストラムへの回帰アルゴリズムを用いてケプストラムパラメータへと変換する。このlpc解析プロセスはユニット116、126、127により各レベルに対して繰り返す。例えば、レベル1および2に対して、各サブバンドに対して繰り返す。
【0020】
このlpcプロセスは全てのレベルからの所定の必要とされるケプストラル特徴の数が得られるまで繰り返される。全ての利用からケプストラル特徴の数を得ると、マルチレベルサブバンド特徴がユニット150にて単一の拡張特徴ベクトルを形成するように連結される。この連結したケプストラルベクトルの最終的なディメンションは、好ましい態様にて12にセットされる。
【0021】
好ましい態様において、以下の3つの種類の特徴セットを調べる。
(12、0、0)は、レベル1から12の特徴、より低いサブバンドから0、より高いサブバンドから0を意味する。
(0、6、6)は、レベル2から12の特徴(より低いサブバンドから6の特徴、より低い特徴およびより高いサブバンドから6の特徴レベル1から0の特徴を意味する)
(6、3、3)は、レベル1から6の特徴、レベル2から6の特徴(より低いサブバンドから3の特徴、より高いサブバンドから3の特徴)を意味する。
【0022】
音声の各フレームに対して、プロセス102により与えられる12のHSLPC特徴に加えて、各入力特徴ベクトルは12のHSLPC特徴(エネルギー)を越えて拡張し、1次および2次導関数を含む。全体ではこれにより文献、B. H.Juang, W. Chou and C. H. Lee, "Minimum classification error rate methodsfor speech recognition," IEEE Transactionson Speechand AudioProcessing,Vol. 5, No.3, pp.257-265,1997、米国特許出願第09/032902におけるものと似たような39ディメンションの特徴ベクトルを得る。しかし、本発明は39の特徴ベクトルのうち12にてサブバンド情報を用いるという観点においてこれらの文献とは異なる。
【0023】
レコグナイザーをトレーニングしテストするために、従来知られている音声認識と同様に、好ましい態様において大規模で複雑なコネクテッドディジット(CD:connected digit)データベースを用いる。このCDデータベースべースは、多様な発声者に対応するために音声レコグナイザーとしては優れている。用いたCDデータベースは、幾つかの独立なデータ収集努力、現場トライヤル、生サービス導入の際に集めたデータベースの集積である。このCDデータベースは、英語のデジット、1〜9、0、Oを含む。このCDデータベースの範囲は、用意したデジットストリングのリストを発呼者が読むものから顧客がクレジットカード口座に関して実際に情報にアクセスするために認識システムを用いるものにまで及ぶ。
【0024】
これらデータは、多様な電話ハンドセットを用いて有線ネットワークチャネルを介して集められる。デジットストリングの長さの範囲は1〜16デジットである。一般的なようにCDデータベースを2つのセットトレーニングセットとテストセットとに分けた。このトレーニングセットには、多様なネットワークチャネル、マイクロホン、方言地域(dialect region)からの読み取り(read)および自然的(spontaneous)両方のデジット入力を含む。
【0025】
トレーニングにおいて、階層的信号バイアス除去(HSBR)プロセス162は異なる入力状態を有する信号からバイアスを除去する。HSBRプロセス162の結果は最小ストリングエラー/一般化確率的ディセント(MSE/GPD:minimum string error/generalized probabalistic decent)トレーニングおよび認識プロセス172へと転送される。トレーニングの間プロセス162、プロセス172はメモリー174内にHMMを構築する。メモリー174におけるHMMはトレーニング中メモリー164におけるHMMコードブックを構築するのに用いられる。
【0026】
続くテストセットは、マッチした環境状態とマッチしない環境状態からデータストリングを含むように設計された。トレーニングおよびテストセットにおける全ての記録は、有効デジットのストリングであり、トレーニングおよびテストに対してそれぞれ合計で7461ストリングと13114ストリングあった。このトレーニングおよびテストは、上記米国特許出願第09/071214に記載されたものと同様なものであった。
【0027】
特徴解析に続いて、各特徴ベクトルがHMMレコグナイザーへとわたされる。これは、コンテキスト依存ヘッドボディテールモデル(context-dependent head-body-tail model)を用いてレフトトゥライト連続的混合密度(left-to-right continuous mixture density)HMMのセットによりボキャブラリーにおける各ワードをモデル化する。各信号は多くの電話条件および異なるトランスデュサー装置の下で記録される。その後に作られた各HSLPC特徴ベクトルをバイアス除去プロセスを用いてチャネル歪みの影響を減らす。好ましくは、ケプストラル平均減算バイアス除去(CMSBR)プロセスを用いる。代わりに、階層的信号バイアス除去(HSBR)プロセスを用いることができる。HSBRに類似するプロセスは、文献、M. Rahim and B. H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 1, 1996, pp. 19-30に記載されている。本発明の別の態様においては、バイアスリムーバー162はグランド特徴ベクトルの一部(例えば、特定の1もしくは複数のレベルに対応する特徴)に対応してHSBRを用い、そのグランド特徴ベクトルの残りの部分(例えば、残りのレベルに対応する特徴)に対してCMSBRを用いる。
【0028】
ボキャブラリーにおける各ワードは、ヘッドセグメント、ボディセグメント、テールセグメントへと分けられる。ワードをまたがる同時調音(inter-word co-articulation)をモデル化するため前および後のコンテキストに従って各ワードは複数のヘッドおよび複数のテールを有する1つのボディからなる。本発明の好ましい態様において、全体で276のコンテキスト依存サブワードモデルを全ての可能性のあるワードをまたがる同時調音をモデル化される。
【0029】
ヘッドとテープのモデルの両方は3つの状態で表されるが、ボディのモデルは4つの状態で表され、それぞれが4つの混合成分を有する。沈黙(silence)は32の混合成分を有する1つの状態モデルでモデル化される。この構成により、全体で、276のモデル化で、837状態、3376混合成分となる。トレーニングには、モデルの全てのパラメーターを全て更新することを含む。これには、平均、分散(variance)、混合原因からなり、最尤評価(MLE:maximum-likelihood estimation)、その後に最小ストリングエラーの3つのエポックを用い、更に、一般化確率的ディセント(MSE:minimum string error/GPD:generalized probabilistic decent)の3つのエポックのトレーニングを用いて、パラメーターの評価を更に改良する。
【0030】
このトレーニングは、上記米国特許出願第09/071214に記載されているものと類似している。異なる点は、HSLPC特徴ベクトルがHSLPC特徴抽出プロセス102により作られることである。大きさが4のBRコードブックがHMMの平均ベクトルから抽出され、各トレーニング発声(utterance)は、MSE/GPDトレーニングで用いられる前にHSBRを適用することにより信号調整される。音声レコグナイザー開発のトレーニング部分において、競争ストリングモデルの数は4にセットされステップの長さは1にセットされる。入力デジット(digit)ストリングの長さはトレーニング時とテスト時の両方で知らないものと想定した。
【0031】
トレーニングの後に、3つの種類のHMM(HSLPC_{12、0、0}、HSLPC_{0、6、6}HSLPC_{6、3、3})と2つの種類トレーニング(MLとMSE)を用いてコネクテッドデジットレコグナイザー100を評価するために幾つかのグループのテストを実行した。これらのテストは実際の動作とほぼ同様に行った。テストと実際の動作において、HSLPC特徴抽出ユニット102による処理はトレーニングにおけるものと同じであった。バイアス除去プロセス162は、トレーニングが終了することとHMMとBRコードブックとステージにおいてトレーニングと変わるべきでないことを除いて、トレーニングと基本的には同様であった。実際のテストと実際の音声認識のために、バイアス除去プロセス162の出力はデコーダプロセス180に送られる。また、デコーダプロセス180はHMMをHMM記憶装置174からグランド特徴ベクトルと、いずれのバイアスをも除去された後のトレーニング時に構築されたレコグナイザーボキャブラリーのHMMとを比較する。このデコーダプロセスは、上記米国特許出願第09/071214に記載されたものと非常に類似している。
【0032】
したの第1表にはレコグナイザー100の全体の性能を6つの異なる構成で特徴種類の関数としてのストリングの正確性と共にまとめて示した。例えば、第1表、セットHSLPC_{6、3、3}は6メル-lpc特徴が第1分解能から取られ、3メル-lpc特徴がより低い分解能からと取られ、3つを第2の分解能レベルの上側バンドから取られることを示している。正規化したフレームエネルギーがマルチ分解能と共に含まれ、全てのケースにおいて供給された特徴をデルタおよびデルターデルタトラジェクトリー特徴と共に結果が示す。
【0033】
第1表は4つの重要な結果を示している。第1に、MSEトレーニングはMLEトレーニングよりも優れ、MSEベースのレコグナイザーはMLEベースのレコグナイザーに対して全ての種類の音声モデルにわたって全般的に平均して55%のストリングエラーレート削減を達成している。第2に、フルバンド幅ケプストラルHSLPC_{12、0、0}に比べて、サブバンドケプストラル特徴を単独で用いた性能(HSLPC_{6、3、3})に何らかの改善を観測することができた。第3に、第1の第3行で示したようにマルチ分解能特徴セットが用いられた場合に認識性能が更に改善したことを観測することができた。最後に、第1票で得られた最良の結果は、第1の分解能特徴セットを単独の場合(HSLPC_{12、0、0})と比べてエラーレートを15%削減して両方の分解能レベル(HSLPC_{6、3、3})からの特徴を用いて得られた。
【0034】
第1表から本発明に従ってマルチ分解能メル-lpc特徴が単一分解能メル-lpc特徴と比べて電話コネクテッドデジットデータベースの認識を改善することを署名することができたことは重要である。第1表の結果は、文献、P. McCourt, S. Vaseghi and N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, pp. 557-560により報告された以前の結果と比較すると対照的である。この文献では、両方の分解能レベルを用いても更に利益を得ることができないことと見ている。
【0035】
【0036】
この第1表は、上で説明したように、HSLPC特徴種類の関数としてMLおよびMSEトレーニング方法を用いた未知の長さのグラマーに基づいたコネクテッドデジット認識タスクに対するストリング精度レートを表している。
【0037】
本発明に従うトレーニングされた音声レコグナイザーに対して行ったテストが実際に使用される音声入力と非常に近いことは重要である。従って、音声レコグナイザー100のテスト結果に類似する結果が合理的に期待される。
【0038】
図2において、音声レコグナイザー200を示してあり、これはレベル3の音声レコグナイザーを有する図1に示したレコグナイザーと類似している。音声レコグナイザー200は、音声レコグナイザー100と比べ、メルフィルタ230、IDFT232、233、234、235、クォードlpcアナライザー(quad lpc analyzer)236、237、238、239サブバンドを更に有する。IDFT232−235に対しては、各サブバンドクォードランド(quadrant)(0-1 kHz、 1-2 kHz、 2-3 kHz、 3-4 kHz)に対してQは6にセットされる。より高いレベルが加えられたならば同様にセットされる。ユニット250はマルチレベルサブバンド特徴を連結し、ユニット150と同様に単一の拡張特徴ベクトルを形成する。連結したケプストラルベクトルの最終的なディメンションは少なくとも12である。ただし、テストがより高い数がよいことを示すことはある。
【0039】
このように、認識を改善するためにサブバンドからケプストラル特徴を抽出する音声レコグナイザーについて説明した。多くの変更が可能であり、より広い音声入力バンド4000Hzよりも大きいものや異なる大きさのサブバンドベースのレコグナイザーの1つの変数として、バンドの数や抽出サブバンド境界でコンポジッションを用いることができる。
【図面の簡単な説明】
【図1】本発明に従って第1および第2のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【図2】本発明に従って第1、第2、第3のサブバンドに対する音声レコグナイサの方法および装置のブロック図。
【符号の説明】
100 音声レコグナイザー
102 HSLPC特徴抽出プロセス
104 高速フーリエ変換
150、250 グランド特徴ベクトルを形成するように個々の特徴が追加される
160 信号コンディショニング
162 バイアス除去プロセス
170 区別的トレーニング
Claims (14)
- 音声レコグナイザーにおいて使用される方法であって、
(A)時間変動するバンド制限された音声入力発声を受信するステップ、
(B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
(C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも1つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
(D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
(E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
(F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、及び
(G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、
からなる方法。 - 前記ステップ(D)がプリエンファサイズするステップ、音声をフレームへとブロック分割するステップ、フレームウィンドウするステップ、及びフーリエ変換するステップを含む請求項1記載の方法。
- 前記メルフィルタバンクは、100〜1000Hzでは線形スケーリングで1000Hzより上では対数スケーリングで等しく離間するようにフィルタ中央周波数を有することを特徴とする請求項1記載の方法。
- 1000Hzより上では各中央周波数は前のフィルタの中央周波数よりも1.1倍であることを特徴とする請求項3記載の方法。
- 各フィルタの大きさ周波数応答は中央周波数における単位元と等しく、いずれの隣接フィルタの周波数にて線形に0へと減るように周波数領域にて形状を有することを特徴とする請求項4記載の方法。
- 各フレームに対する周波数領域スペクトルは、Mの三角形メルフィルタバンクのセットを通してわたされることを特徴とする請求項5記載の方法。
- 前記逆離散的フーリエ変換は、前記周波数スペクトルを平滑化し複数の自己相関係数を得るように適用されることを特徴とする請求項1記載の方法。
- 前記複数の自己相関係数は第1の分解能レベル(レベル1)では10であり第2の分解能レベル(レベル2)では8であることを特徴とする請求項7記載の方法。
- 前記グランド特徴ベクトルの最終的なディメンションは、12個のケプストラル特徴にセットされることを特徴とする請求項1記載の方法。
- 前記12個のケプストラル特徴のうちの6個の特徴が低い方のサブバンドから取られ、6個の特徴が高い方のサブバンドから取られるものである請求項9記載の方法。
- 前記12個のケプストラル特徴のうちの6個の特徴がレベル1から取られ、3個の特徴がレベル2の低い方のサブバンドから取られ、3個の特徴がレベル2の高い方のサブバンドから取られるものである請求項9記載の方法。
- 前記グランド特徴ベクトルは、レベル1のサブバンドから少なくとも1個の特徴を有し、レベル2のサブバンドから少なくとも1個の特徴を有し、レベル3のサブバンドから少なくとも1個の特徴を有することを特徴とする請求項1記載の方法。
- 音声レコグナイザーであって、
(A)時間変動するバンド制限された音声入力発声を受信する手段、
(B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換する手段、
(C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送する手段であって、該複数のメルフィルタバンクの少なくとも1つは、前記周波数スペクトルをフィルタリングする複数のサブバンドを有する、手段
(D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換して、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る手段
(E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析して、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作る手段、
(F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加する手段、
(G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去する手段、及び
(H)バイアスを除去した後に前記グランド特徴ベクトルをデコードする手段
からなる音声レコグナイザー。 - 音声認識方法であって、
(A)時間変動するバンド制限された音声入力発声を受信するステップ、
(B)高速フーリエ変換プロセスを用いて前記発声を周波数領域スペクトルに変換するステップ、
(C)前記周波数領域スペクトルを複数のメルフィルタバンクに転送するステップであって、該複数のメルフィルタバンクの少なくとも1つが、前記周波数スペクトルをフィルタリングする複数のサブバンドを有している、ステップ
(D)逆離散的フーリエ変換プロセスを用いて前記複数のメルフィルタバンクの各出力を変換するステップであって、該変換によって、該メルフィルタバンク各々からの時間変動する音声出力、及びそれに加えて各メルフィルタバンクの各サブバンドに対する時間変動する音声出力を得る、ステップ
(E)対応する線形予測ケプストラル解析を用いて各逆離散的フーリエ変換プロセスの時間変動する出力それぞれの各出力を解析するステップであって、これにより、各逆離散的フーリエ変換出力に対応する個々の特徴ベクトル出力を作るステップ、
(F)グランド特徴ベクトルを形成するように前記個々の特徴ベクトルを追加するステップ、
(G)前記グランド特徴ベクトルを整えバイアスリムーバを用いて前記グランド特徴ベクトルのいずれのバイアスをも除去するステップ、及び
(H)バイアスを除去した後に前記グランド特徴ベクトルをデコードするステップ
からなる音声認識方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/266,958 US6292776B1 (en) | 1999-03-12 | 1999-03-12 | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
US09/266958 | 1999-03-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000267692A JP2000267692A (ja) | 2000-09-29 |
JP3810608B2 true JP3810608B2 (ja) | 2006-08-16 |
Family
ID=23016697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000067094A Expired - Fee Related JP3810608B2 (ja) | 1999-03-12 | 2000-03-10 | 音声レコグナイザーのためのトレーニング方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6292776B1 (ja) |
EP (1) | EP1041540B1 (ja) |
JP (1) | JP3810608B2 (ja) |
CA (1) | CA2299051C (ja) |
DE (1) | DE60000074T2 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI19992350A (fi) * | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Parannettu puheentunnistus |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP3564501B2 (ja) | 2001-03-22 | 2004-09-15 | 学校法人明治大学 | 乳幼児の音声解析システム |
US7623114B2 (en) | 2001-10-09 | 2009-11-24 | Immersion Corporation | Haptic feedback sensations based on audio output from computer devices |
US6703550B2 (en) * | 2001-10-10 | 2004-03-09 | Immersion Corporation | Sound data output and manipulation using haptic feedback |
AU2003280516A1 (en) * | 2002-07-01 | 2004-01-19 | The Regents Of The University Of California | Digital processing of video images |
JP4517163B2 (ja) * | 2004-03-12 | 2010-08-04 | 株式会社国際電気通信基礎技術研究所 | 周波数特性等化装置 |
US7765333B2 (en) | 2004-07-15 | 2010-07-27 | Immersion Corporation | System and method for ordering haptic effects |
US20060017691A1 (en) | 2004-07-23 | 2006-01-26 | Juan Manuel Cruz-Hernandez | System and method for controlling audio output associated with haptic effects |
CN1296887C (zh) * | 2004-09-29 | 2007-01-24 | 上海交通大学 | 用于嵌入式自动语音识别系统的训练方法 |
US7676362B2 (en) * | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
US20070055519A1 (en) * | 2005-09-02 | 2007-03-08 | Microsoft Corporation | Robust bandwith extension of narrowband signals |
US8700791B2 (en) | 2005-10-19 | 2014-04-15 | Immersion Corporation | Synchronization of haptic effect data in a media transport stream |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
DE102006014507B4 (de) * | 2006-03-19 | 2009-05-07 | Technische Universität Dresden | Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten gleicher Instrumentengruppen |
US7979146B2 (en) | 2006-04-13 | 2011-07-12 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio signal |
US8000825B2 (en) * | 2006-04-13 | 2011-08-16 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio file |
US8378964B2 (en) | 2006-04-13 | 2013-02-19 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio signal |
US20070250311A1 (en) * | 2006-04-25 | 2007-10-25 | Glen Shires | Method and apparatus for automatic adjustment of play speed of audio data |
US20080003550A1 (en) * | 2006-06-30 | 2008-01-03 | George Betsis | Systems and method for recognizing meanings in sounds made by infants |
US7873209B2 (en) | 2007-01-31 | 2011-01-18 | Microsoft Corporation | Segment-discriminating minimum classification error pattern recognition |
JP4762176B2 (ja) * | 2007-03-05 | 2011-08-31 | 日本放送協会 | 音声認識装置および音声認識プログラム |
EP2122489B1 (en) | 2007-03-09 | 2012-06-06 | Srs Labs, Inc. | Frequency-warped audio equalizer |
US9019087B2 (en) | 2007-10-16 | 2015-04-28 | Immersion Corporation | Synchronization of haptic effect data in a media stream |
DE102007056221B4 (de) | 2007-11-27 | 2009-07-09 | Siemens Ag Österreich | Verfahren zur Spracherkennung |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
JP5499030B2 (ja) * | 2008-08-11 | 2014-05-21 | イマージョン コーポレーション | 音楽ゲームのための触覚的に使用可能にしたゲーム周辺機器 |
US8200489B1 (en) * | 2009-01-29 | 2012-06-12 | The United States Of America As Represented By The Secretary Of The Navy | Multi-resolution hidden markov model using class specific features |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
KR101008264B1 (ko) | 2009-02-27 | 2011-01-13 | 전자부품연구원 | 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치 |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
CN101944359B (zh) * | 2010-07-23 | 2012-04-25 | 杭州网豆数字技术有限公司 | 一种面向特定人群的语音识别方法 |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
CN102254554B (zh) * | 2011-07-18 | 2012-08-08 | 中国科学院自动化研究所 | 一种对普通话重音进行层次化建模和预测的方法 |
WO2013124862A1 (en) * | 2012-02-21 | 2013-08-29 | Tata Consultancy Services Limited | Modified mel filter bank structure using spectral characteristics for sound analysis |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
PL403724A1 (pl) * | 2013-05-01 | 2014-11-10 | Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie | System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa |
WO2016172363A1 (en) * | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271088A (en) * | 1991-05-13 | 1993-12-14 | Itt Corporation | Automated sorting of voice messages through speaker spotting |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5806022A (en) * | 1995-12-20 | 1998-09-08 | At&T Corp. | Method and system for performing speech recognition |
US5765124A (en) * | 1995-12-29 | 1998-06-09 | Lucent Technologies Inc. | Time-varying feature space preprocessing procedure for telephone based speech recognition |
FR2748342B1 (fr) * | 1996-05-06 | 1998-07-17 | France Telecom | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
US5930753A (en) * | 1997-03-20 | 1999-07-27 | At&T Corp | Combining frequency warping and spectral shaping in HMM based speech recognition |
FR2766604B1 (fr) * | 1997-07-22 | 1999-10-01 | France Telecom | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique |
US6112175A (en) * | 1998-03-02 | 2000-08-29 | Lucent Technologies Inc. | Speaker adaptation using discriminative linear regression on time-varying mean parameters in trended HMM |
-
1999
- 1999-03-12 US US09/266,958 patent/US6292776B1/en not_active Expired - Lifetime
-
2000
- 2000-02-21 CA CA002299051A patent/CA2299051C/en not_active Expired - Fee Related
- 2000-03-07 DE DE60000074T patent/DE60000074T2/de not_active Expired - Fee Related
- 2000-03-07 EP EP00301869A patent/EP1041540B1/en not_active Expired - Lifetime
- 2000-03-10 JP JP2000067094A patent/JP3810608B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1041540A1 (en) | 2000-10-04 |
DE60000074T2 (de) | 2002-08-29 |
CA2299051A1 (en) | 2000-09-12 |
DE60000074D1 (de) | 2002-03-28 |
JP2000267692A (ja) | 2000-09-29 |
EP1041540B1 (en) | 2002-02-20 |
US6292776B1 (en) | 2001-09-18 |
CA2299051C (en) | 2004-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3810608B2 (ja) | 音声レコグナイザーのためのトレーニング方法 | |
Nadeu et al. | Time and frequency filtering of filter-bank energies for robust HMM speech recognition | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
JP4218982B2 (ja) | 音声処理 | |
JP3364904B2 (ja) | 自動音声認識方法及び装置 | |
Yapanel et al. | A new perspective on feature extraction for robust in-vehicle speech recognition. | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
US5666466A (en) | Method and apparatus for speaker recognition using selected spectral information | |
Dharanipragada et al. | Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
Hai et al. | Improved linear predictive coding method for speech recognition | |
Shah et al. | Robust voiced/unvoiced classification using novel features and Gaussian mixture model | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
Hung et al. | Robust speech recognition via enhancing the complex-valued acoustic spectrum in modulation domain | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Ananthakrishna et al. | Kannada word recognition system using HTK | |
Makhijani et al. | Speech enhancement using pitch detection approach for noisy environment | |
Liu et al. | A modulation feature set for robust automatic speech recognition in additive noise and reverberation | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Chengalvarayan | Hierarchical subband linear predictive cepstral (HSLPC) features for HMM-based speech recognition | |
Mishra et al. | Comparative wavelet, PLP, and LPC speech recognition techniques on the Hindi speech digits database | |
Kim et al. | A speech feature based on bark frequency warping-the non-uniform linear prediction (nlp) cepstrum | |
JP3866171B2 (ja) | 音素決定方法、その装置及びプログラム | |
Alhanjouri et al. | Robust speaker identification using denoised wave atom and GMM | |
Moreno | Speech recognition in telephone environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060501 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060524 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |