JP2005208648A - スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 - Google Patents

スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 Download PDF

Info

Publication number
JP2005208648A
JP2005208648A JP2005011840A JP2005011840A JP2005208648A JP 2005208648 A JP2005208648 A JP 2005208648A JP 2005011840 A JP2005011840 A JP 2005011840A JP 2005011840 A JP2005011840 A JP 2005011840A JP 2005208648 A JP2005208648 A JP 2005208648A
Authority
JP
Japan
Prior art keywords
frame
window
determining
frames
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005011840A
Other languages
English (en)
Inventor
Hagai Attias
アティアス ハガイ
Leo Lee
リー レオ
Li Deng
デン リ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005208648A publication Critical patent/JP2005208648A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B29WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
    • B29LINDEXING SCHEME ASSOCIATED WITH SUBCLASS B29C, RELATING TO PARTICULAR ARTICLES
    • B29L2030/00Pneumatic or solid tyres or parts thereof
    • B29L2030/001Beads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Alarm Systems (AREA)
  • Devices For Executing Special Programs (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)

Abstract

【課題】 少なくとも2つであるがフレームのすべてより少ないフレームを含むウィンドウを定義することによって、スイッチング状態空間モデルの事後確率パラメータを効率的に設定する方法を提供すること。
【解決手段】 別々の事後確率パラメータが、ウィンドウ内のフレームごとに判定される。ウィンドウを、時間的に左から右に順次移動し、その結果、ウィンドウに、フレームのシーケンスの1つまたは複数の後続フレームが含まれるようにする。別々の事後確率パラメータを、移動したウィンドウのフレームごとに判定する。この方法は、より厳格な解をよく近似するが、2から3桁だけ計算コストを節約する。さらに、フレームごとの基礎で観測ベクトルを直接に利用し、時間的に左から右に動作する、スイッチング状態空間モデルの最適の離散状態シーケンスを判定する方法が得られる。
【選択図】 図3

Description

本発明は、パターン認識に関する。具体的には、本発明は、音声認識に関する。
音声認識システムなどのパターン認識システムでは、入力信号を取得し、その信号のデコードを試みて信号によって示されているパターンが見つけられる。たとえば、音声認識システムでは、(しばしばテスト信号と称される)音声信号が、認識システムによって受け取られ、音声信号によって表される単語の列を識別するためにデコードされる。
多くの音声認識システムでは、隠れマルコフモデル(Hidden Markov Model)が使用され、このモデルでは音響単位(acoustic unit)または音声単位(speech unit)とも称する音声単位(phonetic unit)が、単一層の接続された状態によって表される。トレーニング信号を使用して、状態を占める確率分布および状態間を推移する確率分布が、音声単位ごとに判定される。音声信号をデコードするため、信号がフレームに分割され、各フレームが特徴ベクトルに変換される。この特徴ベクトルを状態の分布と比較して、フレームによって表せるHMM状態の最も可能性のあるシーケンスを識別する。そのシーケンスに対応する音声単位が選択される。
HMMベースの認識システムは、多くの比較的単純な音声認識タスクで良好に動作するが、音声のある種の重要な動的態様を直接にモデル化しない(また、会話音声などの困難なタスクについてうまく機能しないことが知られている)。その結果、HMMベースの認識システムは、トレーニングに使用される音声信号とデコードされる音声信号との間の動的な言語音(articulation)の差に対処することができない。
HMMシステムに対する代替となるシステムが提案されてきている。具体的には、音声信号の生成(production)関連パラメータの統計的に定義された軌道または挙動を直接、モデル化することが提案された。生成関連パラメータの値は直接測定できないので、これらのモデルを隠れ動的モデル(Hidden Dynamic Model、HDM)と称する。隠れ動的モデルは、2種類の隠れ状態を提供するスイッチング状態空間モデル(switching state space model)と称するモデルのクラスの一例である。2種類の隠れ状態は、2つの1次マルコフ連鎖を形成し、連続鎖は、離散鎖の上で条件付けられる。
スイッチング状態空間モデルに関する問題の1つが、期待値最大化(Expectation−Maximization)アルゴリズムなどの一般的なトレーニングアルゴリズムでは、スイッチング状態空間モデルが手におえないので、トレーニングが困難であることである。具体的に言うと、この計算は、音声信号の追加のフレームの各々について指数関数的に増加することになるのである。
したがって、スイッチング状態空間動的モデルのパラメータを効率的にトレーニングできるようにするトレーニングシステムが必要である。
スイッチング状態空間モデルの事後確率パラメータを設定する方法は、フレームのシーケンスのうちの少なくとも2つだがすべてより少ないフレームを含むウィンドウを定義することによって開始される。別々の事後確率パラメータが、ウィンドウ内のフレームごとに判定される。その後、ウィンドウを移動し、その結果、ウィンドウに、フレームのシーケンス内の1つまたは複数の後続フレームが含まれるようにする。別々の事後確率パラメータが、移動したウィンドウ内のフレームごとに判定される。
本発明のさらなる態様では、スイッチング状態空間モデルのモデルパラメータが保管され、音声信号が観測ベクトルの組に変換されるが、ここで、各ベクトルは音声信号の別々のフレームに関連する。音声信号のフレームごとに、フレーム内の離散的な隠れ状態への各経路(path)について経路表(path score)を判定する。経路表を使用して、フレームの各離散的な隠れ状態への単一の経路を選択する。
図1に、本発明を実施することができる適切なコンピューティングシステム環境100の例を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する制限を提案することを意図されたものではない。コンピューティング環境100を、例示的なオペレーティング環境100に示された1つの構成要素またはその組合せに関する依存性または要件を有するものと解釈してもならない。
本発明は、多数の他の汎用または専用コンピューティングシステム環境またはコンピューティングシステム構成と共に動作する。本発明と共に使用するのに適する可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例に、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置、ラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレフォニシステム、上記のシステムまたは装置のいずれかを含む分散コンピューティング環境、および類似物が含まれるが、これに制限はされない。
本発明を、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の全般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されるように設計されている。分散コンピューティング環境では、プログラムモジュールが、メモリ記憶装置を含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置される。
図1を参照すると、本発明を実施する例示的なシステムには、コンピュータ110の形の汎用コンピューティング装置が含まれることがわかる。コンピュータ110の構成要素に、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121が含まれるが、これに制限されない。システムバス121は、メモリバス、メモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む複数の種類のバス構造のいずれかとすることができる。制限ではなく例として、そのようなアーキテクチャに、Industry Standard Architecture(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびメザニンバスとも称するPeripheral Component Interconnect(PCI)バスが含まれる。
コンピュータ110に、通常は、様々なコンピュータ読取可能な媒体が含まれる。コンピュータ読取可能な媒体は、コンピュータ110によってアクセスできるすべての使用可能な媒体とすることができ、これには、揮発性および不揮発性の媒体、取外し可能および固定の媒体の両方が含まれる。制限ではなく例として、コンピュータ読取可能な媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体に、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなどの情報の保管の方法または手法で実施された揮発性および不揮発性、取外し可能および固定の両方の媒体が含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリテクノロジ、CD−ROM、デジタル多用途ディスク(DVD)、または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、または他の磁気記憶装置、あるいは、所望の情報を保管するのに使用でき、コンピュータ110によってアクセスできるすべての他の媒体が含まれるが、これに制限されない。通信媒体によって、通常は、搬送波または他のトランスポート機構などの変調されたデータ信号でコンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータが実装され、通信媒体には、すべての情報配布媒体が含まれる。用語「変調されたデータ信号」は、信号内に情報をエンコードする形でその特性の1つまたは複数を設定または変更された信号を意味する。制限ではなく例として、通信媒体に、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF、赤外線、および他の無線媒体などの無線媒体が含まれる。上記のいずれかの組合せも、コンピュータ読取可能な媒体の範囲に含まれなければならない。
システムメモリ130に、読取専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性のメモリの形のコンピュータ記憶媒体が含まれる。スタートアップ中などにコンピュータ110内の要素の間での情報の転送を助ける基本ルーチンを含む基本入出力システム133(BIOS)が、通常はROM131に保管される。RAM132には、通常は、処理ユニット120から即座にアクセス可能かつ/または処理ユニット120によって現在操作されつつあるデータおよび/またはプログラムモジュールが含まれる。制限ではなく例として、図1に、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110に、他の取外し可能/固定、揮発性/不揮発性のコンピュータ記憶媒体も含めることができる。例としてのみ、図1に、固定不揮発性磁気媒体から読み取るかこれに書き込むハードディスクドライブ141、取外し可能不揮発性磁気ディスク152から読み取るかこれに書き込む磁気ディスクドライブ151、CD ROMまたは他の光学媒体などの取外し可能不揮発性光ディスク156から読み取るかこれに書き込む光ディスクドライブ155を示す。例示的なオペレーティング環境で使用できる他の取外し可能/固定、揮発性/不揮発性のコンピュータ記憶媒体に、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM、および類似物が含まれるが、これに制限はされない。ハードディスクドライブ141は、通常は、インターフェース140などの固定メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常は、インターフェース150などの取外し可能メモリインターフェースによってシステムバス121に接続される。
上述したように、図1に示されたドライブおよびそれに関連するコンピュータ記憶媒体により、コンピュータ110のコンピュータ読取可能命令、データ構造、プログラムモジュール、および他のデータの記憶装置が提供される。図1では、たとえば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を保管するものとして図示されている。これらの構成要素を、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同一または異なるもののいずれかとすることができることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、最小限でこれらが異なるコピーであることを示すために、異なる符号を与えられている。
ユーザは、キーボード162、マイクロホン163、および、マウス、トラックボール、またはタッチパッドなどのポインティング装置161などの入力装置を介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)に、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、または類似物を含めることができる。上記および他の入力装置は、しばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、またはuniversal serial bus(USB)などの他のインターフェースおよびバス構造によって接続することができる。モニタ191または他のタイプのディスプレイ装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータに、スピーカ197およびプリンタ196など、出力周辺インターフェース195を介して接続できる他の周辺出力装置も含めることができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で動作する。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ110に関して上で説明した要素の多くまたはすべてが含まれる。図1に示された論理接続に、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173が含まれるが、他のネットワークも含めることができる。そのようなネットワーキング環境は、オフィス、会社全体のコンピュータネットワーク、イントラネット、およびインターネットでは通常のものである。
LANネットワーキング環境で使用される時に、コンピュータ110は、ネットワークインターフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される時に、コンピュータ110に、通常は、インターネットなどのWAN173を介する通信を確立する、モデム172または他の手段が含まれる。モデム172は、内蔵または外付けとすることができるが、ユーザ入力インターフェース160または他の適当な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して図示したプログラムモジュールまたはその一部を、リモートメモリ記憶装置に保管することができる。制限ではなく例として、図1に、リモートコンピュータ180に常駐するものとしてリモートアプリケーションプログラム185を示す。図示のネットワーク接続が、例示的であり、コンピュータの間の通信リンクを確立する他の手段を使用できることを諒解されたい。
図2は、例示的なコンピューティング環境であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入出力構成要素206、およびリモートコンピュータまたは他のモバイル装置と通信する通信インターフェース208を備える。一実施形態で、上述の構成要素は、適切なバス210を介して相互の通信のために結合される。
メモリ204は、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装され、モバイル装置200への全体の電力がシャットダウンされても、メモリ204に保管された情報が失われないようになっている。メモリ204の一部は、プログラム実行のためにアドレス可能メモリとして割り振られることが望ましく、メモリ204のもう一方の部分は、ディスクドライブへの保管をシミュレートするなど、記憶装置に使用されることが好ましい。
メモリ204には、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクト記憶部216が含まれる。動作中に、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。オペレーティングシステム212は、好ましい実施形態で、Microsoft Corporation社が市販するWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイル装置用に設計されることが望ましく、公開されたアプリケーションプログラミングインターフェースおよびメソッドの組によってアプリケーションプログラム214が使用することのできるデータベース機能を実装する。オブジェクト記憶部216のオブジェクトは、公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに少なくとも部分的に応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、モバイル装置200が情報を送受できるようにする多数の装置および技術を表している。装置には、たとえば有線モデム、無線モデム、衛星受信器、および放送チューナが含まれる。モバイル装置200をコンピュータに直接に接続して、データを交換することもできる。その場合に、通信インターフェース208は、赤外線トランシーバ接続、シリアル通信接続、またはパラレル通信接続とすることができ、これらのすべてが、ストリーミング情報を伝送することができる。
入出力構成要素206に、接触感知スクリーン、ボタン、ローラー、およびマイクロホンなどの様々な入力装置、ならびに音声発生器、振動装置、およびディスプレイなどの様々な出力装置が含まれる。上記でリストした装置は、例であり、すべてがモバイル装置200に存在する必要はない。さらに、他の入出力装置を、本発明の範囲内でモバイル装置200に接続するか、モバイル装置200を用いて見つけることができる。
本発明は、音声の生成モデルを提供する。このモデルを使用すると、音声は、音声単位のシーケンスの言語学的定義を音声によって実施するための、話者により企図された出力として表される。この企図が実行される間に、話者は、統計的に定義され、現在の音声単位に関連するターゲットに向かう軌道(再帰的雑音(recursive noise)を伴う状態空間定式化(state−space formulation)を使用する)に従う生成関連パラメータの値を生成する。本発明の一実施形態では、この軌道は、スイッチング状態空間モデルとしてモデル化される。
本発明のモデルは、各フレームで追加される雑音と共に軌道が再帰的に定義される、隠れ軌道モデル(Hidden Trajectory Model)の特殊形である。このスイッチング状態空間モデルは、2種類すなわち離散および連続の隠れ変数(あるいは、状態とも称する)を有する。この状態は、直接測定できないので隠れと見なされる。隠れ状態の各々はマルコフ連鎖を形成し、連続的隠れ状態鎖は離散的な隠れ状態鎖の上で条件付けられる。
2つの異なる種類の隠れ状態は、2つの階層(layer)、すなわち隠れた連続的な生成関連パラメータ(声道共振周波数など)を記述する動的モデル構成要素または軌道モデル構成要素と、生成関連パラメータをメル周波数ケプストラム係数(Mel−Frequency Cepstral Coefficient)などの観測可能な音響特徴に変換するマッピングモデル構成要素とを含むモデルを生成する。状態空間モデルの状態式は、生成関連パラメータの連続的な状態の値のシーケンス(x,...,x,...,x)を予測する。マッピングモデルまたは観測方程式は、連続的な隠れ状態値のシーケンスを与えられて、音響観測ベクトルのシーケンスyを予測する。
再帰的に定義される軌道およびマッピングモデルは、2つの式によって簡潔に表現することができる。
=An−1+a+w 式1
=C+c+v 式2
ここで、nはフレーム番号インデックスであり、sは音声単位を表す隠れ離散状態であり、xは隠れ生成関連状態であり、yは音響特徴ベクトルであり、AおよびCは音声単位依存システム行列であり、aは音声単位依存制御入力(同等に、音声単位依存ターゲットとして表すことができる)であり、cは音声単位依存定数であり、wおよびvはガウス雑音項である。
一実施形態で、式1および2のモデルが、下記のように確率分布に関して表される。
p(s=s|sn−1=s’)=πss’ 式3
p(x|s=s,xn−1)=N(x|An−1+a,B) 式4
p(y|s=s,x)=N(y|C+c,D) 式5
ただし、初期条件は、
Figure 2005208648
である。B、B 、およびDは、プレシジョンマトリックス(precision matrix、共分散行列の逆行列)であり、雑音項wおよびvに関連する分散に基づく。
一般に、式3から5のモデルパラメータのトレーニングは、反復的な2ステップの工程を必要とする。第1ステップは推論と称し、その間にモデルパラメータの初期の組を与えられ、事後分布p(s1:N,x1:N|y1:N)が計算される。学習またはパラメータ推定と称する第2ステップ中に、モデルパラメータが更新される。これらのステップは、モデルパラメータが収束するか、所定の反復の最大回数に達するまで繰り返される。一般化された期待値最大化トレーニングを実行するとき、Eステップが推論ステップであり、Mステップが学習ステップである。
推論ステップは、事後計算が解決困難なので、式3から5のモデルについて直接に実行することができない。本発明の一実施形態は、事後HMM(HMM posterior)を使用して事後分布を近似することによって、この問題を克服する。具体的に言うと、事後分布p(s1:N,x1:N|y1:N)を、
Figure 2005208648
と定義される事後HMMを使用して近似する。
近似と実際の事後分布との間の発散を最小にすることによって、本発明者は、確率q(x|s,y1:N)が、正規分布に従うことを発見した。
q(x|s,y1:N)=N(x|ρs,n,Γs,n) 式7
ここで、平均ρs,nおよび精度Γs,nは、
Figure 2005208648
Figure 2005208648
によって与えられる。ここで、
Figure 2005208648
は、時刻nの状態sを与えられて、時刻n−1の状態s’から時刻nの状態sに推移する事後推移確率:
Figure 2005208648
であり、
Figure 2005208648
は、時刻nの状態sから時刻n+1の状態s’に推移する事後確率
Figure 2005208648
である。
事後推移確率は、n=N,...,1に関して記述される逆方向経路
Figure 2005208648
によって再帰的に計算される。
n=0について、
Figure 2005208648
ここで、
Figure 2005208648
ただし、<>は、2つの等しいサイズのベクトルまたは行列の要素単位の積の合計によって得られるスカラを表し、s’は、合計に関する音声単位のインデックスである。
式9の現在のρs,nの計算は、前の時間点n−1でのρs,n−1および次の時間点n+1でのρs,n+1に依存するので、すべてのフレームにまたがってρs,nの値をカバーする連立方程式の解が値の計算に必要であった。これは、通常は、式の組を行列の形に編成し、行列反転を実行することによって行われる。この計算は、オーダーO((NS))の複雑さを有し、ここで、Nは時間点の数であり、Sは各時間点の可能な状態の数である。通常の音声信号についてこの計算を行なうと、実用的なシステムで実行できなくなるほど時間を消費することとなる。
本発明で、この計算の複雑さを低減する方法を図3のフローチャートに示す。図3のステップ300で、モデルパラメータの初期値を保管する。この初期値は、ランダムに設定するか、母音構成素音(formant)の所与の既知の特性および母音構成素音と観測ベクトルの間の期待される関係を与えられた場合に妥当な推定に基づいて設定することができる。ステップ301で、音声信号のフレームを観測ベクトルに変換する。ステップ302で、高速母音構成素音探知器(fast formant tracker)を使用して、音声信号のフレームごとにρs,nの初期推定値を作成する。時間点nでの各初期のρs,nが、状態sのすべてについて同一であることに留意されたい。この実施形態では、隠れ生成関連パラメータが、母音構成素音に似た声道共振値であるという前提に基づいて、初期推定値について母音構成素音探知器を使用する。隠れ生成関連パラメータが、異なるタイプの値である時には、異なる技法を使用して、ρs,nの初期値を推定する。
ステップ303で、ρs,nの初期値を使用して、式10から12を使用して事後推移確率を判定する。推移確率を判定したならば、ステップ304で、音声信号の第2フレームから始めて音声信号のM個のフレームのウィンドウを選択するが、Mは総フレーム数N未満である。図4に、フレーム402、404、406、および408を含むウィンドウ400の例を示す。
ステップ306で、M個のフレームのウィンドウ内の各フレームnの状態sごとにΓs,nおよびρs,nを計算する。この計算を行うために、ウィンドウの前のフレームおよびウィンドウの後のフレームのρs,nの値が必要である。最初のウィンドウについて、この値の両方が、母音構成素音探知器によって作られた最初のρs,nの推定値から算出される。第1ウィンドウの後のすべてのウィンドウについて、ウィンドウの前のフレームのρs,nの値は、前のウィンドウについて実行された計算から算出される。ウィンドウの後のフレームのρs,nの値は、母音構成素音探知器によって判定された初期値から算出される。
ウィンドウは、音声信号全体よりはるかに小さいので、この計算は、音声信号全体におよぶ従来の計算よりはるかに少ない時間ですむ。一実施形態では、この計算に行列反転を使用して連立方程式を解くことが含まれる。
ウィンドウ内のすべてのフレームについてΓs,nおよびρs,nの値を判定した後に、この処理は、ステップ308で、処理すべきフレームがまだあるかどうかを判定する。フレームがまだある場合には、ステップ310でウィンドウをJフレームだけ移動させる。この処理は、ステップ306に戻って、移動したウィンドウに含まれるM個のフレームのΓs,nおよびρs,nの値を計算する。
図4に、フレーム406、408、412、および414におよぶウィンドウ410として示された移動したウィンドウの例を示す。この実施形態で、移動したウィンドウ410が、部分的にウィンドウ400にオーバーラップすることに留意されたい。これが、ρs,nおよびΓs,nの値の不連続性を緩和するのに役立つのである。
ρs,nの値は推移確率に依存し、推移確率の値はρs,nに依存するので、本発明のいくつかの実施形態では、複数の反復を実行してステップ302で新しいρs,nに基づいて推移確率の値を更新し、ステップ306で更新された推移確率に基づいてρs,nの値を更新する。ステップ312で、これらの値の更新のもう1つの繰り返しを実行しなければならないかどうかを判定する。追加の反復が必要な場合には、ステップ302に戻る。これ以上反復が必要でない場合には、この処理はステップ314で終了する。
図3の処理によって実行される計算は、ρs,nを計算する従来の技法よりはるかに効率的である。具体的に言うと、図3の処理は、桁数(order)O((MS)N/J)の計算が必要なほど複雑であるが、これは、従来技術の桁数O((NS))よりはるかに簡易である。
推論ステップが完了した後に、Γs,nおよびρs,nの値を学習ステップで使用して、モデルパラメータΘ={πss’,A1:S,a1:S,B1:S,C1:S,c1:S,D1:S}の値を、下記に従って設定する。
πss’は、別々にトレーニングされた言語モデルによって、または異なる音が互いにどのように続くかを記述した音素配列論モデルによって設定される。このモデルは、そのような知識が使用できない場合、均一とすることができる。
Figure 2005208648
Figure 2005208648
ここで、γs,nは、順方向経路
Figure 2005208648
によって再帰的に決定される。
推論ステップおよび学習ステップを複数回繰り返して、トレーニングを完了することができる。
音声認識
モデルパラメータをトレーニングした後に、モデルパラメータおよび近似を使用して、音声認識を実行することができる。これには、音声信号を表す観測特徴ベクトルのシーケンスを与えて、音などの音声単位の最も可能性のあるシーケンスを識別するステップが含まれる。
過去において、音声認識は、γs,nの判定を必要とし、γs,nは、音声素片全体におよぶ時刻nの状態の確率を提供し、バックワードフォワードリカージョン(backward−forward recursion)を必要とする。その結果、音声認識は、音声のフレームが受け取られる際にビタビデコーダで直接に実施することができなかった。ビタビデコーディングでは、フレームnの状態への経路表が、経路ごとに生成される。最も高い経路表を有する状態への経路が保持され、その状態への残りの経路は、将来の検討から外される。本発明の一実施形態では、γs,nの判定を明示的にまたは直接必要とせずに音声をデコードできるようにする経路表の新しい定式化が提供される。
本発明での経路表は、本発明者による発見、
Figure 2005208648
に基づいて構築される。
式22および23を組み合わせて、
Figure 2005208648
と定義される、状態s’から状態sに入る経路表を形成することができる。
図5に、この経路表を使用する音声認識システムのブロック図を示す。図5では、上述のトレーニング処理によって判定された生成モデルパラメータが、生成モデル528として保管される。
話者500がマイクロホン504に話すと、認識の処理が開始される。マイクロホン504は、1つまたは複数の雑音源502からの相加性雑音も受け取る。マイクロホン504によって検出された音声信号は電気信号に変換され、アナログ−デジタルコンバータ506に供給される。
AD(A−to−D)コンバータ506は、マイクロホン504からのアナログ信号を、一連のデジタル値に変換する。一実施形態で、ADコンバータ506は、16kHzにおいて16ビット毎サンプルでアナログ信号をサンプリングし、これによって毎秒32キロバイトの音声データを作成する。これらのデジタル値が、フレーム構成器507に供給され、フレーム構成器(frame constructor)507は、一実施形態で、この値を10ミリ秒離れて始まる25ミリ秒フレームにグループ化する。
フレーム構成器507によって作成されるデータのフレームが、特徴抽出器508に供給され、特徴抽出器508は、各フレームから特徴を抽出する。特徴抽出モジュールの例に、線形予測符号化(LPC)、LPCから派生したケプストラム、パーセプティブリニアプレディクション(Perceptive Linear Prediction、PLP)、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数(MFCC)特徴抽出を実行するモジュールが含まれる。本発明が、これらの特徴抽出モジュールに制限されず、本発明の文脈内で他のモジュールを使用することができることに留意されたい。
一連の特徴ベクトルが、トレーナ524に供給され、トレーナ524は、Γs,nおよびρs,nの組を順次判定し、この組の各々が、図4に示されたオーバーラップするウィンドウに関連する。具体的に言うと、トレーナ524は、上の式8および9の、生成モデル528のパラメータと、ウィンドウの現在位置で見つかったフレームの観測ベクトルを使用する。ウィンドウの後のフレームの観測ベクトルは、ウィンドウ内のフレームのΓs,nおよびρs,nの値の判定に使用されない。複数のウィンドウ内で見つかるフレームについて、そのフレームが見つかった最後のウィンドウの計算が、そのフレームのΓs,nおよびρs,nの値として使用される。式8および9の計算で、事後推移確率が、式10から12によって設定される。以上のようなウィンドウ化(windowing)技法を使用して、現在のシステムは、時間的にほぼシーケンシャルに動作することができる。
あるフレームのΓs,nおよびρs,nの値が判定されると、これらの値は事後近似モデル527に置かれる。デコーダ512は、特徴ベクトルのストリーム、辞書514、言語モデル516、近似モデル527、および生成モデル528に基づいて、最も可能性のある単語のシーケンスを識別する。
具体的に言うと、デコーダ512は、式24の経路表を使用して、次のウィンドウとオーバーラップしない現在のウィンドウ内の各フレームの各状態への最も可能性のある経路を判定し、選択する。この種のビタビデコーディングは、従来技術のHMMシステムで一般的に使用されているので、本発明のデコーダは、ビタビデコーディングの効率を高めるために開発された技法を利用することができるが、このような技法には、状態の一部への最も可能性のある経路を刈取る(判定しなければならない経路表の数を減らす)様々な刈取り技法が含まれる。言い換えると、刈取りによって状態の一部について選択された最良の経路が除去され、これによって、それへの経路を有しない状態が作られる。
仮定された単語の最も可能性のあるシーケンスが、信頼性測定モジュール520に供給される。信頼性測定モジュール520は、副音響モデル(図示せず)に部分的に基づいて、音声認識器によって誤って識別された可能性が最も高い単語を識別する。信頼性測定モジュール520は、仮定された単語のシーケンスを、誤って識別された可能性がある単語を示す識別子と共に、出力モジュール522に供給する。当業者は、信頼性測定モジュール520が、本発明の実施に必要ではないことを理解するであろう。
特定の実施形態に関して本発明を説明したが、本発明の趣旨および範囲から逸脱せずに、形態および詳細において変更を行えることを当業者は理解するであろう。
本発明を実施できる1つのコンピューティング環境を示すブロック図である。 本発明を実施できる代替のコンピューティング環境を示すブロック図である。 本発明の実施形態の下でオーバーラップするウィンドウを使用して事後確率パラメータを設定する方法を示すフローチャートである。 本発明の実施形態の下でのオーバーラップするウィンドウを示すグラフである。 本発明の一実施形態の下での音声認識システムを示すブロック図である。
符号の説明
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
120 処理ユニット
190 ビデオインターフェース
195 出力周辺インターフェース
191 モニタ
196 プリンタ
197 スピーカ
140 固定不揮発性メモリインターフェース
150 取外し可能不揮発性メモリインターフェース
160 ユーザ入力インターフェース
170 ネットワークインターフェース
171 ローカルエリアネットワーク
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
172 モデム
173 広域ネットワーク
162 キーボード
161 ポインティング装置
163 マイクロホン
180 リモートコンピュータ
185 リモートアプリケーションプログラム
202 プロセッサ
206 入出力
208 通信インターフェース
204 メモリ
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクト記憶部
500 話者
502 相加性雑音
504 マイクロホン
507 フレーム構成器
508 特徴抽出器
512 デコーダ
526 トレーニングテキスト
524 トレーナ
528 生成モデル
527 事後近似モデル
514 辞書
516 言語モデル
520 信頼性測定モジュール
522 出力モジュール

Claims (17)

  1. スイッチング状態空間モデルのフレームのシーケンスに関連する入力値に基づいて前記フレームのシーケンスの隠れ状態の組の尤度を提供する事後確率の事後確率パラメータを設定する方法であって、
    前記フレームのシーケンス内の少なくとも2つであるが、すべてより少ないフレームを含むウィンドウを定めるステップと、
    前記ウィンドウ内のフレームごとに別々の事後確率パラメータを判定するステップと、
    前記ウィンドウを移動させて、前記移動したウィンドウを形成するため前記フレームのシーケンス内の少なくとも1つの後続フレームを含むようにする移動させるステップと、
    前記移動したウィンドウ内のフレームごとに別々の事後確率パラメータを判定するステップと
    を含むことを特徴とする方法。
  2. 前記移動したウィンドウは、移動の前の前記ウィンドウに存在したフレームを少なくとも1つは含むことを特徴とする請求項1に記載の方法。
  3. 前記ウィンドウ内のフレームごとに別々の事後確率パラメータを判定するステップは、前記ウィンドウ内のフレームのすべてについて連立方程式を解くステップを含むことを特徴とする請求項1に記載の方法。
  4. 前記隠れ状態は、連続的であることを特徴とする請求項3に記載の方法。
  5. 前記フレームごとに別々の事後確率パラメータを判定するステップは、前記連続的な隠れ状態とは異なる離散的な隠れ状態の組の各々について別々の事後確率パラメータを判定するステップを含むことを特徴とする請求項4に記載の方法。
  6. 前記事後確率は、離散的な隠れ状態および入力値を与えられて、連続的な隠れ状態の前記確率を提供することを特徴とする請求項4に記載の方法。
  7. 前記ウィンドウの移動の前に、フレームについて判定された前記事後確率パラメータを使用して前記フレーム中に離散的な隠れ状態に入る経路表を生成するステップをさらに備えたことを特徴とする請求項5に記載の方法。
  8. 前記経路表を生成するステップは、ビタビデコーダの一部として経路表を生成するステップを含むことを特徴とする請求項7に記載の方法。
  9. 音声単位のシーケンスを識別するために音声信号をデコードする方法であって、
    離散的な隠れ状態および連続的な隠れ状態を有するスイッチング状態空間モデルのモデルパラメータを保管するステップであって、前記連続的な隠れ状態は前記離散的な隠れ状態に依存する保管するステップと、
    前記音声信号を観測ベクトルの組に変換するステップであって、前記観測ベクトルの各々は前記音声信号の別々のフレームに関連する変換するステップと、
    前記音声信号のフレームごとに、前記フレーム内の各離散的な隠れ状態への少なくとも1つの経路の経路表を判定するステップと、
    前記フレームの各離散的な隠れ状態への単一の経路を選択するために前記経路表を使用するステップと
    を備えたことを特徴とする方法。
  10. 前記離散的な隠れ状態は、音声単位を表すことを特徴とする請求項9に記載の方法。
  11. 前記経路表を判定するステップは、離散的な隠れ状態および観測ベクトルを与えられて、連続的隠れ状態の確率を記述する事後確率パラメータに基づいて経路表を判定するステップを含むことを特徴とする請求項9に記載の方法。
  12. 現在のフレーム内の離散的な隠れ状態の事後確率パラメータを判定するステップをさらに備えたことを特徴とする請求項11に記載の方法。
  13. 前記事後確率パラメータを判定するステップは、前記音声信号の前記フレームのすべてより少ない数のフレームしか含まないフレームのウィンドウを定めるステップを含むことを特徴とする請求項12に記載の方法。
  14. 連立方程式を解くことによって、前記ウィンドウ内の各フレーム内の各離散的な隠れ状態の別々の事後確率パラメータを判定するステップをさらに備えたことを特徴とする請求項13に記載の方法。
  15. 前のフレームの離散的な隠れ状態の組から現在のフレームの離散的な隠れ状態への各経路の経路表を判定するステップをさらに備えたことを特徴とする請求項9に記載の方法。
  16. 現在のフレーム内の各離散的な隠れ状態の経路表を判定するステップをさらに備えたことを特徴とする請求項15に記載の方法。
  17. 所定の状態への少なくとも1つの選択された経路が離散的な隠れ状態のシーケンスを介する考えられる経路の一部としてもはや考慮されなくなるように、前記経路を刈取りするステップをさらに備えたことを特徴とする請求項16に記載の方法。
JP2005011840A 2004-01-20 2005-01-19 スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 Pending JP2005208648A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/760,937 US7480615B2 (en) 2004-01-20 2004-01-20 Method of speech recognition using multimodal variational inference with switching state space models

Publications (1)

Publication Number Publication Date
JP2005208648A true JP2005208648A (ja) 2005-08-04

Family

ID=34634563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005011840A Pending JP2005208648A (ja) 2004-01-20 2005-01-19 スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法

Country Status (7)

Country Link
US (1) US7480615B2 (ja)
EP (2) EP1557823B1 (ja)
JP (1) JP2005208648A (ja)
KR (1) KR101120765B1 (ja)
CN (1) CN100589180C (ja)
AT (2) ATE355589T1 (ja)
DE (2) DE602005000603T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972305B2 (en) 2015-10-16 2018-05-15 Samsung Electronics Co., Ltd. Apparatus and method for normalizing input data of acoustic model and speech recognition apparatus
JP2019525267A (ja) * 2017-06-21 2019-09-05 北京小米移動軟件有限公司Beijing Xiaomi Mobile Software Co.,Ltd. スマートホームの初期化方法、装置、プログラム及び記録媒体
US10714077B2 (en) 2015-07-24 2020-07-14 Samsung Electronics Co., Ltd. Apparatus and method of acoustic score calculation and speech recognition using deep neural networks

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912717B1 (en) 2004-11-18 2011-03-22 Albert Galick Method for uncovering hidden Markov models
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
CN102087517A (zh) * 2010-07-19 2011-06-08 长春理工大学 一种减小速度插补误差的方法及硬件系统
US8924453B2 (en) * 2011-12-19 2014-12-30 Spansion Llc Arithmetic logic unit architecture
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
CN106605225A (zh) * 2014-08-27 2017-04-26 日本电气株式会社 仿真设备、仿真方法和存储器介质
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
CN108597540A (zh) * 2018-04-11 2018-09-28 南京信息工程大学 一种基于变分模态分解和极限学习机的语音情感识别方法
CN111833867B (zh) * 2020-06-08 2023-12-05 北京嘀嘀无限科技发展有限公司 语音指令识别方法、装置、可读存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254496A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 音声認識方式

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6678658B1 (en) * 1999-07-09 2004-01-13 The Regents Of The University Of California Speech processing using conditional observable maximum likelihood continuity mapping
US6591146B1 (en) * 1999-09-16 2003-07-08 Hewlett-Packard Development Company L.C. Method for learning switching linear dynamic system models from data
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254496A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 音声認識方式

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6010050224, Leo J. LEE, Hagai ATTIAS, Li DENG, "VARIATIONAL INFERENCE AND LEARNING FOR SEGMENTAL SWITCHING STATE SPACE MODELS OF HIDDEN SPEECH DYNAM", Proceedings of the 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 20030406, Vol.1, p.872−875, CN *
JPN6010050225, 阿部芳春,中島邦男, "テキスト音声認識におけるインクリメンタル適応型ビームサーチの検討", 日本音響学会平成9年度春季研究発表会講演論文集—I—, 19970317, p.57〜58, JP, 社団法人日本音響学会 *
JPN6010050226, Yoshua Bengio, "Markovian Models for Sequential Data", Neural Computing Surveys, 1999, Vol.2, p.129−162 *
JPN6010050227, Zoubin Ghahramani, Geoffrey E. Hinton, "Variational Learning for Switching State−Space Models", Neural Computation, 1998, Vol.12, p.963−996 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10714077B2 (en) 2015-07-24 2020-07-14 Samsung Electronics Co., Ltd. Apparatus and method of acoustic score calculation and speech recognition using deep neural networks
US9972305B2 (en) 2015-10-16 2018-05-15 Samsung Electronics Co., Ltd. Apparatus and method for normalizing input data of acoustic model and speech recognition apparatus
JP2019525267A (ja) * 2017-06-21 2019-09-05 北京小米移動軟件有限公司Beijing Xiaomi Mobile Software Co.,Ltd. スマートホームの初期化方法、装置、プログラム及び記録媒体
US10978075B2 (en) 2017-06-21 2021-04-13 Beijing Xiaomi Mobile Software Co., Ltd. Initialization method and device for smart home

Also Published As

Publication number Publication date
EP1701337A2 (en) 2006-09-13
US7480615B2 (en) 2009-01-20
EP1701337B1 (en) 2009-11-25
ATE355589T1 (de) 2006-03-15
DE602005000603T2 (de) 2007-06-21
EP1557823A2 (en) 2005-07-27
DE602005000603D1 (de) 2007-04-12
EP1701337A3 (en) 2007-09-05
EP1557823B1 (en) 2007-02-28
DE602005017871D1 (de) 2010-01-07
EP1557823A3 (en) 2005-08-24
CN1645476A (zh) 2005-07-27
ATE450031T1 (de) 2009-12-15
KR101120765B1 (ko) 2012-03-23
KR20050076696A (ko) 2005-07-26
CN100589180C (zh) 2010-02-10
US20050159951A1 (en) 2005-07-21

Similar Documents

Publication Publication Date Title
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
AU2004201076B2 (en) Noise estimation
US7206741B2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
US20110015927A1 (en) System and method for efficient laser processing of a moving web-based material
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
JP2005078077A (ja) 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
US20030182110A1 (en) Method of speech recognition using variables representing dynamic aspects of speech
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
Chowdhury A soft computing approach for on-line automatic speech recognition in highly non-stationary acoustic environments
JP2004117476A (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110104