JP4974470B2 - Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 - Google Patents

Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 Download PDF

Info

Publication number
JP4974470B2
JP4974470B2 JP2005092423A JP2005092423A JP4974470B2 JP 4974470 B2 JP4974470 B2 JP 4974470B2 JP 2005092423 A JP2005092423 A JP 2005092423A JP 2005092423 A JP2005092423 A JP 2005092423A JP 4974470 B2 JP4974470 B2 JP 4974470B2
Authority
JP
Japan
Prior art keywords
gram
interpolation
language model
probability
relative frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005092423A
Other languages
English (en)
Other versions
JP2005293580A5 (ja
JP2005293580A (ja
Inventor
アセロ アレハンドロ
ケルバ シプリアン
マハジャン ミラインド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005293580A publication Critical patent/JP2005293580A/ja
Publication of JP2005293580A5 publication Critical patent/JP2005293580A5/ja
Application granted granted Critical
Publication of JP4974470B2 publication Critical patent/JP4974470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は言語モデルに関する。より詳細には、本発明は、言語モデルを記憶するための記憶フォーマットに関する。
言語モデルは、単語シーケンスの確率を提供する。このようなモデルは、訓練データ(training data)中における単語シーケンスの頻度をカウントすることによって、訓練データのセットから訓練される。このようにして言語モデルを訓練する際の問題の1つは、訓練データ中で観察されない単語シーケンスは、その言語に存在するかもしれないのに、言語モデル中では確率0になることである。
これを克服するために、バックオフモデリング技法(back−off modeling technique)が開発された。バックオフ技法では、n個の単語のシーケンスが訓練データ中にない場合、この単語シーケンスの確率は、n−1個の単語のシーケンスの確率と、バックオフ重みとを使用して推定される。例えば、トライグラム(wn−2n−1)が訓練データ中で観察されない場合、その確率は、バイグラム(wn−1)の確率と、コンテキスト(wn−2n−1)に関連するバックオフ重みとを使用して推定される。
バックオフ技法を使用したNグラム言語モデルは、通常、ARPA標準フォーマットと呼ばれる標準フォーマットで記憶される。バックオフ言語モデルが普及したことにより、ARPAフォーマットは、言語モデルを伝送するための一標準として認知されるようになった。しかし、すべての言語モデルがバックオフ重みを有するわけではない。具体的には、削除補間Nグラムモデルは、言語モデルに関連するデータ過疎性問題に対処するために異なる技法を使用するので、バックオフ重みを有さない。その結果、削除補間言語モデル(deleted interpolation N−gram models)標準ARPAフォーマットで記憶されてこなかった。このため、ARPAフォーマットの言語モデルを受け取ることを予期する言語システムに削除補間言語モデルを統合するのは、容易ではなかった。
削除補間言語モデルのパラメータをバックオフ言語モデルのパラメータとして記憶するための方法および装置を提供する。具体的には、削除補間言語モデルのパラメータを標準ARPAフォーマットで記憶する。一実施形態では、小数カウントを使用して、削除補間言語モデルパラメータを形成する。
図1に、本発明を実施することのできる適したコンピューティングシステム環境の例100を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限を意味するものでもない。またコンピューティング環境100は、この例示的な動作環境100に示すコンポーネントのいずれか1つまたは組合せに関してどんな依存や要件を有するものとも解釈すべきではない。
本発明は、その他多くの汎用または専用コンピューティングシステム環境または構成でも機能する。本発明で使用するのに適するであろう周知のコンピューティングシステム、環境、および/または構成の例には、限定しないがパーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システムや、これらのシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般に、プログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施することもでき、その場合、タスクは通信ネットワークを介してリンクされたリモート処理デバイスによって実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置する。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータシステム110の形の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントには、限定しないが処理ユニット120と、システムメモリ130と、システムメモリを含めた様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121とを含めることができる。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、PCI(Peripheral Component Interconnect)バス(メザニンバスとも呼ばれる)が含まれる。
コンピュータ110は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ110からアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、取外し可能と取外し不可能の媒体の両方が含まれる。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないがRAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、ディジタル多用途ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用できコンピュータ110からアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他のトランスポート機構などの被変調データ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを組み入れるものであり、任意の情報送達媒体が含まれる。用語「被変調データ信号」は、信号中の情報が符号化される形で1つまたは複数の特性が設定または変更される信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接有線接続などの有線媒体と、音響、無線周波数、赤外線、その他の無線媒体などの無線媒体とが含まれる。以上の任意の組合せもコンピュータ可読媒体の範囲に含めるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。ROM131には通常、起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(basic input/output system)133が記憶されている。RAM132は通常、処理ユニット120がすぐにアクセス可能な、かつ/または処理ユニット120が現在作用している、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137を示す。
コンピュータ110は、その他の取外し可能/取外し不可能、揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例にすぎないが図1には、取外し不可能な不揮発性の磁気媒体に対して読み書きするハードディスクドライブ141と、取外し可能な不揮発性の磁気ディスク152に対して読み書きする磁気ディスクドライブ151と、CD ROMやその他の光媒体など取外し可能な不揮発性の光ディスク156に対して読み書きする光ディスクドライブ155を示す。この例示的な動作環境で使用できるその他の取外し可能/取外し不可能、揮発性/不揮発性コンピュータ記憶媒体には、限定しないが磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体RAM、固体ROMなどが含まれる。ハードディスクドライブ141は通常、インタフェース140などの取外し不可能メモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インタフェース150などの取外し可能メモリインタフェースでシステムバス121に接続される。
以上に論じ図1に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータの記憶域をコンピュータ110に提供する。例えば図1には、ハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147が少なくとも異なるコピーであることを示すために、異なる番号を付けてある。
ユーザは、キーボード162、マイクロホン163、マウスやトラックボールやタッチパッド等のポインティングデバイス161などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含めることができる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(「USB」)など、その他のインタフェースおよびバス構造で接続されてもよい。モニタ191または他のタイプの表示デバイスも、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは通常、スピーカ197やプリンタ196など、その他の周辺出力デバイスも備えることができ、これらは出力周辺インタフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で操作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の一般的なネットワークノードとすることができ、通常はパーソナルコンピュータ110に関して上述した要素の多くまたはすべてを備える。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよく見られる。
LANネットワーキング環境で使用されるときは、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるときは、コンピュータ110は通常、インターネットなどのWAN173を介した通信を確立するためのモデム172またはその他の手段を備える。モデム172は内蔵でも外付けでもよく、ユーザ入力インタフェース160またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるのが示されている。図示のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立するための他の手段を使用してもよいことは理解されるであろう。
本発明は、削除補間で生成された言語モデルを標準ARPAフォーマットで記憶する技法を提供する。削除補間では、Nグラム確率は、Nグラム確率の相対頻度推定値(relative frequecy estimate)と、より低次のnグラムの確率との線形補間として決定される。より低次のnグラムの確率も同様に、この低次のnグラムと、次に低次のnグラムとの相対頻度確率推定値として定義される。これを、ユニグラム確率が決定されるまで継続する。したがって、補間は以下の式に従って再帰的に決定される。
P(v|vk−(n−1)...vk−1)=(l−λn−1(vk−(n−1)...vk−1))f(v|vk−(n−1)...vk−1)+λn−1(vk−(n−1)...vk−1)P(v|vk−(n−2)...vk−1) 式1
上式で、P(v|vk−(n−1)...vk−1)はnグラムの確率であり、λn−1(vk−(n−1)...vk−1)は、Nグラムのコンテキストvk−(n−1)...vk−1に応じた補間重みである。f(v|vk−(n−1)...vk−1)は、Nグラムの相対頻度であり、この頻度は、Nグラムが訓練テキスト中に出現する回数を、Nグラムのコンテキストが訓練テキスト中に出現する回数で割った数である。P(v|vk−(n−2)...vk−1)は、次に低次のnグラムの確率であり、この確率は、次に低次のnグラムのコンテキストに応じた重みλn−2(vk−(n−2)...vk−1)を使用して式1を再帰的に用いて決定される。式1の再帰は、以下のように決定されるユニグラム確率で終了する。
Figure 0004974470
上式で、P(v)はユニグラム確率であり、λはユニグラム補間重みである。f(v)はユニグラムvの相対頻度であり、この相対頻度は、ユニグラムが訓練テキスト中に出現する回数を、訓練テキスト中の単語数で割った比率である。|V|は語彙中の単語数であり、この数はデフォルトのユニグラム確率として働く。
式1および2の再帰を用いると、Nグラムの確率は、当該のNグラムよりも低い様々な次数のnグラム相対頻度の補間になる。例えば、トライグラムの場合、再帰的補間は以下の式を生み出す。
Figure 0004974470
上式で、P(v|vk−2k−1)はトライグラム確率であり、f(v|vk−2k−1)は訓練テキスト中のトライグラムの相対頻度であり、f(v|vk−1)は訓練テキスト中のバイグラムの相対頻度であり、f(v)は訓練テキスト中のユニグラムの相対頻度であり、|V|は言語モデル中の語彙単語数であり、λ,λ,λはコンテキスト依存の補間重みである。
いくつかの実施形態では、相対頻度の決定に使用されるカウントは、整数値のカウントに限定されず、カウントの期待値として計算される小数値を含むこともできる。このことは、小数(実数値の)カウントに対して使用することのできないカッツ(Katz)バックオフ法など他のバックオフ法に勝る、削除補間の利点の1つである。
図2に、削除補間を使用したNグラム確率の計算のグラフ表現を提供する。図2で、ライン間の交差点は、nグラムの確率の補間を表す。例えば、ノード200でユニグラム確率が決定され、ノード220でNグラム確率が決定される。各ノードでは、より低いノードで決定された重み付き確率に、重み付き相対頻度が加えられる。
例えば、ノード200で開始し、ユニグラム相対頻度202とデフォルトユニグラム確率204との重み付き和として、補間ユニグラム確率が決定される。相対頻度202には重み206(l−λ)が適用され、デフォルトユニグラム確率204には重み208(λ)が適用される。
次に高いノード210における確率は、バイグラムの相対頻度212と、ノード200のユニグラム確率との重み付き和である。ノード200のユニグラム確率には、バイグラムのコンテキストに応じた重み214(λ(vk−1))が適用され、相対頻度212には、重み216(l−λ(vk−1))が適用される。
この再帰的な和を、Nグラム確率のノード220に達するまで上に向かって継続する。ノード220について決定される確率は、次に低次のnグラムについてノード222で決定された確率と、Nグラムの相対頻度224との重み付き和である。より低次の確率に適用される重み226はλn−1(vk−(n−1)...vk−1)であり、相対頻度に適用される重み228はl−λn−1(vk−(n−1)...vk−1)であり、これは両方とも、Nグラムのコンテキストに依存する。
図2からわかるように、Nグラムの確率を決定するには、より低次のnグラムの相対頻度と、コンテキストに対する重みとを決定しなければならない。図3および4に、これらの値を決定するためのブロック図および流れ図を提供する。
図4のステップ400で、訓練テキスト300を主要部分302とチェック部分304に分割する。ステップ402で、相対頻度カウンタ306が、主要部分302をユニグラムから当該の最高Nグラムまでの様々な次数のnグラムに解析する。次いで相対頻度カウンタ306は、各次数のnグラムにおいて、各nグラムの相対頻度をカウントする。これにより、各次数のnグラムにおける、各nグラムのnグラム相対頻度カウントのセット308が得られる。
ステップ404で、相対頻度308をEMトレーナ310に適用する。EMトレーナ310は、期待値最大化アルゴリズムを使用して、以下のように、すべての最高次数Nグラムの確率総計を最大化するように重みλn−1...λの値を設定する。
Figure 0004974470
上式で、[λn−1...λ]は、最高次数のNグラムの確率を最大化する重みのセットであり、確率総計は、i番目の各Nグラムの個別の確率の積であり、個別の確率は、式1および2の再帰的補間を用いて計算される。
前述のように、重みは、それらを使用して決定されるnグラム確率のコンテキストに応じたものである。データ過疎性(信頼性のない推定値につながることになる)を打ち消すと同時にEM訓練の計算複雑性を低減するために、これらの重みは、コンテキストの頻度カウントに基づいてバケットに分類される。一実施形態では、ある範囲の頻度カウントが、同じ重みに分類される。したがって、あるλn−1は、16回と32回の間で見られるコンテキストの場合とすることができ、あるλn−1は、33回と64回の間で見られるコンテキストの場合とすることができる。この結果、訓練する必要のある重みのセットはより小さくなり、訓練に必要な訓練テキストのセットはより小さくなる。
重みはチェックデータ304に対して最大化されるので、チェックデータ304中には、主要データ302中で観察されなかったnグラムがあることに留意されたい。したがって、重みは未知データを予期するように設定される。
いくつかの実施形態では、訓練テキスト300を異なる方式で再セグメント化することができ、この新しいテキスト分類に対して相対頻度カウントを再決定することができる。次いで、これらの新しい頻度カウントをEMトレーナ310に適用して、重みの値を再決定することができる。重みの値を再決定するとき、アルゴリズムは、前の反復で決定された重みの推定値で開始する。このような反復を、重みが安定値に達するまで繰り返すことができる。所望の数の反復が形成された後、ステップ406で、重みのセット312を、相対頻度カウントの最終的なセット308と共に、削除補間モデル314として記憶する。この削除補間モデルを使用して、新しいテキストを様々な次数のnグラムに解析し、各コンテキストに対する適切な重みを探索し、式1および2を使用して補間済み確率の計算を実施することによって、新しいテキストの確率を決定することができる。
式1および2によって表される補間は、より広く受け入れられている、標準ARPAフォーマットで通常表されるバックオフ言語モデルで使用される技法とはかなり異なる。より広く受け入れられているバックオフ言語モデルは、線形補間を使用してNグラムの確率を決定するのではなく、モデル中で突き止めることのできない、任意のNグラムの代用確率を使用する。この代用確率は、より低次のモデルと、この突き止めることのできない確率のコンテキストに関連するバックオフ重みとに基づく。このように、より標準的であるバックオフ言語モデルは、補間を実施するのではなく、単にNグラム確率をより低次のnグラム確率で置き換える。
図5に、従来技術のバックオフモデルを使用してNグラムの確率を決定する方法の流れ図を示す。図5のステップ500で、Nグラムの確率がバックオフ言語モデル中で突き止められるかどうかを判定するための探索を実施する。Nグラムの確率が存在する場合は、ステップ502でこの確率を返す。ステップ500でNグラムの確率が見つからなかった場合は、ステップ504で、Nグラムのコンテキストに関連するバックオフ重みを突き止める。ステップ506で、バックオフ言語モデルが次に低次のnグラムの確率を含むかどうかを判定するための探索を実施する。例えば、最高次数のNグラムがトライグラムであった場合、ステップ506でバイグラムの確率を探索することになる。ステップ506で次に低次のnグラムの確率が見つからなかった場合は、プロセスはステップ504に戻って、次に低次のnグラムのコンテキストに対するバックオフ重み、例えばバイグラムのコンテキストに対するバックオフ重みを突き止める。次いでプロセスはステップ506に戻って、次に低次のnグラムの確率を探索する。したがって、前にステップ506でバイグラム確率が探索された場合、ステップ506に戻るとユニグラム確率を探索することになる。
ステップ506でnグラムの確率が見つかると、ステップ508で、ステップ504から506までの反復で遭遇したすべてのバックオフ重みをこの確率に掛けて、Nグラムの確率を形成する。
図5でわかるように、標準的なバックオフ言語モデルを使用してNグラムの言語モデル確率を計算するには、様々な次数のnグラムの確率、ならびにこれらのnグラムのコンテキストに対するバックオフ重みを探索しなければならない。バックオフ言語モデル用の標準ARPAフォーマットは、使用されている特定のバックオフ言語モデルにかかわらず、同じ探索アルゴリズムを使用して必要な確率およびバックオフ重みを見つけることを可能にする、標準フォーマットを提供する。例えば、2つのベンダが2つの別々のバックオフ言語モデルをARPAフォーマットで提供した場合、同じコードを使用して両方の言語モデルから確率を決定することができる。
図6に、バックオフ言語モデル用の標準ARPAフォーマットのレイアウトの図を提供する。図6で、この標準フォーマットは、ヘッダタグ600と終了タグ602を含む。ヘッダタグ600の下には、各次数のnグラムにつき別個のエントリを含むリスト604がある。各エントリは、その次数のnグラムについて言語モデル中に存在するnグラムの数を示す。例えば、エントリ606はn1個のユニグラムがあることを示し、エントリ608はnN個のNグラムがあることを示す。
リスト604の下にはセクションのセットがあり、各次数のnグラムにつき1つのセクションがある。各セクションでは、ユニグラムに対するタグ610、バイグラムに対するタグ612、Nグラムに対するタグ614など、別々のタグが見出しにあり、Nは、言語モデル中のnグラムの最上次数である。
様々な次数のnグラムの各見出しの下には、エントリのリストがあり、その次数の各nグラムにつき1つのエントリがある。各エントリは、nグラムの確率とnグラムとを含み、最高次数以外の次数のnグラムの場合は、バックオフ重みも含む。例えば、ユニグラムの見出し610の下では、エントリ618が、ユニグラム620の確率622と、バックオフ重み616を含む。バックオフ重み616は、単語620がバイグラムにおけるコンテキストとして使用されるときに単語620に関連するものであることに留意されたい。同様に、バイグラム見出し612の下のエントリ624は、単語vからなるバイグラム628のバイグラム確率626と、トライグラムのコンテキストとして使用される単語vに関連するバックオフ重み630とを含む。通常、確率およびバックオフ重みは、対数の底10のフォーマットで記憶される。
最高次数nグラムの見出し614の下のエントリの場合は、バックオフ重みはない。したがって、エントリ632では、確率634と、nグラムv...v636だけがある。
図2を図6と比較すると、図2に示したような補間モデルを図6の標準ARPAフォーマットで記憶できることが明確ではない。図7に、本発明の一実施形態による、削除補間モデルを標準ARPAフォーマットで記憶する方法の流れ図を提供する。
図7のステップ700で、削除補間モデルの相対頻度および重みλを決定する。ステップ702で、Lグラムのセットの最上次数を選択する。Lは1とNの間であり、Nは最上次数である。ステップ704で、選択された次数のLグラムを選択し、ステップ706で、選択されたLグラムの相対頻度が0よりも大きいかどうかを判定する。0よりも大きい場合は、式1を使用してLグラムの補間済み確率を計算し、これをLグラムの確率として標準フォーマットで記憶する。例えば、図6の最上次数の見出し614の下にあるエントリが作成され、確率634などの確率はLグラムの補間済み確率に等しく設定され、Lグラム自体は図6のフィールド636などのLグラムフィールド中に配置される。
Lグラムの相対頻度が0よりも大きくない場合は、Lグラムの確率は標準ARPAフォーマットで記憶されない。
ステップ708でLグラムの確率を記憶した後で、またはLグラムの相対頻度が0よりも大きくないと判定された後で、ステップ710で、最上次数について考慮すべきLグラムが他にもあるかどうかを判定する。考慮すべきLグラムが他にもある場合は、ステップ704に戻り、次のLグラムを選択する。次いで、この新しいLグラムに対してステップ706および708を繰り返す。最上次数のすべてのLグラムを処理するまで、ステップ704、706、708、710を繰り返す。
ステップ710でLグラムの最上次数についてすべてのLグラムを処理し終えると、ステップ712で、処理中のLグラムの現在次数が0よりも大きいかどうかを判定する。現在処理中のLグラムの次数が0よりも大きい場合は、ステップ714で、次数を1つ減らして次に低い次数に移る。次いでステップ716で、この次に低い次数におけるLグラムを選択する。
ステップ718で、選択されたLグラムの相対頻度を調べて、0よりも大きいかどうかを判定する。0よりも大きくない場合は、ステップ720に進み、前にARPAファイルに記憶したより高次のLグラムを調べて、現在のLグラムがより高次のLグラムのうちの1つのコンテキストであるかどうかを判定する。ステップ720でLグラムがより高次のLグラムにおけるコンテキストであることがわかった場合、またはステップ718でLグラムの相対頻度が0よりも大きい場合は、ステップ722で、Lグラムの補間済み確率をLグラムの確率としてARPAファイルに記憶し、検出された補間モデル中のLグラムに応じたλを、Lグラムに対するバックオフ重みとして記憶する。例えば、λがLグラムの相対頻度に応じたものである場合、現在のLグラムの相対頻度に関連するλをバックオフ重みとして記憶する。例えば、Lグラムがバイグラムvである場合、vの相対頻度に等しい相対頻度を有するバイグラムに関連する重みを、バイグラムvに対するバックオフ重みとして使用し、補間済み確率をバイグラムvの確率として使用する。
このように、Lグラムの相対頻度が0よりも大きい場合すなわちLグラムが訓練データ中に見られた場合と、Lグラムがより高次のLグラムのコンテキストとして出現する場合には、Lグラムを記憶する。本発明のこの実施形態は、記憶するLグラムをこれらの基準を満たすものだけに限定することによって、バックオフフォーマットによるコンパクトな言語モデルを生み出す。
最初の相対頻度がしきい値未満ならば相対頻度を0に設定することによって相対頻度が決定される場合、Lグラムは、訓練テキスト中での相対頻度が0でありながらもコンテキストとして出現する可能性がある。例えば、Lグラムの相対頻度が.02であって、しきい値が.02に設定されている場合、Lグラムの相対頻度は0に設定されることになる。これは、補間モデルのサイズを縮小するために行われる。
相対頻度が0であるにもかかわらずより高次のLグラムにおけるコンテキストとして出現する場合にLグラムを記憶する理由は、Lグラムがより高次のLグラムのコンテキストとして出現するので、このコンテキストに対するバックオフ重みが言語モデル中で必要になるからである。
ステップ722の後に、またはステップ718で現在選択されているLグラムの相対頻度が0よりも大きくなく、ステップ720でより高次のLグラムのコンテキストして使用されない場合は、ステップ724で、現在次数のLグラムが他にもあるかどうかを判定する。現在次数のLグラムが他にもある場合は、ステップ716で次のLグラムを選択し、ステップ718、720、722、724を繰り返す。選択された次数のすべてのLグラムを処理するまで、ステップ716、718、720、722、724を繰り返す。
ステップ724で現在次数のLグラムがそれ以上ないときは、ステップ712に戻って、次数が0よりも大きいかどうかを判定する。次数が0よりも大きい場合は、ステップ714で次に低い次数を選択し、この新しいより低次のLグラムに対してステップ716〜724を繰り返す。ステップ712で次数がもはや0よりも大きくないときは、すべての次数のnグラムの処理が完了しており、図7の方法はステップ726で終了する。
このように、図7の方法は、削除補間nグラムモデルをARPAバックオフ標準フォーマットで表すことができる。これにより、削除補間技法によって形成された言語モデルを、標準ARPAフォーマットを受け取ることを予期する言語システムに統合することができる。
本発明を特定の実施形態を参照して述べたが、本発明の趣旨および範囲を逸脱することなく形式および詳細に変更を加えることができることは、当業者なら理解するであろう。
本発明を実施することのできる一般的なコンピューティング環境のブロック図である。 従来技術による、削除補間nグラム言語モデルのグラフである。 従来技術による、削除補間nグラム言語モデルを訓練するための訓練システムのブロック図である。 従来技術による、削除補間nグラム言語モデルを訓練するための流れ図である。 従来技術による、バックオフ言語モデルを使用して確率を決定するための流れ図である。 従来技術による、バックオフ言語モデルを記憶するためのARPA標準フォーマットに関するレイアウトの図である。 削除補間nグラム言語モデルをARPA標準フォーマットで記憶するための流れ図である。
符号の説明
120 処理ユニット
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 取外し不可能な不揮発性メモリインタフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 取外し可能な不揮発性メモリインタフェース
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインタフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ

Claims (18)

  1. 削除補間言語モデルのパラメータを使用してバックオフ言語モデルを生成する方法であって、コンピュータのプロセッサが、
    複数のNグラムのうちの各Nグラムに対する相対頻度と、前記複数のNグラムのうちの最高次のNグラム以外の各Nグラムに対するNグラムの関数である補間重みと、を含む削除補間言語モデル用のパラメータのセットを獲得するステップと、
    前記削除補間言語モデル用の少なくとも1つのパラメータを記憶手段に記憶するステップと、
    前記記憶されたパラメータを用いて前記バックオフ言語モデルを生成するステップと
    を含み、前記生成するステップは、
    前記バックオフ言語モデル中ない任意のNグラム確率に対し前記バックオフ言語モデルに対するNグラム確率を、前記記憶されたパラメータ内の該Nグラムに対する相対頻度およびより低次のNグラム確率の、前記記憶されたパラメータ内のより低次の補間重みを使用した線形補間により補間された確率として決定し、前記より低次のNグラム確率は、前記記憶されたパラメータ内の前記より低次のNグラムに対する相対頻度および次により低次のNグラム確率の、前記記憶されたパラメータ内の次により低次の補間重みを使用した線形補間により再帰的に決定されるステップを含むことを特徴とする方法。
  2. 前記決定するステップは、前記バックオフ言語モデル中の単語シーケンスの確率を、前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記決定するステップは、前記単語シーケンスの相対頻度がしきい値よりも大きいと判定した後で、Nグラム確率を、前記前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記記憶するステップは、前記相対頻度がしきい値よりも大きいと判定した後で、前記相対頻度を記憶するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記決定するステップは、前記単語シーケンスが前記バックオフ言語モデル中のNグラムに対するコンテキストを形成すると判定された後で、Nグラム確率を、前記前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項2に記載の方法。
  6. 前記記憶するステップは、前記削除補間モデル用の補間重みを前記バックオフ言語モデル用のバックオフ重みとして記憶するステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記獲得するステップは、補間重みのセットを訓練するステップを含むことを特徴とする請求項1に記載の方法。
  8. 前記訓練するステップは、頻度カウント範囲のセットごとに別々の重みを訓練するステップを含むことを特徴とする請求項7に記載の方法。
  9. 前記記憶するステップは、閾値より大きい相対頻度の複数のNグラムの各Nグラムに対し、前記線形補間により補間されたNグラム確率を、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造にNグラムの確率として記憶し、前記最高次のNグラム以外の各Nグラムに対し、前記相対頻度に適用される補間重みを、前記ARPAフォーマットに準拠するデータ構造にバックオフ重みとして記憶するステップを含むことを特徴とする請求項1に記載の方法。
  10. 削除補間言語モデルのパラメータを使用してバックオフ言語モデルを生成するコンピュータプログラムであって、コンピュータに、
    複数のNグラムのうちの各Nグラムに対する相対頻度と、前記複数のNグラムのうちの最高次のNグラム以外の各Nグラムに対するNグラムの関数である補間重みと、を含む削除補間言語モデル用のパラメータのセットを獲得するステップと、
    前記削除補間言語モデル用の少なくとも1つのパラメータを記憶手段に記憶するステップと、
    前記記憶されたパラメータを用いて前記バックオフ言語モデルを生成するステップと
    を実行させ、前記生成するステップは、
    前記バックオフ言語モデル中ない任意のNグラム確率に対し前記バックオフ言語モデルに対するNグラム確率を、前記記憶されたパラメータ内の該Nグラムに対する相対頻度およびより低次のNグラム確率の、前記記憶されたパラメータ内のより低次の補間重みを使用した線形補間により補間された確率として決定し、前記より低次のNグラム確率は、前記記憶されたパラメータ内の前記より低次のNグラムに対する相対頻度および次により低次のNグラム確率の、前記記憶されたパラメータ内の次により低次の補間重みを使用した線形補間により再帰的に決定されるステップを含むことを特徴とするコンピュータプログラム。
  11. 前記決定するステップは、前記バックオフ言語モデル中の単語シーケンスの確率を、前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項10に記載のコンピュータプログラム。
  12. 前記決定するステップは、前記単語シーケンスの相対頻度がしきい値よりも大きいと判定した後で、Nグラム確率を、前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項11に記載のコンピュータプログラム。
  13. 前記記憶するステップは、前記相対頻度がしきい値よりも大きいと判定した後で、前記相対頻度を記憶するステップを含むことを特徴とする請求項12に記載のコンピュータプログラム。
  14. 前記決定するステップは、前記単語シーケンスが前記バックオフ言語モデル中のNグラムに対するコンテキストを形成すると判定された後で、Nグラム確率を、前記線形補間により補間された確率として決定するステップを含むことを特徴とする請求項11に記載のコンピュータプログラム。
  15. 前記記憶するステップは、前記削除補間モデル用の補間重みを前記バックオフ言語モデル用のバックオフ重みとして記憶するステップを含むことを特徴とする請求項10に記載のコンピュータプログラム。
  16. 前記獲得するステップは、補間重みのセットを訓練するステップを含むことを特徴とする請求項10に記載のコンピュータプログラム。
  17. 前記訓練するステップは、頻度カウント範囲のセットごとに別々の重みを訓練するステップを含むことを特徴とする請求項16に記載のコンピュータプログラム。
  18. 前記記憶するステップは、閾値より大きい相対頻度の複数のNグラムの各Nグラムに対し、前記線形補間により補間されたNグラム確率を、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造の複数のNグラムとして、前記削除補間言語モデルに記憶し、前記最高次のNグラム以外の各Nグラムに対し、前記相対頻度に適用される補間重みを、バックオフ重みとして前記ARPAフォーマットに準拠するデータ構造に記憶するステップを含むことを特徴とする請求項10に記載のコンピュータプログラム。
JP2005092423A 2004-03-26 2005-03-28 Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 Active JP4974470B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/810,254 US7406416B2 (en) 2004-03-26 2004-03-26 Representation of a deleted interpolation N-gram language model in ARPA standard format
US10/810,254 2004-03-26

Publications (3)

Publication Number Publication Date
JP2005293580A JP2005293580A (ja) 2005-10-20
JP2005293580A5 JP2005293580A5 (ja) 2008-05-15
JP4974470B2 true JP4974470B2 (ja) 2012-07-11

Family

ID=34862105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005092423A Active JP4974470B2 (ja) 2004-03-26 2005-03-28 Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現

Country Status (7)

Country Link
US (1) US7406416B2 (ja)
EP (1) EP1580667B1 (ja)
JP (1) JP4974470B2 (ja)
KR (1) KR101120773B1 (ja)
CN (1) CN100535890C (ja)
AT (1) ATE496342T1 (ja)
DE (1) DE602005025955D1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US20070078653A1 (en) * 2005-10-03 2007-04-05 Nokia Corporation Language model compression
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
US7774197B1 (en) 2006-09-27 2010-08-10 Raytheon Bbn Technologies Corp. Modular approach to building large language models
US8332207B2 (en) 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
CN102272754B (zh) * 2008-11-05 2015-04-01 谷歌公司 定制语言模型
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
CN102982024B (zh) * 2011-09-02 2016-03-23 北京百度网讯科技有限公司 一种搜索需求识别方法及装置
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
US9224386B1 (en) 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US20150088511A1 (en) * 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1940720A (en) * 1931-03-16 1933-12-26 Madsen Jens A Windfeld Water softener
US4096017A (en) * 1977-02-18 1978-06-20 H. C. Price Co. Method and article for forming field joints on pipe coated with thermoplastic material
US4111017A (en) * 1977-06-21 1978-09-05 The United States Of America As Represented By The United States Department Of Energy Manually operated coded switch
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5199464A (en) * 1989-12-28 1993-04-06 Interprovincial Pipe Line, Inc. Pipeline repair sleeve assembly having heat sink groove
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
IT1254723B (it) * 1992-03-18 1995-10-09 Snam Spa Procedimento perfezionato per gli interventi di riparazione di danni localizzati alle condotte mediante applicazione di corazze con una guaina protettiva interposta
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP2886121B2 (ja) * 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5722463A (en) * 1996-11-25 1998-03-03 Petro-Line Upgrading Services Ltd. External pipe reinforcing sleeve
CA2192620C (en) * 1996-12-11 2000-08-29 Gerald Henderson Pipe repair assembly
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
JP2000250583A (ja) * 1999-03-02 2000-09-14 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2000356997A (ja) 1999-06-15 2000-12-26 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2001142881A (ja) 1999-11-16 2001-05-25 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデル及びそれを用いた確率計算法

Also Published As

Publication number Publication date
CN100535890C (zh) 2009-09-02
EP1580667B1 (en) 2011-01-19
US7406416B2 (en) 2008-07-29
EP1580667A3 (en) 2007-10-10
US20050216265A1 (en) 2005-09-29
ATE496342T1 (de) 2011-02-15
DE602005025955D1 (de) 2011-03-03
KR101120773B1 (ko) 2012-03-23
EP1580667A2 (en) 2005-09-28
JP2005293580A (ja) 2005-10-20
KR20060044753A (ko) 2006-05-16
CN1673997A (zh) 2005-09-28

Similar Documents

Publication Publication Date Title
JP4974470B2 (ja) Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
JP4855701B2 (ja) 意味管理を用いた言語モデル適応
JP5031206B2 (ja) 指数モデルの適合
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
US7680659B2 (en) Discriminative training for language modeling
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JP5459214B2 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US8224641B2 (en) Language identification for documents containing multiple languages
US7624006B2 (en) Conditional maximum likelihood estimation of naïve bayes probability models
JP2016513269A (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN104854654A (zh) 用于使用搜索查询信息的言语识别处理的方法和系统
US10311046B2 (en) System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences
US8407047B2 (en) Guidance information display device, guidance information display method and recording medium
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
US20180011839A1 (en) Symbol prediction with gapped sequence models
JP6261669B2 (ja) クエリ校正システムおよび方法
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム
CN113268452A (zh) 一种实体抽取的方法、装置、设备和存储介质
JP5881157B2 (ja) 情報処理装置、およびプログラム
JP5126737B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN110502226B (zh) 在编程环境中推荐代码的方法和装置
CN114328933A (zh) 文本内容识别方法、装置、电子设备和可读介质
CN113826102A (zh) 通信服务器装置、通信设备及其操作方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120410

R150 Certificate of patent or registration of utility model

Ref document number: 4974470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250