JP2004078962A - コーパスの中のテキストを構文解析する方法および記録媒体 - Google Patents

コーパスの中のテキストを構文解析する方法および記録媒体 Download PDF

Info

Publication number
JP2004078962A
JP2004078962A JP2003293466A JP2003293466A JP2004078962A JP 2004078962 A JP2004078962 A JP 2004078962A JP 2003293466 A JP2003293466 A JP 2003293466A JP 2003293466 A JP2003293466 A JP 2003293466A JP 2004078962 A JP2004078962 A JP 2004078962A
Authority
JP
Japan
Prior art keywords
dictionary
text
parsing
segment
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003293466A
Other languages
English (en)
Inventor
Andi Wu
アンディ ウー
Joseph E Pentheroudakis
ジョーゼフ イー.ペンテロウダキス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004078962A publication Critical patent/JP2004078962A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 辞書を動的に更新可能とする。
【解決手段】 コーパスの中のテキストを構文解析するための方法を提供する。テキストの第1のセグメントに基づいて辞書の可能な新しいエントリの仮説を立てる(ステップ302)。次に、その可能な新しいエントリを使用して、テキストの第1のセグメントに関する正常な構文解析が形成される(ステップ307)。その正常な構文解析に基づき、新しいエントリを含むように辞書が変更される(ステップ312)。次に、辞書の中のその新しいエントリを使用してテキストの第2のセグメントを構文解析する(ステップ300)。
【選択図】 図3

Description

 本発明は、自然言語処理に関連し、テキストの構文の構文解析において使用される辞書に関連した、コーパスの中のテキストを構文解析する方法および記録媒体に関する。
 自然言語パーサは、自然言語(例えば、英語などの人間の言語)のテキストセグメントを取り上げ、普通は文を取り上げ、普通、構文解析ツリーと呼ばれるデータ構造を生成するプログラムである。この構文解析ツリーは、通常、入力セグメントの中の語と語の間の構文上の関係を表わす。
 構文解析プロセスは、所与の言語における語の形態上の特性、構文上の特性、および意味上の特性を列挙する辞書を利用する。この辞書を使用して、パーサは、テキストを個別の語に分け、各語に関する標準化された形態(見出し語)を特定し、各語に関して適当な品詞を特定する。次に、この情報が、構文解析ツリーを構成する際に使用される。
 従来、辞書は、1名または複数名の言語学者によって手作業で作成されてきた。しかし、このやり方で辞書を作成することは、時間がかかり、多くの労力を要する。辞書を作成する、または既存の辞書に新しいエントリを追加するのに必要とされる作業の量を削減するため、辞書のいくつかの部分を自動的に構築するいくつかの学習技術が開発されている。しかし、それらのヒューリスティックス(heuristics)は、完全なトレーニングコーパス(training corpus)が解析された後、通常、手作業の点検を含む別個の段階で辞書を更新する。言い換えれば、辞書は、動的に更新されない。このため、辞書は、望まれるほど完全ではない。
 いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、非特許文献1参照)。
S. Thede他著「Analysis of Unknown Lexical Items Using Morphological and Syntactic Information with the TIMIT Corpus」Fifth Workshop on Very Large Corpora、1997年、p.261−272
 従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。 本発明は、このような状況に鑑みてなされたもので、その目的とするところは、辞書を動的に更新可能なコーパスの中のテキストを構文解析する方法および記録媒体を提供することにある。
 コーパスの中のテキストを構文解析するための方法を提供する。この方法は、テキストの第1のセグメントに基づいて辞書の可能な新しいエントリの仮説を立てることを含む。次に、その可能な新しいエントリを使用して、テキストの第1のセグメントに関して正常な構文解析が形成される。その正常な構文解析に基づき、その新しいエントリを含むように辞書が変更される。次に、辞書の中のその新しいエントリを使用してテキストの第2のセグメントが構文解析される。
 一実施形態では、テキストの第2のセグメントから第2の可能な新しいエントリの仮説が立てられ、その新しい辞書エントリおよび第2の可能な新しいエントリで正常な構文解析が形成される。正常な構文解析に基づき、第2の可能な新しいエントリを含むように辞書が変更される。
 以上説明したように本発明によれば、辞書を動的に更新できる。
 以下、図面を参照して本発明の実施形態を詳細に説明する。図1は、本発明を実施することが可能な適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲に関して何ら限定を示唆するものではない。また、コンピューティングシステム環境100が、例示的なコンピューティングシステム環境100に例示した構成要素の任意の1つ、または任意の組み合わせに関連する何らかの依存性、または要件を有するものと解釈してはならない。
 本発明は、多数の他の汎用、または特殊目的のコンピューティングシステムの環境または構成で動作する。本発明で使用するのに適している可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたはデバイスの任意のものを含む分散コンピューティング環境等が含まれるが、以上には限定されない。
 本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。また、本発明は、通信網を介してリンクされたリモートの処理デバイスによってタスクが行われる分散コンピューティング環境において実施してもよい。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルのコンピュータ記憶媒体とリモートのコンピュータ記憶媒体の両方の中に配置されることが可能である。
 図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110の構成要素には、プロセッサ120、システムメモリ130、ならびにシステムメモリからプロセッサ120までを含む様々なシステム構成要素を結合するシステムバス130が含まれることが可能であるが、以上には限定されない。システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャの任意のものを使用するローカルバスを含むいくつかのタイプのバス構造の任意のものであることが可能である。例として、限定としてではなく、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(Peripheral Component Interconnects)バスが含まれる。
 コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセス可能な任意の利用可能な媒体であることが可能であり、揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体がともに含まれる。例として、限定としてではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことが可能である。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための、任意の方法または任意の技術で実装される揮発性の媒体および不揮発性の媒体、取外し可能な媒体および取外し不可能な媒体がともに含まれる。コンピュータ記憶媒体には、RAM(random access memory)、ROM(read only memory)、EEPROM(electrically erasable programmable read-only memory)、フラッシュメモリまたは他のメモリ技術、CD(compact disk)−ROM、DVD(digital versatile disk)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶デバイス、あるいは所望の情報を記憶するのに使用することができ、コンピュータ110がアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。
 通信媒体は、通常、搬送波などの変調されたデータ信号、または他のトランスポート機構で、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを具現化し、あらゆる情報配信媒体を含む。「変調されたデータ信号」という用語は、信号に情報を符号化するような仕方で特性の1つまたは複数が設定または変更されている信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、RF(radio frequencies)媒体、赤外線媒体、およびその他の無線媒体などの、無線媒体が含まれる。また、前述したもののいずれかの組み合わせも、コンピュータ可読媒体の範囲に含まれるべきものである。
 システムメモリ130は、読取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。スタートアップ中など、コンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(Basic Input/Output System)133が、通常、ROM131の中に記憶されている。RAM132は、通常、プロセッサ120によって即時にアクセス可能であり、かつ/または現在、処理されているデータおよび/またはプログラムモジュールを含む。例として、限定としてではなく、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示している。
 また、コンピュータ110は、他の取外し可能な/取外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体を含むことも可能である。単に例として、図1は、取外し不可能な不揮発性の磁気媒体に対して読取りおよび書込みを行うハードディスクドライブ141、取外し可能な不揮発性の磁気ディスク152に対して読取りおよび書込みを行う磁気ディスクドライブ151、およびCD−ROMまたは他の光媒体などの取外し可能な不揮発性の光ディスク156に対して読取りおよび書込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができる他の取外し可能な/取外し不可能な揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタルバーサタイルディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM等が含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インタフェース140のようなノンリムーバブルメモリインタフェースを介してシステムバス121に接続され、また磁気ディスクドライブ151および光ディスクドライブ155は、通常、インタフェース150のようなリムーバブルメモリインタフェースでシステムバス121に接続される。
 前述し、図1に示すドライブおよび関連するコンピュータ記憶媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストレージがコンピュータ110に提供される。図1では、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶しているものとして示されている。以上の構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。
 ユーザは、キーボード162、マイクロホン163、ならびにマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナ等が含まれてもよい。以上の入力デバイスおよび他の入力デバイスは、しばしば、システムバスに結合されたユーザ入力インタフェース160を介してプロセッサ120に接続されるが、パラレルポート、ゲームポート、またはUSB(Universal Serial Bus)などの他のインタフェースおよびバス構造で接続してもよい。また、モニタ191または他のタイプの表示デバイスも、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インタフェース195を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力デバイスも含むことが可能である。
 コンピュータ110は、リモートリモートコンピュータ180のような1つまたは複数のリモートリモートコンピュータに対する論理接続を使用するネットワーク化された環境で動作することも可能である。リモートリモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピア(peer)デバイス、または他の一般的なネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含む。図1に描いた論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。
 LANネットワーキング環境で使用されるとき、コンピュータ110は、ネットワークインタフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるとき、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172、または他の手段を含む。内部にあることも、外部にあることも可能なモデム172は、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続することが可能である。ネットワーク化された環境では、パーソナルコンピュータ110に関連して描いたプログラムモジュール、またはプログラムモジュールの部分は、リモートのメモリ記憶デバイスの中に記憶されることが可能である。例として、限定としてではなく、図1は、リモートアプリケーションプログラム185をリモートコンピュータ180上に常駐するものとして示している。図示したネットワーク接続は、例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用してもよいことが認められよう。
 図2は、例示的なコンピューティング環境であるモバイルデバイス200を示すブロック図である。モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入力/出力(I/O)コンポーネント206、ならびにリモートコンピュータまたは他のモバイルデバイスと通信するための通信インタフェース208を含む。一実施形態では、前述した構成要素は、適切なバス210を介して互いに通信するように結合される。
 メモリ204は、バッテリバックアップモジュール(図示せず)を伴うランダムアクセスメモリ(RAM)などの不揮発性の電子メモリとして実装され、モバイルデバイス200への基本電力(general power)が遮断されたときにメモリ204の中に記憶された情報が失われないようにしている。メモリ204の一部分は、好ましくは、プログラム実行のためのアドレス指定可能なメモリとして割り振られ、メモリ204の別の部分は、好ましくは、ディスクドライブ上の記憶をシミュレートするように記憶のために使用される。
 メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、およびオブジェクトストア216を含む。動作中、オペレーティングシステム212は、好ましくは、メモリ204からプロセッサ202によって実行される。オペレーティングシステム212は、1つの好ましい実施形態では、マイクロソフトコーポレーションから市販されるWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくは、モバイルデバイス向けに設計されており、1組の公開されたアプリケーションプログラミングインタフェースおよびメソッドを介してアプリケーション214が利用することができるデータベース機能を実装している。オブジェクトストア216の中のオブジェクトは、少なくともある程度、公開されたアプリケーションプログラミングインタフェースおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって保持される。
 通信インタフェース208は、モバイルデバイス200が情報を送受信することを可能にする多数のデバイスおよび技術を表わす。このデバイスには、いくつかを挙げれば、有線モデムおよび無線モデム、衛星受信機、および放送チューナが含まれる。また、モバイルデバイス200は、コンピュータとデータを交換するようにコンピュータに直接に接続することも可能である。そのような場合、通信インタフェース208は、赤外線トランシーバ、あるいはシリアル通信接続またはパラレル通信接続であることが可能であり、以上のすべては、ストリーミング情報を伝送することができる。
 入力/出力コンポーネント206には、タッチセンシティブ(touch−sensitive)スクリーン、ボタン、ローラ(roller)、およびマイクロホンなどの様々な入力デバイス、ならびに音声生成器、振動デバイス、およびディスプレイを含む様々な出力デバイスが含まれる。以上に挙げたデバイスは、例としてのものであり、すべてがモバイルデバイス200上に存在する必要はない。さらに、他の入力/出力デバイスが、本発明の範囲内でモバイルデバイス200に付加されること、またはモバイルデバイス200と一体になっていることが可能である。
 本発明は、自然言語構文解析において使用される辞書を動的に更新する方法を提供する。この方法を以下に図3のフローチャート、および図4のブロック図を参照して説明する。
 図3のプロセスは、ステップ300で開始し、入力テキストセグメント402が受け取られる。受け取られたテキストを使用して、ステップ302で、可能な新しい辞書エントリが特定される。本発明では、可能な新しい辞書エントリは、構文解析ツリーを形成することに関連する1つまたは複数の技術を使用し、かつ一般的な辞書454と領域特有の辞書456の組み合わせであるマージされた辞書452の現行の形態を使用して特定される。
 構文解析ツリーを構成する前に、入力テキストセグメントの中の個々の語および個々の句、ならびにそれらの語および句の可能な品詞が、「トークン生成(tokenization)、モフォロジ(morphology)および品詞タガー(tagger)」ユニット403を使用して特定される。
 トークン生成中、テキストの中の文字が、語および句にグループ化される。ほとんどの言語の場合、これは、文字と文字の間のスペースを探すことによって大体、達せられる。ただし、中国語などの分節されない(unsegumented)言語の場合、トークン生成には、グループの文字が、辞書の中の有効な語を成すかどうかを判定することが関わる。辞書の可能な新しいエントリは、その言語の要件を満たすが辞書の中に存在しない語群または語の属性を含む、区分(segmentation)を見出すことによってトークン生成中に特定される。
 例えば、中国語テキストのトークン生成中、本発明の一実施形態は、辞書の中で独立の語としてリストされていない単一文字の形態素が、1文字の語として扱われるべきかどうかを判定する。この判定は、その文字が、可能な区分の中で複数文字の語に包含されるかどうか、またその形態素が、所与の文脈において出現するかどうかなどに基づく。
 さらなる実施形態では、辞書の中の語であると判明しなかった文字の組み合わせが、辞書に追加されるべき新しい語である可能性があるかどうかについての判定が行われる。そのような組み合わせは、文字のその組み合わせが他の語に包含されない区分が存在し、それらの文字が独立の語である同時確率(joint probability)が低く、新しい語の内部構造が、その言語に関する語形成規則に適合し、かつ構成要素の文字が、辞書の中の他の語と同様の振舞いを見せる場合、新しい語である可能性があるものと見なされる。
 形態解析は、語の形(shape)に基づき、語の適当な品詞、および語がとる可能性がある論法(argument)を判定することに関わる。例えば、英語では、「ing」で終わる語は、動詞である可能性が高い。本発明では、可能な新しい辞書エントリは、形態解析中に特定することができる。詳細には、語の形状(form)を使用して、その語に関する新しい品詞の仮説を立てることができる。
 品詞タグ付け(tagging)は、テキストセグメントの全般的な内容を調べ、そのテキストの中の他の語の場所に基づき、そのテキストセグメント内の語に関して適当な品詞の判定を行う。例えば、ある語は、法動詞または助動詞が先行している場合、相のマーカが後に続く場合、または副詞または副詞句が先行する場合、中国語における動詞と見なすことができる。このタイプの解析を本発明において使用して、語に関する新しい品詞の仮説を立てることができる。
 トークン生成、モフォロジ、および品詞タグ付けの後、擬似事実(factoid)および名前付きエンティティユニット404が、入力テキストの中の擬似事実、および名前付きエンティティを特定する。これには、特定の人物、場所、または日付を表わす「Bill Gates」、「London Bridge」、および「September 20,1992」などが含まれる。テキストの構造により、いくつかのトークンが実際に名前付きエンティティであることが示されることが可能である。そのトークンに関する辞書エントリがマージされた辞書452の中に存在しない場合、またはエントリにより、そのトークンが名前付きエンティティを表わすことが示されない場合、本発明は、そのトークンにそのようにマークを付け、辞書の中で可能な新しいエントリを生成する。
 本発明のさらなる実施形態では、テキストセグメントから形成された構文解析ツリー414を検査し、その構文解析ツリーの中のトークンを組み合わせて、または再定義して、構文解析ツリーを改良することができるかどうかを判定することにより、辞書の可能なエントリが特定される。改良される場合、トークンのその組み合わせ、またはトークンに関するその新しい定義を可能な新しい辞書エントリとして提示することができる。
 例えば、構文解析ツリーを検査して、構文解析ツリーが名詞複合語(noun compound)として知られるマルチワードフレーズ(multi−word phrase)を含むかどうかを判定することができる。そのような句は、一緒に単一の事項を表わす2つまたはそれより多くの語を含む。例えば、「dialog box」、「mouse pointer」、および「file name」がそうである。新しい可能な名詞複合語の仮説を立てるのに、構文解析ツリーを検査して、名詞複合語として構文解析されたマルチワードフレーズが存在するかどうかを調べる。存在し、その名詞複合語が辞書の中に存在しない場合、その名詞複合語が、辞書に追加されるべき新しい可能な複数語エントリとして特定される。
 ステップ302で、可能な新しい辞書エントリが特定されると、新しいエントリを表わす構文解析トークンが、辞書仮説コーディネータ450によってシーディング(seeding)ユニット405に提供される。このトークンは、可能な新しいエントリに関連する1つまたは複数の語、ならびにその語に関する品詞、およびその語がとる可能性がある論法などの、サブカテゴリ化(sub−categorization)情報を含む。辞書仮設コーディネータ450によって提供されるトークンに対する代替を表わすトークンを含め、テキストセグメントの残りの部分に関するトークンが、擬似事実および名前付きエンティティユニット404によって提供される。辞書の中の既存の語に関する潜在的な新しい品詞がテストされている場合、各品詞に関して別個のトークンがシーディングユニット405に提供されることに留意されたい。
 シーディングユニット405は、自らが受け取る各トークンにスコアを付けて、そのトークンが最終構文解析の中に入る確率を示す。誤ったエントリが辞書の中に導入される確率を小さくするため、シーディングユニット405は、ステップ304で仮説コーディネータ450によって提供されたトークンに低いスコアを割り当てる。これにより、この提案のエントリが不利にされ、この提案のエントリは、満足の行く構文解析を提供するその他のトークンが用意されていない場合にだけ、最終の構文解析の中で出現する。次に、各トークン、および各トークンのスコアが、ステップ306で、開始ノードとして候補リスト406の中に挿入される。
 次に、ステップ307で、構文解析ツリーが反復プロセスを介して構成される。各回の反復中、単一の候補ノードが、ノードセレクタ407によって候補リスト406からノードチャート408に起用される。通常、これは、最高スコアを有するノードを先に起用することによって行われる。起用されたノードは、次に、規則エンジン409によって規則文法410における規則に照らしてテストされ、その規則の1つを使用して起用されたノードをより高いレベルのノードに変換することが可能かどうかが調べられる。これは、単一の要素から成る規則を起用されたノードに単独で適用することによって、または起用されたノードをノードチャート408の中のノードの1つまたは複数と組み合わせる規則を適用することによって行われることが可能である。
 テスト中、考慮されているノードのフレーズタイプが、規則によって必要とされるフレーズタイプと比較される。例えば、規則は、動詞句と名詞句を取り上げてより大きい動詞句を形成するかもしれない。そのような規則の場合、その規則の条件が満たされるには、起用されたノードと、ノードチャートの中の少なくとも1つの他のノードによって名詞句のフレーズタイプと動詞句のフレーズタイプが提供されなければならない。適切なフレーズタイプがノードチャートの中に存在しない場合、規則セットの中の次の規則が調べられる。
 いくつかの実施形態では、規則は、フレーズタイプを超えたさらなる条件を有することに留意されたい。例えば、規則により、名詞句と動詞句の間で数の一致(単数または複数)が要求されることが可能である。さらに、規則により、構成ノードの1つまたは複数に関して特定のフレーズレベルが要求されることが可能である。
 ノードチャートがある規則を満たすノードを含むとき、その規則が実行されて新しいノードが形成される。この実行は、ノードの構造を記述する1組の属性、およびそのノードによって表わされる節の中で見出される関係を定義する属性を判定することを含む。例えば、節の中の主語、目的語、間接目的語、および主動詞(head verb)の見出し語形態、ならびにそのノードが範囲とする最初のトークンおよび最後のトークンが判定されることが可能である。
 次に、規則を実行することによって形成された新しいノードに、メトリック計算器(metric calculator)412を使用してスコアが付けられる。次に、ノードに割り当てられたスコアが、存在すれば、どのノードを次にチャートに起用するかを判定するのに使用される。多数の異なるメトリック(metric)の任意のものを使用してノードにスコアを付けることができる。例えば、ノードタイプの頻度、ノードに関連する主要語(headword)、ノードのフレーズレベル、およびノードの構文上の履歴(syntactic history)をすべて使用することが可能である。SGM(Statistical Grammer Metric)として知られる1つのタイプのメトリックは、前掲のファクタの1つまたは複数のに関連する確率に基づいてノードに関するスコアを判定する。
 スコアが付けられたノードは、候補リスト406に挿入される。一部の実施形態では、候補リスト406は、各ノードのスコアに基づいてソートされ、最高スコアを有するノードが候補リストの先頭に来るようにする。次回の反復の開始時に、この先頭の候補ノードが、ノードチャートに起用される。
 前述した反復は、入力セグメント全体にわたる1つまたは複数のノードがノードチャート408の中に形成されるまで続けられる。次に、以上の最終ノードの少なくとも1つが、構文解析ツリー414として選択される。
 ステップ308で、辞書仮説コーディネータ450が構文解析ツリー414を検査して、可能な新しい辞書エントリに関するトークンが構文解析ツリーの一部を形成しているかどうかを判定する。トークンが、構文解析ツリーの一部を形成していない場合、そのエントリは、辞書に追加されず、プロセスは、ステップ300に戻り、次のテキストセグメントが選択される。
 ステップ308で、トークンが構文解析ツリー414の一部を形成している場合、辞書仮説コーディネータ450が、辞書452の中のトークンに関連するエントリを探索する。一部の実施形態では、エントリは、辞書の中に存在するが、アクティブではないことが可能である。これは、そのエントリが、以前に最終の構文解析を形成するのに使用されているが、辞書の中のそのアクティブなエントリを正当化するだけ十分な回数、使用されていない場合に生じる。アクティブでないエントリは、「トークン生成、モフォロジおよび品詞タガー」ユニット、または擬似事実および名前付きエンティティユニットによって使用されない。
 エントリは、ステップ310で辞書の中にない場合、ステップ312で辞書に追加され、非アクティブなものとしてマークが付けられる。ステップ312の後、プロセスは、ステップ300に進み、次のテキストセグメントが選択される。
 本発明のほとんどの実施形態では、エントリは、領域特有の辞書456に追加される。これにより、医学、コンピュータサイエンス、または政治などの特定の領域に関連するテキストを構文解析するのに使用することができる特殊化された辞書の自動的な生成が可能になる。処理されているテキストに応じて、適切な領域特有の辞書をすべての領域で使用される一般的な辞書とマージすることができる。このマージ中、領域特有の辞書の中の属性が、一般的な辞書の中の属性よりも優先される。ただし、属性が矛盾しない場合、領域特有の辞書と一般的な辞書の両方の中の属性を構文解析中に使用することが可能である。
 エントリが既に辞書の中にある場合、そのエントリが最終の構文解析の中で出現した回数を示すカウントが、ステップ314で増分される。ステップ316で、このカウントが、しきい値と比較されて、エントリが、辞書の中のそのアクティブなエントリを正当化するだけ十分な数の最終の構文解析の中で出現したかどうかが判定される。エントリは、十分な数の構文解析の中で出現していない場合、非アクティブなままになり、プロセスは、ステップ300に戻る。エントリは、十分な数の構文解析の中で出現している場合、ステップ318でアクティブに設定され、プロセスは、ステップ300に戻る。
 一実施形態では、異なるタイプのエントリに関して異なるしきい値が使用される。詳細には、エントリは、辞書の中の新しい語を表わす場合、辞書の中の既存の語に関する新しい属性または新しいサブカテゴリ化を表わす場合よりも、低いしきい値を有する。
 エントリがアクティブにされた後、そのエントリを次のテキストセグメントの、トークン生成中、モフォロジ、品詞タグ付け中、および名前付きエンティティ特定中に使用できることに留意されたい。したがって、辞書は、コーパスの中のすべてのテキストセグメントの構文解析が済むまで待ってから変更されるのではなく、テキストコーパスの構文解析中に動的に変更される。
 これにより、本発明に利点が提供される。というのは、新しいエントリをより早く使用することが可能になり、これにより、現行のコーパスの中でテキストのよりよい構文解析が達せられ、辞書に加える追加のエントリの仮説を立てることが可能になるからである。
 辞書にエントリを動的に追加することにより、新しいエントリを、そのエントリが存在している可能性を推測させるだけ十分な手掛りを与えないテキストセグメントの中で識別することが可能になるため、よりよい構文解析が可能になる。例えば、あるテキストセグメントに関する最良の構文解析が、ある特定の語の動詞形を含むが、テキストセグメントが、その語の動詞形を識別するのを可能にするだけ十分な文脈情報を与えない場合、その語の動詞形に関するエントリを含むように辞書を更新することにより、そのテキストに関する最良の構文解析を実現することが可能になる。
 また、辞書を動的に更新することにより、テキストを解析するためのより多くの情報が提供されるため、より多くの辞書エントリを特定することが可能になる。詳細には、辞書を更新することにより、ある文においてパーサが行わなければならない推測の回数が少なくなる。各回の推測に関連するトークンには、候補リストに入れられるときに低いスコアが与えられるので、特定の構文解析構造に関連する推測の回数を減らすことにより、構文解析が形成される可能性が高まる。したがって、本発明では、新たに追加されたエントリを使用して、辞書への別の可能な追加を含む文を構文解析することができる。新たに追加されたエントリには、候補リストに入れられるときに、推測されたエントリよりも高いスコアが与えられるため、新たに追加されたエントリが辞書に入れられなかった場合よりも、可能な追加を含む構文解析が生成される可能性が高い。したがって、図3で前述したとおり、辞書を動的に更新することにより、辞書へのより多くの可能な追加が特定される。
 本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことが可能であることが、当業者には認められよう。
本発明の実施形態の一般的なコンピューティング環境を示すブロック図である。 本発明の実施形態のモバイルデバイスを示すブロック図である。 本発明の実施形態の辞書を拡張する方法を示すフローチャートの図である。 本発明の実施形態の構文解析システムを示すブロック図である。
符号の説明
 402 入力テキストセグメント
 403 トークン生成、モフォロジおよび品詞タグ付けユニット
 404 擬似事実および名前付きエンティティユニット
 405 シーディングユニット
 406 候補リスト
 407 ノードセレクタ
 408 ノードチャート
 409 規則エンジン
 410 規則文法
 412 メトリック計算器
 414 構文解析ツリー
 450 辞書仮説コーディネータ
 452、454、456 辞書

Claims (11)

  1.  テキストの第1のセグメントに基づいて辞書の可能な新しいエントリの仮説を立てるステップと、
     前記可能な新しいエントリを使用してテキストの前記第1のセグメントの正常な構文解析を形成するステップと、
     前記正常な構文解析に基づいて前記新しいエントリを含むように前記辞書を変更するステップと、
     テキストの第2のセグメントを構文解析するために、前記辞書の中の前記新しいエントリを使用するステップと
     を備えたことを特徴とするコーパスの中のテキストを構文解析する方法。
  2.  前記可能な新しいエントリの仮説を立てるステップは、辞書のための新しい語を提案するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
  3.  前記可能な新しいエントリの仮説を立てるステップは、前記辞書の中の既存の語に関する新しい属性を提案するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
  4.  前記辞書を変更するステップは、前記辞書の中の既存のエントリをアクティブにするステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
  5.  前記既存のエントリをアクティブにするステップは、
     前記正常な構文解析に基づいて前記エントリに関連するカウントを増分するステップと、
     前記カウントがしきい値を超えたことを判定するステップと、
     前記カウントが前記しきい値を超えたことに基づいて前記既存のエントリをアクティブにするステップと
     を含むことを特徴とする請求項4に記載のコーパスの中のテキストを構文解析する方法。
  6.  前記カウントがしきい値を超えたことを判定するステップは、前記エントリに基づいて複数の可能なしきい値の中からしきい値を選択するステップを含むことを特徴とする請求項5に記載のコーパスの中のテキストを構文解析する方法。
  7.  前記辞書を変更するステップは、領域特有の辞書を変更するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
  8.  前記第2のセグメントを構文解析するために、前記辞書の中の前記新しいエントリを使用するステップは、
     マージされた辞書を形成するために、前記領域特有の辞書を一般的な辞書とマージするステップと、
     前記第2のセグメントを構文解析するために、前記マージされた辞書を使用するステップと
     を含むことを特徴とする請求項7に記載のコーパスの中のテキストを構文解析する方法。
  9.  前記領域特有の辞書と前記一般的な辞書をマージするステップは、前記マージされた辞書の中の語に関する属性を、前記属性のいくつかが前記領域特有の辞書に由来し、前記属性のいくつかが前記一般的な辞書に由来するように指定するステップを含むことを特徴とする請求項8に記載のコーパスの中のテキストを構文解析する方法。
  10.  前記新しいエントリを使用するステップは、
     テキストの前記第2のセグメントに基づいて第2の可能な新しいエントリの仮説を立てるステップと、
     前記新しいエントリおよび前記第2の可能な新しいエントリを使用して正常な構文解析を形成するステップと、
     前記第2の可能な新しいエントリを含むように前記辞書を変更するステップと
     を含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
  11.  テキストセグメントの中の語に関する、テキストセグメントから構文解析構造を形成するのに使用された辞書の中の前記語に関してリストされていない、可能な属性の仮説を立てるステップと、
     前記語に関する前記可能な属性に基づいて構文解析トークンを生成するステップと、
     前記テキストセグメントに関する構文解析構造を形成するために、前記構文解析トークンを使用するステップと、
     前記構文解析構造の中で出現する前記構文解析トークンに基づき、前記語に関する前記可能な属性を、構文解析構造を形成するのに使用される辞書に追加するステップと、
     第2のテキストセグメントに関する構文解析構造を形成するステップの一環として、前記辞書の中の前記語に関する前記可能な属性を取り出すために、前記辞書にアクセスする
    ステップと
     を行うためのコンピュータ実行可能命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
JP2003293466A 2002-08-15 2003-08-14 コーパスの中のテキストを構文解析する方法および記録媒体 Pending JP2004078962A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/219,752 US7158930B2 (en) 2002-08-15 2002-08-15 Method and apparatus for expanding dictionaries during parsing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007322113A Division JP2008108274A (ja) 2002-08-15 2007-12-13 コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2004078962A true JP2004078962A (ja) 2004-03-11

Family

ID=31714791

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003293466A Pending JP2004078962A (ja) 2002-08-15 2003-08-14 コーパスの中のテキストを構文解析する方法および記録媒体
JP2007322113A Pending JP2008108274A (ja) 2002-08-15 2007-12-13 コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007322113A Pending JP2008108274A (ja) 2002-08-15 2007-12-13 コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体

Country Status (3)

Country Link
US (1) US7158930B2 (ja)
EP (1) EP1396794A3 (ja)
JP (2) JP2004078962A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020531953A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化型字句解析

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
US20060101018A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US20070005345A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Generating Chinese language couplets
US7941418B2 (en) * 2005-11-09 2011-05-10 Microsoft Corporation Dynamic corpus generation
DE102005062512B4 (de) * 2005-12-27 2009-06-04 Vodafone Holding Gmbh Verfahren zum Erzeugen und Abspeichern von Worten und/oder Wortbestandteilen in einem mobilen Endgerät sowie mobiles Endgerät
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
US8238351B2 (en) * 2006-04-04 2012-08-07 Unisys Corporation Method for determining a most probable K location
GB0611303D0 (en) * 2006-06-08 2006-07-19 Ibm A method, apparatus and software for selecting terms for a glossary in a document processing system
FI20060995A0 (fi) * 2006-11-13 2006-11-13 Tiksis Technologies Oy Luonnollisen kielen käsittely
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
WO2008151465A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
US7962507B2 (en) * 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储系统及中医症状信息存储方法
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
GB2506807A (en) * 2011-07-29 2014-04-09 Trustees Of Columbia In The City Of New York System and method for language extraction and encoding
US9710431B2 (en) 2012-08-18 2017-07-18 Health Fidelity, Inc. Systems and methods for processing patient information
US9875319B2 (en) * 2013-03-15 2018-01-23 Wolfram Alpha Llc Automated data parsing
US10438221B2 (en) 2013-06-24 2019-10-08 Circupon System and method to match sales with coupons
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
RU2595531C2 (ru) * 2014-04-21 2016-08-27 Общество С Ограниченной Ответственностью "Яндекс" Способ и система генерирования определения слова на основе множественных источников
US10360301B2 (en) * 2016-10-10 2019-07-23 International Business Machines Corporation Personalized approach to handling hypotheticals in text
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
CN111951782A (zh) * 2019-04-30 2020-11-17 京东方科技集团股份有限公司 语音问答方法及装置、计算机可读存储介质和电子设备
US20230111052A1 (en) * 2021-10-13 2023-04-13 International Business Machines Corporation Self-learning annotations to generate rules to be utilized by rule-based system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0850588A (ja) * 1994-08-08 1996-02-20 Matsushita Electric Ind Co Ltd 未知語登録装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5251316A (en) * 1991-06-28 1993-10-05 Digital Equipment Corporation Method and apparatus for integrating a dynamic lexicon into a full-text information retrieval system
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
US7254530B2 (en) * 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0850588A (ja) * 1994-08-08 1996-02-20 Matsushita Electric Ind Co Ltd 未知語登録装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020531953A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化型字句解析
JP7044448B2 (ja) 2017-08-17 2022-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 領域特化型字句解析

Also Published As

Publication number Publication date
EP1396794A3 (en) 2007-12-12
EP1396794A2 (en) 2004-03-10
US20040034525A1 (en) 2004-02-19
JP2008108274A (ja) 2008-05-08
US7158930B2 (en) 2007-01-02

Similar Documents

Publication Publication Date Title
US7158930B2 (en) Method and apparatus for expanding dictionaries during parsing
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP4491187B2 (ja) 単語間の翻訳関係を計算する方法
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
KR101130384B1 (ko) 태그 데이터를 갖는 풀-폼 어휘집 및 이를 구축하고이용하는 방법
KR101120798B1 (ko) 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치
US7447627B2 (en) Compound word breaker and spell checker
US6965857B1 (en) Method and apparatus for deriving information from written text
US7113905B2 (en) Method and apparatus for determining unbounded dependencies during syntactic parsing
US7599828B2 (en) Grammatically correct contraction spelling suggestions for french
US20020123877A1 (en) Method and apparatus for performing machine translation using a unified language model and translation model
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2005285129A (ja) 論理形式のための統計的言語モデル
US20050234704A1 (en) Using wildcards in semantic parsing
JP2008539476A (ja) スペル提示の生成方法およびシステム
US7398210B2 (en) System and method for performing analysis on word variants
US7634398B2 (en) Method and apparatus for reattaching nodes in a parse structure
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
US20020152246A1 (en) Method for predicting the readings of japanese ideographs
US8041556B2 (en) Chinese to english translation tool
US7475006B2 (en) Method and apparatus for parsing text using mutual information
JPH0721183A (ja) 機械翻訳装置
Srinivas et al. An approach to robust partial parsing and evaluation metrics
TW548600B (en) Method and system for identifying attributes of new words in non-segmented text
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071213

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20071214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071214

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080125

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080208

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100528