JP2009500754A - 文書中のコロケーション誤りを処理すること - Google Patents

文書中のコロケーション誤りを処理すること Download PDF

Info

Publication number
JP2009500754A
JP2009500754A JP2008520339A JP2008520339A JP2009500754A JP 2009500754 A JP2009500754 A JP 2009500754A JP 2008520339 A JP2008520339 A JP 2008520339A JP 2008520339 A JP2008520339 A JP 2008520339A JP 2009500754 A JP2009500754 A JP 2009500754A
Authority
JP
Japan
Prior art keywords
sentence
query
generating
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008520339A
Other languages
English (en)
Other versions
JP5362353B2 (ja
JP2009500754A5 (ja
Inventor
ホン シャオ−ウーエン
ガオ チェンフェン
チョウ ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009500754A publication Critical patent/JP2009500754A/ja
Publication of JP2009500754A5 publication Critical patent/JP2009500754A5/ja
Application granted granted Critical
Publication of JP5362353B2 publication Critical patent/JP5362353B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

文にアクセスし、その文に基づいて少なくとも1つのクエリを生成する。少なくとも1つのクエリが、例えばウェブ検索エンジンを使用して、文書のコレクション内のテキストと比較されることが可能である。その文中のコロケーション誤りが、その少なくとも1つのクエリと文書のコレクション内のテキストとの比較に基づいて検出され、かつ/または訂正されることが可能である。

Description

以下の説明は、単に、一般的な背景情報として提供され、主張される主題の範囲を確定する助けとして使用されることを意図するものではない。
成長の一途をたどるグローバル経済、およびインターネットの急速な発展とともに、世界中の人々が、その人々の母語ではない言語で書くことにますます慣れ親しんでいる。残念ながら、大きく異なる文化および文体を有する、いくつかの社会に関して、いくつかの母語ではない言語で書く能力は、常に存在する障壁である。母語ではない言語(例えば、英語)で書く際、言語使用の誤りが、ノンネイティブスピーカ(例えば、中国語、日本語、韓国語その他の英語ではない他の言語を話す人々)によって頻繁に犯される。この種の誤りには、文法上の誤りと、動詞−目的語、形容詞−名詞、副詞−動詞等のコロケーションの不適切な使用の両方が含まれる。
多くの人々は、適切な文法を使用して母語ではない言語で書く能力を有するが、それらの人々は依然として、2つの語の間のコロケーションの誤りに苦労する可能性がある。さらに他の人々は、文法と、2つの語の間のコロケーションなどの他の誤りとの両方に苦労する。スペルチェックプログラムおよび文法チェックプログラムが文法上の誤りを訂正するのに役立つとはいえ、2つの語の間のコロケーションの誤りの検出および/または訂正は、特にこれらの誤りがその他の点で文法的に正しい可能性があるので、困難である可能性がある。したがって、文法チェッカは通常、語の間のコロケーションと関係する誤りを検出するのに全くと言っていいほど助けとならない。以下の説明において、母語ではない言語の例として英語が使用されるが、以上の問題は、他の言語境界にも存在する。
例えば、その他の点で文法的に正しい場合でも、文をネイティブらしい英語でなくするコロケーション誤りを含む、以下の文を考える。すなわち、
1.Open the light.
2.Everybody hates the crowded traffic on weekends.
3.This is a check of US$500.
4.I congraturate you for your success.
以上の文のネイティブらしい英語のバージョンは、以下のようでなければならない。すなわち、
1.Turn on the light.
2.Everybody hates the heavy traffic on weekends.
3.This is a check for US$500.
4.I congraturate you on your success.
である。
英語を母語としない話者が直面する障壁の例として、中国人ユーザの窮状を検討されたい。文化、背景、および考え方の習慣により、中国人はしばしば、文法的ではあるが自然ではない英文を作る。例えば、中国人は、中国語の主語を英語の主語に直接に翻訳し、目的語および動詞に関しても、同じことを行う傾向がある。英語で書く際、中国人は、しばしば、動詞と前置詞の間、形容詞と名詞の間、動詞と名詞の間等のコロケーションを決定するのに困難を覚える。さらに、ビジネス分野等の特定の分野では、特別なライティングスキル及びライティングスタイルが必要とされる。
一般的な辞書は、リーディング(一種の復号プロセス)の目的でノンネイティブスピーカによって主に使用されるが、これらの辞書は、ライティング(一種の符号化プロセス)のための十分な支援を提供しない。これらの辞書は、単一の語の説明を提供するだけであり、通常、関係のある句およびコロケーションを説明する十分な情報を提供しない。さらに、この種の情報を、その情報のいくらかが辞書において提供されている場合でさえ、辞書から簡単に得る方法が存在しない。他方、現在広く使用されている文法チェックツールは、犯しやすい文法上の誤りを検出する、いくらかの限られた能力を有するが、コロケーション誤りを検出することができない。
この概要は、発明を実施するための最良の形態において後述されるいくつかの概念を簡略化された形で導入するために提供される。この概要は、主張される主題の重要な特徴または不可欠な特徴を特定することを意図しておらず、また、主張される主題の範囲を確定する助けとして使用されることも意図していない。
文がアクセスされ、少なくとも1つのクエリが、前記文に基づいて生成される。前記少なくとも1つのクエリは、例えばウェブ検索エンジンを使用して、ある文書コレクション内のテキストと比較されることが可能である。前記文中のコロケーション誤りが、前記少なくとも1つのクエリと前記文書コレクション内のテキストとの比較に基づき、検出され、かつ/または訂正されることが可能である。
図1は、本発明を実施することができる適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の用法または機能の範囲について何ら限定を示唆することを意図していない。また、コンピューティング環境100が、例示的な動作環境100に示されるコンポーネントのいずれの1つ又は組合せに関連する依存関係または要件も有すると解釈してはならない。
本発明は、他の多数の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成で動作する。本発明で使用するのに適する可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、これらに限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、以上のシステム又はデバイスのいずれかを含む分散コンピューティング環境等が含まれる。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行する又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等が含まれる。また本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される、分散コンピューティング環境で実施してもよい。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方の中に配置されることが可能である。プログラムおよびモジュールによって実行されるタスクについては、後段で、図の助けを借りて説明する。当業者は、任意の形のコンピュータ読み取り可能な媒体上に書き込むことが可能なプロセッサ実行可能命令として、説明および図を実施することができる。
図1を参照すると、本発明を実施するための例示的システムは、コンピュータ110の形で汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントには、これらに限定されないが、処理装置120、システムメモリ130、及びシステムメモリを含む様々なシステムコンポーネントを処理装置120に結合するシステムバス121が含まれる。システムバス121は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含め、いくつかのタイプのバス構造のいずれであってもよい。例として、限定としてではなく、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は通常、様々なコンピュータ読み取り可能な媒体を備える。コンピュータ読み取り可能な媒体は、コンピュータ110がアクセスすることができる任意の利用可能な媒体であることが可能であり、揮発性媒体と不揮発性媒体、リムーバブルな媒体とノンリムーバブルな媒体がともに含まれる。例として、限定としてではなく、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体および通信媒体を含むことが可能である。コンピュータ記憶媒体には、コンピュータ読み取り可能な命令、データ構造、プログラムモジュールその他のデータなどの情報の格納のために任意の方法または技術で実装された、揮発性および不揮発性の、リムーバブルおよびノンリムーバブルな媒体が含まれる。コンピュータ記憶媒体には、これらに限定されないが、RAM、ROM、EEPROM、フラッシュメモリその他のメモリ技術、CD−ROM、DVD(デジタルバーサタイルディスク)その他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージその他の磁気記憶装置、または所望の情報を格納するのに使用することができ、コンピュータ110がアクセスすることができる他の任意の媒体が含まれる。通信媒体は通常、搬送波等の変調されたデータ信号の中に、または他のトランスポート機構で、コンピュータ読み取り可能な命令、データ構造、プログラムモジュールその他のデータを実体化し、通信媒体には、あらゆる情報配信媒体(information delivery media)が含まれる。「変調されたデータ信号」という用語は、信号内に情報を符号化するように特性の1つ又は複数が設定または変更されている信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接有線接続等の有線媒体、および音響媒体、RF媒体、赤外線媒体その他の無線媒体等の無線媒体が含まれる。また、以上の媒体のいずれかの媒体の組合せも、コンピュータ読み取り可能な媒体の範囲内に含められなければならない。
システムメモリ130は、ROM(読み取り専用メモリ)131やRAM(ランダムアクセスメモリ)132などの揮発性メモリおよび/または不揮発性メモリの形で、コンピュータ記憶媒体を備える。起動中等に、コンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(基本入出力システム)133が、通常ROM131の中に格納される。RAM132は通常、処理装置120が、即時にアクセスすることができ、かつ/または現在、処理しているデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図1は、オペレーティングシステム134、アプリケーションプログラム135その他のプログラムモジュール136、およびプログラムデータ137を示している。
またコンピュータ110は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性のコンピュータ記憶媒体も備えることが可能である。単に例として、図1は、ノンリムーバブルな不揮発性の磁気媒体に対して読み取り又は書き込みを行うハードディスクドライブ141、リムーバブルな不揮発性の磁気ディスク152に対して読み取り又は書き込みを行う磁気ディスクドライブ151、およびCD−ROMその他の光媒体等のリムーバブルな不揮発性の光ディスク156に対して読み取り又は書き込みを行う光ディスクドライブ155を示している。例示的動作環境において使用することができる、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性のコンピュータ記憶媒体には、これらに限定されないたが、磁気テープカセット、フラッシュメモリカード、DVD、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は通常、インタフェース140のようなノンリムーバブルなメモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インタフェース150のようなリムーバブルなメモリインタフェースでシステムバス121に接続される。
前述し図1に示したドライブ及び関連するコンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュールその他のデータのストレージをコンピュータ110に提供する。図1では例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納しているものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同一であることも異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には、少なくともそれらが異なるコピーであることを示すために、異なる符号を与えている。
ユーザは、キーボード162、マイクロホン163、および、マウス、トラックボール又はタッチパッドなどのポインティングデバイス161などの入力デバイスを介して、コマンドおよび情報をコンピュータ110に入力することができる。他の入力デバイス(図示せず)としては、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含めることが可能である。これら及びその他の入力デバイスはしばしば、システムバスに結合されたユーザ入力インタフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、またはUSB(ユニバーサルシリアルバス)などの、他のインタフェースおよびバス構造で接続してもよい。また、モニタ191その他のタイプのディスプレイデバイスも、ビデオインタフェース190のようなインタフェースを介してシステムバス121に接続される。モニタに加え、コンピュータは、出力周辺インタフェース190を介して接続することができる、スピーカ197やプリンタ196などの、他の周辺出力デバイスも備えることが可能である。
コンピュータ110は、リモートコンピュータ180のような1つ又は複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスその他の一般的なネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く又はすべてを備える。図1に示した論理接続には、LAN(ローカルエリアネットワーク)171およびWAN(ワイドエリアネットワーク)173が含まれるが、他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット及びインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインタフェース又はアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は通常、インターネットなどのWAN173を介して通信を確立するためのモデム172または他の手段を備える。内部にあることも外部にあることも可能なモデム172は、ユーザ入力インタフェース160その他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関連して示したプログラムモジュール又はプログラムモジュールの部分は、リモートメモリ記憶装置の中に格納することができる。限定ではなく例として、図1は、リモートアプリケーションプログラム185が、リモートコンピュータ180上に存在するものとして示す。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることを理解されたい。
図2は、テキスト内のコロケーション誤り(collocation error)を検出して訂正するためのシステム200の流れ図である。多くのタイプのコロケーション誤りが存在する。システム200の一態様では、4つのタイプのコロケーション誤りが検出される。コロケーション誤りのタイプには、以下が含まれる。すなわち、
1.動詞−名詞(VN、例えば、learn/acquire knowledge)
2.前置詞−名詞(PN、例えば、on/in the morning)
3.形容詞−名詞(AN、例えば、social/socialist country)、および
4.動詞−副詞(VA、例えば、situations change largely/greatly)
前処理モジュール202が、テキストを処理して、テキストの品詞タグ付け(tagging)および構文解析をもたらす。多くの異なるタイプのパーサを、テキストを処理するのに使用することが可能である。以下は、例示的な文である。
I have recognized this person for years.
前処理モジュール202が、この文にタグ付けを行い、この文を以下のとおりに切り分ける。
[NP I/PRP][VP have/VBP recognized/VBN][NP this/DT person/NN][PP for/IN][NP years. </s>/NNS]
この処理済みのテキストを使用して、クエリ生成モジュール204が、クエリを構築する。一例では、4つのクエリセットが、先に特定されたコロケーション誤りタイプの各タイプに関して生成される。例えば、コロケーション誤りタイプは、動詞−名詞、前置詞−名詞、形容詞−名詞、および動詞−副詞であることが可能である。生成されるクエリは、文のフルテキストと共に、補助が削除された文の短縮された部分も含むことが可能である。前掲の文に関する例示的な短縮されたクエリには、「have recognized this person」、「have recognized」、「this person」、および「recognized person」を含めることが可能である。
クエリは、検索モジュール206にサブミットされる。一実施形態では、検索モジュールは、MSN(登録商標) Search(search.msn.com)、Google(登録商標)(www.google.com)、および/またはYahoo!(登録商標)(www.yahoo.com)などのウェブベースの検索エンジンであることが可能である。ウェブは、膨大な量のテキストを含むので、コロケーション誤りを検出する安価なリソースであることが可能である。誤り検出モジュール208が、クエリ生成モジュール204によって生成されたクエリを、検索モジュール206によって獲得された結果と比較する。誤り訂正モジュール210が、誤り検出モジュール208によって識別された誤りに関する候補訂正を提供する。
図3は、図2に示されるシステム200において実施することが可能な方法220の流れ図である。ステップ222で、文にアクセスする。文には、ワードプロセッサ、例えば、ワシントン州リッチモンドのマイクロソフトコーポレーションから入手可能なMicrosoft Word(登録商標)に入力されているテキストが含まれてもよい。ステップ224で、その文を構文解析してチャンク(chunk)にし、文中の品詞が識別される。次に、ステップ226で、その構文解析に基づいてクエリを生成する。ステップ228で、クエリを、MSN(登録商標) Search、Google(登録商標)および/またはYahoo!(登録商標)等の検索エンジンにサブミットする。ステップ230で、文中のコロケーション誤りが、それらのクエリと検索エンジンからの結果とを比較することにより検出される。誤りを検出した後、ステップ232で、コロケーション誤りの代替物のランク付けされた候補をユーザに提示する。
図4は、図2のクエリ生成モジュール204のブロック図である。クエリ生成モジュール204は、構文解析済みの文240、例えば前処理モジュール202から受け取る構文解析済みの文を受け入れる。構文解析済みの文240に基づき、クエリ生成モジュール204は、文クエリ242、チャンククエリ244、および語クエリ246を生成する。先に特定された可能なコロケーション誤りのタイプを所与として、検査語(checking word)(すなわち、コロケーション誤りを生じさせる可能性がある語)を、以下のとおり検出する。すなわち、タイプVNにおける動詞、タイプPNにおける前置詞、タイプANにおける形容詞、およびタイプVAにおける副詞である。タイプに応じて、クエリ生成モジュール204は、異なるクエリセットを以下のとおり生成する。すなわち、
1.文クエリ242:S−Queryと呼ばれる、元の文と(各タイプに関して予め定められたされた補助(auxiliary)を削除することにより)短縮された文
2.チャンククエリ244:C−Queryと呼ばれる、文中の対応するチャンクペア、および
3.語クエリ246:W−Queryと呼ばれる、文中の対応する主要語(headword)ペア
である。
タイプVN検出のための、文「I have recognized this person for years」に対する例示的クエリが以下に提示される。〜は、2つの隣接する語が、互いに隣接しているか又は1語離れていることが可能であることを意味する。
S−Query:[“I have recognized this person for years”]
S−Query:[“have recognized this person”]
C−Query:[“have recognized”〜“this person”]
W−Query:[“recognized”〜“person”]
各タイプのクエリを生成するための例示的規則は、以下のとおりである。すなわち、
VN:複数のS−Query、1つのC−Query V〜N、および1つのW−Query V〜N(Nは、対応する名詞チャンクの主要語を表す。)、
PN:前置詞を含む、PNの1つのC−Query、
AN:ANペアを含む、ANの1つのC−Query、および
VA:VAペアを含む複数のC−Query、およびVA主要語を含む複数のW−Query
である。
図5は、ある文中の誤りを検出する方法250の流れ図である。クエリ生成モジュール204によって生成されたクエリが、ステップ251で、検索モジュール206にサブミットされる。検索モジュール206によって獲得された検索結果が、それらのクエリと比較される。一例では、それらの結果には、ウェブ検索エンジンを使用して取得された文書に関するテキストの要約が含まれる。ステップ252で、クエリ生成モジュール204からの複数のSクエリ242が、検索モジュールからの結果と比較される。次に、ステップ254で、Sクエリ242の1つ又は複数が、検索モジュール結果と一致するか否かについての判定が行われる。Sクエリの1つ又は複数が、検索モジュール結果と一致した場合、ステップ256で、コロケーション誤りは全く存在しないものと判定される。
しかし一致が存在しない場合、方法250はステップ258に進み、複数のCクエリ244が、検索モジュール結果と比較される。ステップ260で、Cクエリの1つ又は複数が、検索モジュール結果とよく一致するか否か、およびその比較に関するスコアが閾値より大きいか否かが判定される。一例では、このスコアは、Cクエリのチャンクが、検索結果の中で出現する回数を、Cクエリの中の語がそれらの検索結果の中で同時に出現する回数で割ることによって計算される。そのスコアが、閾値より大きい場合、ステップ256で、コロケーション誤りは全く存在しないものと判定される。
そのスコアが、閾値未満である場合、方法250はステップ262に進み、複数のW−Queryが、検索エンジンデータと比較される。ステップ264が、それらのWクエリと検索エンジンデータの間に、よい一致が存在するか否か、および、その比較に関するスコアが、閾値より大きいか否かを判定する。スコアが閾値より大きい場合、ステップ256で、コロケーション誤りは全く存在しないものと判定される。この比較に関するスコアは、C−Query比較スコアと同様であることが可能である。このため、W−Query比較スコアは、W−Queryが検索結果の中で出現する回数を、W−Queryの中の語ペアが同時に出現する合計回数で割ることによって計算することが可能である。そのスコアが閾値未満である場合、方法250はステップ266に進み、ユーザが可能なコロケーション誤りについての通知を受ける。
図6は、可能な訂正済みのコロケーションをユーザに提示するための方法270の流れ図である。ステップ272で、クエリテンプレートが生成される。クエリテンプレートは、誤りとして識別された語に基づいて生成される(すなわち、前述した検査語は、図5の方法250により判定したコロケーション誤りを含む。)。クエリテンプレートは、コロケーション誤りを生じさせる検査語が「+」で置き換えられた後の入力文から導出される。前出の文において、「recognized」が、検査語として識別されており、このため、クエリテンプレートはこの語に基づいて展開される。例えば、VN検出のための、文「I have recognized this person for years」のクエリテンプレートは、以下のとおりである。+は、任意の語を表す。
S−QT:[“I have+this person for years”]
S−QT:[“I have+this person”]
S−QT:[“have+this person for years”]
S−QT:[“I have+this person”]
C−QT:[“+this person for years”]
C−QT:[“+this person”]
クエリテンプレートを生成するための例示的な規則は、以下のとおりであることが可能である。そなわち、
VN:S−QT、C−QT(動詞が+で置き換えられている。)、
PN:S−QT、C−QT(前置詞が+で置き換えられている。)、
AN:S−QT、C−QT(形容詞が+で置き換えられている。)、および
VA:S−QT、C−QT(副詞が+で置き換えられている。)
である。
ステップ274で、クエリテンプレートが、検索モジュールに、本明細書では検索エンジンにサブミットされる。ステップ276で、検索エンジン結果からの文字列が取得される。それらの文字列は、取り巻く文脈の語を有するテキストの要約を含むことが可能である。クエリテンプレートと一致する文字列であって、+の位置は、任意の1つの語であることが可能な文字列が、文字列候補として識別される。そのコロケーション(+に取って代わる語、およびコロケーションタイプに応じた文字列の中の別の語によって形成される)を含まない候補が、ステップ278で削除される。残りの候補は、文字列候補と一致したクエリテンプレートの対応する重みに基づくスコアに応じて、ランク付けされる。例えば、クエリテンプレートの重みは、そのクエリテンプレートの中の語の数に基づくことが可能である。各候補に関するスコアは、それらの候補を含むすべての要約にわたって重みの合計をとることにより、計算される。候補を取得するクエリテンプレート(QT)に関するスコアは、以下によって表現することが可能である。すなわち、
Figure 2009500754
次に、ステップ280で、ランク付けされた候補リストがユーザに提示される。例えば、ポップアップ・メニューを使用して、ランク付けされたリストが提示されることが可能である。ユーザは、そのリストから選択肢の1つを選び、コロケーション誤りを訂正することができる。
主題を、構造上の特徴および/または方法上の動作に特有の言い回しで説明してきたが、添付の特許請求の範囲において規定される主題は、必ずしも前述した特定の特徴または動作に限定されないことを理解されたい。むしろ、前述した特定の特徴および動作は、請求項を実施する例示的な形態として開示されている。
一般的なコンピューティング環境を示すブロック図である。 コロケーション誤りを検出して、訂正するためのシステムを示す流れ図である。 コロケーション誤りを検出して、訂正するための方法を示す流れ図である。 クエリ生成モジュールを示すブロック図である。 コロケーション誤りを検出するための方法を示す流れ図である。 候補コロケーション訂正を提示するための方法を示す流れ図である。

Claims (17)

  1. 文書中の情報を処理する方法であって、
    前記文書中のテキストの文にアクセスするステップと、
    前記文に基づいて少なくとも1つのクエリを生成するステップと、
    前記少なくとも1つのクエリを、文書のコレクション内のテキストと比較するステップと、
    前記少なくとも1つのクエリと前記文書のコレクション内の前記テキストとの比較に基づき、コロケーション誤りを検出するステップと
    を含むことを特徴とする方法。
  2. 前記文を構文解析して、前記文に含まれる品詞を識別するステップをさらに含み、
    前記少なくとも1つのクエリを生成するステップは、識別された前記品詞に基づくことを特徴とする請求項1に記載の方法。
  3. 前記検出されたコロケーション誤りの代替物の候補を提示するステップをさらに含むことを特徴とする請求項1に記載の方法。
  4. 前記候補をランク付けするステップをさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記コロケーション誤りのタイプは、動詞−名詞、前置詞−名詞、形容詞−名詞、および動詞−副詞の少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  6. ある文を含む文クエリを、前記テキストの文に基づいて生成するステップと、
    前記テキストの文のチャンクを含むチャンククエリを生成するステップと、
    前記テキストの文の主要語ペアを含む語クエリを生成するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  7. 情報を処理する方法であって、
    コロケーション誤りを生じさせる語を含む文にアクセスするステップと、
    前記語を除いた前記文の部分を含む少なくとも1つのクエリを生成するステップと、
    前記少なくとも1つのクエリを検索モジュールにサブミットして、検索結果を獲得するステップと、
    前記検索結果に基づき、前記文中の前記語に対する少なくとも1つの候補置き換え語を識別するステップと
    を含むことを特徴とする方法。
  8. 候補置き換え語のリストを識別するステップと、
    前記リストをランク付けするステップと
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記検索モジュールは、ウェブベースの検索エンジンであることを特徴とする請求項7に記載の方法。
  10. 前記ウェブベースの検索エンジンは、MSN(登録商標) Search、Google(登録商標)、およびYahoo!(登録商標)のうちの少なくとも1つを含むことを特徴とする請求項9に記載の方法。
  11. 前記少なくとも1つのクエリを生成するステップは、前記語を除いた前記文を含む文クエリを生成するステップを含むことを特徴とする請求項7に記載の方法。
  12. 前記少なくとも1つのクエリを生成するステップは、前記語を除いた前記文のチャンクを含むチャンククエリを生成するステップを含むことを特徴とする請求項7に記載の方法。
  13. 前記少なくとも1つのクエリを生成するステップは、前記語を除いた前記文の主要語ペアを含む語クエリを生成するステップを含むことを特徴とする請求項7に記載の方法。
  14. 前記少なくとも1つのクエリを生成するステップは、前記文、前記文のチャンク、および前記文の主要語ペアに基づき、クエリのテンプレートを生成するステップを含むことを特徴とする請求項7に記載の方法。
  15. 文書中の情報を処理する方法であって、
    文にアクセスするステップと、
    前記文を構文解析して、前記文に含まれる品詞を識別するステップと、
    前記識別された品詞に基づき、複数のクエリを生成するステップと、
    前記複数のクエリを検索モジュールにサブミットして、検索結果を獲得するステップと、
    前記複数のクエリと前記検索結果とを比較するステップと、
    前記比較および前記識別された品詞に基づき、前記文中のコロケーション誤りを検出するステップと
    を含むことを特徴とする方法。
  16. 前記複数のクエリは、文を含む文クエリ、前記文のチャンクを含むチャンククエリ、および前記文の主要語ペアを含む語クエリを含むことを特徴とする請求項15に記載の方法。
  17. 前記文を構文解析するステップは、動詞−名詞ペア、前置詞−名詞ペア、形容詞−名詞ペア、および動詞−副詞ペアのうちの少なくとも1つを識別するステップを含むことを特徴とする請求項15に記載の方法。
JP2008520339A 2005-07-08 2006-06-30 文書中のコロケーション誤りを処理すること Expired - Fee Related JP5362353B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/177,136 US7574348B2 (en) 2005-07-08 2005-07-08 Processing collocation mistakes in documents
US11/177,136 2005-07-08
PCT/US2006/026012 WO2007008492A2 (en) 2005-07-08 2006-06-30 Processing collocation mistakes in documents

Publications (3)

Publication Number Publication Date
JP2009500754A true JP2009500754A (ja) 2009-01-08
JP2009500754A5 JP2009500754A5 (ja) 2009-08-06
JP5362353B2 JP5362353B2 (ja) 2013-12-11

Family

ID=37619276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520339A Expired - Fee Related JP5362353B2 (ja) 2005-07-08 2006-06-30 文書中のコロケーション誤りを処理すること

Country Status (10)

Country Link
US (1) US7574348B2 (ja)
EP (1) EP1899835B1 (ja)
JP (1) JP5362353B2 (ja)
KR (1) KR20080023341A (ja)
CN (1) CN101218573A (ja)
AU (1) AU2006269494A1 (ja)
CA (1) CA2614416C (ja)
MX (1) MX2008000176A (ja)
NO (1) NO20080112L (ja)
WO (1) WO2007008492A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US20110055209A1 (en) * 2007-02-23 2011-03-03 Anthony Novac System and method for delivering content and advertisments
KR100978581B1 (ko) * 2008-05-08 2010-08-27 엔에이치엔(주) 웹 페이지 열람 중에 편리하게 사전 서비스를 제공하기위한 방법 및 시스템
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
CN101930594B (zh) * 2010-04-14 2012-05-23 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法
US8725771B2 (en) * 2010-04-30 2014-05-13 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US8484017B1 (en) 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
CN103365838B (zh) * 2013-07-24 2016-04-20 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
US9298695B2 (en) * 2013-09-05 2016-03-29 At&T Intellectual Property I, Lp Method and apparatus for managing auto-correction in messaging
CN103678714B (zh) * 2013-12-31 2017-05-10 北京百度网讯科技有限公司 实体知识库的构建方法和装置
US20160087929A1 (en) * 2014-09-24 2016-03-24 Zoho Corporation Private Limited Methods and apparatus for document creation via email
US10691709B2 (en) 2015-10-28 2020-06-23 Open Text Sa Ulc System and method for subset searching and associated search operators
US10747815B2 (en) 2017-05-11 2020-08-18 Open Text Sa Ulc System and method for searching chains of regions and associated search operators
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
WO2019006550A1 (en) 2017-07-06 2019-01-10 Open Text Sa Ulc SYSTEM AND METHOD FOR VALUE-BASED REGION SEARCH AND RELATED SEARCH OPERATORS
US10824686B2 (en) * 2018-03-05 2020-11-03 Open Text Sa Ulc System and method for searching based on text blocks and associated search operators
US11551006B2 (en) * 2019-09-09 2023-01-10 International Business Machines Corporation Removal of personality signatures

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
GB8625468D0 (en) 1986-10-24 1987-04-15 Smiths Industries Plc Speech recognition apparatus
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5383120A (en) * 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6173298B1 (en) * 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
GB2329047A (en) * 1997-09-05 1999-03-10 Sharp Kk A method of identifying collocates
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
GB2334115A (en) * 1998-01-30 1999-08-11 Sharp Kk Processing text eg for approximate translation
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
GB9821787D0 (en) * 1998-10-06 1998-12-02 Data Limited Apparatus for classifying or processing data
GB0006721D0 (en) * 2000-03-20 2000-05-10 Mitchell Thomas A Assessment methods and systems
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200501044041; 大鹿 広憲 外3名: '検索エンジンを使った翻訳サポートシステムの構築' 情報処理学会研究報告 第2004号第72号, 20040715, p.585-591, 社団法人情報処理学会 *
CSNG200900334098; 大鹿 広憲 外3名: 'Googleを活用した英作文支援システムの構築' DEWS2005論文集 [online] , 20050502, (社)電子情報通信学会データ工学研究専門委員会 *
JPN6011062945; 大鹿 広憲 外3名: '検索エンジンを使った翻訳サポートシステムの構築' 情報処理学会研究報告 第2004号第72号, 20040715, p.585-591, 社団法人情報処理学会 *
JPN6011062948; 大鹿 広憲 外3名: 'Googleを活用した英作文支援システムの構築' DEWS2005論文集 [online] , 20050502, (社)電子情報通信学会データ工学研究専門委員会 *

Also Published As

Publication number Publication date
JP5362353B2 (ja) 2013-12-11
WO2007008492A3 (en) 2007-06-21
AU2006269494A1 (en) 2007-01-18
NO20080112L (no) 2008-02-01
EP1899835B1 (en) 2019-06-26
MX2008000176A (es) 2008-04-02
CA2614416A1 (en) 2007-01-18
CN101218573A (zh) 2008-07-09
EP1899835A2 (en) 2008-03-19
US7574348B2 (en) 2009-08-11
KR20080023341A (ko) 2008-03-13
US20070010992A1 (en) 2007-01-11
CA2614416C (en) 2014-05-27
EP1899835A4 (en) 2017-10-25
WO2007008492A2 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
Maekawa et al. Balanced corpus of contemporary written Japanese
US7970600B2 (en) Using a first natural language parser to train a second parser
US7243305B2 (en) Spelling and grammar checking system
US8285541B2 (en) System and method for handling multiple languages in text
US20120297294A1 (en) Network search for writing assistance
EP2354967A1 (en) Semantic textual analysis
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
Ehsan et al. Grammatical and context‐sensitive error correction using a statistical machine translation framework
Vilares et al. Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval
Mataoui et al. A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews
Garg et al. Maulik: A plagiarism detection tool for hindi documents
Vilares et al. Managing misspelled queries in IR applications
Ganfure et al. Design and implementation of morphology based spell checker
Gamon et al. Search right and thou shalt find... using web queries for learner error detection
Lazarinis et al. Current research issues and trends in non-English Web searching
US7620541B2 (en) Critiquing clitic pronoun ordering in french
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JP4298342B2 (ja) 重要度算出装置
Gamu et al. Morphology‐Based Spell Checker for Dawurootsuwa Language
Vasuki et al. English to Tamil machine translation system using parallel corpus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090619

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130125

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130904

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees