JP4278090B2 - 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体 - Google Patents

単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体 Download PDF

Info

Publication number
JP4278090B2
JP4278090B2 JP2003132395A JP2003132395A JP4278090B2 JP 4278090 B2 JP4278090 B2 JP 4278090B2 JP 2003132395 A JP2003132395 A JP 2003132395A JP 2003132395 A JP2003132395 A JP 2003132395A JP 4278090 B2 JP4278090 B2 JP 4278090B2
Authority
JP
Japan
Prior art keywords
word
phrase
text
words
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003132395A
Other languages
English (en)
Other versions
JP2004005641A (ja
Inventor
ジョン ワイトロック ピーター
グレニー エドモンズ フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2004005641A publication Critical patent/JP2004005641A/ja
Application granted granted Critical
Publication of JP4278090B2 publication Critical patent/JP4278090B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自然な言語テキストにおいて、単語の選択および使用を、訂正し、改善させる方法および装置に関する。また、本発明は、このような方法を行うようにコンピュータをプログラムするコンピュータプログラム、このようなプログラムを含む格納媒体、およびこのようなプログラムによってプログラムされるコンピュータに関する。
【0002】
【従来の技術】
ある言語で書くことまたは話すことの中心には、どの単語を用いるかを選択することがある。この選択に役立てるため、母国語で書いている人は、類語辞典を用い、言語の学習者は、典型的には、2カ国語の辞書を用いる。しかし、母国語で書いている人は、類語辞典には、類義語が適切である文脈についての詳細な情報がないことに気付き、学習者は、2カ国語の辞書から誤った翻訳を選択することがあり、両者は、集中力または知識が欠けている場合には他の単語に綴り間違いをすることがある。
【0003】
学習者の英語の注釈付きのコーパス(非特許文献1参照)によると、誤った動詞または前置詞の使用が、最も一般的なタイプの誤りであり、綴りおよび句読点の誤りがその後に続く。例えば、書き手は、「associate with」ではなく「associate to」、「lose one’s temper」ではなく「loose one’s temeper」、「beats me at tennis」ではなく「wins me at tennis」と書くことがある。
【0004】
従来、このようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが出来なかった。
【0005】
特許文献1、2、3は、構文解析および翻訳における、共起の情報の作成および使用を開示する。
【0006】
特許文献4、5、6、7、8、9、10の各々が開示する技術は、一般的に混乱しやすい単語のセット、例えば、「hear」と「here」、または、「to」と「too」などのリストを用いる。テキストにおける、このような単語の存在は、潜在的な誤りを示す。これらの特許は、誤りの訂正に対して異なる方法を記載する。
【0007】
特許文献11は、混乱しやすい単語の使用を区別する、異なる文脈を記載する規則のシステムを用いる技術を開示する。
【0008】
特許文献12、13、14は、確率を品詞の連続に割り当てるシステムを開示する。混乱しやすい単語を含む品詞の連続である確率は、その単語と混乱される単語を含む品詞の連続である確率と比較され得る。後者の方が前者よりも高い場合、起こり得る誤りが報告される。
【0009】
特許文献15は、単語の連続に確率を割り当て、ある単語を他の単語と誤って綴ることに確率を割り当て、これらの確率を組み合わせて、単語が他の単語と誤って綴られているか否かを判定するシステムを開示する。
【0010】
特許文献16、17は、単語を、その文脈を表す特徴と関連付け、機械学習アルゴリズムを用いて、混乱しやすい単語のセットの特定の要素に対して、特徴の値から、関数を計算するシステムを開示する。混乱しやすい単語のセットの要素がテキストに現れる場合、この関数が用いられて、正確であるか、または誤っているかが、分類される。
【0011】
非特許文献2は、連続的な単語のnグラムモデルを用いて、誤りを検出するシステムを開示する。このシステムは、以前には見られなかった、カテゴリー変更およびカテゴリー保存の誤りを検出し得るが、連続的なモデルに起因して、非常に限定された長さにわたってのみ検出し得る。誤りの訂正は、記載されていない。
【0012】
特許文献18に開示されるシステムは、パーサーの失敗による、単語の使用における潜在的な誤りを識別し、これらの誤りを、続く構文解析の成功につながるように、混乱しやすい単語を見つけることによって解決する。
【0013】
連結に関する強度または尤度の多くの尺度は、例えば、非特許文献3、4に開示され、非特許文献3、4は特定のタスクにおいていくつかの尺度の比較評価を提供する。
【0014】
任意の適切なパーサーを用いたテキストの解析の一例が、非特許文献5に開示されている。
【0015】
統計学的尺度による尤度の値の計算に用いられるパラメータの公式は、非特許文献6に開示されている。
【0016】
【特許文献1】
米国特許第4,916,614号
【特許文献2】
米国特許第4,942,526号
【特許文献3】
米国特許第5,406,480号
【特許文献4】
米国特許第4,674,065号
【特許文献5】
米国特許第4,868,750号
【特許文献6】
米国特許第5,258,909号
【特許文献7】
米国特許第5,537,317号
【特許文献8】
米国特許第5,659,771号
【特許文献9】
米国特許第5,799,269号
【特許文献10】
米国特許第5,907,839号
【特許文献11】
米国特許第4,674,065号
【特許文献12】
米国特許第4,868,750号
【特許文献13】
米国特許第5,537,317号
【特許文献14】
米国特許第5,799,269号
【特許文献15】
米国特許第5,258,909号
【特許文献16】
米国特許第5,659,771号
【特許文献17】
米国特許第5,907,839号
【特許文献18】
米国特許第5,999,896号
【非特許文献1】
Nicholls、1999「The Cambridge Learner Corpus−Error Coding and Analysis for Writing Dictionaries and otherbooks for English Learners」、Summer Workshop on Learner Corpora、Cambridge University Press
【非特許文献2】
ChodorowおよびLeacockのAn unsupervised method for detecting grammaticalerrors」(Proceedings of the 1st Annual Meeting of the North American Chapter of the Association for Computational Linguistics、140〜147ページ、2000年
【非特許文献3】
K.Kageura、1999、「Bigram Statistics Revisited: a Comparative Examination of some Statistical Measures in Morphological Analysis of Japanese Kanji Sequences」、Journal of Quantitative Linguistics、1999、vol 6、no.2、144〜166ページ
【非特許文献4】
Evertら、「Methods for the Qualitative Evaluation of Lexical Association Measures」、Proceeding of the 30th Annual Meeting of the Association for Computational Linguistics,Toulouse,2001、188〜195ページ
【非特許文献5】
M.Collinsの「Three Generative Lexicalised Models for Statistical Parsing」(Proceedings of the 35th annual meeting of the ACL/8th conference ofthe EACL、Madrid、1997)、SleatorおよびTemperleyの「Parsing English with a Link Grammar」(CMU−CS−91−196、Carnegie−Mellon University Dept. of Computer Science、1991)
【非特許文献6】
D.Linの「Automatic Retrieval and Clustering of Similar Words」(COLING−ACL 98、Montreal、Canada、1998年8月)
【0017】
【発明が解決しようとする課題】
本発明は、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
本発明は、上記のようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤り(例えば、lose/loose)、および様々な他のタイプの誤りを処理することができる。
【0019】
例えば、「make」のような単語を類語辞典で引くと、書き手は多数の類義語を見出す。これらは、中心的な意味を共有するグループに分類され得る。あるグループには、「create」、「construct」、および「establish」などの類義語が含まれ得るが、書き手が、「creates a diversion」、「constructs a model」、または「establishes a relationship」を見出すことはない。
【0020】
本発明は、これらを、「make a diversion」、「make a model」、または「make a relationship」などの入力に応答して提供することを可能にする。
【0021】
本発明は、書き言葉であるか話し言葉であるかに関わらず、以下ではテキストと呼ぶ、一続きの言語において共起し得る(必ずしも、隣接しない)、2つの単語または句の間の関係を含む、依存性または連結性を利用する。連結性は、テキストの大部分において現れる頻度に基づいて、強度または尤度の尺度と関連付けられ得る。テキストにおける単語は、それが現れている連結における尤度の値に基づいて、もっともらしさの値と関連付けられ得る。テキスト内においてもっともらしくない単語は、文脈において、誤っているか、または、不自然であり得る。
【0022】
本発明は、第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる装置であって、前記第1の言語の単語または句の間の連結に関する第1のデータベースと、前記第1の言語の単語または句の各々が、混乱しやすい単語または句のセットと関連付けられている、第2のデータベースと、前記第1のデータベースと、前記第2のデータベースとに基づいて、前記第1の単語または句の選択の訂正または改善を制御する制御部とを備え、前記第1のデータベースにおける前記連結が、前記第1の言語のテキストの本文において前記連結が現れる頻度と、前記第1の言語のテキストの本文において、前記単語または句のうちの1つを含むとともに同じ依存性関係を有する他の連結の各々またはすべてが現れる頻度とに基づいて設定された少なくとも1つの尤度の値を有するものであり、前記依存性関係が、一方の単語または句が他方の単語または句の主語である関係一方の単語または句が他方の単語または句の目的語である関係一方の単語または句が他方の単語または句の修飾語である関係のいずれかであり、前記制御部は、前記テキストのセクションの前記第1の単語または句と、第2の単語または句との間に第1の連結を確立するために該テキストのセクションを解析する解析手段と、前記第1の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第1の単語または句の第1のもっともらしさの値を計算する第1計算手段と、前記第2のデータベースから、前記テキストのセクションにおける前記第1の単語または句と混乱しやすい単語または句を、該第1の単語または句との置換候補として選択する第1選択手段と、前記第2の単語または句と前記混乱しやすい単語または句との第2の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第2のもっともらしさの値を計算する第2計算手段と、該計算された第2のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第2選択手段と、該第2選択手段にて選択された前記混乱しやすい単語または句を出力する出力手段と、を有することを特徴とする。
【0023】
また、本発明は、前記装置によって、第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる方法であって、前記解析手段によって、前記テキストのセクションの前記第1の単語または句と、第2の単語または句との間に第1の連結を確立するために該テキストのセクションを解析する解析工程と、前記第1計算手段によって、前記第1の連結に前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第1の単語または句の第1のもっともらしさの値を計算する第1計算工程と、前記第1選択手段によって、前記第2のデータベースから、混乱しやすい単語または句を、前記テキストのセクションにおける前記第1の単語または句と混乱しやすい単語または句を、該第1の単語または句との置換候補として選択する第1選択工程と、前記第2計算手段によって、前記第2の単語または句と前記混乱しやすい単語または句との第2の連結に前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第2のもっともらしさの値計算する第2計算工程と、前記第2選択手段によって、前記計算された第2のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第2選択工程と、前記出力手段によって、前記第2選択工程にて選択された前記混乱しやすい単語または句を出力する出力工程と、を包含することを特徴とする。
【0024】
好ましくは、前記第1のデータベースにおける前記連結の前記尤度の値が、相互情報、T得点、YuleのQ係数、および対数尤度のうちの少なくとも1つを含む。
【0025】
好ましくは、前記解析工程は、前記テキストのセクションにおいて、複数の第1の単語または句の複数の第1の連結を確立する工程を含み、前記第1計算工程は、該第1の連結の各々の前記第1の単語または句の各々について行われ、前記第1選択工程、前記第2計算工程および前記第2選択工程は、該第1の連結の各々の前記第1の単語または句の各々について行われる。
【0026】
好ましくは、前記解析工程において、前記テキストのセクションにおいて隣接していない単語または句の間に前記第1の連結を確立する
【0027】
好ましくは、前記第1選択工程が、単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含み、前記第1選択工程、前記第2計算工程および前記第2選択工程が、該混乱しやすい単語または句の各々について行われる。
【0028】
好ましくは、前記第1のもっともらしさの値はもっともらしさの程度が大きくなるほど大きくなっており、該第1のもっともらしさの値が第1の閾値よりも低い場合、前記第1選択工程、前記第2計算工程および前記第2選択工程が行われる。
【0029】
好ましくは、前記第2のもっともらしさの値はもっともらしさの程度が大きくなるほど大きくなっており、前記第2選択工程において、該第2のもっともらしさの値の各々または該第2のもっともらしさの値が、第2の閾値を越える場合に、前記混乱しやすい単語または句が選択される。
【0031】
好ましくは、前記第2選択工程の後に、前記テキストのセクションにおける第1の単語を、該第2選択工程にて選択された前記混乱しやすい単語と置換する工程をさらに含む。
【0032】
好ましくは、第2の言語から、翻訳によってテキストのセクションを生成する工程をさらに含む。
【0033】
好ましくは、印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含む。
【0034】
また、本発明は、前記方法をコンピュータに実行させるための、コンピュータプログラムである。
【0035】
また、本発明は、前記コンピュータプログラムが格納された、コンピュータ読取り可能な格納媒体である。
【0043】
単語間の連結の尤度を用いることによって、品詞の連続の確率を殆ど用いない、公知のシステムよりも改善している技術を提供することが可能である。なぜなら、このような公知のシステムは、非常に一般的であるカテゴリーを維持する誤りを検出して訂正することができないからである。
【0044】
改善は、依存性文法は、隣接していないが、それでも、互いの選択に直接影響を与える、単語間の依存性を捕らえることができるので、連続的なnグラム(ワードまたは品詞のいずれか)を用いることによって達成される。nグラムは、原則として、このような依存性をも含むように、拡大され得るが、実際には、これは、データが疎であることにおいて深刻な問題につながり得る。連結を用いることによって、統計学的な尤度の値の計算について利用可能なデータが、言語学的に大きな単位に集められる。殆どの場合において、常に、3つの要素の依存性の断片が、有用な統計を得るために充分であるが、4つの要素の連続的なnグラムでさえ、ありそうな単語の組合せおよびありそうもない単語の組合せの多くの場合について誤りをおかす。
【0045】
言語学的に意味のあるエンティティに対する、この統計の制限の重要な結果として、確率の値が、誤りを見つけるために必要な様態で解釈することが、より容易になることである。これを理解するため、連続的な単語の二重字モデルにおいて、隣接する単語間の遷移の確率の重要性を考慮する。構成要素内で、例えば、「a big dog」における「big」と「dog」との間で、遷移の確率は、類似の形容詞および名詞の連続と、直接比較され得る。しかし、「givethe dog a bone」における「dog」と「a」との間の遷移の確率は、「dog」で終わる構成要素に、「a」で始まる構成要素が続くので、どちらかというと、対象とならない(ありそうもない)確率である。「give」が先頭である構成要素が、「bone」が先頭である第2の目的語を有するという対象になる確率は表されず、可能な代替例、例えば、「give the dog a clone」と比較されることはできない。
【0046】
すなわち、連続的なnグラムモデルにおいて、低い遷移確率は、言語学的に興味深い尤度の低さと、そうではない尤度の低さとの両方を表し得る。これは、潜在的な誤りの直接的な指示として用いられることはできない。連続的なnグラムに基づくシステムが、誤りを処理するトリガとして、全ての低い確率を処理する場合、多数の潜在的な「誤り」を検出し、そのうちの多くが実際の「誤り」ではない。これらの処理はコストが高く、また、このような偽の誤りが、本当の誤りとして分類されるという危険を引き起こす。
【0047】
これが、低い遷移確率を用いる公知の技術のいずれも誤り処理のトリガとして用いられず、むしろ、混乱しやすいことが公知である特定の単語のテキストにおける存在を用いて、元の連続の相対的な尤度および単語を置き換えることによって得られる尤度を考慮する理由である。
【0048】
対照的に、本発明の技術においては、「低い尤度」が、よりロバストな誤りのインジケータである。任意のありそうもない連結は、誤り処理の開始に寄与し得、ありそうもない連結のみが寄与する。当然、ありそうにもないことが、常に誤りであるという結果にはならないが、本発明の技術においては、これらの偽のトリガは、ずっと少ない。
【0049】
さらに、いくつかの混乱しやすい単語のセットにおける要素のテキストにおける存在が、多くの公知の技術と同様に、誤り処理のトリガに過ぎない場合、混乱しやすい単語のセットに要素を追加することは、誤り処理がトリガされる回数と、各要素を考慮する計算コストとの両方を増加させる。
【0050】
連結の尤度、および得られる単語のもっともらしさが、本発明と同様に、誤り処理のトリガである場合、ずっと広い範囲の誤りが、特徴付けられ得る。混乱しやすさの概念は、綴りおよび発音の高い頻度での混乱に限定されない。
【0051】
学習アルゴリズムを用い、また、誤り処理のトリガとして、混乱しやすいことが公知である単語の存在を用いる公知の技術において、学習アルゴリズムを単語の分類に適用すること以外に、単語を潜在的な誤りとして検出する方法はない。さらに、公知のnグラムに基づく技術と同様に、学習システムは、データを言語学的に大きな単位に集めることによる利益を完全には得ない。
【0052】
本発明の技術は、構文解析の失敗に基づく公知の技術の改善を表す。なぜなら、構文解析の失敗は、語彙の誤り、特に、同じ品詞の単語との置換に関わる語彙の誤りの、非常に粗い検出機構であるからである。対照的に、本発明の技術は、非常に短い文の断片の尤度でさえ、非常にきめ細かい定量的な判定を提供し、アタッチメントがないことによって示されるように、特定の、極端に尤度が低い場合として、構文解析の失敗を含む。さらに、構文解析の成功(誤りが訂正されたという粗い状態)は、得られた改善のきめ細かい定量的な判定と置換され得る。
【0053】
【発明の実施の形態】
本発明は、添付の図面を参照しながら、例示のために、さらに説明される。
【0054】
本発明においては、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語のこのような使用を改善し得る方法を示唆する方法および装置が提供される。これらの技術は、その文脈において、所与の入力表現と意味が類似する表現を示唆する、文脈に対して高感度な類語辞典として用いられてもよい。単語の組合せの統計的に依存性のモデルは、誤り検出および置換のチェックの基礎として用いられる。これによって、連続的なnグラムモデルまたは解析されていない特徴のセットのいずれかを用いる、公知の方式で、いくつかの問題が解決される。また、これらの技術は、置換の候補の範囲をずっと広くすることが可能である。誤りの検出は、用いることによって誤りが起きやすい特定の単語の検出に依存しないので、以前に出てきたことがない誤りも検出および訂正され得る。
【0055】
本発明は、2つのタイプの単語間の関係を用いる。一方のタイプの関係は、1つの文において異なる位置にある2つの単語の間で保持される。これらは、「〜の主語」、「〜の目的語」および「〜の修飾語」ような依存の関係であり、その例を図2に示す。図2は、「Love is the most important condition for marriage」という文を解析した結果を示す。単語は、屈折していない形および品詞によって、すなわち、見出し語として表される。従って、「is」は、「be_V」と表される。この動詞の主語は、「love_N」であると識別され、その目的語は、「condition_N」であると識別される。後者は、「the_DET」によって特定され、「important_ADJ」によって修飾される。「Most_ADV」は、「important_ADJ」を修飾する副詞として識別される。「For_PREP」は、「condition_N」を修飾する前置詞として識別され、「marraiage_N」は、前置詞「for_PREP」の目的語として識別される。2つの見出し語およびこれらを連結する依存性の関係からなる3つの形態は、連結と呼ばれる。
【0056】
他方のタイプの関係は、「〜の可能な置換」として定義される関係、すなわち、文の所与の位置での代替的な単語の選択肢の間の関係を含む。置換の関係のいくつかの例は、以下の通りである。
【0057】
・類義語、反意語、下位語、および上位語のような類語関係
・「lose」が「loose」になるように、その言語の他の単語になってしまうような綴りの誤り(特殊な場合として、「pane」および「pain」のように、発音が同じであるが綴りが異なる単語に関連する、同音がある)
・1つの語源から異なる様式で形成された単語に関連する、派生語(例えば、「interested」および「interesting」、あるいは、「safe」および「safety」)
・他の言語における、1つの単語に対する代替的な翻訳である単語に関連する、複数の言語間での混乱しやすさ(例えば、フランス語には、両方とも、「marquer」と翻訳され得る「mark」および「brand」)
・ある単語が、同語源の他の言語の単語の翻訳として不適切である、偽のフレンド(例えば、フランス語の「actual」の、それぞれ、正しい翻訳および誤った翻訳である、「possible」および「actual」)
・無意味な単語を置換すること、または、無意味な単語と置換することとしても考えられ得る、挿入および消去の誤り(例えば、「he rang (at)the doorbell」「we paid (for) our meals」)
文中で単語wを用いることが、誤っているか、または、そうでなくても、慣用語法にかなっておらず、ぎこちないと思われる場合、wの混乱しやすい単語のセットC(w)と呼ばれる、単語のセットの各要素が、可能な置換として考えられる。wの混乱しやすい単語のセットは、wに関連する単語から得られる。ただし、実際の全要素は、ユーザの母国語、書いている言語における言語能力のレベル、および他の要因によって異なり得る。
【0058】
依存性の関係は、文の構造を表す、幅広く用いられる手段である。多くの変形例が見出されるが、本発明の技術のコンテキストからは、主として、些細なものである。依存性の関係は、従属部分およびヘッドと呼ばれる、2つの単語を結合する。典型的な公式において、従属部分は、1つより多いヘッドに関連し得ないが、ヘッドは、例えば、任意の数の従属部分と、循環の禁止などの他の制約とを含み得、1つの文における関係が樹形図を形成することを確実にする。本明細書においては、文中の2つの単語の間の連結(連結とも呼ばれる)は、3つの形態によって表される。
<first lemma,relation,second lemma>
ただし、lemma(見出し)は、動詞「to chase」の全ての形態、すなわち、chase、chases、chased、chasingを表す、「chase_V」のような用語である。
【0059】
連結は、強度または尤度の多くの尺度と関連付けられ得る。連結の頻度、すなわち、構文解析されたコーパスにおいて何回見受けられたかは、強度を評価する粗い方法に過ぎない。より正確な尺度は、連結の頻度が、その成分の部分の頻度から予期され得るものから外れる範囲まで計算する。このような尺度のいくつかは、上記非特許文献3、4から公知である。このような尺度のいくつかは、単語の分割、構文解析、翻訳、情報の取り出し、および辞書編集法における用途を有する。これらの例において、典型的には、予期されるよりも、ずっとありそうな連結のみが、対象となる。しかし、本発明の技術は、予期されるようもずっとありそうもない連結についても関係する。テキストにおいて、このような連結が検出されることは、文法的に正しくないか、または言語の慣用的な用法とは異なっていることを示す。
【0060】
1つ以上のありそうもない連結において現れる単語は、順に、混乱しやすい単語のセットの各要素によって置換され得、このような置換のそれぞれを行うことによる結果は、もっともらしさについて評価され得る。混乱しやすい単語のセットのうちの1つ以上の要素によって、充分にもっともらしくなる場合、これらの要素は、置換用のものとして示唆され得る。
【0061】
予備的な工程として、単語の組合せについての尤度の値のデータベースが、依存性文法に従って、ネイティブスピーカーのテキストを大量に解析することによって、構築される。任意の適切なパーサーが用いられ得、適切な例が、上記非特許文献5に開示されている。アナライザーは、一般的に考えられるようにパーサーでなくてもよいが、有限状態、または、依存性を記録する機構で補強された、類似の技術を用い得る。
【0062】
各タイプの連結の頻度が数えられ、例えば、相互情報、T得点、対数尤度(log−likelihood)のような1つ以上の統計学的尺度による、それぞれについての尤度の値が、計算され、結果が表に格納される。図3に、このようなデータベースにおけるいくつかの項目を示す。
【0063】
図3において、最初の列は、連結自体を示す。「頻度」が上についている列は、この連結が構文解析されたコーパス(ここでは、British National Corpusの約8000万の単語)において現れる回数を示す。残りの列は、それぞれ、相互情報、T得点、YuleのQ係数、および対数尤度である。これらの各々は、以下の4つの項目から計算される、異なる測定基準である。
<first lemma,relation,second lemma>
<first lemma,relation,*>
<*,relation,first lemma>
<*,relation,*>
ただし、「*」は、任意の見出しを表す。このパラメータの公式は、上記非特許文献6に開示されている。異なる測定基準は、異なる範囲を有し、異なる様式の4つのパラメータの精密な値を感知する。しかし、各々の場合において、値が、関係の尤度と相関する。正の値は、組合せが、偶然よりもありそうな組合せであることを示し、負の値は、ありそうにもない組合せであることを示す。
【0064】
例えば、<associate_V padv to_PREP>のt得点は、以下のように計算される。
【0065】
【数1】
Figure 0004278090
ただし、f(associate_V padv to_PREP)=F
ネイティブスピーカーのコーパスの構文解析は、高品質な、単語の組合せの尤度の評価を得るためには、正確、かつ、可能な限り広い範囲である必要がある。しかし、正確な構文解析は、高品質な、単語の組合せの尤度の評価へのアクセスを必要とし、これによって、矛盾が生じる。この矛盾は、反復的またはブートストラッピングアプローチによって解決され得る。これは、構文解析アルゴリズムのある特定の性質に基づく。
【0066】
文中の各個別の連結は、優先度の値と関連付けられている。優先度の値は、このような連結が文中の2つの単語の間に存在しているという信頼度の尺度である。このような優先度の値は、品詞の確率および単語の孤立などの文特有の要因と、これらの単語の間の連局の強度などの言語全体にわたる要因との両方の関数である。
【0067】
構文解析アルゴリズムは、集合的に依存性構造の公理を満たす(すなわち、連結は交差しない、各単語は1つより多いノードに依存しないなど)、1セットの連結を返す。しかし、このセットは、1つの接続された樹形図を形成するためには必要とされない。
【0068】
文特有の要因および言語全体にわたる要因の優先度の値に対する相対的な寄与は、適切なパラメータ設定によって変動し得る。
【0069】
閾値は、優先度の値がその閾値を越える連結のみが返されるように設定され得る。
【0070】
構文解析アルゴリズムの反復的な性質は、非常に簡略的な句「world title fight」の構文解析を考慮することによって、説明される。
【0071】
統語論的には、「title」が「fight」を修飾するはずであるが、「world」が、「title」を修飾するのか、「fight」を修飾するのかが不明である。英語の統語論において、名詞の連続では、最後の名詞以外の各名詞が、その右側にあるいずれの名詞を修飾してもよい。この場合、特定の単語の結合の強度の知識から、「world」が「title」を修飾しているという結論が得られる。他の場合、例えば、「plastic baby pants」の場合、第1の名詞は、直後に続く名詞ではなく、最後の名詞を修飾する。
【0072】
完全な構文解析から以下の連結が得られる。
1.<title_N,mod_of,fight_N>
2.<world_N,mod_of,title_N>
ネイティブスピーカーのコーパスの構文解析の第1の反復において、特有の単語の間の連結についての尤度の値は利用可能でないので、言語全体にわたる要因は、優先度の値に何も寄与しない。優先度の閾値は高く設定されるので、例えば、品詞が曖昧な単語、または、広く分類される単語は、連結されず、連結の正確性についての信頼度は、高い。この例においては、連結1のみが返される。連続する名詞中終わりから2番目の名詞は、言語全体の要因に関わらず、最後の名詞を修飾しているはずである。しかし、言語全体にわたる情報がないので、連結2、および不正確な<world_N,mod_of,fight_N>のいずれも、この場合において、返されるような充分に高い優先度を有していない。しかし、コーパスにおける、他の名詞が後に続かない「world title」(および「world fight」)の他の例の連結が返される。
【0073】
その後、尤度の値は、これらの高い確実な連結を用いて、計算される。後続の反復は、優先度の決定において、これらの言語全体にわたる要因を使用し始め得るので、優先度の閾値は下げられ得る。これによって、返される連結の数(構文解析の範囲)が増大し、尤度のより正確な統計が計算されることが可能になる。この例において、<world,mod_of,title>および<world,mod_of,fight>の相対的な頻度および/または尤度は、前者が後者よりも、選ばれることにつながる。その後、さらなる反復は、言語にわたる要因の優先度に対する寄与を増大させ続け、優先度の閾値を低減させる。このようにして、尤度データの範囲および信頼度が徐々に改善され得る。
【0074】
ネイティブスピーカーのコーパスの構文解析の各反復の後、各タイプの尤度の値が、データベースにおいて決定され、入力される。
【0075】
充分に正確なデータベースが準備されるか、何らかの手段で入手される場合、そのデータベースは、本発明において用いられ得る。問題についてチェックされるテキストは、このような構文解析手順の1回の反復にさらされる。言語全体にわたる要因の構文解析に対する寄与は、これらの要因、すなわち、連結の尤度の値が、次の段階で考慮されるので、低減され得る。
【0076】
その後、テキストにおける各リンクの尤度の値は、ネイティブスピーカーのデータベースを調べることによって判定される。元のネイティブスピーカーのコーパスに見受けられない連結は、かなり頻度が低いと仮定することによって、尤度の値を割り当てられ得る。典型的な実施形態において、ネイティブスピーカーのコーパスにおいて、1の頻度で見受けられる連結は全て放棄され、データのサイズが大幅に低減される。データベースにおいて見受けられない連結は、0〜2の範囲内の頻度であると仮定され、最適な値は、実験によって決定され、尤度の値は、それに従って計算される。
【0077】
尤度の値が低い(すなわち、負である)連結は、起こり得る誤りのインジケータである。単語が現れる連結の尤度の値は、単語のもっともらしさの値に組み合わせられる。もっともらしくない単語は、もっともらしさにおいて、改善が見られるか否かを調べるため、混乱しやすい単語のセットの要素によって置き換えられる。
【0078】
図4Aおよび図4Bは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。入力テキストは、工程10で供給され、例えば、構文解析することによって、工程11で解析される。工程12において、入力テキストにおける連結の尤度が、解析される。工程13において、テキスト内の最初の単語が選択され、工程14において、この単語のもっともらしさが計算される。工程15において、全ての単語が用いられたか否かを確立するように入力テキストが調べられて、用いられていない場合、工程16において次の単語が選ばれ、工程14が繰り返される。
【0079】
テキスト内の全ての単語のもっともらしさが計算される場合、単語は、工程17において、もっともらしさを増大させることによって分類される。一番もっともらしくない単語が工程18において選択され、工程19において、もっともらしさが第1の閾値よりも小さくない場合、この方法は、工程20で終了する。そうでない場合、この単語と混乱しやすい単語のセットは、工程21において入手され、第1の混乱しやすい単語が工程22において選択される。工程23において、テキスト内で、対象の単語が、混乱しやすい単語と置換され、文脈における、混乱しやすい単語のもっともらしさは、工程24において計算される。もっともらしさにおける改善が、工程25において検出される(もっともらしさにおける変化が第2の閾値よりも大きい)場合、混乱しやすい単語は、工程26において、ユーザに報告される。
【0080】
工程27において、混乱しやすい単語の全てが試されたか否かを調べ、そうでない場合、工程28において、次に混乱しやすい単語が選択され、操作は、工程23に戻る。そうでない場合、工程29において、テキスト内の全ての単語が処理された否かを決定し、処理されていない場合、工程30において、次の単語を入手し、操作は、工程19に戻る。そうでない場合、この方法は、工程31で終了する。
【0081】
この実施形態において、各単語w(1≦i≦n、文の長さ)について、単語wが現れる連結D(w)のセットを判定する。その後、各D(w)に、単語λ(w)の「もっともらしさ」と呼ばれる、その連結のセットの尤度の値を単一の値にマッピングする関数を割り当てる。単語は、もっともらしさに従って並べられる。一番もっともらしくない単語wλminのもっともらしさが閾値より下になる場合、訂正を見出そうと試みる。wλminを、順に、各ワードc(wλmin)(1≦j≦m、(Cwλmin)における混乱しやすい単語の数)と置換し、λ(c(wλmin))を計算する。置換によって、単語のもっともらしさに改善が見られる、混乱しやすい単語が、ユーザに対して示唆される。混乱しやすい単語は、置換されることによって生み出す改善に従って、降順に提示され得る。
【0082】
混乱しやすい単語のセットの要素は、混乱の尤度を表す、混乱しやすい値と関連付けられ得る。例えば、注釈付きの学習者のコーパスから、各単語が他の単語と誤って用いられる頻度の回数を入手することができ、実際の単語の綴り間違いが、音および/または綴りにおける、編集の長さに基づいて、値と関連付けられ得る。意味論上の関連性に基づく、混乱しやすい単語は、階層ネットワークにおけるパスの長さに基づいて、値と関連付けられ得る。
【0083】
このような情報に対するアクセスがある場合、示唆は、混乱しやすさと、もっともらしさにおける改善とを単一得点、すなわち、置換可能性得点σ(w→c(w))に組み合わせることによって、さらに助けになる順序で提示され得る。
【0084】
ユーザとのインタラクションのセッション中、示唆は、初期的に、wλminを改善させるために、混乱しやすい単語のセットの要素と置換することによって、提供される。ユーザがこれらのうちの1つを受け入れる場合、置換の効果は、その単語に連結されている他の単語にまで伝播し得、wλminの新たな値の計算から手順が繰り返される。伝播の手順は、置換された単語を元の単語とは異なる単語に再び取り付けることを含み得る。
【0085】
孤立している状態で、ありそうもない連結は、より大きな構造の一部である可能性があり、逆もあり得る。例えば、「by accident」は、非常に強い連語であり、「by the accident」は、ありそうになく、潜在的な誤りであると考えられ得る。後者を含む、より多くの、恐らくは正しい構造、例えば、「horrified by the accident」がある。
【0086】
反対に、孤立した「a knowledge」は、典型的な学習者の誤りであり、「a knowledge of」は、合理的な表現である。しかし、「learn a knowledge of」は、誤りであり得る。
【0087】
これらの場合は、2つ以上の連結によって結合される、3以上の要素を含む依存性部分グラフの尤度の値を計算することによって処理され得る。実験的な観察は、多くの場合において、3つの要素を越えていくことが不必要であることを示す。上記の場合において、4つの要素の句の尤度は、より小さい単位の尤度まで追跡され得る。例えば、「horrified by」は強い連語なので、「horrified by the accident」は、ありそうであるが、「knowledge」は、「learn」の目的語である可能性は低いので、他の要素に関わらず、「learn a knowledge of」はありそうにもない。
【0088】
3つの要素のサブグラフの尤度の値は、各種の方法で計算され得る。1つの方法は、要素のうちの2つと、その間の連結を句の単位として処理し、この句の単位と第3の要素との間の尤度の測定基準を、2つの要素の場合において計算された方法と全く同じ方法で計算することである。
【0089】
2つまたは3つの要素の連結の尤度の値を、もっともらしさの値へと組合せることは、各種の方式に従って実行され得る。3つの要素の句の寄与を、2つの要素の句の寄与よりも高く重み付けしてもよいし(平滑化方式)、または、2つの要素の句を含む3つの要素の句が頻度におけるある程度の制約および/または尤度を満たさない場合、2つの要素の句のみを考慮してもよい(バックオフ方式)。このような方式に対するパラメータは、経験的に、または、学習手順によって、判定され得るが、学習する特徴は、特定単語が文脈にあるかないかではなく、組合せの強度と頻度である。
【0090】
基本的な方法が、検出されて訂正され得る誤りの範囲を増大させるため、いくつかの改善させる処理にかけられる。
【0091】
単語のもっともらしさの計算は、その単語が任意の他の単語に付かないことを示す用語を含み得る。依存性の樹形図の根元になり得る定動詞(または、リストおよびタイトルにおける何らかの他の品詞)の場合を除き、付けられない単語は、常に、誤り(または誤った文法)を示す。従って、非常に低い尤度の値を、無意味な取り付けに割り当てることは、適切であり、これによって、誤り処理がトリガされる。
【0092】
その後、この方法は、訂正を決定するため、以下に示すように、適用される必要がある。
【0093】
上述したように、訂正されるテキストの構文解析は、言語全体にわたる優先度要素によって強く影響されない場合、単語は、品詞が適切であれば、概して、結び付けられる。反対に、単語が結び付けられない場合、誤りは、典型的には、同じ品詞の単語の置換によって、訂正可能でない。
【0094】
誤りは、置換のうちの1つではなく、削除であり得る。例えば、名詞は、自動的な動詞の目的語として結び付けられない。多くの場合において、誤りは、前置詞の挿入によって訂正され得る。名詞が、弱い連結で動詞に結び付けられる場合でも、挿入が適切であり得る。いずれの場合においても、挿入は、誤りが訂正されたか否かをその尤度が判定する、新たな連結の作成を伴う必要がある。
【0095】
結び付けられることがないことは、カテゴリー変更置換の誤りによっても引き起こされ得る。あるカテゴリーの単語の混乱しやすい単語のセットが、他のカテゴリーの単語を含む場合、置換は、入力の局所的な再構文解析を伴うことを必要とし得る。例えば、学習者が、「get out of the building safety」と書く場合、「building safety」というつながりが、(ありそうにもない)名詞句として構文解析され得る。名詞「safety」についての混乱しやすい単語のセットが、副詞「safely」を含む場合、再構文解析は、後者が、動詞「get out」の修飾語句であり、その目的語が、「safety」ではなく、「building」であることを確立する必要がある。
【0096】
本発明の方法は、例えば、各単語のもっともらしさの値について、閾値を設定しないことによって、文脈に対して高感度な類義語辞典としても用いられ得る。この場合においては、全ての単語が、もっともらしさに関わらず、置換の候補である。また、置換が、もっともらしさを改善する必要はない。例えば、もっともらしさの値が閾値を越える場合、潜在的な置換が示唆され得る。
【0097】
本発明の方法は、任意の適切な装置によって行われ得るが、実際には、この方法を行うようにコンピュータを制御するプログラムによってプログラムされたコンピュータによって行われる可能性が高い。図1に、制御部として中央演算処理装置(CPU)1を用いる、適切なコンピュータシステム100を示す。CPU1には、例えば、ディスクドライブの形のプログラムメモリ2が接続され、プログラムメモリ2は、磁気ディスクまたは光ディスクの形の格納媒体を含み、また、格納媒体は、CPU1を制御するプログラムを含む。プログラムメモリ2が、第1のデータベース3および第2のデータベース4を含んでもよい。
【0098】
例えば磁気ディスクに格納される第1のデータベース3は、連結および関連付けられる尤度の値を含む。例えば、他の磁気ディスク、または、同じ磁気ディスクに、同様に格納される、第2のデータベース4は、混乱しやすい単語のセットを含む。ランダムアクセスメモリ(RAM)5の読み出し/書き込みは、パラメータの一時的な値を保持する、通常の方法で提供される。
【0099】
CPU1には、誤り、不自然な表現などについて調べられるテキストの入力を可能にする入力インターフェース6が接続される。例えば、テキストは、キーボードを介して手動で入力されてもよいし、(例えば、磁気ディスクまたは光ディスクで)既に機械読取り可能な形であってもよい。CPU1には、出力インターフェース7も接続され、ユーザがこの方法の出力をモニタすることが可能になる。また、この方法を用いてインタラクトすることを可能にするため、インターフェース6および7が、ユーザに、データ、コマンドなどを入力し、この方法の動作をモニタする設備を提供する。例えば、もっともらしさが改善した混乱しやすい単語の選択が提供される場合、これらは、出力インターフェース7の一部または全てを形成するディスプレイ上に表示され、ユーザは、入力インターフェース6の全てまたは一部を形成する、キーボードおよび/またはマウスを適切に操作することによって、混乱しやすい単語のうちの1つを選択し得る。
【0100】
本発明は、連結と関連付けられた尤度値とともに、単語間の連結を含むデータベースを提供し、このような連結が正確であるか、または、慣用語法にかなっているかについての尤度の尺度を提供する。尤度の値は、例えば、その言語のネイティブスピーカーによって生成されたテキストの大部分を解析することによって得られる、連結が現れる頻度に基づく。テキストのセクションを、セクション内の1つ以上の単語の起こり得る誤りまたは不自然な使用について調べるため、テキストが、まず解析されて単語間の連結が確立される。解析されたテキストにおける連結の尤度は、データベースから判定される。もっともらしさの値は、その単語が現れる連結の尤度の値を組み合わせることによって、解析されたテキスト内の各単語について計算される。単語は、見出しの単語と混乱しやすい単語のセットを含む他のデータベースに見出しを付けるために用いられる。混乱しやすい単語の各々は、順に選択され、見出しの単語の連結において置換される。これらの新たな連結についての尤度の値が判定され、混乱しやすい単語についてのもっともらしさの値が計算される。誤りを訂正する実施形態において、もっともらしさが閾値より低くなる単語について、混乱しやすい単語が試され、もっともらしさを改善する混乱しやすい単語がユーザに報告される。コンテキストに対して高感度な類語辞典の実施形態において、混乱しやすい単語が、全ての単語について試され、もっともらしさの値が第2の閾値を超える混乱しやすい単語が報告され得る。
【0101】
本発明を英文に適用した実施形態を説明してきたが、本発明は英語に限定されず、その他の原語にも適用される。
【0102】
なお、英語以外の言語(例えば日本語)から、翻訳によって英語テキストのセクションを生成してもよい。
【0103】
また、印刷された文献に記載されるテキストを光学文字認識システムを用いて読取って、テキストのセクションを生成してもよい。
【0104】
【発明の効果】
本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置が提供される。
【0105】
本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤りおよび様々な他のタイプの誤りを処理することができる。
【図面の簡単な説明】
【図1】図1は、本発明の実施形態における装置の模式図である。
【図2】図2は、「Love is the most important condition for marriage」という文の依存性構造を示す図である。
【図3】図3は、尤度の値を連結と関連付ける、第1のデータベースの一部分を示す図である。
【図4A】図4Aは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
【図4B】図4Bは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
【符号の説明】
1 CPU
2 プログラムメモリ
3 第1のデータベース
4 第2のデータベース
5 RAM
6 入力インターフェース
7 出力インターフェース

Claims (13)

  1. 第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる装置であって、
    前記第1の言語の単語または句の間の連結に関する第1のデータベースと、
    前記第1の言語の単語または句の各々が、混乱しやすい単語または句のセットと関連付けられている、第2のデータベースと、
    前記第1のデータベースと、前記第2のデータベースとに基づいて、前記第1の単語または句の選択の訂正または改善を制御する制御部とを備え、
    前記第1のデータベースにおける前記連結が、前記第1の言語のテキストの本文において前記連結が現れる頻度と、前記第1の言語のテキストの本文において、前記単語または句のうちの1つを含むとともに同じ依存性関係を有する他の連結の各々またはすべてが現れる頻度とに基づいて設定された少なくとも1つの尤度の値を有するものであり、前記依存性関係が、一方の単語または句が他方の単語または句の主語である関係一方の単語または句が他方の単語または句の目的語である関係一方の単語または句が他方の単語または句の修飾語である関係のいずれかであり、
    前記制御部は、
    前記テキストのセクションの前記第1の単語または句と、第2の単語または句との間に第1の連結を確立するために該テキストのセクションを解析する解析手段と、
    前記第1の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第1の単語または句の第1のもっともらしさの値を計算する第1計算手段と、
    前記第2のデータベースから、前記テキストのセクションにおける前記第1の単語または句と混乱しやすい単語または句を、該第1の単語または句との置換候補として選択する第1選択手段と、
    前記第2の単語または句と前記混乱しやすい単語または句との第2の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第2のもっともらしさの値を計算する第2計算手段と、
    該計算された第2のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第2選択手段と、
    該第2選択手段にて選択された前記混乱しやすい単語または句を出力する出力手段と、
    を有することを特徴とする、装置。
  2. 請求項1に記載の装置によって、第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる方法であって、
    前記解析手段によって、前記テキストのセクションの前記第1の単語または句と、第2の単語または句との間に第1の連結を確立するために該テキストのセクションを解析する解析工程と、
    前記第1計算手段によって、前記第1の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第1の単語または句の第1のもっともらしさの値を計算する第1計算工程と、
    前記第1選択手段によって、前記第2のデータベースから、混乱しやすい単語または句を、前記テキストのセクションにおける前記第1の単語または句と混乱しやすい単語または句を、該第1の単語または句との置換候補として選択する第1選択工程と、
    前記第2計算手段によって、前記第2の単語または句と前記混乱しやすい単語または句との第2の連結に、前記第1の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第2のもっともらしさの値を計算する第2計算工程と、
    前記第2選択手段によって、前記計算された第2のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第2選択工程と、
    前記出力手段によって、前記第2選択工程にて選択された前記混乱しやすい単語または句を出力する出力工程と、
    を包含することを特徴とする、方法。
  3. 前記第1のデータベースにおける前記連結の前記尤度の値が、相互情報、T得点、YuleのQ係数、および対数尤度のうちの少なくとも1つを含む、請求項2に記載の方法。
  4. 前記解析工程は、前記テキストのセクションにおいて、複数の第1の単語または句の複数の第1の連結を確立する工程を含み、前記第1計算工程は、該第1の連結の各々の前記第1の単語または句の各々について行われ、前記第1選択工程、前記第2計算工程および前記第2選択工程は、該第1の連結の各々の前記第1の単語または句の各々について行われる、請求項2に記載の方法。
  5. 前記解析工程において、前記テキストのセクションにおいて隣接していない単語または句の間に前記第1の連結を確立する、請求項2に記載の方法。
  6. 前記第1選択工程が、単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含み、前記第1選択工程、前記第2計算工程および前記第2選択工程が、該混乱しやすい単語または句の各々について行われる、請求項2に記載の方法。
  7. 前記第1のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、該第1のもっともらしさの値が第1の閾値よりも低い場合、前記第1選択工程、前記第2計算工程および前記第2選択工程が行われる、請求項2に記載の方法。
  8. 前記第2のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、前記第2選択工程において、該第2のもっともらしさの値の各々または該第2のもっともらしさの値が、第2の閾値を越える場合に、前記混乱しやすい単語または句が選択される、請求項2に記載の方法。
  9. 前記第2選択工程の後に、前記テキストのセクションにおける第1の単語を、該第2選択工程にて選択された前記混乱しやすい単語と置換する工程をさらに含む、請求項2に記載の方法。
  10. 第2の言語から、翻訳によってテキストのセクションを生成する工程をさらに含む、請求項2に記載の方法。
  11. 印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含む、請求項2に記載の方法。
  12. 請求項2に記載の方法をコンピュータに実行させるための、コンピュータプログラム。
  13. 請求項12に記載のコンピュータプログラムが格納された、コンピュータ読取り可能な格納媒体。
JP2003132395A 2002-05-22 2003-05-09 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体 Expired - Fee Related JP4278090B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0211727A GB2388940A (en) 2002-05-22 2002-05-22 Method and apparatus for the correction or improvement of word usage

Publications (2)

Publication Number Publication Date
JP2004005641A JP2004005641A (ja) 2004-01-08
JP4278090B2 true JP4278090B2 (ja) 2009-06-10

Family

ID=9937149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003132395A Expired - Fee Related JP4278090B2 (ja) 2002-05-22 2003-05-09 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体

Country Status (3)

Country Link
JP (1) JP4278090B2 (ja)
CN (1) CN1273915C (ja)
GB (1) GB2388940A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7664629B2 (en) 2005-07-19 2010-02-16 Xerox Corporation Second language writing advisor
EP2183685A4 (en) * 2007-08-01 2012-08-08 Ginger Software Inc AUTOMATIC CONTEXT-RELATED LANGUAGE CORRECTION AND EXPANSION USING AN INTERNET CORP
CN102043763B (zh) * 2009-10-23 2015-12-02 北大方正集团有限公司 一种自动校对姓名的方法及装置
JP5548252B2 (ja) * 2012-12-25 2014-07-16 日本電信電話株式会社 動詞誤り検出装置、方法、及びプログラム
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
EP3143519A1 (en) * 2014-05-12 2017-03-22 Google, Inc. Automated reading comprehension
CN105573979B (zh) * 2015-12-10 2018-05-22 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN108984515B (zh) * 2018-05-22 2022-09-06 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN112069791B (zh) * 2019-05-22 2024-04-26 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1182570A (en) * 1982-04-30 1985-02-12 Frederick R. Lange System for detecting and correcting contextual errors in a text processing system
US4773039A (en) * 1985-11-19 1988-09-20 International Business Machines Corporation Information processing system for compaction and replacement of phrases

Also Published As

Publication number Publication date
CN1273915C (zh) 2006-09-06
CN1460948A (zh) 2003-12-10
GB2388940A (en) 2003-11-26
GB0211727D0 (en) 2002-07-03
JP2004005641A (ja) 2004-01-08

Similar Documents

Publication Publication Date Title
US5418717A (en) Multiple score language processing system
US5477448A (en) System for correcting improper determiners
US7366654B2 (en) Learning translation relationships among words
US5485372A (en) System for underlying spelling recovery
JP4803709B2 (ja) 単語用法差異情報取得プログラム及び同装置
US5521816A (en) Word inflection correction system
JPH0844719A (ja) 辞書アクセスシステム
US20090157380A1 (en) Method and apparatus for providing hybrid automatic translation
JP2001523019A (ja) テキストの本文の談話構造の自動認識
JPH07325829A (ja) 文法チェックシステム
JPH0756957A (ja) ユーザへの情報提供方法
JP2007172657A (ja) 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム
JPS6299865A (ja) 自然言語の共起関係辞書保守方法
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
JP4278090B2 (ja) 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体
Abdulrahman et al. A language model for spell checking of educational texts in kurdish (sorani)
Chen et al. Automated extraction of tree-adjoining grammars from treebanks
TWI665567B (zh) 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
US7620541B2 (en) Critiquing clitic pronoun ordering in french
JP2002278949A (ja) 表題生成装置及び方法
US20020087604A1 (en) Method and system for intelligent spellchecking
US9779079B2 (en) Authoring system
Deksne Chat Language Normalisation using Machine Learning Methods.
Amrani et al. A semi-automatic system for tagging specialized corpora
Wu et al. Correcting serial grammatical errors based on n-grams and syntax

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081020

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090306

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees