JPH10247193A - Grammar check system - Google Patents

Grammar check system

Info

Publication number
JPH10247193A
JPH10247193A JP10014572A JP1457298A JPH10247193A JP H10247193 A JPH10247193 A JP H10247193A JP 10014572 A JP10014572 A JP 10014572A JP 1457298 A JP1457298 A JP 1457298A JP H10247193 A JPH10247193 A JP H10247193A
Authority
JP
Japan
Prior art keywords
word
sentence
speech
noun
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10014572A
Other languages
Japanese (ja)
Inventor
Chaves Yves
イヴ・シャベス
Roche Emmanuel
エマヌエル・ロシュ
R Golding Andrew
アンドリュー・アール・ゴールディング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Information Technology Corp
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Technology Corp, Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Information Technology Corp
Publication of JPH10247193A publication Critical patent/JPH10247193A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To display the grammatical errors with higher accuracy and to correct these errors with no overcorrection by adding tags to the sentences in regard to the parts of speech to check the sentences about inaccurate grammar and accessing the headwords of an English dictionary based on the context where the words appear. SOLUTION: The output of an analyzer 20 is connected to a part-of-speech sequence probability decision unit 22 to derive the sequence probability of an input sentence 10. The output of the unit 22 is used by various modules for analysis of the sentence 10. Then the hardness that is decided by the part-of- speech sequence is useful in a context sensitivity dictionary reference module 40. In general, the given words have many parts of speech corresponding to the semi-headwords of a dictionary other than the context. The module 40 accesses the dictionary and selects a proper definition based on the part of speech of the word that is obtained by the part-of-speech analyzer 20.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、文法検査システ
ムに関し、さらに詳細には、様々な文法検査モジュール
を使用して、文法誤りをより正確に表示し、そのような
誤りを過訂正なしに訂正するシステムにに関するもので
ある。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a grammar checking system, and more particularly, to displaying grammatical errors more accurately using various grammar checking modules and correcting such errors without overcorrection. It is about a system to do.

【0002】[0002]

【従来の技術】ヘンリー・クセラ(Henry Kucera)他に
許可された米国特許公報第4868750号で論じられ
ているように、口語文法検査システムは、コンピュータ
によって、自然な言語で構成されたデジタル符号化テキ
ストを受け取り、記憶された単語/分析辞書および分析
プログラムを使用して、符号化テキストを分析し、誤り
を識別することによって自動言語分析を行う。特に、そ
のようなシステムは、文法誤りを検出するマイクロソフ
ト・ワード・プログラム(Microsoft Word program)内
で使用される。
BACKGROUND OF THE INVENTION As discussed in U.S. Pat. No. 4,868,750, issued to Henry Kucera et al. Receives the text and uses the stored word / analysis dictionary and analysis program to analyze the encoded text and perform automatic linguistic analysis by identifying errors. In particular, such systems are used within the Microsoft Word program for detecting grammatical errors.

【0003】そのようなシステムに関連する最も厄介な
問題の1つは、システムが適切な用法を示唆したときの
誤り率が極めて高いことである。誤り率が過度に高い理
由は、システムによる文の分析が不正確なことにある。
また、文の分析が正確であると仮定しても、マイクロソ
フトシステム(Microsoft system)は、しばしば不正確
な単語を示唆する。
[0003] One of the most troublesome problems associated with such systems is the extremely high error rate when the system suggests proper usage. The reason why the error rate is excessively high is that the system analyzes the sentence incorrectly.
Also, even assuming the sentence analysis is accurate, the Microsoft system often suggests incorrect words.

【0004】文全体が正確である確率に基づいて文を分
析しようと試みる部類のシステムもある。そのようなシ
ステムの最大の問題は、現在のパーソナル・コンピュー
タおよび関連するメモリの能力を超えた記憶装置および
処理能力を必要とすることである。
Some classes of systems attempt to analyze a sentence based on the probability that the entire sentence is accurate. The biggest problem with such a system is that it requires storage and processing power beyond the capabilities of current personal computers and associated memory.

【0005】他のシステムは、トレーニング・コーパス
(training corpus)に基づいて文を分析することによ
って不正確な文法を検出しようと試みるものである。し
かしながら、システムの制約により、このタイプのシス
テムは、大容量記憶装置ならびに高速処理を必要とする
ためにパーソナル・コンピュータ環境内で使用すること
ができない。
[0005] Other systems attempt to detect incorrect grammar by analyzing the sentence based on a training corpus. However, due to system limitations, this type of system cannot be used in a personal computer environment due to the need for mass storage and high speed processing.

【0006】例として、従来の文法検査システムは、日
常的に「a」および「an」などの不定冠詞を挿入し損
なう。これは、実際、外国語を話す人が、システムによ
って与えられた自然な言語への翻訳を試みようとする場
合、大きな問題になる。
As an example, conventional grammar checking systems fail to routinely insert indefinite articles such as "a" and "an". This is, in fact, a major problem if a foreign language speaker attempts to translate into the natural language provided by the system.

【0007】また、文法規則または「the」や「a」
などの適切な冠詞の口語的用法を熟知していない人々が
構成した文の場合、そのような冠詞を挿入することがで
きないことは非常に重大である。さらに、従来の文法検
査システムが犯す共通の誤りには、複数の動詞が使用さ
れている不正確な動詞シーケンスを認識しないことがあ
る。複数の動詞が文中で適切に使用されるが、たいてい
の外国語を話す人は、日常的に「He has rec
ognize that somethingexis
ts」などの誤りを犯す。ここで「has」は動詞であ
り、「recognize」は動詞である。お分かりの
ように、明らかに複数の動詞が誤用されている。
Also, grammar rules or "the" or "a"
In the case of sentences composed by people who are not familiar with the proper colloquial usage of articles, the inability to insert such articles is very significant. In addition, common mistakes made by conventional grammar checking systems include not recognizing an incorrect verb sequence in which multiple verbs are used. Although multiple verbs are used properly in sentences, most foreign language speakers routinely use "He has rec.
ognize that somethingexis
ts ". Here, “has” is a verb, and “recognize” is a verb. As you can see, several verbs are obviously misused.

【0008】最も重要なことは、いわゆる限定詞の問題
が生じることである。例えば、文「I have ci
garatte」は、明らかに限定詞「a」が抜けてい
る。同様に、しばしば「some」や「a few」な
どの限定詞が抜ける。したがって、適切な文は、「I
have a few cigarattes」と書く
ことができる。同じ文は、名詞を複数形にすることによ
って適切に構成することができることに留意されたい。
例えば、「I have a few cigarat
tes」または「I have cigaratte
s」となる。
Most importantly, the problem of so-called determiners arises. For example, the sentence "I have ci
"garrate" is clearly missing the qualifier "a". Similarly, qualifiers such as "some" and "a new" are often dropped. Thus, the appropriate statement is "I
have a few cigarettes ". Note that the same sentence can be properly constructed by pluralizing the noun.
For example, "I have a new cigarat
tes "or" I have cigarette "
s ".

【0009】スペル・チェッカによっても、従来の文法
システムによっても訂正されない他の代表的な文法誤り
には、不適切な語形変化を訂正することができないこと
がある。例えば、不適切な動詞変化形に関して、そのよ
うなシステムは、「I drived to the
market」などの文を訂正することはめったにな
い。
[0009] Other typical grammatical errors that are neither corrected by the spell checker nor by conventional grammar systems may not be able to correct improper inflections. For example, with respect to inappropriate verb variants, such a system may be referred to as "I driven to the
We rarely correct sentences such as "market".

【0010】上述の問題は、言語の語法ならびに規則を
熟知していない非ネイティブ・スピーカーから見た場
合、最も重大になる。特に英語の場合、規則は、思った
ほど簡単ではなく、正確な「文法」は、しばしば、その
言語を使用するネイティブ・スピーカーが熟知していな
い語法または規則によって決定される。
[0010] The above problems are most acute when viewed from non-native speakers who are not familiar with the grammar and rules of the language. The rules are not as simple as one might think, especially in English, and the exact “grammar” is often determined by grammar or rules that the native speakers using the language are not familiar with.

【0011】[0011]

【発明が解決しようとする課題】したがって、特定の国
籍の非ネイティブ・スピーカーが最も頻繁に犯す誤りを
考慮する文法検査システムを提供することが重要であ
る。したがって、例えば、日本語のネイティブ・スピー
カーが通常犯す一群の誤りは、予測でき、したがって訂
正できる形で英語に翻訳される。同様に、例えばフラン
ス語またはどんなロマンス語についても、英語に翻訳す
るときに犯すいくつかの特徴的な誤りを検出し、訂正す
ることができる。
Therefore, it is important to provide a grammar checking system that takes into account the mistakes most often made by non-native speakers of a particular nationality. Thus, for example, a group of errors that a Japanese native speaker usually makes are translated into English in a predictable and thus correctable manner. Similarly, for example, for French or any Romance language, some characteristic errors made when translating to English can be detected and corrected.

【0012】シンタックス認識システムは、一般に、わ
ずかな十分に定義された語彙を有するテキストに対する
動作か、またはより一般的であるが、限られた範囲のシ
ンタックス・フィーチャを扱うテキストに対する動作に
限定されていた。語彙またはシンタックス範囲を拡大す
るには、構造をますます複雑にし、かつ特殊な認識規則
の数を増やす必要があり、したがってシステムが非常に
大きくなり、あるいは一般に入手できるコンピュータ・
システム上での業務実施にとって荷厄介になる。
[0012] Syntax recognition systems are generally limited to operations on text with a small, well-defined vocabulary or, more generally, operations on text that handles a limited range of syntax features. It had been. Increasing the vocabulary or syntax range requires more and more complex structures and an increased number of specialized recognition rules, and thus makes the system very large or generally available computer
It becomes troublesome for business operation on the system.

【0013】テキスト処理システム内で文脈誤りを検出
し、訂正する他の一般的なシステムは、フレデリック・
ビー・ラング(Frederick B.Lang)他に許可された米国
特許公報第4674065号に記載されている。この特
許出願では、複数組の同音異義語および混同しやすい単
語の特殊な辞書と、単語の適切な用法を統計的に決定す
ることができる複数組のダイグラム(di-gram)状態お
よびnグラム(n-gram)状態とを結合することによっ
て、単語使用確認およびテキスト処理について文書を校
正するシステムを実施する。上述のように、品詞ではな
く単語に対して統計を行うには、非常に大きいトレーニ
ング・コーパスおよび高速計算が必要であり、したがっ
てシステムが個人計算用途にとって幾分荷厄介になる。
さらに、このシステムは、発音が同じ単語に関して混同
しやすい単語を検出するが、一般的な用法では混同され
るが、発音は同じでない単語について訂正を行うのには
十分ではない。
Another common system for detecting and correcting contextual errors in a text processing system is Frederick
No. 4,674,065 to Frederick B. Lang et al. In this patent application, a special dictionary of multiple sets of homonyms and easily confused words, and multiple sets of di-gram states and n-grams (n-grams) from which the proper usage of words can be determined statistically. Implement a system that proofreads the document for word usage confirmation and text processing by combining the n-gram) state. As discussed above, performing statistics on words rather than parts of speech requires a very large training corpus and fast computation, thus making the system somewhat cumbersome for personal computing applications.
In addition, the system detects words that are confused for words that have the same pronunciation, which is confused in common usage, but not enough to make corrections for words that are not the same.

【0014】最後に、米国特許第4830521号は、
スペル・チェック機能および固有名詞認識能力を有する
電子タイプライタに関する特許である。名詞認識の問題
は、固有名詞を認識する際に正確であることもあり、正
確でないこともある大文字化シナリオを中心題目とする
ことを理解されたい。最も重要なことは、この特許は、
大文字化は、明らかに文中の任意の場所の単語に対して
行われるが、単語をテストしても、大文字化の機能を決
定するためにその単語が文中の最初の単語であるかどう
かを調べることしかできない。
Finally, US Pat. No. 4,830,521 describes:
This is a patent for an electronic typewriter having a spell check function and a proper noun recognition ability. It should be understood that the problem of noun recognition is centered on capitalization scenarios that may or may not be accurate in recognizing proper nouns. Most importantly, this patent
Although capitalization is obviously done for words anywhere in the sentence, testing a word and checking whether it is the first word in the sentence to determine the function of capitalization I can only do it.

【0015】他の従来技術として、まずスペリング訂正
を使用して、文法問題を解決しようとする特許が多数あ
る。そのような特許には、米国特許第5218536
号、第5215388号、第5203705号、第51
61245号、第5148367号、第4995740
号、第4980855号、第4915546号、第49
12671号、第4903206号、第4887920
号、第4887212号、第4873634号、第48
62408号、第4852003号、第4842428
号、第4829472号、第4799191号、第47
99188号、第4797855号、第4689768
号がある。
As other prior arts, there are a number of patents which attempt to solve grammar problems by first using spelling correction. Such patents include US Patent No. 5,218,536.
No. 5,215,388, No. 5,203,705, No. 51
No. 61245, No. 5148367, No. 4995740
No. 4,980,855, No. 4,915,546, No. 49
Nos. 12671, 4903206, 4887920
No., 4887212, 4887334, 48th
No. 62408, No. 4852003, No. 4842428
No. 4829472, No. 4799191, No. 47
No. 99188, No. 4797855, No. 4689768
There is a number.

【0016】また、米国特許第5224038号、第5
220503号、第5200893号、第516489
9号、第5111389号、第5029085号、第5
083268号、第5068789号、第500701
9号、第4994966号、第4974195号、第4
958285号、第4933896号、第491459
0号、第4816994号、第4773009号など、
テキスト分析を取り扱っている特許が多数ある。これら
の特許はすべて、特に書かれた文書を所与の自然な言語
で提供しなければならない非ネイティブ・スピーカーが
必要とするレベルまで文法を検査するために、実際に実
施することができないシステムに関することを理解され
たい。また、これらの特許は、明確に非ネイティブ・ス
ピーカーのために文法および英語慣用法を訂正するため
のものではない一般的なシステムに関することを理解さ
れたい。
Also, US Pat.
No. 220503, No. 5200893, No. 516489
No. 9, No. 511389, No. 5029085, No. 5
No. 083268, No. 5068789, No. 500701
No. 9, No. 4994966, No. 4974195, No. 4
No. 958285, No. 4933896, No. 491459
0, 4816994, 477309, etc.
Many patents deal with text analysis. All of these patents relate specifically to systems that cannot be practiced to check grammar to the level required by non-native speakers who must provide written documents in a given natural language. Please understand that. It should also be understood that these patents relate to a general system that is not specifically intended to correct grammar and English idioms for non-native speakers.

【0017】最後に、辞書をいかに効率的に符号化する
ことができるかに関する特許がいくつかある。これらの
特許は、米国特許第5189610号、第506015
4号、第4959785号、および第4782464号
である。辞書の符号化は、文法を適切に検査することが
できるシステムを形式化する唯一のステップであること
を理解されたい。
Finally, there are several patents on how efficiently a dictionary can be encoded. These patents are disclosed in US Pat. Nos. 5,189,610, 506015.
No. 4, No. 4,959,785, and No. 4,782,264. It should be understood that encoding a dictionary is the only step in formalizing a system that can properly check the grammar.

【0018】[0018]

【課題を解決するための手段】従来のスペル・チェック
・システムおよび文法検査システムの主要な問題のいく
つかを解決するために、本発明の文法検査システムは、
まず品詞に関して文をタグ付けするステップ、その後不
正確な文法について文を検査するステップを含む。この
システムは、文全体が正確である確率ではなく、品詞が
正確なシーケンスを有する確率に基づいて単語の用法を
訂正する。次いで、このシステムは、不正確な語形変
化、不定冠詞の適切な用法、不正確な大文字化、不正確
な助動詞シーケンス、不適切な限定詞について検査す
る。また、このシステムは、単語が現れる文脈に基づい
て英語辞書の見出し語にアクセスする。
SUMMARY OF THE INVENTION To solve some of the major problems of conventional spell checking and grammar checking systems, the grammar checking system of the present invention comprises:
First, tag the sentence for part of speech, and then check the sentence for incorrect grammar. The system corrects word usage based on the probability that the part of speech has the correct sequence, rather than the probability that the entire sentence is correct. The system then checks for incorrect inflections, proper usage of indefinite articles, incorrect capitalization, incorrect auxiliary verb sequences, and inappropriate qualifiers. The system also accesses the English dictionary entry based on the context in which the word appears.

【0019】特に、このシステムは、動詞の不正確な過
去時制および過去分詞形(「drove」ではなく「d
rived」、「hit」ではなく「hitten」な
ど)、名詞の複数形(例えば、「children」で
はなく「childs」)、形容詞の不正確な比較級ま
たは最上級(例えば、「better」ではなく「go
oder」、「best」ではなく「goodese
t」)を文脈内で検査し、訂正する。
In particular, the system provides for inexact past tense and past participle forms of verbs ("d" instead of "dove").
driven, "hitten" instead of "hit"), plural forms of nouns (e.g., "childs" instead of "children"), inaccurate comparisons of adjectives or superlatives (e.g., "better" instead of "better") go
order, "best" instead of "best"
t ") in context and correct.

【0020】さらに、このシステムは、不定冠詞「a」
および「an」の適切な用法について文脈内で検査す
る。また、このシステムは、通常叙述的形容詞に先行す
る下位制限的形容語の一部である単語を挿入するか、ま
たは訂正することによって、限定詞の不適切な用法を検
出し、訂正する。これは、冠詞「the」、「a」、
「an」、およびそれらの代わりになる「your」、
「their」、「some」、「each」などの単
語の訂正を含む。また、訂正は、一般に名詞に特異性を
与える数の不適切な用法、または名詞によって指示され
る部類から指示物を抜き出すことを含む。
Further, the system uses the indefinite article "a"
And in context for appropriate usage of "an". The system also detects and corrects improper use of qualifiers by inserting or correcting words that are part of a sub-restrictive adjective that usually precedes the narrative adjective. These are the articles "the", "a",
"An", and "you" instead of them,
Includes correction of words such as "their", "some", "each". Corrections also generally involve the improper use of numbers that give the noun specificity, or extracting the referent from the class indicated by the noun.

【0021】他の特徴として、このシステムは、まず下
地のスペリングを取り出し、次いでトレーニング・シー
ケンスを使用して、下地の単語が大文字になっている確
率、または大文字になっていない確率を決定することに
よって正確な大文字化について検査する。
In other features, the system first retrieves the underlying spelling and then uses a training sequence to determine the probability that the underlying word is or is not capitalized. To check for correct capitalization.

【0022】また、このシステムは、文中の複数動詞シ
ーケンスの使用に関連する不正確な助動詞シーケンスに
ついて検査し、有限状態機械または有向グラフ、特に非
輪状有向グラフに基づいて正確な形を決定する。このグ
ラフを使用して、このシステムは、まず誤り(「he
has accept this fact」など)を
検出し、次いでそれを訂正して、複数動詞シーケンスを
適切な形(「he has accecpted th
is fact」)にする。
The system also checks for incorrect auxiliary verb sequences associated with the use of multiple verb sequences in a sentence and determines the correct shape based on a finite state machine or directed graph, especially a non-cyclic directed graph. Using this graph, the system first makes an error ("he
has accepted this fact), and then correct it to convert the multiple verb sequence into the appropriate form ("he has accepted the fact").
is fact ").

【0023】他の特徴として、このシステムは、品詞タ
ガ(tagger)から得られた品詞によって決定された、特
定の単語が文中で使用されている文脈に基づいて辞書見
出し語にアクセスする。このシステムは、シンタックス
文脈に関連する辞書中の見出し語を表示することしかで
きない。
As another feature, the system accesses dictionary headwords based on the context in which the particular word is used in the sentence, as determined by the part of speech obtained from the part of speech tagger. The system can only display headwords in the dictionary that are relevant to the syntax context.

【0024】本発明の上記その他の特徴は、図面ととも
に詳細な説明を読めばよりよく理解できよう。
These and other features of the present invention will be better understood when read in detail with the drawings.

【0025】[0025]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

実施の形態1.この発明の実施の形態1の構成について
図1を参照しながら説明する。図1は、この発明の実施
の形態1に係る文法検査システムの構成を示す図であ
る。なお、各図中、同一符号は同一又は相当部分を示
す。
Embodiment 1 FIG. The configuration of the first embodiment of the present invention will be described with reference to FIG. FIG. 1 is a diagram showing a configuration of a grammar checking system according to Embodiment 1 of the present invention. In the drawings, the same reference numerals indicate the same or corresponding parts.

【0026】次に、図1を参照すると、特に外国語を綴
る人にとって、正確であり、かつ特にコンピュータの知
識がない人でも容易に使用できる、入力された文の瞬時
文法検査を提供することが重要である。文法検査を行う
ために、入力文10をキーボード12によってワード・
プロセシング・システム16のCPU14に入力する。
Referring now to FIG. 1, there is provided an instant grammar check of input sentences that is accurate, especially for those who spell foreign languages, and can be easily used, especially by those without computer knowledge. is important. In order to perform a grammar check, the input sentence 10 is
It is input to the CPU 14 of the processing system 16.

【0027】信頼できる文法確認のためには、入力文の
発音の各部を正確に決定することが重要である。従来の
文法検査システムは、入力文を直接使用していたが、本
発明の特徴は、入力文をいくつかの品詞に分割し、それ
により品詞シーケンスを得ることである。これは、「A
Stochastic Parts Program and Noun Phrase Parserfor
Unrestricted Text」Proceedings of the Second Conf
erence on Applied Natural Language Processing、Aust
in,Texas,1988として出版されているケネス・チャーチ
(Kenneth Church)の(Stochastic Parts Program)の
一実施形態として入手できる品詞アナライザ20によっ
て行う。品詞を導出した結果は、入力文「I hear
d this band play」の「代名詞、動
詞、限定詞、名詞、動詞」など品詞シーケンスである。
For reliable grammar confirmation, it is important to accurately determine each part of the pronunciation of the input sentence. Whereas conventional grammar checking systems used the input sentence directly, a feature of the present invention is to divide the input sentence into several parts of speech, thereby obtaining a part of speech sequence. This is "A
Stochastic Parts Program and Noun Phrase Parserfor
Unrestricted Text '' Proceedings of the Second Conf
erence on Applied Natural Language Processing, Aust
in, Texas, 1988, the part-of-speech analyzer 20 available as an embodiment of the Kenneth Church (Stochastic Parts Program). The result of deriving the part of speech is based on the input sentence "I hear
A part-of-speech sequence such as “pronoun, verb, qualifier, noun, verb” of “d this band play”.

【0028】品詞を導出しただけでは、導出した品詞が
適切な文を反映することが確実に保証されない。
Deriving the part of speech alone does not guarantee that the derived part of speech reflects an appropriate sentence.

【0029】適切な文を分析し、構成するためには、品
詞シーケンスが正確な語順に対応する確率を確認するこ
とが重要である。入力文のシーケンスの確率を導出する
ために、アナライザつまりタガ20の出力を品詞シーケ
ンス確率決定ユニット22に結合する。このユニットの
出力は、入力文10を分析する際に様々なモジュールに
よって使用される。
In order to analyze and construct a proper sentence, it is important to ascertain the probability that the part of speech sequence corresponds to the correct word order. The output of the analyzer or tag 20 is coupled to a part-of-speech sequence probability determination unit 22 to derive the probability of the sequence of input sentences. The output of this unit is used by various modules in analyzing the input sentence 10.

【0030】第1のモジュールは、一組の混同しやすい
単語または文を対応する品詞シーケンスの確率に基づい
て選択する品詞確認ユニット24である。正確な単語ま
たは文の選択は、一実施形態では、所定のしきい値より
も高い確率によって決定される。正確な文の選択はユニ
ット26によって行われる。ユニット26への入力は、
様々な文の確率ならびに入力文である。以下で説明する
ように、ユニット26は、混同しやすい単語のリストを
備えている。
The first module is a part of speech recognition unit 24 that selects a set of easily confused words or sentences based on the probability of the corresponding part of speech sequence. The selection of the correct word or sentence is determined in one embodiment by a probability higher than a predetermined threshold. The selection of the correct sentence is made by unit 26. The input to unit 26 is
Probability of various sentences as well as input sentences. As described below, unit 26 includes a list of easily confused words.

【0031】混同しやすい文は上述の形で訂正すること
ができるが、単語の下地のスペリングを決定するために
は他のモジュール28を使用する。従来のスペル・チェ
ッカは、スペリング確認用に参照テーブルを使用する
が、それらは大文字化を考慮せず、その結果スペリング
誤りの煩わしい示唆が与えられる。さらに、適切なスペ
リングを使用するそれらの文法検査システムは、しばし
ば単語、文または頭文字の始めが大文字になっている単
語によって迷わされる。
Although confusing sentences can be corrected in the manner described above, another module 28 is used to determine the spelling of the underlying word. Conventional spell checkers use look-up tables for spelling confirmation, but they do not consider capitalization, resulting in annoying suggestions for spelling errors. In addition, those grammar checking systems that use proper spelling are often confused by words, sentences, or words whose initials are capitalized.

【0032】より信頼できるスペル・チェックおよび文
法訂正を行うために、下地のスペリング回復ユニット2
8は、大文字になっている単語を「混同される」単語と
して扱う。その際、上述の技法を使用して、ブラウン
(Brown)のコーパスなどのトレーニング・コーパスに
基づいて、大文字になっている単語が1つのカテゴリ内
にある確率または他のカテゴリ内にある確率を導出す
る。
To provide more reliable spell checking and grammar correction, the underlying spelling recovery unit 2
8 treats capitalized words as "confused" words. Then, using the techniques described above, derive, based on a training corpus, such as Brown's corpus, the probability that a capitalized word is in one category or in another category. I do.

【0033】したがって、従来の言語処理システムは、
単語が普通名詞または固有名詞、あるいはそのどちらで
もない制限を与えることによって単語の下地のスペリン
グを回復したが、本発明の回復ユニットは、文脈および
確率を使用して、各単語を分類する。これは、大文字に
なっている単語および大文字になっていない単語を有す
る文を分析して、どちらがより高い確率を有するかを確
認することによって行う。その後、スペリングについて
分析した単語は、より確率の高い文中の単語の形にな
る。最も起こりそうなスペリングを回復した後、回復ユ
ニット28の出力を、語形変化検査/訂正システム30
に結合する。このスペリング・コレクタは、従来のスペ
ル・チェック変形か、または外国語を話す特定の人用に
調整したものである。
Therefore, the conventional language processing system is
While restoring the underlying spelling of a word by imposing restrictions on whether the word is a common noun or proper noun, the recovery unit of the present invention uses context and probability to classify each word. This is done by analyzing sentences with words that are capitalized and words that are not capitalized to see which has a higher probability. The words analyzed for spelling then take the form of more probable words in the sentence. After restoring the most likely spelling, the output of the restoration unit 28 is passed to the inflection check / correction system 30.
To join. This spelling collector is a traditional spell check variant or tailored for the specific person who speaks a foreign language.

【0034】追加のモジュールとして、助動詞訂正ユニ
ット32も、品詞シーケンス確率決定ユニット22から
導出された正確な品詞を必要とする。その一部が不適切
である文中に複数の動詞がある場合、助動詞訂正問題が
生じる。これは、複雑な助動詞シーケンスにおいて、不
正確な時制が使用されているときに起こる。例えば、文
「he would living」は、2つの動詞
「would」および「living」を含んでいる。
文の1つの正確な形は、「he would liv
e」である。したがって、動詞「live」の時制を訂
正する必要がある。
As an additional module, the auxiliary verb correction unit 32 also needs the exact part of speech derived from the part of speech sequence probability determination unit 22. An auxiliary verb correction problem arises when there are multiple verbs in a sentence that is partially inappropriate. This occurs when inaccurate tenses are used in complex auxiliary verb sequences. For example, the sentence "he world living" includes two verbs "would" and "living".
One precise form of the sentence is “he worldd live
e ”. Therefore, it is necessary to correct the tense of the verb "live".

【0035】これを行うために、助動詞訂正ユニット3
2は、不正確な助動詞シーケンスを検出し、次いで訂正
を示唆する。これは、まず動詞シーケンスの有限の組を
記述した有向非輪状グラフを使用して行われる。正確な
動詞シーケンスを確定する前に、上述のようにユニット
22によって行われた正確な品詞を正確に識別すること
が重要であることを理解されたい。
To do this, the auxiliary verb correction unit 3
2 detects an incorrect auxiliary verb sequence and then suggests a correction. This is done first using a directed acyclic graph describing a finite set of verb sequences. It should be appreciated that before establishing the exact verb sequence, it is important to accurately identify the exact part of speech made by unit 22 as described above.

【0036】助動詞訂正ユニット32の出力は、適切な
代替文を指示する正確な文選択ユニット34に結合され
る。
The output of the auxiliary verb correction unit 32 is coupled to a correct sentence selection unit 34 that indicates the appropriate alternative sentence.

【0037】品詞を使用する追加のモジュールは、限定
詞訂正ユニット36である。このユニットの目的は、名
詞句の指示物を決定する単語を訂正することである。限
定詞の例は、「the」、「a」、「some」などの
単語である。このユニットによって検出され、訂正され
る誤りには、3つの種類がある。すなわち、限定詞抜
け、無関係の限定詞、および限定詞と名詞との不一致で
ある。
An additional module that uses part of speech is the determiner correction unit 36. The purpose of this unit is to correct the words that determine the noun phrase referent. Examples of qualifiers are words such as "the", "a", "some". There are three types of errors detected and corrected by this unit. That is, there is a missing determiner, an unrelated determiner, and a mismatch between the determiner and the noun.

【0038】限定詞抜けの例として、「John re
ad book」では、「the」が抜けている。無関
係の限定詞の例として、「John went to
the New York」では、「the」を削除す
べきである。文「Johnread many boo
k」では、限定詞「many」に一致させるために名詞
「book」を複数形にしなければならず、不一致は明
らかである。不適切な限定詞を検出するために、名詞句
を識別することができるように品詞タグを識別する。こ
のシステムは、有効な名詞句を構成する品詞タグのシー
ケンスを定義する規則表現を最大限に一致させることに
よって名詞句を識別する。
As an example of missing determiner, "John re
In “ad book”, “the” is missing. As an example of an unrelated quantifier, "John when to
In "the New York", "the" should be deleted. The sentence "Johnread many boo
For "k", the noun "book" must be pluralized to match the determiner "many", and the discrepancy is obvious. To detect inappropriate qualifiers, identify part of speech tags so that noun phrases can be identified. The system identifies noun phrases by maximizing matching rule expressions that define the sequence of part-of-speech tags that make up a valid noun phrase.

【0039】次いで、このシステムは、限定詞が抜けて
いないかどうかを確認するために各名詞句をテストす
る。このプロセスの一部として、まず先頭名詞を検出
し、その後この先頭名詞が集合名詞であるか、集合名称
名詞であるか、熟語であるか、または限定詞が抜けてい
るかどうかを決定する。次いで、このシステムは、無関
係の限定詞を有しているかどうかを確認するために各名
詞句をテストする。最後に、このシステムは、名詞句の
限定詞と先頭名詞の数が一致するかどうかをテストす
る。その結果、38に示すように単語を挿入するか、削
除するか、または置換する。
The system then tests each noun phrase to see if any qualifiers are missing. As part of this process, the leading noun is first detected, and then it is determined whether the leading noun is a collective noun, a collective noun, a idiom, or a missing qualifier. The system then tests each noun phrase to see if it has an extraneous determiner. Finally, the system tests whether the number of qualifiers and nouns in the noun phrase match. As a result, words are inserted, deleted or replaced as shown at 38.

【0040】さらに、モジュール42は、入力文10に
基づいて不定冠詞「a」および「an」の用法を訂正す
る。
Further, the module 42 corrects the usage of the indefinite articles “a” and “an” based on the input sentence 10.

【0041】最後に、品詞シーケンスによって与えられ
た確度は、文脈敏感辞書参照モジュール40内で有用に
なる。一般に、所与の単語は、文脈外に、それぞれ辞書
中の準見出し語に対応する多数の品詞を有する。文脈敏
感辞書参照モジュール40は、辞書にアクセスし、品詞
モジュール20によって得られた単語の品詞に基づいて
適切な定義を選択する。例えば、単語「love」は、
名詞または動詞であり、名詞「love」は、動詞「l
ove」に関して、辞書中に多数の様々な見出し語を有
する。入力文が「She was my first
love」であると仮定すると、単語「love」は、
品詞モジュールによって名詞として識別され、文脈敏感
辞書参照モジュールは、名詞「love」に対する辞書
の見出し語および動詞「love」に対する辞書の見出
し語のみを選択する。
Finally, the accuracy provided by the part-of-speech sequence becomes useful in the context-sensitive dictionary lookup module 40. In general, a given word has, out of context, a number of parts of speech, each corresponding to a sub-entry in the dictionary. The context sensitive dictionary reference module 40 accesses the dictionary and selects an appropriate definition based on the part of speech of the word obtained by the part of speech module 20. For example, the word "love"
A noun or verb, the noun "love" is a verb "l
For "ove", there are many different headwords in the dictionary. If the input sentence is "She was my first
Assuming that the word is "love", the word "love" becomes
Identified as a noun by the part of speech module, the context sensitive dictionary lookup module selects only dictionary entries for the noun "love" and dictionary entries for the verb "love".

【0042】単語の下地のスペリングがモジュール28
によって回復した後、この下地のスペリングは、モジュ
ール30による語形変化訂正のために使用されるだけで
なく、従来のスペリング・システム44内でも使用され
ることを理解されたい。したがって、従来のスペル・チ
ェック・システムは、スペル・チェック・プロセス中
に、不適切な示唆群を与えるのではなく、頭文字を見落
とすようにすることができる。
The spelling of the word base is module 28
It is to be understood that, after recovery, this underlying spelling is used not only for inflection correction by module 30 but also within conventional spelling system 44. Thus, conventional spell-checking systems may overlook the initials during the spell-checking process, rather than providing inappropriate suggestions.

【0043】a)品詞確率に基づく文法訂正 過去において、上述の文法検査システムのいくつかは、
面倒な単語、特に発音が同じで、スペルが異なる単語の
不適切な用法を訂正することによって英語慣用法を訂正
しようと試みている。例えば、「too」と「to」と
「two」、「their」と「they’re」と
「there」。他の一般的な誤りは、「maybe」
と「may be」など、単語が1語であるか、または
2語であるかを中心題目とする。また、「which」
と「whose」など、発音は同じであるが、しばしば
誤用される単語もある。
A) Grammar Correction Based on Part-of-Speech Probability In the past, some of the grammar checking systems described above
It attempts to correct English idioms by correcting improper usage of troublesome words, especially words with the same pronunciation but different spellings. For example, "too", "to" and "two", "their", "they're" and "there". Another common mistake is "maybe"
The main title is whether the word is one word or two words, such as and "may be". Also, "which"
And "whose" have the same pronunciation, but some words are often misused.

【0044】過去において、適切な用法を確認するため
に、文の文法性をこの文が英語で現れる確率として計算
した。そのような統計的手法は、文法的に正確な文には
高い確率を割り当て、文法的でない文には低い確率を割
り当てる。統計的手法は、英文の集合に関するトレーニ
ング、すなわちトレーニング・コーパスによって得られ
る。コーパスは、正確な用法を定義する。したがって、
そのような文法検査システムに文が入力されたときに、
文全体がコーパスに関連する確率を計算する。英語の語
彙全体、約60000語を受け入れるためには、数百兆
語のコーパスを使用しなければならないことを理解され
たい。さらに、それに相当する数の確率をコンピュータ
に記憶しなければならない。したがって、文全体を分析
する仕事は、計算中心かつ記憶中心である。
In the past, to confirm proper usage, the grammar of a sentence was calculated as the probability that the sentence would appear in English. Such statistical techniques assign high probabilities to grammatically correct sentences and low probabilities to non-grammatical sentences. Statistical techniques are obtained by training on sets of English sentences, ie, a training corpus. The corpus defines the exact usage. Therefore,
When a sentence is entered into such a grammar checking system,
Compute the probability that the entire sentence is associated with the corpus. It should be understood that to accept the entire English vocabulary, about 60,000 words, a corpus of hundreds of trillion words must be used. In addition, a corresponding number of probabilities must be stored in the computer. Thus, the task of analyzing an entire sentence is computationally and memory intensive.

【0045】本発明のシステムにおいて正確な用法を確
率するために、品詞のシーケンスの確率を導出する。こ
のために、システムをどの程度精巧にするかに応じて、
100ないし400の可能な品詞があると考えることが
できる。これは、数百兆に対して数百万の単語トレーニ
ング・コーパスに換算される。このタイプの分析は、ワ
ード・プロセシング用に使用されるものを含む標準の計
算プラットフォーム上で容易に実施することができる。
To establish the correct usage in the system of the present invention, the probabilities of the part of speech sequence are derived. For this, depending on how sophisticated the system is,
It can be considered that there are 100 to 400 possible parts of speech. This translates to millions of word training corpora for hundreds of trillions. This type of analysis can be easily performed on standard computing platforms, including those used for word processing.

【0046】したがって、本発明のシステムでは、まず
文をいくつかの品詞に分割する。例えば、文「I he
ard this band play」は、「代名
詞、動詞、限定詞、名詞、動詞」として分析される。文
をコーパスと比較することによって、この品詞シーケン
スの確率を決定する。また、これは、単にいわゆるトリ
グラムを考慮しなければ、実行不可能である。トリグラ
ムは、入力文中で隣接する三重の品詞である。通常、正
確さを確定するのには、3つの隣接する品詞を分析する
だけで十分である。これらのトリグラムの確率を使用し
て、特定の文が正確な用法を伴うことを確定する。した
がって、文全体を検査するのではなく、隣接する3つの
品詞の確率をトレーニング・コーパスから計算する。
Therefore, in the system of the present invention, the sentence is first divided into several parts of speech. For example, the sentence "I he
"ard this band play" is analyzed as "pronoun, verb, determiner, noun, verb". The probability of this part of speech sequence is determined by comparing the sentence with the corpus. Also, this is not feasible without simply considering so-called trigrams. Trigrams are triple parts of speech that are adjacent in the input sentence. Usually, it is sufficient to analyze three adjacent parts of speech to determine accuracy. The probabilities of these trigrams are used to determine that a particular sentence has correct usage. Therefore, instead of examining the entire sentence, the probabilities of three adjacent parts of speech are calculated from the training corpus.

【0047】一方が他方と混同される2つの文を仮定す
ると、上述の技法を使用して、どちらが正確な用法であ
るかを決定することができる。上述のシステムはこれを
低い誤り率で決定することができるので、2つの利点が
ある。第1の利点は、2つの文のどちらが正確かを明確
に確認することである。第2の利点は、正確な文を確定
した後、その品詞を他の文法検査モジュールが後の処理
のために使用できることである。
Assuming two sentences, one confused with the other, the techniques described above can be used to determine which is the correct usage. The system described above has two advantages because it can be determined with a low error rate. The first advantage is to clearly identify which of the two sentences is correct. A second advantage is that after determining the exact sentence, the part of speech can be used by other grammar checking modules for further processing.

【0048】次に、図2を参照すると、30で示される
入力文S1は、品詞タガ32ならびに34に示される候
補文S2に結合される。候補文S2は、混同される単語
のリスト36を含む入力を与えられる。タガ32は、3
8を見れば分かるように、文S1を最も起こりそうな品
詞シーケンスT1およびその確率P1に分割する。これ
は、チャーチ(Church)に記載されているものなどのア
ルゴリズムによって行われる。このアルゴリズムでは、
品詞の重複する可能性のあるすべてのトリグラムの確率
の最も起こりそうな積を計算することによって、最も起
こりそうな品詞シーケンスを得る。
Next, referring to FIG. 2, the input sentence S1 indicated by 30 is combined with the candidate sentence S2 indicated by the part of speech tags 32 and 34. The candidate sentence S2 is given an input that includes a list 36 of words to be confused. Tag 32 is 3
8, the sentence S1 is divided into the most likely part-of-speech sequence T1 and its probability P1. This is done by algorithms such as those described in Church. In this algorithm,
By calculating the most likely product of the probabilities of all possible trigrams of the part of speech, we obtain the most likely part of speech sequence.

【0049】文S1中の単語は、混同しやすい単語のリ
スト36の一部である。この場合、文S1に関する考え
られるすべての代替文S2は、リスト36に従って生成
される。文発生器34の出力は、タガ32に加えられ、
この場合もアルゴリズムによって、40に示される最も
起こりそうな品詞シーケンスT2およびその確率P2が
もたらされる。
The words in sentence S1 are part of a list 36 of easily confused words. In this case, all possible alternative sentences S2 for sentence S1 are generated according to list 36. The output of statement generator 34 is applied to tag 32,
Again, the algorithm yields the most likely part-of-speech sequence T2, shown at 40, and its probability P2.

【0050】38および40において文S1およびS2
の確率P1およびP2を導出した後、次に、最も正確で
ある可能性が高い品詞シーケンスを決定することが重要
である。選択すべき適切な文を決定するために、42に
示すように、P2とP1を比較し、P2−P1があるし
きい値eよりも大きい場合、44に示すように、文S2
が示唆される。P2−P1が≦eの場合、46に示すよ
うに変更は示唆されない。
At 38 and 40, the statements S1 and S2
After deriving the probabilities P1 and P2 of, it is then important to determine the most likely part-of-speech sequence. To determine the appropriate sentence to select, compare P2 and P1, as shown at 42, and if P2-P1 is greater than a certain threshold e, as shown at 44, the sentence S2
Is suggested. If P2-P1 ≤ e, no change is suggested, as shown at 46.

【0051】例えば、入力文が「I want to
here this band」であり、「here」
が正確な単語「hear」の代わりに誤用されていると
仮定すると、2つの文S1「I want to he
re this band」とS2「I want t
o hear this band」とを比較する必要
がある。
For example, if the input sentence is “I want to
"here this band" and "here"
Is misused in place of the exact word "ear", the two sentences S1 "I want to he
re this band "and S2" I want t
o hear this band ".

【0052】これら2つの文を比較するために、英文の
ある統計モデルを仮定すれば、文の全体的な確率の比較
を試みることができる。この手法は、「Information Pr
ocessing and Management」27(5):517-422、1991におい
て出版されたエリック・メイ他(Eric Mays、Fred Damer
eau、Robert Mercer)の文献「Context Bas
ed Spelling Correction」にお
いて探求され、計算に極めて費用がかかり、したがって
40,000語以上の語彙を必要とする制限のないテキ
ストを扱う場合、標準のコンピュータでは実行不可能で
ある。文の確率を直接計算できるようにするには、膨大
な量のトレーニング・データ、例えば最低400,00
0,000トレーニング単語、および膨大な量の記憶ス
ペースが必要である。
Assuming a statistical model of English sentences to compare these two sentences, one can try to compare the overall probabilities of the sentences. This method is called "Information Pr
Eric Mays, Fred Damer, published in Ocessing and Management, 27 (5): 517-422, 1991.
eau, Robert Mercer), "Context Bass"
Exploring in the "ed Spelling Correction," which is extremely expensive to compute, and therefore handles unrestricted text that requires a vocabulary of more than 40,000 words, is not feasible on a standard computer. To be able to calculate sentence probabilities directly, a huge amount of training data, for example at least 400,00
It requires 0000 training words and a huge amount of storage space.

【0053】反対に、図2に示される本発明のシステム
は、所与の入力文に対する最も起こりそうな品詞シーケ
ンスの確率と、それと混同される可能性があると考えら
れる文とを比較する。例えば、文「I want to
here this band」の確率を計算する代
わりに、このシステムは、その文について最も起こりそ
うな品詞シーケンス、例えば「代名詞、動詞、TO、副
詞、限定詞、名詞」を導出し、入力文についてこの品詞
シーケンスの確率を計算する。同様に、システムは、
「I want to heae this ban
d」について最も起こりそうな品詞シーケンス、例えば
「代名詞、動詞、TO、動詞、限定詞、名詞」を導出
し、その確率を関連する文について計算する。次いで、
本発明のシステムは、確率を比較することによって「h
ere」と「hear」のどちらかを使用するかを決定
する。
In contrast, the system of the present invention shown in FIG. 2 compares the probability of the most likely part-of-speech sequence for a given input sentence with a sentence that is likely to be confused with it. For example, the sentence "I want to
Instead of calculating the probability of "here this band", the system derives the most likely part-of-speech sequence for the sentence, for example, "pronoun, verb, TO, adverb, qualifier, noun", and this part-of-speech for the input sentence. Compute the probability of the sequence. Similarly, the system
"I want to hear this ban
The most likely part-of-speech sequence for "d", for example, "pronoun, verb, TO, verb, qualifier, noun" is derived and its probability is calculated for the relevant sentence. Then
The system of the present invention compares "h
er "or" ear "is used.

【0054】上述の確率を計算する代わりに、好ましい
実施形態では、本発明のシステムは、これらの確率の幾
何学的平均を、それらの語長を考慮することによって、
例えばP1の対数をS1中の単語の数で割ったものと、
P2の対数をS2中の単語の数で割ったものとを比較す
ることによって計算する。これは、単一の単語が「ma
ybe」と「may be」など一続きの単語と混同さ
れる場合に重要である。品詞シーケンスの確率を直接比
較する場合、統計学的言語モデルはより長い文により低
い確率を割り当てるので、結果は必ずしも正確であると
は限らないが、より長い文よりもより短い文のほうが有
利である。上述のことを図3に示す。
Instead of calculating the above probabilities, in a preferred embodiment, the system of the present invention calculates the geometric mean of these probabilities by considering their word length,
For example, the logarithm of P1 divided by the number of words in S1;
It is calculated by comparing the logarithm of P2 with the number of words in S2. This means that the single word "ma
This is important when confused with a series of words such as "ybe" and "may be". When comparing the probabilities of part-of-speech sequences directly, statistical language models assign lower probabilities to longer sentences, so the results are not always accurate, but shorter sentences are more advantageous than longer sentences. is there. The above is shown in FIG.

【0055】混同される単語のリスト36は、一般に以
下の組を含む。 to、too、two; I、me; its、it’s; their、they’re、there; whose、which; then、than; whose、who’s; our、are; hear、here; past、passed; accept、except; advice、advise; lose、loose; write、right; your、you’re; affect、effect; maybe、may be。
The list of confused words 36 generally includes the following set: to, too, two; I, me; it's, it's; their, theth're, there; whose, whoch; then, tan; whose, who's; accept, exclude; adice, advise; lose, loose; write, right; youth, you're; affect, effect;

【0056】本発明のシステムは、他の混同される単
語、および特にフランス語、イタリア語、スペイン語な
ど、他の言語に適用できることに留意されたい。この方
法は、チャーチ(Church)に記載されている方法、すな
わちトリグラムモデルを使用して、品詞タグ付けを実施
することができる限り、汎用的であることに留意された
い。
It should be noted that the system of the present invention is applicable to other confused words, and in particular to other languages, such as French, Italian, Spanish. Note that this method is universal as long as part-of-speech tagging can be performed using the method described in Church, a trigram model.

【0057】要約すると、図2および図3のシステム
は、正確である可能性が高い文を選択することの他に、
文の文法性について他の判定を確認する際に重要であ
る。上述のことは、文をいくつかの品詞に分割するため
によりよいかつより信頼できる法性を与える。
In summary, in addition to selecting sentences that are likely to be accurate, the systems of FIGS.
This is important when confirming other decisions about the grammatical nature of the sentence. The above provides a better and more reliable modality for breaking a sentence into several parts of speech.

【0058】文を訂正するためには、まず文をいくつか
の品詞に分割することができることが重要である。文法
チェッカがどの程度正確に動作することができるかは、
この分割の確度によって決定的に決まる。より信頼でき
る品詞生成を行うことによって、文法検査の最終結果を
はるかに信頼できるものにすることができる。
In order to correct a sentence, it is important that the sentence can first be divided into several parts of speech. How accurate the grammar checker can work is
It is determined crucially by the accuracy of this division. With more reliable part-of-speech generation, the final result of a grammar check can be much more reliable.

【0059】b)「a」と「an」の訂正 外国語を話す人が最も頻繁に犯す誤りの1つは、不定冠
詞「a」および「an」の用法であることを理解された
い。英語の規則は、不定冠詞「a」は、第1子音で発音
される単語の前に使用し、「an」は、第1母音で発音
される単語の前に使用することを明記している。これら
の英語の規則の本来的かつ不正確な実施は、次の単語の
最初の文字が母音であるか、または子音であるかをテス
トする。第1子音(母音)で発音されるほとんどの単語
は、実際第1子音(母音)で綴られるというのが事実で
あるが、以下の例の場合のようにいつもそうであるとは
限らない。例えば、単語「hour」は、第1子音
(h)を有するが、母音(例えばow)に対応する第1
音で発音される。同様に、単語「European」
は、第1子音(文字「E」)で始まるが、子音(例えば
「ye」に対応する第1音で発音される。
B) Correction of "a" and "an" It should be understood that one of the most frequent errors made by foreign speakers is the usage of the indefinite articles "a" and "an". The English rules specify that the indefinite article "a" is used before the word pronounced in the first consonant, and "an" is used before the word pronounced in the first vowel. . The intrinsic and incorrect implementation of these English rules tests whether the first letter of the next word is a vowel or consonant. It is true that most words pronounced with the first consonant (vowel) are actually spelled with the first consonant (vowel), but this is not always the case, as in the following example. For example, the word "hour" has a first consonant (h), but a first consonant (h) corresponding to a vowel (eg, ow).
Pronounced with sound. Similarly, the word "European"
Starts with the first consonant (letter "E") but is pronounced with the first consonant (eg, "ye").

【0060】この問題の以前の解決策は、すべての英単
語の発音の辞書を記憶することにある。これらの解決策
は、正確であるが、英語のすべての単語に対して膨大な
記憶スペースを必要とする。
A previous solution to this problem consists in storing a dictionary of pronunciations of all English words. These solutions, while accurate, require a great deal of storage space for all English words.

【0061】英語のすべての単語に対して辞書参照テー
ブルを使用するのではなく、本発明のシステムは、規則
に対する例外が見つからない場合、簡単な規則を適用す
る。規則に対する例外は、それぞれ母音で始まるが、最
初に子音で発音される、規則によって処理されない単
語、および子音で始まるが、最初に母音で発音される、
規則によって処理される単語に対応する2つの小さいテ
ーブル内に記憶される。これらの単語用の参照テーブル
は、60000語の汎用辞書ベース・システムと異な
り、300語未満を収容する。
Rather than using a dictionary lookup table for every word in English, the system of the present invention applies simple rules if no exception to the rule is found. Exceptions to the rules, each beginning with a vowel, are pronounced consonant first, words not processed by the rule, and beginning with a consonant, but pronounced first with a vowel,
It is stored in two small tables corresponding to the words processed by the rules. The lookup table for these words contains less than 300 words, unlike a general purpose dictionary-based system of 60000 words.

【0062】以下の表は、英語の例外がある単語のリス
トである。
The following table is a list of words with English exceptions.

【0063】表1 Ewell Ewell’s U U’s U−boat U−boat’s U−turn U−turn’s UFO UFO’s Uganda Uganda’s Ugandan Unitarian Unitarianism Unitarianism’s Uranus Uranus’ Uruguay Uruguay’s Uruguayan Utah Utah’s Utopia Utopia’s Utopian Utrecht Utrecht’s ewe ewe’s ewer ewer’s once one one’s one−armed one−eyed one−horse one−sided one−step one−time one−upmanship oneself ouija ouija’s ouija−board ouija−board’s ouijas u u’s ubiquitous ubiquity ubiquity’s ukase ukase’s ukulele ukulele’s ululate ululated ululating ululation ululation’s unanimity unanimity’s unanimous nuanimously unicorn unicorn’s unification unification’s unified uniform uniformed uniformity uniformly unify unifying unilateral unilaterally union union’s unionist unionist’s unique uniquely uniqueness unisex unison unison’s unit unit’s unite united unitedly uniting unity unity’s universal universality universality’s universally universe university university’s uranium uric urinal urinary urinate urinated urinating urine urine’s urines usable usage usage’s use use’s used useful usefully usefulness useless uselessly uselessness user user’s using usual usually usurer usurer’s usurious usurp usurpation usurpation’s usurper usurper’s usury usury’s utensil utnsil’s uterine uterine’s uterus uterus’ utilitarian utilitarianism utilitarianism’s utility utility’s utilizable utilization utilization’s utilize uvula uvula’s uvularTable 1 Ewell Ewell's U U's U-boat U-boot's U-turn U-turn's UFO UFO's Uganda Uganda's Ugandan Utani's Utanian's Utanian's Uganda Uruguayan Utah Utah's Utopia Utopia's Utopian Utrecht Utrecht's ewe ewe's ewer ewer's once one one's one-armed one-eyed one-horse one-sided one-step one-time one-upmanship oneself ouija oija's ouij a-board ouija-board's ouijas u u's ubiquitous ubiquity ubiquity's ukase ukase's ukulele ukulele's ululate ululated ululating ululation ululation's unanimity unanimity's unanimous nuanimously unicorn unicorn's unification unification's unified uniform uniformed uniform uniform uniform ue uniquely uniqueness unisex unison unison's unit unit's unite united unitedly uniting unity unity's universal universality universality's universally universe university university's uranium uric urinal urinary urinate urinated urinating urine urine's urines usable usage usage's use use 's used useful usefulness useless uselessly uselessness user use 'S using usual usually usurer usurer's usurious usurp usurpation usurpation's usurper usurper's usury usury's utensil utnsil's uterine uterine's uterus uterus' utilitarian utilitarianism utilitarianism's utility utility's utilizable utilization utilization's utilize uvula uvula's uvular

【0064】表2 ’em ’un F F’s H H’s H−bomb L L’s LSD M M’s MP MP’s N N’s NB NHS R R’s S S’s SOS X X’s X−ray Xmas Yvonne f f’s h h’s hauteur heir heiress heirloom honest honestly honesty honorarium honorary honorific honor honorable honorably honour honourable honourably hour hourglass hourly l l’s m m’s n n’s nb r r’s s s’s x x’sTable 2 'em'un F F's H H's H-bomb L L's LSD M M's MP MP's N N's NB NHS R R's S S's SOS X X 's X-ray Xmas Yvonne f f's h h's hauteur heir heiress heirloom honest honestly honesty honorarium honorary honorific honor honorable honorably honour honourable honourably hour hourglass hourly l l's m m's n n's nb r r' s s s's xx's

【0065】上述のことから、本発明の一部は、不定冠
詞の正確な用法を決定する際に重要なのは、単語を発音
する場合に発せられる第1音であるという認識を中心題
目とすることを理解されたい。
From the above, it can be seen that part of the present invention focuses on the recognition that what is important in determining the exact usage of an indefinite article is the first sound emitted when a word is pronounced. I want to be understood.

【0066】まず例外の限定されたリストを確立した
後、以下の3つの規則が適用される。第1の規則は、不
定冠詞「a」または「an」に続く単語が文字「eu」
で始まる場合に適用される。この場合、不定冠詞「a」
を使用しなければならない。第2の規則は、不定冠詞
「a」または「an」に続く単語が母音文字「a」、
「e」、「i」、「o」、「u」で始まる場合に適用さ
れる。この場合、不定冠詞「an」を使用しなければな
らない。第3の規則は、不定冠詞「a」または「an」
に続く単語が子音文字で始まる場合に適用される。この
場合、不定冠詞「a」を使用しなければならない。
After first establishing a limited list of exceptions, the following three rules apply: The first rule is that the word following the indefinite article "a" or "an" is the letter "eu"
Applies if it starts with. In this case, the indefinite article "a"
Must be used. The second rule is that the word following the indefinite article "a" or "an" is a vowel character "a",
It is applied when it starts with "e", "i", "o", "u". In this case, the indefinite article "an" must be used. The third rule is that the indefinite article "a" or "an"
Is applied if the word following the letter begins with a consonant letter. In this case, the indefinite article "a" must be used.

【0067】図4を参照すると、入力文300の各単語
w1およびそれに続く単語w2が入力文中の現在の単語
iの位置を追跡することによって確定されることがブロ
ック302、304、306によって決定される。現在
の単語が「a」または「an」でないことが308によ
って確定された場合、アルゴリズムは、ブロック30
4、306を介して次の単語に進む。現在の単語w1が
「a」または「an」であり、かつ次の単語w2が表1
内に見つかったことがブロック310によって確定され
た場合、必要ならば、現在の単語w1を「a」に訂正し
なければならないことが312によって指定される。次
の単語w2が表1内に見つからず、表2内に見つかった
ことがブロック314によって確定された場合、必要な
らば、現在の単語w1を「an」に訂正しなければなら
ないことが316によって指定される。その他の場合、
次の単語が文字「eu」で始まることがブロック318
によって確定された場合、必要ならば、現在の単語w1
を「a」に訂正しなければならないことが320によっ
て指定される。その他の場合、次の単語w2が文字
「a」、「e」、「i」、「o」、「u」で始まること
がブロック322によって確定された場合、必要なら
ば、現在の単語w1を「an」に訂正しなければならな
いことが324によって指定される。その他の場合、必
要ならば、現在の単語w1を「a」に訂正しなければな
らないことが326によって指定される。
Referring to FIG. 4, it is determined by blocks 302, 304, 306 that each word w1 and subsequent word w2 of the input sentence 300 is determined by tracking the position of the current word i in the input sentence. You. If it is determined by 308 that the current word is not "a" or "an", the algorithm proceeds to block 30
Go to the next word via 4,306. The current word w1 is “a” or “an” and the next word w2 is
If found in block 310, it is specified by 312 that the current word w1 must be corrected to "a" if necessary. If the next word w2 is not found in Table 1 and is found by Table 314 to be found in Table 2, then if necessary, the current word w1 must be corrected to "an" by 316. It is specified. Otherwise,
Block 318 that next word starts with letter "eu"
The current word w1 if necessary
Must be corrected to "a" by 320. Otherwise, if it is determined by block 322 that the next word w2 begins with the letters “a”, “e”, “i”, “o”, “u”, the current word w1 is replaced, if necessary. 324 specifies that it must be corrected to "an". Otherwise, if necessary, 326 specifies that the current word w1 must be corrected to "a".

【0068】c)不正確な助動詞シーケンスの訂正 上述のように、非ネイティブ・スピーカーは、英文を書
こうとするとき、しばしば複雑な助動詞シーケンス内で
不正確な時制を使用する。一例は「he has co
nsider」である。ここで、不正確な用法は、動詞
「consider」の時制である。現在の文法検査シ
ステムのうちで、助動詞シーケンスを認識することが明
らかに困難であり、また品詞タグが通常計算されないた
めに、助動詞シーケンスを検査するものはない。
C) Correcting Incorrect Auxiliary Verb Sequences As mentioned above, non-native speakers often use incorrect intensions in complex auxiliary verb sequences when trying to write English sentences. One example is "he has co
nsider ". Here, the incorrect usage is the tense of the verb "consider". None of the current grammar checking systems check auxiliary verb sequences because it is clearly difficult to recognize auxiliary verb sequences and because part of speech tags are not usually calculated.

【0069】本発明のシステムでは、次に図5を参照す
ると、文410を品詞タガ412によって分析して、4
14に示される関連する文の品詞を導出する。
In the system of the present invention, referring now to FIG. 5, the sentence 410 is analyzed by the part of speech tag
The part of speech of the related sentence shown in 14 is derived.

【0070】誤りを検出するために、不正確な助動詞シ
ーケンスの終点および始点を検出しなければならない。
例えば、文「he has been conside
rthis fact」では、誤りの終了、すなわち文
中の4番目の単語である「consider」を検出す
ることが重要である。「consider」の後のすべ
ての単語、すなわち「this fact」は、助動詞
シーケンスの正確さに影響を及ぼさない。同様に、誤り
の始点、すなわち文中の2番目の単語である「has」
を検出することが重要である。「has」の前のすべて
の単語は、助動詞シーケンスの正確さの決定に無関係で
ある。
To detect an error, the end and start of an incorrect auxiliary verb sequence must be detected.
For example, the sentence "he has been conside
In “rthis fact”, it is important to detect the end of the error, that is, the “consider”, which is the fourth word in the sentence. All words after "consider", ie, "this fact", do not affect the accuracy of the auxiliary verb sequence. Similarly, the starting point of the error, ie, "has", the second word in the sentence
It is important to detect All words before "has" are irrelevant for determining the correctness of the auxiliary verb sequence.

【0071】文の品詞を生成した後、終点検出ステップ
424を使用して、不正確な助動詞シーケンスの終了位
置を計算する。不正確な動詞シーケンス終了を検出する
ために、図6のブロック420に示すように、すべての
助動詞シーケンスのすべての正確な品詞シーケンスを、
以下で説明する図7に示される有向非輪状グラフ内に記
憶する。
After generating the part of speech of the sentence, an end point detection step 424 is used to calculate the end position of the incorrect auxiliary verb sequence. To detect an incorrect verb sequence end, all correct part-of-speech sequences of all auxiliary verb sequences are
It is stored in the directed acyclic graph shown in FIG. 7 described below.

【0072】ブロック422で、すべての正確な助動詞
シーケンスの有向非輪状グラフから、起こりそうなすべ
ての不正確な助動詞シーケンスに対応する他の有向非輪
状グラフを生成する。422に対応するグラフが得られ
た後、このグラフは、不正確な助動詞シーケンス「ha
ve−3rd−person verb−infini
tive」を含んでいる。これは、不正確な助動詞シー
ケンス「has consider」に対応する。誤り
の終点を検出するために、グラフを左から右にたどる
と、ついには入力ストリングが左から右に読まれる間に
終了状態に到達する。品詞が入力文中の単語に対応する
ので、グラフが最終状態に達したとき、入力文品詞が不
正確な助動詞シーケンス・グラフ内に読み込まれた場
合、これは、当該の助動詞シーケンスの終りにおいて単
語を一意に識別する。次いで、文中の位置に関するこの
単語の識別が終点検出器424によって示される。
At block 422, from the directed acyclic graph of all correct auxiliary verb sequences, another directed acyclic graph corresponding to all possible incorrect auxiliary verb sequences is generated. After a graph corresponding to 422 has been obtained, the graph may be replaced with the incorrect auxiliary verb sequence "ha
ve-3rd-person verb-infini
active ". This corresponds to the incorrect auxiliary verb sequence "has consider". Following the graph from left to right to detect the end point of the error, the end state is reached while the input string is read from left to right. If the input sentence part-of-speech is read into the incorrect auxiliary verb sequence graph when the graph reaches its final state, since the part-of-speech corresponds to a word in the input sentence, this means that at the end of the auxiliary verb sequence, Uniquely identify. The identification of this word with respect to its position in the sentence is then indicated by the endpoint detector 424.

【0073】同様に、始点検出器426は、当該の助動
詞シーケンスの始点に対応する単語を検出する。これ
は、誤りの終点を検出した後、グラフの始点に到達する
までグラフを右から左に逆方向にたどることによって行
われる。例えば、左から右に進む場合、システムは、
「has」を「have−3rd−singular」
として識別し、「consider」を「verb−i
nfinitive」として識別する。システムは、こ
の点において誤りがあることを検出し、単語「cons
ider」を不正確な助動詞シーケンス中の最後の単語
であるとして識別する。次いで、グラフ内の入力シーケ
ンス中を逆方向に進むと、「consider」を通過
し、「has」を通過する。これにより、この特定のグ
ラフの始まりに到達し、したがって単語「has」を助
動詞シーケンス中の最初の単語であるとして識別する。
Similarly, the start point detector 426 detects a word corresponding to the start point of the auxiliary verb sequence. This is done by detecting the end point of the error and then traversing the graph in the reverse direction from right to left until reaching the start of the graph. For example, when going from left to right, the system:
"Has" to "have-3rd-singular"
As “consider” and “verb-i
nfinitive ". The system detects that there is an error in this regard and the word "cons"
ider "as the last word in the incorrect auxiliary verb sequence. Then, going backwards through the input sequence in the graph, it passes through "consider" and through "has". This reaches the beginning of this particular graph, thus identifying the word "has" as being the first word in the auxiliary verb sequence.

【0074】再び図5を参照すると、助動詞シーケンス
の終点を決定した後、ブロック428でこの不正確なシ
ーケンスの終了位置を入力文の不正確なシーケンス内の
最後の単語として決定し、同様に、ブロック430で不
正確な文の開始位置を、入力文中のその位置を反映する
数として不正確なシーケンスを開始する単語の位置とし
て決定する。ブロック432に示すように、図8に示さ
れる他の有向非輪状グラフは、各不正確な助動詞シーケ
ンスごとに一組の可能な正確なシーケンスを指定する。
次いで、ユニット432は、不正確な助動詞シーケンス
を介して図8に示される有向非輪状グラフに至り、ブロ
ック434に示すようにユーザが閲覧するために一組の
可能な正確な助動詞シーケンスを出力する。
Referring again to FIG. 5, after determining the end of the auxiliary verb sequence, at block 428 the end of this incorrect sequence is determined as the last word in the incorrect sequence of the input sentence. At block 430, the start position of the incorrect sentence is determined as the position of the word that begins the incorrect sequence as a number reflecting that position in the input sentence. As shown in block 432, the other directed acyclic graph shown in FIG. 8 specifies a set of possible exact sequences for each incorrect auxiliary verb sequence.
Unit 432 then leads to the directed acyclic graph shown in FIG. 8 via the incorrect auxiliary verb sequence and outputs a set of possible correct auxiliary verb sequences for the user to view, as shown at block 434. I do.

【0075】図7を参照すると、可能なすべての助動詞
シーケンスについて、一組の可能な正確な助動詞シーケ
ンスを記述する有向非輪状グラフが構成される。図7を
見れば分かるように、グラフの左手側で、その始点44
0から、「be」、「were」、「was」、「i
s」、「am」、「are」、「been」、「ha
d」、「have」、「has」、「could」、
「should」、「might」、「may」、「c
an」、「must」、「would」、「shal
l」、「will」、「do」、「does」、「do
esn’t」など、英語のすべての助動詞を含んでいる
ボックス442がある。単語「be」〜「been」
は、ノード444に関連することを理解されたい。一般
に、ノードは、それらの助動詞の後にくる動詞が同じで
あることを指定する。例えば、「is」の後には単語
「being」がくる。同様に、単語「were」の場
合、例えば「were being」となる。したがっ
て、ノード444は、その後にくる動詞が同じである一
組の助動詞があることを示す。例えば、一組の単語「h
ad」、「have」、「has」に関連するノード4
46の後には、単語「been」がくる。同様に、ノー
ド448の場合、単語「could」〜「will」の
後には単語「have」がくる。また、これらの単語の
後には単語「do」がくる。最後に、ノード450は、
単語「do」、「does」、「doesn’t」の後
には「do」ではなく「have」がくることを指定す
る。
Referring to FIG. 7, for every possible auxiliary verb sequence, a directed acyclic graph describing a set of possible exact auxiliary verb sequences is constructed. As can be seen from FIG. 7, on the left hand side of the graph, the starting point 44
From 0, "be", "were", "was", "i"
s "," am "," are "," been "," ha "
d "," have "," has "," could ",
"Should", "might", "may", "c"
an "," must "," would "," shal "
l "," will "," do "," does "," do
There is a box 442 containing all auxiliary verbs in English, such as "esn't". Words "be" to "been"
Is associated with node 444. In general, nodes specify that the verbs following their auxiliary verbs are the same. For example, the word "being" comes after "is". Similarly, in the case of the word "were", for example, it is "were being". Thus, node 444 indicates that there is a set of auxiliary verbs that are followed by the same verb. For example, a set of words "h
node 4 related to "ad", "have", "has"
After 46 comes the word "been". Similarly, in the case of the node 448, the word “have” comes after the words “could” to “will”. After these words, the word "do" comes. Finally, node 450
After the words "do", "does", and "doesn't", "have" is specified instead of "do".

【0076】グラフ英語慣用法のこの方法は、実際、す
べての規則を吸収して、コンパクトな図式表現にし、し
たがって助動詞シーケンスの不正確さの正確さが得られ
る。
This method of graph English idiom, in fact, absorbs all the rules into a compact graphical representation, thus obtaining the accuracy of the inaccuracy of the auxiliary verb sequence.

【0077】図を見れば分かるように、上述のノードの
後にくる「???」と書かれたボックスがある。例え
ば、ボックス452である。このグラフの入力は、単語
のシーケンスと、それに続く品詞であることを想起され
たい。これは、本質的に入力に2つの変数を使用してタ
グ付けする。グラフがコンパクトさを保つために、記号
「???」は、このノードにおいて記述されないすべて
のものを表す。ノード454を参照すると、ボックス4
56は、「been」および「had」以外のすべての
ものがノード458に進むことを示す。したがって、ボ
ックス「???」の使用は、状態の出力上に記述されな
い記号を次のノードに接続することができることを表す
ことが分かる。
As can be seen from the figure, there is a box written “???” after the above-mentioned node. For example, box 452. Recall that the input to this graph is a sequence of words followed by a part of speech. This essentially tags the input using two variables. To keep the graph compact, the symbol "???" represents everything not described at this node. Referring to node 454, box 4
56 indicates that everything except "been" and "had" goes to node 458. Thus, it can be seen that the use of the box "???" indicates that symbols not described on the output of the state can be connected to the next node.

【0078】単語の他に、入力文は、品詞も含んでい
る。例えば、システムが文「haveconsider
ed」を分析するとき、このグラフを文「have h
ave considered vbn」と比較する。
「vbn」は、過去分詞形を表す。グラフの左手側から
開始し、460に示すように単語「have」を見つけ
る。ここから、右の過去ノード446から、上述のよう
にこの単語をノード454へ通過させるボックス462
に進む。ノード454から、考えられる単語は、464
では「been」、466では「had」であるが、ど
ちらも入力文に一致しない。他の代替例は、ノード45
8の右側への通過を可能にするボックス456に進み、
次いで過去分詞形を表す「vbn」を指定するボックス
460に進むことである。これによりノード470への
通過が可能になる。分析がボックス456を通過し、そ
れにより文「have considered」がグラ
フの終点472に進むことができるようになるので、考
慮している単語は容認できると考えられる。中間ノード
470と終点472の間には、空の単語を示す記号<E
>を有するブロック474がある。<E>で示されるボ
ックスの使用は、後続の単語または後続の品詞のような
ものを考慮することなくあるノードから次のノードに進
むことができることを示す。
In addition to words, input sentences include parts of speech. For example, if the system reads the statement "haveconsider
When analyzing "ed", this graph is represented by the sentence "have h
aveconsidered vbn. "
“Vbn” represents a past participle. Starting from the left hand side of the graph, find the word "have" as shown at 460. From here, from the right past node 446, a box 462 that passes this word to node 454 as described above.
Proceed to. From node 454, possible words are 464
In “been”, “had” in 466, neither match the input sentence. Another alternative is node 45
Proceed to box 456, which allows you to pass to the right of 8,
Next, the process proceeds to a box 460 for designating “vbn” representing the past participle. This allows passage to node 470. The word under consideration is deemed acceptable as the analysis passes through box 456, which allows the sentence "have consulted" to proceed to the end point 472 of the graph. Between the intermediate node 470 and the end point 472, the symbol <E indicating an empty word
>. The use of a box denoted by <E> indicates that it is possible to go from one node to the next without considering such things as a following word or a following part of speech.

【0079】ボックス442内で見つからなかった単語
については、それらをボックス476およびノード48
0から品詞ボックス482に送り、そこからノード48
4に送ることによって分析することができる。ボックス
486は、適切な場合、終点472へのアーク(弧形:
arc)を与えるか、またはノード484からボックス4
88を介してノード490に進み、そこから品詞ボック
ス492または494に進み、その後終点472に到達
する。最後に、ノード484は、単語を結合する場合、
ノード496およびボックス498に進み、ノード50
0に進む。ボックス502は、ノード484をノード5
04を介して品詞ボックス506に送り、次いで適切な
場合、終点472に進む。484で単語を「havin
g」ならびに「been」に結合する場合、それをノー
ド508からボックス510を介してノード512に送
り、そこからボックス514を介してノード516に送
る。その後、品詞518から終点472に進むか、また
はボックス520に進む。したがって、入力単語「ha
ving」、「been」が上述の経路を介して終点4
72に到達した場合、その適切な用法が正確であると決
定される。しかしながら、単語「being」をこのシ
ーケンスに加える場合、ノード512の出力をノード5
22およびボックス524からノード516に送る。
For words not found in box 442, they are placed in box 476 and node 48.
0 to the part-of-speech box 482, from which node 48
4 can be analyzed. Box 486 is an arc to the end point 472 (arc shape:
arc) or box 4 from node 484
Proceed to node 490 via 88, from which to part of speech box 492 or 494, and then reach endpoint 472. Finally, when node 484 combines words,
Proceed to node 496 and box 498 to go to node 50
Go to 0. Box 502 sets node 484 to node 5
04 to the part-of-speech box 506 and then to the end point 472 if appropriate. In 484, the word "havin
If it binds to "g" as well as "been", it sends it from node 508 to node 512 via box 510 and from there to node 516 via box 514. Thereafter, the process proceeds from the part of speech 518 to the end point 472 or to the box 520. Therefore, the input word “ha
wing "and" been "end point 4 via the above-mentioned route.
If it reaches 72, its proper usage is determined to be accurate. However, if the word "being" is added to this sequence, the output of node 512 will be
22 and box 524 to node 516.

【0080】要約すると、有向非輪状グラフは、すべて
の正確な助動詞の用法を指定する。したがって、同じグ
ラフをすべての不正確な助動詞シーケンスについて構成
することができる。したがって、すべての正確な用法を
示すグラフを構成すれば、すべての不正確な用法を示す
グラフが即座に得られる。この手法のコンパクトさは、
文を分析する場合に非常に効率的である。
In summary, a directed acyclic graph specifies all correct auxiliary verb usage. Thus, the same graph can be constructed for all incorrect auxiliary verb sequences. Thus, if a graph showing all the correct usages is constructed, a graph showing all the incorrect usages is immediately obtained. The compactness of this method is
It is very efficient when analyzing sentences.

【0081】次に、図8を参照すると、有向非輪状グラ
フの形をした有限状態変換器を使用して、不正確な助動
詞シーケンスの訂正を示唆することが、上で生成した不
正確な動詞シーケンスの非輪状グラフによって決定され
る。適切な訂正を示唆するために、助動詞は対になって
おり、各対の左側の単語は不正確であると識別され、右
側の単語は訂正されたものになる。例えば、助動詞シー
ケンス「will had」が不正確であることを識別
した後、図8のグラフを使用して、正確なシーケンスを
指定する。入力ノード530から始めて、ボックス53
2に進むことができる。このボックスの左側は、入力の
最初の単語と同じである。ノード534およびボックス
536を通過し、ノード538に到達した後、いま考え
ている単語は、単語「had」である。ボックス540
は、「had」を「have」に変更しなければならな
いことを示す。これは、実際、ノード542へ出力さ
れ、そこからボックス544を介して終点546に進
む。このパスによって終点546に到達した後、示唆さ
れる正確なシーケンスは「will have」であ
る。
Referring now to FIG. 8, using a finite state transformer in the form of a directed acyclic graph to suggest correction of an incorrect auxiliary verb sequence can be achieved by using the incorrectly generated incorrectly generated above. Determined by the non-ring graph of the verb sequence. Auxiliary verbs are paired to indicate proper correction, with the word on the left of each pair identified as incorrect and the word on the right being corrected. For example, after identifying that the auxiliary verb sequence "will had" is incorrect, the exact sequence is specified using the graph of FIG. Starting at input node 530, box 53
You can proceed to 2. The left side of this box is the same as the first word in the input. After passing through node 534 and box 536 and reaching node 538, the word under consideration is the word "had". Box 540
Indicates that "had" must be changed to "have". This is, in effect, output to node 542, from which it proceeds to end point 546 via box 544. After reaching end point 546 by this pass, the exact sequence suggested is "will have".

【0082】より複雑な場合は、不正確なシーケンス
「would considered」について考えた
場合である。対応する品詞タグは、「would wo
uldconsidered vbn」である。この場
合、まず「would:would」を示すボックス5
50を通過し、ボックス536からボックス538に進
むとノード538に到達する。ここで、ボックス54
0、552、554、556、558、560のいずれ
も適用されない。これは、これらのボックスのいずれも
単語「consider」を中に有さないためである。
ボックス562を介して、品詞分析ボックス564を介
する適切かつ正確な示唆は「wouldconside
r」であることに留意されたい。これは、グラフが、
「considered」が単語「consider」
の過去時制であることを検出したために到達した。この
ボックスは、現在時制を使用するよう示唆し、したがっ
て単語「consider」を示唆する。分析は、「v
bd:/vbd/vb」によって示される。vbdは過
去時制を意味し、vbは現在時制を意味することに留意
されたい。入力の他の正確な変更を与えるノード538
からいくつかの代替ノードがある。例えば、示唆された
シーケンスは、「would have consid
ered」であることがある。ここで、ボックス566
は「have」を追加することを指定する。ボックス5
68は、タグの場合、「have」の品詞hvをセット
にも追加することを指定する。ボックス570を通過し
た後、ボックス572は、過去時制形を現在時制形に変
更することを指定する。その場合、単語「consid
ered」は、それが過去時制ならびに過去分詞である
ので不変である。入力単語が「considered」
ではなく、「knew」である場合、ボックス572
は、過去時制である「knew」から現在分詞である
「known」への変更を指定する。
A more complicated case is a case where an incorrect sequence "world consid- ered" is considered. The corresponding part of speech tag is "world wo
oldconsidered vbn ". In this case, first, a box 5 indicating “would: would”
After passing through box 50 and proceeding from box 536 to box 538, node 538 is reached. Here, box 54
None of 0, 552, 554, 556, 558, 560 apply. This is because none of these boxes have the word "consider" in them.
Via box 562, appropriate and accurate suggestions via part-of-speech analysis box 564 are "worldconside
r ”. This is because the graph
"Considered" is the word "consider"
Reached for detecting that it was the past tense. This box suggests using the current tense, and thus suggesting the word “consider”. The analysis is "v
bd: / vbd / vb ". Note that vbd means past tense and vb means current tense. Node 538 that provides another exact change of the input
There are several alternative nodes from. For example, the suggested sequence may be "would have consid"
ered ". Here, box 566
Specifies that “have” is to be added. Box 5
Numeral 68 specifies that the part of speech hv of “have” is also added to the set in the case of a tag. After passing box 570, box 572 specifies that the past tense is to be changed to the current tense. In that case, the word "consid
"ered" is immutable because it is a past tense as well as a past participle. The input word is "considered"
Box 572 if not "new"
Specifies a change from the past tense “knew” to the present participle “know”.

【0083】図8のグラフの残部は、不正確な動詞シー
ケンスの様々な示唆された変更を、それらが不正確であ
ることが決定された後で行うために自明である。
The remainder of the graph of FIG. 8 is self-explanatory to make various suggested changes to incorrect verb sequences after they have been determined to be incorrect.

【0084】d)非ネイティブ・スピーカーのための語
形変化訂正 通常そうであるように、スペル・チェック・システム
は、一般に、辞書参照アルゴリズムを介してスペルを間
違えた単語を検出する。これは、一般に不注意によるキ
ー・ストロークまたは文字転置のためにスペル誤りをう
まく検出することができるが、これらのシステムは、他
のタイプのスペル誤りには無効である。最も注目すべき
は、非ネイティブ・スピーカーのスペル誤りまたはいつ
もではないが、単語中の文字の不注意による転置、また
は不注意による文字挿入または省略は、主として文法の
問題に起因することである。例えば、文「He dri
ved his car yesterday」につい
て考えると、誤りは、不注意または特定のスペリングの
知識の欠如のいずれでもなく、この場合、動詞「dri
ve」の過去時制に関する不確かさである。
D) Inflection Correction for Non-Native Speakers As is usually the case, spell checking systems generally detect misspelled words via a dictionary lookup algorithm. While this is generally successful in detecting misspellings due to inadvertent keystrokes or character transpositions, these systems are ineffective against other types of misspellings. Most notably, non-native speakers' misspellings or, if not always, inadvertent transposition of letters in words, or inadvertent insertion or omission of letters, are primarily due to grammatical problems. For example, the sentence "He dri
Considering "ved his car yesterday", an error is not either carelessness or lack of knowledge of a particular spelling, in which case the verb "dri
uncertainty about the past tense of "ve".

【0085】一般に、スペル・チェッカは、ミスタイプ
した単語と辞書中の単語との距離に基づいて適切なスペ
リングを示唆する。この距離は、一般に、置換、挿入、
転置、または削除を行う必要がある文字の数に基づいて
いる。結果は、しばしば奇妙である。例えば、上の例で
は、正確な示唆は、「drive」の過去時制、すなわ
ち「drove」であるが、現在のスペル・チェッカ
は、「dried」、特に「dripped」を示唆す
る。正確な単語「drove」が示唆されないことに留
意されたい。これは、現在のスペル・チェック・システ
ムは、検出されたスペリング誤りを文法に関して分析し
ないからである。
In general, the spell checker suggests appropriate spelling based on the distance between the mistyped word and the word in the dictionary. This distance is typically the displacement, insertion,
Based on the number of characters that need to be transposed or deleted. The result is often strange. For example, in the example above, the exact suggestion is "drive"'s past tense, or "draw", but the current spell checker suggests "dried", especially "dripped". Note that the exact word "drive" is not suggested. This is because current spell checking systems do not analyze detected spelling errors for grammar.

【0086】現在のシステムが適切なスペリングを示唆
する場合に有する問題の他の例には、不正確な比較級の
形容詞がある。例えば、非ネイティブ・スピーカーは、
「good」の比較級を選択する場合、しばしば比較級
形容詞を形成する通常の規則に基づいてgooderを
選択する。他の例として、非ネイティブ・スピーカー
は、名詞「child」の複数形を形成したい場合、こ
の場合も単数名詞に「s」を付加する場合に行う通常の
規則に基づいて「children」ではなく、単語
「childs」を選択することがある。
Another example of a problem that current systems have when suggesting proper spelling is an inexact comparative adjective. For example, non-native speakers
When choosing a "good" comparison, one chooses a gooder based on the usual rules that often form comparison adjectives. As another example, if a non-native speaker wants to form the plural of the noun "child", then instead of "children" based on the usual rules for adding "s" to a singular noun, The word "childs" may be selected.

【0087】現在のスペル・チェッカが上述の例におい
て適切な単語を示唆することができないことを示すため
に、代表的なスペル・チェッカは、いずれも文脈内で正
確でない単語「chills」、「child’s」、
「chill’s」「child」、「tildes」
を示唆する。現在のスペル・チェッカによるさらに不適
切な示唆は、「goodest」をどのようにして適切
に綴るかという示唆、すなわち「gooiest」およ
び「goosed」である。
To show that the current spell checker cannot suggest a suitable word in the above example, typical spell checkers use the words “childs”, “child”, which are all incorrect in context. 's',
"Child's", "child", "childes"
Suggests. Even more inappropriate suggestions by current spell checkers are suggestions on how to spell "goodest" properly, namely "goodest" and "gooded".

【0088】これらのタイプの誤りは、ネイティブ・ス
ピーカーにとって煩わしく、彼らはスペル・チェック機
能を使用することを拒否するようになるだけでなく、文
脈内または文脈外の熟知していない単語の中から選択す
ることを強いられるときの非ネイティブ・スピーカーの
フラストレーションのレベルは一層高くなる。
These types of mistakes are annoying to native speakers, not only will they refuse to use the spell checking function, but also from within-context or out-of-context unfamiliar words. Non-native speakers have a higher level of frustration when forced to make a choice.

【0089】次に、図9を参照すると、本発明では、複
数化、過去時制、過去分詞、比較級形成、最上級形成の
いずれかに関して通常の規則に従わない単語の代表的な
例を識別することが重要である。文法に基づいて生成さ
れた不正確な単語のこの独特なリストから、本発明のシ
ステムは、より適切な置換単語を示唆する。本発明のス
ペル・チェック・システムは、通常、辞書参照システム
によってスペル誤りを検出するように動作する。その
後、以下で説明するように、代表的な不正確な単語およ
び原形の概要ならびに形態論に基づいて、正確な単語が
示唆される。
Referring now to FIG. 9, the present invention identifies typical examples of words that do not follow the usual rules for any of pluralization, past tense, past participle, comparative class formation, and superlative formation. It is important to. From this unique list of incorrect words generated based on the grammar, the system of the present invention suggests more appropriate replacement words. The spell checking system of the present invention typically operates to detect spelling errors through a dictionary lookup system. The correct word is then suggested based on a summary and morphology of representative incorrect words and prototyping, as described below.

【0090】図9において、英単語コレクタ600は、
英単語辞書602、および英単語辞書602からの単語
と英単語形成の通常の規則608によって生成された辞
書606からの単語とを604において比較することに
よって生成された不正確な英単語のリスト604を含ん
でいる。比較の結果は、スペリング誤りではなく、不正
確な文法に基づく厄介な単語の上述の独特なリストであ
る。
In FIG. 9, the English word collector 600 includes:
A list of inaccurate English words 604 generated by comparing 604 the English word dictionary 602 and words from the English word dictionary 602 with words from the dictionary 606 generated by the usual rules 608 of English word formation. Contains. The result of the comparison is the above unique list of troublesome words based on incorrect grammar, not spelling errors.

【0091】次に、図10を参照すると、検出された不
正確な単語を実際に訂正するプロセスにおいて、英単語
辞書602は、図9に関して論じたように前に生成され
た不正確な英単語のリスト604とともに使用される。
検出された不正確な単語は、610において得られ、通
常、辞書参照を介して導出される。検出された不正確な
単語、ならびに不正確な英単語のリストは、不正確な単
語の原形および時制、数、比較級対最上級などの形態論
的特徴を決定するユニット612に加えられる。例え
ば、不正確な単語「drived」の場合、この単語の
原形は「drive」であり、その形態論的特徴は「過
去時制または過去分詞」である。原形および形態論的特
徴は、原形および形態論的特徴を、英単語辞書602内
の対応する英単語に関連づけて、示唆された訂正された
単語を与え、それにより文法の規則ならびに例外をも考
慮するユニット614に与えられる。
Referring now to FIG. 10, in the process of actually correcting the detected inaccurate words, the English word dictionary 602 uses the previously generated inaccurate English words as discussed with respect to FIG. Used with the list 604 of FIG.
The detected incorrect word is obtained at 610 and is typically derived via a dictionary lookup. The list of inaccurate words detected, as well as inaccurate English words, is added to a unit 612 that determines the inaccurate word's original form and morphological characteristics such as tense, number, comparative vs. superlative. For example, for the incorrect word "driven", the original form of the word is "drive" and its morphological feature is "past tense or past participle". The archetypal and morphological features relate the archetypal and morphological features to the corresponding English words in the English word dictionary 602 to provide suggested corrected words, thereby also taking into account grammatical rules and exceptions. To the unit 614 that performs the processing.

【0092】本質的に、代表的な不正確な用法に基づい
て原形および形態論的特徴を導出したシステムは、これ
らの訂正されない用法に関連づけられた適切な単語を示
唆することができるようになる。システムは、単純なス
ペリング誤りではなく、文法による問題である識別され
た問題単語を有する高度の参照を実施する。
In essence, a system that derives archetypal and morphological features based on typical incorrect usages will be able to suggest the appropriate words associated with these uncorrected usages. . The system performs a high level reference with the identified problem word that is a grammatical problem rather than a simple spelling error.

【0093】品詞タガは、システムによって示唆された
単語の確度を向上させるのに有用であることを理解され
たい。例えば、スペルを間違えた単語は、過去時制であ
るか、または過去分詞である。一例は、上述のことから
「drove」または「driven」になりうる「d
rived」の訂正である。「不正確な」単語が文中で
使用されている形が分かれば、品詞に基づいて適切な選
択を行うことができる。
It should be understood that part-of-speech tags are useful in improving the accuracy of words suggested by the system. For example, a misspelled word is a past tense or a past participle. One example is "d", which can be "dove" or "driven" from the above.
lived ". Knowing the form in which the "inaccurate" word is used in the sentence allows the appropriate choice to be made based on part of speech.

【0094】e)限定詞の不適切な用法の検出および訂
正 非ネイティブ・スピーカーにとってより困難な問題の1
つは、限定詞の用法の問題である。限定詞は、名詞句の
指示物を決定する「the」、「a」、「some」な
どの単語である。限定詞に関連する誤りの部類は3つあ
る。第1は、限定詞抜けである。例えば、文「John
read book」は、名詞句「book」の限定
詞が抜けている。限定詞誤りの第2の部類は、無関係の
限定詞が使用されていることである。一例は、「Joh
n went to the New York」であ
る。ここで、限定詞「the」は不適切であり、削除す
べきである。限定詞誤りの第3の部類は、限定詞と関連
する名詞とが一致しないことである。例えば、「Joh
n read many book」は、「many」
と「book」の数が一致しないことを示す。
E) Detection and Correction of Improper Use of Quantifiers One of the more difficult problems for non-native speakers
One is the problem of the usage of determiners. The qualifier is a word such as “the”, “a”, “some”, etc., which determines the referent of the noun phrase. There are three classes of errors related to determiners. The first is a missing determiner. For example, the sentence "John
"read book" is missing the qualifier of the noun phrase "book". A second class of determiner errors is the use of extraneous determiners. One example is "Joh
n sent to the New York ". Here, the qualifier "the" is inappropriate and should be deleted. A third class of determiner errors is that the noun associated with the determiner does not match. For example, "Joh
"n read many book" is "many"
And that the number of “book” does not match.

【0095】限定詞の不適切な用法を検出するために、
分析の際に品詞タグを使用する。品詞タガについては、
図2、図5、図15、図16および図18に関して説明
されている。タグ付けされた文の一例として、文、「J
ohn read longnovel」について考え
てみる。ここで、「John」に対するタグは固有名詞
であり、「read」に対するタグは「動詞過去」であ
り、「long」に対するタグは「形容詞」であり、
「novel」に対するタグは「単数名詞」である。
In order to detect improper usage of the determiner,
Use part-of-speech tags during analysis. For the part of speech tag,
This has been described with reference to FIGS. 2, 5, 15, 16, and 18. As an example of a tagged sentence, the sentence "J
"read read longlevel". Here, the tag for “John” is a proper noun, the tag for “read” is “past verb”, the tag for “long” is “adjective”,
The tag for "novel" is "singular noun".

【0096】図11に示すように、このシステムは、決
定ブロック700に示される名詞句を識別する。決定ブ
ロック700は、有効な名詞句を構成する品詞タグのシ
ーケンスを定義するパターンに最大限に一致させること
によって文中の名詞句を識別する。名詞句のパターン
は、[DET](MODS NOUN AND)*MO
DS NOUNheadによって与えられ、MODSの
パターンは、(MOD+ AND)*MODによって与
えられる。ここで、DET、MODS、NOUN、およ
びANDは、それぞれ限定詞、修飾語句、名詞、および
等位接続詞の品詞タグの組と定義される。表記[X]
は、囲まれた表現Xの0または1つの出現を意味し、表
記(X)*は、囲まれた表現Xの0または複数の出現を
意味する。X+などの+上付文字(実際は上付文字にし
ていない)は、表現Xの1つまたは複数の出現を意味す
る。
As shown in FIG. 11, the system identifies the noun phrases shown in decision block 700. The decision block 700 identifies the noun phrases in the sentence by maximally matching the pattern defining the sequence of part-of-speech tags that make up the valid noun phrases. The pattern of the noun phrase is [DET] (MODS NOUN AND) * MO
Given by DS NOUNhead, the pattern of the MODS is given by (MOD + AND) * MOD. Here, DET, MODS, NOUN, and AND are defined as a set of part-of-speech tags of a determiner, a modifier, a noun, and a coordination conjunction, respectively. Notation [X]
Means zero or one occurrence of the enclosed expression X, and the notation (X) * means zero or more occurrences of the enclosed expression X. A + superscript, such as X +, (which is not actually a superscript) means one or more occurrences of the expression X.

【0097】上記の目的は、名詞句を識別することであ
る。例えば、上記の文において、名詞句は、品詞シーケ
ンス「固有名詞」に対応する「John」であり、品詞
シーケンス「形容詞単数名詞」に対応する「long
novel」である。上記は、名詞句の始まりおよびそ
の終わりを識別することによって名詞句を一意に識別す
る。名詞句の構成要素の限定詞抜け、無関係の限定詞、
または数の不一致を検査するために名詞句を識別するこ
とが非常に重要である。
The purpose of the above is to identify noun phrases. For example, in the above sentence, the noun phrase is “John” corresponding to the part of speech sequence “proper noun”, and “long” corresponding to the part of speech sequence “adjective singular noun”.
Novel ". The above uniquely identifies a noun phrase by identifying the beginning and end of the noun phrase. Noun phrase components are missing, irrelevant determiners,
Or it is very important to identify noun phrases to check for number discrepancies.

【0098】702に示すように、名詞句が見つかった
ら、システムは、名詞句の限定詞が抜けていないかどう
かをテストする。このテストでは、名詞句全体NPを調
べ、また名詞句中の最後の単語である先頭名詞NOUN
headを調べる。headは、句中の最も重要な名詞
を指し、たいていの例では最後の単語であることが分か
っている。また、限定詞抜けのテストでは、名詞句の限
定詞DETを調べる。DETは、名詞句の最初の単語で
あるか、またはまったく現れない。先頭名詞が単数の非
固有名詞であり、かつDETが存在しないことが図12
の704および706で決定された場合、名詞句は、7
08で名称であるかどうかを確認するためにテストされ
る。名称は、固有名詞以外の大文字になっている句であ
ると考えられる。例えば、「The Atlanta
Police Department」および「Gra
dy Hospital」は名称である。名詞句が名称
であることが分からない場合、先頭名詞は、710でそ
れが集合名詞であるかどうかを確認するためにテストさ
れる。集合名詞は、不特定の量の物質、例えば、「ri
ce」、「fish」、「carbon」を表す名詞で
ある。集合名詞は、複数名詞として効果的に機能するの
で限定詞を必要としないことに留意されたい。
As shown at 702, when a noun phrase is found, the system tests whether the noun phrase's qualifier is missing. In this test, the entire noun phrase NP is checked, and the last word in the noun phrase, the first noun NOUN
Examine the head. head refers to the most important noun in the phrase, and has been found to be the last word in most cases. Also, in the test for quantifier omission, the qualifier DET of the noun phrase is examined. DET is the first word of a noun phrase or does not appear at all. FIG. 12 shows that the leading noun is a singular non-proper noun and DET does not exist.
704 and 706, the noun phrase is 7
At 08 it is tested to see if it is a name. The name is considered to be a capitalized phrase other than proper nouns. For example, "The Atlanta
"Policy Department" and "Gra
"dy Hospital" is a name. If the noun phrase is not known to be a name, the leading noun is tested at 710 to see if it is a collective noun. An aggregate noun is an unspecified amount of a substance, for example, "ri
ce "," fish ", and" carbon ". Note that collective nouns do not require a qualifier because they function effectively as plural nouns.

【0099】名詞句が名称である場合、712に示すよ
うに、先頭名詞が集合名称名詞であるかどうかを決定す
るために分析を行う。集合名称名詞は、集合名詞と同じ
であるが、名称中に現れる。例えば、文「She at
tended Harvard Universit
y」において、名詞句「Harvard Univer
sity」は名称であり、「University」は
集合名称名詞である。したがって、「Universi
ty」は、限定詞のない文中に現れることに留意された
い。また、集合名称名詞は、集合名詞と同じではないこ
とに留意されたい。例えば、「University」
は集合名称名詞であるが、集合名詞ではない。これは、
文「She attended a fine uni
versity」において、名詞「universit
y」には限定詞「a」が付いていることから理解でき
る。したがって、集合名称名詞があることが決定された
場合、示唆が出されないことを理解されたい。
If the noun phrase is a name, an analysis is performed to determine whether the head noun is a collective noun, as shown at 712. A set noun is the same as a set noun, but appears in the name. For example, the sentence "She at
trended Harvard Universalsit
y ", the noun phrase" Harvard Universal "
"sity" is a name, and "University" is a set name noun. Therefore, "Universi
Note that "ty" appears in sentences without a determiner. Also note that a set noun is not the same as a set noun. For example, "University"
Is a set noun, but not a set noun. this is,
The sentence "She attached a fine uniti
version, the noun "universit"
It can be understood from the fact that the "y" has the qualifier "a". Therefore, it should be understood that no suggestion is made if it is determined that there is a set name noun.

【0100】しかしながら、熟語の用法の問題がある。
714に示すように、名詞句が熟語の一部であるかどう
かを確認するために名詞句を分析する。これは、熟語辞
書中を調べることによって行われる。名詞句が熟語の一
部である場合も、示唆が出されない。例えば、文「Th
e event took place」において、名
詞句「place」は、限定詞が抜けているが、熟語
「to take place」の一部であるので示唆
は出されない。
However, there is a problem in the use of idioms.
As shown at 714, the noun phrase is analyzed to see if it is part of a idiom. This is done by looking up in the idiom dictionary. No suggestion is made if the noun phrase is part of a idiom. For example, the sentence "Th
In the event talk place, the noun phrase “place” is missing the qualifier, but is not suggested because it is part of the idiom “to take place”.

【0101】限定詞のない単数非固有名詞の場合、先頭
名詞が集合名詞でも、集合名称名詞でもなく、かつ名詞
句が熟語の一部でない場合、システムは、716に示す
ように、限定詞が抜けていることを示唆する。
In the case of a singular non-proper noun without a qualifier, if the leading noun is neither a collective noun nor a collective noun and the noun phrase is not part of a idiom, the system will Suggest missing.

【0102】次に、図13を参照すると、システムは、
無関係の限定詞について名詞句を検査する(図11に示
す720)。これは、次のようにして行われる。724
で示すように、名詞句を導入し、限定詞が存在するかど
うかを確認することによって先頭名詞が固有名詞である
か否かを722で決定する。上記の条件が満たされた場
合、726で、無関係の限定詞があることが決定され
る。例えば、「Johnwent to the Ne
w York」は、名詞句「New York」が固有
名詞である先頭名詞を含んでおり、かつ名詞句中に限定
詞、すなわち「the」があるので、無関係の限定詞を
有するものとして示される。固有名詞は、確率および文
脈に基づいて固有名詞の存在を決定するタガによって識
別される。
Next, referring to FIG. 13, the system comprises:
The noun phrase is checked for an unrelated qualifier (720 shown in FIG. 11). This is performed as follows. 724
As shown by, a noun phrase is introduced, and it is determined at 722 whether or not the leading noun is a proper noun by confirming whether or not a qualifier exists. If the above conditions are met, at 726 it is determined that there is an extraneous determiner. For example, "Johnwent to the Ne
"W York" is indicated as having an irrelevant determiner because the noun phrase "New York" includes the leading noun, which is a proper noun, and the noun phrase includes a qualifier, that is, "the". Proper nouns are identified by tags that determine the presence of the proper noun based on probability and context.

【0103】再び図11を参照すると、730に示すよ
うに、本発明のシステムは、次いで数の不一致について
名詞句を検査する。これをどのようにして行うかを、図
14に示す。数の一致の決定は、732に示すように、
名詞句中の先頭名詞が固有名詞であるかどうかを決定す
る検出器に名詞句を導入することによって行われる。こ
れは、固有名詞句が限定詞を含んでいる場合、それはす
でに無関係の限定詞誤りとして報告されているためであ
る。734に示すように、先頭名詞が固有名詞でないと
仮定すると、システムは、名詞句が限定詞を含んでいる
か否かを決定する。名詞句が限定詞を含んでいない場
合、数の不一致の問題は生じない。
Referring again to FIG. 11, as shown at 730, the system of the present invention then checks the noun phrase for a number mismatch. FIG. 14 shows how this is done. The determination of a number match is, as shown at 732,
This is done by introducing the noun phrase into a detector that determines whether the leading noun in the noun phrase is a proper noun. This is because if the proper noun phrase contains a determiner, it has already been reported as an irrelevant determiner error. As shown at 734, assuming that the leading noun is not a proper noun, the system determines whether the noun phrase contains a determiner. If the noun phrase does not contain a qualifier, the problem of number mismatch does not arise.

【0104】736に示すように、限定詞が存在する場
合、限定詞の数を先頭名詞の数と合わせて、単数か複数
かを検査する。それらが一致する場合、誤りは通知され
ない。一方、それらが一致しない場合、限定詞の数に一
致するように先頭名詞の数を変更するよう示唆が出され
る。したがって、文「John read onebo
oks」の場合、先頭名詞「books」を限定詞に一
致するように変更し、単数にするよう示唆される。同様
に、文「John read many book」の
場合、本発明のシステムは、先頭名詞「book」を限
定詞に一致するように複数に変更するよう示唆する。あ
るいは、システムは、限定詞を先頭名詞と異なるように
変更するようにすることもできる。ただし、これは、最
も可能性の低い方策である。前者は、適切な限定詞が何
であるべきかを確認することが困難なためによりよい結
果をもたらす。したがって、数に関して正確な限定詞が
適切に入力されたと仮定する。
As shown at 736, if a qualifier exists, the number of qualifiers is checked with the number of leading nouns to determine whether it is singular or plural. If they match, no error is signaled. On the other hand, if they do not match, a suggestion is made to change the number of leading nouns to match the number of qualifiers. Therefore, the sentence "John read onebo
In the case of "oks", it is suggested that the head noun "books" be changed to match the qualifier and singular. Similarly, for the sentence "John read many book", the system of the present invention suggests changing the head noun "book" to a plurality to match the qualifier. Alternatively, the system may change the qualifier to be different from the leading noun. However, this is the least likely strategy. The former gives better results because it is difficult to ascertain what the appropriate qualifier should be. Therefore, it is assumed that the correct quantifier for numbers has been properly entered.

【0105】要約すると、本発明のシステムは、いくつ
かの技法を使用して、タグ付けされた文を使用し、名詞
句、先頭名詞、固有名詞、集合名詞、集合名称名詞、熟
語を検出することによって、限定詞の不適切な用法を検
出し、訂正する。限定詞の誤用の適切な決定にとって重
要なことは、図11に関して上述したパターン・マッチ
ングを使用して名詞句を検出することである。
In summary, the system of the present invention employs several techniques to detect noun phrases, head nouns, proper nouns, collective nouns, collective nouns, idioms using tagged sentences. It detects and corrects inappropriate use of the determiner. What is important for proper determination of abuse of the determiner is to detect noun phrases using pattern matching as described above with respect to FIG.

【0106】f)固有名詞および他の本質的に大文字に
なっている単語の認識 文を分析する際、単語が固有名詞である場合、単語は他
のすべての名詞と異なって一意に識別できる形でふるま
うので、認識できることがかなり重要である。固有名詞
だけでなく、「Harvard Universit
y」などの名称中に現れるものなど、他の本質的に大文
字になっている単語をも認識することができるので、文
を解析し、理解することができ、したがって文法を分析
することができる。
F) Recognition of proper nouns and other words that are essentially capitalized When analyzing a sentence, if the word is a proper noun, the word will be uniquely identifiable unlike all other nouns. It's pretty important to be able to recognize. In addition to proper nouns, "Harvard University
It can also recognize other essentially capitalized words, such as those appearing in names such as "y", so that the sentence can be parsed and understood, and thus the grammar analyzed. .

【0107】単語は、2つの理由で英文中に大文字にな
って現れる。第1に、単語は、固有名詞であるか、また
は他の本質的に大文字になっている単語である。第2
に、単語は、文の始めか、またはある句読点の後に現れ
るが、それ以外の場合、大文字になっていない。一例と
して、文「Wells was an English
novelist」について考えてみると、「Well
s」は、固有名詞であるので大文字になっていることを
理解されたい。文「Wells were dug t
o provide drinking water」
について考えてみると、「Wells」は、文の最初の
単語であるので大文字になっている。
Words appear in capital letters in English sentences for two reasons. First, the words are proper nouns or other essentially capitalized words. Second
The word appears at the beginning of the sentence or after some punctuation, but otherwise is not capitalized. As an example, the sentence "Wells was an English"
Novelist, "Well
It should be understood that "s" is a proper noun and is therefore capitalized. The sentence "Wells were dug t
o provide drinking water "
, "Wells" is capitalized because it is the first word in the sentence.

【0108】したがって、最初の文では、文法検査シス
テムは、「Wells」が本質的に大文字になってお
り、したがって固有名詞であることを認識する。第2の
文では、文法検査システムは、「wells」が本質的
に大文字になっておらず、したがって普通の複数名詞で
あることを認識する。
Thus, in the first sentence, the grammar checking system recognizes that "Wells" is essentially capitalized and is therefore a proper noun. In the second sentence, the grammar checking system recognizes that "wells" is essentially not capitalized and is therefore a normal plural noun.

【0109】名詞が固有名詞であるか否かを決定する前
の手法では、システムは、本質的に大文字になっている
単語の認識に比較的限定された技法を適用した。1つの
手法は、文の最初の単語が本質的に大文字になっていな
いと仮定することであった。これは、最初の文によって
示されるように、固有名詞で始まる文の場合、役に立た
ない。
Prior to determining whether a noun was a proper noun, the system applied a relatively limited technique for recognizing words that were essentially capitalized. One approach has been to assume that the first word of the sentence is essentially not capitalized. This is useless for sentences that begin with proper nouns, as indicated by the first sentence.

【0110】他の手法は、すべての単語を固有名詞か、
または普通の単語(ただし両方ではない)として区別す
ることであった。上記の2つの文から、「Wells」
は、固有名詞にも、普通の単語にもなり、したがってこ
のタイプの分類システムは役に立たないことを理解され
たい。
Another approach is to use all words as proper nouns,
Or to distinguish them as ordinary words (but not both). From the above two sentences, "Wells"
Can be both proper nouns and ordinary words, so that this type of classification system is useless.

【0111】単語が固有名詞であるか否かを適切に識別
することができない明らかな問題は、辞書参照の際に、
間違った定義が検索されることである。簡単な文法検査
では、定義は不要であるが、適切な用法を決定するとき
に指導データおよび情報データを提供する高度のワード
プロセシングおよび文法検査システムでは、固有名詞お
よび他の本質的に大文字になっている単語を正確に識別
する必要がある。辞書参照機能が文法検査システムの一
部でない場合でも、固有名詞および他の本質的に大文字
になっている単語の識別は重要である。
An obvious problem of not being able to properly identify whether a word is a proper noun is that when referring to a dictionary,
The wrong definition is searched. Simple grammar checks do not require a definition, but advanced word processing and grammar checking systems that provide instructional and informational data when determining appropriate usage will require proper nouns and other essentially uppercase letters. You need to identify exactly which words you have. Even when the dictionary lookup function is not part of the grammar checking system, the identification of proper nouns and other essentially capitalized words is important.

【0112】単語が固有名詞であるか否かを識別するこ
との重要性は、トリグラム確率を使用して文中の各単語
の品詞を正確に決定しなければならない品詞タガの動作
に影響を及ぼす。単語の大文字形および非大文字形は、
異なったトリグラム確率を有するので、正確なトリグラ
ム確率を適用するためにタガが単語のどちらの形が文中
に存在するかを知ることが重要である。例えば、固有名
詞「Wells」のトリグラム確率は、普通名詞「we
lls」のトリグラム確率と異なっている。したがっ
て、タガは、文「Wells was an Engl
ish novelist」において、単語「Well
s」は固有名詞であることを認識し、したがって「We
lls」の大文字形のトリグラム確率を適用しなければ
ならない。
The importance of identifying whether a word is a proper noun affects the behavior of the part-of-speech tag that must use trigram probabilities to accurately determine the part of speech of each word in a sentence. Word capitalization and non-capitalization are
As having different trigram probabilities, it is important for Taga to know which form of a word is present in a sentence in order to apply accurate trigram probabilities. For example, the trigram probability of the proper noun “Wells” is the common noun “we”.
lls ”is different from the trigram probability. Therefore, Taga has the sentence "Wells was an Engl".
issue novelist), the word "Well"
s "is a proper noun and therefore" We
An uppercase trigram probability of "lls" must be applied.

【0113】単語が固有名詞または他の本質的に大文字
になっている単語ではなく、普通の単語であるかどうか
を確率するために、本発明のシステムは、各単語の2つ
の解釈のいずれか、すなわちその単語を固有名詞と解釈
するか、または普通名詞と解釈するかを決定する。シス
テムは、一方は名詞が固有名詞であると仮定し、他方は
普通名詞であると仮定して、文の2つの形を生成するこ
とによってこれを行う。次いで、システムは、2つの文
のトリグラムを比較する。単語が固有名詞であると仮定
した文がより高い確率を有する場合、その単語は固有名
詞であると考えられる。それ以外の場合、その単語は普
通名詞であると考えられる。
To establish whether a word is an ordinary word rather than a proper noun or other essentially capitalized word, the system of the present invention employs one of two interpretations of each word. That is, whether the word is interpreted as a proper noun or a common noun is determined. The system does this by generating two forms of the sentence, one assuming the noun is a proper noun and the other as a common noun. The system then compares the trigrams of the two sentences. If a sentence that assumes that a word is a proper noun has a higher probability, the word is considered to be a proper noun. Otherwise, the word is considered a common noun.

【0114】次に、図15を参照すると、名詞が固有名
詞であるか否かを確認するために、決定プロセスの2つ
のステップがある。800に示される第1のステップ
は、802に示すように、タグ付けされたトレーニング
・コーパスから始める事前処理ステップである。これ
は、各文の単語がその品詞タグが付けられた一組の文に
関連する。次に、トレーニング・コーパス802は、8
04に示すように、固有名詞でない単語または一般に本
質的に大文字になっていない単語を非大文字化するため
に改訂される。単語が固有名詞または名称としてタグ付
けされている場合、または頭文字である場合、または代
名詞「I」である場合、その単語は本質的に大文字にな
っていると考えられる。さらに、単語が文の始めに現れ
るか、または開いた引用符またはコロンの後に現れる場
合、および単語が文の始めにのみ現れるか、または開い
た引用符またはコロンの後にのみ現れる場合、それらは
非大文字化される。
Referring now to FIG. 15, there are two steps in the decision process to determine whether a noun is a proper noun. The first step, shown at 800, is a pre-processing step, starting at 802, with a tagged training corpus. This is related to a set of sentences where each sentence word is tagged with its part of speech. Next, the training corpus 802 contains 8
As shown at 04, the word is revised to capitalize words that are not proper nouns or words that are generally not essentially capitalized. If a word is tagged as a proper noun or name, or is an acronym, or is a pronoun "I", the word is considered to be essentially capitalized. In addition, if a word appears at the beginning of a sentence or after an open quote or colon, and if the word appears only at the beginning of the sentence or only after an open quote or colon, they are non- Capitalized.

【0115】より具体的には、図16に示すように、8
10で、もしあれば、コーパスから次の単語/タグ対を
得るために、タグ付けされたトレーニング・コーパス8
08を分析する。それが見つかった場合、812で、単
語が大文字になっているかどうかを確認するために単語
を分析する。単語が大文字になっている場合、814に
示すように、単語が文の最初の単語であるかどうか、ま
たは単語が開いた引用符またはコロンの後に現れるかど
うかを確認する。そうである場合、816に示すよう
に、単語が固有名詞または名称としてタグ付けされてい
るか、または頭文字であるか、代名詞「I」であるかを
確認するために単語をテストする。そうでない場合、8
18に示される改訂されたトレーニング・コーパス内で
その単語を非大文字化する。
More specifically, as shown in FIG.
At 10, a tagged training corpus 8 to get the next word / tag pair from the corpus, if any
Analyze 08. If found, at 812, analyze the word to see if it is capitalized. If the word is capitalized, check to see if the word is the first word in the sentence or if the word appears after an open quote or colon, as shown at 814. If so, as shown at 816, the word is tested to see if it is tagged as a proper noun or name, or is an initial or pronoun "I". Otherwise, 8
Capitalize the word in the revised training corpus shown at 18.

【0116】次に、再び図15を参照すると、820
で、単語のトリグラム確率モデルを得るために、改訂さ
れたトレーニング・コーパスを分析する。これにより、
単語が実際には普通名詞であるのにそれを固有名詞と誤
認識すること、または単語が実際には固有名詞であるの
にそれを普通名詞と誤認識することに関連する誤りをな
くすために修正されたトリグラムモデルが得られる。誤
りをなくすためにタグ付けされたトレーニング・コーパ
スを事前処理した後、822で、トリグラムモデルを使
用して、問題の単語が本質的に大文字になっているかど
うかを決定する意思決定を行う。これは、入力として文
中の単語を必要とし、出力は、単語の下地のスペリング
である。
Next, referring again to FIG.
Analyze the revised training corpus to obtain a trigram probability model of the word. This allows
To eliminate the error associated with misrecognizing a word as a proper noun when it is in fact a common noun, or misrecognizing a word as a proper noun when it is in fact a proper noun A modified trigram model is obtained. After pre-processing the tagged training corpus to eliminate errors, at 822, a decision is made using the trigram model to determine whether the word in question is essentially capitalized. It requires a word in the sentence as input, and the output is the spelling of the base of the word.

【0117】図17に示すように、単語が本質的に大文
字になっているかどうかを決定する822(図15)に
記載された意思決定プロセスは、850に示すように、
文中の単語から始まる。この単語を分析して、その最初
の文字が大文字であるかどうかを決定する。そうでない
場合、851に示すように、単語の解釈は、文によって
文字通り与えられるものである。すなわち、単語が文中
で大文字になっているように見える場合、その単語は固
有名詞と解釈される。単語が文中で大文字になっていな
いように見える場合、その単語は普通名詞と解釈され
る。したがって、単語が大文字になっていない場合、特
別な処置はとられない。
As shown in FIG. 17, the decision making process described in 822 (FIG. 15) for determining whether a word is essentially capitalized, as shown in 850,
Start with a word in the sentence. Analyze this word to determine if its first letter is uppercase. Otherwise, as shown at 851, the interpretation of the word is given literally by the sentence. That is, if a word appears to be capitalized in the sentence, the word is interpreted as a proper noun. If the word does not appear to be capitalized in the sentence, the word is interpreted as a common noun. Therefore, no special action is taken if the word is not capitalized.

【0118】次に、単語が大文字になっていると仮定す
ると、854を見れば分かるように、単語が文の最初の
単語であるかどうか、または単語が開いた引用符または
コロンの後にくるかどうかを決定する。そうでない場
合、それ以上の処置はとられない。そうである場合、8
56に示すように、単語が頭文字であるかどうかを確認
するためにさらに単語を処理する。頭文字は、そのすべ
てのアルファベット文字が大文字になっていること、ま
たはそれが頭文字辞書にあることによって識別される。
単語が頭文字であることが決定された場合、再びそれ以
上の処理は行われない。
Next, assuming that the word is capitalized, as can be seen from 854, whether the word is the first word in a sentence, or whether the word comes after an open quote or colon Determine whether or not. Otherwise, no further action is taken. If so, 8
As shown at 56, the word is further processed to see if it is an initial. An initial is identified by all its alphabetic letters being capitalized or by being in the initials dictionary.
If it is determined that the word is an initial, no further processing is performed again.

【0119】単語が頭文字でない場合、858に示すよ
うに、システムは、859に示されるトリグラムモデル
に従って、文の2つの形、すなわち問題の単語が大文字
になっている固有名詞として処理されるもの、他方は、
問題の単語が大文字になっていない普通名詞として処理
されるものの確率Pc、Puを計算する。計算は、上述
の品詞タガに従って記載されているとおりである。
If the word is not an initial, as shown at 858, the system treats the sentence as two forms, a proper noun with the word in question capitalized, according to the trigram model shown at 859. The other,
Calculate the probabilities Pc, Pu of the word in question being treated as a common noun without capitalization. The calculation is as described according to the part of speech tag described above.

【0120】860に示すように、大文字になっていな
い単語を有する文の確率Puが大文字になっている単語
を有する文の確率Pcよりも高い場合、システムは、単
語の大文字になっていないスペリングを最も可能性の高
い下地のスペリングとして戻し、それによりこのスペリ
ングを後の文法検査に使用することができる。それ以外
の場合、864に示すように、システムは、単語の大文
字になっているスペリングを最も可能性の高い下地のス
ペリングとして戻す。
As shown at 860, if the probability Pu of a sentence having a word that is not capitalized is higher than the probability Pc of a sentence that has a word that is capitalized, the system may consider the spelling of the word not being capitalized. Is returned as the most likely underlying spelling, so that this spelling can be used for later grammar checking. Otherwise, as shown at 864, the system returns the capitalized spelling of the word as the most likely underlying spelling.

【0121】単語の下地のスペリングを回復することに
よって、文法検査システムをより正確かつより有用にす
ることができることに留意されたい。下地のスペリング
の回復は、次の2つのステップを必要とする。第1のス
テップは、単語が固有名詞であるか否かの誤識別によっ
てもたらされる誤りについてトレーニング・コーパスの
品詞を訂正することである。第2のステップは、単語の
大文字になっているスペリングまたは大文字になってい
ないスペリングがより適切であるかどうかを確認する一
連の分析を実施する。これは、事前処理ステップにおい
て得られた改訂されたトリグラム確率モデルを使用し
て、単語が本質的に大文字になっているかどうかを決定
する意思決定要素によって行われる。
It should be noted that restoring the spelling of the underlying word can make the grammar checking system more accurate and more useful. Restoring the underlying spelling requires the following two steps. The first step is to correct the part of speech in the training corpus for errors caused by misidentification of whether the word is a proper noun. The second step performs a series of analyzes to see if the capitalized or uncapitalized spelling of the word is more appropriate. This is done by the decision factor using the revised trigram probability model obtained in the preprocessing step to determine whether the word is essentially capitalized.

【0122】g)文脈に基づく辞書アクセス テキストを書くとき、非ネイティブ・スピーカーは、一
言語辞書または二言語辞書の使用可能度を利用する。辞
書は、非ネイティブ・スピーカーが利用する言語に関す
る最も有用な情報源の1つである。辞書の使用は、文法
検査の問題に限定されるものではなく、一般にテキスト
を書くときに有用であることを理解されたい。また、ネ
イティブ・スピーカーでも、テキストを構成するときに
辞書またはシソーラスをかなり利用することを理解され
たい。
G) Context-based dictionary access When writing text, non-native speakers make use of the availability of a monolingual or bilingual dictionary. Dictionaries are one of the most useful sources of language for non-native speakers. It should be understood that the use of dictionaries is not limited to grammar checking problems, but is generally useful when writing text. Also, it should be understood that native speakers also make extensive use of dictionaries or thesaurus when constructing text.

【0123】辞書の見出し語にアクセスすることは、文
脈外の単語は、そのシンタックス挙動ならびにその意味
において、非常に曖昧であるので、思ったほど簡単では
ない。辞書中の所与の単語は、一般に20語、30語、
またはもっと多くの見出し語を有することを理解された
い。この多数の見出し語のために、辞書の使用は非常に
時間がかかる。
Accessing dictionary entries is not as straightforward as one might expect, as words outside of context are very ambiguous in their syntax behavior as well as in their meaning. A given word in the dictionary is generally 20 words, 30 words,
Or have more headwords. Due to this large number of headwords, the use of dictionaries is very time consuming.

【0124】例えば、文脈外で、単語「left」は、
英語の辞書中に次のような多数の見出し語を有する。文
「His left arm」のように形容詞「lef
t」に対する見出し語、文「he moved lef
t on enteringthe room」のよう
に副詞「left」に対する見出し語、文「Make
a left at the next corne
r」のような名詞「left」に対する見出し語、およ
び文「He left a minute ago」の
ような動詞「leave」の過去形「left」に対す
る見出し語。しかしながら、単語「left」が英文中
に現れたとき、この見出し語のうちのただ1つが文脈に
関連する。現在、文脈に基づいて単語の正確な見出し語
にアクセスすることができる辞書はない。
For example, outside the context, the word “left” is
It has a number of headwords in the English dictionary: As in the sentence "His left arm", the adjective "left
t ”, the sentence“ he moved ref
Tongue for the adverb “left”, such as “t on entering the room”, the sentence “Make
a left at the next cone
a headword for the noun “left” such as “r” and a headword for the past tense “left” of the verb “leave” such as the sentence “He left a minute ago”. However, when the word "left" appears in an English sentence, only one of the headwords is relevant to the context. Currently, there is no dictionary that can access the exact headword of a word based on context.

【0125】本発明のシステムでは、辞書の見出し語を
選択し、文脈内の所与の単語に割り当てられた品詞に基
づいてランク付けする。まず、文脈内の単語に対応する
見出し語を選択する。現在の文脈に関連しない他の見出
し語は、ユーザの依頼によりまだ使用できる。文脈内の
所与の単語の品詞は、上述の品詞タガによって明確にさ
れる。
The system of the present invention selects dictionary headwords and ranks them based on the part of speech assigned to a given word in context. First, a headword corresponding to the word in the context is selected. Other headwords not relevant to the current context are still available at the request of the user. The part of speech of a given word in context is defined by the part of speech tag described above.

【0126】例として、文「He left a mi
nute ago」中の単語「left」を仮定する
と、品詞タガは、その文中の単語「left」に対して
タグ「動詞過去時制」を割り当てる。この場合、本発明
のシステムは、「left」の用法に対応する動詞「l
eave」に対する見出し語を選択し、次いでその文脈
内で使用されていない「left」に対する見出し語、
特に「left」に対する見出し語を形容詞、副詞およ
び名詞として選択する。
As an example, the sentence “He left a mi
Assuming the word “left” in “nute ago”, the part of speech tag assigns the tag “verb past tense” to the word “left” in the sentence. In this case, the system of the present invention uses the verb "l" corresponding to the usage of "left".
eave ", then a headword for" left "that is not used in that context,
In particular, the headword for "left" is selected as an adjective, an adverb and a noun.

【0127】文「It has several ba
ses」中の単語「bases」を仮定すると、品詞タ
ガは、その文中の単語「bases」に対して2つのタ
グ「名詞複数形」を割り当てる。文脈外で、単語「ba
ses」は、名詞「basis」の複数形、名詞「ba
se」の複数形、ならびに動詞「base」の三人称に
なりうることを理解されたい。文脈「It has s
everal bases」の場合、本発明のシステム
は、その文脈内の単語「bases」に対応する名詞
「base」および「basis」に対する見出し語を
選択し、次いでその文脈内で使用されていない「bas
es」に対する見出し語、特に動詞「base」に対す
る見出し語を選択する。
The sentence "It has several ba"
Assuming the word "bases" in "ses", the part of speech tag assigns two tags "noun plural" to the word "bases" in the sentence. Out of context, the word "ba
ses ”is the plural of the noun“ basis ”and the noun“ ba
It should be understood that this can be the plural of the "se", as well as the third person of the verb "base". Context "It has s
In the case of "every bases", the system of the present invention selects headwords for the nouns "base" and "basis" corresponding to the word "bases" in that context, and then selects "bass" that are not used in that context.
Select a headword for "es", especially for the verb "base".

【0128】次に、図18を参照すると、文脈に基づい
て辞書から文900内に現れる単語の見出し語を選択す
るために、文脈と無関係の単語に対応する原形および品
詞の対の組を計算する形態論アナライザ910によって
その単語を分析する。一例として、単語「left」の
場合、形態論アナライザは、以下の原形および品詞の対
の組を出力する。(「left」、「形容詞」)、
(「left」、「副詞」)、(「left」、「単数
名詞」)、(「leave」、「動詞過去時制)。形態
論アナライザ910は、英語のすべての単語のすべての
語形変化によって索引付けされたテーブルおよび原形お
よび品詞の対の組であるその見出し語を調べることによ
って動作する。また、文脈内の単語に対応する独特の品
詞タグT940を生成するために文脈内の品詞タガ93
0によってその単語を分析する。これは、Applied Natu
ral Language Processing、Austin Texas、1988のSecond
ConferenceのProceedingsの「A Stochastic Parts Prog
ram and Noun Phrase Parser for Unrestricted Text」
に記載されているケネス・チャーチの確率論的部分プロ
グラム(Kenneth Church's Stochastic Parts Progra
m)の一実施形態として入手できる品詞タガによって行
う。
Next, referring to FIG. 18, in order to select a headword of a word appearing in the sentence 900 from the dictionary based on the context, a pair of the original form and the part of speech corresponding to the word irrelevant to the context is calculated. The word is analyzed by a morphology analyzer 910. As an example, for the word "left", the morphological analyzer outputs the following pairs of original and part of speech. ("Left", "adjective"),
("Left", "adverb"), ("left", "singular noun"), ("leave", "verb tense") The morphology analyzer 910 indexes by all inflections of all English words. It operates by examining the attached table and its headword, which is a set of original and part-of-speech pairs, and a part-of-speech tag 93 in the context to generate a unique part-of-speech tag T940 corresponding to the word in the context.
The word is analyzed by 0. This is Applied Natu
ral Language Processing, Austin Texas, Second in 1988
`` A Stochastic Parts Prog '' at Conference Proceedings
ram and Noun Phrase Parser for Unrestricted Text ''
Kenneth Church's Stochastic Parts Progra
m) by the part of speech tag available as an embodiment.

【0129】例えば、単語が文脈「He left a
minute ago」内の「left」である場
合、品詞タガは、品詞タグ「動詞過去時制」を出力す
る。文脈に対応する形態論原形を文脈に対応しない形態
論原形から分離するために、ユニット920は、原形お
よび品詞の対の組920を、品詞タグ940に対応する
組950と、品詞タグ940に対応しない組960の2
つの組に分割する。前の例では、文脈に対応する原形お
よび品詞の対の組は、(「leave」、「動詞過去時
制」)である。文脈に対応しない原形および品詞の対の
組は、(「left」、「形容詞」)、(「lef
t」、「副詞」)、(「left」、「単数名詞」)で
ある。文脈に対応する辞書からの見出し語を表示するた
めに、980で、文脈950に対応する原形および品詞
の対の組内に見つかった原形に対応する辞書970内の
すべての見出し語を表示する。上記の例では、動詞「l
eave」に対するすべての見出し語は、文脈に関連す
る見出し語として表示される。文脈に対応しない辞書か
らのすべての見出し語を表示するために、980で、文
脈960に対応する原形および品詞の対の組内に見つか
った原形に対応する辞書970内のすべての見出し語を
表示する。上記の例では、単語「left」に対するす
べての見出し語は、文脈に関連しない見出し語として表
示される。
For example, if a word is in context "He left a
If it is “left” in “minute ago”, the part of speech tag outputs a part of speech tag “verb past tense”. To separate the morphological primitive corresponding to the context from the morphological primitive that does not correspond to the context, the unit 920 converts the pair 920 of the primitive and the part of speech into the set 950 corresponding to the part of speech tag 940 and the part of speech tag 940. No pair 960-2
Divide into two sets. In the previous example, the pair of the original form and part of speech pair corresponding to the context is (“leave”, “verb tense”). A pair of a primitive and a part of speech that does not correspond to a context is (“left”, “adjective”), (“left
t "," adverb "), (" left "," singular noun "). To display the headwords from the dictionary corresponding to the context, at 980 all the headwords in the dictionary 970 corresponding to the root forms found in the pair of the original and part of speech pairs corresponding to the context 950 are displayed. In the above example, the verb "l
All headwords for "eave" are displayed as context-related headwords. At 980, display all headwords in the dictionary 970 corresponding to the archetype found in the original and part-of-speech pair set corresponding to the context 960 to display all headwords from the non-contextual dictionary I do. In the above example, all headwords for the word “left” are displayed as headwords that are not relevant to the context.

【0130】ネイティブ・スピーカーまたは非ネイティ
ブ・スピーカーにとって、文脈に基づく辞書から見出し
語を選択する能力は、一言語辞書ならびに二言語辞書に
使用できることを理解されたい。本発明のシステムは、
文脈に関連する見出し語を選択することができ、したが
ってユーザが読まなければならない見出し語の数が大幅
に減る。
It should be understood that for native or non-native speakers, the ability to select headwords from a context-based dictionary can be used for monolingual as well as bilingual dictionaries. The system of the present invention
Entry words that are relevant to the context can be selected, thus greatly reducing the number of entry words that the user must read.

【0131】以上、本発明のシステムのいくつかの実施
形態を示したが、本発明の精神内で修正および変更を行
うことができることを当業者なら理解できよう。したが
って、本発明の範囲を限定するのは、首記の請求の範囲
に記載されているもののみとする。
While several embodiments of the system of the present invention have been shown, those skilled in the art will appreciate that modifications and variations can be made within the spirit of the present invention. Accordingly, the scope of the invention is limited only by the following claims.

【0132】[0132]

【発明の効果】この発明に係る文法検査システムは、以
上説明したとおり、文の単語を品詞に関してタグ付けす
る手段を含む、文法が正確かどうか文を単語ごとに分析
する手段と、不定冠詞の不適切な用法を検出するモジュ
ール手段、前記単語が本質的に大文字になっているかど
うかを確定するモジュール手段、不適切な限定詞、限定
詞抜け、無関係の限定詞を検出するモジュール手段、前
記単語について不適切な語形変化を検出するモジュール
手段、不適切な助動詞シーケンスを検出するモジュール
手段、並びに辞書及び前記文中の前記単語の文脈に基づ
いて前記辞書にアクセスするモジュール手段のうち、シ
ステムに結合された1つ又は複数の前記モジュール手段
の出力に基づいて訂正された単語を示唆する手段とを備
えたので、文法誤りをより正確に表示でき、そのような
誤りを過訂正なしに訂正することができるという効果を
奏する。
As described above, the grammatical inspection system according to the present invention includes means for analyzing a sentence for each word to determine whether the grammar is accurate, including means for tagging the words of the sentence with respect to part of speech, Module means for detecting improper usage; module means for determining whether the word is essentially capitalized; module means for detecting improper qualifiers, missing qualifiers, and irrelevant qualifiers; Module means for detecting improper inflections, module means for detecting improper auxiliary verb sequences, and module means for accessing the dictionary based on the context of the dictionary and the words in the sentence. Means for suggesting a word that has been corrected based on the output of one or more of the module means. It can more accurately display an effect that it is possible to correct such errors without excessive correction.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1に係る、完全文法検
査に使用される様々なモジュールを示す完全文法検査シ
ステムのブロック図である。
FIG. 1 is a block diagram of a complete grammar checking system showing various modules used for a full grammar check according to Embodiment 1 of the present invention;

【図2】 この発明の実施の形態1に係る、品詞シーケ
ンスの一部の確率を使用して、混同しやすい単語を訂正
する方法を示すブロック図である。
FIG. 2 is a block diagram showing a method for correcting a word that is easily confused by using a part of the probabilities of a part of speech sequence according to Embodiment 1 of the present invention;

【図3】 この発明の実施の形態1に係る、確率的しき
い値を決定する文長平均化を使用して、図2の確率決定
構成要素について混同しやすい単語を訂正する方法を示
すブロック図である。
FIG. 3 is a block diagram illustrating a method for correcting words that are likely to be confused for the probability determining component of FIG. 2 using sentence length averaging to determine a probabilistic threshold according to Embodiment 1 of the present invention; FIG.

【図4】 この発明の実施の形態1に係る、冠詞の適切
な用法が得られるように単語を綴る方法と異なるように
単語を発音する方法に基づいて、英語例外の特殊テーブ
ルを使用して、不定冠詞「a」および「an」を訂正す
る方法を示す図である。
FIG. 4 uses a special table of English exceptions based on a method of pronouncing a word differently from a method of spelling a word to obtain an appropriate usage of an article according to the first embodiment of the present invention. FIG. 4 is a diagram showing a method of correcting indefinite articles “a” and “an”.

【図5】 この発明の実施の形態1に係る、始点検出器
および終点検出器を使用して、訂正された文を得ること
によって、不正確な助動詞シーケンスを訂正する方法を
示すブロック図である。
FIG. 5 is a block diagram illustrating a method for correcting an incorrect auxiliary verb sequence by obtaining a corrected sentence using a start point detector and an end point detector according to Embodiment 1 of the present invention; .

【図6】 この発明の実施の形態1に係る、正確な動詞
シーケンスを示す有向非輪状グラフを使用した図5の始
点検出器および終点検出器の構成のブロック図である。
FIG. 6 is a block diagram of a configuration of a start point detector and an end point detector of FIG. 5 using a directed acyclic graph indicating an accurate verb sequence according to Embodiment 1 of the present invention;

【図7】 この発明の実施の形態1に係る、英語の助動
詞シーケンスの組を示す有向非輪状グラフである。
FIG. 7 is a directed acyclic graph showing a set of English auxiliary verb sequences according to Embodiment 1 of the present invention;

【図8】 この発明の実施の形態1に係る、不正確な助
動詞シーケンスに対して訂正を示唆する有限状態変換器
を示す有向非輪状グラフである。
FIG. 8 is a directed acyclic graph showing a finite state transducer that suggests correction for an incorrect auxiliary verb sequence according to Embodiment 1 of the present invention.

【図9】 この発明の実施の形態1に係る、すべての英
語に系統的に適用される英語形成の通常の規則に基づい
て、本物でない英語辞書に対応する不正確な単語のリス
トを計算する、非ネイティブ・スピーカー用の改善され
たスペル・チェック・システムを示すブロック図であ
る。
FIG. 9 calculates an incorrect word list corresponding to a non-genuine English dictionary based on the usual rules of English formation applied systematically to all English according to the first embodiment of the present invention. FIG. 3 is a block diagram illustrating an improved spell checking system for non-native speakers.

【図10】 この発明の実施の形態1に係る、前に生成
された不正確な英語のリストに対して検出された不正確
な単語を分析する際に原形および語形論を使用する、図
9のシステムから得られた不正確な単語辞書ならびに英
語辞書を使用して、検出された不正確な単語を訂正する
プロセスを示すブロック図である。
FIG. 10 uses original form and morphology in analyzing inaccurate words detected against a previously generated inaccurate English list, according to Embodiment 1 of the present invention; FIG. 3 is a block diagram illustrating a process of correcting an incorrect word detected using an incorrect word dictionary obtained from the system of FIG. 1 as well as an English dictionary.

【図11】 この発明の実施の形態1に係る、限定詞抜
け、無関係の限定詞、または数の不一致を確認する検査
を含めて、有効な名詞句を構成する品詞タグのシーケン
スを定義するパターンを最大限に一致させることによっ
て名詞句を識別する、限定詞の不正確な用法を検出し、
訂正する際に使用される流れ図である。
FIG. 11 is a pattern for defining a sequence of part-of-speech tags constituting a valid noun phrase, including a check for confirming a missing determiner, an unrelated determiner, or a number mismatch according to the first embodiment of the present invention. Identifies noun phrases by maximizing matches, detects inaccurate use of qualifiers,
5 is a flowchart used when making a correction.

【図12】 この発明の実施の形態1に係る、名詞句に
ついて、それが名称であるか、限定詞を含んでいるか、
集合名称名詞であるか、集合名詞であるか、または熟語
の一部であるかどうかを決定して、限定詞抜けを報告さ
せる方法を示す流れ図である。
FIG. 12 shows whether a noun phrase is a name or a qualifier,
9 is a flowchart illustrating a method of determining whether a set noun, a set noun, or a part of a idiom, and reporting a missing determiner.

【図13】 この発明の実施の形態1に係る、先頭名詞
が固有名詞であるかどうかを決定し、次いで名詞句が限
定詞を含んでいるかどうかを確認し、それにより無関係
の限定詞を報告することによって無関係の限定詞につい
て名詞句を検査する方法を示す流れ図である。
FIG. 13 determines whether the leading noun is a proper noun according to Embodiment 1 of the present invention, and then checks whether the noun phrase includes a qualifier, thereby reporting an irrelevant qualifier 4 is a flowchart illustrating a method of checking a noun phrase for an unrelated quantifier by performing the following.

【図14】 この発明の実施の形態1に係る、先頭名詞
が固有名詞であるかどうか、またはそうでない場合、限
定詞が存在するかどうか、および限定詞の数が先頭名詞
に一致するかどうかを検出し、それにより不一致を報告
することによって決定を行う、数の一致について名詞句
を検査する方法を示す流れ図である。
FIG. 14 shows whether the leading noun is a proper noun or, if not, whether there is a qualifier and whether the number of qualifiers matches the leading noun according to Embodiment 1 of the present invention. 5 is a flowchart illustrating a method of checking a noun phrase for a number match, by making a decision by detecting a match and thereby reporting a mismatch.

【図15】 この発明の実施の形態1に係る、事前処理
モジュールを使用して、固有名詞でないかまたは本質的
に大文字になっていない大文字でない単語に対して改訂
されたトレーニング・コーパスを使用して、トリグラム
モデルを改訂されたコーパスに向けて、名詞が固有名詞
であるかどうかを確認する、固有名詞および他の本質的
に大文字になっている単語を認識して、単語の下地のス
ペリングを回復する方法を示すブロック図である。
FIG. 15 uses a revised training corpus for non-uppercase words that are not proper nouns or essentially not capitalized using the pre-processing module according to Embodiment 1 of the present invention. Directs the trigram model to the revised corpus to see if the noun is a proper noun, recognize proper nouns and other essentially capitalized words, and spell the base of the word FIG. 6 is a block diagram showing a method of recovering the spelling.

【図16】 この発明の実施の形態1に係る、図15の
トレーニング・コーパスをタグ付けする方法を示す流れ
図である。これを使用して、次の単語/タグ対を得、そ
れが大文字になっているどうか、また単語が文の最初の
単語であるか、または開いた引用符またはコロンの後に
くるかどうかを確認し、また単語が固有名詞または名称
としてタグ付けされているかどうか、または単語が頭文
字であるかまたは代名詞「I」であるかを確認し、それ
により単語が大文字になっていないかどうかを確認する
ためにテストする。
FIG. 16 is a flowchart illustrating a method for tagging the training corpus of FIG. 15 according to Embodiment 1 of the present invention; Use this to get the next word / tag pair and see if it is capitalized and if the word is the first word in a sentence or if it comes after an open quote or colon And whether the word is tagged as a proper noun or name, or whether the word is an initial or a pronoun "I", thereby checking whether the word is capitalized To test.

【図17】 この発明の実施の形態1に係る、図15に
示すように、単語が大文字になっているかどうか、それ
が文の最初の単語であるかまたは開いた引用符またはコ
ロンの後にくるかどうか、単語が頭文字であるかどうか
を分析し、そうでなければ、大文字になっていない単語
を有する文の確率を決定して、それが大文字になってい
る単語を有する文の確率よりも高いかどうかを確認する
ことによって、単語が本質的に大文字になっているかど
うかを決定する意志決定プロセスを示す流れ図である。
FIG. 17 according to Embodiment 1 of the present invention, as shown in FIG. 15, whether a word is capitalized, it is the first word of a sentence or comes after an open quote or colon Analyze whether the word is an initial, and if not, determine the probability of a sentence having a word that is not capitalized and calculate it from the probability of a sentence having a word that is capitalized 4 is a flow diagram illustrating a decision-making process for determining whether a word is essentially capitalized by checking if it is higher.

【図18】 この発明の実施の形態1に係る、品詞タガ
ならびに形態論アナライザを使用して、文脈内で使用さ
れているときの単語に対応する辞書中の見出し語、およ
び文脈内で使用されているときの単語に対応しない辞書
中の見出し語を決定する、文脈に基づく辞書アクセスを
示すブロック図である。
FIG. 18 shows a headword in a dictionary corresponding to a word used in a context and a word used in the context, using a part-of-speech tag and a morphology analyzer according to Embodiment 1 of the present invention. FIG. 9 is a block diagram illustrating a context-based dictionary access that determines a headword in the dictionary that does not correspond to the word at the time of entry.

【符号の説明】[Explanation of symbols]

10 入力文、12 キーボード、14 CPU、16
ワード・プロセシング・システム、20 品詞アナラ
イザ、22 品詞シーケンス確率決定ユニット、24
品詞確認ユニット、26 正確な文選択ユニット、28
下地のスペリング回復ユニット、30 語形変化検査
/訂正システム、32 助動詞訂正ユニット、34 正
確な文選択ユニット、36 限定詞訂正ユニット、38
単語挿入/検出、40 文脈敏感辞書参照モジュー
ル、42 不定冠詞訂正モジュール、44 スペリング
・システム。
10 input sentences, 12 keyboards, 14 CPU, 16
Word processing system, 20 part-of-speech analyzer, 22 part-of-speech sequence probability determination unit, 24
Part-of-speech confirmation unit, 26 Accurate sentence selection unit, 28
Underground spelling recovery unit, 30 inflection check / correction system, 32 auxiliary verb correction unit, 34 exact sentence selection unit, 36 qualifier correction unit, 38
Word insertion / detection, 40 context sensitive dictionary reference module, 42 indefinite article correction module, 44 spelling system.

───────────────────────────────────────────────────── フロントページの続き (71)出願人 597067574 201 BROADWAY, CAMBRI DGE, MASSACHUSETTS 02139, U.S.A. (72)発明者 イヴ・シャベス アメリカ合衆国、マサチューセッツ州、ボ ストン、ボイルストーン・ストリート 770、アパートメント 12ビー (72)発明者 エマヌエル・ロシュ アメリカ合衆国、マサチューセッツ州、ボ ストン、コモンウェールス・アベニュー 37 (72)発明者 アンドリュー・アール・ゴールディング アメリカ合衆国、マサチューセッツ州、ケ ンブリッジ、ファイブ・フロスト・ストリ ート、アパートメント 1 ──────────────────────────────────────────────────続 き Continued on the front page (71) Applicant 597067574 201 BROADWAY, CAMBRIDGE, MASSACHUSETS 02139, U.S. S. A. (72) Inventor Yves Chaves United States, Massachusetts, Boston, Boylestone Street 770, Apartment 12 Bee (72) Inventor Emanuel Roche United States, Massachusetts, Boston, Commonwealth Avenue 37 (72) ) Inventor Andrew Earl Golding Five Frost Street, Cambridge, Massachusetts, United States, Apartment 1

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 文の単語を品詞に関してタグ付けする手
段を含む、文法が正確かどうか文を単語ごとに分析する
手段と、 不定冠詞の不適切な用法を検出するモジュール手段、 前記単語が本質的に大文字になっているかどうかを確定
するモジュール手段、 不適切な限定詞、限定詞抜け、無関係の限定詞を検出す
るモジュール手段、 前記単語について不適切な語形変化を検出するモジュー
ル手段、 不適切な助動詞シーケンスを検出するモジュール手段、
並びに辞書及び前記文中の前記単語の文脈に基づいて前
記辞書にアクセスするモジュール手段のうち、システム
に結合された1つ又は複数の前記モジュール手段の出力
に基づいて訂正された単語を示唆する手段とを備えた文
法検査システム。
1. A means for analyzing a sentence for each sentence for correct grammar including a means for tagging a sentence word with respect to a part of speech, a module means for detecting inappropriate usage of an indefinite article, Module means for determining whether a word is capitalized, module means for detecting improper qualifiers, missing qualifiers, and irrelevant qualifiers; module means for detecting improper inflection of the word; Module means for detecting various auxiliary verb sequences,
And means for suggesting a corrected word based on the output of one or more of the module means coupled to the system, among the module means for accessing the dictionary based on the context of the word in the dictionary and the sentence. Grammar inspection system with.
JP10014572A 1997-01-27 1998-01-27 Grammar check system Pending JPH10247193A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78838997A 1997-01-27 1997-01-27
US08/788389 1997-01-27

Publications (1)

Publication Number Publication Date
JPH10247193A true JPH10247193A (en) 1998-09-14

Family

ID=25144342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10014572A Pending JPH10247193A (en) 1997-01-27 1998-01-27 Grammar check system

Country Status (1)

Country Link
JP (1) JPH10247193A (en)

Similar Documents

Publication Publication Date Title
US5485372A (en) System for underlying spelling recovery
US5477448A (en) System for correcting improper determiners
US5799269A (en) System for correcting grammar based on parts of speech probability
US5521816A (en) Word inflection correction system
US5535121A (en) System for correcting auxiliary verb sequences
US5845306A (en) Context based system for accessing dictionary entries
US6424983B1 (en) Spelling and grammar checking system
US7574348B2 (en) Processing collocation mistakes in documents
US8401839B2 (en) Method and apparatus for providing hybrid automatic translation
KR101292404B1 (en) Method and system for generating spelling suggestions
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JPH077419B2 (en) Abbreviated proper noun processing method in machine translation device
JP4278090B2 (en) Apparatus and method for correcting or improving word usage, computer program, and storage medium
JPH0693221B2 (en) Voice input device
JPH10247193A (en) Grammar check system
Wu et al. Correcting serial grammatical errors based on n-grams and syntax
JPH07325825A (en) English grammar checking system device
Olayiwola et al. Development of an automatic grammar checker for Yorùbá word processing using Government and Binding Theory
JP3873299B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP3386520B2 (en) Kana-kanji conversion apparatus and method
JPH0836575A (en) Device for analyzing syntagma
JPH07121542A (en) Machine translation system
JPH07105215A (en) Phrase structure extracting device and syntax check device
JPH07200592A (en) Text processor