JPH0844719A - 辞書アクセスシステム - Google Patents

辞書アクセスシステム

Info

Publication number
JPH0844719A
JPH0844719A JP7133929A JP13392995A JPH0844719A JP H0844719 A JPH0844719 A JP H0844719A JP 7133929 A JP7133929 A JP 7133929A JP 13392995 A JP13392995 A JP 13392995A JP H0844719 A JPH0844719 A JP H0844719A
Authority
JP
Japan
Prior art keywords
word
speech
sentence
noun
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7133929A
Other languages
English (en)
Inventor
Shiyabisu Ibu
シャビス イブ
Aaru Goorudeingu Andoriyuu
アール ゴールディング アンドリュー
Roshie Emaniyueru
ロシエ エマニュエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPH0844719A publication Critical patent/JPH0844719A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 文を構成する単語に割り当てられた品詞に基
づいて辞書のエントリを選択、分類するコンテキスト−
ベースド辞書アクセスシステムを得る。 【構成】 品詞解析部20は、単語から構成された文を
入力し、文を構成する単語の品詞を解析する。コンテキ
スト−センシティブ辞書参照部40は、単語の定義を記
録した辞書を上記単語を用いて参照するとともに、その
単語の定義として上記品詞解析部20により解析された
単語の品詞に対応する定義を、まず第1に出力する。ま
た、コンテキスト−センシティブ辞書参照部40は、単
語の定義として上記文で構文的に適合する定義を出力す
るとともに、関連のない定義を出力しない。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文法チェッキングシ
ステムに関する。特に、対応する文(センテンス)の単
語(ワード)の構文(シンタックス)上の文脈(コンテ
キスト)に基づいて辞書エントリにアクセスするシステ
ムに関する。
【0002】
【従来の技術】Henry Kucera他の米国特許
4868750による口語用文法チェッキングシステム
は、コンピュータを利用してオートメーション化した言
語分析を行う。自然言語で構成されたテキストをデジタ
ルに符号化(エンコード)してコンピュータに入力し、
コンピュータに記憶された、単語と分析の辞書及び分析
プログラムを用いて、符号化されたテキストを分析し、
エラーを検出する。このシステムは、例えば、Micr
osoft Wordプログラムにおいて、文法エラー
検出に用いられている。
【0003】このような文法チェッキングシステムは、
適切な用法を提案することを目的としているので、時と
して、検出するエラーの数が多すぎて、閉口することが
ある。なぜ、このようなことが起きるかと言えば、文法
チェッキングシステムが文を誤って、分析するからであ
る。また、たとえ文の分析が正しくても、Micros
oftのシステムは、時として、適切でない単語を提案
することがある。
【0004】他の方法として、文全体が正しいという確
率に基づいて文の分析を行う方法を採るシステムもあ
る。だが、このシステムは、記憶容量と処理能力を必要
とするので、現在のPC(パーソナルコンピュータ)の
処理能力や、PCが備え得るメモリでは、実行できない
という問題点がある。
【0005】また、トレーニングコーパスに基づいて文
を分析し、文法誤りを検出するシステムもある。いづれ
にしても、このタイプのシステムは、処理能力の速さや
大容量の記憶装置を必要とするので、現在パーソナルコ
ンピューティングと呼ばれ、普及している環境での実現
は、困難である。
【0006】一例として、従来の文法チェッキングシス
テムは、“a ”や“an”といった不定冠詞の挿入を誤る
ことがある。これは、ネイティブスピーカでない人々に
とって、当該システムによって提供される自然言語に翻
訳しようとするときに大きな問題である。
【0007】また、“the ”や“a ”といった冠詞が文
法規則や口語的用法のどちらにも十分知識のない者によ
って作成されるとき、“the ”や“a ”といった適当な
冠詞を挿入する能力の欠如ということも非常に重要であ
る。更に、従来の文法チェッキングシステムに共通な誤
りとして、複数の動詞が用いられている時の動詞のつな
がり(動詞シーケンス)の誤りを認識できないと言う問
題がある。1つの文の中で、複数の動詞を適切に使用す
る場合でも、多くのネイティブスピーカでない人々は、
しばしば、“He has recognize that something exist
s. ”という誤った文を作成する。この文では、“has
”が動詞であり、“recognize ”も動詞である。この
ように、複数動詞が明らかに間違って使用されている。
【0008】最も重要なことは、いわゆる限定詞におい
て問題が発生しているという点である。一例を挙げる
と、“I have cigarette”という文は、明らかに限定詞
“a ”が抜けている。同様に、“some”や“a few ”の
ような限定詞が抜けることもしばしば発生する。文を正
しく読むならば、“I have a few cigarettes.”となる
であろう。同じ文が、名詞を複数形にする事によっても
正しい文となることに留意してほしい。例えば、“I ha
ve a few cigarettes”又は“I have cigarettes”でも
正しい文となる。
【0009】更に、スペルチェッカや従来の文法チェッ
キングシステムで発生する典型的な文法エラーとして、
不適切な語形変化の訂正が正しく行われないという問題
がある。例えば、従来のシステムでは、“I drived to
the market. ”等という語形変化が誤った文の訂正をほ
とんど行わなかった。
【0010】上記の諸問題は、言語の慣用語(イディオ
ム)や規則に精通していないネイティブスピーカでない
人々にとっては、大きな問題である。特に英語において
は、規則が単純明瞭ではなく、言語を利用するネイティ
ブスピーカにとっても身近でない慣用語(イディオム)
や規則によって、正しい文法が決定されることが多い。
【0011】それゆえ、ネイティブスピーカでない人々
が、その国籍毎に頻繁に引き起こすエラーを考慮した文
法チェッキングシステムを提供することが重要である。
例えば、日本語を母国語とする人々が、英語を書くとき
に、よく引き起こすエラーがあることがわかっている。
これらは予測できるので、その予測に基づいて訂正する
事が可能である。同様に、フランス語や他のロマンス諸
語にも、これらの言語を英語に翻訳するときに特有のエ
ラーがある。これらのエラーも予測できるので検出可能
であり、訂正可能である。
【0012】一般に、構文(シンタックス)認識システ
ムは、数少ない明確な語彙からなるテキストを取り扱う
ように制限されている。あるいは、より一般的なテキス
トではあるが、限られた範囲の構文特性をもつテキスト
を取り扱うように制限されている。語彙を増やしたり、
構文の範囲を拡大させるには、構造をより複雑にし、認
識ルールの数を増大させる事が必要となる。構造がより
複雑化し、認識ルールの数が増えると、システムの規模
が大きくなり、広く普及させるシステムとしては採算が
とれなくなる。
【0013】文脈に関するエラーを検出し訂正する他の
システムが、FrederickB.Lang他による
米国特許4674065のテキストプロセッシングシス
テムに述べられている。このシステムは、文書の単語使
用妥当性について校正し、専門辞書を用いてテキストプ
ロセッシングを行う。この専門辞書には、同音異義語と
混乱(confuse:コンフューズ)しやすい単語の
セットが記憶されており、ダイグラム(di−gra
m)とnグラム(n−gram)の条件により単語の正
しい用法が決定できるようになっている。すでに述べた
ように、品詞ではなく単語毎に統計を取ることは、莫大
な量の知識の集大成と高速な演算能力を必要とする。そ
の為、システムはとてもパーソナルコンピュータでは実
現できない規模となってしまう。更に、このシステム
は、同音の単語に基づいて、誤りやすい単語を検出する
ので、概して誤りやすいが音が類似していない単語につ
いては、訂正することができない。
【0014】また、米国特許4830521は、スペル
チェック機能と名詞認識機能を備えた電子タイプライタ
に関する特許である。名詞認識を行うと、更に、名詞が
固有名詞であるかどうかによって、大文字表記を行わね
ばならないという問題も派生する。ところが、この米国
特許においては、文の先頭にある単語に対してだけ大文
字表記を行うだけであり、文の先頭でない単語に対して
も、場合によっては、大文字表記が必要であるという点
を考慮していなかった。
【0015】また、スペル訂正機能を備えた特許とし
て、以下のものがある。米国特許5218536,52
15388,5203705,5161245,514
8367,4995740,4980855,4915
546,4912671,4903206,48879
20,4887212,4873634,486240
8,4852003,4842428,482947
2,4799191,4799188,479785
5,4689768である。
【0016】また、テキスト分析に関連する米国特許と
して、5224038,5220503,520089
3,5164899,5111389,502908
5,5083268,5068789,500701
9,4994966,4974195,495828
5,4933896,4914590,481699
4,4773009がある。だが、これらの米国特許は
いずれも、母国語以外の所定の自然言語で文書を提出す
ることを余儀なくされているネイティブスピーカでない
人々が必要とするレベルの文法チェッキングシステムを
提供するものではなかった。これらの米国特許は、ネイ
ティブスピーカでない人々を特にターゲットにして文法
チェックを行い英語の用法を訂正するものではなく、一
般的なシステムである。
【0017】一方、辞書を効率的に符号化する方法に関
するいくつかの米国特許もある。例えば、米国特許51
89610,5060154,4959785,478
2464である。辞書を符号化することは、文法を適切
にチェックするシステムを構築する1つのステップにす
ぎない。単語の検索だけを念頭に置いて辞書のエントリ
をアクセスすると、単語としては正しく辞書を引くこと
ができても、文中のコンテキストからその単語をみると
全く意味をなさないという危険性が常に伴う。次の文を
例にとって説明しよう。“He left ten minutes age.”
この文に登場する“left”は、形容詞とも副詞とも名詞
ともとれる。
【0018】具体的に、the Random Hou
se Unabridged Dictionary
second edition 1993の“left”の
エントリを見ると、図19に示す記載となっている。こ
のように、従来の辞書参照システムは、単語が用いられ
ている文脈(コンテキスト)を無視してきた。また、辞
書の語義も特定の意味のある順にはなっていなかった。
【0019】
【発明が解決しようとする課題】この発明は、上記のよ
うな課題を解決する為になされたもので、文脈を基本と
した(コンテキストベースの)辞書アクセスシステムを
得ることを目的としている。また、辞書を参照して、得
られるエントリを特定の順で表示する辞書アクセスシス
テムを得ることを目的としている。
【0020】
【課題を解決するための手段】この発明に係る辞書アク
セスシステムは、以下の要素を有することを特徴とす
る。 (a)単語の定義を記録した辞書、(b)単語から構成
された入力文を入力し、入力文を構成する単語の品詞を
解析する解析部、(c)上記辞書を上記単語を用いて参
照するとともに、その単語の定義として上記解析部によ
り解析された単語の品詞に対応する定義をまず第一に出
力する参照出力部。
【0021】上記参照出力部は、単語の定義として上記
入力文で構文的に適合する定義を出力するとともに、関
連のない定義を出力しないことを特徴とする。
【0022】上記解析部は、入力文を分析して品詞シー
ケンスとその確率を出力する品詞タガーを備えたことを
特徴とする。
【0023】上記品詞タガーは、入力文を分解し、前後
3つの品詞の各組合わせ毎に確率を計算し、もっとも確
率の高い品詞の組み合わせを品詞シーケンスとして出力
することを特徴とする。
【0024】
【作用】この発明の辞書アクセスシステムにおいては、
解析部が、入力文を入力し、入力した入力文を構成する
単語の品詞を解析する。参照出力部は、単語の定義を記
録した辞書を上記単語を用いて参照した結果として得ら
れる1つ以上の定義のうち、その単語の定義として上記
解析部により解析された単語の品詞に対応する定義をま
ず第一に出力する。
【0025】上記参照出力部は、単語の定義として辞書
に記録されている1つ以上の定義のうち、上記入力文で
構文的に適合する定義を出力する。また、関連のない定
義を出力しない。
【0026】上記解析部に備えられた品詞タガーは、入
力文を分析して解析した品詞からなる品詞シーケンスと
その品詞シーケンスの確率を出力する。
【0027】上記品詞タガーは、確率を出力する際に、
入力文を分解し、前後3つの品詞の各組合わせ毎にそれ
ぞれの確率を計算し、もっとも確率の高い品詞の組み合
わせを品詞シーケンスとして出力する。
【0028】
【実施例】
実施例1.この発明は、単語が登場する文の構文上の文
脈(シンタクテックコンテキスト)に基づく辞書エント
リのアクセスに関する。まず、品詞シーケンス確率に基
づく複数のモジュールを備えたトータルな文法チェッキ
ングシステムについて述べる。
【0029】図1は、複数モジュールからなる文法チェ
ッキングシステムのブロック図である。入力文に対して
簡便な文法チェックを提供することは、特に外国語を書
く人々にとって重要である。また、その文法チェッキン
グシステムは、内容が正確で、かつ、コンピュータの特
別な知識がなくてもたやすく操作できることが望まし
い。入力文10は、キーボード12を用いて、ワードプ
ロセッシングシステム16のCPU(セントラルプロセ
ッシングユニット)14に入力され、文法チェックが行
われる。
【0030】信頼できる文法確認を行うために、入力文
の品詞は正確に決定されることが重要である。従来の文
法チェッキングシステムは、入力文を直接利用してい
た。それに対し、この発明においては、入力文を品詞に
ブレークダウンし、品詞の集合である品詞シーケンスと
している。これは、品詞解析部20で行われる。品詞解
析部20は、例えば、Kenneth Church’
s Stochastic Parts Progra
mにより実現される。これについては、“A Stoc
hastic Parts Program and
Noun Phrase Parser for Un
restricted Text”, the Sec
ond Conference on Applied
Natural Language Process
ing, Austin Texas,1988の議事
録に公開されている。例えば、“I heard this band pl
ay.”という入力文を解析すると“PRONOUN,VERB,DETE
RMINER,NOUN,VERB ”という品詞シーケンスとなる。
【0031】また、時として、品詞シーケンスが、元の
文を正確に反映しないことがある。
【0032】文を分析し、正確に構成するためには、品
詞シーケンスが単語シーケンスに正確に対応している確
率を確認することが重要である。品詞解析部20の出力
は、品詞シーケンス確率決定部22に接続される。これ
により、入力文の品詞シーケンスの確率が決定される。
品詞シーケンス確率決定部22からは、入力文の品詞シ
ーケンスと品詞シーケンスの確率が出力され、複数のモ
ジュールにより入力文の分析に用いられる。
【0033】最初のモジュールは、品詞シーケンス確認
部24である。品詞シーケンス確認部24は、品詞シー
ケンスの確率に基づいて、誤りやすい(confuse
d)ワード(単語)やセンテンス(文)を選択する。正
しいワードやセンテンスへの訂正選択は、品詞シーケン
スの確率があらかじめ設定された閾値を越えることによ
り行われる。訂正文選択部26は、訂正文を選択する。
訂正文選択部26には、入力文と複数の訂正文の確率と
が入力される。訂正文選択部26には、誤りやすいワー
ドのリストが予め備えられている。
【0034】以上のように、誤りやすいセンテンスが訂
正される。基本スペル回復部28は、ワードの基本スペ
ルを決定するために使用される。従来のスペルチェッカ
は、スペル確認に参照テーブルを用いる。従来のスペル
チェックでは、大文字表記は考慮されないので、スペル
チェックを行った後もスペルエラーに悩まされることに
なる。更に、入力文がすべて正しいスペルを持っている
ものとして動作する文法チェッキングシステムは、ワー
ドやセンテンスの始まりと頭字語を誤ることがある。
【0035】より信頼性の高いスペルチェックと文法訂
正を行うために、基本スペル回復部28は、大文字表記
されたワードを誤りやすいワードとみなす。誤りやすい
ワードとみなすことにより、上記品詞シーケンス確認部
24と同様のテクニックを用いて、ブラウンのコーパス
(Brown■s corpus)のようなトレーニングコーパスを
用いて、大文字表記されたワードのあるカテゴリーに入
る確率、あるいは、他のカテゴリーに入る確率を提供す
る。
【0036】伝統的な言語プロセッシングシステムは、
名詞が普通名詞か固有名詞のどちらであるかを決定する
ことでワードの基本スペルを回復してきた。この発明の
基本スペル回復部28は、文脈(コンテキスト)と確率
を用いて単語をカテゴリー化する。即ち、センテンスを
ワード毎に分析し、大文字表記と非大文字表記のどちら
が確率が高いかを確認する。その結果、確率が高い方の
表示に決定される。基本スペルが回復されると、基本ス
ペル回復部28の出力は、語形変化チェッカ30とスペ
ルチェッカ44に接続される。このスペルチェッカ44
は、従来のスペルチェック機能を持つものでよい。ある
いはまた、特定の外国語を話す人向けの機能を持つもの
でもよい。
【0037】他のモジュールとして、助動詞訂正部32
も品詞シーケンス確率決定部22の出力した品詞を入力
する。助動詞訂正の問題は、センテンスの中に複数の動
詞があり、そのいくつかが妥当でないときに発生する。
そして、複合助動詞シーケンスにおいて、間違った時制
が用いられているときに発生する。例えば、“he would
living ”というセンテンスには、“would ”,“livi
ng”という2つの動詞が含まれている。このセンテンス
を正しく訂正するならば、“he would live ”という形
が考えられる。この場合、動詞“live”の時制の訂正が
必要である。
【0038】助動詞訂正部32は、助動詞シーケンスに
誤りがあれば、これを検出し、訂正案を示す。助動詞シ
ーケンスを表現するために、助動詞訂正部は、定形の動
詞シーケンスを表す非循環有向グラフ(アサイクリック
グラフ)を使用する。ここで、正しい動詞シーケンスを
作成するために、前述した品詞シーケンス確率決定部2
2が正しい品詞を決定することが肝要である。
【0039】助動詞訂正部32の出力は、訂正文選択部
34に接続され、センテンスの代替案を提示するのに使
用される。
【0040】また、他のモジュールとして、限定詞訂正
部36も品詞シーケンス確率決定部22の出力した品詞
を入力する。限定詞訂正部36は、名詞句の指示対象を
限定するワード(限定詞)を訂正することを目的として
いる。限定詞とは、例えば、“the ”,“a ”,“som
e”というワードである。この限定詞訂正部36は、3
つのクラスのエラーを検出する。3つのクラスとは、限
定詞の欠落、不要な限定詞、限定詞と名詞の不一致であ
る。
【0041】限定詞の欠落の例を示す。“John read bo
ok”というセンテンスには、“the ”が抜けている。ま
た、“John went to the New York ”というセンテンス
には、“the ”が余分であり、削除されるべきである。
これは、不要な限定詞の例である。次に、“John read
many book ”というセンテンスにおいては、“book”
は、“many”に一致させて複数形をとるべきである。こ
れは、限定詞と名詞の不一致の例である。限定詞の誤り
を検出するために、名詞句を識別する品詞タグが付加さ
れる。システムは、どの品詞タグのシーケンスが名詞句
を構成するかを定義した規則表現を予め有しており、こ
の規則表現とマッチングして名詞句を識別する。
【0042】システムは、続いて、名詞句毎に限定詞が
欠落していないかをヘッドナウンにより検証する。ヘッ
ドナウンとは、名詞句を構成するワードの中で主となる
名詞(NOUN:ナウン)を指す。このプロセスで、ヘ
ッドナウンが検出されると、このヘッドナウンが質量名
詞(mass noun :マスナウン)、マスタイトルナウン
(mass title noun )、イディオムか限定詞の欠落のい
ずれであるか判断する。その後、システムは、名詞句に
不要な限定詞があるかどうか検証する。最後に、システ
ムは、限定詞と名詞句のヘッドナウンがそれぞれ示す数
が一致しているかどうか検証する。その結果、単語挿抜
部38において、単語の挿入、削除、置換が行われる。
【0043】加えて、不定冠詞訂正部42が、入力文1
0について、不定冠詞“a” と“an”の用法を訂正す
る。
【0044】そして、最後に、品詞シーケンスの確率が
コンテキスト−センシティブ辞書参照部40において用
いられる。ある1つの単語は、コンテキストから離れて
みると多くの品詞となる可能性があり、それぞれの品詞
は辞書のサブエントリに記載されている。コンテキスト
−センシティブ辞書参照部40は、辞書にアクセスし、
品詞解析部20により得られた品詞に基づいて、適切な
語義を選択する。例えば、“love”という単語は、名詞
であり、動詞でもある。そして、名詞“love”は、辞書
に多くのエントリがある。動詞“love”も同様である。
入力文が“She was my first love ”だとすると、単語
“love”は、品詞解析部20により名詞として識別され
る。そして、コンテキスト−センシティブ辞書参照部4
0は、まず名詞“love”の辞書エントリを選択し、その
後、動詞“love”の辞書エントリを選択する。
【0045】(a)品詞確率に基づく文法訂正 従来、前述した文法チェッキングシステムのいくつか
は、やっかいな単語の誤使用を訂正するという方法で英
語の用法を正しくしようと試みてきた。やっかいな単語
というのは、特に、音が同一でスペルが違う単語であ
る。例えば、“too”,“to”と“two ”であり、ま
た、“their ”,“they■re ”と“there”である。他
にも、単語が1語か2語かに関する錯誤もよく発生す
る。例えば、“maybe ”,“may be”である。また、音
は似ていないが、しばしば取り違えられる単語として、
“which ”と“whose ”がある。
【0046】また、従来、正しい用法を確認するため
に、センテンスの文法性が計算され、このセンテンスの
英語として生起する確率が算出された。こうした、統計
的なアプローチは、文法的に正しいセンテンスには高い
確率を割り当て、文法的に正しくないセンテンスには低
い確率を割り当てる。この統計は、英文の集大成のトレ
ーニング、即ち、トレーニングコーパスにより得られ
る。コーパスは正しい用法を定義する。センテンスが、
文法チェッキングシステムに入力されると、コーパスに
照らし合わせて、センテンス全体の確率が計算される。
英語の語彙約60000語を享受するためには、数百兆
の単語を擁するコーパスを使用しなければならない。更
に、コンピュータにこれに匹敵する数の確率を記憶しな
ければならない。それゆえ、センテンス全体の分析とい
うタスクは、莫大な計算と大規模な記憶容量を必要とす
る。
【0047】この発明に係るシステムにおいては、正し
い用法を確立するために、品詞シーケンスの確率を用い
ている。そのために、システムは、100から400の
可能性のある品詞を用意しておく。100から400と
言う品詞の数は、システムの性能により異なる。これ
は、数百兆の単語のトレーニングコーパスを、数百万の
単語のトレーニングコーパスに変換するに等しい。トレ
ーニングコーパスを用いるこのタイプの分析は、ワード
プロセッシングに用いられるような標準的なコンピュー
タで容易に実行可能である。
【0048】この発明に係るシステムでは、センテンス
はまず品詞に分割される。例えば、“I heard this ban
d play”というセンテンスは、次のように分析される。
PRONOUN,VERB,DETERMINER,NOUN,VERB である。この
品詞シーケンスの確率が、コーパスと比較して決定され
る。これはまた、いわゆるトリグラム(tri−gra
m)を考慮するのでなければ、実行可能とは言えない。
トリグラムは、入力文の中で前後に隣り合う品詞を3つ
組み合わせたものである。正しい用法か否かを判断する
には、一般に、3つの隣り合う品詞の分析を行えば十分
である。このトリグラムの確率を用いて、ある文が正し
い用法に則っているかどうか判断できる。以上のような
理由で、文全体のチェックはせず、隣り合う3つの品詞
の確率がトレーニングコーパスから計算される。
【0049】例えば、2つの文があり、1つの文が、他
の文の内容をわかりにくくしているとき、上記テクニッ
クを用いれば、どちらの文が正しい用法なのか決定する
ことができる。上記システムは、正しい用法か否かを低
いエラー率で決定できることから、2つのメリットが得
られる。第1に、2つの文のうち、どちらが正しいかを
明確に決定できることであり、第2に、一度決定した正
しい文の品詞を記憶しておき、他の文法チェッキングモ
ジュールで将来的に利用可能となる点である。
【0050】次に、図2を用いて説明する。図2は、誤
りやすい単語の訂正に品詞シーケンスの確率を用いた場
合のブロック図である。図において、入力文S1(13
0)は、品詞タガー132に接続されている。入力文S
1は、また、候補文S2(134)にも接続されてい
る。候補文S2には誤りやすい単語リスト136が入力
される。品詞タガー132は、入力文S1を138に示
す品詞シーケンスT1と確率P1に分解する。上記分解
処理は、Churchにより示されたアルゴリズムに従
って行われる。このアルゴリズムによれば、文を分解
し、前後の3つの品詞の組み合わせをオーバーラップさ
せてできるすべての組み合わせ毎にそれぞれ確率を計算
し、もっとも確率の高い品詞の組み合わせが文の分解結
果として得られる。
【0051】次に、入力文S1に使用されている単語を
基に誤りやすい単語リスト136を参照し、入力文S1
の代替案となる候補文S2(134)が生成される。生
成された候補文S2は、品詞タガー132に入力され
る。そして、140に示す品詞シーケンスT2と確率P
2が求められる。
【0052】上記のように求められた入力文S1の確率
P1(138)と、候補文S2の確率P2(140)を
比較し、どちらの品詞シーケンスが正しいかを決定す
る。決定は、比較選択部142に示すように、確率P1
と確率P2を比較して行う。閾値をeとすると、P2−
P1>eの時、144に示すように、入力文S1の候補
文S2への置換を推奨する。また、P2−P1<=eの
時、146に示すように、入力文S1への変更は行われ
ない。
【0053】具体例を挙げて説明する。“I want to he
re this band”という入力文において、“here”は、
“hear”の誤りであるとする。この時、どちらが正しい
かを決定するために、 S1:“I want to here this band” S2:“I want to hear this band” という2つの文を比較する。
【0054】2つの文を比較する方法として、英文のテ
キストの統計モデルにより文全体の確率を比較する方法
がある。この方法は、Eric Mays, Fred
Demereau, Robert Mecerによ
る“Context Based Spelling
Correction”に開示されている(発行“In
formation Processing and
Management”,27(5):517−42
2,1991)。この方法は、テキストに制限を加えな
いで扱うには、40,000ワード以上の語彙を必要と
するので、高価であり、標準的なコンピュータで使用す
るには、実用的とはいえない。文の確率を直接計算する
には、莫大な量のトレーニングデータ、例えば、最低で
も400,000,000のトレーニングワードが必要
であり、それらを記憶する莫大な記憶容量も当然必要と
なるからである。
【0055】前述した方法に対して、この発明のシステ
ムにおいては、図2に示すように、入力文と候補文の品
詞シーケンスの確率を比較する。具体的にいうと、“I
wantto here this band”という文の確率を計算するの
ではなく、入力文を“PRONOUN VERB TO ADVERB DETERMI
NER NOUN”という品詞シーケンスとみなし、この品詞シ
ーケンスの確率を計算する。同様に、この発明のシステ
ムは、候補文“I want to hear this band”を品詞シー
ケンス“PRONOUN VERB TO VERB DETERMINER NOUN”とみ
なし、確率を計算する。2つの品詞シーケンスの確率を
計算した結果、“here”と“hear”どちらを使用するか
を決定する。
【0056】また、上記の確率を比較する方法ではな
く、他の方法で比較を行ってもよい。図3は、図2の比
較選択部142における比較対象として、文の長さの平
均を用いたブロック図である。この発明に係るシステム
においては、ワード長を考慮した確率のジオメトリック
アベレージを比較する。即ち、P1の対数を入力文S1
のワード数で割った値と、P2の対数を候補文S2のワ
ード数で割った値を比較する。これは、“maybe ”と
“may be”のように、1つのワードと、誤りやすいワー
ドシーケンスを比較する場合に重要である。統計的言語
モデルは、長文の確率を低くみなすので、品詞シーケン
スの確率を直接的に比較すると、長文よりも短文が好ま
れる傾向がある。ジオメトリックアベレージの比較は、
この傾向を緩和するのに有効である。
【0057】次に、誤りやすい単語リスト136の典型
的な登録例を示す。例えば、to,too ,two ;I ,me;
its ,it■s;their ,they■re ,there ;whose,whi
ch ;then,than;whose ,who■s ;our ,are ;hea
r,here;past,passed;accept,except;advice,adv
ise;lose,loose ;write ,right ;your,you■re
;affect,effect;maybe ,may beである。
【0058】上記以外の誤りやすいワードにも、この発
明に係るシステムは適用可能である。また、フランス
語、イタリア語、スペイン語など、英語以外の言語にも
適用可能である。その場合にも、もちろん、Churc
hによる方法、即ち、トリグラムモデルを用いた品詞の
タグ付けが必要である。
【0059】以上のように、図2及び図3に示す実施例
は、より確率の高い訂正文を選択することに加えて、文
の文法性(文法にかなっていること)に関する判定をし
ているという点において重要である。この方法により、
従来よりもよりよい、そして、より信頼性の高い文の品
詞への分解が可能となる。
【0060】文を正しくするために、まず重要なのは、
文の品詞への分解が可能なことである。文法チェッキン
グシステムの正確さは、この分解作業の正確さにかかっ
ている。より信頼性の高い品詞生成法が実現されれば、
文法チェッキングシステムの成果物もより信頼性の高い
ものとなるであろう。
【0061】(b)“a ”と“an”の訂正 ネイティブスピーカでない人々がしばしば間違えるの
は、不定冠詞“a ”と“an”の使い方である。英語の文
法規則によれば、不定冠詞“a ”は、子音で始まる単語
に用い、また“an”は、母音で始まる単語に用いると定
められている。この文法規則に素直に従うならば、次の
単語の1番目の文字が母音字であるか、子音字であるか
によってどちらの不定冠詞を用いるかを決定すればよ
い。実際、母音で始まるほとんどの単語の最初の文字は
母音字であり、子音で始まるほとんどの単語の最初の文
字が、子音字である。ところが、次のような例外もあ
る。例えば、“an hour ”,“a European”などであ
る。単語“hour”は、子音字(h)で始まるが、母音で
発音される。同様に、単語“European”は、母音字
(E)で始まるが、子音で発音される。
【0062】以前は、この問題を解決するために、全て
の英単語の発音辞書を記憶する方法をとっていた。この
方法は、もちろん正しいが、非常に多くの記憶容量を必
要とする。
【0063】従来のように、全ての英単語の辞書参照テ
ーブルを用いるのではなく、この発明に係るシステムで
は、文法規則に則っていない例外だけを取り出して、別
に処理し、例外処理に該当しないものは、文法規則に素
直に従う方法をとっている。そのために、この発明に係
るシステムでは、2つのテーブルを用いている。テーブ
ル1は、発音は母音であるが、子音字で始まる単語のリ
ストである。また、テーブル2は、発音は子音である
が、母音字で始まる単語のリストである。一般的な辞書
ベースのシステムでは、60,000ワードを記憶しな
ければならないのに対して、この2つのテーブルを用い
れば、300ワード以下ですむという利点がある。
【0064】以下に、テーブル1とテーブル2を示す。 テーブル1 Ewell Ewell■s U U-boat U-boat■s U-turn U-turn■s UFO UFO■s Uganda Uganda■s Ugandan Unitarian Unitarianism Unitarianism■s Uranus Uranus■ Uruguay Uruguay■s Uruguayan Utah Utah■s Utopia Utopia■s Utopian Utrecht Utrecht■s ewe ewe■s ewer ewer■s once one one■s one-armed one-eyed one-horse one-sided one-step one-time one-upmanship oneself ouija ouija■s ouija-board ouija-board■s ouijas u u■s ubiquitous ubiqity ubiquity■s ukase ukase■s ukulele ukulele■s ululate ululated ululating ululation ululation■s unanimity unanimity■s unanimous unanimously unicorn unicorn■s unification unification■s unified uniform uniformed uniformity uniformly unify unifying unilateral unilaterally union union■s unionist unionist■s unique uniquely uniqueness unisex unison unit unit■s unite united unitedly uniting unity unity■s universal universality universality■s universally universe university university■s uranium uric urinal urinary urinate urinated urinating urine urine■s urines usable usage usage■s use use■s used useful usefully usefulness useless uselessly uselessness user user■s using usual usually usurer usurer■s usurious usurp usurpation usurpation■s usurper usurper■s usury usury■s utensil utensil■s uterine uterine■s uterus uterus■ utilitarianism utilitarianism■s utility utility■s utilizable utilization utilization■s utilize uvula uvula■s uvular
【0065】テーブル2 ■em ■un F F■s H H■s H-bomb L L■s LSD M M■s MP MP■s N N■S NB NHS R R■s S S■s SOS X X■s X-ray Xmas Yvonne f f■s h h■s hauteur heir heiress heirloom honest honestly honesty honorarium honorary honorific honorable honorably honour hounourable hounourably hour hourglass hourly l l■s m m■s n n■s nb r r■s s s■s x x■s
【0066】以上のように、この発明においては、単語
の最初の音を識別する。不定冠詞を正しく用いるために
は、単語を発音するときの最初の音を正しく識別するこ
とが重要である。
【0067】2つのテーブルを用いて、最初に例外を拾
い出して、処理してしまうので、後は、以下に示す3つ
の規則を適用すればよい。1つ目の規則は、文字“eu”
で始まる単語に不定冠詞をつけるときは、“a ”を使う
という規則である。2つ目の規則は母音字“a ”,“e
”,“i ”,“o ”,“u ”で始まる単語に不定冠詞
をつけるときは、“a ”を使うという規則である。3つ
目の規則は、子音字で始まる単語に不定冠詞をつけると
きは、“an”を使うという規則である。
【0068】図4は、“a ”と“an”を正しく訂正する
処理の流れ図である。この流れ図に沿って説明する。こ
の処理では、入力した文の先頭から順にワードを評価し
ていくが、その際、カレントなワードiをw1とし、w
1に続くワードをw2とする。まず、300において、
nワードから構成される文を入力する。次に、302に
おいて、iに初期値0を設定する。次に、304におい
て、iがn−1よりも小さいかを判断する。これは、n
ワードで、この処理を終了するための判断である。no
の時、処理のループをストップする。yesの時は、処
理終了ではないので、306に進む。306において
は、iに1を加算する。ここで、w1がi番目(最初
は、1番目)のワード、w2がi+1番目(同じく、2
番目)のワードとなる。次に、308において、w1が
“a ”か“an”のいずれかであるかどうか判断する。n
oの時、以下の処理は、対象外となるので304に戻
り、次のワードの処理を行う。yesの時、310に進
む。310の判断で、w2がテーブル1にある時(不定
冠詞として“a ”が正しい時)、312において、w1
が“an”であれば“a ”に変更し、304に戻る。w2
がテーブル1にない時、314に進む。314の判断
で、w2がテーブル2にある時(不定冠詞として“an”
が正しい時)、316において、w1が“a ”であれば
“an”に変更し、304に戻る。w2がテーブル2にな
い時、318に進む。318において、w2の先頭の2
文字が“eu”の時(不定冠詞として“a ”が正しい
時)、320において、w1が“an”であれば“a ”に
変更し、304に戻る。w2の先頭の2文字が“eu”で
ない時、322に進む。322において、w2の先頭の
1文字が“a ”,“e ”,“i ”,“o ”,“u ”のい
ずれかの時(不定冠詞として“an”が正しい時)、32
4において、w1が“a ”であれば“an”に変更し、3
04に戻る。w2の先頭の1文字が上記以外の時、32
6において、w1が“an”であれば“a ”に変更する。
以上のように、図4に示す流れ図に従って、ワード毎に
判断し、“a ”と“an”を正しく訂正する。
【0069】(c)助動詞シーケンスの訂正 既に述べたように、ネイティブスピーカでない人々が英
文を書く時、複合助動詞シーケンスの時制を誤ることが
ある。例えば、“he has consider ”というような文で
ある。この文では、動詞“consider”の時制が間違って
おり、“he hasconsidered ”が正しい。これまでの文
法チェッキングシステムには、助動詞シーケンスをチェ
ックする機能を持ったものはなかった。なぜならば、助
動詞シーケンスの認識は、明らかに困難なことだからで
ある。また、品詞タグが付けられることもなかったから
である。
【0070】この発明に係るシステムにおいては、文を
品詞シーケンスとして捉えている。図5を用いて説明す
る。図5は、誤った助動詞シーケンスの訂正のブロック
図である。この発明に係るシステムにおいては、図5に
示すように、入力文410を分析して品詞タガーにより
品詞タグを付加し、品詞からなる文414とする。
【0071】エラーを検出するためには、助動詞シーケ
ンスの開始ポイントと終了ポイントを検出しなければな
らない。“He has been consider this fact”という文
を例に取ると、文の最初から4番目のワード“conside
r”がエラーの終了ポイントであることを検出すること
が重要である。エラーの終了ポイントである“conside
r”以降のワード、即ち、“this fact ”は助動詞シー
ケンスの訂正に全く影響を与えない。同様に、エラーの
開始ポイント、即ち、文の最初から2番目のワード“ha
s ”を検出することも重要である。エラーの開始ポイン
トである“has ”よりも前のワードは、助動詞シーケン
スの訂正には、無関係である。
【0072】図6は、開始ポイント検出部426と終了
ポイント検出部424の開始ポイントと終了ポイントの
検出のブロック図である。入力文の品詞が生成される
と、終了ポイント検出部424により、誤った助動詞シ
ーケンスの終了位置が求められる。この誤った助動詞シ
ーケンスの終了位置検出のために、図6の420に示す
正しい助動詞シーケンスが記憶されている。この正しい
助動詞シーケンス420は、全ての正しい助動詞シーケ
ンスからなり、その詳細は、図7に示されている。図7
は、英語の正しい助動詞シーケンスを表す有向非循環
(アサイクリック)グラフである。
【0073】この正しい助動詞シーケンス420を示す
有向非循環グラフを参照し、誤った助動詞シーケンス4
22が生成される。この誤った助動詞シーケンス422
も有向非循環グラフの形式で表すことができる。有向非
循環グラフは、誤った助動詞シーケンス“have-3rd-per
son verb-infinitive ”を含む形となる。この誤った助
動詞シーケンス“have-3rd-person verb-infinitive ”
は、“has consider”に対応している。エラーの終了ポ
イントの検出は、入力文字列(ストリング:strin
g)を左から右に読みながら、有向非循環グラフと照合
する事により行われる。入力文を構成するワードは品詞
に対応しているので、入力文の品詞を誤った助動詞シー
ケンスにあてはめていくと、問題の助動詞シーケンスの
最後となるワードが明らかになる。このワードの文中で
の位置を識別するために、終了ポイント検出部424が
識別子を付ける。
【0074】同様に、問題の助動詞シーケンスの開始ポ
イントとなるワードには、開始ポイント検出部426が
識別子を付ける。開始ポイント検出部426は、エラー
の終了ポイントの検出後、終了ポイントからグラフの開
始地点まで、右から左に逆戻りして、付与される。具体
的に、例文に沿って説明する。この発明に係るシステム
は、まず、文を左から右に読みながら、“has ”を“ha
ve”の3人称単数形と認識する。そして、“has ”に続
く“consider”を動詞の不定詞形(verb-infinitive )
と認識する。この発明に係るシステムは、ここで、誤り
を発見する。つまり、“has ”の後に、ワード“consid
er”がくるのは、助動詞シーケンスとして誤りであり、
ワード“consider”が誤り助動詞シーケンスの最後尾で
あることを識別する。そして、ワード“consider”か
ら、入力文とグラフをさかのぼり、さきほどの“consid
er”と“has ”を見つける。ここで、ワード“has ”が
助動詞シーケンスの先頭であることがわかる。
【0075】図5に戻って、説明する。助動詞シーケン
スの終了ポイントが決定されると、428に示すように
誤り助動詞シーケンスの終了位置(入力文の誤りシーケ
ンスの最後尾のワードの位置)が決定される。同様に、
誤り助動詞シーケンスの開始位置(誤りシーケンスの最
初のワードの位置)が430において、決定される。こ
こでいうワードの位置とは、入力文中で何ワード目かを
示す数字のことである。432は、第2の有向非循環グ
ラフを用いて行う助動詞シーケンス訂正部である。第2
の有向非循環グラフには、誤った助動詞シーケンス毎
に、いくつかの訂正例が定義されており、その詳細を、
図8に示す。助動詞シーケンス訂正部432は、誤った
助動詞シーケンスを元に、この第2の有向非循環グラフ
を参照する。そして、434に示すように、助動詞シー
ケンスの訂正文をユーザに提示する。
【0076】ここで、前述した図7について詳しく説明
する。図7は、英語の正しい助動詞シーケンスを表す有
向非循環(アサイクリック)グラフである。まず、図7
の左端に、開始ポイント440がある。開始ポイント4
40の右隣のボックス群442には、英語の助動詞全て
が網羅されている。その助動詞は、“be”,“were”,
“was ”,“is”,“am”,“is”,“are ”,“bee
n”,“had ”,“have”,“has ”,“could ”,“s
hould”,“might ”,“may”,“can ”,“must”,
“would ”,“shall ”,“will”,“do”,“doe
s”,“doesn■t ”及び“did ”である。これら助動詞
のうち、“be”から“been”は、ノード444につなが
っている。1つのノードにつながっているということ
は、これらの助動詞の後に続く動詞は、同一の動詞でよ
いということを示している。例えば、“were”の後に
“being ”が続く“were being”というシーケンスが正
しいのと同様に、“is”の後に“being ”が続いてもよ
い。即ち、ノード444は、後に同じ動詞が続く助動詞
のグループがあることを示している。また、ノード44
6は、“had ”,“have”,“has ”に接続しており、
例えば、“had ”,“have”,“has ”に対して“bee
n”というワードが続く時のシーケンスはいずれも正し
い。同様に、ノード448には、“could ”から“wil
l”が接続しており、“have”というワードが後に続く
ことがあってもよい。あるいは、“do”というワードで
もよい。そして、ノード450には、“does”,“d
o”,“doesn■t ”が接続している。これらの助動詞は
“have”には続いてよいが、“do”には続かない。
【0077】このように、規則をコンパクトな視覚表現
に同化させることで、正しいシーケンスかどうか判断す
ることができ、誤った助動詞シーケンスの訂正ができ
る。
【0078】また、前述した各ノードに続いて、“??
?”と表示されたボックスが存在している。例えば、ボ
ックス452などである。“???”と表示されたボッ
クスは、他のノードに描写されていないワードがくるこ
とを表している。あるいは、なにもないことを表すこと
もある。“???”を用いることにより、グラフがコン
パクトになる。ノード454を例にとって説明する。ノ
ード454から延びている線は、“???”と表示され
たボックス456、“had ”と表示されたボックス46
6、“been”と表示されたボックス464に接続してい
る。それにより、ボックス456は、“had ”と“bee
n”以外のワードがきて、ノード458に接続すること
を示している。あるいは、なにもなくてノード458に
接続することを示している。
【0079】このグラフへの入力は、品詞を伴ったワー
ドシーケンスであることを考えると、この入力は、2つ
の変数によってタグ付けされる。第1の変数は、ワード
そのものであり、第2の変数は品詞である。即ち、入力
センテンスは分析により、ワードばかりでなくも品詞も
含んだ形になる。例えば、この発明のシステムが、シー
ケンス“have considered ”を分析するとき、このグラ
フは、シーケンス“have have considered vbn”と比較
される。この、最初の“have”はワードであり、2番目
の“have”は品詞を意味している。また、“considere
d”はワードであり、“vbn ”は過去分詞形を意味して
いる。この2つの変数を用いた分析結果を基に、左から
グラフを見ていくと、“have”と表示されたボックス4
61が見つかる。ボックス461から、右に進み、ノー
ド446を過ぎると、前述した“???”と表示された
ボックス462があり、ノード454に接続する。ノー
ド454からは、“had ”と表示されたボックス46
6、“been”と表示されたボックス464への線が延び
ているが、どちらも入力文にマッチしない。残された線
は、ボックス456に接続する線であり、この線に沿っ
て進んでいくと、ノード458を通ってボックス460
に接続する。ボックス460は、“vbn ”と表示してあ
り、過去分詞がくることを示している。これは、入力文
に、該当する過去分詞があれば、ノード470に進んで
よいことを示している。ノード470からは、“〈E
〉”と表示されたボックス474を通って、グラフの
終了ポイント472に到達する。このように、入力文を
有向非循環グラフに当てはめながら、該当するノードを
経由して終了ポイントまで無事通過できたので、この入
力文は、問題ないとみなされる。“〈E 〉”という表示
は、ワードが存在しない(an empty word である)こと
を示している。そして、“〈E 〉”と表示されたボック
スは、あるノードから次のノードに、ワードや品詞を問
わず、進んでよいことを示している。
【0080】目指すワードが442に示したボックスの
中にない場合には、ボックス476とノード480を通
って、各品詞のボックス482に行き、そこからノード
484にいく。ボックス486は、終了ポイント472
に通ずる経路を提供する。あるいは、ノード484から
ボックス488を通ってノード490に行き、そこか
ら、品詞ボックス492,494のいずれかを通って、
終了ポイント472に至る。また、ノード484からの
もう1つの経路として、“having”を持つワードと結合
しているときは、ノード496とボックス498を経
て、ノード500に至る経路がある。ノード500で更
に分岐し、その1つは、ボックス502からノード50
4を経て、品詞ボックス506を通って終了ポイント4
72に至る。また、ノード484のワードが、“havin
g”と“been”を伴っている場合には、ノード508か
らボックス510、ノード512を通り、そこから、ボ
ックス514、ノード516を通る。ノード516から
また、品詞518から終了ポイント472に至る経路
と、ボックス520を通る経路に分かれている。これら
のルートのいずれかを通って終了ポイント472に到着
すれば、入力されたワード“having”,“been”の用法
が、正しいと決定される。また、ワード“having”,
“been”のシーケンスにワード“being” が付加されて
いる場合には、ノード512からノード522、ボック
ス524を経て、ノード516に至る。
【0081】以上のように、有向非循環グラフは、全て
の助動詞の正しい用法を明記している。それ故、文をこ
の有向非循環グラフに当てはめて分析することにより、
うまく当てはまれば、その文が正しいことがわかり、当
てはまらなければ、その文が誤っていることが即座にわ
かる。このように、簡潔なアプローチにより、文の分析
を著しく効果的に行うことが可能となる。
【0082】次に、図8を用いて説明する。図8は、正
しくない助動詞シーケンスの訂正例を提案する変換器を
示す有向非循環グラフ図である。この有向非循環グラフ
図では、適当な訂正を推奨するために、1つのボックス
に、助動詞が組になって示されている。各組の左側が誤
った助動詞であり、右側が訂正案である。例えば、“wi
ll had”という助動詞シーケンスが誤りであることが識
別された後、図8に示す有向非循環グラフは、正しいシ
ーケンスを記すために用いられる。ノード530からス
タートすると、入力センテンスの最初のワード“will”
は、ボックス532の左側にあるので、ノード534に
進む。ノード534とボックス536を通って、ノード
538に着くと、今度は、“had ”が問題となる。ボッ
クス540は、“had ”を“have”に変更すべきである
ことを示している。そして、ノード542に進み、そこ
からボックス544を通って、終了ポイント546にい
く。この経路を通って、終了ポイント546に到着した
ので、推奨される正しいシーケンスは、“will have ”
であることがわかる。
【0083】更に、複雑なケースとして、誤ったシーケ
ンス“would considered”を例に取ってみよう。対応す
る品詞タグは、“would would considered vbn”とな
る。このケースでは、“would ”と表示されたボックス
550を通って、ノード534に行き、ボックス536
からノード538に至る。ここで、ボックス540,5
52,554,556,558,560のいずれもこの
シーケンスに該当しない。これらのどのボックスにも、
“consider”というワードはないからである。ここで、
ボックス562を経由すると、品詞ボックス564へ至
る。品詞ボックス564では、推奨する訂正例が、“wo
uld consider”に訂正すべきことを示している。これ
は、この有向非循環グラフが、“considered”は、ワー
ド“consider”の過去時制であることを検出することに
より得られた結果である。ボックス564は、現在形の
“consider”が使われるべきだと提案している。この分
析は、“vbd:/vbd/vb”により示されている。vbd は
過去時制を、vbは現在時制を表している。“/vbd/vb
”は、過去時制を現在時制に変更すべきことを示して
いる。ノード538からは、入力に対して他の訂正案を
示す他のノードへの経路がある。例えば、“would have
considered ”というシーケンスでもよい。ボックス5
66は、ワード“have”が追加されるべきであることを
記している。ボックス568は、もし、“have”が追加
されるなら、“have”の品詞、即ち、hvがあわせて追加
されるべきことを記している。ボックス570を通過す
ると、ボックス572は、過去形が過去分詞形に変形さ
れるべきであることを記している。この場合、“consid
ered”は、過去形と過去分詞形が同形であるので、変更
は行われない。入力ワードが、“considered”でなく
“knew”であれば、ボックス572は、“know”の過去
形である“knew”から、過去分詞形の“known ”に変更
されるべきであることを示していることになる。
【0084】以上のように、図8に示す有向非循環グラ
フを用いて、誤っていると決定した動詞シーケンスに対
して、複数の変更例を挙げることができる。
【0085】(d)スペルチェッカ(スペルチェッキン
グシステム) 一般に、スペルチェッキングシステムといえば、辞書参
照アルゴリズムを用いて、ワードのミススペルを防ぐも
のである。このようなスペルチェッキングシステムは、
特に、不注意によるタイプミスや文字(キャラクタ)の
入れ替えには有効であるが、それ以外のスペルエラーに
は効果的でないという欠点がある。特に、ネイティブス
ピーカでない人々のスペルエラーは、ワード内の文字の
入れ替えや不注意による文字の抜けや余りでなく、文法
的な誤りによるエラーが主である。例えば、“He drive
d his car yesterday ”というセンテンスをみると、こ
のセンテンスのエラーは、不注意によるものでもなく、
また、ある単語のスペルを知らないことによるものでも
ない。むしろ、動詞“drive” の過去時制を正確に理解
していなかったことによるものである。
【0086】スペルチェッカは、ミスタイプされたワー
ドと辞書に記載されているワードの違いに基づいて、適
切なスペルを推奨する。典型的なワードの違いは、文字
の数に基づくものであり、正しい文字と置き換えたり、
抜けている文字を挿入したり、文字を正しい位置に入れ
替えたり、余分な文字を挿入したりすることで訂正され
る。ところが、このような操作により訂正された結果
は、必ずしも正しいとは限らない。むしろ、おかしな造
語を作り出すことがある。例えば、前述したセンテンス
の例では、“drive ”の過去時制である“drove ”に訂
正されるべきであるが、スペルチェッカによっては、
“dried ”や“dripped ”などと訂正するものもある。
正しいワード“drove ”には訂正されないというのは、
非常に興味深いことである。これは、現在のスペルチェ
ッキングシステムが検出したスペルエラーに対して、文
法的な分析を行わないことに起因する。
【0087】また、現在のスペルチェッキングシステム
は、形容詞の比較級が誤っているとき、その訂正を正し
く行わないという問題点もある。例えば、ネイティブス
ピーカでない人々は、“good”の比較級を考えるとき、
通常の規則に則って、“gooder”としてしまいがちであ
る。更にまた、名詞“child ”の複数形を“children”
ではなく、“childs”としてしまうことがある。これ
は、通常の複数形を作る規則に則って、単数形に“s ”
を付けてしまうからである。
【0088】上に挙げた例のようなミススペルされたワ
ード“childs”に対して、現在のスペルチェッカは、正
しいワードとして、“chills”,“child■s ”,“chi
ll■s ”,“child ”,“tildes”を推奨する。いず
れも文脈からすると正しい訂正とはいえず、スペルチェ
ッカが役に立たないことがわかる。また、これらのスペ
ルチェッカは、“goodest ”の正しいスペルとして、
“gooiest ”,“goosed”を挙げる。これも適切な訂正
とはいえない。
【0089】これでは、ネイティブスピーカは、スペル
チェック機能を使う気をなくし、また、ネイティブスピ
ーカ以外の人々は、文脈にあわないワードの選択を迫ら
れ、フラストレーションがたまってしまう。
【0090】図9は、この発明のネイティブスピーカで
ない人々向けの改良されたスペルチェッキングシステム
のブロック図である。複数形、過去形、過去分詞、比較
級、最上級について、不規則な変化をするワードの典型
的な例を明確にするのは重要である。このような文法に
基づいて生成された誤りワードのリストにより、この発
明のシステムは、より適切な候補ワードを推奨する。こ
の発明のスペルチェッキングシステムは、通常は、辞書
検索システムによりミススペルを検出する。その後、以
下に述べる典型的な誤りワードのコンペンディアム(com
pendium)と、語根と形態的素性により、訂正ワードが提
案される。
【0091】図9において、英文ワード訂正部600
は、英文ワード辞書602と誤り英文ワードリスト60
4を含んでいる。誤り英文ワードリスト604は、非英
文ワード辞書606で英文ワード辞書602のワード
と、英文ワードフォーメーション規則辞書608を比較
することにより生成される。この比較の結果が、前述し
た誤りやすいワードのリストである。これらの誤りは、
スペルミスによるのではなく、文法の誤りによるもので
ある。
【0092】図10は、検出された誤り英文ワードの訂
正プロセスを示すブロック図である。英文ワード辞書6
02は、図9を用いて予め生成された誤り英文ワードリ
スト604とともに使用される。誤りワード610は、
従来の辞書参照により検出される。検出された誤りワー
ド610と誤り英文ワードリスト604は、語根(ro
ot)及び形態的素性部612に入力される。語根及び
形態的素性部612は、誤りワード610の語根及び時
制、数、比較級、最上級などの形態的素性を決定する。
例えば、誤りワード“drived”の語根は“drive ”であ
り、形態的素性は、過去時制又は過去分詞である。語根
及び形態的素性は、訂正ワード部614に供給される。
訂正ワード部614は、語根及び形態的素性と英文ワー
ド辞書602内の英文ワードを相互に関連づけ、文法規
則とその例外を考慮して訂正ワードを提案する。
【0093】この発明のシステムは、典型的な誤った用
法に基づいた語根と形態をもとにしているので、誤った
用法と関連づけられた適切なワードの提案を可能にす
る。また、単純なミススペルでなく文法的に問題のある
ワードに対して精巧な参照方法を提供する。
【0094】更に、品詞タガーは、この発明のシステム
が提案するワードの正確さを改善する上でも、効果をも
たらす。例えば、ミススペルされたワードが過去形とも
過去分詞ともとれるような場合である。前述した“driv
ed”を訂正すると、“drove”又は“driven”となり、
過去形か過去分詞かが明確になる。誤っている単語が、
文の中でどのような役割を果たしているかを理解するこ
とにより、品詞に基づく適切な選択を行うことができ
る。
【0095】(e)限定詞の不適切な用法の検出及び訂
正 ネイティブスピーカでない人々にとってより困難な問題
の1つに、限定詞の用法がある。限定詞とは、名詞句の
参照を限定する“the ”,“a ”,“some”などのワー
ドである。限定詞に関連するエラーは、3つのカテゴリ
ーに分類される。最初は、限定詞の欠落である。例え
ば、“John read book”というセンテンスには、名詞句
“book”の限定詞が抜けている。2つ目は、不要な限定
詞の使用である。例として、“John went to the New Y
ork ”というセンテンスがある。ここで、限定詞“the
”は不要であり、削除されるべきである。3つ目は、
限定詞と名詞の不一致である。例えば、“John read ma
ny book ”というセンテンスにおいては、“book”は、
“many”と不一致である。
【0096】限定詞の誤りを検出するために、品詞タグ
が分析に用いられる。品詞タガーは、図2,図5,図1
5,図16,図18に記載されている。タグ付けされた
センテンスの例として、“John read long novel”とい
うセンテンスについて考えてみる。ワード“John”のタ
グは固有名詞、“read”のタグは動詞の過去形、“lon
g”のタグは形容詞、“novel ”のタグは単数名詞とな
る。
【0097】図11は、限定詞の不適切な使用の検出と
訂正の流れ図である。図11に示す700において、こ
の発明のシステムは、名詞句を識別する。具体的には、
どの品詞タグのシーケンスが名詞句を構成するかを決定
するパターンを準備しておき、このパターンとマッチン
グして、センテンスの名詞句を識別する。名詞句のパタ
ーンを以下に示す。 [DET](MODS NOUN AND)* MOD
S NOUNhead また、以下に、MODSのパターンを示す。 (MOD+AND)*MOD ここで、DETは限定詞のタグ、MODは修飾語句(m
odifier)のタグ、NOUNは名詞のタグ、AN
Dは接続詞のタグである。[X]は、表現Xが0回乃至
1回発生することを示す。また、(X)*は、表現Xが
0回以上発生することを示す。X+ は、表現Xが1回以
上発生することを示す。
【0098】上記パターンは、名詞句を識別するための
パターンである。例えば、前述したセンテンスで、名詞
句を挙げるならば、品詞が固有名詞である“John”と、
品詞が形容詞・単数名詞である“long novel”である。
この識別は、名詞句の先頭と末尾を識別することにより
行われる。名詞句の識別は、その名詞句の構成要素に、
限定詞の欠落、不要な限定詞の使用、限定詞と名詞の不
一致のいずれかが発生していないかをチェックする為に
重要である。
【0099】名詞句を識別すると、システムは、図11
の702において、名詞句毎に限定詞が欠落していない
かをテストする。名詞句の欠落の決定は、図12に示す
流れ図に沿って行われる。このテストでは、名詞句(n
oun−phrase:NP)全体及びヘッドナウン
(NOUNhead)をチェックする。ヘッドナウンとは、
名詞句の決め手となるワード(the last wo
rd)である。ヘッドナウンとは、句の中で最も重要な
名詞のことであり、多くの例において名詞句の最後のワ
ードである。また、このテストでは、名詞句の限定詞
(determiner:DET)もチェックする。限
定詞は、通常、名詞句の先頭にあるか、あるいは、どこ
にもないかのいずれかである。図12の704におい
て、ヘッドナウンが単数で、固有名詞以外である時、7
06において、限定詞DETがあるかどうか判断する。
限定詞が存在しない時、708において、その名詞句が
タイトルであるかどうか判断する。タイトルは、固有名
詞と同様に、大文字表記されるべきものである。例え
ば、“The AtlantaPolice Department ”や“Grady Hos
pital”は、タイトルである。名詞句がタイトルではな
いと判断された時、710において、ヘッドナウンが質
量名詞(マスナウン:mass noun)かどうか判
断する。質量名詞(mass noun)とは、量を定
めない物質を指す名詞である。例えば、“rice”,“fi
sh”,“carbon”がこれに当たる。質量名詞は、複数名
詞として機能するので限定詞は不要となる。
【0100】名詞句がタイトルならば、712におい
て、ヘッドナウンがマスタイトルナウンかどうか分析さ
れる。マスタイトルナウンとは、マスナウン(質量名
詞)に類似しているが、タイトルではない。例えば、
“She attended Harvard University ”というセンテン
スにおいて、名詞句“Harvard University”は、タイト
ルであるが、“University”は、マスタイトルナウンで
ある。この場合、“University”は、センテンスの中
で、限定詞を伴わないことに留意されたい。また、マス
タイトルナウンは、マスナウンと同一ではない。例え
ば、“University”は、マスタイトルナウンであるが、
マスナウンではない。なぜならば、“She attendeda fi
ne university”というセンテンスではワード“univers
ity”には、限定詞“a ”が付くからである。このよう
に、712においてマスタイトルナウンと決定される
と、訂正の必要がないとみなされ、訂正は提案されな
い。
【0101】名詞句のチェックには、更に、イディオム
であるかどうかという問題がある。714において、名
詞句がイディオムの一部ではないかが分析される。この
分析は、イディオム辞書の参照により行われる。名詞句
がイディオムの一部であれば、訂正の必要はない。例え
ば、“The event took place”というセンテンスにおい
て、名詞句“place ”には限定詞が付いていないが、
“to take place ”というイディオムの一部であるので
誤りではなく、訂正の必要はない。
【0102】ヘッドナウンが、単数で固有名詞ではない
のに限定詞が付いていない場合で、マスナウンでもマス
タイトルナウンでもなく、更に名詞句がイディオムの一
部でもない時、716において、限定詞の欠落であると
決定される。
【0103】限定詞の欠落のチェックに続いて、図11
の720において、不要な限定詞の使用のチェックが行
われる。
【0104】図13は、名詞句の不要な限定詞のチェッ
クを示す流れ図である。まず、722において、ヘッド
ナウンが固有名詞であるかどうか判断する。固有名詞の
時、724において、名詞句が限定詞を含むかどうか判
断する。名詞句が限定詞を含む場合には、726におい
て、使用されている限定詞は不要であると決定される。
例えば、“John went to the New York ”というセンテ
ンスは、不要な限定詞を含んでいるとみなされる。なぜ
ならば、名詞句“the New York”は、固有名詞のヘッド
ナウンを含んでいて、更に限定詞“the ”が付いている
からである。固有名詞は、品詞タガーにより識別され
る。品詞タガーは、確率と文脈に基づき固有名詞を決定
する。
【0105】図11に示す流れ図の730において、次
にチェックされるのは、名詞句の名詞と限定詞の数の一
致である。その詳細を、図14に示す。図14は、名詞
句の数の一致のチェックを示す流れ図である。数の一致
のチェックは、名詞句を検出部に入力することにより行
われる。732において、検出部は名詞句のヘッドナウ
ンが固有名詞かどうか判断する。もし、固有名詞であれ
ば、数の不一致はあり得ない。もしも固有名詞句に限定
詞が付いていれば、不要な限定詞のエラーとしてはじか
れているはずだからである。即ち、固有名詞には、限定
詞は付かないので、不一致も発生しない。ヘッドナウン
が固有名詞ではない時、この発明のシステムは、734
において、名詞句に限定詞が付いているかどうか判断す
る。付いていない時は、数の不一致の問題は発生しな
い。
【0106】限定詞が付いている時、736において、
限定詞の数がヘッドナウンの数、即ち、単数か複数かに
照らし合わせてチェックされる。両者の数が一致してい
る時は、エラーではない。もしも、両者の数が不一致の
時は、ヘッドナウンの数を限定詞の数に合わせる訂正が
提案される。例えば、“John read one books ”という
センテンスであれば、限定詞“one ”に合わせてヘッド
ナウン“books ”を単数形の“book”に訂正するよう提
案される。同様に、“John read many book ”というセ
ンテンスに対しては、この発明のシステムは、ヘッドナ
ウンを限定詞に合わせて、複数形にするよう提案する。
もちろん、他の方法として、システムがヘッドナウンに
合わせて限定詞を変更するようにしてもかまわないが、
名詞を限定詞に合わせる方が一般的である。なぜなら
ば、名詞に対して適切な限定詞を設定する方が難しいか
らである。また、数に関しては、既に書かれている限定
詞に従う方が書き手の意図に沿うと思われるからであ
る。
【0107】以上のように、この発明のシステムにおい
ては、限定詞の不適切な用法を検出し、訂正するため
に、いくつかのテクニックを用いている。いくつかのテ
クニックとは、タグ付けされたセンテンスを用いること
であり、また、名詞句,ヘッドナウン,固有名詞,質量
名詞,マスタイトルナウン,イディオムの検出である。
限定詞の誤使用を正しく決定する上で最も重要なのは、
名詞句の検出である。この発明のシステムにおいては、
図11に示す流れ図に沿ったパターンマッチングにより
これを実現している。
【0108】(f)固有名詞をはじめ大文字表記される
ワードの認識 文の分析において、いつワードが固有名詞であるかを認
識できるかということは重要である。なぜならば、固有
名詞は、他の名詞とは対照的に独自に確認できる方法で
姿を現わしているからである。固有名詞だけでなく、固
有名詞以外で大文字表記されるワード、例えば、“Harv
ard University”など、タイトルに使用するワードを認
識する能力をもつことによって、文を文法的に説明し、
理解することができ、その結果、文法的な分析が可能と
なる。
【0109】ワードは英語の文において、2つの場合に
大文字表記される。第1に、その語が固有名詞をはじめ
とする大文字表記されるワードである場合である。第2
に、そのワードが文の始まりか、ある句読点の後に置か
れる場合であり、この2つの場合以外は、大文字にされ
ることはない。例えば、“Wells was an English novel
ist ”という第1の文を考えてみると、“Wells ”(人
名)は、固有名詞であるので大文字にされる。また、
“Wells wewe dug to provide drinking water”という
第2の文を考えると、“wells ”(“well”の複数形)
は、文の最初のワードであるので、大文字にされる。
【0110】このような理由から、第1の文において、
文法チェッキングシステムは、“Wells ”は、元来大文
字表記されるべき固有名詞であることを認識しなければ
ならない。第2の文においては、文法チェッキングシス
テムは、“wells ”は必ず大文字表記されるべきである
から、大文字で書かれているわけではなく、ごく普通の
複数形であり、文の先頭なので大文字にされることを認
識しなければならない。
【0111】前述の名詞が固有名詞であるかどうかの決
定方法において、従来のシステムは、大文字表記された
ワードを認識するために、比較的限られたテクニックを
採用してきた。1つの方法は、文の最初のワードは固有
名詞ではあり得ないと仮定するものであった。この方法
では、第1の文で示されるような固有名詞で始まる文に
対しては、名詞の決定が正しく作用しない。
【0112】また、別の方法として、すべてのワードを
固有名詞か普通名詞のどちらか一方のみに分類する方法
もあった。この場合、1つのワードが双方には分類され
ない。それゆえ、前述の2つの文で示すように、“Well
s ”というワードが固有名詞と普通名詞のどちらかのみ
でなく、明らかに両方を取り得るような場合、この種の
分類システムは正しく作用しない。
【0113】ワードが固有名詞かどうかを適当に識別で
きないという問題は、辞書を引く際、誤った定義が引き
出されることにある。単純な文法チェッキングにおいて
は、定義が要求されないが、適当な用法を決める時に教
授的(チュートリアル:tutorial)、もしく
は、情報的なデータを提供するような精巧なワードプロ
セッシングや文法チェッキングシステムにおいては、固
有名詞をはじめとする大文字表記するワードの正しい識
別を必要とする。辞書参照機能が文法チェッキングシス
テムの一部でなくても、固有名詞をはじめとする大文字
表記するワードの認識は重要である。
【0114】ワードが固有名詞であるかどうかを識別す
ることの重要さは、トリグラム(tri−gram)の
確率を用いて、文のそれぞれのワードの品詞を実際に決
める品詞タガーの作用に影響を与える。同じワードでも
大文字表記する場合と大文字表記しない場合では、トリ
グラムの確率が異なるので、正しいトリグラムの確率を
適用するために、品詞タガーが文中にどの種類のワード
が現れるかを知ることは重要である。例えば、固有名詞
“Wells ”のトリグラム確率は、普通名詞“wells ”の
トリグラム確率とは異なる。このように、品詞タガー
は、“Wells was an English novelist ”という文にお
いて、“Wells ”というワードは固有名詞であるので、
ワード“Wells ”が大文字表記された場合のトリグラム
確率を適用しなければならないということを認識しなけ
ればならない。
【0115】あるワードが普通名詞であるか、それとも
固有名詞をはじめとする大文字表記するワードであるか
を決定するために、この発明のシステムは、それぞれの
ワードの2つの翻訳、即ち、固有名詞としての翻訳と普
通名詞としての翻訳のどちらが良いかを決める。これ
は、その名詞を固有名詞又は普通名詞に仮定した二種類
の文を生成することで行われる。そして、生成した2つ
の文のトリグラム確率を比較する。固有名詞と仮定した
文の確率が高いと、そのワードは固有名詞と考えられ、
そうでない場合は、普通名詞と考えられる。
【0116】図15は、固有名詞とそれ以外の大文字表
記すべきワードを認識し、ワードの基本スペル回復を行
うシステムのブロック図である。図15に示すように、
名詞が固有名詞かどうかを確認するための決定過程には
2つのステップがある。最初のステップは、800に示
す前処理である。この前処理は、802に示すように、
タグ付けされたトレーニングコーパスで始まる。これ
は、文のそれぞれのワードが品詞タグで注釈を付けられ
た文を参照する。次に、トレーニングコーパス802
は、804において、固有名詞でないワードや、通常は
元来大文字表記されないワードを、大文字にしないよう
に変えられる。ワードは、それが固有名詞か、タイトル
としてタグ付けされている場合や、それが頭字語である
場合、もしくは代名詞“I”である場合に、元来大文字
表記されるべきであると考えられる。更に、そのワード
は文の初めか、オープンクオート(引用符内の開始)
か、又は、コロンの後に発生する場合にのみ大文字にさ
れる。
【0117】上記処理の詳細を図16に示す。更に、図
16に説明されるように、タグ付けされたトレーニング
コーパス808は、810に入力され分析される。81
0において、ワードとタグの組み合わせ(ペア)を、コ
ーパスから得る。組み合わせ(ペア)が見つかると、そ
のワードは812で分析され、大文字表記されているか
どうかを確認される。大文字表記されている場合には、
814に示すように、そのワードが文の先頭にあるか、
また、引用符開始(オープンクオート)かコロンに続く
かが確かめられる。そうであれば、816において、そ
のワードは、固有名詞かタイトルとしてタグ付けされて
いるか、又は、それが頭字語か代名詞“I”であるかを
確認するために調べられる。上記のいずれかに該当する
場合は、大文字表記のままでよいが、違う場合には、そ
のワードは818で示されるように、改定されたトレー
ニングコーパスにおいて、大文字表記を解除される。即
ち、そのワードは、普通は大文字で記述されないワード
であるということが記憶される。
【0118】図15に戻ると、改定されたトレーニング
コーパスは、820において分析され、そのワードの確
率に基づいたトリグラム(tri−gram)モデルを
得る。このようにして、修正されたトリグラムモデルを
提供し、あるワードが実際は普通名詞であるのに、固有
名詞として間違えているような誤り、又は逆の場合の誤
りをなくす。誤りをなくすために、タグ付けされたトレ
ーニングコーパスを前処理した後、作成されたトリグラ
ムモデルは、822において、入力文の問題になってい
るワードが元来大文字表記されるべきワードであるかど
うかを決定するのに用いられる。この処理822におい
て、文を入力し、大文字表記に疑いのあるワードの基本
スペルを出力する。
【0119】図17は、大文字表記すべきワードかどう
か判断する決定処理の詳細な流れ図である。図15の8
22に示す決定処理は、図17の850に示す“文中の
ワード”の入力で始まる。852の処理において、その
ワードが大文字表記されているかどうか判断する。も
し、そのワードの初めの文字が大文字表記されている場
合において、大文字にされるべきかどうかを決めるため
に、以下の処理で分析される。大文字表記されていない
場合は、851に示すように、そのワードの訳は、文字
どおり文によって与えられる。即ち、文中で大文字にさ
れている場合、固有名詞として訳される。文中で大文字
にされていない場合は、普通名詞として訳される。この
ように、文字が大文字にされていないと、特別な処理は
行われない。
【0120】そのワードが大文字にされている場合に
は、854で示されるように、そのワードが文の先頭の
ワードであるか、もしくは、引用符の開始やコロンに続
くかが判断される。そうである場合は、856に示すよ
うに、そのワードは頭字語であるかどうかを確かめる処
理がなされる。頭字語は、そのすべてのアルファベット
の文字が大文字にされていることか、あるいは、頭字語
の辞書に存在していることにより判断される。ワードが
頭字語であるとされた場合、前述した851の処理を行
う。
【0121】もし、そのワードが頭字語でない場合、8
58に示すとおり、この発明のシステムは、文の2つの
種類のそれぞれの確率を、トリグラムモデル859に従
って計算する。1つは、大文字表記する固有名詞として
扱われるべきワードを持つ文、もう1つは、大文字表記
しない普通名詞として扱われるワードを持つ文である。
また、その計算は、前述の品詞タガーに従って実行さ
れ、すでに説明されたとおりである。
【0122】もし、860に示すように、大文字表記し
ないワードを持つ文の確率Pu が、大文字表記するワー
ドを持つ文の確率Pc を超えていると、本システムは、
大文字表記しないワードのスペルを、最も確率の高い、
基本スペルとして報告する。結果として、この基本スペ
ルは、以降の文法チェッキングに用いられる。そうでな
い場合は、864に示すように、本システムは大文字表
記するワードのスペルを、最も確率の高い基本スペルと
して報告する。
【0123】以上のように、ワードの基本スペルの回復
を行うことによって、文法チェッキングシステムがより
正確かつ有用になる。この発明のシステムにおいては、
基本スペルの回復には、2つのステップがある。最初の
ステップにおいては、図15の800及び図16に示す
ように、ワードが固有名詞であるかないかの誤った認識
を通して誘発される誤りに対するトレーニングコーパス
の品詞タグを訂正する。第2のステップにおいては、図
15の822及び図17に示すように、大文字にされた
スペルと大文字にされていないスペルのどちらがより適
切であるかを確かめるために、一連の分析がなされる。
この確認は、最初のステップである前処理のステップに
おいて得られる改定されたトリグラムモデルの確率を用
いることで、そのワードが元来大文字表記されるべきワ
ードかどうかを決める決定要素(ディシジョンメーキン
グエレメント)を通して達成される。
【0124】(g)文脈に基づいた辞書アクセス テキストを書く際、ネイティブでないスピーカーはモノ
リンガルやバイリンガルの辞書の有用性に頼っている。
辞書は、ネイティブでないスピーカが頼る最も有用な情
報源の1つである。辞書の使用は、文法チェッキングと
いう問題には限定されていないが、テキストを書くのに
一般的に有効である。ネイティブスピーカでさえテキス
トを作る際には、辞書やシソーラスに信頼を置いて利用
している。
【0125】辞書のエントリをアクセスすることは、見
かけほど単純ではない。なぜなら、文脈から離れてワー
ドを調べる時、そのワードの構成や意味において、大変
曖昧であるからである。あるワードを辞書で検索すると
一般に、20,30、あるいは、それ以上のエントリを
持っている。このように、大多数のエントリがあるため
辞書を引くのは大変時間を消費する作業となっている。
【0126】例えば、文脈を問題にしない場合、“lef
t”というワードは英語の辞書において、たくさんのエ
ントリを持つ。“His left arm”という文における形容
詞“left”に対するエントリ、“he moved left on ent
ering the room”という文における副詞“left”に対す
るエントリ、“Make a left at the next corner”とい
う文における名詞“left”に対するエントリ、“He lef
t a minute ago”という文における動詞過去形“leave
”に対するエントリ、等である。しかし、“left”と
いうワードが英語の文の中で発生すると、このエントリ
の1つだけが、文脈に適したものになる。現在、どの辞
書も文脈に基づいたワードの正しいエントリにアクセス
する能力は提供していない。
【0127】この発明のシステムにおいて、辞書のエン
トリは、あるワードに対して文脈を考慮して割り当てら
れた品詞に基づいて選ばれ、ランク付けされる。そのラ
ンク付けにおいて、まず、文脈におけるワードに対応し
たエントリが選ばれる。それ以外の現在の文脈にふさわ
しくないエントリは、ユーザの要求があれば利用され
る。文脈を考慮したワードの品詞は、前述の品詞タガー
を用いて明確にされる。
【0128】説明のために、“He left a minute ago”
という文中の“left”というワードを想定すると、品詞
タガーは、その文中の“left”というワードに“過去形
の動詞”というタグを割り当てる。この場合、この発明
のシステムは、文脈における“left”の用法に対応する
動詞“leave ”のエントリをまず最初に選択し、その
後、その文脈には用いられない“left”の用法、具体的
には、形容詞や副詞や名詞としての“left”の用法を選
択する。
【0129】“It has several bases”という文章の中
の“bases ”というワードを想定すると、品詞タガーは
文章の中で、“bases ”というワードに対して、“名詞
複数”という2つのタグを割り当てる。文脈から離れる
と、“Bases ”というワードは、名詞“basis ”の複数
であり、名詞“base”の複数でもあり、動詞“base”の
三人称でもある。“It has several bases”という文脈
に対しては、この発明のシステムは、“bases ”という
ワードに対応する名詞“base”と、名詞“basis ”への
エントリをまず最初に選択し、次に、文脈には用いられ
ていない“bases ”に対するエントリ、具体的には、動
詞“base”に対するエントリを選択する。
【0130】図18は、文脈に基づく辞書アクセスを示
すブロック図である。図18に示すように、文中のワー
ド900の文脈に基づいて辞書のエントリを選択するた
めに、ワードは形態素解析部910によって分析され
る。形態素解析部910では、文脈から独立したワード
に対応する原形と品詞の組(ペア)を求める。例えば、
“left”というワードに対しては、形態素解析部910
は、以下の原形と品詞の組を出力する。即ち、(“lef
t”,“形容詞”),(“left”,“副詞”),(“lef
t”,“単数名詞”),(“leave” ,“動詞過去
形”)である。形態素解析部910は、英語のすべての
ワードのすべての活用形によって、索引付けられたテー
ブルであって、そのテーブルのエントリが原形と品詞の
組合わせであるテーブルを引くことによって原形と品詞
の組を出力する。形態素解析部910の処理と並行し
て、そのワードは、品詞タガー930により文脈を考慮
して分析され、その結果、文脈のワードに対応する独自
の品詞タグT940が出力される。これは、“A St
ochastic Parts Program an
d Noun Phrase Parser for
Unrestricted Text”(Procee
dings of theSecond Confer
ence on Applied NaturalLa
nguage Processing, Austin
Texas,1988)に述べられるKenneth
Church´s Stochastic Part
s Programで実現された品詞タガーによって達
成される。
【0131】例えば、ワードが“He left a minute ag
o”という文脈の中の“left”である場合、品詞タガー
は、“動詞過去形”という品詞タグを出力する。文脈に
対応しない語形原形と文脈に対応する語形原形を区別す
るために、920における原形と品詞の組を2つの組、
即ち、品詞タグT940に対応する組950と、品詞タ
グT940に対応しない組960とに分ける。前述した
例では、文脈に対応する原形と品詞の組は、“leave ”
と“動詞過去形”である。文脈に対応しない原形と品詞
の組は、以下の通りである(“left”,“形容詞”),
(“left”,“副詞”),(“left”,“単数名
詞”)。文脈に対応する辞書からのエントリをディスプ
レイするために、文脈に対応する原形と、品詞の組95
0でみつけられた原形に対応する辞書970の全てのエ
ントリは、980でディスプレイされる。上記の例で
は、動詞“leave ”の全てのエントリが、文脈に適切な
エントリとして、ディスプレイされる。辞書から文脈に
対応していないエントリをディスプレイするために、文
脈に対応しない原形と、品詞の組960でみつけられた
原形に対応する辞書970の全てのエントリは、990
においてディスプレイされる。上記の例では、形容詞、
副詞、単数名詞としての“left”というワードへの全て
のエントリは、文脈には適切でないエントリとして、デ
ィスプレイされる。
【0132】以上のように、この実施例においては、文
脈に基づいて辞書からエントリを選択する辞書アクセス
システムについて説明した。単語だけに着目して辞書エ
ントリをアクセスしたときに得られる情報があまりにも
多いので、この発明に係るシステムは、辞書エントリを
アクセスする際、まず最初に、文中の特定の単語の品詞
を確定する。そして、確定した品詞に対応する辞書エン
トリをユーザに表示する。ユーザは自分が見たいときだ
け、確定した品詞以外の他の品詞の語義を表示させるこ
とができる。その結果、ユーザは、テキストを理解しや
すい効果的な辞書利用ができる。
【0133】この発明の文脈を基本とする辞書アクセス
システムは、文の所定の単語に割り当てられた品詞に基
づいて、エントリを選択し、ランク付け(分類)する。
その単語の文脈に合ったエントリをまず選択し、話の流
れに沿っていない他のエントリがこれに続く。文脈中の
所定の単語の品詞は、品詞タガーを使用して選択され
る。これにより、文中で文法的に意味をなすエントリの
みを選択することが可能となる。この辞書アクセスシス
テムは、モノリンガルな辞書にもバイリンガルな辞書に
も適用可能であり、また、ネイティブスピーカにとって
もネイティブスピーカ以外の人々にとっても有用なシス
テムである。この発明の辞書アクセスシステムによれ
ば、辞書の数多いエントリの中から文脈に対応したエン
トリを選択することが可能である。その結果、ユーザは
数多いエントリの全てに目を通す必要がなくなり、ユー
ザが読まなければならないエントリの数を減らすことが
できる。
【0134】
【発明の効果】この発明の辞書アクセスシステムによれ
ば、文を構成する単語の品詞を解析し、品詞に対応する
辞書の定義をまず第一に出力するので、ユーザが、参照
したい単語に対応する辞書の定義を全部見なくとも目的
の定義が得られる。また、辞書のエントリが多数存在す
る場合でも、短時間で目的の定義を参照できる。
【0135】また、この発明によれば、入力文の文脈に
合った辞書の定義を出力するので、文脈に対応しない大
量の定義に煩わされることがない。
【0136】また、この発明によれば、入力文を構成す
る単語に対応する品詞のシーケンスとその確率を用いて
入力文の分析ができる。
【0137】また、この発明によれば、前後3つの品詞
の組み合わせ毎にそれぞれの確率を計算し、計算した確
率がもっとも高い品詞の組み合わせを品詞シーケンスと
して出力するので、文脈にあった品詞の解析ができる。
【図面の簡単な説明】
【図1】 この発明の複数モジュールからなる文法チェ
ッキングシステムのブロック図である。
【図2】 この発明の間違えやすい単語の訂正に品詞シ
ーケンスの確率を用いた場合のブロック図である。
【図3】 この発明の図2の比較選択部における比較対
象として、文の長さの平均を用いたブロック図である。
【図4】 この発明の“a ”と“an”を定冠詞に訂正す
る流れ図である。
【図5】 この発明の誤った助動詞シーケンスの訂正の
ブロック図である。
【図6】 この発明の開始ポイント検出と終了ポイント
検出のブロック図である。
【図7】 この発明の英語の正しい助動詞シーケンスを
表す有向非循環グラフ図である。
【図8】 この発明の正しくない助動詞シーケンスの訂
正例を提案する変換器を示す有向非循環グラフ図であ
る。
【図9】 この発明のネイティブスピーカでない人々向
けの改良されたスペルチェッキングシステムのブロック
図である。
【図10】 この発明の検出された誤り語の訂正プロセ
スを示すブロック図である。
【図11】 この発明の限定詞の不適切な使用の検出と
訂正の流れ図である。
【図12】 この発明の名詞句の決定を示す流れ図であ
る。
【図13】 この発明の名詞句の不要な限定詞のチェッ
クを示す流れ図である。
【図14】 この発明の名詞句の数の一致のチェックを
示す流れ図である。
【図15】 この発明のの固有名詞とそれ以外の大文字
表記すべき単語を認識し単語の基本スペル回復を行うシ
ステムのブロック図である。
【図16】 この発明の図15のトレーニングコーパス
のタグ付けを示す流れ図である。
【図17】 この発明の大文字表記すべき単語かどうか
判断する決定プロセスの流れ図である。
【図18】 この発明の文脈に基づく辞書アクセスを示
すブロック図である。
【図19】 従来の辞書の記載の一例を示す図である。
【符号の説明】
10 入力文、12 キーボード、14 CPU、16
ワードプロセッシングシステム、18 プリンタ、2
0 品詞解析部、22 品詞シーケンス確率決定部、2
4 品詞シーケンス確認部、26 訂正文選択部、28
基本スペル回復部、30 語形変化チェッカ、32
助動詞訂正部、34 訂正文選択部、36 限定詞訂正
部、38 単語挿抜部、40 コンテキスト−センシテ
ィブ辞書参照部、42 不定冠詞訂正部、44 スペル
チェッカ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8420−5L 15/38 D (72)発明者 エマニュエル ロシエ アメリカ合衆国 マサチューセッツ州 ボ ストン コモンウェルス・アヴェニュー 37

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 以下の要素を有する辞書アクセスシステ
    ム (a)単語の定義を記録した辞書、(b)単語から構成
    された入力文を入力し、入力文を構成する単語の品詞を
    解析する解析部、(c)上記辞書を上記単語を用いて参
    照するとともに、その単語の定義として上記解析部によ
    り解析された単語の品詞に対応する定義をまず第一に出
    力する参照出力部。
  2. 【請求項2】 上記参照出力部は、単語の定義として上
    記入力文で構文的に適合する定義を出力するとともに、
    関連のない定義を出力しないことを特徴とする請求項1
    記載の辞書アクセスシステム。
  3. 【請求項3】 上記解析部は、入力文を分析して品詞シ
    ーケンスとその確率を出力する品詞タガーを備えたこと
    を特徴とする請求項1又は2記載の辞書アクセスシステ
    ム。
  4. 【請求項4】 上記品詞タガーは、入力文を分解し、前
    後3つの品詞の各組合わせ毎に確率を計算し、もっとも
    確率の高い品詞の組み合わせを品詞シーケンスとして出
    力することを特徴とする請求項3記載の辞書アクセスシ
    ステム。
JP7133929A 1994-06-01 1995-05-31 辞書アクセスシステム Pending JPH0844719A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25218094A 1994-06-01 1994-06-01
US08/252180 1994-06-01

Publications (1)

Publication Number Publication Date
JPH0844719A true JPH0844719A (ja) 1996-02-16

Family

ID=22954933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7133929A Pending JPH0844719A (ja) 1994-06-01 1995-05-31 辞書アクセスシステム

Country Status (2)

Country Link
US (1) US5845306A (ja)
JP (1) JPH0844719A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6131102A (en) * 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
AU2440100A (en) 1999-03-19 2000-10-09 Trados Gmbh Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
US6616704B1 (en) * 2000-09-20 2003-09-09 International Business Machines Corporation Two step method for correcting spelling of a word or phrase in a document
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
US6961722B1 (en) 2001-09-28 2005-11-01 America Online, Inc. Automated electronic dictionary
US7194684B1 (en) * 2002-04-09 2007-03-20 Google Inc. Method of spell-checking search queries
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US7346511B2 (en) * 2002-12-13 2008-03-18 Xerox Corporation Method and apparatus for recognizing multiword expressions
US7552051B2 (en) * 2002-12-13 2009-06-23 Xerox Corporation Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
US7890852B2 (en) * 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
US7796121B2 (en) * 2005-04-28 2010-09-14 Research In Motion Limited Handheld electronic device with reduced keyboard and associated method of providing improved disambiguation with reduced degradation of device performance
US20070100600A1 (en) * 2005-10-28 2007-05-03 Inventec Corporation Explication system and method
US7788084B2 (en) * 2006-09-19 2010-08-31 Xerox Corporation Labeling of work of art titles in text for natural language processing
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US20080189299A1 (en) * 2007-02-02 2008-08-07 Ulrich Karl Heinkel Method and apparatus for managing descriptors in system specifications
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US7684904B2 (en) 2007-06-27 2010-03-23 Arinc Incorporated Systems and methods for communication, navigation, surveillance and sensor system integration in a vehicle
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
US7827165B2 (en) * 2007-09-17 2010-11-02 International Business Machines Corporation Providing a social network aware input dictionary
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US20110161067A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using pos tagging for symbol assignment
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
US8782549B2 (en) 2012-10-05 2014-07-15 Google Inc. Incremental feature-based gesture-keyboard decoding
US9021380B2 (en) 2012-10-05 2015-04-28 Google Inc. Incremental multi-touch gesture recognition
US8701032B1 (en) 2012-10-16 2014-04-15 Google Inc. Incremental multi-word recognition
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8819574B2 (en) 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
US9081500B2 (en) 2013-05-03 2015-07-14 Google Inc. Alternative hypothesis error correction for gesture typing
WO2015088985A2 (en) * 2013-12-09 2015-06-18 Google Inc. Systems and methods for providing context based definitions and translations of text
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111324214B (zh) * 2018-12-17 2024-05-24 北京搜狗科技发展有限公司 一种语句纠错方法和装置
US11157479B2 (en) * 2019-04-08 2021-10-26 Microsoft Technology Licensing, Llc Leveraging a collection of training tables to accurately predict errors within a variety of tables

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム

Also Published As

Publication number Publication date
US5845306A (en) 1998-12-01

Similar Documents

Publication Publication Date Title
JPH0844719A (ja) 辞書アクセスシステム
US5477448A (en) System for correcting improper determiners
US5485372A (en) System for underlying spelling recovery
US5799269A (en) System for correcting grammar based on parts of speech probability
US5521816A (en) Word inflection correction system
US5535121A (en) System for correcting auxiliary verb sequences
van Halteren Syntactic wordclass tagging
US6424983B1 (en) Spelling and grammar checking system
US20100332217A1 (en) Method for text improvement via linguistic abstractions
CA2793268A1 (en) Method and apparatus for paraphrase acquisition
JPH05314166A (ja) 電子化辞書および辞書検索装置
Gakis et al. Design and construction of the Greek grammar checker
Tufiş et al. DIAC+: A professional diacritics recovering system
Kaur et al. Spell checker for Punjabi language using deep neural network
JP4278090B2 (ja) 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体
Oakes et al. Bilingual text alignment-an overview
Cloeren Tagsets
Wu et al. Correcting serial grammatical errors based on n-grams and syntax
L’haire FipsOrtho: A spell checker for learners of French
JPH07325825A (ja) 英文法チェックシステム装置
Abebe et al. Amharic Text Corpus based on Parts of Speech tagging and headwords
Stein Preserving Semantic Information from Old Dictionaries: Linking Senses of the ‘Altfranzösisches Wörterbuch’to WordNet
JPH10247193A (ja) 文法検査システム
Gakis et al. Error description and standardization of Modern Greek based on a context-sensitive grammar: Implications for the teaching of mother tongue
Ozates DEEP LEARNING-BASED DEPENDENCY PARSING FOR TURKISH