JPH07325828A - 文法チェックシステム - Google Patents

文法チェックシステム

Info

Publication number
JPH07325828A
JPH07325828A JP7133234A JP13323495A JPH07325828A JP H07325828 A JPH07325828 A JP H07325828A JP 7133234 A JP7133234 A JP 7133234A JP 13323495 A JP13323495 A JP 13323495A JP H07325828 A JPH07325828 A JP H07325828A
Authority
JP
Japan
Prior art keywords
noun
word
determiner
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7133234A
Other languages
English (en)
Inventor
Aaru Goorudeingu Andoriyuu
アール ゴールディング アンドリュー
Shiyabisu Ibu
シャビス イブ
Roshie Emaniyueru
ロシエ エマニュエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPH07325828A publication Critical patent/JPH07325828A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 名詞句中の不適切な限定詞を検出修正する。 【構成】 入力された文の各単語にその品詞を表すタグ
を付加し、付加されたタグの列から名詞句を構成するタ
グの部分列を特定し、名詞句の限定詞の欠如、不要な限
定詞の使用、限定詞と中心名詞の単複についての不一致
を検出し、必要な限定詞の挿入や不要な限定詞の削除等
を提案する。さらに、名詞句中の中心名詞の単複、種類
を含む条件から限定詞の要否を判定することによって限
定詞の欠如を検出する。さらに、名詞句中の中心名詞が
固有名詞である場合に限定詞が存在するとき、不要な限
定詞の使用がなされていると判定する。さらに、名詞句
中の固有名詞でない中心名詞と限定詞の単複を比較する
ことにより、単複についての不一致を検出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文法チェックシステムに
関し、より詳しくは、不適切な限定詞の使用を検出する
ための文法チェックシステムに関する。
【0002】
【従来の技術】Henry Kucera et al. の米国特許第 4,8
68,750号に開示される口語文法チェックシステムは、自
然語で書かれたテキストのディジタル符号化信号を受信
し、かつ単語辞書の記憶解析に使用するコンピュータ
と、符号化されたテキストを解析して誤りを検出するた
めの解析プログラムを用いた自動言語分析を含む。この
ようなシステムは特に、文法エラーを検出するため、M
icrosoft Word(登録商標)のプログラム
で使用される。
【0003】このようなシステムのもっとも厄介な問題
は、システムが正しい語法を提示しようとするが非常に
高い確率でエラーとなってしまうことである。この不合
理に高いエラー率は、主としてシステムによる誤った文
の解析に起因するものであるが、文の解析が正しくなさ
れたとしても、マイクロソフト社のシステムはやはり頻
繁に不適正な単語を提示する。
【0004】一方、文全体が正しいかどうかの確率に基
づいて文を分析する別の種類のシステムも試みられてい
るが、そのようなシステムは、現在のパーソナルコンピ
ュータにはない高速処理能力や関連メモリ容量を越える
記憶処理能力を必要とするという問題点がある。
【0005】さらに別のシステムでは、処理の対象とす
る分野や種類のテキストに対して調整するトレーニング
・コーパス(training corpus )に基づいて文を解析し
文法エラーを検出しようとするが、高速処理の必要性に
加えて莫大な記憶量というシステムの制約によって、こ
のシステムをパーソナルコンピュータ環境で使用するの
は無理である。
【0006】一例として、従来の文法チェックシステム
は、「a」「an」といった不定冠詞の抜けを決まって
見落としていたが、これは外国語を母国語とする者が文
法チェックシステムにより自然語への翻訳をしようとす
る場合に、非常に大きな問題となる。
【0007】同様に、「a」「the」といった冠詞の
正確な文法規則や語法をよく知らない者が文章を作成す
る場合、これらの冠詞を正しく挿入する能力を欠くとい
う深刻な問題がある。さらにまた、従来の文法チェック
システムに共通する欠点として、複数の動詞を含む動詞
列の誤りを認識できないという問題もある。文章中で複
数の動詞語順を正しく使用したとしても、多くの場
合、"He has recognizethat something exists"という
ような誤りを犯す。ここで"has" と"recognize"はとも
に動詞であり、動詞列を構成するが、明らかに完了時制
の誤りを含む。
【0008】さらに重大なのは、いわゆる限定詞(冠
詞、指示詞、所有格代名詞など)の問題である。例え
ば、"I have cigarette"という文には限定詞「a」が抜
けているし、"some"あるいは"a few" といった限定詞が
抜けることも多い。正しく意図された文は、"I have a
few cigarettes" であるかもしれない。この場合、名詞
を複数形にすることによって同じ文が正しく構成され得
る。例えば、"I have a few cigarettes" あるいは"I h
ave cigarettes" などである。
【0009】その他の典型的な文法のエラーで従来のス
ペリングチェックや文法チェックシステムで修正できな
い場合として、単語の不適切な活用を修正する際の誤り
がある。誤った動詞活用例として、"I drived to the m
arket"という文が正しく修正されることはまれである。
【0010】上記問題は、その言語のイディオムや規則
に馴染みのないネイティブスピーカー以外の者が作成し
た文章のチェックにおいて最も顕著となる。特に英語の
規則は、一般に考えられているほど単純明快なわけでは
なく、英語を母国語とする者にとっても馴染みの薄いイ
ディオムや規則によって正しい「文法」が決定されるこ
ともしばしばである。
【0011】それゆえ、特定の国籍のネイティブスピー
カーでない人々が最も頻繁に犯す誤りを考慮した文法チ
ェックシステムの提供が重要になる。例えば、日本人の
英文に頻繁に見られるエラーの集合というものがあり、
これらは予測可能であり、したがって修正可能である。
同様に、フランス人あるいはその他のロマンス語圏の者
が作成した英文に特有の誤りもあり、これらも検出修正
可能である。
【0012】シンタックス(Syntax:文において
語を組み合わせるときの規則,統語法)認識システムは
一般に、少量の限定された語彙だけを含むテキスト、あ
るいはより通常のテキストでも限られた範囲のシンタッ
クスの特徴だけを扱うテキストへの操作に限定されてき
た。語彙やシンタックスの範囲が拡大すると、構造が複
雑になり、特別の認識規則を増やさねばならず、システ
ムが大きくなりすぎて非実用的となり、商業的に通常用
いられる演算システムでの実行が困難になる。
【0013】テキスト処理システムで文脈上のエラーを
検出訂正するための一般的なシステムは、Frederick B.
Lang et al.の米国特許第 4,674,065号に示される。こ
こでは、単語の用法を確認するための書類校正およびテ
キスト処理システムが開示され、同音意義語や混同しや
すい単語の専門辞書と、ダイグラム(di-gram :連続す
る2つの文法要素)やn- グラム(n-gram:連続するn
個の文法要素)の満たすべき条件の集合を併用し、ここ
から単語の正しい用法を統計的に決定する校正処理が行
われる。上述したように、単語の品詞ではなく、単語そ
のものを使う統計処理は膨大なトレーニング・コーパス
と高速演算を必要とし、システムが巨大化してパーソナ
ルコンピュータアプリケーションには不適当になる。さ
らにこのシステムは、発音が似ているという点から混同
されやすい単語を検出するが、発音は異なるが語法にお
いて混同されやすい単語に対しては、十分な訂正ができ
ない。
【0014】米国特許第4,830,521 号は、スペリングチ
ェック機能と固有名詞の認識を有する電子タイプライタ
ーを開示する。名詞認識の問題のひとつは、文中で大文
字表記された単語から固有名詞を正しく識別できるかど
うかという点にある。この米国特許が単語をテストする
際の問題点は、単語が大文字で表記されるのは文頭だけ
とは限らないのに、大文字表記する機能は判断時に単語
が文中の最初の単語であるかどうかしか見ない点にあ
る。
【0015】その他の関連技術として、以下に記載の多
数の米国特許が、まずスペリングの修正から文法の問題
を解決しようとしている。すなわち、米国特許第5,218,
536号、5,215,388 号、5,203,705 号、5,161,245 号、
5,148,367 号、4,995,740 号、4,980,855 号、4,915,54
6 号、4,912,671 号、4,903,206 号、4,887,920 号、4,
887,212 号、4,873,634 号、4,862,408 号、4,852,003
号、4,842,428 号、4,829,472 号、4,799,191 号、4,79
9,188 号、4,797,855 号、4,689,768 号など。
【0016】また、テキスト解析に関する米国特許も多
数存在する。例えば、米国特許第 5,224,038号、 5,22
0,503号、 5,200,893号、 5,164,899号、 5,111,389
号、 5,029,085号、 5,083,268号、 5,068,789号、 5,0
07,019号、 4,994,966号、 4,974,195号、 4,958,285
号、 4,933,896号、 4,914,590号、 4,816,994号、 4,7
73,009号。これらの特許に関するシステムはすべて、ネ
イティブスピーカーでない人々が所定の自然語で書類を
作成しなければならない場合に、作成した文章のチェッ
クに必要とされるレベルでの文法チェックを行うという
目的では、実用的に実行できるものではない。また、こ
れらの特許は、特定的にネイティブスピーカーでない人
々が作成した文章チェックのための文法及び英語慣用法
の修正に関するわけでなく、より一般的なシステムに関
するものである。
【0017】最後に、辞書の効果的な符号化に関する特
許も多数ある。米国特許第5,189,610 号、5,060,154
号、4,959,785 号、4,782,464 号などである。しかしな
がら、辞書の符号化は、十分に文法チェックを行えるシ
ステムの系統立てにおいて、一過程にすぎない。
【0018】
【発明が解決しようとする課題】以上にのべたように従
来の文法チェックシステムは種々の問題を有するが本発
明は特に、不適切な限定詞の使用の検出の問題を解決す
る。
【0019】従来のシステムでは、the 、a 、someなど
の限定詞が名詞に関して不適切に使用されている場合、
そのようなエラーを検出できなかった。すなわち、必要
な限定詞の欠如や、不要な限定詞、限定詞と関連の名詞
との間の単複についての不一致が従来の文法チェックシ
ステムでは検出できなかった。結果として、ネイティブ
スピーカー以外の者の英文作成を十分に支援することが
できなかった。
【0020】本発明の目的は、この問題を解決し不適切
な限定詞の使用を検出し提示できる文法チェックシステ
ムを提供することにある。
【0021】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明は、入力された文から名詞句に
おける不適切な限定詞の使用を検出する文法チェックシ
ステムにおいて、入力された文の各単語に、その品詞を
示す標識(以下、この標識を「タグ」という)を付加す
る手段と、付加されたタグの列から名詞句を構成するタ
グの部分列を特定する手段と、前記特定された部分列に
対応する名詞句の限定詞の欠如、不要な限定詞の使用、
限定詞と名詞句中の要部をなす中心名詞(head noun) と
の単複についての不一致を検出する検出手段と、を含む
ことを特徴とする。
【0022】請求項2に係る発明においては、請求項1
に記載される文法チェックシステムにおいて、前記検出
手段は、名詞句中の中心名詞の単複、種類を含む条件か
ら限定詞の要否を判定することによって前記限定詞の欠
如を検出することを特徴とする。
【0023】請求項3に係る発明においては、請求項1
または2のいずれかに記載される文法チェックシステム
において、前記検出手段は、名詞句中の中心名詞が固有
名詞である場合に限定詞が存在するとき、前記不要な限
定詞の使用がなされていると判定することを特徴とす
る。
【0024】請求項4に係る発明においては、請求項1
〜3のいずれかに記載される文法チェックシステムにお
いて、前記検出手段は、名詞句中の固有名詞でない中心
名詞と限定詞の単複を比較することにより、前記単複に
ついての不一致を検出することを特徴とする。
【0025】請求項5に係る発明においては、請求項2
〜4のいずれかに記載される文法チェックシステムにお
いて、該シテスムはさらに、前記中心名詞が単数形の非
固有名詞であるかどうかを判定する手段を含むことを特
徴とする。
【0026】請求項6に係る発明においては、請求項2
〜5のいずれかに記載される文法チェックシステムにお
いて、該システムはさらに、前記中心名詞が集合名詞、
物質名詞、抽象名詞などのマス名詞(mass noun) である
かどうかを判定する手段を含むことを特徴とする。
【0027】請求項7に係る発明においては、請求項2
〜6のいずれかに記載される文法チェックシステムにお
いて、該システムはさらに、前記検出された名詞句が慣
用句の一部であるかどうかを判定する手段を含むことを
特徴とする。
【0028】請求項8に係る発明においては、請求項2
〜7のいずれかに記載される文法チェックシステムにお
いて、該システムはさらに、前記中心名詞が固有名詞で
あるかどうかを判定する手段を含むことを特徴とする。
【0029】請求項9に係る発明においては、請求項2
〜8のいずれかに記載される文法チェックシステムにお
いて、該システムはさらに、前記中心名詞が固有名詞で
ある場合に前記検出された名詞句が限定詞を含むかどう
かを判定する手段を含むことを特徴とする。
【0030】請求項10に係る発明においては、請求項
2〜9のいずれかに記載される文法チェックシステムに
おいて、該システムはさらに、前記中心名詞が固有名詞
でない場合であって前記名詞句が限定詞を含む場合に、
前記名詞句に含まれた限定詞と前記中心名詞が単複につ
いて一致するかどうかを判定する手段を含むことを特徴
とする。
【0031】
【作用】本発明によれば、入力された文の各単語に、そ
の品詞を示すタグを付加し、付加されたタグの列から名
詞句を構成するタグの部分列を特定し、特定された部分
列に対応する名詞句の限定詞の欠如、不要な限定詞の使
用、限定詞と中心名詞の単複についての不一致を検出す
ることにより、入力された文の名詞句における不適切な
限定詞の使用が検出される。
【0032】また、本発明によれば、不適切な限定詞の
使用の検出手段は、名詞句中の中心名詞の単複、種類を
含む条件から限定詞の要否を判定することによって前記
限定詞の欠如を検出する。
【0033】また、本発明によれば、不適切な限定詞の
使用の検出手段は、名詞句中の中心名詞が固有名詞であ
る場合に限定詞が存在するとき、不要な限定詞の使用が
なされていると判定する。
【0034】また、本発明によれば、不適切な限定詞の
使用の検出手段は、名詞句中の固有名詞でない中心名詞
と限定詞の単複を比較することにより、前記単複につい
ての不一致を検出する。
【0035】また、本発明によれば、不適切な限定詞の
使用の検出手段は、さらに、前記中心名詞が単数形の非
固有名詞であるかどうかを判定する。
【0036】また、本発明によれば、不適切な限定詞の
使用の検出手段は、さらに、前記中心名詞が集合名詞、
物質名詞、抽象名詞などのマス名詞であるかどうかを判
定する。
【0037】また、本発明によれば、不適切な限定詞の
使用の検出手段は、さらに、前記検出された名詞句が慣
用句の一部であるかどうかを判定する。
【0038】また、本発明によれば、不適切な限定詞の
使用の検出手段は、さらに、前記中心名詞が固有名詞で
あるかどうかを判定する。
【0039】また、本発明によれば、不適切な限定詞の
使用の検出手段は、さらに、前記中心名詞が固有名詞で
ある場合に前記検出された名詞句が限定詞を含むかどう
かを判定する。
【0040】また、本発明によれば、不適切な限定詞の
使用の検出手段は、前記中心名詞が固有名詞でない場合
であって前記名詞句が限定詞を含む場合に、前記名詞句
に含まれた限定詞と前記中心名詞が単複について一致す
るかどうかを判定する。
【0041】
【実施例】本発明は特に不正な助動詞列の検出、修正に
関するが、文中の単語の品詞を判断した時のその品詞が
適正である確率に基づいて所定の処理を行う種々のモジ
ュールを有するトータルな文法チェックシステムにも言
及する。
【0042】図1は本実施例の文法チェックシステムを
示す図である。
【0043】外国語で文章を作成する者にとって、コン
ピュータの知識がなくとも簡単に使用することができ、
正確な入力文の文法チェックを瞬時に行えるシステムが
入用である。図1の文法チェックシステムでは、入力文
10をキーボード12からワードプロセッサ16のCP
U14に入力する。
【0044】信頼度の高い文法チェックを行うには、ま
ず各単語の入力文の品詞を正しく決定することが重要で
ある。従来の文法チェックシステムは入力文を直接その
まま使用していたが、本発明の特徴として、品詞アナラ
イザ20によって入力文の単語ごとの品詞を判断し、判
断した品詞を並べた列を作成する(以下、この列を品詞
列という)。たとえば"I heard this band play"という
文を品詞分けした品詞列は、「代名詞/動詞/限定詞/
名詞/動詞」になる。品詞アナライザ20は、「確率論
的品詞プログラムおよび自由テキストのための名詞句パ
ーザ」(Proceedings of the Second Conference on Ap
plied Natural Language Processing, Austin Texas, 1
988 :応用自然語処理に関する第2回学会論文)として
発表されたケネス・チャーチ(Kenneth Church)の確率
論的品詞プログラムを実行するように構成される。
【0045】単に単語の品詞を求めただけでは、求めら
れた品詞が適切な文を反映していることが、信頼をもっ
て確実であるとは言えない。
【0046】文を分析して正しい文を構成するために
は、その品詞列が正しい単語の列に対応する確率を確認
しなければならない。入力文の品詞列の適正さの確率を
求めるために、品詞を分析しタグ付けを行う品詞アナラ
イザ20の出力を品詞列適正確率決定ユニット22に入
力し、品詞列の適正さの確率を決定する。前記ユニット
22の出力は、入力文10の解析に関連する種々のモジ
ュールに送られて使用される。
【0047】第1のモジュールは、品詞照合ユニット2
4である。品詞照合ユニット24は、混同しやすい単語
(またはそのような単語を含む文)の集合から正しい単
語(または文)を、対応する品詞列の適正さの確率に基
づいて選択する。実施例では、正しい単語(または文)
の選択を、適正さの確率が所定のしきい値より高いかど
うかを判断して行う。この適正文の選択は選択ユニット
26で行う。選択ユニット26には、入力文の適正さの
確率とともに、多様な混同しやすい文の適正さの確率が
入力される。後述するように、選択ユニット26は混同
しやすい単語リストを有する。以上により第1のモジュ
ールでは、混同しやすい文の修正を行う。
【0048】第2のモジュール28では、単語の基本ス
ペリングの検出を行う。基本スペリングとは文中の単語
の本来のスペリングをいう。例えば文頭にあるために大
文字表記で書き始められた普通名詞の単語の基本スペリ
ングは小文字表記される。従来のスペリングチェック
は、スペリングの確認に照合表を用いていたが、それら
は大文字表記を考慮していないため、大文字表記をスペ
リングミスとして表示し文章を作成する人を苛立たせて
いた。このようにスペリングの正誤にだけ依存する文法
チェックシステムは、単語や文や頭字語(DOS、US
Aなど全ての文字を大文字表記する単語)の最初にある
大文字表記のためににしばしば誤った結果を示してい
た。
【0049】より信頼性の高いスペリングチェック、文
法修正を行うために、基本スペリング回復ユニット28
は、大文字で始まる単語を「混同語」として扱う。そう
することによって、ブラウンのコーパス(corpus)など
のトレーニグ・コーパスに基づき、上記方法によって大
文字表記で始まる単語がある特定のカテゴリーに含まれ
るかそれとも別のカテゴリーに含まれるかの確率を求め
る。
【0050】従来の言語処理システムは、単語を普通名
詞と固有名詞の双方になり得ると考えずに、いずれか一
方だけとして単語の基本スペリングを回復させていた。
これに対し、本発明の基本スペリング回復ユニット28
は文脈に基づき、普通名詞・固有名詞どちらの可能性が
高いかの確率計算を行って各単語を分類する。これは、
文を大文字で書き出す単語と小文字だけで書いた単語と
の両方で分析してみて、どちらの方が正しい確率が高い
かを検出し、確率の高い文での単語の形態を正しいスペ
リングとして決定する。可能性の高い方のスペリングに
回復させた後、ユニット28の出力は、活用チェック/
修正システム30に送られる。この修正システムは従来
のスペリングチェックのバリエーションでもよいし、特
に外国人用に改造したものでもよい。
【0051】さらに別のモジュールである助動詞修正ユ
ニット32も、ユニット22で求めた品詞列の適正さの
確率を用いて得られた、正しく作成された品詞列を使用
する。一つの文章中に複数の動詞があり、それらのいく
つかが間違っている場合に、助動詞修正の問題が起き
る。複雑な助動詞列(文中で複数の助動詞もしくは動詞
が並んだ列をいう)中での時制の間違いなどがその例で
ある。たとえば、"He would living" という文は2つの
動詞「would」と「living」を有するが、正
しい形は、"he would live" であり、動詞「live」
の時制を修正する必要がある。
【0052】この修正を行うために、助動詞修正ユニッ
ト32は、あらゆる不適正な助動詞列を検出し、それら
に対する修正案を提示する。このために、正しい助動詞
列の有限の集合を有する循環経路のない有向グラフを使
用する。もちろん、正しい助動詞列を設定する前に、上
述のように品詞列の適正さの確率を検出するユニット2
2で正しく品詞を識別することが重要である。
【0053】助動詞修正ユニット32の出力は、適正文
選択ユニット34に接続されて、誤った文に代わる適切
な文を示唆する。
【0054】品詞列を使用するさらに別のモジュールと
して、限定詞修正ユニット36がある。このユニットの
目的は、名詞句の指示対象を限定する限定詞の用法の修
正をすることにある。限定詞の例として、「the」
「a」「some」などがある。このユニットで検出修
正されるエラーには3つのカテゴリーがある。すなわ
ち、限定詞の挿入抜け、不要な限定詞の使用、単複につ
いて名詞と一致していない限定詞である。
【0055】限定詞欠如の例として、たとえば"John re
ad book"という文では、限定詞"the" が抜けている。不
要な限定詞の使用の例として、"John went to the New
York" では"the" は不要であり、削除すべきである。名
詞との単複についての一致の誤りの例として、"John re
ad many book" では、限定詞"many"に合わせて、"book"
を複数形にすべきである。不要な限定詞を検出するため
に、まず名詞句を特定すべく品詞のタグ付けを行う。名
詞句の特定には、妥当な名詞句を構成するような品詞列
を、品詞のタグの並び方を定義することで規則的に表現
したパターンを用いる。そして文中の品詞列から、この
パターンに最大限の長さであてはまるような品詞列を、
名詞句と特定する。
【0056】システムは次いで名詞句をそれぞれテスト
して、限定詞が抜けているかどうかを検出する。このプ
ロセスの一部として、まず中心名詞(head noun :名詞
句中の要部を成す名詞)を検出し、次いで、中心名詞が
名称を表すタイトル(title)なのか、数えられない集合
名詞、物質名詞、抽象名詞などのマス名詞(mass noun
)なのか、タイトル中のマス名詞を表すマスタイトル
名詞(mass title noun)なのか、イディオムなのか、そ
れとも限定詞が欠如しているのかを検出する。次いで、
各名詞句を調べて、不要な限定詞を含むかどうかを検出
する。最後に、その限定詞と名詞句の中心名詞が数につ
いて一致するかどうかを見る。その結果によって、ユニ
ット38で示すように単語を挿入、削除、あるいは交換
する。
【0057】さらに別のモジュール42は、入力文10
における不定冠詞「a」「an」の使用法を修正する。
【0058】正しく検出した品詞列は文脈を考慮した辞
書照合モジュール40でも使用される。通常、単語は文
脈から離れた独立の形態では多くの品詞を有し、各品詞
は辞書に項目に分けて記載される。モジュール40は、
辞書にアクセスし、品詞アナライザモジュール20で設
定された単語の品詞に基づいて辞書の適切な項目を選択
する。たとえば、「love」という単語は名詞にも動
詞にもなり、名詞の「love」だけでも辞書には異な
る多数の項目がある。動詞の「love」についても同
様である。入力文が"She was my first love" であった
とすると、この場合の「love」は品詞アナライザモ
ジュール20によって名詞として検出され、この分脈に
対応した品詞である名詞を考慮して辞書照合され、名詞
「love」の辞書項目だけがまず選択され、その後
で、動詞「love」の項目が選択される。
【0059】モジュール28で単語の基本スペリングが
回復されたなら、この基本スペリングは活用修正モジュ
ール30で使用されるだけでなく、従来のスペリングチ
ェックシステム44でも使用される。モジュール28の
使用により従来のスペリングチェックシステムが、スペ
リングチェック過程で、頭字語を不適正な配列として示
すのではなく、頭字語のスペリングをチェックすること
ができる。
【0060】以上に述べた各モジュールの詳細な内容を
以下に項目に分けて説明する。説明には適宜、図を参照
する。
【0061】(a)品詞判断の適正さの確率を用いた文
法修正 これまで、多くの文法チェックシステムがいくつかの間
違えやすい単語、特に同音でスペリングが異なる単語の
誤った使用を訂正することによって、英語の用法の修正
を行おうとしてきた。たとえば、"too", "to", "two"
や、"their", "they′re","there"などである。別の間
違いは、maybe と may be といった、一つの単語なのか
2つの単語なのかを混同するという問題である。さら
に、which とwhose のように、音は似ていないが誤って
使用される頻度の高いものもある。
【0062】従来は、正しい使用法を確認するのに、英
語でその文が正しく成立し得る確率として、文全体の文
法性を演算していた。このような統計的なアプローチ
は、文法的に正確な文には高い確率を示し、文法的に間
違った文には低い確率を与える。前記統計的アプローチ
は、英文を集めた英文集またはトレーニング・コーパス
を用いて処理の対象とする分野や種類のテキストに対し
て調整するという方法による。このコーパスにより正し
い語法が定義される。結果として、文が文法チェックシ
ステムに(タイプ)入力されると、英文の修正と相関さ
せて文全体の適正さの確率が計算される。しかしこの方
法では、約6万語の英語の語彙全体を考慮するために、
数百兆語のコーパスを使用しなければならないし、これ
に匹敵する数の確率値もコンピュータに記憶する必要が
ある。すなわち文全体を解析するには、演算のためにも
記憶のためにも大変な容量を必要とする。
【0063】上記と異なり、本発明のシステムでは、正
確な語法を設定するために、品詞列の適正さの確率を求
めることを必要とする。このため、システムの性能に応
じて100〜400の可能な品詞を考えるだけでよい。
これは、数百兆ではなく、わずか数百万語からなるトレ
ーニング・コーパスに相当する。この種の分析は、ワー
ドプロセッサで使用されるようなプラットフォーム(pl
atform)を含めて標準的なプラットフォームで容易に行
うことができる。
【0064】このように本発明のシステムは、まず初め
に文を正しく品詞分けする。たとえば、"I heard this
band play"という文は、「代名詞/動詞/限定詞/名詞
/動詞」と解析される。この品詞列の適正さの確率は、
品詞列を照準用の集成と比較対照することによって決定
される。これは、いわゆるトリグラム(tri-gram)を考
慮しないと実行が困難である。トリグラムとは、入力文
中の隣接し合う3つの品詞である。通常、3つの連続す
る品詞を分析すれば、正しい語法を得るのに十分であ
る。トリグラムの適正さの確率に基づいて、特定の文が
正確な語法を用いた文となるようにする。このようにし
て文全体をチェックするのではなく、3つの連続する品
詞の適正さの確率を、トレーニング・コーパスを用いて
演算するのである。
【0065】本システムはお互いに他方と混同されやす
い2つの文を仮に作成してみて、上記トリグラムの適正
さの確率を求める方法によって、どちらの文が正しい用
法であるかを決定できる。この方法により低い失敗率で
適正文を決定することができ、よって2つのメリットを
有する。第1に、どちらの文が正しいかを確認できる
点、第2に、正しい文を決定した後に、その品詞を付け
た結果をさらに別の文法チェックモジュールで使用し
て、さらに他の文法チェック処理を行える点である。
【0066】図2は、上記の適正文の決定プロセスを示
す図である。ステップ130で入力された入力文S1
は、品詞タグ付け手段132と候補文S2生成ユニット
134に送られる。候補文生成ユニット134には混同
語リスト136も入力される。品詞タグ付け手段132
は、入力文S1から最も適正さの確率の高い品詞列T1
を作成し、さらにステップ138で品詞列T1の適正さ
の確率P1を求める。これは前述のケネス・チャーチの
文献に記載されるアルゴリズムによって達成される。す
なわち、最も適正さの確率の高い品詞列T1は、重なり
あうすべての組合わせの3つの品詞の組について適正さ
の確率を計算し、確率の最も高い値を算出することで得
られる。
【0067】入力文S1中の単語が、混同語リスト13
6に含まれる混同しやすい単語を含む場合がある。その
場合、入力文S1の単語に対して、混同語リスト136
の単語を代わりに使用して作ることの出来るすべての候
補文S2を候補文作成ユニット134で作成する。候補
文作成ユニット134の出力が品詞タグ付け手段132
に適用され、最も適正な確率の高い品詞列T2を作成
し、さらにステップ140で品詞列T2の適性さの確率
値P2を求める。
【0068】同図中ステップ138およびステップ14
0で、文S1、S2の品詞列の適正さの確率P1、P2
を求めた後、どの品詞列が最も正しいと考えられるかを
決定する。選択すべき適正な文を決定するためには、同
図ステップ142に示されるようにP1とP2を比較し
て、P2―P1がしきい値εより大きい場合は、同図ス
テップ144に示されるようにセンテンスS2が提示さ
れる。P2―P1≦εの場合は同図ステップ146に示
すように修正文の提案はなされない。
【0069】以下に上記プロセスの具体例を示す。入力
文が"I want to here this band"で、「here」が正
しい単語「hear」に代わって誤用されている例を考
えて、2つの文、S1:"I want to here this band"
と、S2:"I want to hear this band"とを比較する。
【0070】これら2つの文の比較について、Eric May
s, Fred Damereau, Robert Mercerによる論文「文脈ベ
ースのスペリング修正(Context Based Spelling Corre
ction )」("Information Processing and Managemen
t", 27(5):517-422, 1991)に開示される方法、すなわ
ち英文テキストの統計モデルで与えられる文全体の適正
さの確率を用いて2つの文を比較することもできる。し
かし、この方法は演算的に非常にコストがかかり、4万
語以上の語彙を有する自由テキストを扱うので、標準コ
ンピュータでの実際の使用に向かない。文全体が適正な
確率を直接演算するためには、処理の対象とする分野や
種類のテキストに対して調整する莫大な量のデータ(た
とえば最低4億個の上記調整のための単語)と記憶容量
を必要とする。
【0071】これとは対照的に、本発明による図2のシ
ステムでは、入力文および混同される可能性のある候補
文のそれぞれについて、最も適正さの確率の高い品詞列
を求め、その品詞列の確率を比較する。たとえば、"I w
ant to here this band"という文全体の適正さの確率を
演算する代わりに、本発明のシステムでは、入力文にお
ける最も適正な確率の高い品詞列「代名詞/動詞/TO
/副詞/限定詞/名詞」を求め、入力文におけるこの品
詞列の適正さの確率を演算する。同様に、"I want to h
ear this band"という候補文の最も適正さの確率の高い
品詞列「代名詞/動詞/TO/動詞/限定詞/名詞」を
求め、この文の確率を計算する。その後、本システムは
双方の確率を比較して「here」と「hear」のい
ずれを使用するかを決定する。
【0072】実施例では、上記確率の比較のほかに、単
語の長さを考慮することによってこれら確率の幾何学的
平均値を比較する。すなわち、P1の対数をS1の単語
数で除算した値と、P2の対数をS2の単語数で除算し
た値を比較する。この方法は、単一の単語が複数の単語
の列と混同される場合(たとえばmaybe とmay be) など
に有効である。品詞列の適正さの確率を直接比較するこ
とは短い文には適しているが、より長い文には適さな
い。これは文が長いほど統計的な言語モデルは低い確率
を提示するので文が長くなると必ずしも正確な結果を得
られないからである。よって上記比較方法が適用され
る。図3はこの実施例の操作を示す。
【0073】混同語リスト136は、代表的には以下の
混同語の組を含む。(to, too, two), (I, me), (its, i
t′s), (their, they′re, there), (whose, which),
(then, than), (whose, who′s), (our, are), (hear,
here), (past,passed), (accept, except), (advice, a
dvise), (lose, loose), (write, right), (your, yo
u′re), (affect, effect), (maybe, may be) 。
【0074】本発明のシステムは、上記以外の混同語
や、英語以外の言語、特にフランス語、イタリア語、ス
ペイン語などにも適応できる。本発明の方法は、前記ケ
ネス・チャーチのトリグラム・モデルを用いて品詞のタ
グ付けが行え得る限り、広く一般的に使用できる。
【0075】以上のように図2及び3に示すシステム
は、適正文の選択をより高い確率で行えるだけでなく、
文の文法性に関するその他の判断を行う上でも有用であ
り、文を品詞に分ける上で、より信頼性の高い判断方法
を提供する。
【0076】前述したように、文の修正を行うには、ま
ず、文を正しく品詞分けすることが重要であり、文法チ
ェックシステムがどの程度正確に機能するかは、この品
詞分けの正確さにかかっている。より信頼性の高い品詞
分けを行うことによって、最終的な文法チェックの結果
がさらに信頼できるものとなる。
【0077】(b)「a」と「an」の修正 外国人に最も頻繁に発生する誤りは、不定冠詞「a」と
「an」の用法である。英語の規則では、不定冠詞
「a」は子音で始まる単語の前に、「an」は母音で始
まる単語の前に用いられる。このような英語の規則を適
応するのに、次にくる単語の最初の文字が母音であるか
子音であるかを調べるのは誤った考えである。ほとんど
の単語は、最初が子音の発音であればスぺリングも子音
で始まるし、母音の場合も同様である。しかし、いつも
そのような原則が当てはまるのではなくan hour やa Eu
ropeanなどのような例外的な場合も数多くある。"hour"
は子音hで始まるが語頭の発音は母音[ow]である。
同様にEuropeanは、母音Eで書き出されるが、発音は子
音[ye]である。
【0078】これを解決する手段として、あらゆる英単
語の発音の辞書を記憶させるという方法がある。しかし
この方法は正確であるが、英語のすべての単語に関する
莫大な量の記憶量を必要とする。
【0079】本発明のシステムは、すべての英単語の辞
書調査表を使用するのではなく、前述の原則的な場合に
は原則通りの簡単な単純規則を適応させ、例外的な場合
に対応するために2つの表を記憶させる。すなわち、母
音文字で書き出されるが初めの発音が子音である単語の
表と、子音文字で書き出すが初めの発音が母音である単
語の表との2つの表である。各表は300語以下の単語
を記憶するだけでよく、一般的な6万語の辞書をベース
としたシステムに比べ、小さな記憶容量ですむ。
【0080】下表は英語における上記の例外に含まれる
単語のリストである。
【0081】
【表1】
【表2】 上記のように本発明は、本項目においては、書き出しの
文字ではなく、単語を発音するときに発せられる最初の
音が不定冠詞の正確な使用に重要であるという認識に基
づいている。
【0082】上記のようにまず上記2つの限定された例
外リストを設定した上で、以下の3つの規則を適用す
る。第1の規則は、不定冠詞の次にくる単語が「eu」
で書き出される場合は、不定冠詞「a」を使用する。第
2は、不定冠詞の次にくる単語が母音文字a、e、i、
o、uで書き出される単語は、不定冠詞「an」を使用
する。第3は、不定冠詞の次の単語が子音文字で書き出
される場合は、不定冠詞「a」を用いる。
【0083】図4は、「a」と「an」の修正のフロー
チャートを示す。入力文300中の単語w1と、それに
続く単語w2を設定する。w1の設定において、入力文
300中のn個の単語からi番目の位置を特定し、その
位置の単語をw1として設定する。また、w1は1番目
からn−1番目まで1単語ずつずらして順次設定され
る。w1およびw2の設定は図中ステップ302、30
4、306に示される。
【0084】本システムはブロック308で、現在の単
語w1が「a」あるいは「an」であるかどうかを検出
し、これらの不定冠詞でない場合は、ブロック304、
306に戻る。単語w1が「a」または「an」のいず
れかである場合、ブロック310で、それに続く単語w
2が前記表1にあるかどうかをチェックする。w2が前
記表1に含まれる単語である場合、ブロック312で示
すようにw1(不定冠詞)の修正の必要がある場合(す
なわちw1が「an」であった場合)はw1を「a」に
修正する。単語w2が表1にはない場合、ブロック31
4に進み、w2が表2に含まれるかどうかを検出し、表
2に含まれる場合は、ブロック316で必要な修正を行
う。すなわち、w2が表2に含まれ、w1が「a」であ
る場合、w1を「an」に修正する。w2が表1にも2
にもない場合は、ブロック318に進み、w2の書き出
しが「eu」であるかどうかを検出する。「eu」で始
まる単語である場合、必要があれば(すなわちw1が
「an」であれば)、ブロック320で不定冠詞w1を
「a」に修正する。ブロック322ではw2がa、e、
i、o、uで書き出されるかどうかをチェックし、これ
ら母音で始まる場合、ブロック324で修正の必要があ
ればすなわちw1が「a」であれば不定冠詞w1を「a
n」に修正する。これら母音で始まらない場合は、ブロ
ック326で修正の必要があれば(すなわちw1が「a
n」であれば)不定冠詞w1を「a」に修正する。
【0085】(c)不正な助動詞列の検出、修正 ネイティブスピーカー以外の者が英語文の作成を行う場
合、複合助動詞列で時制の間違いを犯すことが多い。例
えば、"He has consider" という文では、動詞"conside
r"の時制が誤っている。従来の文法チェックシステムで
は、このような助動詞列の認識が困難であり、また、品
詞のタグ付けが通常は行われない。そのため助動詞列が
適正かどうかチェックするような従来システムはない。
【0086】図5は本発明により誤った助動詞列を検出
し修正するシステムを示す図である。図5に示すよう
に、文410に対し品詞ステップ412で単語ごとの品
詞を解析してタグ付けし、ステップ414で単語ごとに
品詞をつけた文を作成する。
【0087】次に助動詞列のエラーを検出するために、
不正な助動詞列の末尾語と先頭語の双方を検出する。た
とえば、"He has been consider this fact"という文で
は、不正な助動詞列の末尾語、すなわち文中4番目の単
語である"consider"を検出する。この単語以降の単語、
すなわち"this fact" は、助動詞列が正確かどうかに影
響しない。同様に不正な助動詞列の先頭語、すなわち文
中2番目の単語である"has" も検出する。この単語より
前の単語は、この助動詞列が正確かどうかの判断に関係
しない。
【0088】図6は不正な助動詞列の先頭語および末尾
語を検出するプロセスを示す図である。上記のように、
文を単語ごとに品詞に分けた後で不正な助動詞列の末尾
語位置を検出するため、まず図6のブロック420にお
いて、あらゆる助動詞列の組み合わせの内の正しい品詞
列を記憶した循環経路のない有向グラフを用いる。この
グラフは図7に示されるが、グラフの詳細については後
述する。
【0089】全ての適正な助動詞列の組み合わせを表現
した有向グラフから、考えられる全ての誤った助動詞列
の組み合わせを表現した循環経路のない有向グラフを図
6のステップ422で作成する。ステップ422で作成
される有向グラフは、例えば、不正な助動詞列"has con
sider"に対応する不正な品詞列「have(三人称)/
動詞(不定詞形)」を含む。エラーの末尾語を検出する
には、入力された品詞のつながりを左から右に読むとと
もに、グラフの最末尾にたどり着くまで、グラフを左か
ら右にたどる。入力文の品詞が不正助動詞列の有向グラ
フ内に読み込まれて、グラフをたどって最後尾に到達し
た時点で、品詞が入力文中の単語に対応することから、
不正な助動詞列の最後の単語を特定する。この末尾語は
文中の位置で特定され、末尾語検出ステップ424で示
される。
【0090】同様に、先頭語検出ステップ426は、問
題の助動詞列の先頭語に対応する単語を検出する。これ
は、前述のように不正助動詞列の末尾をまず検出した後
で、有向グラフの一番前の状態の点に到達するまでグラ
フを右から左に逆にたどることによって検出できる。た
とえば、前述のhas considerを例にとればグラフを左か
ら右にたどって、システムはhas を「have三人称単
数」として、considerを「動詞不定詞形」として識別す
る。システムは、この時点でエラーありと検出し、cons
iderを不正な助動詞列の最後の単語として特定する。つ
いで、グラフおよび入力された単語と品詞の列を逆にた
どって、"consider"と"has" を通過する。すると、この
グラフの先頭に到達したので、単語has を不正な助動詞
列の最初の単語として認識する。
【0091】図5に戻り、不正な助動詞列の末尾点を決
定したなら、ステップ428でこの不正な助動詞列の末
尾点を入力文の不正助動詞列の最後の単語の位置として
検出する。同様に、ステップ430で不正助動詞列の開
始点を、不正な助動詞列が始まる単語の位置として検出
する。これらの位置は入力文中の単語の位置を示す番号
として検出される。助動詞列の修正は、同図ステップ4
32で行われる。修正は図8の循環経路のない有向グラ
フで各不正助動詞列に対する正しい助動詞列の集合を特
定することで達成される。すなわちユニット432は、
不正助動詞列を図8の有向グラフでたどって、正しい助
動詞列となり得るものの集合をステップ434で出力
し、ここでユーザが確認できる。
【0092】図7は、正しい助動詞列の一覧を示す循環
経路のない有向グラフを示す図である。この有向グラフ
は、すべての組合わせ可能な助動詞列に対応しており、
以下のようにして構成される。図示のとおり、グラフの
左側、開始点440の次にくるボックス422は全ての
英語の助動詞を含む。すなわち、be, were, was, is,a
m, are, been, had, have, has, could, should, migh
t, may, can, must, would, shall, will, do, does, d
oesn′t, did が当てはまる。beからbeenまでは節点4
44と関連する。一般に節点は、それに関連する助動詞
の後にくる動詞が同一であることを示す。例えば、isの
後ろにも、wereの後ろにも同一の単語"being" を持って
くることができる。このように節点444は、後ろに同
一の動詞を取ることのできる助動詞の集合の存在がある
ことを示す。節点446は、had,have, has と関連
し、これら単語の次には共通してbeenを取り得る。同様
に節点448は、could 〜willと関連し、これらの後に
はhaveあるいはdoがくる。節点450は、does, do, do
esn′t と関連し、これらの後にhaveが続くことはある
が、doは後ろに続かない。
【0093】このような英語の語法グラフを用いること
によって、全ての規則をコンパクトなグラフ上での表記
にまとめ、不正助動詞列の修正を達成できる。
【0094】このグラフへの入力は、品詞のタグを付け
た単語の列、すなわち、単語と、それに対応する品詞の
組合わせを並べた列である。つまり本質的に入力は2つ
の変数(すなわち単語と品詞)でタグ付けをされる。前
記節点の後ろに、「???」マークを付したボックス
(たとえばボックス452)が位置することがある。
「???」マークは、その節点では何も記載されていな
いことを示す。グラフにこの「???」を用いること
で、このグラフがコンパクトに維持されている。例えば
「???」マークのボックス456を例に取ると、対応
の節点454と関連して記載されているbeen(464)
およびhad (466)以外の任意の動詞が節点458に
進めることを示す。「???」マークのボックスが使用
されると、対応の節点に続く他のボックスに記載されて
いない任意のシンボルがこのボックスを通って次の節点
へと接続されることになる。
【0095】入力文には単語だけではなく、その単語の
品詞も含まれる。たとえば、システムが"have consider
ed" という助動詞列を解析するとき、"have have consi
dered vbn"という入力列と有向グラフとが比較対照され
る。ここで、"vbn" は過去分詞形を表わす品詞タグであ
る。グラフの左側からはじめて、ボックス468の単
語"have"を見つけ、そこから右に移動する。ボックス4
62が「???」なので、上述のように単語は節点44
6、ボックス462を通過して、節点454へ進む。節
点454からの可能性として、464での"been"か、4
66での"had" があるが、双方ともに入力文と一致しな
い。別の選択肢として、ボックス456がある。ボック
ス456は「???」なので単語はここを通過して、さ
らに、節点458を通過し、"vbn" と規定したボックス
460に進む。この"vbn" は過去分詞形を表す。ボック
ス460では節点470へと進むことが認められる。こ
こにおいて、ボックス456を通った分析により、"con
sider"の過去分詞形を伴った"have considered" という
文がグラフの末尾472に到達し得ることから、単語"c
onsidered"が許容されることがわかる。中間節点470
と末尾点472の間には、単語がないこと(empty word)
を示す<E>マークのブロック474がある。<E>マ
ークの付いたボックスが使用されると、後にくる単語あ
るいは品詞を考慮せずにある節点から次の節点へと通過
できることを示す。
【0096】入力列の最初の単語がボックス442にな
い場合は、ボックス476と節点480を通過し、品詞
ボックス482、節点484に進む。その後に単語が続
かなければボックス486から末尾472へと到達す
る。また、482の品詞の後にhaving以外の単語が続い
ていれば、節点484から「???」ボックス488を
経て節点490、さらに品詞ボックス492または49
4を経て末尾点472に到達する。あるいはまた、節点
484から単語"having"につながる場合は、節点49
6、ボックス498を経て節点500に至る。"having"
の後に"been"以外の動詞が続く場合は、ボックス50
2、節点504、品詞ボックス506を通り末尾点47
2に到達する。節点484から"having","been" とつな
がる場合は、節点508、ボックス510、節点51
2、ボックス514、節点516に至り、その後、品詞
ボックス518あるいは品詞ボックス520から末尾点
に到達する。上記ルートで末尾点472まで到達した場
合、入力語"having","been" の用法は正しいと判断され
る。ここで、この単語列("having been" )の後に"bei
ng"が続く場合、節点512の出力は節点522、ボッ
クス524を通って節点516に至る。
【0097】要するに、図7の循環経路のない有向グラ
フはすべての適正な助動詞列を特定し、このグラフがあ
れば、結果的に、すべての不正な助動詞列を表現する同
様の有向グラフを構成することができる。すなわち、す
べての適正な語法を表すグラフを構成したならば、即座
にすべての不正な語法を含むグラフを構成できる。この
方法はコンパクトなので、文章の解析に非常に効果的で
ある。
【0098】図8は不正な助動詞列を修正する変換規則
を定めた、循環経路のない有向グラフを示す図である。
この有向グラフによりシステムが有限状態変換器(a fi
nitestate transducer )の機能を果たし、上記で検出
された不正な助動詞列が修正される。適切な修正を提示
するために、図8に示すようにボックス内の各助動詞を
対(pair:ペア)で記載する。すなわちボックス内の左
側の単語は不正として認識される単語であり、右側の単
語はその不正語に対する訂正語である。例えば、助動詞
列"will had"が不適正であると認識したなら、図8の有
向グラフを用いて正確な助動詞列を特定する。入力節5
30からスタートし、入力列の最初の単語(will)
と同じ単語がボックスの左側に記載されているボック
ス、すなわちボックス532を通過する。節点534、
ボックス536を経て節点538まで達し、ここで単語
「had」について考える。ボックス540は、"had"
を"have"に修正すべきことを示し、この結果が節点54
2に出力され、その後ボックス544を経て末尾点54
6に至る。この経路で末尾点546に到達した場合の、
提示される正しい助動詞列は、"will have" である。
【0099】より複雑なケースの例として、不正助動詞
列"would considered"を考える。対応する品詞のタグ
は、"would would considered vbn"である。この場合ま
ず、グラフの左端のボックス550"would:would" を通
って節点534へ行き、ボックス536を経て節点53
8に至る。この節点に続く、ボックス540、552、
554、556、558、560は"consider"という単
語を含まないので、いずれも適用されない。そこで「?
??」ボックス562を通過して、品詞解析ボックス5
64で正しい単語の修正案"would consider"が提示され
る。ここではグラフは"considered"を単語"consider"の
過去時制形として検出し、ボックス564で現在時制を
使うべきであると提示し、従って単語"consider"を使う
よう提案しているのである。ボックス564でのこの処
理は、"vbd:/vbd/vb" と示される。ここで"vbd" は過去
時制を、"vb"は現在時制を表す。節点538からの他の
選択肢により、別の修正案も提示される。すなわち、正
しい助動詞列として"would have considered" もありう
る。この助動詞列が提示される過程を示す。ボックス5
66では単語"have"を挿入すべきであると特定する。ボ
ックス568では単語"have"の品詞"hv"をタグ付けのた
めに入力列に挿入することを特定する。ボックス57
0、572を通過することによって、過去時制を過去分
詞形に変えるべきであると特定される。この場合、"con
sidered"という単語のスペリングは、過去形も完了形
(過去分詞形)も同じなので変わらない。なお、ここで
例えば、入力単語が"knew"の場合は不規則活用動詞であ
り、ボックス572で過去形"knew"を過去分詞"known"
に変える指示が出される。
【0100】図8のグラフの他の部分に関しても同様の
方法で、検出された不正助動詞列の修正案を提示する。
【0101】(d)ネイティブスピーカ以外の人々のた
めの活用変化修正 一般的に、スペリングチェックシステムは辞書を照合す
るアルゴリズムによってスペリングミスを検出する。こ
の方法は、よくある不注意なキー打ちや文字転位による
スペリングミスの検出には効果があるが、別の種類のス
ペリングミスには効果が薄い。最も顕著なのが、ネイテ
ィブスピーカー以外の人々によるエラーや、普通はあま
りないような単語中の文字の転位、あるいは誤った文字
抜けや文字挿入である。これらは、主として文法上の問
題に起因する誤りである。たとえば、"He drived his c
ar yesterday" という文の誤りは、特定の単語のスペリ
ングについて不注意だったり知らなかったから起こる誤
りではなく、不規則動詞であるdrive の過去時制を知ら
ないための誤りといえる。
【0102】通常のスペリングチェックは、ミスタイプ
された単語と辞書中の単語との差異に基づいて、正しい
スペリングを示唆する。この差異は、置換、挿入、転
位、削除されるべき文字の数に基づいて定められる。こ
のようなスペリングチェックによって、しばしば奇妙な
結果がでる。例えば、上記例文の場合、drive の正しい
過去時制drove を提示すべきところを、従来のスペリン
グチェックで提示される単語は、不思議なことに drie
d, dripped などが提示され、正しいdrove は提示され
ない。これは従来のスペリングチェックシステムは、検
出したスペリングミスに対して文法を考慮した分析を行
わないからである。
【0103】別の例として、従来のスペリングチェック
システムでは不適正な比較級や複数形の誤りに対して正
しいスペリングの提示を行えないという問題もある。例
えば、ネイティブスピーカー以外の者は、goodの比較級
を通常の活用規則に従ってgooderとするかもしれない。
さらに、child の複数形をchildrenとせずに、通常規則
通り単数形の語尾にsを付けることによってchildsとす
るかもしれない。
【0104】従来のスペリングチェックシステムは上記
のchildsに対する正しい単語の候補として、chills, ch
ild′s, chill′s, child, tildes を提示するが、文脈
からしてこれらのいずれも正しくない。もっとひどい例
は、最上級goodest の誤った訂正候補として、gooeies
t, goosedを提示する。
【0105】このようなスペリングチェックのエラー
は、ネイティブスピーカーを苛立たせ、スペリングチェ
ック機能に対し信頼を失わせる。また、ネイティブスピ
ーカー以外の者にとっては、正しい修正語ではなくなじ
みのない単語や文脈からはずれた単語の中からの修正語
の選択を強いられるので、フラストレーションがさらに
高まる。
【0106】図9は本発明によるスペリング修正システ
ムのブロック図である。スペリングチェックには複数
形、過去形、過去分詞形、比較級、最上級のいずれかに
おいて通常の規則にしたがわない典型的な単語を識別す
ることがまず重要である。本発明のシステムは文法にの
っとって作成した不適正単語の独自のリストにより、よ
り適切な単語の置換を提示する。本発明のスペリングチ
ェックシステムは、スペリングミスを従来通り辞書照合
システムで検出する。その後、典型的な不適正語を集め
た大要(compendium)と後述する語幹および形態的素性
(morphological feature) に基づいて、適切な単語を提
示する。
【0107】図9において、英単語修正ステップ600
は、英単語辞書602、不適正英単語リスト604を含
む。不適正単語のリスト604は、ステップ606で英
単語辞書602の単語と、通常の英単語形成の一般規則
に基づいて生成される辞書608の単語を比較すること
によって作成される。この比較結果が、スペリングミス
ではなく、文法上の間違いによりスペリングを誤って問
題となるような単語の特別なリストになる。
【0108】図10は、検出した不適正単語を実際に修
正するプロセスを示す図である。英単語辞書602は、
不適正英単語のリスト604とともに用いられる。不適
正な単語は、ステップ601で従来技術の辞書照合によ
り検出する。検出された不適正単語と、前述のようにあ
らかじめ作成した不適正単語リスト604の双方をユニ
ット612に送って、ユニット612で不適正単語の語
幹と、時制、数、比較/最上級などの形態的素性を検出
する。例えば、不適正な単語"drived"を考えてみると、
この単語の語幹は"drive" であり、その形態的素性は
「過去又は過去分詞」である。語幹と形態的素性はユニ
ット614に供給され、ユニット614で、語幹および
形態的素性を英単語辞書602中の対応の英単語と相関
させて、文法の規則とその例外の双方を考慮して適切な
単語を提示する。
【0109】つまり、典型的な不適正語法に基づいて語
幹と形態的素性を求めた後、システムはこれら不適正な
語法と相関する適切な単語を提示することができる。以
上のようにこのシステムは、単純なスペリングミスでは
なく文法の誤りによりスペリングを間違えた場合の不適
正な単語も識別する洗練された照合システムを提供す
る。
【0110】単語に品詞を示す標識をつけておくと、シ
ステムがより適正な単語を提示するのに役立つ。例え
ば、"drived"を修正するときに状況に応じて"drove" に
も"driven"にも直すことができるように、スペリングミ
スの単語が過去にも過去分詞にもなり得る場合がある。
このような場合に文中でその不適切語がどのような品詞
で使用されているかがわかれば、修正する単語の品詞に
基づいて適正な単語を選択することが可能になる。
【0111】(e)限定詞の不適正な用法の検出修正 ネイティブスピーカー以外の者にとって、限定詞を正し
い用法で用いることはさらに困難な課題である。限定詞
とは、the, a, someなど、名詞句の指示対象を限定する
単語のことである。限定詞に関する間違いには3つのカ
テゴリーがある。第1には、限定詞の欠如である。たと
えば、"John read book"という文では、名詞句"book"に
おける限定詞が欠如している。第2には、不要な限定詞
の使用である。"John went to the New York" という文
では、限定詞"the" は不要であり、削除すべきである。
第3には、限定詞とそれに関連する名詞との単複につい
ての不一致すなわち片方が単数に対応し、もう片方が複
数に対応するという間違いである。たとえば、"John re
ad many book" という文における、"many"と"book"であ
る。
【0112】不要な限定詞の使用を検出するために、文
の分析において品詞タグを用いる。品詞のタグ付けにつ
いては前述と同様である。文の品詞タグ付けの例をあげ
ると、"John read long novel"という文で、Johnは固有
名詞、"read"は動詞過去形、longは形容詞、novel は単
数名詞である。
【0113】図11は限定詞の不適切な使用を検出、修
正するシステムを表すフローチャートである。
【0114】図11に示すように、システムはブロック
700で、文中の名詞句を識別する。この識別において
は、後述する妥当な名詞句を構成するような品詞列を定
義したパターンを用いる。そして、文中の品詞列から、
このパターンに最大限の長さで当てはまるような品詞列
を、名詞句と特定する。上記の名詞句のパターンは以下
の通りである。
【0115】
【数1】[DET](MODS NOUN AND)*
MODS NOUNhead MODSのパターンは、
【数2】(MOD+ AND)* MOD ここで、DET、MOD、MODS、NOUN、NOU
Nhead、ANDはそれぞれ限定詞、修飾語、修飾句、名
詞、中心名詞(head noun :名詞句の主要部をなす名詞
をいうが詳細は後述する)、等位接続詞の品詞タグを表
す。[X]はカッコ内の語句Xがまったくないか、ひと
つ有ることを意味する。(X)* は、カッコ内の語句X
がまったくないか、複数有ることを意味する。X+ の+
は、語句Xがひとつまたは複数有ることを意味する。
【0116】上記により、名詞句を特定する。たとえ
ば、上記の例"John read long novel"では、名詞句は、
固有名詞であるJohnと、形容詞と単数名詞のlong novel
である。上記方法では、名詞句の先頭語と末尾語を検出
することによって名詞句を特定する。名詞句の識別は、
その名詞句中の限定詞欠如、不要な限定詞の使用、ある
いは単複についての不一致をチェックするためにきわめ
て重要である。
【0117】名詞句を識別したならば、ブロック702
で示すように、その名詞句が限定詞を落としていないか
どうかをテストする。このテストはまず、名詞句全体を
見て、さらにその名詞句の主要部を成す中心名詞(head
noun )を見る。中心名詞とは句の中で最も重要な名詞
であり、主として名詞句の最後に位置する単語である。
限定詞欠如をチェックするテストでは、名詞句中の限定
詞を探す。限定詞は名詞句中の最初にあるか、そうでな
ければ存在しない。
【0118】図12は限定詞欠如をチェックするための
フローチャートを示す図である。図12のブロック70
4で識別した名詞句の中心名詞が単数の非固有名詞であ
るかどうかをチェックする。単数の非固有名詞である場
合は、ステップ706でその名詞句が限定詞を含むかど
うかをチェックする。中心名詞が単数の非固有名詞であ
り、かつ限定詞を含まない場合は、ステップ708に進
み、その名詞句がタイトル(名称)であるかどうかをテ
ストする。タイトルとは、固有名詞以外で大文字で始ま
るあらゆる語句を含む。たとえば、"The Atlanta Polic
e Department"や"Grady Hospital"がそうである。名詞
句がタイトル(名称)でないと判断されると、ステップ
710でマス名詞であるかどうかをテストする。マス名
詞とは、rice、fish、carbonなど、物質の数量を特定で
きない名詞であり、集合名詞に物質名詞と抽象名詞をも
総括したものである。マス名詞は、主に複数名詞として
機能するので限定詞をとらない。
【0119】ステップ708でその名詞句がタイトル
(名称)であると判定されると、ステップ712に進
み、中心名詞がマスタイトル名詞であるかどうかを判定
する。マスタイトル名詞とは、タイトル(名称)中にあ
るマス名詞をいい集合名詞と類似する。たとえば"She a
ttended Harvard University" という文では、名詞句"H
arvard University"はタイトル(名称)名詞であり、そ
の中の"University"はマスタイトル名詞である。それゆ
え文中で"University"は限定詞を伴わない。ただし、マ
スタイトル名詞はマス名詞とまったく同一ではない。た
とえば、上記例文では"University"はマスタイトル名詞
であったが、この単語だけで使用した場合は、"She att
end a fine university"というように、マス名詞ではな
く普通名詞であり、限定詞"a" を伴う。このように、中
心名詞がマスタイトル名詞であると判定されると、何も
提示せずにオペレーションはENDに到達する。
【0120】システムはさらにイディオム(慣用句)に
ついても判断する。ステップ714では、名詞句がイデ
ィオムの一部であるかどうかを分析する。これは、イデ
ィオム照合辞書によって行う。名詞句がイディオムの一
部である場合は、修正案の提示は行われない。たとえ
ば、"The event took place"という文では、名詞句"pla
ce" は"to take place" というイディオムの一部である
ので、名詞"place" に限定詞が付いていないが、限定詞
の欠如は提示されない。
【0121】このように名詞句の中心名詞が単数の非固
有名詞であってその名詞句が限定詞を含まず、さらに中
心名詞がマス名詞またはマスタイトル名詞でもなく、名
詞句がイディオムの一部でもない場合には、システムは
限定詞の欠如をステップ716で提示する。
【0122】図13は、限定詞の第2の問題、不要な限
定詞の使用を検出するためのフローチャートを示す図で
ある。これは図11中のステップ720に該当する。ま
ず、名詞句の中心名詞が固有名詞であるかどうかをステ
ップ722で検出する。固有名詞である場合、その名詞
句が限定詞を含むかどうかをステップ724で確認す
る。固有名詞の名詞句が限定詞を含む場合は、その時点
でステップ726で不要な限定詞ありと判定する。"Joh
n went to the New York" という文において、名詞句"t
he New York"は、中心名詞が固有名詞であり、かつ限定
詞the を有するので、不要な限定詞を有すると提示され
る。固有名詞の識別は、タグ付けにおいて確率計算と文
脈に基づいて固有名詞の存在を検出して行う。この固有
名詞の識別の詳細については後述する。
【0123】図11に戻って、ブロック730で限定詞
の第3の問題、単複についての不一致をチェックする。
図14はこの単複についての不一致のチェック操作を示
すフローチャートである。数の不一致の検出はまず、ス
テップ732で名詞句の中心名詞が固有名詞かどうかを
決定する。固有名詞であれば、単複の一致を考慮する必
要がない。なぜなら、固有名詞が限定詞を含んでいれ
ば、すでに第2の不要な限定詞のチェックでエラーとし
て検出されているからである。中心名詞が固有名詞でな
い場合はステップ734に進み、システムはその名詞句
が限定詞を含むかどうかを検出する。限定詞を含まない
なら、単複について不一致となることもない。
【0124】ステップ734で限定詞を含むと判定され
ると、ステップ736で限定詞の数と中心名詞の単複
(すなわち、単数か複数か)が一致するかどうかを検出
する。一致する場合は、エラー無しと通知される。一致
しない場合は、中心名詞の数を限定詞の数に一致させる
ような変更が提示される。たとえば、"John read one b
ooks" という文では、中心名詞である"books" が限定詞
と一致するように単数形に修正するように提示される。
同様に、"John read many book" という文では、限定
詞"many"に合わせて中心名詞"book"を複数形にするよう
に提示される。逆に、限定詞の方を中心名詞の単数、複
数に合わせて変更するようなシステムにすることも考え
られる。しかし、このようなシステムよりも名詞を限定
詞に合わせて修正変更する方がよい結果がでるので本発
明は前述のようなシステムを採用する。なぜなら機械に
よる自然語解析において、名詞に合わせて最も適切な限
定詞を選定することは非常に難しいからである。本シス
テムは、many, one, a few などの数に関する限定詞は
正しく入力されただろうとの仮定に基づいて処理を進め
ている。
【0125】このように、本発明のシステムは種々多様
なテクニックを使って限定詞の不適切な用法を検出修正
する。すなわち、文の単語にタグ付けし、名詞句を検出
し、中心名詞を検出し、それが固有名詞なのか、マス
(集合)名詞なのか、マスタイトル(名称)名詞なの
か、イディオムの一部なのかを検出する。限定詞の用法
ミスを正しく検出するためには、図11と関連して述べ
た方法により名詞句を正しく検出できるかどうかが重要
なポイントになる。
【0126】(f)固有名詞とその他の大文字表記で始
まる単語の識別 文中、固有名詞はその他の名詞と異なる独自の振舞をす
るので、文の分析において単語が固有名詞であるかどう
かを識別することは重要な課題である。固有名詞だけで
はなく、その他基本的に大文字表記で始まる単語(たと
えば"Harvard University"など名称に使う単語)も識別
する性能を有することによって、文を文法的に説明し、
理解し、文法を分析することが可能になる。
【0127】英文では単語を大文字で表記するのは2通
りのケースがある。まず、単語が固有名詞または本来大
文字で始まる単語である場合。第2に、文頭(すなわち
句読点の直後、あるいは引用符の直後)にある場合であ
る。これ以外に大文字表記されることは基本的にはな
い。例をあげると、"Wells was an English novelist"
でのWells は固有名詞であるがための大文字表記であ
り、"Wells were dug to provide drinking water"での
Wells は、文頭であるために大文字にしたものである。
【0128】最初の例文では、システムはWells を本来
大文字表記で始まる固有名詞として識別すべきであり、
第2の例文ではWells を固有名詞としてではなく、通常
の複数名詞として検出しなければならない。
【0129】名詞が固有名詞かどうかを決定する従来の
方法では、本来大文字表記で始まる単語の認識方法がか
なり限られていた。ある方法は、文頭で大文字で始まる
単語を、決して本来大文字表記で始まる単語としてはみ
なさないという前提に基づいており、この方法では上記
第1の例文の様に、文頭から固有名詞で始まる文の正し
い分析ができない。
【0130】別の方法は、すべての単語を固有名詞か普
通名詞のどちらか一方だけに分類する。しかし、上記2
つの例から明らかなように、"Wells" が固有名詞でも普
通名詞でも存在し得ることから、この種の分類システム
も不適当である。
【0131】単語を固有名詞かどうか正しく認識できな
いと、辞書照合の際に、誤った定義が検索されるという
問題が起きる。単純な文法チェックでは、固有名詞の識
別は必要ない。しかし、適切な語法を決定する際に実務
情報データを規定するような複雑な文書処理および文法
チェックにおいては、固有名詞及びその他本来大文字表
記で始まる単語の正確な識別を必要とする。文法チェッ
クシステムが辞書照合機能を持たない場合であっても、
固有名詞や本来大文字表記で始まる単語の識別は重要で
ある。
【0132】単語が固有名詞であるかないかをどれだけ
正確に識別できるかは重要で、トリグラムの適正さの確
率によって文中の各単語の品詞を正確に決定しなければ
ならないという品詞のタグ付けの操作に影響する。すな
わち大文字表記で始まる固有名詞と、大文字表記しない
普通名詞とでは、トリグラムの適正さの確率が異なって
くるので、品詞タグ付けにおいて、正確なトリグラムの
適正さの確率を適用するために、文中で使用されている
単語は固有名詞等であるかないかを知る必要がある。た
とえば、固有名詞Wells のトリグラムの適正さの確率
は、普通名詞wells の確率と異なる。したがって、タグ
付けにおいては、"Wells was an Englishnovelist" と
いう文中のWells は固有名詞であると識別し、大文字表
記で始まるWells バージョンでのトリグラムの適正さの
確率を適用しなければならないのである。
【0133】単語が固有名詞(あるいは基本的に大文字
表記で始まる単語)ではなく、普通名詞であることを決
定するために、各単語に対して、単語を固有名詞として
解釈するのと普通名詞として解釈するのと、どちらが適
切であるかを検出する。すなわち、同じ文に関して、名
詞を固有名詞と仮定した文と、普通名詞とした文の2つ
のバージョンを作成し、それぞれのトリグラムの適正さ
の確率を比較する。固有名詞とした文の確率の方が高い
場合は、その単語を固有名詞としてみなす。そうでない
場合は普通名詞とする。
【0134】図15は、単語を固有名詞であるかどうか
決定するための2つの処理ステップを示す図である。第
1のステップは、破線ブロック800に示すように、タ
グ付けされたトレーニグ・コーパス802に始まる前処
理ステップである。タグ付けされたトレーニグ・コーパ
スは、文の集成であって各文の単語には品詞を表すタグ
が付けられている。次いでステップ804で、前記トレ
ーニング・コーパス802を書き換えて、固有名詞ある
いは本来大文字で始まる単語以外の単語を、小文字表記
にする。単語が固有名詞または名称名詞として品詞タグ
付けされた場合、あるいは頭字語や代名詞"I" である場
合は、その単語を基本的に大文字表記で始まる単語とし
てみなす。さらに、文頭、コロンの後、引用符の直後に
位置する単語の場合は小文字表記する。
【0135】図16は上記の操作を示すフローチャート
である。タグ付けされたトレーニグ・コーパス808を
ステップ810で分析して、コーパスから次の単語と品
詞タグの対(pair)を求める。次の対がなければチャー
トは終了する。前記対があれば、ステップ812でその
単語が大文字で始まるかどうかを見る。単語が大文字で
始まれば、ステップ814で、その単語が文頭(あるい
は引用符またはコロンの直後)の単語かどうかを確認す
る。文頭の単語である場合は、ステップ816でその単
語が固有名詞または名称名詞としてタグ付けされている
か、頭字語か、代名詞"I" かどうかをテストする。これ
らに該当しなければ、ステップ818でトレーニグ・コ
ーパスを書きかえて単語を小文字表記にする。
【0136】図15に戻って、書き換えたトレーニグ・
コーパスをステップ820で分析し、トリグラムの適正
さの確率を示す単語のモデルを求める。これによって、
トリグラム・モデルが修正され、普通名詞である単語を
固有名詞として認識したエラーあるいはその逆のエラー
を消去する。このようにタグ付けされた、トレーニング
・コーパスを前処理してエラーを消去した後で、修正し
たトリグラム・モデルをステップ822で用い、問題と
なっている単語が本来大文字表記で始まる単語かどうか
を決定する。ここでの処理は、文中の単語を入力とし、
その単語の基本のスペリング(すなわち、単語の本来の
スペリングで、例えば、普通名詞が文頭にあるため大文
字で書き始められていても基本スペリングは小文字表記
である)を出力する。
【0137】図17は上記ステップ822での処理、す
なわち本来大文字で始めるべき単語かどうかの決定プロ
セスを示すフローチャートである。このプロセスはま
ず、ステップ850に示すように文中の単語を入力とす
る。入力語が大文字表記で始まるか単語かどうかは、最
初の文字が大文字かどうかで判定する。NOの場合はス
テップ851で、その単語を文中に現されたままのスペ
リングとして示す。文中で大文字表記で始まる単語とし
て検出された場合は、固有名詞と解釈する。大文字で始
まらない小文字だけの表記の場合は普通名詞として解釈
し、その単語に対して何ら特別の処理は行わない。
【0138】上記ステップ852でYESの場合、すな
わち大文字表記で始まると判定された場合は、ステップ
854でその単語が文頭、あるいは引用符またはコロン
の直後にあるかどうかを判定する。NOの場合はそれ以
上の処理は行われない。YESの場合はステップ856
で頭字語(acronym :アクロニム)かどうかをチェック
する。頭字語とは、その単語の最初の文字だけではな
く、すべてのアルファベット文字が大文字で書かれる
語、または頭字語辞典に収容される語のことを言う。Y
ESの場合は、これ以上の処理を行わない。
【0139】単語が頭字語でない場合は、ステップ85
8でトリグラム・モデル859に従って、問題としてい
る単語を大文字で始まる固有名詞として含む文と、小文
字で始まる普通名詞として含む文の2通りの文の適正さ
の確率を計算する。この計算は、前述において単語の品
詞タグ付けと関連して述べたとおりである。
【0140】これらの確率をステップ860で比較し、
大文字表記しない場合の適正さの確率の方が大文字表記
した場合の確率より高い場合は、小文字表記の単語のス
ペリングを、基本スペリングである可能性が最も高いス
ペリングとして示し、ここで求めたスペリングを以後の
他の文法チェックに用いる。問題にしている単語が大文
字表記で始まるとした場合の適正さの確率の方が高い場
合は、ステップ864で大文字表記で始まるスペリング
を基本スペリングとして示す。
【0141】単語の基本のスペリングを求めることによ
って、文法チェックシステムがより正確かつ有用にな
る。以上のように基本のスペリングを求めて回復させる
には、2つのステップを含む。第1は、単語を固有名詞
かどうか識別するときに発生したエラーに関し、トレー
ニング・コーパスの単語に付けた品詞を表すタグの修
正、第2は、一連の分析によって、単語が大文字表記で
始まるのと小文字表記されるのと、どちらのスペリング
がより適切であるかを確認するステップである。このス
テップは、本来大文字表記で始まる単語かどうかを前処
理で求めて修正した、トリグラムの適正さの確率を示す
モデルを用いて決定する要素によって達成される。
【0142】(g)文脈に基づく辞書アクセス ネイティブスピーカー以外の者が文書を作成する場合、
一言語または二言語併記の辞書を使用する。辞書は、言
語に関してネイティブスピーカー以外の者が頼り得る最
も有用な情報源である。辞書の使用は、文法のチェック
だけではなく、文書の作成に広く役立つ。ネイティブス
ピーカーもまた、文書の作成時に辞書や語彙集の使用に
大変頼っている。
【0143】単語は、使用される文の文脈と無関係に考
えれば、複数の統語形態や複数の意味にとれるので、辞
書の項目へのアクセスは決して単純ではない。辞書中に
20も30も、あるいはもっと多くの項目を有する単語
もある。単語に多くの項目があると、辞書の使用に時間
がかかる。
【0144】たとえば、文脈を考えなければ単語"left"
は、英語辞書に多くの項目を持つ。すなわち、形容詞と
してのleft(たとえば"his left arm") 、副詞としての
left("he moved left on entering the room")、名詞
としてのleft("Make a leftat the next corner":左
折する)、動詞leave の過去時制としてのleft("Helef
t a minute ago")などである。しかし、英文中にこの
単語leftがある場合は、文脈に対応するのは上記項目の
ひとつだけである。従来の辞書では、文脈に基づいて単
語の正確な項目にアクセスできる辞書機能はない。
【0145】そこで本発明では、文脈に基づいて文中の
単語の品詞を決定し、その品詞に対応して、辞書の項目
を選択し、優先順位をつけてランク分けする。まず、辞
書中の単語の項目の内文脈に対応している項目を選択す
る。その文脈に対応していないその他の項目は、使用者
のリクエストに応じて利用される。文中の単語の複数の
品詞のうち、文脈に対応している品詞は、前述において
の品詞を特定しタグを付ける過程で明確にされる。
【0146】たとえば、"He left a minute ago"という
文中での"left"には、品詞タグ付けにおいて「動詞過去
時制」という品詞がつけられる。この場合、本発明のシ
ステムは、この文脈で使われているleftに対応する項目
としてleftの原型である動詞"leave" の項目を選択し、
その後、この文脈では使用していない辞書中のleftの項
目、すなわち形容詞、副詞、名詞の項目を選択する。
【0147】また別の例として、"It has several base
s"という文では、この文中での単語"bases" に対して品
詞タグ付けにおいて2つのタグ「名詞、複数」を与え
る。文脈を考えなければ、bases は名詞"basis" の複数
形にも、名詞"base"の複数形にも、動詞"base"の三人称
単数にも使用され得る。ここで、本システムは文脈に対
応する"bases" の項目として、まず名詞"base"と"basi
s" の項目を選択し、次いで、この文脈では使用されて
いない"bases" の項目、すなわち動詞"base"の項目を選
択する。
【0148】図18は上記のような文脈に対応した辞書
項目へのアクセスを示すフローチャートである。
【0149】図18を参照すると、文中の単語900の
項目を文脈に基づいて辞書から選択するために、形態的
素性アナライザ910で単語を解析し、文脈とは関係な
く、その単語の語幹と品詞の対を集めた集合を求める。
例として、"left"という単語に関しては、形態的素性ア
ナライザ910は以下の語幹−品詞の対を出力する。
(left、形容詞)、(left、副詞)、(left、単数名
詞)、(leave 、動詞過去時制)。形態的素性アナライ
ザ910は、すべての英単語のあらゆる活用を示すテー
ブルを参照して作動する。このテーブルは語幹と品詞の
対を集めて項目として有している。文中の単語900は
また、品詞タグ付けステップ930で文脈に基づいて分
析され、文脈に対応するような単語の品詞を一つ特定さ
れて、品詞タグT940が作成される。このオペレーシ
ョンを行う品詞タグ付けは、「非制限文書のための確率
的品詞プログラム及び名詞句パーザ(A Stochatic Part
s Program and Noun Phrase Parser for Unrestricted
Text)」(The Proceedings ofthe Second Conference o
n Applied Natural Language Processing, Austin Texa
s, 1988) に記載されるケネス・チャーチの確率的品詞
プログラムを実行したものである。
【0150】たとえば、"He left a minute ago"という
文での"left"という単語には、「動詞過去時制」という
品詞タグをつけて出力される。文脈に対応する語幹を文
脈に対応しない語幹と区別するために、ユニット920
の語幹−品詞の対の集合は2つに分けられる。すなわ
ち、品詞タグT940に対応する対950と、対応しな
い対の集合960とに分ける。先の例文で、文脈に対応
する語幹−品詞の対は「leave-動詞過去時制」であり、
文脈に対応しない語幹−品詞の対は「left、形容詞」
「left、副詞」「left、単数名詞」である。辞書中の文
脈に対応する項目を表示するには、辞書970中の項目
であって、語幹−品詞の対950に含まれる語幹に対応
するすべての項目をステップ980で表示する。上記例
文では、動詞"leave" に関するすべての項目が文脈に対
応する項目として表示される。文脈に対応しない項目を
表示したい場合は、辞書970中の項目であって語幹−
品詞の対の集合960に含まれている語幹に対応するす
べての項目を求めてステップ990で表示する。上記の
例では、形容詞、副詞、単数名詞の"left"に関するすべ
ての項目が文脈に対応しない項目として表示される。
【0151】文脈に基づいて辞書からの項目を選択する
機能は、一言語だけの辞書にも二ケ国語併用辞書にも適
用でき、ネイティブスピーカーにとってもネイティブス
ピーカー以外の者にとっても有効に使用され得る。この
ように、本発明のシステムは辞書中の項目から文脈に対
応する項目だけをまず選択することによって、使用者が
読まなければならない辞書項目数を著しく低減する。
【0152】以上、図面を参照して本発明の実施例を述
べてきたが、この分野の知識を有する者にとって本発明
の範囲内で多用な変形、代用が可能なことは言うまでも
ない。
【0153】
【発明の効果】本発明の文法チェックシステムによれ
ば、名詞句の限定詞の欠如、不要な限定詞の使用、限定
詞と中心名詞の単複についての不一致を検出することに
より、システム使用者は、入力された文中の名詞句にお
いて限定詞が不適切に使用されていることを認識するこ
とができる。
【0154】また、本発明の文法チェックシステムによ
れば、さらに、名詞句中の中心名詞の単複、種類を含む
条件から限定詞の要否を判定することによって前記限定
詞の欠如を検出し、システム使用者の文章作成作業をよ
り適切に支援することができる。
【0155】また、本発明の文法チェックシステムによ
れば、さらに、名詞句中の中心名詞が固有名詞である場
合に限定詞が存在するとき、前記不要な限定詞の使用が
なされていると判定し、システム使用者の文章作成作業
をより適切に支援することができる。
【0156】また、本発明の文法チェックシステムによ
れば、さらに、名詞句中の固有名詞でない中心名詞と限
定詞の単複を比較することにより、前記単複についての
不一致を検出し、システム使用者の文章作成作業をより
適切に支援することができる。
【0157】さらに、本発明の文法チェックシステムに
よれば、システムに入力された文の各単語にその品詞を
表すタグを付加し、このタグを用いて上記各処理を行う
ことにより、不適性な助動詞列の使用を検出、修正する
システムに必要な記憶容量および処理能力を大幅に削減
することができる。
【0158】また、本発明の文法チェックシステムによ
れば、さらに、前記中心名詞が単数形の非固有名詞であ
るかどうかを判定することにより、システム使用者の文
章作成作業をより適切に支援することができる。
【0159】また、本発明の文法チェックシステムによ
れば、さらに、前記中心名詞が集合名詞、物質名詞、抽
象名詞などのマス名詞であるかどうかを判定することに
より、システム使用者の文章作成作業をより適切に支援
することができる。
【0160】また、本発明の文法チェックシステムによ
れば、さらに、前記検出された名詞句が慣用句の一部で
あるかどうかを判定することにより、システム使用者の
文章作成作業をより適切に支援することができる。
【0161】また、本発明の文法チェックシステムによ
れば、さらに、前記中心名詞が固有名詞であるかどうか
を判定することにより、システム使用者の文章作成作業
をより適切に支援することができる。
【0162】また、本発明の文法チェックシステムによ
れば、さらに、前記中心名詞が固有名詞である場合に前
記検出された名詞句が限定詞を含むかどうかを判定する
ことにより、システム使用者の文章作成作業をより適切
に支援することができる。
【0163】また、本発明の文法チェックシステムによ
れば、さらに、前記中心名詞が固有名詞でない場合であ
って前記名詞句が限定詞を含む場合に、前記名詞句に含
まれた限定詞と前記中心名詞が単複について一致するか
どうかを判定することにより、システム使用者の文章作
成作業をより適切に支援することができる。
【図面の簡単な説明】
【図1】 文法チェックシステムの全体ブロック図であ
り、全体の文法チェックに用いられる種々のモジュール
を示す図である。
【図2】 混同しやすい単語の修正プロセスを示すブロ
ック図である。
【図3】 プロセスにおいて混同しやすい単語の長さを
考慮する場合のプロセスを示す図である。
【図4】 不定冠詞「a」と「an」の不適切な使用の
修正を示すフローチャートである。
【図5】 不正な助動詞列の検出及び修正を示すブロッ
ク図である。
【図6】 図5における先頭語検出ユニット、末尾語検
出ユニットの構成を示すブロック図である。
【図7】 英語の正しい助動詞列の一覧を示す循環経路
のない有向グラフの図である。
【図8】 不適正な助動詞列の修正を提案するための変
換規則を表した循環経路のない有向グラフの図である。
【図9】 ネイティブスピーカー以外の者のための改善
されたスペリングチェックシステムを示す図である。
【図10】 図9の不適正語辞書と英語辞書を用い、検
出した不適正語を修正するプロセスを示すブロック図で
ある。
【図11】 限定詞の不適正な使用を検出、修正するフ
ローチャートである。
【図12】 名詞句の限定詞欠如を検出、報告するフロ
ーチャートである。
【図13】 名詞句の不要な限定詞を検出、報告するフ
ローチャートである。
【図14】 名詞句の単複についての不一致を検出、報
告するフローチャートである。
【図15】 固有名詞または本来大文字で始まる単語か
どうかを識別し、単語の基本スペリングを回復するフロ
ーチャートである。
【図16】 図15の処理で用いるトレーニグ・コーパ
スを書き換えるプロセスのフローチャートである。
【図17】 図15の処理のうち、本来大文字で始まる
単語かどうかの決定プロセスのフローチャートである。
【図18】 文脈に対応した辞書項目へのアクセスを示
すフローチャートである。
【符号の説明】
10 入力文、20 品詞アナライザモジュール、22
品詞列の適正確率検出モジュール、24 品詞照合モ
ジュール、26 適正文選択モジュール、28基本スペ
リング回復モジュール、30 活用チェックモジュー
ル、32 助動詞修正モジュール、34 適正文選択モ
ジュール、36 限定詞修正モジュール、38 単語挿
入/削除モジュール、40 分脈を考慮した辞書照合モ
ジュール、42 不定冠詞修正モジュール、44 スペ
リングチェックモジュール、700 名詞句特定モジュ
ール、702 限定詞欠如検出モジュール、720 不
要限定詞使用検出モジュール、730 単複不一致検出
モジュール。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 エマニュエル ロシエ アメリカ合衆国 マサチューセッツ州 ボ ストン コモンウェルス・アベニュー 37

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された文から名詞句における不適切
    な限定詞の使用を検出する文法チェックシステムにおい
    て、 入力された文の各単語に、その品詞を示すタグを付加す
    る手段と、 付加されたタグの列から名詞句を構成するタグの部分列
    を特定する手段と、 前記特定された部分列に対応する名詞句の限定詞の欠
    如、不要な限定詞の使用、限定詞と中心名詞の単複につ
    いての不一致を検出する検出手段と、 を含むことを特徴とする文法チェックシステム。
  2. 【請求項2】 請求項1に記載の文法チェックシステム
    において、 前記検出手段は、名詞句中の中心名詞の単複、種類を含
    む条件から限定詞の要否を判定することによって前記限
    定詞の欠如を検出することを特徴とする文法チェックシ
    ステム。
  3. 【請求項3】 請求項1または2のいずれかに記載の文
    法チェックシステムにおいて、 前記検出手段は、名詞句中の中心名詞が固有名詞である
    場合に限定詞が存在するとき、前記不要な限定詞の使用
    がなされていると判定することを特徴とする文法チェッ
    クシステム。
  4. 【請求項4】 請求項1〜3のいずれかに記載の文法チ
    ェックシステムにおいて、 前記検出手段は、名詞句中の固有名詞でない中心名詞と
    限定詞の単複を比較することにより、前記単複について
    の不一致を検出することを特徴とする文法チェックシス
    テム。
  5. 【請求項5】 請求項2〜4のいずれかに記載の文法チ
    ェックシステムにおいて、該シテスムはさらに、 前記中心名詞が単数形の非固有名詞であるかどうかを判
    定する手段を含むことを特徴とする文法チェックシステ
    ム。
  6. 【請求項6】 請求項2〜5のいずれかに記載の文法チ
    ェックシステムにおいて、該システムはさらに、 前記中心名詞が集合名詞、物質名詞、抽象名詞などのマ
    ス名詞であるかどうかを判定する手段を含むことを特徴
    とする文法チェックシステム。
  7. 【請求項7】 請求項2〜6のいずれかに記載の文法チ
    ェックシステムにおいて、該システムはさらに、 前記検出された名詞句が慣用句の一部であるかどうかを
    判定する手段を含むことを特徴とする文法チェックシス
    テム。
  8. 【請求項8】 請求項2〜7のいずれかに記載の文法チ
    ェックシステムにおいて、該システムはさらに、 前記中心名詞が固有名詞であるかどうかを判定する手段
    を含むことを特徴とする文法チェックシステム。
  9. 【請求項9】 請求項2〜8のいずれかに記載の文法チ
    ェックシステムにおいて、該システムはさらに、 前記中心名詞が固有名詞である場合に前記検出された名
    詞句が限定詞を含むかどうかを判定する手段を含むこと
    を特徴とする文法チェックシステム。
  10. 【請求項10】 請求項2〜9のいずれかに記載の文法
    チェックシステムにおいて、該システムはさらに、 前記中心名詞が固有名詞でない場合であって前記名詞句
    が限定詞を含む場合に、前記名詞句に含まれた限定詞と
    前記中心名詞が単複について一致するかどうかを判定す
    る手段を含むことを特徴とする文法チェックシステム。
JP7133234A 1994-06-01 1995-05-31 文法チェックシステム Pending JPH07325828A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/251,978 US5477448A (en) 1994-06-01 1994-06-01 System for correcting improper determiners
US251978 1994-06-01

Publications (1)

Publication Number Publication Date
JPH07325828A true JPH07325828A (ja) 1995-12-12

Family

ID=22954150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7133234A Pending JPH07325828A (ja) 1994-06-01 1995-05-31 文法チェックシステム

Country Status (2)

Country Link
US (1) US5477448A (ja)
JP (1) JPH07325828A (ja)

Families Citing this family (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2421656C (en) * 2003-03-11 2008-08-05 Research In Motion Limited Localization of resources used by applications in hand-held electronic devices and methods thereof
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US9514109B2 (en) * 2012-01-12 2016-12-06 Educational Testing Service Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9992243B2 (en) 2012-09-17 2018-06-05 International Business Machines Corporation Video conference application for detecting conference presenters by search parameters of facial or voice features, dynamically or manually configuring presentation templates based on the search parameters and altering the templates to a slideshow
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102698417B1 (ko) 2013-02-07 2024-08-26 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN107861952A (zh) * 2017-09-25 2018-03-30 沈阳航空航天大学 基于最长名词短语分治策略的神经机器翻译方法
US11593557B2 (en) 2020-06-22 2023-02-28 Crimson AI LLP Domain-specific grammar correction system, server and method for academic text
US11397846B1 (en) * 2021-05-07 2022-07-26 Microsoft Technology Licensing, Llc Intelligent identification and modification of references in content

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5083268A (en) * 1986-10-15 1992-01-21 Texas Instruments Incorporated System and method for parsing natural language by unifying lexical features of words
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US5218537A (en) * 1989-12-21 1993-06-08 Texas Instruments Incorporated System and method for using a computer to generate and teach grammar lessons

Also Published As

Publication number Publication date
US5477448A (en) 1995-12-19

Similar Documents

Publication Publication Date Title
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
US5485372A (en) System for underlying spelling recovery
US5521816A (en) Word inflection correction system
US5537317A (en) System for correcting grammer based parts on speech probability
US5845306A (en) Context based system for accessing dictionary entries
JP4833476B2 (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
JP5444308B2 (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
US7447627B2 (en) Compound word breaker and spell checker
US5812863A (en) Apparatus for correcting misspelling and incorrect usage of word
US20050044495A1 (en) Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP2002215617A (ja) 品詞タグ付けをする方法
Garside 11 The robust tagging of unrestricted text: the BNC experience
Tufiş et al. DIAC+: A professional diacritics recovering system
JPH07325825A (ja) 英文法チェックシステム装置
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPH0531186B2 (ja)
JPS63118868A (ja) 日本語文章校正装置
JP2592993B2 (ja) 文節切り出し装置
JPH0696117A (ja) 文書変更支援システム
JPS62212871A (ja) 文章読み上げ校正装置
JPH07200592A (ja) 文章処理装置
JPH02136959A (ja) 日本文訂正候補抽出装置