JP4278090B2

JP4278090B2 - 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体

Info

Publication number: JP4278090B2
Application number: JP2003132395A
Authority: JP
Inventors: ジョンワイトロックピーター; グレニーエドモンズフィリップ
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-05-22
Filing date: 2003-05-09
Publication date: 2009-06-10
Anticipated expiration: 2023-05-09
Also published as: CN1273915C; CN1460948A; GB2388940A; GB0211727D0; JP2004005641A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然な言語テキストにおいて、単語の選択および使用を、訂正し、改善させる方法および装置に関する。また、本発明は、このような方法を行うようにコンピュータをプログラムするコンピュータプログラム、このようなプログラムを含む格納媒体、およびこのようなプログラムによってプログラムされるコンピュータに関する。
【０００２】
【従来の技術】
ある言語で書くことまたは話すことの中心には、どの単語を用いるかを選択することがある。この選択に役立てるため、母国語で書いている人は、類語辞典を用い、言語の学習者は、典型的には、２カ国語の辞書を用いる。しかし、母国語で書いている人は、類語辞典には、類義語が適切である文脈についての詳細な情報がないことに気付き、学習者は、２カ国語の辞書から誤った翻訳を選択することがあり、両者は、集中力または知識が欠けている場合には他の単語に綴り間違いをすることがある。
【０００３】
学習者の英語の注釈付きのコーパス（非特許文献１参照）によると、誤った動詞または前置詞の使用が、最も一般的なタイプの誤りであり、綴りおよび句読点の誤りがその後に続く。例えば、書き手は、「ａｓｓｏｃｉａｔｅｗｉｔｈ」ではなく「ａｓｓｏｃｉａｔｅｔｏ」、「ｌｏｓｅｏｎｅ’ｓｔｅｍｐｅｒ」ではなく「ｌｏｏｓｅｏｎｅ’ｓｔｅｍｅｐｅｒ」、「ｂｅａｔｓｍｅａｔｔｅｎｎｉｓ」ではなく「ｗｉｎｓｍｅａｔｔｅｎｎｉｓ」と書くことがある。
【０００４】
従来、このようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが出来なかった。
【０００５】
特許文献１、２、３は、構文解析および翻訳における、共起の情報の作成および使用を開示する。
【０００６】
特許文献４、５、６、７、８、９、１０の各々が開示する技術は、一般的に混乱しやすい単語のセット、例えば、「ｈｅａｒ」と「ｈｅｒｅ」、または、「ｔｏ」と「ｔｏｏ」などのリストを用いる。テキストにおける、このような単語の存在は、潜在的な誤りを示す。これらの特許は、誤りの訂正に対して異なる方法を記載する。
【０００７】
特許文献１１は、混乱しやすい単語の使用を区別する、異なる文脈を記載する規則のシステムを用いる技術を開示する。
【０００８】
特許文献１２、１３、１４は、確率を品詞の連続に割り当てるシステムを開示する。混乱しやすい単語を含む品詞の連続である確率は、その単語と混乱される単語を含む品詞の連続である確率と比較され得る。後者の方が前者よりも高い場合、起こり得る誤りが報告される。
【０００９】
特許文献１５は、単語の連続に確率を割り当て、ある単語を他の単語と誤って綴ることに確率を割り当て、これらの確率を組み合わせて、単語が他の単語と誤って綴られているか否かを判定するシステムを開示する。
【００１０】
特許文献１６、１７は、単語を、その文脈を表す特徴と関連付け、機械学習アルゴリズムを用いて、混乱しやすい単語のセットの特定の要素に対して、特徴の値から、関数を計算するシステムを開示する。混乱しやすい単語のセットの要素がテキストに現れる場合、この関数が用いられて、正確であるか、または誤っているかが、分類される。
【００１１】
非特許文献２は、連続的な単語のｎグラムモデルを用いて、誤りを検出するシステムを開示する。このシステムは、以前には見られなかった、カテゴリー変更およびカテゴリー保存の誤りを検出し得るが、連続的なモデルに起因して、非常に限定された長さにわたってのみ検出し得る。誤りの訂正は、記載されていない。
【００１２】
特許文献１８に開示されるシステムは、パーサーの失敗による、単語の使用における潜在的な誤りを識別し、これらの誤りを、続く構文解析の成功につながるように、混乱しやすい単語を見つけることによって解決する。
【００１３】
連結に関する強度または尤度の多くの尺度は、例えば、非特許文献３、４に開示され、非特許文献３、４は特定のタスクにおいていくつかの尺度の比較評価を提供する。
【００１４】
任意の適切なパーサーを用いたテキストの解析の一例が、非特許文献５に開示されている。
【００１５】
統計学的尺度による尤度の値の計算に用いられるパラメータの公式は、非特許文献６に開示されている。
【００１６】
【特許文献１】
米国特許第４，９１６，６１４号
【特許文献２】
米国特許第４，９４２，５２６号
【特許文献３】
米国特許第５，４０６，４８０号
【特許文献４】
米国特許第４，６７４，０６５号
【特許文献５】
米国特許第４，８６８，７５０号
【特許文献６】
米国特許第５，２５８，９０９号
【特許文献７】
米国特許第５，５３７，３１７号
【特許文献８】
米国特許第５，６５９，７７１号
【特許文献９】
米国特許第５，７９９，２６９号
【特許文献１０】
米国特許第５，９０７，８３９号
【特許文献１１】
米国特許第４，６７４，０６５号
【特許文献１２】
米国特許第４，８６８，７５０号
【特許文献１３】
米国特許第５，５３７，３１７号
【特許文献１４】
米国特許第５，７９９，２６９号
【特許文献１５】
米国特許第５，２５８，９０９号
【特許文献１６】
米国特許第５，６５９，７７１号
【特許文献１７】
米国特許第５，９０７，８３９号
【特許文献１８】
米国特許第５，９９９，８９６号
【非特許文献１】
Ｎｉｃｈｏｌｌｓ、１９９９「ＴｈｅＣａｍｂｒｉｄｇｅＬｅａｒｎｅｒＣｏｒｐｕｓ−ＥｒｒｏｒＣｏｄｉｎｇａｎｄＡｎａｌｙｓｉｓｆｏｒＷｒｉｔｉｎｇＤｉｃｔｉｏｎａｒｉｅｓａｎｄｏｔｈｅｒｂｏｏｋｓｆｏｒＥｎｇｌｉｓｈＬｅａｒｎｅｒｓ」、ＳｕｍｍｅｒＷｏｒｋｓｈｏｐｏｎＬｅａｒｎｅｒＣｏｒｐｏｒａ、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ
【非特許文献２】
ＣｈｏｄｏｒｏｗおよびＬｅａｃｏｃｋのＡｎｕｎｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｆｏｒｄｅｔｅｃｔｉｎｇｇｒａｍｍａｔｉｃａｌｅｒｒｏｒｓ」（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１^ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、１４０〜１４７ページ、２０００年
【非特許文献３】
Ｋ．Ｋａｇｅｕｒａ、１９９９、「ＢｉｇｒａｍＳｔａｔｉｓｔｉｃｓＲｅｖｉｓｉｔｅｄ：ａＣｏｍｐａｒａｔｉｖｅＥｘａｍｉｎａｔｉｏｎｏｆｓｏｍｅＳｔａｔｉｓｔｉｃａｌＭｅａｓｕｒｅｓｉｎＭｏｒｐｈｏｌｏｇｉｃａｌＡｎａｌｙｓｉｓｏｆＪａｐａｎｅｓｅＫａｎｊｉＳｅｑｕｅｎｃｅｓ」、ＪｏｕｒｎａｌｏｆＱｕａｎｔｉｔａｔｉｖｅＬｉｎｇｕｉｓｔｉｃｓ、１９９９、ｖｏｌ６、ｎｏ．２、１４４〜１６６ページ
【非特許文献４】
Ｅｖｅｒｔら、「ＭｅｔｈｏｄｓｆｏｒｔｈｅＱｕａｌｉｔａｔｉｖｅＥｖａｌｕａｔｉｏｎｏｆＬｅｘｉｃａｌＡｓｓｏｃｉａｔｉｏｎＭｅａｓｕｒｅｓ」、Ｐｒｏｃｅｅｄｉｎｇｏｆｔｈｅ３０^ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｔｏｕｌｏｕｓｅ，２００１、１８８〜１９５ページ
【非特許文献５】
Ｍ．Ｃｏｌｌｉｎｓの「ＴｈｒｅｅＧｅｎｅｒａｔｉｖｅＬｅｘｉｃａｌｉｓｅｄＭｏｄｅｌｓｆｏｒＳｔａｔｉｓｔｉｃａｌＰａｒｓｉｎｇ」（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３５ｔｈａｎｎｕａｌｍｅｅｔｉｎｇｏｆｔｈｅＡＣＬ／８^ｔｈｃｏｎｆｅｒｅｎｃｅｏｆｔｈｅＥＡＣＬ、Ｍａｄｒｉｄ、１９９７）、ＳｌｅａｔｏｒおよびＴｅｍｐｅｒｌｅｙの「ＰａｒｓｉｎｇＥｎｇｌｉｓｈｗｉｔｈａＬｉｎｋＧｒａｍｍａｒ」（ＣＭＵ−ＣＳ−９１−１９６、Ｃａｒｎｅｇｉｅ−ＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙＤｅｐｔ．ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ、１９９１）
【非特許文献６】
Ｄ．Ｌｉｎの「ＡｕｔｏｍａｔｉｃＲｅｔｒｉｅｖａｌａｎｄＣｌｕｓｔｅｒｉｎｇｏｆＳｉｍｉｌａｒＷｏｒｄｓ」（ＣＯＬＩＮＧ−ＡＣＬ９８、Ｍｏｎｔｒｅａｌ、Ｃａｎａｄａ、１９９８年８月）
【００１７】
【発明が解決しようとする課題】
本発明は、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置を提供することを目的とする。
【００１８】
【課題を解決するための手段】
本発明は、上記のようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤り（例えば、ｌｏｓｅ／ｌｏｏｓｅ）、および様々な他のタイプの誤りを処理することができる。
【００１９】
例えば、「ｍａｋｅ」のような単語を類語辞典で引くと、書き手は多数の類義語を見出す。これらは、中心的な意味を共有するグループに分類され得る。あるグループには、「ｃｒｅａｔｅ」、「ｃｏｎｓｔｒｕｃｔ」、および「ｅｓｔａｂｌｉｓｈ」などの類義語が含まれ得るが、書き手が、「ｃｒｅａｔｅｓａｄｉｖｅｒｓｉｏｎ」、「ｃｏｎｓｔｒｕｃｔｓａｍｏｄｅｌ」、または「ｅｓｔａｂｌｉｓｈｅｓａｒｅｌａｔｉｏｎｓｈｉｐ」を見出すことはない。
【００２０】
本発明は、これらを、「ｍａｋｅａｄｉｖｅｒｓｉｏｎ」、「ｍａｋｅａｍｏｄｅｌ」、または「ｍａｋｅａｒｅｌａｔｉｏｎｓｈｉｐ」などの入力に応答して提供することを可能にする。
【００２１】
本発明は、書き言葉であるか話し言葉であるかに関わらず、以下ではテキストと呼ぶ、一続きの言語において共起し得る（必ずしも、隣接しない）、２つの単語または句の間の関係を含む、依存性または連結性を利用する。連結性は、テキストの大部分において現れる頻度に基づいて、強度または尤度の尺度と関連付けられ得る。テキストにおける単語は、それが現れている連結における尤度の値に基づいて、もっともらしさの値と関連付けられ得る。テキスト内においてもっともらしくない単語は、文脈において、誤っているか、または、不自然であり得る。
【００２２】
本発明は、第１の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第１の単語または句の選択を訂正または改善させる装置であって、前記第１の言語の単語または句の間の連結に関する第１のデータベースと、前記第１の言語の単語または句の各々が、混乱しやすい単語または句のセットと関連付けられている、第２のデータベースと、前記第１のデータベースと、前記第２のデータベースとに基づいて、前記第１の単語または句の選択の訂正または改善を制御する制御部とを備え、前記第１のデータベースにおける前記連結が、前記第１の言語のテキストの本文において前記連結が現れる頻度と、前記第１の言語のテキストの本文において、前記単語または句のうちの１つを含むとともに同じ依存性関係を有する他の連結の各々またはすべてが現れる頻度とに基づいて設定された少なくとも１つの尤度の値を有するものであり、前記依存性関係が、一方の単語または句が他方の単語または句の主語である関係、一方の単語または句が他方の単語または句の目的語である関係、一方の単語または句が他方の単語または句の修飾語である関係のいずれかであり、前記制御部は、前記テキストのセクションの前記第１の単語または句と、第２の単語または句との間に第１の連結を確立するために該テキストのセクションを解析する解析手段と、前記第１の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第１の単語または句の第１のもっともらしさの値を計算する第１計算手段と、前記第２のデータベースから、前記テキストのセクションにおける前記第１の単語または句と混乱しやすい単語または句を、該第１の単語または句との置換候補として選択する第１選択手段と、前記第２の単語または句と前記混乱しやすい単語または句との第２の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第２のもっともらしさの値を計算する第２計算手段と、該計算された第２のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第２選択手段と、該第２選択手段にて選択された前記混乱しやすい単語または句を出力する出力手段と、を有することを特徴とする。
【００２３】
また、本発明は、前記装置によって、第１の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第１の単語または句の選択を訂正または改善させる方法であって、前記解析手段によって、前記テキストのセクションの前記第１の単語または句と、第２の単語または句との間に第１の連結を確立するために該テキストのセクションを解析する解析工程と、前記第１計算手段によって、前記第１の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第１の単語または句の第１のもっともらしさの値を計算する第１計算工程と、前記第１選択手段によって、前記第２のデータベースから、混乱しやすい単語または句を、前記テキストのセクションにおける前記第１の単語または句と混乱しやすい単語または句を、該第１の単語または句との置換候補として選択する第１選択工程と、前記第２計算手段によって、前記第２の単語または句と前記混乱しやすい単語または句との第２の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第２のもっともらしさの値を計算する第２計算工程と、前記第２選択手段によって、前記計算された第２のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第２選択工程と、前記出力手段によって、前記第２選択工程にて選択された前記混乱しやすい単語または句を出力する出力工程と、を包含することを特徴とする。
【００２４】
好ましくは、前記第１のデータベースにおける前記連結の前記尤度の値が、相互情報、Ｔ得点、ＹｕｌｅのＱ係数、および対数尤度のうちの少なくとも１つを含む。
【００２５】
好ましくは、前記解析工程は、前記テキストのセクションにおいて、複数の第１の単語または句の複数の第１の連結を確立する工程を含み、前記第１計算工程は、該第１の連結の各々の前記第１の単語または句の各々について行われ、前記第１選択工程、前記第２計算工程および前記第２選択工程は、該第１の連結の各々の前記第１の単語または句の各々について行われる。
【００２６】
好ましくは、前記解析工程において、前記テキストのセクションにおいて隣接していない単語または句の間に前記第１の連結を確立する。
【００２７】
好ましくは、前記第１選択工程が、単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含み、前記第１選択工程、前記第２計算工程および前記第２選択工程が、該混乱しやすい単語または句の各々について行われる。
【００２８】
好ましくは、前記第１のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、該第１のもっともらしさの値が第１の閾値よりも低い場合、前記第１選択工程、前記第２計算工程および前記第２選択工程が行われる。
【００２９】
好ましくは、前記第２のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、前記第２選択工程において、該第２のもっともらしさの値の各々または該第２のもっともらしさの値が、第２の閾値を越える場合に、前記混乱しやすい単語または句が選択される。
【００３１】
好ましくは、前記第２選択工程の後に、前記テキストのセクションにおける第１の単語を、該第２選択工程にて選択された前記混乱しやすい単語と置換する工程をさらに含む。
【００３２】
好ましくは、第２の言語から、翻訳によってテキストのセクションを生成する工程をさらに含む。
【００３３】
好ましくは、印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含む。
【００３４】
また、本発明は、前記方法をコンピュータに実行させるための、コンピュータプログラムである。
【００３５】
また、本発明は、前記コンピュータプログラムが格納された、コンピュータ読取り可能な格納媒体である。
【００４３】
単語間の連結の尤度を用いることによって、品詞の連続の確率を殆ど用いない、公知のシステムよりも改善している技術を提供することが可能である。なぜなら、このような公知のシステムは、非常に一般的であるカテゴリーを維持する誤りを検出して訂正することができないからである。
【００４４】
改善は、依存性文法は、隣接していないが、それでも、互いの選択に直接影響を与える、単語間の依存性を捕らえることができるので、連続的なｎグラム（ワードまたは品詞のいずれか）を用いることによって達成される。ｎグラムは、原則として、このような依存性をも含むように、拡大され得るが、実際には、これは、データが疎であることにおいて深刻な問題につながり得る。連結を用いることによって、統計学的な尤度の値の計算について利用可能なデータが、言語学的に大きな単位に集められる。殆どの場合において、常に、３つの要素の依存性の断片が、有用な統計を得るために充分であるが、４つの要素の連続的なｎグラムでさえ、ありそうな単語の組合せおよびありそうもない単語の組合せの多くの場合について誤りをおかす。
【００４５】
言語学的に意味のあるエンティティに対する、この統計の制限の重要な結果として、確率の値が、誤りを見つけるために必要な様態で解釈することが、より容易になることである。これを理解するため、連続的な単語の二重字モデルにおいて、隣接する単語間の遷移の確率の重要性を考慮する。構成要素内で、例えば、「ａｂｉｇｄｏｇ」における「ｂｉｇ」と「ｄｏｇ」との間で、遷移の確率は、類似の形容詞および名詞の連続と、直接比較され得る。しかし、「ｇｉｖｅｔｈｅｄｏｇａｂｏｎｅ」における「ｄｏｇ」と「ａ」との間の遷移の確率は、「ｄｏｇ」で終わる構成要素に、「ａ」で始まる構成要素が続くので、どちらかというと、対象とならない（ありそうもない）確率である。「ｇｉｖｅ」が先頭である構成要素が、「ｂｏｎｅ」が先頭である第２の目的語を有するという対象になる確率は表されず、可能な代替例、例えば、「ｇｉｖｅｔｈｅｄｏｇａｃｌｏｎｅ」と比較されることはできない。
【００４６】
すなわち、連続的なｎグラムモデルにおいて、低い遷移確率は、言語学的に興味深い尤度の低さと、そうではない尤度の低さとの両方を表し得る。これは、潜在的な誤りの直接的な指示として用いられることはできない。連続的なｎグラムに基づくシステムが、誤りを処理するトリガとして、全ての低い確率を処理する場合、多数の潜在的な「誤り」を検出し、そのうちの多くが実際の「誤り」ではない。これらの処理はコストが高く、また、このような偽の誤りが、本当の誤りとして分類されるという危険を引き起こす。
【００４７】
これが、低い遷移確率を用いる公知の技術のいずれも誤り処理のトリガとして用いられず、むしろ、混乱しやすいことが公知である特定の単語のテキストにおける存在を用いて、元の連続の相対的な尤度および単語を置き換えることによって得られる尤度を考慮する理由である。
【００４８】
対照的に、本発明の技術においては、「低い尤度」が、よりロバストな誤りのインジケータである。任意のありそうもない連結は、誤り処理の開始に寄与し得、ありそうもない連結のみが寄与する。当然、ありそうにもないことが、常に誤りであるという結果にはならないが、本発明の技術においては、これらの偽のトリガは、ずっと少ない。
【００４９】
さらに、いくつかの混乱しやすい単語のセットにおける要素のテキストにおける存在が、多くの公知の技術と同様に、誤り処理のトリガに過ぎない場合、混乱しやすい単語のセットに要素を追加することは、誤り処理がトリガされる回数と、各要素を考慮する計算コストとの両方を増加させる。
【００５０】
連結の尤度、および得られる単語のもっともらしさが、本発明と同様に、誤り処理のトリガである場合、ずっと広い範囲の誤りが、特徴付けられ得る。混乱しやすさの概念は、綴りおよび発音の高い頻度での混乱に限定されない。
【００５１】
学習アルゴリズムを用い、また、誤り処理のトリガとして、混乱しやすいことが公知である単語の存在を用いる公知の技術において、学習アルゴリズムを単語の分類に適用すること以外に、単語を潜在的な誤りとして検出する方法はない。さらに、公知のｎグラムに基づく技術と同様に、学習システムは、データを言語学的に大きな単位に集めることによる利益を完全には得ない。
【００５２】
本発明の技術は、構文解析の失敗に基づく公知の技術の改善を表す。なぜなら、構文解析の失敗は、語彙の誤り、特に、同じ品詞の単語との置換に関わる語彙の誤りの、非常に粗い検出機構であるからである。対照的に、本発明の技術は、非常に短い文の断片の尤度でさえ、非常にきめ細かい定量的な判定を提供し、アタッチメントがないことによって示されるように、特定の、極端に尤度が低い場合として、構文解析の失敗を含む。さらに、構文解析の成功（誤りが訂正されたという粗い状態）は、得られた改善のきめ細かい定量的な判定と置換され得る。
【００５３】
【発明の実施の形態】
本発明は、添付の図面を参照しながら、例示のために、さらに説明される。
【００５４】
本発明においては、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語のこのような使用を改善し得る方法を示唆する方法および装置が提供される。これらの技術は、その文脈において、所与の入力表現と意味が類似する表現を示唆する、文脈に対して高感度な類語辞典として用いられてもよい。単語の組合せの統計的に依存性のモデルは、誤り検出および置換のチェックの基礎として用いられる。これによって、連続的なｎグラムモデルまたは解析されていない特徴のセットのいずれかを用いる、公知の方式で、いくつかの問題が解決される。また、これらの技術は、置換の候補の範囲をずっと広くすることが可能である。誤りの検出は、用いることによって誤りが起きやすい特定の単語の検出に依存しないので、以前に出てきたことがない誤りも検出および訂正され得る。
【００５５】
本発明は、２つのタイプの単語間の関係を用いる。一方のタイプの関係は、１つの文において異なる位置にある２つの単語の間で保持される。これらは、「〜の主語」、「〜の目的語」および「〜の修飾語」ような依存の関係であり、その例を図２に示す。図２は、「Ｌｏｖｅｉｓｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｃｏｎｄｉｔｉｏｎｆｏｒｍａｒｒｉａｇｅ」という文を解析した結果を示す。単語は、屈折していない形および品詞によって、すなわち、見出し語として表される。従って、「ｉｓ」は、「ｂｅ＿Ｖ」と表される。この動詞の主語は、「ｌｏｖｅ＿Ｎ」であると識別され、その目的語は、「ｃｏｎｄｉｔｉｏｎ＿Ｎ」であると識別される。後者は、「ｔｈｅ＿ＤＥＴ」によって特定され、「ｉｍｐｏｒｔａｎｔ＿ＡＤＪ」によって修飾される。「Ｍｏｓｔ＿ＡＤＶ」は、「ｉｍｐｏｒｔａｎｔ＿ＡＤＪ」を修飾する副詞として識別される。「Ｆｏｒ＿ＰＲＥＰ」は、「ｃｏｎｄｉｔｉｏｎ＿Ｎ」を修飾する前置詞として識別され、「ｍａｒｒａｉａｇｅ＿Ｎ」は、前置詞「ｆｏｒ＿ＰＲＥＰ」の目的語として識別される。２つの見出し語およびこれらを連結する依存性の関係からなる３つの形態は、連結と呼ばれる。
【００５６】
他方のタイプの関係は、「〜の可能な置換」として定義される関係、すなわち、文の所与の位置での代替的な単語の選択肢の間の関係を含む。置換の関係のいくつかの例は、以下の通りである。
【００５７】
・類義語、反意語、下位語、および上位語のような類語関係
・「ｌｏｓｅ」が「ｌｏｏｓｅ」になるように、その言語の他の単語になってしまうような綴りの誤り（特殊な場合として、「ｐａｎｅ」および「ｐａｉｎ」のように、発音が同じであるが綴りが異なる単語に関連する、同音がある）
・１つの語源から異なる様式で形成された単語に関連する、派生語（例えば、「ｉｎｔｅｒｅｓｔｅｄ」および「ｉｎｔｅｒｅｓｔｉｎｇ」、あるいは、「ｓａｆｅ」および「ｓａｆｅｔｙ」）
・他の言語における、１つの単語に対する代替的な翻訳である単語に関連する、複数の言語間での混乱しやすさ（例えば、フランス語には、両方とも、「ｍａｒｑｕｅｒ」と翻訳され得る「ｍａｒｋ」および「ｂｒａｎｄ」）
・ある単語が、同語源の他の言語の単語の翻訳として不適切である、偽のフレンド（例えば、フランス語の「ａｃｔｕａｌ」の、それぞれ、正しい翻訳および誤った翻訳である、「ｐｏｓｓｉｂｌｅ」および「ａｃｔｕａｌ」）
・無意味な単語を置換すること、または、無意味な単語と置換することとしても考えられ得る、挿入および消去の誤り（例えば、「ｈｅｒａｎｇ（ａｔ）ｔｈｅｄｏｏｒｂｅｌｌ」「ｗｅｐａｉｄ（ｆｏｒ）ｏｕｒｍｅａｌｓ」）
文中で単語ｗを用いることが、誤っているか、または、そうでなくても、慣用語法にかなっておらず、ぎこちないと思われる場合、ｗの混乱しやすい単語のセットＣ（ｗ）と呼ばれる、単語のセットの各要素が、可能な置換として考えられる。ｗの混乱しやすい単語のセットは、ｗに関連する単語から得られる。ただし、実際の全要素は、ユーザの母国語、書いている言語における言語能力のレベル、および他の要因によって異なり得る。
【００５８】
依存性の関係は、文の構造を表す、幅広く用いられる手段である。多くの変形例が見出されるが、本発明の技術のコンテキストからは、主として、些細なものである。依存性の関係は、従属部分およびヘッドと呼ばれる、２つの単語を結合する。典型的な公式において、従属部分は、１つより多いヘッドに関連し得ないが、ヘッドは、例えば、任意の数の従属部分と、循環の禁止などの他の制約とを含み得、１つの文における関係が樹形図を形成することを確実にする。本明細書においては、文中の２つの単語の間の連結（連結とも呼ばれる）は、３つの形態によって表される。
＜ｆｉｒｓｔｌｅｍｍａ，ｒｅｌａｔｉｏｎ，ｓｅｃｏｎｄｌｅｍｍａ＞
ただし、ｌｅｍｍａ（見出し）は、動詞「ｔｏｃｈａｓｅ」の全ての形態、すなわち、ｃｈａｓｅ、ｃｈａｓｅｓ、ｃｈａｓｅｄ、ｃｈａｓｉｎｇを表す、「ｃｈａｓｅ＿Ｖ」のような用語である。
【００５９】
連結は、強度または尤度の多くの尺度と関連付けられ得る。連結の頻度、すなわち、構文解析されたコーパスにおいて何回見受けられたかは、強度を評価する粗い方法に過ぎない。より正確な尺度は、連結の頻度が、その成分の部分の頻度から予期され得るものから外れる範囲まで計算する。このような尺度のいくつかは、上記非特許文献３、４から公知である。このような尺度のいくつかは、単語の分割、構文解析、翻訳、情報の取り出し、および辞書編集法における用途を有する。これらの例において、典型的には、予期されるよりも、ずっとありそうな連結のみが、対象となる。しかし、本発明の技術は、予期されるようもずっとありそうもない連結についても関係する。テキストにおいて、このような連結が検出されることは、文法的に正しくないか、または言語の慣用的な用法とは異なっていることを示す。
【００６０】
１つ以上のありそうもない連結において現れる単語は、順に、混乱しやすい単語のセットの各要素によって置換され得、このような置換のそれぞれを行うことによる結果は、もっともらしさについて評価され得る。混乱しやすい単語のセットのうちの１つ以上の要素によって、充分にもっともらしくなる場合、これらの要素は、置換用のものとして示唆され得る。
【００６１】
予備的な工程として、単語の組合せについての尤度の値のデータベースが、依存性文法に従って、ネイティブスピーカーのテキストを大量に解析することによって、構築される。任意の適切なパーサーが用いられ得、適切な例が、上記非特許文献５に開示されている。アナライザーは、一般的に考えられるようにパーサーでなくてもよいが、有限状態、または、依存性を記録する機構で補強された、類似の技術を用い得る。
【００６２】
各タイプの連結の頻度が数えられ、例えば、相互情報、Ｔ得点、対数尤度（ｌｏｇ−ｌｉｋｅｌｉｈｏｏｄ）のような１つ以上の統計学的尺度による、それぞれについての尤度の値が、計算され、結果が表に格納される。図３に、このようなデータベースにおけるいくつかの項目を示す。
【００６３】
図３において、最初の列は、連結自体を示す。「頻度」が上についている列は、この連結が構文解析されたコーパス（ここでは、ＢｒｉｔｉｓｈＮａｔｉｏｎａｌＣｏｒｐｕｓの約８０００万の単語）において現れる回数を示す。残りの列は、それぞれ、相互情報、Ｔ得点、ＹｕｌｅのＱ係数、および対数尤度である。これらの各々は、以下の４つの項目から計算される、異なる測定基準である。
＜ｆｉｒｓｔｌｅｍｍａ，ｒｅｌａｔｉｏｎ，ｓｅｃｏｎｄｌｅｍｍａ＞
＜ｆｉｒｓｔｌｅｍｍａ，ｒｅｌａｔｉｏｎ，＊＞
＜＊，ｒｅｌａｔｉｏｎ，ｆｉｒｓｔｌｅｍｍａ＞
＜＊，ｒｅｌａｔｉｏｎ，＊＞
ただし、「＊」は、任意の見出しを表す。このパラメータの公式は、上記非特許文献６に開示されている。異なる測定基準は、異なる範囲を有し、異なる様式の４つのパラメータの精密な値を感知する。しかし、各々の場合において、値が、関係の尤度と相関する。正の値は、組合せが、偶然よりもありそうな組合せであることを示し、負の値は、ありそうにもない組合せであることを示す。
【００６４】
例えば、＜ａｓｓｏｃｉａｔｅ＿Ｖｐａｄｖｔｏ＿ＰＲＥＰ＞のｔ得点は、以下のように計算される。
【００６５】
【数１】

ただし、ｆ（ａｓｓｏｃｉａｔｅ＿Ｖｐａｄｖｔｏ＿ＰＲＥＰ）＝Ｆ
ネイティブスピーカーのコーパスの構文解析は、高品質な、単語の組合せの尤度の評価を得るためには、正確、かつ、可能な限り広い範囲である必要がある。しかし、正確な構文解析は、高品質な、単語の組合せの尤度の評価へのアクセスを必要とし、これによって、矛盾が生じる。この矛盾は、反復的またはブートストラッピングアプローチによって解決され得る。これは、構文解析アルゴリズムのある特定の性質に基づく。
【００６６】
文中の各個別の連結は、優先度の値と関連付けられている。優先度の値は、このような連結が文中の２つの単語の間に存在しているという信頼度の尺度である。このような優先度の値は、品詞の確率および単語の孤立などの文特有の要因と、これらの単語の間の連局の強度などの言語全体にわたる要因との両方の関数である。
【００６７】
構文解析アルゴリズムは、集合的に依存性構造の公理を満たす（すなわち、連結は交差しない、各単語は１つより多いノードに依存しないなど）、１セットの連結を返す。しかし、このセットは、１つの接続された樹形図を形成するためには必要とされない。
【００６８】
文特有の要因および言語全体にわたる要因の優先度の値に対する相対的な寄与は、適切なパラメータ設定によって変動し得る。
【００６９】
閾値は、優先度の値がその閾値を越える連結のみが返されるように設定され得る。
【００７０】
構文解析アルゴリズムの反復的な性質は、非常に簡略的な句「ｗｏｒｌｄｔｉｔｌｅｆｉｇｈｔ」の構文解析を考慮することによって、説明される。
【００７１】
統語論的には、「ｔｉｔｌｅ」が「ｆｉｇｈｔ」を修飾するはずであるが、「ｗｏｒｌｄ」が、「ｔｉｔｌｅ」を修飾するのか、「ｆｉｇｈｔ」を修飾するのかが不明である。英語の統語論において、名詞の連続では、最後の名詞以外の各名詞が、その右側にあるいずれの名詞を修飾してもよい。この場合、特定の単語の結合の強度の知識から、「ｗｏｒｌｄ」が「ｔｉｔｌｅ」を修飾しているという結論が得られる。他の場合、例えば、「ｐｌａｓｔｉｃｂａｂｙｐａｎｔｓ」の場合、第１の名詞は、直後に続く名詞ではなく、最後の名詞を修飾する。
【００７２】
完全な構文解析から以下の連結が得られる。
１．＜ｔｉｔｌｅ＿Ｎ，ｍｏｄ＿ｏｆ，ｆｉｇｈｔ＿Ｎ＞
２．＜ｗｏｒｌｄ＿Ｎ，ｍｏｄ＿ｏｆ，ｔｉｔｌｅ＿Ｎ＞
ネイティブスピーカーのコーパスの構文解析の第１の反復において、特有の単語の間の連結についての尤度の値は利用可能でないので、言語全体にわたる要因は、優先度の値に何も寄与しない。優先度の閾値は高く設定されるので、例えば、品詞が曖昧な単語、または、広く分類される単語は、連結されず、連結の正確性についての信頼度は、高い。この例においては、連結１のみが返される。連続する名詞中終わりから２番目の名詞は、言語全体の要因に関わらず、最後の名詞を修飾しているはずである。しかし、言語全体にわたる情報がないので、連結２、および不正確な＜ｗｏｒｌｄ＿Ｎ，ｍｏｄ＿ｏｆ，ｆｉｇｈｔ＿Ｎ＞のいずれも、この場合において、返されるような充分に高い優先度を有していない。しかし、コーパスにおける、他の名詞が後に続かない「ｗｏｒｌｄｔｉｔｌｅ」（および「ｗｏｒｌｄｆｉｇｈｔ」）の他の例の連結が返される。
【００７３】
その後、尤度の値は、これらの高い確実な連結を用いて、計算される。後続の反復は、優先度の決定において、これらの言語全体にわたる要因を使用し始め得るので、優先度の閾値は下げられ得る。これによって、返される連結の数（構文解析の範囲）が増大し、尤度のより正確な統計が計算されることが可能になる。この例において、＜ｗｏｒｌｄ，ｍｏｄ＿ｏｆ，ｔｉｔｌｅ＞および＜ｗｏｒｌｄ，ｍｏｄ＿ｏｆ，ｆｉｇｈｔ＞の相対的な頻度および／または尤度は、前者が後者よりも、選ばれることにつながる。その後、さらなる反復は、言語にわたる要因の優先度に対する寄与を増大させ続け、優先度の閾値を低減させる。このようにして、尤度データの範囲および信頼度が徐々に改善され得る。
【００７４】
ネイティブスピーカーのコーパスの構文解析の各反復の後、各タイプの尤度の値が、データベースにおいて決定され、入力される。
【００７５】
充分に正確なデータベースが準備されるか、何らかの手段で入手される場合、そのデータベースは、本発明において用いられ得る。問題についてチェックされるテキストは、このような構文解析手順の１回の反復にさらされる。言語全体にわたる要因の構文解析に対する寄与は、これらの要因、すなわち、連結の尤度の値が、次の段階で考慮されるので、低減され得る。
【００７６】
その後、テキストにおける各リンクの尤度の値は、ネイティブスピーカーのデータベースを調べることによって判定される。元のネイティブスピーカーのコーパスに見受けられない連結は、かなり頻度が低いと仮定することによって、尤度の値を割り当てられ得る。典型的な実施形態において、ネイティブスピーカーのコーパスにおいて、１の頻度で見受けられる連結は全て放棄され、データのサイズが大幅に低減される。データベースにおいて見受けられない連結は、０〜２の範囲内の頻度であると仮定され、最適な値は、実験によって決定され、尤度の値は、それに従って計算される。
【００７７】
尤度の値が低い（すなわち、負である）連結は、起こり得る誤りのインジケータである。単語が現れる連結の尤度の値は、単語のもっともらしさの値に組み合わせられる。もっともらしくない単語は、もっともらしさにおいて、改善が見られるか否かを調べるため、混乱しやすい単語のセットの要素によって置き換えられる。
【００７８】
図４Ａおよび図４Ｂは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。入力テキストは、工程１０で供給され、例えば、構文解析することによって、工程１１で解析される。工程１２において、入力テキストにおける連結の尤度が、解析される。工程１３において、テキスト内の最初の単語が選択され、工程１４において、この単語のもっともらしさが計算される。工程１５において、全ての単語が用いられたか否かを確立するように入力テキストが調べられて、用いられていない場合、工程１６において次の単語が選ばれ、工程１４が繰り返される。
【００７９】
テキスト内の全ての単語のもっともらしさが計算される場合、単語は、工程１７において、もっともらしさを増大させることによって分類される。一番もっともらしくない単語が工程１８において選択され、工程１９において、もっともらしさが第１の閾値よりも小さくない場合、この方法は、工程２０で終了する。そうでない場合、この単語と混乱しやすい単語のセットは、工程２１において入手され、第１の混乱しやすい単語が工程２２において選択される。工程２３において、テキスト内で、対象の単語が、混乱しやすい単語と置換され、文脈における、混乱しやすい単語のもっともらしさは、工程２４において計算される。もっともらしさにおける改善が、工程２５において検出される（もっともらしさにおける変化が第２の閾値よりも大きい）場合、混乱しやすい単語は、工程２６において、ユーザに報告される。
【００８０】
工程２７において、混乱しやすい単語の全てが試されたか否かを調べ、そうでない場合、工程２８において、次に混乱しやすい単語が選択され、操作は、工程２３に戻る。そうでない場合、工程２９において、テキスト内の全ての単語が処理された否かを決定し、処理されていない場合、工程３０において、次の単語を入手し、操作は、工程１９に戻る。そうでない場合、この方法は、工程３１で終了する。
【００８１】
この実施形態において、各単語ｗ_ｉ（１≦ｉ≦ｎ、文の長さ）について、単語ｗ_ｉが現れる連結Ｄ（ｗ_ｉ）のセットを判定する。その後、各Ｄ（ｗ_ｉ）に、単語λ（ｗ_ｉ）の「もっともらしさ」と呼ばれる、その連結のセットの尤度の値を単一の値にマッピングする関数を割り当てる。単語は、もっともらしさに従って並べられる。一番もっともらしくない単語ｗ_λｍｉｎのもっともらしさが閾値より下になる場合、訂正を見出そうと試みる。ｗ_λｍｉｎを、順に、各ワードｃ_ｊ（ｗ_λｍｉｎ）（１≦ｊ≦ｍ、（Ｃｗ_λｍｉｎ）における混乱しやすい単語の数）と置換し、λ（ｃ_ｊ（ｗ_λｍｉｎ））を計算する。置換によって、単語のもっともらしさに改善が見られる、混乱しやすい単語が、ユーザに対して示唆される。混乱しやすい単語は、置換されることによって生み出す改善に従って、降順に提示され得る。
【００８２】
混乱しやすい単語のセットの要素は、混乱の尤度を表す、混乱しやすい値と関連付けられ得る。例えば、注釈付きの学習者のコーパスから、各単語が他の単語と誤って用いられる頻度の回数を入手することができ、実際の単語の綴り間違いが、音および／または綴りにおける、編集の長さに基づいて、値と関連付けられ得る。意味論上の関連性に基づく、混乱しやすい単語は、階層ネットワークにおけるパスの長さに基づいて、値と関連付けられ得る。
【００８３】
このような情報に対するアクセスがある場合、示唆は、混乱しやすさと、もっともらしさにおける改善とを単一得点、すなわち、置換可能性得点σ（ｗ_ｉ→ｃ_ｊ（ｗ_ｉ））に組み合わせることによって、さらに助けになる順序で提示され得る。
【００８４】
ユーザとのインタラクションのセッション中、示唆は、初期的に、ｗ_λｍｉｎを改善させるために、混乱しやすい単語のセットの要素と置換することによって、提供される。ユーザがこれらのうちの１つを受け入れる場合、置換の効果は、その単語に連結されている他の単語にまで伝播し得、ｗ_λｍｉｎの新たな値の計算から手順が繰り返される。伝播の手順は、置換された単語を元の単語とは異なる単語に再び取り付けることを含み得る。
【００８５】
孤立している状態で、ありそうもない連結は、より大きな構造の一部である可能性があり、逆もあり得る。例えば、「ｂｙａｃｃｉｄｅｎｔ」は、非常に強い連語であり、「ｂｙｔｈｅａｃｃｉｄｅｎｔ」は、ありそうになく、潜在的な誤りであると考えられ得る。後者を含む、より多くの、恐らくは正しい構造、例えば、「ｈｏｒｒｉｆｉｅｄｂｙｔｈｅａｃｃｉｄｅｎｔ」がある。
【００８６】
反対に、孤立した「ａｋｎｏｗｌｅｄｇｅ」は、典型的な学習者の誤りであり、「ａｋｎｏｗｌｅｄｇｅｏｆ」は、合理的な表現である。しかし、「ｌｅａｒｎａｋｎｏｗｌｅｄｇｅｏｆ」は、誤りであり得る。
【００８７】
これらの場合は、２つ以上の連結によって結合される、３以上の要素を含む依存性部分グラフの尤度の値を計算することによって処理され得る。実験的な観察は、多くの場合において、３つの要素を越えていくことが不必要であることを示す。上記の場合において、４つの要素の句の尤度は、より小さい単位の尤度まで追跡され得る。例えば、「ｈｏｒｒｉｆｉｅｄｂｙ」は強い連語なので、「ｈｏｒｒｉｆｉｅｄｂｙｔｈｅａｃｃｉｄｅｎｔ」は、ありそうであるが、「ｋｎｏｗｌｅｄｇｅ」は、「ｌｅａｒｎ」の目的語である可能性は低いので、他の要素に関わらず、「ｌｅａｒｎａｋｎｏｗｌｅｄｇｅｏｆ」はありそうにもない。
【００８８】
３つの要素のサブグラフの尤度の値は、各種の方法で計算され得る。１つの方法は、要素のうちの２つと、その間の連結を句の単位として処理し、この句の単位と第３の要素との間の尤度の測定基準を、２つの要素の場合において計算された方法と全く同じ方法で計算することである。
【００８９】
２つまたは３つの要素の連結の尤度の値を、もっともらしさの値へと組合せることは、各種の方式に従って実行され得る。３つの要素の句の寄与を、２つの要素の句の寄与よりも高く重み付けしてもよいし（平滑化方式）、または、２つの要素の句を含む３つの要素の句が頻度におけるある程度の制約および／または尤度を満たさない場合、２つの要素の句のみを考慮してもよい（バックオフ方式）。このような方式に対するパラメータは、経験的に、または、学習手順によって、判定され得るが、学習する特徴は、特定単語が文脈にあるかないかではなく、組合せの強度と頻度である。
【００９０】
基本的な方法が、検出されて訂正され得る誤りの範囲を増大させるため、いくつかの改善させる処理にかけられる。
【００９１】
単語のもっともらしさの計算は、その単語が任意の他の単語に付かないことを示す用語を含み得る。依存性の樹形図の根元になり得る定動詞（または、リストおよびタイトルにおける何らかの他の品詞）の場合を除き、付けられない単語は、常に、誤り（または誤った文法）を示す。従って、非常に低い尤度の値を、無意味な取り付けに割り当てることは、適切であり、これによって、誤り処理がトリガされる。
【００９２】
その後、この方法は、訂正を決定するため、以下に示すように、適用される必要がある。
【００９３】
上述したように、訂正されるテキストの構文解析は、言語全体にわたる優先度要素によって強く影響されない場合、単語は、品詞が適切であれば、概して、結び付けられる。反対に、単語が結び付けられない場合、誤りは、典型的には、同じ品詞の単語の置換によって、訂正可能でない。
【００９４】
誤りは、置換のうちの１つではなく、削除であり得る。例えば、名詞は、自動的な動詞の目的語として結び付けられない。多くの場合において、誤りは、前置詞の挿入によって訂正され得る。名詞が、弱い連結で動詞に結び付けられる場合でも、挿入が適切であり得る。いずれの場合においても、挿入は、誤りが訂正されたか否かをその尤度が判定する、新たな連結の作成を伴う必要がある。
【００９５】
結び付けられることがないことは、カテゴリー変更置換の誤りによっても引き起こされ得る。あるカテゴリーの単語の混乱しやすい単語のセットが、他のカテゴリーの単語を含む場合、置換は、入力の局所的な再構文解析を伴うことを必要とし得る。例えば、学習者が、「ｇｅｔｏｕｔｏｆｔｈｅｂｕｉｌｄｉｎｇｓａｆｅｔｙ」と書く場合、「ｂｕｉｌｄｉｎｇｓａｆｅｔｙ」というつながりが、（ありそうにもない）名詞句として構文解析され得る。名詞「ｓａｆｅｔｙ」についての混乱しやすい単語のセットが、副詞「ｓａｆｅｌｙ」を含む場合、再構文解析は、後者が、動詞「ｇｅｔｏｕｔ」の修飾語句であり、その目的語が、「ｓａｆｅｔｙ」ではなく、「ｂｕｉｌｄｉｎｇ」であることを確立する必要がある。
【００９６】
本発明の方法は、例えば、各単語のもっともらしさの値について、閾値を設定しないことによって、文脈に対して高感度な類義語辞典としても用いられ得る。この場合においては、全ての単語が、もっともらしさに関わらず、置換の候補である。また、置換が、もっともらしさを改善する必要はない。例えば、もっともらしさの値が閾値を越える場合、潜在的な置換が示唆され得る。
【００９７】
本発明の方法は、任意の適切な装置によって行われ得るが、実際には、この方法を行うようにコンピュータを制御するプログラムによってプログラムされたコンピュータによって行われる可能性が高い。図１に、制御部として中央演算処理装置（ＣＰＵ）１を用いる、適切なコンピュータシステム１００を示す。ＣＰＵ１には、例えば、ディスクドライブの形のプログラムメモリ２が接続され、プログラムメモリ２は、磁気ディスクまたは光ディスクの形の格納媒体を含み、また、格納媒体は、ＣＰＵ１を制御するプログラムを含む。プログラムメモリ２が、第１のデータベース３および第２のデータベース４を含んでもよい。
【００９８】
例えば磁気ディスクに格納される第１のデータベース３は、連結および関連付けられる尤度の値を含む。例えば、他の磁気ディスク、または、同じ磁気ディスクに、同様に格納される、第２のデータベース４は、混乱しやすい単語のセットを含む。ランダムアクセスメモリ（ＲＡＭ）５の読み出し／書き込みは、パラメータの一時的な値を保持する、通常の方法で提供される。
【００９９】
ＣＰＵ１には、誤り、不自然な表現などについて調べられるテキストの入力を可能にする入力インターフェース６が接続される。例えば、テキストは、キーボードを介して手動で入力されてもよいし、（例えば、磁気ディスクまたは光ディスクで）既に機械読取り可能な形であってもよい。ＣＰＵ１には、出力インターフェース７も接続され、ユーザがこの方法の出力をモニタすることが可能になる。また、この方法を用いてインタラクトすることを可能にするため、インターフェース６および７が、ユーザに、データ、コマンドなどを入力し、この方法の動作をモニタする設備を提供する。例えば、もっともらしさが改善した混乱しやすい単語の選択が提供される場合、これらは、出力インターフェース７の一部または全てを形成するディスプレイ上に表示され、ユーザは、入力インターフェース６の全てまたは一部を形成する、キーボードおよび／またはマウスを適切に操作することによって、混乱しやすい単語のうちの１つを選択し得る。
【０１００】
本発明は、連結と関連付けられた尤度値とともに、単語間の連結を含むデータベースを提供し、このような連結が正確であるか、または、慣用語法にかなっているかについての尤度の尺度を提供する。尤度の値は、例えば、その言語のネイティブスピーカーによって生成されたテキストの大部分を解析することによって得られる、連結が現れる頻度に基づく。テキストのセクションを、セクション内の１つ以上の単語の起こり得る誤りまたは不自然な使用について調べるため、テキストが、まず解析されて単語間の連結が確立される。解析されたテキストにおける連結の尤度は、データベースから判定される。もっともらしさの値は、その単語が現れる連結の尤度の値を組み合わせることによって、解析されたテキスト内の各単語について計算される。単語は、見出しの単語と混乱しやすい単語のセットを含む他のデータベースに見出しを付けるために用いられる。混乱しやすい単語の各々は、順に選択され、見出しの単語の連結において置換される。これらの新たな連結についての尤度の値が判定され、混乱しやすい単語についてのもっともらしさの値が計算される。誤りを訂正する実施形態において、もっともらしさが閾値より低くなる単語について、混乱しやすい単語が試され、もっともらしさを改善する混乱しやすい単語がユーザに報告される。コンテキストに対して高感度な類語辞典の実施形態において、混乱しやすい単語が、全ての単語について試され、もっともらしさの値が第２の閾値を超える混乱しやすい単語が報告され得る。
【０１０１】
本発明を英文に適用した実施形態を説明してきたが、本発明は英語に限定されず、その他の原語にも適用される。
【０１０２】
なお、英語以外の言語（例えば日本語）から、翻訳によって英語テキストのセクションを生成してもよい。
【０１０３】
また、印刷された文献に記載されるテキストを光学文字認識システムを用いて読取って、テキストのセクションを生成してもよい。
【０１０４】
【発明の効果】
本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置が提供される。
【０１０５】
本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤りおよび様々な他のタイプの誤りを処理することができる。
【図面の簡単な説明】
【図１】図１は、本発明の実施形態における装置の模式図である。
【図２】図２は、「Ｌｏｖｅｉｓｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｃｏｎｄｉｔｉｏｎｆｏｒｍａｒｒｉａｇｅ」という文の依存性構造を示す図である。
【図３】図３は、尤度の値を連結と関連付ける、第１のデータベースの一部分を示す図である。
【図４Ａ】図４Ａは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
【図４Ｂ】図４Ｂは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
【符号の説明】
１ＣＰＵ
２プログラムメモリ
３第１のデータベース
４第２のデータベース
５ＲＡＭ
６入力インターフェース
７出力インターフェース

Claims

第１の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第１の単語または句の選択を訂正または改善させる装置であって、
前記第１の言語の単語または句の間の連結に関する第１のデータベースと、
前記第１の言語の単語または句の各々が、混乱しやすい単語または句のセットと関連付けられている、第２のデータベースと、
前記第１のデータベースと、前記第２のデータベースとに基づいて、前記第１の単語または句の選択の訂正または改善を制御する制御部とを備え、
前記第１のデータベースにおける前記連結が、前記第１の言語のテキストの本文において前記連結が現れる頻度と、前記第１の言語のテキストの本文において、前記単語または句のうちの１つを含むとともに同じ依存性関係を有する他の連結の各々またはすべてが現れる頻度とに基づいて設定された少なくとも１つの尤度の値を有するものであり、前記依存性関係が、一方の単語または句が他方の単語または句の主語である関係、一方の単語または句が他方の単語または句の目的語である関係、一方の単語または句が他方の単語または句の修飾語である関係のいずれかであり、
前記制御部は、
前記テキストのセクションの前記第１の単語または句と、第２の単語または句との間に第１の連結を確立するために該テキストのセクションを解析する解析手段と、
前記第１の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第１の単語または句の第１のもっともらしさの値を計算する第１計算手段と、
前記第２のデータベースから、前記テキストのセクションにおける前記第１の単語または句と混乱しやすい単語または句を、該第１の単語または句との置換候補として選択する第１選択手段と、
前記第２の単語または句と前記混乱しやすい単語または句との第２の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第２のもっともらしさの値を計算する第２計算手段と、
該計算された第２のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第２選択手段と、
該第２選択手段にて選択された前記混乱しやすい単語または句を出力する出力手段と、
を有することを特徴とする、装置。
請求項１に記載の装置によって、第１の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第１の単語または句の選択を訂正または改善させる方法であって、
前記解析手段によって、前記テキストのセクションの前記第１の単語または句と、第２の単語または句との間に第１の連結を確立するために該テキストのセクションを解析する解析工程と、
前記第１計算手段によって、前記第１の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記第１の単語または句の第１のもっともらしさの値を計算する第１計算工程と、
前記第１選択手段によって、前記第２のデータベースから、混乱しやすい単語または句を、前記テキストのセクションにおける前記第１の単語または句と混乱しやすい単語または句を、該第１の単語または句との置換候補として選択する第１選択工程と、
前記第２計算手段によって、前記第２の単語または句と前記混乱しやすい単語または句との第２の連結に、前記第１の連結の前記尤度の値を単一の値にマッピングする所定の関数を適用することによって、前記混乱しやすい単語または句の第２のもっともらしさの値を計算する第２計算工程と、
前記第２選択手段によって、前記計算された第２のもっともらしさの値に基づいて、前記混乱しやすい単語または句を選択する第２選択工程と、
前記出力手段によって、前記第２選択工程にて選択された前記混乱しやすい単語または句を出力する出力工程と、
を包含することを特徴とする、方法。
前記第１のデータベースにおける前記連結の前記尤度の値が、相互情報、Ｔ得点、ＹｕｌｅのＱ係数、および対数尤度のうちの少なくとも１つを含む、請求項２に記載の方法。
前記解析工程は、前記テキストのセクションにおいて、複数の第１の単語または句の複数の第１の連結を確立する工程を含み、前記第１計算工程は、該第１の連結の各々の前記第１の単語または句の各々について行われ、前記第１選択工程、前記第２計算工程および前記第２選択工程は、該第１の連結の各々の前記第１の単語または句の各々について行われる、請求項２に記載の方法。
前記解析工程において、前記テキストのセクションにおいて隣接していない単語または句の間に前記第１の連結を確立する、請求項２に記載の方法。
前記第１選択工程が、単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含み、前記第１選択工程、前記第２計算工程および前記第２選択工程が、該混乱しやすい単語または句の各々について行われる、請求項２に記載の方法。
前記第１のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、該第１のもっともらしさの値が第１の閾値よりも低い場合、前記第１選択工程、前記第２計算工程および前記第２選択工程が行われる、請求項２に記載の方法。
前記第２のもっともらしさの値は、もっともらしさの程度が大きくなるほど大きくなっており、前記第２選択工程において、該第２のもっともらしさの値の各々または該第２のもっともらしさの値が、第２の閾値を越える場合に、前記混乱しやすい単語または句が選択される、請求項２に記載の方法。
前記第２選択工程の後に、前記テキストのセクションにおける第１の単語を、該第２選択工程にて選択された前記混乱しやすい単語と置換する工程をさらに含む、請求項２に記載の方法。
第２の言語から、翻訳によってテキストのセクションを生成する工程をさらに含む、請求項２に記載の方法。
印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含む、請求項２に記載の方法。
請求項２に記載の方法をコンピュータに実行させるための、コンピュータプログラム。
請求項１２に記載のコンピュータプログラムが格納された、コンピュータ読取り可能な格納媒体。