JP5638948B2

JP5638948B2 - インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善

Info

Publication number: JP5638948B2
Application number: JP2010518809A
Authority: JP
Inventors: ザンビル、ヤエルカロブ; ザンビル、アビネール
Original assignee: ジンジャーソフトウェア、インコーポレイティッド
Priority date: 2007-08-01
Filing date: 2008-07-31
Publication date: 2014-12-10
Anticipated expiration: 2028-07-31
Also published as: US9026432B2; US20150142422A1; CA2731899C; CN102165435A; JP2015057716A; WO2009016631A2; CN101802812A; EP2183685A2; US20110184720A1; US20100286979A1; US20140122062A1; JP2010535377A; CN102165435B; WO2009016631A3; US8645124B2; CN101802812B; CA2694327A1; US20150186336A1; EP2183685A4; CA2731899A1

Description

〔関連する出願の参照〕
米国仮特許出願第６０／９５３，２０９号（２００７年８月１日出願、名称：文脈に依存したエラーの検出および修正のための方法）を、ここに参照し、その開示内容は、参照したことによって本明細書に組み込まれ、そして、３７ＣＦＲ１．７８（ａ）（４）および（５）（ｉ）に従って、その仮特許出願の優先権が主張されている。

〔発明の分野〕
本発明は、概しては、コンピュータを利用した言語修正に関する。

この技術分野における現在の状況は、以下の刊行物に示されていると考える：
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号、第4,674,065号、米国公開特許出願第2006/0247914号、および、第2007/0106937号。

本発明は、コンピュータを利用した言語修正に関する、改善されたシステムおよびファンクショナリティ(functionality、機能、機能部）を提供しようとするものである。

従って、本発明の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器(alternative generator、代替品生成器)を有し、該代替生成器は、入力文に基づいて、テキストベースの表現(representation)を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替(alternative、代替品)を与えるものであり、当該システムは、選択器（セレクタ）を有し、該選択器は、インターネットコーパス(internet corpus)に少なくとも部分的に基づいて、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、当該システムは、修正生成器(correction generator、修正品生成器)を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力(correction output、修正品出力)を提供するように作動するものである。

好ましくは、該選択器は、次の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善(vocabulary enhancement)である。

本発明の好ましい実施形態によれば、該選択器は、次の修正機能のうちの少なくとも２つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、該選択器は、次の修正の時間的順序のうちの少なくとも１つに基づいて、該選択を行うように作動するものであり、その修正の時間的順序が、誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること、および、誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、である。

追加的または代替的には、入力文（入力センテンス）が、次のファンクショナリティのうちの１つによって提供されるものであり、該ファンクショナリティが、ワードプロセッサのファンクショナリティ、機械翻訳のファンクショナリティ、音声テキスト変換のファンクショナリティ、光学式文字認識のファンクショナリティ、および、インスタントメッセージのファンクショナリティであり、かつ、該選択器が、次の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善である。

好ましくは、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。追加的または代替的には、文法修正のファンクショナリティが、句読点、動詞活用、単数形／複数形、冠詞、および、前置詞のうちの、少なくとも１つを修正するファンクショナリティを含んでいる。

本発明の好ましい実施形態によると、文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも１つを含んでいる。

好ましくは、選択器が、文脈ベースのスコアリングのファンクショナリティを有しており、このファンクショナリティが、インターネットコーパス内での、文脈素性シーケンス(contextual feature-sequence)（ＣＦＳ）の出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する。追加的には、文脈ベースのスコアリングのファンクショナリティが、さらに、インターネットコーパス内でのＣＦＳの規格化（「正規化」ともいう。以下、同様である。）された出現頻度に少なくとも部分的に基づいて、複数の代替をランク付けするように作動する。

本発明における別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティ、のうちの少なくとも１つを含んでおり、かつ、当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティのうちの、少なくとも１つと協働するとともに、インターネットコーパスを使用するものである。

好ましくは、文法修正のファンクショナリティが、句読点、動詞活用、単数形／複数形、冠詞、および、前置詞のうちの、少なくとも１つを修正するファンクショナリティを含んでいる。追加的または代替的には、文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも１つを含んでいる。

本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの少なくとも２つを有し、かつ、該文脈素性シーケンスのファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの、少なくとも１つと協働するとともに、インターネットコーパスを使用するものである。

好ましくは、当該コンピュータを利用した言語修正システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティ、のうちの少なくとも３つを有し、かつ、文脈素性シーケンスのファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの、少なくとも１つと協働するとともに、インターネットコーパスを使用するものである。

本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、また、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、前記文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティを有し、かつ、前記文脈素性シーケンスのファンクショナリティが、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティと協働するとともに、インターネットコーパスを使用するものである。

好ましくは、修正生成器が、修正言語生成器を含んでおり、この修正言語生成器が、選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。

本発明のさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、言語入力に基づいて、テキストベース(text-based)の表現を生成し、該表現は、その文中の複数の単語のそれぞれのための複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の複数の単語の少なくともいくつかのための前記複数の代替のうちから選択された代替同士の間の関連性に、少なくとも部分的に基づいて、少なくとも該言語入力の中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。

好ましくは、言語入力が、入力文、および、入力テキストのうちの、少なくとも１つを含んでいる。追加的または代替的には、言語入力が音声であり、生成器が、音声による言語入力を、テキストベースの表現へと変換するものであり、該表現が、言語入力の中の複数の単語のための複数の代替を与えるものである。

本発明の好ましい実施形態によれば、言語入力が、テキスト入力、光学式文字認識のファンクショナリティからの出力、機械翻訳のファンクショナリティからの出力、および、ワードプロセッシングのファンクショナリティからの出力のうちの、少なくとも１つであり、かつ、生成器が、テキストによる前記言語入力を、その言語入力の中の複数の単語のための複数の代替を与えるテキストベースの表現へと変換する。

好ましくは、選択器が、次の修正機能のうちの少なくとも２つに基づいて、選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、選択器が、次の修正の時間的順序のうちの少なくとも１つに基づいて、選択を行うように作動するものであり、該修正の時間的順序が、誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること、および、誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあることである。

本発明の好ましい実施形態によれば、言語入力が音声であり、かつ、選択器が、次の修正機能のうちの少なくとも１つに基づいて、選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善である。

好ましくは、選択器が、次の機能のうちの少なくとも２つを実行することによって、前記選択を行うように作動するものであり、該機能が、初期選択のために、前記言語入力の中の前記複数の単語の全てよりも少ない単語を含んだ、単語または単語の組み合わせからなる第１のセットを選択すること、その後、単語または単語の組み合わせからなる前記第１のセットの構成要素を順序付けし、選択における優先順位を設定すること、および、その後、単語からなる前記第１のセットの構成要素のための前記複数の代替からの選択を行ない、前記選択に影響を与える文脈に沿って、前記複数の単語から他の単語を選ぶこと（ただし、全ては選らばないこと）である。代替的または追加的には、選択器が、次の機能を実行することによって選択を行うように作動するものであり、該機能が、少なくとも２つの単語を有する構成要素に関する選択を行う際に、少なくとも２つの単語の一方のための複数の代替のそれぞれと結合している、少なくとも２つの単語の他方のための複数の代替のそれぞれを評価することである。

本発明の好ましい実施形態によれば、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器(misused-word suspector)を有し、該誤用単語調査器は、言語言語入力の中の少なくとも大部分の単語を、その言語入力の文脈内でのそれらの適合度に基づいて評価するものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に、少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

好ましくは、当該コンピュータを利用した言語修正システムは、代替生成器を有し、該代替生成器は、前記言語入力に基づいて、テキストベースの表現を生成し、該表現は、該言語入力の中の前記少なくとも大部分の単語のうちの少なくとも１つの単語のための、複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の前記少なくとも大部分の単語のうちの前記少なくとも１つの単語のそれぞれのための前記複数の代替の、少なくともそれら代替のなかから選択するためのものであり、かつ、前記修正生成器が、前記選択器によって行われた選択に基づいて、前記修正出力を提供するように作動するものである。代替的または追加的には、当該コンピュータを利用した言語修正システムは、疑わしい単語出力の指示器(suspect word output indicator)を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、誤用されている単語としてどの程度疑われているのかを示すものである。

本発明の好ましい実施形態によれば、修正生成器が、自動修正言語生成器(automatic corrected language generator)を有し、この自動修正言語生成器が、前記調査器(suspector)によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである。

好ましくは、言語入力が音声であり、かつ、前記選択器が、次の修正機能のうちの少なくとも１つに基づいて、選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善、である。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器を有し、該調査記は、言語入力の中の単語を評価するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも１つが、インターネットコーパスにおける該言語入力の中の前記単語の文脈素性と一致しており、当該システムは、選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、当該システムは、代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの１つ１つと比較して、前記疑わしい単語に優先的に付勢（バイアス）を加えるものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、入力に基づいて、該言語入力の中の少なくとも１つの単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記少なくとも１つの単語のそれぞれ、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された前記少なくとも１つの単語のための前記複数の代替のうちの１つ１つと比較して、前記少なくとも１つの単語に優先的に付勢を加えるものであり、前記付勢は、前記入力を与える人の不確実さを示す入力不確実性メトリック(input uncertainly metric)の関数であり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、不正確な単語の調査器を有し、該不正確な単語の調査器は、言語入力の中の少なくとも大部分の単語を評価するものであり、該調査器は、前記入力を与えた人の不確実さを示す入力不確実性メトリックに少なくとも部分的に反応し、該調査器は、不正確であると疑われる単語の出力を提供するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記不正確であると疑われる単語の出力によって特定された不正確であると疑われる単語のための、複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、不正確であると疑われる単語のそれぞれ、および、前記代替生成器によって生成された複数の代替のなかからの選択を行うものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、スペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの、少なくとも１つを有し、これらモジュールは、複数単語の入力を受け取りかつ修正出力を提供するものであり、前記のスペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの少なくとも１つは、それぞれ、音声の類似性のファンクショナリティと文字列の類似性のファンクショナリティとを含み、音声の類似性のファンクショナリティは、代替単語候補生成器、および、選択器を備えており、該代替単語候補生成器は、入力の中の単語に対する音声の類似性に基づいて、代替単語を提示するとともに、音声の類似性のメトリック(metric、距離）を示すように作動するものであり、文字列の類似性のファンクショナリティは、前記入力の中の単語に対する文字列の類似性に基づいて、代替単語を提示するとともに、各代替単語に関する文字列の類似性のメトリックを示すように作動するものであり、前記選択器は、前記音声の類似性のメトリックおよび前記文字列の類似性のメトリックを、文脈ベースの選択のファンクショナリティとともに使用することによって、前記出力の中の単語、または、前記代替単語候補生成器によって提示された代替単語候補のいずれか一方を選択するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、当該システムは、素性特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる素性を特定するように作動するものであり、当該システムは、代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、当該システムは、素性出現のファンクショナリティを有し、該ファンクショナリティは、コーパスを使用するとともに、前記代替を含んでいるさまざまな素性を、コーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、当該システムは、選択器を有し、該選択器は、前記出現出力を使用して修正出力を提供するものであり、前記素性特定のファンクショナリティが、素性フィルタリングのファンクショナリティを有し、この素性フィルタリングのファンクショナリティが、次のファンクショナリティのうちの少なくとも１つを含んでいる。エラーがあると疑われる素性を除去するためのファンクショナリティ。前記複数単語の入力に対する以前の修正反復において導入された単語を含んでいる素性、および、所定の信頼レベル閾値を下回る信頼レベルを有している素性に対して、マイナスの付勢を印加するためのファンクショナリティ。所定の頻度閾値を上回る出現頻度を有している他の素性内に含まれる素性を除去するためのファンクショナリティ。

好ましくは、選択器が、下記の修正機能のうちの少なくとも２つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、選択器は、次の修正の時間的順序のうちの少なくとも１つに基づいて、前記選択を行うように作動するものである。誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること。誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること。

本発明の好ましい実施形態によれば、言語入力が音声であり、上記選択器が、文法修正、誤用されている単語の修正、および、語彙改善、という修正機能のうちの少なくとも１つに基づいて、上記選択を実施するように機能する。

好ましくは、上記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。

本発明の好ましい実施形態によれば、選択器が、さらに、ユーザーの入力不確実性メトリックに少なくとも部分的に基づいて、選択を行うように作動する。追加的には、選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する。追加的または代替的には、選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する。

本発明のさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、当該システムは、素性特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる素性を特定するように作動するものであり、当該システムは、代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、当該システムは、出現のファンクショナリティを有し、該ファンクショナリティは、コーパスを使用するとともに、前記代替を含んでいる素性を、コーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、当該システムは、修正出力生成器を有し、該修正出力生成器は、前記出現出力を使用して修正出力を提供するものであって、前記素性特定のファンクショナリティが、次のファンクショナリティのうちの少なくとも１つを有しており、該ファンクショナリティが、Ｎ−グラム特定ファンクショナリティ、共起性特定(co-occurrence identification)ファンクショナリティ、および、〔スキップ−グラム特定のファンクショナリティ、スイッチ−グラム特定のファンクショナリティ、および、ユーザによって以前に利用された素性を特定するファンクショナリティのうちの、少なくとも１つのファンクショナリティ〕である。

本発明における別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の少なくとも大部分の単語を、この言語入力の文脈に対するそれらの適合度に基づいて評価するものであり、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

好ましくは、当該コンピュータを利用した言語修正システムは、さらに、代替生成器を有し、該代替生成器は、前記言語入力に基づいて、テキストベースの表現を生成し、該表現は、該言語入力の中の前記少なくとも大部分の単語のうちの少なくとも１つの単語のための、複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の前記少なくとも大部分の単語のうちの前記少なくとも１つの単語のそれぞれのための前記複数の代替の、少なくともそれら代替のなかから選択するためのものであり、かつ、修正生成器が、選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。

本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、さらに、疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、文法的なエラーを有している単語としてどの程度疑われているのかを示すものである。

好ましくは、修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動する。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも１つが、該言語入力の中の前記単語の文脈素性と一致しており、当該システムは、選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、当該システムは、代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの１つ１つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

好ましくは、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、さまざまな代替的な修正についての文脈ベースのスコアリングを有し、該スコアリングは、インターネットコーパス内での、文脈素性シーケンス（ＣＦＳ）の出現頻度に少なくとも部分的に基づいている。

好ましくは、当該コンピュータを利用した言語修正システムは、さらに、次のファンクショナリティのうちの少なくとも１つを有しており、該ファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、
文法修正のファンクショナリティ、および、語彙改善のファンクショナリティであって、これらのファンクショナリティが、前記の文脈ベースのスコアリングと協働するものである。

本発明の好ましい実施形態によれば、文脈ベースのスコアリングが、さらに、インターネットコーパス内での規格化されたＣＦＳの出現頻度に少なくとも部分的に基づいている。追加的または代替的には、文脈ベースのスコアリングは、さらに、ＣＦＳの重要性のスコアに少なくとも部分的に基づいている。追加的には、ＣＦＳの重要性のスコアが、〔品詞タギングおよび構文解析のファンクショナリティの作用、ＣＦＳの長さ、ＣＦＳにおける各単語の出現頻度、および、ＣＦＳのタイプ〕のうちの少なくとも１つの関数である。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、語彙改善のファンクショナリティを有し、該ファンクショナリティは、表現の悪い単語を特定するファンクショナリティと、代替的な語彙改善案を生成するファンクショナリティと、インターネットコーパス内での文脈素性シーケンス（ＣＦＳ）の出現頻度に少なくとも部分的に基づいた、文脈ベースのスコアリングのファンクショナリティとを含んでおり、前記の代替的な語彙改善案を生成するファンクショナリティが、シソーラスの前処理のファンクショナリティを含んでおり、それが、代替的な語彙改善案を生成するように作動するものである。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、入力文に基づいて、テキストベースの表現を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから選択するためのものであり、当該システムは、信頼レベル割り当て器を有し、該信頼レベル割り当て器は、前記複数の代替から選択された代替に対して、信頼レベルを割りあてるように作動するものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づくとともに、前記信頼レベルに少なくとも部分的に基づいて、修正出力を提供するように作動するものである。

好ましくは、複数の代替が、文脈素性シーケンス（ＣＦＳ）に基づいて評価され、かつ、信頼レベルが、下記のパラメーターのうちの少なくとも１つに基づくものであって、該パラメーターが、〔選択されたＣＦＳの、数、タイプ、および、スコアリング〕、〔該ＣＦＳの文脈における、前記複数の代替の出現頻度の統計的な有意性の測定値〕、〔前記ＣＦＳのそれぞれの優先メトリック(preference metric)、および、前記複数の代替の単語の類似性スコアに基づく、前記複数の代替の１つの選択における、一致の程度〕、〔第１の所定の最小閾値を超える、前記複数の代替の１つの、非文脈的な類似性スコア〕、および、〔第２の所定の最小閾値を超えるＣＦＳスコアを有するとともに、第３の所定の閾値よりも大きい優先スコア(preference score)を有する前記ＣＦＳの数によって示される、利用可能な文脈データの範囲〕である。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、句読点エラー調査器を有し、該調査器は、言語入力の中の少なくともいくつかの単語および句読点を、前記言語入力の素性グラム(feature-grams)におけるインターネットコーパス内での出現頻度に基づいた前記言語入力の文脈内での、前記単語および句読点の適合度に基づいて評価するものであり、当該システムは、修正生成器を有し、該修正生成器は、少なくとも部分的に、前記調査器によって行われた評価に基づいて、修正出力を提供するように作動するものである。

好ましくは、修正生成器が、欠落している句読点を修正するファンクショナリティ、余分な句読点を修正するファンクショナリティ、および、句読点を置換修正するファンクショナリティのうちの、少なくとも１つを有している。

本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的要素エラーの調査器を有し、該調査記は、言語入力の中の少なくともいくつかの単語を、前記言語入力の素性グラムにおけるインターネットコーパス内での出現頻度に基づいた、前記言語入力の文脈に対する前記単語の適合度に基づいて評価するものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するものである。

好ましくは、修正生成器が、欠落している文法的要素を修正するファンクショナリティ、余分な文法的要素を修正するファンクショナリティ、および、文法的要素を置換修正するファンクショナリティのうちの、少なくとも１つを有している。追加的または代替的には、文法的要素が、冠詞、前置詞、および接続詞のうちの１つである。

本発明は、後述する詳細な説明によって、より完全に理解および認識されるはずである。この詳細な説明では、以下に示す図面が用いられている。

図１は、本発明の好ましい実施形態に従って構築され、この実施形態に従って動作する、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティを示す、簡略化されたブロック図である。図２は、図１に示したシステムおよびファンクショナリティにおいて好適に使用される、スペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。図３は、図１に示したシステムおよびファンクショナリティにおいて好適に使用される、誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。図４は、図１に示したシステムおよびファンクショナリティにおいて好適に使用される、語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。図５は、図１に示したシステムおよびファンクショナリティにおいて好適に使用される、文脈素性シーケンス（ＣＦＳ）のファンクショナリティを例示する、簡略化されたブロック図である。図６Ａは、本発明の好ましい実施形態に従う、図２に示したファンクショナリティの一部を形成するスペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。図６Ｂは、本発明の好ましい実施形態に従う、図３に示したファンクショナリティの一部を形成する誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。図６Ｃは、本発明の好ましい実施形態に従う、図４に示したファンクショナリティの一部を形成する語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。図７Ａは、図２および図３に示したファンクショナリティにおいて有用な、代替的な修正を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。図７Ｂは、図４に示したファンクショナリティにおいて有用な、代替的な改善を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。図８は、図２に示したスペル修正のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリング（好ましくは、インターネットコーパスを利用したもの）に関するファンクショナリティを例示する、簡略化されたフローチャートである。図９は、図３、図１０および図１１に示した誤用されている単語および文法を修正するファンクショナリティ、および、図４に示した語彙改善のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリング（好ましくは、インターネットコーパスを利用したもの）に関するファンクショナリティを例示する、簡略化されたフローチャートである。図１０は、欠落している冠詞、前置詞、および句読点を修正するファンクショナリティにおける動作を例示する、簡略化されたフローチャートである。図１１は、余分な冠詞、前置詞、および句読点を修正するファンクショナリティにおける動作を例示する、簡略化されたフローチャートである。

まず、図１について説明する。この図は、本発明の好ましい実施形態に従って構築され、この実施形態に従って動作する、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティ（機能、または、機能部）を示す、簡略化されたブロック図である。図１に示すように、修正されるテキストは、１つまたは複数のソースから、言語修正モジュール１００に供給される。このソースには、ワードプロセッサのファンクショナリティ１０２、機械翻訳のファンクショナリティ１０４、音声テキスト変換のファンクショナリティ１０６、光学式文字認識のファンクショナリティ１０８、および、他の任意のテキストソース１１０（例えば、インスタントメッセージまたはインターネット）が含まれる（ただし、これらに限られるわけではない）。

言語修正モジュール１００は、好ましくは、スペル修正のファンクショナリティ１１２、誤用されている単語および文法を修正するファンクショナリティ１１４、および、語彙改善のファンクショナリティ１１６を含んでいる。

本発明における際立った特徴点は、スペル修正のファンクショナリティ１１２、誤用されている単語および文法を修正するファンクショナリティ１１４、および語彙改善のファンクショナリティ１１６のそれぞれが、インターネットコーパス１２０を利用している文脈素性シーケンス（ＣＦＳ）のファンクショナリティ１１８と、相互作用していることにある。

この明細書に関しては、文脈素性シーケンス（すなわちＣＦＳ）は、Ｎ−グラム、スキップ−グラム、スイッチ−グラム、共起性(co-occurrences)、「ユーザによって以前に利用された素性(features)」およびこれらの組み合わせ（これらについては、後に、図５を用いて定義する）として、定義されている。なお、後述する実施例の大部分は、Ｎ−グラムだけを使用しているが、これは、説明を簡単かつ明確にするためである。当然のことながら、本発明は、これに限定されるわけではない。

インターネットコーパスの使用は、極めて大量の文書素性シーケンスに関する重要な統計的データを提供するものであり、これにより、言語修正のファンクショナリティが非常に堅固となる。この点において、インターネットコーパスを利用することは重要である。実際に、２つ以上の単語の組み合わせは、従来の非インターネットコーパスにおいては非常に乏しい統計値しか有していないけれども、インターネットコーパスにおいては、満足できる（すなわち良好な）統計値を有している。

インターネットコーパスは、自然言語テキストからなる大量の代表サンプルである。これらのサンプルは、通常、インターネットを巡回し、ウェブサイトのページからテキストを収集することによって、ワールド・ワイド・ウェブから収集される。好ましくは、動的なテキスト（例えば、チャットの記録、ウェブフォーラムからのテキスト、および、ブログからのテキスト）も収集される。収集されたテキストは、自然言語テキストの統計を蓄積するために使用される。インターネットコーパスのサイズは、例えば、１兆語（1,000,000,000,000語）であり、あるいは、数兆語となることもある。これとは対照的に、より一般的なコーパスのサイズは、せいぜい２０億語である。ウェブコーパスのようなウェブ上の小さなサンプルは、１００億語を含んでいる。この値は、検索エンジン（例えば、ＧＯＯＧＬＥ（登録商標））によってインデックス付けされるウェブテキストの１％よりも、はるかに少ない。本発明は、ウェブコーパスなどのウェブ上のサンプルを用いて機能することも可能である。しかしながら、好ましくは、本発明は、テキストの修正という目的のために、ウェブ上におけるはるかに大きなサンプルを利用する。

インターネットコーパスは、好ましくは、以下の２つの方法のいずれかにおいて使用される。

検索クエリーとしてＣＦＳを用いて、１つまたは複数のインターネット検索エンジンを使用する。このようなクエリーのそれぞれに関する結果数は、このＣＦＳの出現頻度を与える。

インターネットを巡回し、インデックス付けをすることによって、時間をかけてローカルインデックスを構築する。各ＣＦＳの出現数は、ＣＦＳの頻度を与える。このローカルインデックスについては、検索クエリーと同様に、インターネットにおける選択可能な部分に基づくものとすることが可能であり、さらに、これらの選択可能な部分によって特定することも可能である。同様に、インターネットにおける利用と一般的な言語利用との間の不調和を修正するために、インターネットの一部について、排除するか、または、適切に重み付けすることも可能である。このような方法では、言語利用に関して信頼することのできるウェブサイト（例えば、ニュース用または政府用のウェブサイトなど）に対して、他のウェブサイト（例えば、チャットまたはユーザフォーラムなど）に比して、より強い重み付けを与えることが可能である。

好ましくは、入力テキストは、最初に、スペル修正のファンクショナリティ１１２に供給され、その後、誤用されている単語および文法を修正するファンクショナリティ１１４に供給される。この入力テキストについては、任意の好適なテキストとすることが可能である。ワードプロセッシングとの関連においては、入力テキストは、好ましくは文書の一部（例えば１つの文）である。語彙改善のファンクショナリティ１１６は、好ましくは、ユーザの選択により、テキスト（スペル修正のファンクショナリティ１１２、および、誤用されている単語および文法を修正するファンクショナリティ１１４に対して、既に供給されているテキスト）に作用する。

好ましくは、言語修正モジュール１００は、修正されたテキストを含む出力を提供するとともに、さらに、このテキストに対し、修正された単語（または単語のグループ）のそれぞれに関する、１つまたは複数の推奨される代替を添付する。

ここで、図２を参照すると、同図は、図１に示したシステムおよびファンクショナリティにおいて好適に使用されるスペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。この図２に示すように、スペル修正のファンクショナリティは、好ましくは、以下のステップを含んでいる。
入力テキストにおけるスペルエラーを特定するステップ。このステップでは、好ましくは、インターネットにおいて一般的に使用されている適切な名称および単語によって改善された、標準的な辞書を使用する。
スペルエラーをクラスタにグループ化するステップ。このクラスタは、スペルの間違いを有する１つまたは複数の単語（連続している（またはほぼ連続している）もの）を含むことが可能である。その後、修正するためのクラスタを選択する。この選択では、最も大量の修正文脈データを包含しているクラスタを見つけることが試みられる。選択されるクラスタは、その近傍に、正しいスペルの単語からなる最も長いシーケンス（単数または複数）を有していることが好ましい。これらのステップについては、図６Ａを用いて、後により詳細に説明する。
各クラスタに関し、１つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、好ましくは、図７Ａを用いて後に説明するアルゴリズムに基づくものである。
さまざまな代替的な修正に対して、好ましくはインターネットコーパスを用いて、単語の類似性に基づく、非文脈的(non-contextual)なスコアリング、および、文脈的(contextual)なスコアリングを少なくとも部分的に実施するステップ。これらのスコアリングについては、好ましくは、スペル修正における代替スコアリング・アルゴリズム（図８を用いて後に説明する）に基づいて実施する。
各クラスタに関し、上述のスコアリングに基づいて、１つのスペル修正を選択し、最も好ましいスペル修正の代替を表示するステップ。
スペルに間違いのあるクラスタごとに、１つのスペル修正を組み込んでいる、修正されたテキストの出力を提供するステップ（スペルに間違いのあるクラスタは、このスペル修正によって置き換えられる）。

以下の実施例を検討することによって、図２に示したファンクショナリティの作用を、より深く理解することが可能である。

以下の入力テキストが受領される。
Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate.

以下の単語が、スペルエラーとして特定される。
ecudation，assits；strenghing；eksersiv；inprove；strenth；helth；becals；thay；ea.

なお、「fate」については、これが辞書にあるために、スペルエラーとして特定されていないことに注意されたい。

表１に示すように、以下のクラスタが選択される。

クラスタ２に関しては、「their」は、正しいスペルではあるけれども、スペルに間違いのある単語に囲まれているために、クラスタに含まれていることに注意されたい。

クラスタ１の「eksersiv」が、修正するために選択される。その理由は、これが、正しいスペルの単語からなる最も長いシーケンス（単数または複数）を、その近傍に有しているからである。

スペルに間違いのある単語「eksersiv」のために、以下の代替的な修正が生成される。
excessive，expressive，obsessive，assertive，exercise，extensive，exclusive，exertion，excised，exorcism.

代替的な修正のそれぞれから、スペルに間違いのある単語に対する音および文字列の類似性に基づいて、例えば表２に示すように、非文脈的な単語の類似性スコアが得られる。

この非文脈的なスコアについては、さまざまな方法によって導出することが可能である。１つの例として、レーベンシュタイン距離(Levelnshtein Distance、編集距離)アルゴリズムを用いるものがある（このアルゴリズムは、http://en.wikipedia.org/wiki/Levenshtein distance から入手することが可能である）。このアルゴリズムについては、単語の列、単語の発音表記、あるいはこれら双方の組み合わせに含めることが可能である。

各代替からは、さらに、入力文の文脈内での適合度(fit)に基づいて、表３に示すように、文脈的なスコアが得られる。この例では、使用されている文脈は、「Some students should ＜eksersiv＞ daily」である。

この文脈的なスコアは、好ましくは図８を用いて後に説明するように導出されるものであり、インターネットコーパスにおける、文脈素性シーケンス（ＣＦＳ）の頻度に基づいている。

「exercise」という単語が、文脈的なスコアと非文脈的な単語の類似性スコアとの組み合わせに基づいて、最適な代替として選択される（これについては、図８を用いて後に説明する）。

全てのクラスタが、同様の手法によって修正される。スペル修正された入力テキストは、本発明の好ましい実施形態に従うスペル修正によって、以下のようになる。
Physical education can assist in strengthening muscles. Some students should exercise daily to improve their strength and health because they are so fate.

なお、スペル修正された入力テキスト内には、誤用されている単語が残っていることに注意されたい。「fate」という単語は、誤用されている単語および文法の修正アルゴリズム（図３を用いて後に説明する）による修正を必要とする。

ここで、図３を参照すると、同図は、図１に示したシステムおよびファンクショナリティにおいて好適に使用される、誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。この誤用されている単語および文法を修正するファンクショナリティは、正しいスペルではあるけれども、入力テキストの文脈において誤用されている単語の修正、および、文法的な間違いの修正を実施する。例えば、文法的に正しい単語の代わりに文法的に正しくない単語が使用されていること、余分な単語が使用されていること、および、単語および句読点が欠落していること、が修正される。

図３に示すように、この誤用されている単語および文法を修正するファンクショナリティは、好ましくは、以下のステップを含む。
図２に示したスペル修正のファンクショナリティから出力された、スペルを修正された入力テキストにおける、誤用されていると疑われる単語、または、文法的な間違いを含んでいると疑われる単語を特定するステップ。これは、好ましくは、入力文の文脈内における少なくとも大部分の単語の適合度を評価することによって実施される。
誤用されていると疑われる単語、または、文法的な間違いを含んでいると疑われる単語を、複数のクラスタにグループ化するステップ。これらのクラスタは、重複していないことが好ましい。
修正するためのクラスタを選択するステップ。上記の特定、グループ化および選択のステップは、好ましくは、図６Ｂを用いて後に説明されるアルゴリズムに基づくステップである。
各クラスタに関して、１つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、好ましくは、図７Ａを用いて後に説明される、代替的な修正の生成アルゴリズムに基づくものである。
各クラスタに関して、１つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、図１０を用いて後に説明される、欠落している冠詞、前置詞、および句読点の修正アルゴリズムを用いて実施される。
各クラスタに関して、１つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、図１１を用いて後に説明される、余分な冠詞、前置詞、および句読点の修正アルゴリズムを用いて実施される。
さまざまな代替的な修正に対する文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングを実施するステップ。このステップは、好ましくは、図９を用いて後に説明される誤用されている単語および文法の修正における、代替スコアリング・アルゴリズムに基づいて実施される。
各クラスタに関して、１つの誤用されている単語および文法の修正を選択し、誤用されている単語および文法の修正における最も好ましい代替を表示するステップ。このステップは、同様に図９を用いて後に説明される、上述のスコアリングに基づいて実施される。
各クラスタに関して、１つの誤用されている単語および文法の修正を組み込んでいる、スペル、誤用されている単語および文法を修正されたテキストの出力を提供するステップ。正しくないクラスタは、この修正によって置き換えられる。

好ましくは、上記のスコアリングは、疑わしい単語に関する複数の代替のうちの１つ１つに比べて、その疑わしい単語に優先的に付勢を加えることを含んでいる。この付勢は、その入力を与える人物の不確実さを示す、入力不確実性メトリックの関数である。

以下の実施例を検討することによって、図３に示したファンクショナリティの作用を、より深く理解することが可能である。

以下の入力テキストが受領される。
I have money book

以下の単語が、誤用されていると疑われる単語として特定される。
money，book

以下のクラスタが生成される。
money book

以下は、代替的な修正の例である。これらは、上記のクラスタに関して生成されたものである（部分的なリスト）。
money books；money back；money box；money bulk；money Buick；money ebook；money bank；mini book；mummy book；Monet book；honey book；mannerly book；mono book；Monday book；many books；mini bike；mummy back；monkey bunk；Monday booked；Monarchy back；Mourned brook

文脈に基づいたインターネットコーパスを用いた少なくとも部分的に文脈的なスコアリング、および、単語の類似性に基づく非文脈的なスコアリングの結果を、表４に示す。

当然のことではあるが、グローバルスコアにたどり着くためには、さまざまな方法がある。好ましいグローバルスコアは、図９を用いて後に説明するアルゴリズムに基づいている。

上述のスコアリングに基づいて、代替である「many books」が選択される。従って、修正されたテキストは、
I have many books．
となる。

次に、図４を参照すると、同図は、図１に示したシステムおよびファンクショナリティにおいて使用される語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。図４に示すように、この語彙改善のファンクショナリティは、好ましくは、以下のステップを含んでいる。
図３に示した誤用されている単語および文法を修正するファンクショナリティから出力された、スペル、誤用されている単語および文法を修正された入力テキストにおいて、下位の選択的な表現を利用していると疑われる、表現の悪い単語を特定するステップ。
表現の悪い単語を、複数のクラスタにグループ化するステップ。これらのクラスタは、重複していないことが好ましい。
修正するためのクラスタを選択するステップ。上記の特定、グループ化および選択のステップは、好ましくは、図６Ｃを用いて後に説明されるアルゴリズムに基づくステップである。
クラスタのそれぞれに関して、１つまたは好ましくは複数の代替的な語彙改善を生成するステップ。このステップは、好ましくは、図７Ｂを用いて後に説明される、語彙改善の生成アルゴリズムに基づくものである。
さまざまな代替的な語彙改善に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリングを実施するステップ。このステップでは、好ましくは、インターネットコーパスを利用する。また、このステップは、好ましくは、図９を用いて後に説明される、語彙改善の代替スコアリング・アルゴリズムに基づいて実施される。
各クラスタに関し、１つの語彙改善を選択し、最も好ましい代替的な語彙改善を表示するステップ。このステップは、同様に図９を用いて後に説明される、上述のスコアリングに基づいて実施される。
それぞれの下位(sub-)の望ましい表現のクラスタに関する、語彙改善を提案するステップ。

以下の実施例を検討することによって、図４に示したファンクショナリティの作用を、より深く理解することが可能である。

以下に示す、スペル、誤用されている単語および文法を修正された入力テキストが与えられる。
Wearing colorful clothes will separate us from the rest of the children in the school.

図６Ｃを用いて後に説明されるファンクショナリティを用いることによって、語彙改善のために、以下のクラスタが選択される。
separate

図７Ｂを用いて後に説明されるファンクショナリティを用いることによって、表５に示すように、以下の代替的なクラスタ修正が生成される（部分的なリスト）。この生成は、図７Ｂにおいて説明されている、前処理された語彙データベースに基づいて実施される。

インターネットコーパスを用いることによって、さまざまな代替的な語彙改善がスコアリングされる。これは、入力テキストの文脈に対する語彙改善の適合度に、少なくとも部分的に基づいており、さらに、語彙改善の表現の悪い単語である「separate」に対する、単語の意味の類似性に基づいている。

図５を用いて後に説明されるファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「will separate」、「separate us」、「clothes will separate」、「will separate us」、「separate us from」

図９のステージＩＩＡを用いて後に説明されるファンクショナリティを用いることによって、上述のＣＦＳのリストにおける代替的なクラスタ修正の部分的なリストに関して、表６に示すような、インターネットコーパスにおける出現頻度のマトリクスが生成される。

全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除かれる。この例では、以下の素性グラムが除かれる。
「clothes will separate」

その後、少なくとも最小閾値の出現頻度を有する他のＣＦＳに完全に含まれる、全てのＣＦＳが除かれる。例えば、以下の素性グラムが除かれる。
「will separate」、「separate us」

この実施例では、残っているＣＦＳは、以下の素性グラムである。
「will separate us」、「separate us from」

図９に関するステージＩＩＤおよびＩＩＥにおいて後に説明される、最終的な優先スコアを用いることによって、代替である「differentiate」が選択される。そして、改善された文は、以下のようになる。
Wearing colorful clothes will differentiate us from the rest of the children in the school.

次に、図５について説明する。この図は、文脈素性シーケンス（ＣＦＳ）のファンクショナリティ１１８を例示する、簡略化されたブロック図である。このファンクショナリティ１１８は、本発明の好ましい実施形態における、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティにおいて、有用なものである。

このＣＦＳのファンクショナリティ１１８は、好ましくは、素性抽出(feature extraction)のファンクショナリティを含んでいる。この素性抽出のファンクショナリティは、Ｎ−グラム抽出のファンクショナリティを含んでおり、さらに、選択的には、スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および「ユーザによって以前に利用された素性」を抽出するファンクショナリティにおける、少なくとも１つを含んでいる。

Ｎ−グラム(N-gram)という用語は、この技術分野における既知の用語であり、入力テキストにおけるＮ個の連続的な単語のシーケンスを示している。このＮ−グラム抽出のファンクショナリティは、従来の品詞タギング(part-of-speech tagging)および構文解析のファンクショナリティを使用することも可能である。これは、コーパス（好ましくはインターネットコーパス）内に高い頻度で出現しそうにない、文法的な考察に基づく明白なＮ−グラムの生成を、回避するためである。

この明細書に関しては、「スキップ−グラム抽出(skip-gram extraction)のファンクショナリティ」という用語は、「スキップ−グラム」を抽出するように動作するファンクショナリティを意味している。この「スキップ−グラム」は、特定の非本質的な単語または句（例えば、形容詞、副詞、形容詞句および副詞句など）を除去した、改良されたＮ−グラム、または、所定の文法的な関係性（例えば、主語−動詞、動詞−目的語、副詞−動詞、または、動詞−時間を示す句など）を有する単語だけを含んでいる、改良されたＮ−グラムである。このスキップ−グラム抽出のファンクショナリティは、与えられた文脈において、どの単語をスキップすることが可能であるかの決定に利用するために、従来の品詞タギングおよび構文解析のファンクショナリティを使用することも可能である。

この明細書に関しては、「スイッチ−グラム抽出(switch-gram extraction)のファンクショナリティ」という用語は、「スイッチ−グラム」を特定するファンクショナリティを意味している。この「スイッチ−グラム」は、特定の単語における出現の順序が切り替えられている、改良されたＮ−グラムである。このスイッチ−グラム抽出のファンクショナリティは、与えられた文脈において、どの単語における出現の順序を切り替えるのかの決定に利用するために、従来の品詞タギングおよび構文解析のファンクショナリティを使用することも可能である。

この明細書に関しては、「共起性抽出(co-occurrence extraction)のファンクショナリティ」という用語は、入力文(input sentence)、または、多くの入力文を含んだ入力文書(input document)における、単語の組み合わせを特定するファンクショナリティを意味している。上記の入力文または入力文書は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示とともに有しているものである。また、上記全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラム内に含まれている単語が除かれるとともに、一般的に存在する単語（例えば、前置詞、冠詞、接続詞、および、主として文法的な機能を有する他の単語など）も、取り除かれている。

この明細書に関しては、「ユーザによって以前に利用された素性を抽出するファンクショナリティ」という用語は、他の文書において、ユーザによって使用された単語を特定するファンクショナリティを意味している。なお、これらの単語からは、一般的に存在する単語（例えば、前置詞、冠詞、接続詞、および、主として文法的な機能を有する他の単語など）が取り除かれている。

この明細書に関しては、Ｎ−グラム、スキップ−グラム、スイッチ−グラムおよびこれらの組み合わせは、素性グラムと称される。

この明細書に関しては、Ｎ−グラム、スキップ−グラム、スイッチ−グラム、共起性、「ユーザによって以前に利用された素性」、およびこれらの組み合わせは、文脈素性シーケンス（すなわちＣＦＳ）と称される。

図５に示したファンクショナリティは、好ましくは、入力テキストにおける個々の単語、または単語のクラスタに作用する。

以下の実施例を検討することによって、図５に示したファンクショナリティの作用を、より深く理解することが可能である。

以下の入力テキストが与えられる。
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer, to invesigate the death of sir Charles

入力テキストにおける「Cherlock Homes」というクラスタに関して、以下のＣＦＳが生成される。
Ｎ−グラム：
２−グラム：Cherlock Homes；Homes the
３−グラム：Cherlock Homes the；Homes the lead
４−グラム：Cherlock Homes the lead；Homes the lead character
５−グラム：Cherlock Homes the lead character
スキップ−グラム：
Cherlock Homes the character；Cherlock Homes the chief inspecter；Cherlock Homes the inspecter；Cherlock Homes has been cold
スイッチ−グラム：
The lead character Cherlock Homes
入力テキストにおける共起性：
Character；inspector；investigate；death

入力テキストを含んでいる文書における共起性：
Arthur Conan Doyle；story

ユーザの他の文書における共起性：
mystery

入力テキストにおける「cold」というクラスタに関しては、以下のＣＦＳが生成される。
Ｎ−グラム：
２−グラム：been cold；cold in
３−グラム：has been cold；been cold in；cold in by
４−グラム：inspector has been cold；has been cold ｉｎ;been cold in by；cold in by the
５−グラム：chief inspector has been cold；inspector has been cold in；has been cold in by；been cold in by the；cold in by the family
スキップ−グラム：
cold in to investigate；Cherlock has been cold；cold by the doctor；cold by Dr Mortimer；character has been cold

これらのＣＦＳには、それぞれ、以下のａ〜ｄのうちの少なくとも１つ（好ましくは複数、最も好ましくは全て）に基づいて、「重要性のスコア」が与えられる。
ａ．従来の品詞ダギングおよび構文解析のファンクショナリティの作用。複数の構文解析ツリーノードの一部を含むＣＦＳには、比較的に低いスコアが与えられている。ＣＦＳに含まれている構文解析ツリーノードの数が多くなるほど、そのＣＦＳのスコアは低くなる。
ｂ．ＣＦＳの長さ。ＣＦＳが長くなるほど、スコアは高くなる。
ｃ．ＣＦＳにおける各単語（入力単語を除く）の出現頻度。このような単語の出現頻度が高くなるほど、スコアは低くなる。
ｄ．ＣＦＳのタイプ。例えば、Ｎ−グラムは、好ましくは、共起性よりも優先される。入力文における共起性は、好ましくは、入力文書における共起性よりも優先される。さらに、入力文書における共起性は、好ましくは、「ユーザによって以前に使用された素性」よりも優先される。

上述の実施例に関連する、典型的なスコアを表７に示す。

上記のＣＦＳ、および、これらの重要性のスコアは、図８および図９を用いて後に説明されるファンクショナリティにおいて使用される。このファンクショナリティは、インターネットコーパスにおけるＣＦＳの出現頻度に基づいた、さまざまな代替的なクラスタ修正に対する文脈に基づくスコアリングに関するものである。

次に、図６Ａについて説明する。この図は、入力テキストにおけるスペルに間違いのある単語を特定すること、スペルに間違いのある単語を複数のクラスタにグループ化すること（これらのクラスタは、重複していないことが好ましい）、さらに、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。

図６Ａに示すように、スペルに間違いのある単語の特定は、好ましくは、インターネットにおいて一般的に使用されている適切な名称および単語によって改善された、標準的な辞書を用いて実行される。

スペルに間違いのある単語におけるクラスタへのグループ化は、好ましくは、スペルに間違いのある連続している（またはほぼ連続している）単語を、文法的な関係性を有する、スペルに間違いのある単語とともに、単一のクラスタにグループ化することによって実行される。

修正するためのクラスタの選択は、好ましくは、疑わしくない文脈データを最も大量に含んでいるクラスタを見つけようと試みることによって、実行される。選択されるクラスタは、正しいスペルの単語からなる最も長いシーケンス（単数または複数）を、その近傍に有していることが好ましい。

次に、図６Ｂについて説明する。この図は、スペル修正された入力テキストにおける誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を特定すること、誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を複数のクラスタにグループ化すること（これらのクラスタは、重複していないことが好ましい）、および、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。

誤用されていると疑われる単語の特定は、好ましくは、以下のように実行される。
スペル修正された入力テキストにおける、各単語に関する素性グラムを生成する。
コーパス（好ましくはインターネットコーパス）における、素性グラムのそれぞれにおける出現頻度を記録する。
各単語に関する、疑わしい素性グラムの数を記録する。疑わしい素性グラムの頻度は、それらの予想頻度に比して著しく低くなっているか、あるいは、最小頻度閾値を下回っている。素性グラムにおける予想頻度は、その構成要素およびこれらの組み合わせの頻度に基づいて、見積もられる。

ある単語を含んでいる疑わしい素性グラムの数が、所定の閾値を超えた場合、その単語を疑わしいものであるとする。

本発明の好ましい実施形態によれば、スペル修正された入力テキストにおける、各素性グラムのコーパス（好ましくはインターネットコーパス）内での出現頻度（ＦＲＥＱＦ−Ｇ）が解明される。スペル修正された入力テキストにおける、上記のコーパス内での各単語の出現頻度（ＦＲＥＱＷ）も解明され、さらに、その単語をもたない各素性グラムの出現頻度（ＦＲＥＱＦＧ−Ｗ）も、追加的に解明される。

各素性グラムにおける予想出現頻度（ＥＦＲＥＱＦ−Ｇ）は、次のように計算される。
ＥＦＲＥＱＦ−Ｇ＝ＦＲＥＱＦ−Ｇ−Ｗ＊ＦＲＥＱＷ／（コーパス内における全ての単語の頻度の合計）

スペル修正された入力テキストにおける各素性グラムのコーパス（好ましくはインターネットコーパス）内での出現頻度における、各素性グラムの予想出現頻度に対する比率（ＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇ）が、所定の閾値よりも小さい場合、または、（ＦＲＥＱＦ−Ｇ）が、別の所定の閾値よりも小さい場合には、素性グラムは、疑わしい素性グラムであると見なされる。疑わしい素性グラムに含まれている全ての単語は、誤用されていると疑われる単語、または、文法的な間違いのあると疑われる単語であると見なされる。

以下の実施例を検討することによって、スペル修正された入力テキストにおける誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を特定するための、図６Ｂに示したファンクショナリティの作用を、より深く理解することが可能である。

以下のスペル修正された入力テキストが与えられる。
Ｉhave money book

素性グラムは、
I；I have；I have money；I have money book
を含んでいる。

表８は、上述の素性グラムにおける、インターネットコーパス内での出現頻度を示している。

予想出現頻度が、２−グラムのそれぞれに関して、以下のように計算される。
ＥＦＲＥＱＦ−Ｇ＝ＦＲＥＱＦ−Ｇ−Ｗ＊ＦＲＥＱＷ／（コーパス内における、全ての単語の頻度の合計）

例えば、２−グラムに関しては、
２−グラム（ｘ，ｙ）について予想される２−グラムの頻度＝（Ｘの１−グラムの頻度＊Ｙの１−グラムの頻度）／インターネットコーパス内の単語の数（例えば、１兆（1,000,000,000,000）個の単語）
となる。

スペル修正された入力テキストにおける各素性グラムのコーパス（好ましくはインターネットコーパス）内での出現頻度における、各素性グラムの予想出現頻度に対する比率は、次のように計算される。
ＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇ

スペル修正された入力テキストにおける上述した各２−グラムのコーパス（好ましくはインターネットコーパス）内での出現頻度における、上述した各２−グラムの予想出現頻度に対する比率を、表９に示す。

この表からわかるように、「money book」の（ＦＲＥＱＦ−Ｇ）が、その予想頻度よりも実質的に小さくなっており、このために、（ＦＲＥＱＦ−Ｇ）／（ＥＦＲＥＱＦ−Ｇ）を、所定の閾値（例えば１）よりも低くなっていると見なすことが可能である。従って、クラスタ「money book」は、疑わしい。

この表からわかるように、「money book」という複数の単語を含んでいる３−グラムおよび４−グラムの双方における、インターネットコーパス内での頻度は、ゼロである。このことは、「money book」を疑わしいと見なすための、根拠となりえる。

誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語における、複数のクラスタへのグループ化は、好ましくは、以下のように実行される。すなわち、誤用されていると疑われる、連続している（またはほぼ連続している）複数の単語を、単一のクラスタにグループ化する。そして、文法的な関係性を有する、誤用されていると疑われる単語を、同一のクラスタにグループ化する。

修正するためのクラスタの選択は、好ましくは、疑わしくない文脈データを最も大量に含んでいるクラスタを見つけようと試みることによって、実施される。好ましくは、疑わしくない単語からなる最も長いシーケンス（単数または複数）を、その近傍に有しているクラスタが選択される。

次に、図６Ｃについて説明する。この図は、スペル、誤用されている単語および文法を修正された入力テキストにおける、下位の選択的(suboptional)な表現を利用していると疑われる表現の悪い単語を特定すること、表現の悪い単語を複数のクラスタにグループ化すること（これらのクラスタは、重複していないことが好ましい）、および、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。

表現の悪い単語の特定は、好ましくは、以下のように実行される。
シソーラス(thesaurus)に前処理を施し、これにより、階層において単語のレベルを示している各単語に対して、言語の豊富度(language richness)のスコアを割りあてる。この場合、話し言葉よりも書き言葉が好まれる。インターネットスコアにおいては、例えば、論文および書籍は、チャットおよびフォーラムよりも好まれる。また、頻繁に使用されていない単語は、頻繁に使用されている単語よりも好まれる。
シソーラスに対してさらなる前処理を施し、これにより、先に行った前処理ステップの結果および文法的なルールに基づいて、表現を改善するための候補になりそうにない単語を除去する。
追加的な前処理を実施し、これにより、残っている単語のそれぞれに関して、表現を改善するための候補を提示する。これらの候補の言語における豊富度のスコアは、入力単語のそれよりも高くなっている。
スペル、誤用されている単語および文法を修正された入力テキストにおける各単語が、上記した複数の前処理を施されたシソーラス内に、残っている単語として現れているか否かを確認する。そして、表現を改善するための候補として、残っている単語として現れている上記のような単語のそれぞれを特定する。

表現の悪い単語を複数のクラスタにグループ化すること（これらのクラスタは、重複していないことが好ましい）は、任意的なものであり、好ましくは、以下のように実行される。
連続している表現の悪い単語を、単一のクラスタにグループ化する。
文法的な関係性を有する、表現の悪い複数の単語を、同一のクラスタにグループ化する。

修正するためのクラスタの選択は、好ましくは、表現の悪くない単語を最も大量に含んでいるクラスタを見つけようと試みることによって、実行される。選択されるクラスタは、表現の悪くない単語からなる最も長いシーケンス（単数または複数）を、その近傍に有していることが好ましい。

次に、図７Ａについて説明する。この図は、図２および図３に示したファンクショナリティにおいて有用な、クラスタに関する代替的な修正を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。

オリジナルの入力単語が正しいスペルを有している場合、その単語は、代替と見なされる。

図７Ａに示すように、クラスタ内の各単語に関して、最初に、以下に示す方法によって、複数の代替的な修正が生成される。

辞書から選び出された複数の単語であって、それらの書面上での外見（文字列の類似性に表れる）に基づいて、および、音または音声の類似性に基づいて、クラスタ内の各単語と類似している単語を取り出す。このファンクショナリティは、既知のものであり、インターネットからフリーウェアとして入手することが可能である（例えば、ＧＮＵＡｓｐｅｌｌおよびＧｏｏｇｌｅ（登録商標）ＧＳｐｅｌｌなど）。取り出されて優先順位をつけられた単語は、第１の複数の代替的な修正となる。例えば、feezixという入力単語が与えられた場合、共通する文字はたった１つ（すなわち「i」）であるけれども、音が類似していることに基づいて、「physics」という単語が辞書から取り出されることになる。また、類似する音は有していないけれども、その文字列の類似性に基づいて、「felix」という単語が取り出されることになる。

既知の代替的な利用およびユーザによる入力の蓄積に基づいたルールを使用することによって、追加的な代替を生成することも可能である。例えば、u → you、r → are、Im → I am である。

文法的なルールに基づいて（好ましくは、所定のリストを使用することによって）、別の代替を生成することも可能である。以下に、いくつか例を示す。
単数形／複数形ルール：入力文が「leaf fall off trees in the autumn」である場合、複数形の代替である「leaves」が生成される。
冠詞ルール：入力テキストが「a old lady」である場合、代替的な冠詞である「an」および「the」が生成される。
前置詞ルール：入力テキストが「I am interested of football」である場合、代替的な前置詞である「in」、「at」、「to」、「on」、「through」、．．．が生成される。
動詞活用ルール：入力テキストが「He leave the room」である場合、代替的な動詞活用である「left」、「leaves」、「had left」、．．．が生成される。
結合単語および分割単語ルール：入力テキストが「get alot fitter」である場合、代替である「a lot」が生成される。

入力テキストが「we have to wat ch out」である場合、代替である「watch」が生成される。

入力テキストが「do many sitfups」である場合、代替である「sit ups」が生成される。

本発明の好ましい実施形態における際立った特徴点は、文脈情報（例えば、ＣＦＳ、および、より具体的には素性グラムなど）を使用して、上述の「文脈的に取り出された」代替的な修正をスコアリングするだけでなく、このような代替的な修正を生成することにある。頻繁に出現する単語の組み合わせ（例えば、ＣＦＳ、および、より具体的には素性グラムなど）を、既存のコーパス（インターネットコーパスなど）から取り出すことも可能である。

以下の実施例によって、本発明における上記の態様を例示する。

入力文が「The cat has kts」である場合、「kts」という単語は、音の点においても文字の点においても、「kittens」という単語とは十分に類似していないかもしれない。このため、本発明における上記の態様のない場合には、「kittens」は、代替の１つにならない可能性がある。

本発明における上記の態様に従うと、「cat has」というＮ−グラムの後に一般的に表れる単語、すなわち、「cat has *」というクエリー内における、 * として見いだされる全ての単語を、インターネットコーパスにおいて探し出すことによって、以下の代替が取り出される。
nine lives；left；fleas；dandruff；kittens；tapeworms；adopted；retractile claws；been；urinated；diarrhea；eaten；swallowed；hairballs；gone；always been

本発明における好ましい実施形態によれば、「文脈的に取り出された」代替は、その後、フィルタリングされる。これにより、オリジナルの単語に対する音声上または書面上の何らかの類似性を有する、文脈的に取り出された代替（この実施例では、「kts」）だけが残る。この実施例では、音声上または書面上の最も高い類似性を有する代替である「kittens」が、取り出される。

外部のシステム（例えば、光学式文字認識、音声テキスト変換、または、機械翻訳システムなど）によって、入力テキストが自動的に生成される場合、このようなシステムから、追加的な代替を直接的に取り出すことが可能である。このような追加的な代替は、一般的には、上記のようなシステムにおける動作の過程において生成される。例えば、機械翻訳システムは、外国語における単語の代替的な翻訳を、代替として使用するために本システムに対して供給することが可能である。

各単語に関する全ての代替がいったん生成されると、さまざまな代替における全ての可能な組み合わせを解明し、その後に、これらの組み合わせを、コーパス（好ましくはインターネットコーパス）におけるこれらの出現頻度に基づいてフィルタリングすることによって、クラスタ全体に関するクラスタ代替が生成される。

以下の実施例が実例となる。

入力クラスタが「money book」である場合、単語「money」に関する代替は、
Monday；many；monkey
であり、「book」に関する代替は、
books；box；back
である。

以下のクラスタ代替が生成される。
Monday back；many books；many box；many back；monkey books；monkey box；monkey back；many book；monkey book；Monday book

次に、図７Ｂについて説明する。この図は、図４に示したファンクショナリティにおいて有用な、クラスタに関する代替的な改善を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。

図７Ｂに示すように、以下に示す方法において、複数の代替的な改善が最初に生成される。

インターネット上で自由に利用することの可能な、シソーラスまたは他の語彙データベース（例えば、ＰｒｉｎｃｅｔｏｎＷｏｒｄＮｅｔなど）から選び出された、複数の単語を取り出す。これらの単語は、類義語、スーパーセット、またはサブセットのように、クラスタ内の各単語に対して語彙的に関連しているものである。取り出されて優先順位をつけられた単語は、第１の複数の代替的な改善となる。

既知の代替的な利用およびユーザによる入力の蓄積に基づいたルールを使用することによって、追加的な代替を生成することも可能である。

本発明の好ましい実施形態における際立った特徴点は、文脈情報（例えば、ＣＦＳ、および、より具体的には素性グラムなど）を使用して、上述の「文脈的に取り出された」代替的な改善をスコアリングするだけでなく、このような代替的な修正を生成することにある。頻繁に出現する単語の組み合わせ（例えば、ＣＦＳ、および、より具体的には素性グラムなど）を、既存のコーパス（インターネットコーパスなど）から取り出すことも可能である。

各単語に関する全ての代替がいったん生成されると、さまざまな単語の代替における全ての可能な組み合わせを解明し、これらの組み合わせを、「得られた複数単語の組み合わせにおける、既存のコーパス（例えばインターネット）内での出現頻度」に基づいてフィルタリングすることによって、クラスタ全体に関する代替が生成される。

以下の実施例は、図７Ｂのファンクショナリティの実例である。

以下の入力テキストが与えられる。
it was nice to meet you

語彙データベース（例えば、ＰｒｉｎｃｅｔｏｎＷｏｒｄＮｅｔ）によって、単語「nice」に関する以下の代替が生成される（部分的なリスト）。
pleasant，good，kind，polite，fine，decent，gracious，courteous，considerate，enjoyable，agreeable，satisfying，delightful，entertaining，amiable，friendly，elegant，precise，careful，meticulous．

所定のルールを適用することによって、単語「nice」に関する以下の代替が生成される。
cool

単語「nice」に関する、以下の文脈的に取り出された代替が、「it was * to meet」というようなクエリーに応じて、生成される。
great；a pleasure；wonderful；lovely；good；impossible；fun；awesome；refreshing；exciting；agreed；fantastic；decided；inspiring

次に、図８について説明する。この図は、図２に示したスペル修正のファンクショナリティにおいて有用な、さまざまな代替的な改善に対する、文脈に基づいた、単語の類似性に基づくスコアリングに関するファンクショナリティを例示する、簡略化されたフローチャートである。

図８に示すように、さまざまな代替的な修正に対する、文脈ベースの（文脈に基づいた）、単語の類似性に基づくスコアリングは、以下に示す概略的なステージにおいて実施される。
Ｉ．非文脈的なスコアリング − さまざまなクラスタ代替が、それらの書面上での外見および音声の類似性に関して、入力テキストにおけるクラスタに対する類似性に基づいてスコアリングされる。このスコアリングでは、与えられたクラスタを別とすれば、文脈的な類似性は全く考慮されない。
ＩＩ．インターネットコーパスを用いた文脈的なスコアリング − さまざまなクラスタ代替のそれぞれも、抽出された文脈素性シーケンス（ＣＦＳ）に基づいて、スコアリングされる。これらのＣＦＳは、図５を用いて既に説明されたように提供される。このスコアリングは、以下のサブステージを含んでいる。
ＩＩＡ．図５を用いて既に説明されたように抽出されるＣＦＳとの関連において、図７Ａのファンクショナリティによって生成された、さまざまな代替的なクラスタ修正に対して、好ましくはインターネットコーパスを用いて、出現頻度の分析が実行される。
ＩＩＢ．さまざまなＣＦＳにおける重み付けおよびＣＦＳの選択が、とりわけ、サブステージＩＩＡにおける出現頻度の分析の結果に基づいて、実行される。この重み付けは、また、さまざまなＣＦＳにおける、相対的な内在する重要性に基づいている。当然のことではあるが、ＣＦＳによっては、ゼロの重み付けを与えられ、このために選択されることのないものもある。選択されたＣＦＳは、好ましくは、相対的な重み付けを与えられている。
ＩＩＣ．サブステージＩＩＢにおいて選択された各ＣＦＳに関する代替的な修正のそれぞれに対して、出現頻度のメトリック(metric)が割りあてられる。
ＩＩＤ．代替的なクラスタ修正からなる、１組の縮小されたセットが生成される。この生成は、とりわけ、サブステージＩＩＡにおける出現頻度の分析の結果、サブステージＩＩＣにおける出現頻度のメトリック、および、サブステージＩＩＢにおけるＣＦＳの選択および重み付け、に基づいて実施される。
ＩＩＥ．ステージＩにおいて最も高い非文脈的な類似性スコアを有するクラスタが、基準クラスタ修正として使用するために、サブステージＩＩＤにおける縮小されたセットから選択される。
ＩＩＦ．ステージＩＩＢにおいて選択されたＣＦＳのそれぞれに関する、サブステージＩＩＥの基準クラスタ修正に対して、出現頻度のメトリックが割りあてられる。
ＩＩＧ．サブステージＩＩＢにおいて選択されたＣＦＳのそれぞれに対して、レシオメトリックが割りあてられる。このレシオメトリック(ratio metric)は、その素性に関する代替的な修正のそれぞれに関する、出現頻度のメトリックにおける、サブステージＩＩＥの基準クラスタに割りあてられた、出現頻度のメトリックに対する比率を示している。
ＩＩＩ．最も好ましい代替的なクラスタ修正が、ステージＩの結果およびステージＩＩの結果に基づいて、選択される。
ＩＶ．この最も好ましい代替的なクラスタ修正に対して、信頼レベルのスコアが割りあてられる。

ステージＩＩ〜ＩＶにおいて説明したファンクショナリティにおけるより詳細な説明を、以下に示す。

サブステージＩＩＡに関しては、修正されるべきクラスタを含んでいる全てのＣＦＳが、図５において上述したように生成される。エラー（入力クラスタ内のエラー以外）を含んでいると疑われるＣＦＳは、除去される。

各ＣＦＳ内のクラスタに関する代替的な修正のそれぞれにおける、コーバス（好ましくはインターネットコーパス）内での出現頻度を示す、マトリクスが生成される。全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除去される。その後、少なくとも最小閾値の出現頻度を有している他のＣＦＳ内に完全に含まれる、全てのＣＦＳが除去される。

以下の実施例は、出現頻度のマトリクスの生成を例示するものである。

以下の入力テキストが与えられる。
I lik tw play outside a lot

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
lik tw

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
like to；like two；lick two；lack two；lack true；like true

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「lik tw」；「I lik tw」；「lik tw play」；「I lik tw play」；「lik tw play outside」；「I lik tw play outside」；「lik tw play outside a」

ステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表１０に示すように生成される。

全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除去される。この実施例では、以下の素性グラムが除去される。
lik tw play outside a

その後、少なくとも最小閾値の出現頻度を有している他のＣＦＳ内に完全に含まれる、全てのＣＦＳが除去される。この実施例では、以下の素性グラムが除去される。
「lik tw」；「I lik tw」；「lik tw play」；「I lik tw play」；「lik tw play outside」

この実施例では、唯一の残っているＣＦＳは、以下の素性グラムである。
I lik tw play outside

結果として得られたマトリクスは、表１１のように示される。

上述の実施例は、本発明の好ましい実施形態に従うマトリクスの生成について例示している。この実施例では、明らかに、「like to」が好ましい代替的な修正である。当然のことではあるが、実際には、選択は、いつもこれほど単純なものではない。従って、以下に示す別の実施例では、代替的な修正からはるかに難解な選択を実施するためのファンクショナリティを示している。

サブステージＩＩＢの検討に戻ると、選択的に、残っているＣＦＳのそれぞれに対し、図５を用いて上述したスコアが与えられる。さらに、複数単語の入力に対する以前の修正反復において導入された単語を含んでいるＣＦＳ、および、所定の信頼レベル閾値を下回る信頼レベルを有しているＣＦＳは、マイナスの付勢を受ける。

一般的なケースでは、サブステージＩＩＣにおいて上述したケースと同様に、好ましくは、各ＣＦＳにおけるインターネットコーパス内での規格化された出現頻度を示す、規格化された頻度マトリクスが生成される。この規格化された頻度マトリクスは、通常、各ＣＦＳの頻度を「関連性のあるクラスタ代替における出現頻度の関数」によって除算することによって、頻度マトリクスから生成される。

この規格化は、代替的な修正の全体的な出現数における、実質的な差異の効果を中和するように機能する。適切な規格化因子は、特定のＣＦＳとは無関係に、全体として、さまざまな代替的な修正におけるコーパス内での全体的な出現頻度に基づいている。

以下に示す実施例は、規格化された出現頻度マトリクスの生成を例示するものである。

以下の入力テキストが与えられる。
footprints of a mysterious haund said to be six feet tall

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
haund

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
hound；hand；sound

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「a mysterious haund」；「haund said」

この明細書においてステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表１２に示すように生成される。

上述の実施例からわかるように、最も高い出現頻度を有する単語が、最も高い規格化された出現頻度を必ず有するというわけではない。これは、代替的な修正の全体的な出現数に、実質的な差異があるためである。上述の実施例では、「hound」が、最も高い規格化された出現頻度を有している。そして、入力テキストの文脈から明らかなように、正しい単語は「hound」であって、インターネットコーパス内における最も高い出現頻度を有する「hand」ではない。

本発明における際立った特徴点は、代替的な修正からの選択において、代替的な修正の全体的な出現数における、実質的な差異を中和する、規格化された出現頻度が使用されていることが好ましいことにある。当然のことではあるが、出現頻度における他のメトリック（規格化された出現頻度以外）を、代替的または追加的に、メトリックとして使用することも可能である。出現頻度が比較的に低い（または特に高い）場合、追加的または代替的なメトリックが有益となる。

以下に示す説明からわかるように、さまざまな代替的な修正からの選択においては、多くの場合に、追加的なファンクショナリティが有用となる。以下に、これらのファンクショナリティについて説明する。

サブステージＩＩＤでは、以下に示すメトリックの双方に照らして他の代替的なクラスタ修正よりも好ましくない、各代替的なクラスタ修正が除去される。
ｉ．単語の類似性スコアが、他の代替的なクラスタ修正よりも低い。および、
ｉｉ．他の代替的なクラスタ修正に比して、出現頻度が低く、かつ、好ましくは、全てのＣＦＳに関する規格化された出現頻度が低い。

以下の実施例は、上述した代替的な修正の除去を例示するものである。

以下の入力テキストが与えられる。
I leav un a big house

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
leav un

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
leave in；live in；love in

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「I leav un a」；「leav un a big」

この明細書においてステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表１３に示すように生成される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表１４に示すようになる。

代替的なクラスタ修正「love in」は、その類似性スコア、出現頻度および規格化された出現頻度が「live in」よりも低いために、除去される。代替的なクラスタ修正「leave in」は、その類似性スコアが「live in」のそれよりも高いために、このステージでは除去されない。

上述の事項からわかるように、ステージＩＩＤのファンクショナリティにおける作用の結果は、縮小された頻度マトリクスであり、好ましくは、縮小された、規格化された頻度マトリクスでもある。これらは、縮小された複数の代替的な修正のそれぞれにおける、出現頻度を（および、好ましくは規格化された出現頻度も）示している。代替的な修正のそれぞれは、縮小された複数のＣＦＳのそれぞれに関して、類似性スコアを有している。代替的なクラスタ修正における縮小されたセットは、好ましくは、以下に示す実施例からわかるように、他の全ての代替的なクラスタを選択するファンクショナリティに関して使用される。

縮小された頻度マトリクス（好ましくは、縮小された、規格化された頻度マトリクスについても）における、代替的な修正のそれぞれに関して、最終的な優先メトリックが生成される。代替的な修正のそれぞれに関して、最終的な優先スコアを生成するために、１つまたは複数の後述する代替的なメトリックを使用することも可能である。

以下では、「頻度関数」という用語は、頻度、規格化された頻度、または、頻度および規格化された頻度の双方の関数を示すために、使用されている。

Ａ．可能性のある１つの優先メトリックは、縮小されたマトリクス（単数または複数）における任意のＣＦＳに関する、縮小されたマトリクス（単数または複数）における代替的なクラスタ修正のそれぞれに関する、最も高い出現頻度関数である。例えば、さまざまな代替的なクラスタ修正は、以下のようにスコアリングされる。

以下の入力テキストが与えられる。
A big agle in the sky

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
agle

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
ogle；eagle；angel

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「big agle」；「agle in the sky」

この明細書においてステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表１５に示すように生成される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表１６に示すようになる。

代替「eagle」は、それが最大の出現頻度をもつＣＦＳを有しているために、選択される。

Ｂ．可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのＣＦＳにおける、平均出現頻度関数である。例えば、さまざまな代替的な修正は、以下のようにスコアリングされる。

以下の入力テキストが与えられる。
A while ago sthe lived 3 dwarfs

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
sthe

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
the；they；she；there

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「ago sthe lived」；「sthe lived 3」

この明細書においてステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度、規格化された出現頻度および平均出現頻度のマトリクスが、表１７および表１８に示すように生成される。

なお、平均出現頻度に基づいて、「there」が選択されることに注意されたい。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表１９に示すようになる。

ここで、最も高い類似性スコアを有する代替的なクラスタ修正は、選択されないことに注意されたい。

Ｃ．可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのＣＦＳにわたる、各ＣＦＳに関する出現頻度関数に、図５を用いて上述したファンクショナリティによって計算されるそのＣＦＳのスコアを乗じたものの加重和である。

Ｄ．サブステージＩＩＥ〜ＩＩＧを用いて上述したように、縮小されたマトリクス（単数または複数）における代替的な修正に対する、以下に示すいずれか１つまたは複数の（より好ましくは大部分の、最も好ましくは全ての）作用によって、特定の代替的な修正／ＣＦＳ優先メトリックが生成される。
ｉ．最も非文脈的な類似性スコアを有する代替的なクラスタ修正が選択され、基準クラスタとなる。
ｉｉ．改良されたマトリクスが生成される。この場合、各優先マトリクスにおいて、各素性グラムにおける代替的な修正のそれぞれの出現頻度関数が、「基準クラスタの出現頻度関数に対する、各代替的な修正の出現頻度関数の比率」によって置き換えられる。
ｉｉｉ．ｉｉにおいて上述したタイプの改良されたマトリクスがさらに改良されて、各優先メトリックにおける比率が、比率の関数によって置き換えられる。この関数は、比率における非常に大きな差異における、計算上の重要性を小さくする。このような好適な関数は、対数関数である。この作用の目的は、最も好ましい代替的な修正に対する最終的な優先スコアリングにおいて、出現頻度における大きな差異の重要性を重視しない一方、最も好ましくない代替的な修正に対する最終的な優先スコアリング（および除去）において、出現頻度における大きな差異の重要性を維持することにある。
ｉｖ．各優先メトリックにおける、適用可能な比率、または、比率の関数に、適切なＣＦＳスコアを乗じることによって、ｉｉまたはｉｉｉにおいて上述したタイプの改良されたマトリクスが、さらに改良される。これにより、文法的に正しく利用されていること、および、ＣＦＳスコアに影響する他の要因が、重要視されることになる。

ｖ．適用可能な比率、比率の関数、出現頻度、および規格化された出現頻度の関数を生成することによって、ｉｉ、ｉｉｉ、または、ｉｖにおいて上述したタイプの改良されたマトリクスが、さらに改良される。好ましい関数は、各優先メトリックにおける、適用可能な比率、または、比率の関数に、そのＣＦＳの出現頻度を乗じることによって、生成される。

Ｅ．Ｄにおいて上述した特定の代替的な修正／ＣＦＳ優先メトリックに基づいて、各代替的な修正に関して、最終的な優先メトリックが計算される。この計算は、代替的な修正の類似性スコアに、その代替的な修正のための全てのＣＦＳに関する、特定の代替的な修正／ＣＦＳ優先メトリックの和を乗じることによって、実施される。

以下に、上記のような改良されたマトリクスの使用を例示する実施例を示す。

以下の入力テキストが与えられる。
I will be able to tach base with you next week

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
tach

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
teach；touch

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「able to tach」；「to tach base」

上述のサブステージＩＩＡおよびＩＩＣに関連して示したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表２０に示すように生成される。

ここで、１つの素性に関しては、「teach」の出現頻度および規格化された出現頻度の双方ともが、「touch」のそれらよりも大きくなっているけれども、他の素性に関しては、「touch」の出現頻度および規格化された出現頻度の双方ともが、「teach」のそれらよりも大きくなっている、ということに注意されたい。代替的な修正を正しく選択するために、好ましくは、サブステージＩＩＧに関連して上述したレシオメトリックが、以下に示すように使用される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表２１に示すようになる。

最も高い類似性スコアを有しているために、「teach」が基準クラスタとなることがわかる。それでもやはり、上述した最終的な優先スコアに基づいて、「touch」が選択される。このことは、直感によって理解できることではなく、「teach」が最も高い出現頻度および最も高い規格化された出現頻度を有していることを示す上述のマトリクスを検討することから、明らかになる可能性があることである。この実施例では、最終的な優先スコアは、「teach」よりも「touch」を選択することを示している。なぜならば、「touch」を支持する素性に関する出現頻度の比率が、「teach」を支持する他の素性に関する出現頻度の比率に比べて、はるかに大きいからである。

Ｆ．選択的に、代替的な修正を、この代替的な修正および基準クラスタに関する優先メトリックと頻度関数の値との比較に基づいて、以下に示す決定ルールにおける１つまたは複数を利用して、フィルタ除去することも可能である。
１．所定の閾値よりも高いＣＦＳスコアを有する少なくとも１つの素性に関して、基準クラスタのＣＦＳ頻度関数よりも小さいＣＦＳ頻度関数を有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
２．別の所定の閾値よりも高いＣＦＳスコアを有する少なくとも１つの素性に関して、所定の閾値よりも小さい優先メトリックを有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
３．ａ．各ＣＦＳのＣＦＳスコアを解明する。
ｂ．各ＣＦＳに関して、基準クラスタおよび代替的な修正に関する、ＣＦＳ頻度関数を解明する。これにより、基準クラスタまたは代替的な修正のどちらが、そのＣＦＳに関してより高い頻度関数を有しているのかを解明する。
ｃ．代替的な修正が基準クラスタよりも高い頻度を有しているＣＦＳにおける、ＣＦＳスコアを合計する。
ｄ．基準クラスタが代替的な修正よりも高い頻度を有しているＣＦＳにおける、ＣＦＳスコアを合計する。
ｅ．ｃでの合計がｄでの合計よりも小さい場合、その代替的な修正をフィルタ除去する。

以下の実施例は、上述したフィルタリング機能を例示するものである。

以下の入力テキストが与えられる。
I am faelling en love

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
faelling en

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
falling on；falling in；feeling on；feeling in

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「am faelling en」；「faelling en love」；「am faelling en love」；「I am faelling en」

この明細書においてサブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表２２に示すように生成される。

少なくとも最小閾値の出現頻度を有している他のＣＦＳ内に完全に含まれる、全てのＣＦＳが除去される。例えば、以下の素性グラムは除去される。
「am faelling en」；「faelling en love」

この実施例では、残っているＣＦＳは、以下の素性グラムである。
「am faelling en love」；「I am faelling en」

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表２３に示すようになる。

代替的な修正である「falling on」、「feeling on」および「feeling in」は、ＣＦＳの１つに関するこれらの出現頻度がゼロであるために、フィルタ除去される。

Ｇ．ステージＩＩＩに関連して上述したように、Ｆにおけるフィルタリングを生きのびた代替的な修正において、Ａ〜Ｅにおいて上述したように形成された最終的な優先メトリックに基づいて、ランキングが確立される。最も高い最終的な優先スコアを有する代替的な修正が、選択される。

Ｈ．ステージＩＶに関連して上述したように、選択された代替的な修正に対し、信頼レベルが割りあてられる。この信頼レベルは、以下に示すパラメーターにおける１つまたは複数に基づいて、計算される。
ａ．上述のサブステージＩＩＢにおいて与えられる、選択されたＣＦＳの数、タイプ、およびスコアリング。
ｂ．ＣＦＳの文脈における、さまざまな代替的なクラスタ修正の出現頻度における統計的な有意性。
ｃ．ＣＦＳのそれぞれにおける優先メトリック、および、さまざまな代替的な修正における単語の類似性スコアに基づく、代替的な修正の選択における、コンセンサスの程度。
ｄ．上述した所定の最小閾値を超えている、選択された代替的なクラスタ修正における非文脈的な類似性スコア（ステージＩ）。
ｅ．利用可能な文脈データの範囲。これは、所定の最小閾値を超えるＣＦＳスコアを有するとともに、別の所定の閾値よりも大きい優先スコアを有する、縮小されたマトリクスにおけるＣＦＳの数によって示される。

信頼レベルが所定の閾値を超えている場合、選択された代替的な修正は、ユーザの指示をまたずに組み入れられる。信頼レベルが、所定の閾値を下回っているが、より低い所定の閾値を超えている場合には、選択された代替的な修正は組み入れられるけれども、ユーザの指示が求められる。信頼レベルがより低い所定の閾値を下回っている場合、代替的な修正の優先順位リストに基づく、ユーザの選択が求められる。

以下の実施例は、信頼レベルスコアリングの使用の実例である。

以下の入力テキストが与えられる。
He was not feeling wehl when he returned

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
wehl

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
wale；well

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「was not feeling wehl」；「not feeling wehl when」；「feeling wehl when ｈｅ」；「wehl when he returned」

この明細書においてサブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表２４に示すように生成される。

上述の実施例は、Ｈにおいて説明した全ての基準に従うと、「wale」よりも「well」を選択する方が、高い信頼レベルを得られるということを示している。

以下の実施例では、信頼レベルはいくぶん小さくなっている。これは、ＣＦＳ「bech in the summer」においては、代替的な修正「back」が「beach」よりも高い出現頻度を有しているけれども、ＣＦＳ「on the beech in」および「the bech in the」においては、「beach」が「back」よりも高い出現頻度を有している、という事実に起因する。基準Ｈ（ｃ）に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。

以下の入力テキストが与えられる。
I like to work on the bech in the summer

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
bech

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
b；beech；back

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「on the bech in」；「the bech in the」；「bech in the summer」

サブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表２５に示すように生成される。

基準Ｈ（ｃ）に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。

以下に示す実施例では、信頼レベルはさらに低くなる。この実施例は、基準Ｈ（ａ）に基づいている。

以下の入力テキストが受領される。
Exarts are restoring the British Museum's round reading room

図６Ａを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
Exarts

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
Experts；Exerts；Exits

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「Exarts are」；「Exarts are restoring」；「Exarts are restoring the」；「Exarts are restoring the British」

ステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表２６に示すように生成される。

全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除去される。この実施例では、以下の素性グラムが除去される。
「Exarts are restoring」；「Exarts are restoring the」；「Exarts are restoring the British」

この実施例では、唯一の残っているＣＦＳは、以下の素性グラムである。
「Exarts are」。

上述の実施例からわかるように、フィルタリングプロセスを生きのびている唯一のＣＦＳは、「exarts are」である。その結果、信頼レベルは比較的に低くなる。なぜならば、この選択は、たった１つのＣＦＳに基づいているからであり、さらに、このＣＦＳが、比較的に短いとともに、疑わしい単語を除いては、たった１つの頻繁に出現する単語だけを含んでいるからである。

次に、図９について説明する。この図は、図３、図１０および図１１に示した誤用されている単語および文法を修正するファンクショナリティ、および、図４に示した語彙改善のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、文脈ベースの、単語の類似性に基づくスコアリングに関するファンクショナリティを例示する、簡略化されたフローチャートである。

図９に示すように、さまざまな代替的な修正に対する、文脈ベースの、単語の類似性に基づくスコアリングは、以下に示す概略的なステージにおいて実施される。
Ｉ．非文脈的なスコアリング − さまざまなクラスタ代替が、それらの書面上での外見および音声の類似性に関して、入力テキストにおけるクラスタに対する類似性に基づいてスコアリングされる。このスコアリングでは、与えられたクラスタを別とすれば、文脈的な類似性は全く考慮されない。
ＩＩ．インターネットコーパスを用いた文脈的なスコアリング…さまざまなクラスタ代替のそれぞれも、抽出された文脈素性シーケンス（ＣＦＳ）に基づいて、スコアリングされる。これらのＣＦＳは、図５を用いて既に説明されたように提供される。このスコアリングは、以下のサブステージを含んでいる。
ＩＩＡ．図５において既に説明されたように抽出されるＣＦＳとの関連において、図７Ａまたは図７Ｂのファンクショナリティによって生成された、さまざまな代替的なクラスタ修正に対して、好ましくはインターネットコーパスを用いて、出現頻度の分析が実行される。
ＩＩＢ．とりわけサブステージＩＩＡにおける出現頻度の分析の結果に基づく、さまざまなＣＦＳにおける重み付けおよびＣＦＳの選択。この重み付けは、また、さまざまなＣＦＳにおける、相対的な「内在する重要性」に基づいている。当然のことではあるが、ＣＦＳによっては、ゼロの重み付けを与えられ、このために選択されることのないものもある。選択されたＣＦＳは、好ましくは、相対的な重み付けを与えられている。
ＩＩＣ．サブステージＩＩＢにおいて選択された各ＣＦＳに関する代替的な修正のそれぞれに対して、出現頻度のメトリックが割りあてられる。
ＩＩＤ．代替的なクラスタ修正からなる、１組の縮小されたセットが生成される。この生成は、とりわけ、サブステージＩＩＡにおける出現頻度の分析の結果、サブステージＩＩＣにおける出現頻度のメトリック、および、サブステージＩＩＢにおけるＣＦＳの選択および重み付け、に基づいて実施される。
ＩＩＥ．基準クラスタ修正として使用するために、入力クラスタが選択される。
ＩＩＦ．ステージＩＩＢにおいて選択されたＣＦＳのそれぞれに関する、サブステージＩＩＥの基準クラスタ修正に対して、出現頻度のメトリックが割りあてられる。
ＩＩＧ．サブステージＩＩＢにおいて選択された素性のそれぞれに対して、レシオメトリックが割りあてられる。このレシオメトリックは、その素性に関する代替的な修正のそれぞれに関する、出現頻度のメトリックにおける、サブステージＩＩＢの基準クラスタに割りあてられた、出現頻度のメトリックに対する比率を示している。
ＩＩＩ．最も好ましい代替的なクラスタ修正が、ステージＩの結果およびステージＩＩの結果に基づいて、選択される。
ＩＶ．この最も好ましい代替的なクラスタ修正に対して、信頼レベルのスコアが割りあてられる。

以下に示す実施例は、出現頻度マトリクスの生成を例示するものである。

以下の入力テキストが与えられる。
I lick two play outside ａ lot

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
lick two

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「lick two」；「I lick two」；「lick two play」；「I lick two play」；「lick two play outside」；「I lick two play outside」；「lick two play outside a」

サブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表２７に示すように生成される。

全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除去される。この実施例では、以下の素性グラムが除去される。
lick two play outside a

その後、少なくとも最小閾値の出現頻度を有している他のＣＦＳ内に完全に含まれる、全てのＣＦＳが除去される。例えば、以下の素性グラムが除去される。
「lick two」；「I lick two」；「lick two play」；「I lick two play」；「lick two play outside」

この実施例では、唯一の残っているＣＦＳは、以下の素性グラムである。
I lick two play outside

結果として得られたマトリクスは、表２８のように示される。

一般的なケースでは、サブステージＩＩＣにおいて上述したケースと同様に、好ましくは、各ＣＦＳにおけるインターネットコーパス内での規格化された出現頻度を示す、規格化された頻度マトリクスが生成される。この規格化された頻度マトリクスは、通常、各ＣＦＳの頻度を、関連性のあるクラスタ代替における出現頻度の関数によって除算することによって、頻度マトリクスから生成される。

この規格化は、代替的な修正の全体的な出現数における、実質的な差異の効果を中和するように機能する。適切な規格化因子は、ＣＦＳとは無関係に、全体として、さまざまな代替的な修正におけるコーパス内での全体的な出現頻度に基づいている。

以下の入力テキストが、典型的には音声認識によって、与えられる。
footprints of a mysterious ［hound/hand］said to be six feet tall

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
hound

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「a mysterious hound」；「hound said」

この明細書においてサブステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表２９に示すように生成される。

上述の実施例からわかるように、「最も高い出現頻度を有する単語が、最も高い規格化された出現頻度を必ず有する」というわけではない。これは、代替的な修正の全体的な出現数に、実質的な差異があるためである。上述の実施例では、「hound」が、最も高い規格化された出現頻度を有している。そして、入力テキストの文脈から明らかなように、正しい単語は「hound」であって、インターネットコーパス内における最も高い出現頻度を有する「hand」ではない。

本発明における際立った特徴点は、代替的な修正からの選択において、「代替的な修正の全体的な出現数における、実質的な差異」を中和する、規格化された頻度が使用されていることにある。当然のことではあるが、出現頻度における他のメトリック（規格化された出現頻度以外）を、代替的または追加的に、メトリックとして使用することも可能である。出現頻度が比較的に低い（または特に高い）場合、追加的または代替的なメトリックが有益となる。

サブステージＩＩＤでは、以下に示すマトリクスの双方に照らして他の代替的な修正よりも好ましくない、代替的な各クラスタ修正が除去される。
ｉ．単語の類似性スコアが、他の代替的なクラスタ修正よりも低い。および、
ｉｉ．他の代替的なクラスタ修正に比して、出現頻度が低く、かつ、好ましくは、全てのＣＦＳに関する規格化された出現頻度が低い。

以下の入力テキストが与えられる。
I leave on a big house

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
leave on

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
leave in；live in；love in；leave on

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「I leave on a」；「leave on a big」

この明細書においてステージＩＩＥに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表３０に示すように生成される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表３１に示すようになる。

上述の事項からわかるように、サブステージＩＩＤのファンクショナリティにおける作用の結果は、縮小された頻度マトリクスであり、好ましくは、縮小された、規格化された頻度マトリクスでもある。これらは、縮小された複数の代替的な修正のそれぞれにおける、出現頻度を（および、好ましくは規格化された出現頻度も）示している。代替的な修正のそれぞれは、縮小された複数のＣＦＳのそれぞれに関して、類似性スコアを有している。代替的なクラスタ修正における縮小されたセットは、好ましくは、以下に示す実施例からわかるように、他の全ての代替的なクラスタを選択するファンクショナリティに関して使用される。

以下では、「頻度関数(frequency function)」という用語は、頻度、規格化された頻度、または、頻度および規格化された頻度の双方の関数を示すために、使用されている。

以下の入力テキストが与えられる。
I am vary satisfied with your work

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
vary

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
vary；very

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「am vary」；「vary satisfied」；「I ａｍ vary satisfied with」

この明細書においてサブステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表３２および表３３に示すように生成される。

この実施例では、出現頻度および規格化された出現頻度の双方から、「very」が最も高い出現頻度関数を有していることがわかる。

以下の入力テキストが与えられる。
A while ago the lived 3 dwarfs

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
the

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「ago the lived」；「the lived 3」

この明細書においてサブステージＩＩＣに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度、規格化された出現頻度および平均出現頻度のマトリクスが、表３４および表３５に示すように生成される。

なお、「there」が、マトリクス内で最大の出現頻度をもつＣＦＳを有しているにも関わらず、平均出現頻度に基づいて、「they」が選択されることに注意されたい。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表３６に示すようになる。

Ｃ．可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのＣＦＳにわたる、「各ＣＦＳに関する出現頻度関数に、図５を用いて上述したファンクショナリティによって計算されるそのＣＦＳのスコアを乗じたもの」の加重和である。

Ｄ．サブステージＩＩＥ〜ＩＩＧを用いて上述したように、縮小されたマトリクス（単数または複数）における代替的な修正に対する、以下に示すいずれか１つまたは複数の（より好ましくは大部分の、最も好ましくは全ての）作用によって、特定の代替的な修正／ＣＦＳ優先メトリックが生成される。
ｉ．修正するために選択されるオリジナルの入力テキストから、クラスタが選択され、基準クラスタとなる。
ｉｉ．改良されたマトリクスが生成される。この場合、各優先マトリクスにおいて、各素性グラムにおける代替的な修正のそれぞれの出現頻度関数が、基準クラスタの出現頻度関数に対する、各代替的な修正の出現頻度関数の比率によって置き換えられる。
ｉｉｉ．ｉｉにおいて上述したタイプの改良されたマトリクスがさらに改良されて、各優先メトリックにおける比率が、比率の関数によって置き換えられる。この関数は、比率における非常に大きな差異における、計算上の重要性を小さくする。このような好適な関数は、対数関数である。この作用の目的は、最も好ましい代替的な修正に対する最終的な優先スコアリングにおいて、出現頻度における大きな差異の重要性を重視しない一方、最も好ましくない代替的な修正に対する最終的な優先スコアリング（および除去）において、出現頻度における大きな差異の重要性を維持することにある。
ｉｖ．各優先メトリックにおける、適用可能な比率、または、比率の関数に、適切なＣＦＳスコアを乗じることによって、ｉｉまたはｉｉｉにおいて上述したタイプの改良されたマトリクスが、さらに改良される。これにより、文法的に正しく利用されていること、および、ＣＦＳスコアに影響する他の要因が、重要視されることになる。
ｖ．各優先メトリックにおける、適用可能な比率、または、比率の関数に、ユーザの不確実性メトリックを乗じることによって、ｉｉ、ｉｉｉ、または、ｉｖにおいて上述したタイプの改良されたマトリクスが、さらに改良される。ユーザの入力不確実性メトリックの例としては、ワードプロセッサにおいて実行された、入力単語またはクラスタに関連する編集行為の数（文書内の他の単語に対する編集行為と比較した数）、ワードプロセッサにおいて実行された、入力単語またはクラスタを書き込んだタイミング（文書内の他の単語に対する書き込みの時間と比較したもの）、および、音声認識において実行された、入力単語またはクラスタを吹き込んだタイミング（他の単語に対するユーザによる吹き込みの時間と比較したもの）、を挙げられる。このユーザの入力不確実性メトリックは、この単語の選択において、ユーザがどの程度の確実性をもっていたかを示すメトリックである。このステップは、計算された付勢を基準クラスタに印加し、さらに、このクラスタに関するユーザの確実性または不確実性の関数によって、基準クラスタを改良するステップである。
ｖｉ．「適用可能な比率、比率の関数、出現頻度、および規格化された出現頻度」の関数を生成することによって、ｉｉ、ｉｉｉ、ｉｖ、または、ｖにおいて上述したタイプの改良されたマトリクスが、さらに改良される。好ましい関数は、各優先メトリックにおける、適用可能な比率、または、比率の関数に、そのＣＦＳの出現頻度を乗じることによって、生成される。

上記のように改良されたマトリクスの例を、以下に示す。

以下の入力テキストが与えられる。
I will be able to teach base with you next week

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
teach

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「able to teach」；「to teach base」

上述のサブステージＩＩＡおよびＩＩＣに関連して示したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表３７に示すように生成される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表３８に示すようになる。

以下の実施例は、上述したフィルタリングのファンクショナリティを例示するものである。

以下の入力テキストが、典型的には音声認識によって、与えられる。
I want ［two／to／too］ items， please.

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。

［two／to／too］。

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
too；to；two

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「I want two」；「want two items」

この明細書においてステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表３９に示すように生成される。

代替的な修正である「too」および「to」は、ＣＦＳの１つに関するこれらの出現頻度がゼロであるために、別のＣＦＳにおけるこれらの出現頻度が高いにも関わらず、フィルタ除去される。従って、この場合、生きのびる唯一のＣＦＳは、「two」である。

Ｈ．ステージＩＶに関連して上述したように、選択された代替的な修正に対し、信頼レベルが割りあてられる。この信頼レベルは、以下に示すパラメーターにおける１つまたは複数に基づいて、計算される。
ａ．上述のサブステージＩＩＢにおいて与えられる、選択されたＣＦＳの数、タイプ、およびスコアリング。
ｂ．ＣＦＳの文脈における、さまざまな代替的なクラスタ修正の出現頻度における統計的な有意性。
ｃ．ＣＦＳのそれぞれにおける優先メトリック、および、さまざまな代替的な修正における単語の類似性スコアに基づく、代替的な修正の選択におけるコンセンサスの程度。
ｄ．上述した所定の最小閾値を超えている、選択された代替的なクラスタ修正における非文脈的な類似性スコア（ステージＩ）。
ｅ．利用可能な文脈データの範囲。これは、所定の最小閾値を超えるＣＦＳスコアを有するとともに、別の所定の閾値より大きい優先スコアを有する、縮小されたマトリクスにおけるＣＦＳの数によって示される。

以下の入力テキストが与えられる。
He was not feeling wale when he returned

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
wale

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「was not feeling wale」；「not feeling wale when」；「feeling wale when he」；「wale when he returned」

この明細書においてサブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４０に示すように生成される。

以下の実施例では、信頼レベルはいくぶん小さくなっている。これは、ＣＦＳ「beech in the summer」においては、代替的な修正「back」が「beach」よりも高い出現頻度を有しているけれども、ＣＦＳ「on the beech in」および「the beech in the」においては、「beach」が「back」よりも高い出現頻度を有している、という事実に起因する。基準Ｈ（ｃ）に基づく中間的な信頼レベルをもって、代替的な修正「ｂｅａｃｈ」が選択される。

以下の入力テキストが与えられる。
I like to work on the beech in the summer

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
beech

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
beach；beech；back

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「on the beech in」；「the beech in the」；「beech in the summer」

ステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４１に示すように生成される。

以下の入力テキストが受領される。
Exerts are restoring the British Museum's round reading room

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
Exerts

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
Expert；Exerts；Exits

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「Exerts are」；「Exerts are restoring」；「Exerts are restoring the」；「Exerts are restoring the British」

サブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４２に示すように生成される。

全ての代替的な修正がゼロの出現頻度を有する、全てのＣＦＳが除去される。この実施例では、以下の素性グラムが除去される。
「Exerts are restoring」；「Exerts are restoring the」；「Exerts are restoring the British」

この実施例では、唯一の残っているＣＦＳは、以下の素性グラムである。
Exerts are

以下の実施例は、上述のステージＤおよびＥにおいて説明した、最終的な優先スコアメトリックの利用を例示するものである。

以下の入力テキストが与えられる。
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.

図６Ｂを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
「fast

図７Ａを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
「fat」；「fast」

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「and getting fast」；「getting fast so」；「fast so you」；「fast so you will」

この明細書におけるサブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４３に示すように生成される。

この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表４４に示すようになる。

上述のステージＤおよびＥにおいて説明した最終的な優先スコアメトリックを用いることによって、低い信頼度をもって、「fat」が選択される。

次に、図１０について説明する。この図は、欠落している要素を修正するファンクショナリティの作用を例示する、詳細なフローチャートである。この欠落している要素を修正するファンクショナリティは、入力テキストにおける、欠落している冠詞、前置詞、句読点、および、主として文法的な機能を有する他の要素を、修正するように機能する。このファンクショナリティは、好ましくは、図１に示したスペル修正のファンクショナリティから出力された、スペル修正された入力テキストに対して作用する。

欠落していると疑われる要素の特定は、好ましくは、以下に示す方法によって実行される。

最初に、スペル修正された入力テキストに関して、素性グラムが生成される。スペル修正された入力テキストにおける各素性グラムの、コーパス（好ましくはインターネットコーパス）内での出現頻度（ＦＲＥＱＦ−Ｇ）が解明される。

各素性グラムにおける予想出現頻度（ＥＦＲＥＱＦ−Ｇ）が、以下のように計算される。

素性グラムがｎ個の単語を有していると仮定すると、これらの単語は、Ｗ_１〜Ｗ_ｎとして定義される。Ｗ_ｉは、素性グラムにおけるｉ番目の単語を指定している。

与えられた素性グラムの予想出現頻度は、その素性グラムの予想頻度における最も高いものだと考えられる。この予想頻度は、素性グラム内の単語を、各単語Ｗ_１．．．Ｗ_{（ｎ−１）}に続く２つの連続部分に分割することに基づくものである。

素性グラム内の単語を、各単語Ｗ_ｉに続く２つの連続部分に分割することに基づく、素性グラムの予想頻度については、以下のように表現することが可能である。
Ｗ_ｉについてのＥＦＲＥＱＦ−Ｇ＝（ＦＲＥＱ（Ｗ_１−Ｗ_ｉ）＊ＦＲＥＱ（Ｗ_ｉ＋１−Ｗ_ｎ））／（全ての単語におけるコーパス内での頻度の合計）

各素性グラムの予想頻度が、素性グラム内の単語における可能性のある全ての分割に基づいて、計算される。

Ｗ_ｉについてのＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇが所定の閾値よりも小さい場合、Ｗ_ｉについての素性グラムは、その素性グラム内のＷ_ｉとＷ_ｉ＋１との間において、冠詞、前置詞、または、句読点が欠落していると疑われるものであると考えられる。

スペル修正された入力テキストにおける２つの連続している単語の間の、疑わしい単語分岐点が、修正するために選択される。この選択は、好ましくは、最大量の疑わしくない文脈データによって囲まれている、単語分岐点を見つけようと試みることによって、実施される。選択される単語分岐点は、疑わしくない単語分岐点からなる最も長いシーケンス（単数または複数）を、その近傍に有していることが好ましい。

各単語分岐点に関して、１つ（または、好ましくは複数の）代替的な挿入が生成される。この生成は、好ましくは、欠落している可能性のある句読点、冠詞、前置詞、接続詞、または、他の要素（通常、名詞、動詞、または、形容詞は含まれない）からなる、所定のセットに基づいて実施される。

さまざまな代替的な挿入における、文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングが、実施される。このスコアリングは、好ましくは、修正における代替スコアリング・アルゴリズムに基づいて、実施される。このアルゴリズムは、図９を用いて既に説明したものであり、以下でも説明する。

以下の実施例を示す。

以下の入力テキストが与えられる。
I can't read please help me

図５を用いて上述したファンクショナリティを用いることによって、以下の素性グラムが生成される（部分的なリスト）。
I can't read；can't read please；read please help；please help me

上述したファンクショナリティを用いることによって、上述した素性グラムのリストに関して、インターネットコーパス内での出現頻度のマトリクスが生成される。このマトリクスは、典型的には、表４５のように示される。

素性グラム内の各単語Ｗｉについては、素性グラムごとに、以下の式に従って予想出現頻度が生成される。
Ｗ_ｉについてのＥＦＲＥＱＦ−Ｇ＝（ＦＲＥＱ（Ｗ_１−Ｗ_ｉ）＊ＦＲＥＱ（Ｗ_ｉ＋１−Ｗ_ｎ））／（全ての単語におけるコーパス内での頻度の合計）

これらの計算のいくつかにおける実験的な結果を、表４６および表４７に示す。

上述した結果からわかるように、素性グラムのそれぞれにおける実際の出現頻度は、それらの予想出現頻度よりも小さい。これは、要素（例えば句読点）がないと疑われることを示している。

単語「read」に続くべき代替的な挿入物のリストが生成される。このリストは、好ましくは、句読点、冠詞、接続詞および前置詞からなる所定のリストを含んでいる。特に、このリストは、ピリオド「．」を含んでいるはずである。

代替の部分的なリストを、以下に示す。
「read please」；「read. Please」；「read of please」；「read a please」

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される。
「I can't read [?]」；「read [?] please help」；「[?] please help me」

図９のステージＩＩＡにおいて説明したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４８に示すように生成される。

クラスタ内に「．」が含まれている場合には、「．」の前後のテキストに関して、「．」を有するクラスタを含んでいるＣＦＳの出現頻度が、別々に取り出される。すなわち、素性グラム「can't read. Please」は、これが２つの別々の文法的な構文解析的フレーズを含んでいるために、生成されないことになる。

※注記：コーパスにおける出現頻度の算出時には、素性グラムの冒頭から「．」が省略されている。例えば、「. Please help me」の頻度は、「Please help me」の頻度に一致する。

図９のステージＤおよびＥにおいて説明したファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「read. Please」を選択する。そして、修正された入力テキストは、以下のようになる。
I can't read. Please help me.

以下に示す実施例は、欠落している前置詞を追加するファンクショナリティを例示するものである。

以下の入力テキストが与えられる。
I sit the sofa

後述するファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
sit the

後述するファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
sit on the；sit of the；sit the

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される。
「I sit the」；「sit the sofa」

図９に関するステージＩＩＡにおいて説明したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表４９に示すように生成される。

図９のステージＩＩＤおよびＩＩＥにおいて説明したファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「sit on the」を選択する。そして、修正された入力テキストは、以下のようになる。
I sit on the sofa．

次に、図１１について説明する。この図は、余分な要素を修正するファンクショナリティの作用を例示する、詳細なフローチャートである。この余分な要素を修正するファンクショナリティは、入力テキストにおける「余分な冠詞、前置詞、句読点、および、主として文法的な機能を有する他の要素」を、修正するように機能する。このファンクショナリティは、好ましくは、図１に示したスペル修正のファンクショナリティから出力された、スペル修正された入力テキストに対して作用する。

当然のことではあるが、図１１に示したファンクショナリティを、図１０に示したファンクショナリティと組み合わせることが可能である。あるいは、図１１のファンクショナリティを、図１０のファンクショナリティと並行して、またはその前に、または、その作用の後に、実行することも可能である。

余分であると疑われる要素の特定は、好ましくは、以下の方法によって実行される。

スペル修正された入力テキストに対して検索が実行され、これにより、余分なものである可能性のある句読点、冠詞、前置詞、接続詞、および他の要素（通常、名詞、動詞、または、形容詞はふくまれない）からなる所定のセットに属する要素を特定する。

要素ごとに、その要素を含んでいる、誤用されている単語および文法を修正され、スペルを修正された入力テキストにおける全ての部分に関して、素性グラムが生成される。これらの各素性グラムに関して、および、その要素を除去した対応する素性グラムに関して、出現頻度が計算される。

要素を除去した素性グラムに関する出現頻度が、要素の存在する対応する素性グラムに関する出現頻度を超えている場合、その要素は、疑わしいものであると見なされる。

修正するために、誤用されている単語および文法を修正され、スペルを修正された入力テキスト内の疑わしい要素が選択される。この選択は、好ましくは、最大量の疑わしくない文脈データによって囲まれている要素を見つけようと試みることによって、実施される。好ましくは、疑わしくない単語からなる最も長いシーケンス（単数または複数）を、その近傍に有している要素が選択される。

各疑わしい要素に関して、要素を削除する可能性が生成される。さまざまな代替（すなわち、要素を削除したもの、または要素を削除していないもの）に対する文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングが実施される。このスコアリングは、好ましくは、修正における代替スコアリング・アルゴリズムに基づいて実施される。このアルゴリズムは、図９を用いて既に説明したものであり、以下でも説明する。

以下の実施例が実例となる。

以下の入力テキストが与えられる。
It is a nice, thing to wear.

この入力テキストが検索され、これにより、一般的に余分な要素（例えば、句読点、前置詞、接続詞、および冠詞）からなる所定のリストに属している任意の要素を特定する。

この例では、このようなリストに属しているコンマ「，」が特定される。

図５を用いて上述したファンクショナリティを用いることによって、表５０に示すような、コンマ「，」を含む素性グラムが生成され、さらに、コンマを含まない同じ素性グラムも生成される（部分的なリスト）。

上述したファンクショナリティを用いることによって、上述した素性グラムのリストに関して、インターネットコーパス内での出現頻度のマトリクスが生成される。このマトリクスは、典型的には、表５１のように示される。

上記のマトリクスからわかるように、「，」を除去した素性グラムに関する出現頻度は、「，」の存在する対応する素性グラムに関する出現頻度を超えている。従って、「，」は、余分であると疑われるものであると見なされる。

以下の代替（コンマを保持しているもの、および、コンマを除去したもの）に対する、文脈ベースのスコアリングに基づいて、コンマの除去の可能性が検討される。
「nice,」；「nice」

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「a nice,」；「nice, thing」；「is a nice,」；「a nice, thing」；「nice, thing to」

図９のステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表５２に示すように生成される。

少なくとも最小閾値の出現頻度を有している他のＣＦＳ内に完全に含まれる、全てのＣＦＳが除去される。例えば、以下の素性グラムが除去される。
「a nice,」；「nice, thing」

この実施例では、残っているＣＦＳは、以下の素性グラムである。
「is a nice,」；「a nice, thing」；「nice, thing to」

図９のステージＤおよびＥにおいて既に説明した最終的な優先スコアを用いることによって、コンマを含まない代替的な修正「nice」が選択される。コンマを除去した後の入力テキストは、以下のようになる。
It is ａ nice thing to wear.

以下の実施例は、余分な冠詞を除去するファンクショナリティを例示するものである。

以下の入力テキストが与えられる。
We should provide them a food and water.

図１１を用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
a food

図１１を用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される（部分的なリスト）。
a food；food

図５を用いて上述したファンクショナリティを用いることによって、以下のＣＦＳが生成される（部分的なリスト）。
「provide them a food」；「them a food and」；「a food and water」

この明細書においてサブステージＩＩＡに関連して上述したファンクショナリティを用いることによって、上述したＣＦＳのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表５３に示すように生成される。

図９において説明したスコアリングのファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「food」を選択する。そして、修正された入力テキストは、以下のようになる。
We should provide them food and water．

当業者にとっては当然のことではあるが、本発明は、この明細書において詳細に表示および説明したものに限定されるわけではない。むしろ、本発明の範囲は、この明細書において表示および説明したさまざまな構成の組み合わせ（および部分的な組み合わせ）、および、これらの改良形（従来技術にはないものの、上記の説明を読んだ当業者には想定されるはずのもの）の双方を含んでいる。

Claims

コンピューターを利用した言語修正システムであって、当該システムは、
代替生成器を有し、該代替生成器は、入力文に基づいて、テキストベースの表現を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替を与えるものであり、
選択器を有し、該選択器は、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピューターを利用した言語修正システム。
前記選択器が、下記の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
スペル修正、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項１に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の修正機能のうちの少なくとも２つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
スペル修正、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項１に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の修正の時間的順序のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること、および、
誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
である、
請求項３に記載のコンピュータを利用した言語修正システム。
前記入力文が、下記のファンクショナリティのうちの１つによって提供されるものであり、該ファンクショナリティが、
ワードプロセッサのファンクショナリティ、
機械翻訳のファンクショナリティ、
音声テキスト変換のファンクショナリティ、
光学式文字認識のファンクショナリティ、および、
インスタントメッセージのファンクショナリティ、
であり、かつ、
前記選択器が、下記の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項２〜４のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項２〜５のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記文法修正のファンクショナリティが、句読点、動詞活用、単数形／複数形、冠詞、および、前置詞のうちの、少なくとも１つを修正するファンクショナリティを含んでいる、請求項２〜６のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも１つを含んでいる、請求項２〜７のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記文脈ベースのスコアリングのファンクショナリティが、さらに、前記インターネットコーパス内での文脈素性シーケンスの正規化された出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項８に記載のコンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
代替生成器を有し、該代替生成器は、言語入力に基づいて、テキストベースの表現を生成し、該表現は、その言語入力中の複数の単語のそれぞれのための複数の代替を与えるものであり、
選択器を有し、該選択器は、前記言語入力の中の複数の単語の少なくともいくつかのための前記複数の代替のうちから選択された代替同士の間の関連性に、少なくとも部分的に基づいて、少なくとも該言語入力の中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
前記言語入力が、入力文、および、入力テキストのうちの、少なくとも１つを有している、請求項１０に記載のコンピュータを利用した言語修正システム。
前記言語入力が音声であり、
前記生成器が、前記音声による言語入力を、テキストベースの表現へと変換するものであり、該表現が、前記言語入力の中の複数の単語のための複数の代替を与えるものである、
請求項１０または請求項１１に記載のコンピュータを利用した言語修正システム。
前記言語入力が、
テキスト入力、
光学式文字認識のファンクショナリティからの出力、
機械翻訳のファンクショナリティからの出力、および、
ワードプロセッシングのファンクショナリティからの出力、
のうちの少なくとも１つであり、かつ、
前記生成器が、テキストによる前記言語入力を、その言語入力の中の複数の単語のための複数の代替を与えるテキストベースの表現へと変換する、
請求項１０または１１に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の修正機能のうちの少なくとも２つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
スペル修正、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、
請求項１０〜１３のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の修正の時間的順序のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること、および、
誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
である、
請求項１４に記載のコンピュータを利用した言語修正システム。
前記言語入力が音声であり、かつ、
前記選択器が、下記の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項１０〜１２のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の機能のうちの少なくとも２つを実行することによって、前記選択を行うように作動するものであり、該機能が、
初期選択のために、前記言語入力の中の前記複数の単語の全てよりも少ない単語を含んだ、単語または単語の組み合わせからなる第１のセットを選択すること、
その後、単語または単語の組み合わせからなる前記第１のセットの構成要素を順序付けし、選択における優先順位を設定すること、および、
その後、単語からなる前記第１のセットの構成要素のための前記複数の代替からの選択を行ない、前記選択に影響を与える文脈に沿って、前記複数の単語から他の単語を選ぶこと、ただし、全てを選らばないこと、
である、請求項１０〜１６のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の機能を実行することによって、前記選択を行うように作動するものであり、該機能が、
少なくとも２つの単語を有する構成要素に関する選択を行う際に、前記少なくとも２つの単語の一方のための前記複数の代替のそれぞれと結合している、前記少なくとも２つの単語の他方のための前記複数の代替のそれぞれを評価すること、
である、請求項１０〜１７のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項１０〜１８のいずれか１項に記載のコンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の少なくとも大部分の単語を、その言語入力の文脈内でのそれらの適合度に基づいて評価するものであり、かつ、
修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に、少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
さらに、当該システムが、
疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、誤用されている単語としてどの程度疑われているのかを示すものである、
請求項２０に記載のコンピュータを利用した言語修正システム。
前記修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである、請求項２０または２１に記載のコンピュータを利用した言語修正システム。
前記言語入力が音声であり、かつ、
前記選択器が、下記の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項２０〜２２のいずれか１項に記載のコンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
誤用単語調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、
代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも１つが、インターネットコーパスにおける該言語入力の中の前記単語の文脈素性と一致しており、
選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、
代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、
選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの１つ１つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
代替生成器を有し、該代替生成器は、言語入力に基づいて、該言語入力の中の少なくとも１つの単語のための複数の代替を生成するものであり、
選択器を有し、該選択器は、前記少なくとも１つの単語のそれぞれ、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された前記少なくとも１つの単語のための前記複数の代替のうちの１つ１つと比較して、前記少なくとも１つの単語に優先的に付勢を加えるものであり、前記付勢は、前記入力を与える人の不確実さを示す入力不確実性メトリックの関数であり、かつ、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
不正確な単語の調査器を有し、該不正確な単語の調査器は、言語入力の中の少なくとも大部分の単語を評価するものであり、該調査器は、前記入力を与えた人の不確実さを示す入力不確実性メトリックに少なくとも部分的に反応し、該調査器は、不正確であると疑われる単語の出力を提供するものであり、
代替生成器を有し、該代替生成器は、前記不正確であると疑われる単語の出力によって特定された不正確であると疑われる単語のための、複数の代替を生成するものであり、
選択器を有し、該選択器は、不正確であると疑われる単語のそれぞれ、および、前記代替生成器によって生成された複数の代替のなかからの選択を行うものであり、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
スペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの、少なくとも１つを有し、これらモジュールは、複数単語の入力を受け取りかつ修正出力を提供するものであり、
前記のスペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの少なくとも１つは、それぞれ、
代替単語候補生成器、および、選択器を備えており、
代替単語候補生成器は、
前記入力の中の単語に対する音声の類似性に基づいて、代替単語を提示するとともに、音声の類似性のメトリックを示すように作動する、音声の類似性のファンクショナリティを含み、かつ、
前記入力の中の単語に対する文字列の類似性に基づいて、代替単語を提示するとともに、各代替単語に関する文字列の類似性のメトリックを示すように作動する、文字列の類似性のファンクショナリティを含み、
前記選択器は、前記音声の類似性のメトリックおよび前記文字列の類似性のメトリックを、文脈ベースの選択のファンクショナリティとともに使用することによって、前記出力の中の単語、または、前記代替単語候補生成器によって提示された代替単語候補のいずれか一方を選択するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、
文脈素性シーケンス特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる文脈素性シーケンスを特定するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
当該システムは、
代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、
文脈素性シーケンス出現のファンクショナリティを有し、該ファンクショナリティは、インターネットコーパスを使用するとともに、前記代替を含んでいるさまざまな文脈素性シーケンスを、該インターネットコーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、
選択器を有し、該選択器は、前記出現出力を使用して修正出力を提供するものであり、
前記文脈素性シーケンス特定のファンクショナリティが、文脈素性シーケンスフィルタリングのファンクショナリティを有し、この文脈素性シーケンスフィルタリングのファンクショナリティが、
エラーがあると疑われる文脈素性シーケンスを除去するためのファンクショナリティ、
前記複数単語の入力に対する、より以前の修正反復において導入された単語を含んでいる文脈素性シーケンス、および、所定の信頼レベル閾値を下回る信頼レベルを有している文脈素性シーケンスに対して、マイナスの付勢を印加するためのファンクショナリティ、および、
所定の頻度閾値を上回る出現頻度を有している他の文脈素性シーケンス内に含まれる文脈素性シーケンスを除去するためのファンクショナリティ、
のうちの少なくとも１つを含んでいる、
前記コンピュータを利用した言語修正システム。
前記選択器が、下記の修正機能のうちの少なくとも２つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
スペル修正、
誤用されている単語の修正、
文法修正、および、
語彙改善、
である、請求項２４〜２９のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記選択器が、下記の修正の時間的順序のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも１つよりも先に、スペル修正があること、および、
誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
である、請求項３０に記載のコンピュータを利用した言語修正システム。
前記言語入力が音声であり、かつ、
前記選択器が、下記の修正機能のうちの少なくとも１つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
文法修正、
誤用されている単語の修正、および、
語彙改善、
である、請求項２４〜３１のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項２４〜３２のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記選択器が、さらに、ユーザーの入力不確実性メトリックに少なくとも部分的に基づいて、前記選択を行うように作動する、請求項２４、２５、２８、２９、３０、３１、３２、および、３３のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記ユーザの入力不確実性メトリックが、前記入力を与える人物の不確実さの測定に基づく関数である、請求項３４に記載のコンピュータを利用した言語修正システム。
前記選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する、請求項２４〜３５のいずれか１項に記載のコンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、
文脈素性シーケンス特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる文脈素性シーケンスを特定するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
当該システムは、
代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、
出現のファンクショナリティを有し、該ファンクショナリティは、インターネットコーパスを使用するとともに、前記代替を含んでいる文脈素性シーケンスを、該インターネットコーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、
修正出力生成器を有し、該修正出力生成器は、前記出現出力を使用して修正出力を提供するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
文法的なエラーの調査器を有し、該調査器は、言語入力の中の少なくとも大部分の単語を、この言語入力の文脈に対するそれらの適合度に基づいて評価するものであり、
修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
さらに、当該システムが、
疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、文法的なエラーを有している単語としてどの程度疑われているのかを示すものである、
請求項３８に記載のコンピュータを利用した言語修正システム。
前記修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである、請求項３８または３９に記載のコンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、
代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも１つが、該言語入力の中の前記単語の文脈素性と一致しており、
選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
コンピュータを利用した言語修正システムであって、当該システムは、
文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、
代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、
選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの１つ１つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの１つ１つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、
修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
Ｎ−グラム抽出のファンクショナリティを含んでおり、かつ、
スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも１つを含んでおり、
前記のＮ−グラム抽出のファンクショナリティは、前記入力文からＮ−グラムを抽出するように作動するものであり、該Ｎ−グラムは、Ｎ個の連続的な単語のシーケンスであり、
前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたＮ−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたＮ−グラムであり、
前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたＮ−グラムであり、
前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、Ｎ−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
前記コンピュータを利用した言語修正システム。
前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項４１または４２に記載のコンピュータを利用した言語修正システム。
さらに、当該システムが、次のファンクショナリティのうちの少なくとも１つを有しており、該ファンクショナリティが、
スペル修正のファンクショナリティ、
誤用されている単語を修正するファンクショナリティ、
文法修正のファンクショナリティ、および、
語彙改善のファンクショナリティ、
であって、これらのファンクショナリティが、前記の文脈ベースのスコアリングのファンクショナリティと協働するものである、請求項１に記載のコンピュータを利用した言語修正システム。
前記の文脈ベースのスコアリングのファンクショナリティが、さらに、前記インターネットコーパス内でのＣＦＳの正規化された出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項４４記載のコンピュータを利用した言語修正システム。
前記の文脈ベースのスコアリングのファンクショナリティが、さらに、ＣＦＳの重要性のスコアに少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項４４〜４５のいずれか１項に記載のコンピュータを利用した言語修正システム。
前記ＣＦＳの重要性のスコアが、
品詞タギングおよび構文解析のファンクショナリティの作用、ＣＦＳの長さ、ＣＦＳにおける各単語の出現頻度、および、ＣＦＳのタイプ、
のうちの少なくとも１つの関数である、
請求項４４〜４６のいずれか１項に記載のコンピュータを利用した言語修正システム。
さらに、語彙改善のファンクショナリティを有し、該ファンクショナリティは、
表現の悪い単語を特定するファンクショナリティと、
代替的な語彙改善案を生成するファンクショナリティと、
を含んでおり、
前記の代替的な語彙改善案を生成するファンクショナリティが、シソーラスの前処理のファンクショナリティを含んでおり、それが、代替的な語彙改善案を生成するように作動するものである、
請求項１記載のコンピュータを利用した言語修正システム。
当該システムが、さらに、
信頼レベル割り当て器を有し、該信頼レベル割り当て器は、前記複数の代替から選択された代替に対して、信頼レベルを割りあてるように作動するものであり、
上記修正生成器は、前記信頼レベルに少なくとも部分的に基づいて、修正出力を提供するように作動するものである、
請求項１記載のコンピュータを利用した言語修正システム。
前記複数の代替が、文脈素性シーケンス（ＣＦＳ）に基づいて評価され、かつ、前記信頼レベルが、下記のパラメーターのうちの少なくとも１つに基づくものであって、該パラメーターが、
選択されたＣＦＳの、数、タイプ、および、スコアリング、
該ＣＦＳの文脈における、前記複数の代替の出現頻度の統計的な有意性の測定値、
前記ＣＦＳのそれぞれの優先メトリック、および、前記複数の代替の単語の類似性スコアに基づく、前記複数の代替の１つの選択における、一致の程度、
第１の所定の最小閾値を超える、前記複数の代替の１つの、非文脈的な類似性スコア、および、
第２の所定の最小閾値を超えるＣＦＳスコアを有するとともに、第３の所定の閾値よりも大きい優先スコアを有する前記ＣＦＳの数によって示される、利用可能な文脈データの範囲、
である、請求項４９に記載のコンピュータを利用した言語修正システム。
さらに、句読点エラー調査器を有し、該調査器は、前記言語入力の中の少なくともいくつかの単語および句読点を、前記言語入力の文脈素性シーケンスにおけるインターネットコーパス内での出現頻度に基づいた前記言語入力の文脈内での、前記単語および句読点の適合度に基づいて評価するものであり、
前記修正生成器が、また、前記句読点エラー調査器によって行われた評価に少なくとも部分的に基づいて、前記修正出力を提供するように作動するものである、
請求項１記載のコンピュータを利用した言語修正システム。
前記修正生成器が、欠落している句読点を修正するファンクショナリティ、余分な句読点を修正するファンクショナリティ、および、句読点を置換修正するファンクショナリティのうちの、少なくとも１つを有している、請求項５１に記載のコンピュータを利用した言語修正システム。
さらに、文法的要素エラーの調査器を有し、該調査記は、前記入力文の中の少なくともいくつかの単語を、前記入力文の文脈素性シーケンスにおける前記インターネットコーパス内での出現頻度に基づいた、前記入力文の文脈に対する前記単語の適合度に基づいて評価するものであり、
前記修正生成器が、前記文法的要素エラーの調査器によって行われた評価に少なくとも部分的に基づいて、前記修正出力を提供するように作動するものである、
請求項１記載のコンピュータを利用した言語修正システム。
前記修正生成器が、欠落している文法的要素を修正するファンクショナリティ、余分な文法的要素を修正するファンクショナリティ、および、文法的要素を置換修正するファンクショナリティのうちの、少なくとも１つを有している、請求項５３に記載のコンピュータを利用した言語修正システム。
前記文法的要素が、冠詞、前置詞、および、接続詞のうちの１つである、請求項５３または５４に記載のコンピュータを利用した言語修正システム。