JP5752150B2

JP5752150B2 - 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正

Info

Publication number: JP5752150B2
Application number: JP2012550565A
Authority: JP
Inventors: ザンビル、ヤエルカロブ; ザンビル、アビネール
Original assignee: ジンジャーソフトウェア、インコーポレイティッド
Priority date: 2010-02-01
Filing date: 2011-01-26
Publication date: 2015-07-22
Anticipated expiration: 2031-01-26
Also published as: US20150220509A1; JP2013519131A; WO2011092691A1; CN102884518A; CA2787390A1; US20130006613A1; EP2531930A1; KR20120125310A; US9015036B2

Description

関連出願への参照
AUTOMATIC CONTEXT SENSITIVE LANGUAGE CORRECTION USING AN INTERNET CORPUS PARTICULARLY FOR SMALL KEYBOARD DEVICESというタイトルの２０１０年２月１日に出願された米国仮特許出願シリアル番号61/300,081が本明細書により参照され、その開示は、参照することにより本明細書によって援用され、かつ、37 CFR 1.78(a)(4)および(5)(i)に従ってその優先権が本願で主張される。

発明の分野
本発明は、概して、コンピュータ支援の言語訂正に関する。

発明の背景
以下の刊行物は、当該技術分野の現状を表すものと思われる。
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号および第4,674,065号。
米国特許出願公開第2006/0247914号および第2007/0106937号。

発明の要旨
本発明は、ハンドヘルド装置、モバイル装置、タッチスクリーン装置およびタブレットＰＣ装置などの小型キーボード装置向けのコンピュータベースの言語訂正のための改善されたシステムおよび機能を提供することを目的とする。

すなわち、本発明の好ましい実施形態に従って、ハンドヘルド装置、モバイル装置、タッチスクリーン装置およびタブレットＰＣ装置などの小型キーボード装置に特に適した言語訂正システムが提供され、当該システムは、入力センテンスに基づいて、該センテンス中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、インターネットコーパスに少なくとも部分的に基づいて、前記センテンス中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記選択器は、綴り訂正機能、誤用単語の訂正機能、および、文法訂正機能、のうちの少なくとも一つに基づいて前記選択を行うよう機能する。

付加的または代替的に、前記入力センテンスは、ショートメッセージサービス（ＳＭＳ）機能、電子メール機能、ウェブ検索機能、ウェブページ編集ボックス機能、小型キーボード装置ワードプロセッサ機能および音声テキスト変換機能のうちの一つによって提供され、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうち少なくとも一つに基づいて前記選択を行うよう機能する。

好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。付加的または代替的には、前記文法訂正機能は、句読点、動詞の活用、名詞の単数／複数、冠詞および前置詞の訂正機能のうちの少なくとも一つを含んでいる。

本発明の好ましい実施形態によれば、前記文法訂正機能は、置換、挿入および脱落の訂正機能のうちの少なくとも一つを含んでいる。

好ましくは、前記選択器は、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的に基づいて、前記複数の選択肢をランク付けするよう機能する文脈ベースのスコア付け機能を含んでいる。付加的に、前記文脈ベースのスコア付け機能はまた、前記インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的に基づいて、前記複数の選択肢をランク付けするよう機能する。

本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適した言語訂正システムが提供される。該システムは、綴り訂正機能、誤用単語の訂正機能および文法訂正、ならびに、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正のうちの少なくとも一つと協力するとともに、インターネットコーパスを用いる文脈特徴シーケンス機能、のうちの少なくとも一つを含んでいる。

好ましくは、前記文法訂正機能は、句読点、動詞の活用、名詞の単数／複数、冠詞および前置詞の訂正機能のうちの少なくとも一つを含んでいる。付加的または代替的に、前記文法訂正機能は、置換、挿入および脱落の訂正機能のうちの少なくとも一つを含んでいる。

本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能のうちの少なくとも一つを含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能のうちの少なくとも一つと協力するとともに、インターネットコーパスを用いるものである。

好ましくは、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能のうちの少なくとも二つを含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能のうちの少なくとも二つと協力するとともに、インターネットコーパスを用いるものである。

本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能を含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能と協力するとともに、インターネットコーパスを用いるものである。

好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語生成器を含んでいる。

本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムがさらに提供される。該システムは、言語入力に基づいて、センテンス中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器であって、前記言語入力中の前記複数の単語の少なくとも一部について前記複数の選択肢から選択されたもの同士の関係に少なくとも部分的に基づいて該選択をする選択器と、前記選択器による選択に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記言語入力は、入力センテンスと入力テキストのうちの少なくとも一つを含んでいる。付加的または代替的に、前記言語入力は音声であり、前記生成器は、前記音声での言語入力を、前記言語入力中の複数の単語について複数の選択肢を提供するテキストベースの表現に変換するものである。

本発明の好ましい実施形態によれば、前記言語入力は、テキスト入力、およびワードプロセッシング機能の出力のうちの少なくとも一つであり、前記生成器は、前記テキストでの言語入力を、前記言語入力中の複数の単語について複数の選択肢を提供するテキストベースの表現に変換するものである。

好ましくは、前記選択器は、綴り訂正機能、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。

本発明の好ましい実施形態によれば、前記言語入力は音声であり、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。

好ましくは、前記選択器は、以下の機能：
初期選択のために、単語または単語の組み合わせの第一セットを選択する機能であって、該単語の組み合わせは前記言語入力中の前記複数の単語の全てではなく一部の単語を含むものである機能、
その後、選択の優先度を確立するために、前記単語または単語の組み合わせの第一セットの要素に順序付けをする機能、および、
その後、前記第一セットの単語の要素について前記複数の選択肢の中から選択を行う際に、該選択に影響する文脈として、前記複数の単語の中から他の単語を、全てではないが、選択する機能、
のうちの少なくとも二つを実行することにより前記選択を行うよう機能する。付加的または代替的に、前記選択器は、以下の機能：
少なくとも二つの単語を有する要素についての選択を行う際に、該少なくとも二つの単語の各々についての前記複数の選択肢の各々の評価を、該少なくとも二つの単語の互いについての前記複数の選択肢の各々と組み合わせて行う機能、
を実行することによって前記選択を行うよう機能する。

本発明の好ましい実施形態によれば、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。

またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも大部分を評価する誤用単語検出器と、前記検出器による評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムはまた、前記言語入力に基づいて、該言語入力中の前記少なくとも大部分の単語のうちの少なくとも一つについて複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記少なくとも大部分の単語のうちの前記少なくとも一つの各々について少なくとも前記複数の選択肢の中から選択を行うための選択器をさらに含み、前記訂正生成器は、前記選択器による選択に基づいて、前記訂正出力を提供するよう機能する。付加的または代替的に、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムはまた、前記言語入力中の前記単語の前記少なくとも大部分のうちの少なくとも一部についてそれが誤用単語である疑いの程度を表示する被疑単語出力表示器をさらに含んでいる。

本発明の好ましい実施形態によれば、前記訂正生成器は、ユーザの介入を必要とすることなく、前記検出器による評価に少なくとも部分的に基づいて、訂正テキストの出力を提供するよう機能する自動訂正言語生成器を含んでいる。

好ましくは、前記言語入力は音声であり、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。

本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価する誤用単語検出器と、前記検出器によって疑わしい単語として評価された前記言語入力中の前記単語のうちの少なくとも一部について複数の選択肢を生成する選択肢生成器であって、前記言語入力中の単語についての前記複数の選択肢の少なくとも一つは、インターネットコーパス中での前記言語入力中の前記単語の文脈的な特徴と一致するものである、選択肢生成器と、少なくとも前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に少なくとも部分的に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。

さらに、本発明のまた他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価し、疑わしい単語を特定する誤用単語検出器と、前記疑わしい単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記疑わしい単語、および、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに対して、前記疑わしい単語にとって有利になるバイアスを適用する選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、入力に基づいて、該入力中の少なくとも一つの単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記少なくとも一つの単語、および、前記選択肢生成器によって生成された前記少なくとも一つの単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記少なくとも一つの単語についての前記複数の選択肢のうちの一つ一つに対して、前記少なくとも一つの単語にとって有利になるバイアスであって、前記入力を提供する人の不確実性を示す入力不確実性メトリックの関数であるバイアスを適用する選択器と、前記選択器による選択に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

またさらに、本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語の少なくとも大部分を評価し、前記入力を提供する人の不確実性を示す入力不確実性メトリックに少なくとも部分的に応答し、正しくないと疑われる単語の出力を提供する、誤単語検出器と、前記正しくないと疑われる単語の出力によって特定された被疑誤単語について複数の選択肢を生成する選択肢生成器と、各被疑誤単語、および、前記選択肢生成器によって生成された前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語入力を受けて訂正出力を提供する、綴り訂正モジュール、誤用単語訂正モジュールおよび文法訂正モジュールのうちの少なくとも一つを含み、前記綴り訂正モジュール、前記誤用単語訂正モジュールおよび前記文法訂正モジュールのうちの前記少なくとも一つの各々は、選択的単語候補生成器と選択器を含み、前記選択的単語候補生成器は、前記入力中の単語に対する音声類似度に基づいて単語選択肢を提案し、かつ、音声類似度のメトリックを表示するよう機能する音声類似度機能と、前記入力中の単語に対する文字列の類似度に基づいて単語選択肢を提案し、かつ、単語選択肢ごとに文字列の類似度のメトリックを表示するよう機能する文字列類似度機能を含み、前記選択器は、文脈ベースの選択機能と一緒に、前記音声類似度のメトリックおよび文字列の類似度のメトリックを用いることによって、前記出力中の単語、または、前記選択的単語候補生成器によって提案された選択的単語候補のいずれかを選択するよう機能する。

またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語の言語入力を受けて疑わしい単語を表示する被疑単語出力を提供する被疑単語特定機能と、前記疑わしい単語を含む特徴を特定するよう機能する特徴特定機能と、前記疑わしい単語について選択肢を特定する選択肢選択器と、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に応じて前記選択肢を含む各種特徴にランクを付ける特徴発生機能と、前記発生出力を用いて訂正出力を提供する選択器を含み、前記特徴特定機能は特徴除去機能を含み、該特徴除去機能は、誤りを含むと疑われる特徴を除去する機能、前記複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ、信頼水準の所定の閾値を下回る信頼水準を有する特徴を、負にバイアスする機能、および、所定の頻度の閾値を上回る発生頻度を有する他の特徴に含まれる特徴を除去する機能のうちの少なくとも一つを含むものである。

本発明の好ましい実施形態によれば、前記言語入力は音声であり、前記選択器は、文法訂正機能、および誤用単語の訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。

好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。

本発明の好ましい実施形態によれば、前記選択器はまた、ユーザ入力不確実性メトリックに少なくとも部分的に基づいて、前記選択を行うよう機能する。付加的に、前記ユーザ入力不確実性メトリックは、前記入力を提供する人の不確実性の測定量に基づく関数である。付加的または代替的に、前記選択器はまた、ユーザ入力履歴学習機能を用いる。

またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語の言語入力を受けて疑わしい単語を表示する被疑単語出力を提供する被疑単語特定機能と、前記疑わしい単語を含む特徴を特定するよう機能する特徴特定機能と、前記疑わしい単語に対する選択肢を特定する選択肢選択器と、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に応じて前記選択肢を含む特徴にランクを付ける発生機能と、前記発生出力を用いて訂正出力を提供する訂正出力生成器を含み、前記特徴特定機能は、Ｎグラム特定機能、および共起特定機能、ならびに、スキップグラム特定機能、スイッチグラム特定機能、および、ユーザによって以前に使用された特徴特定機能のうちの少なくとも一つ、のうちの少なくとも一つを含んでいる。

またさらに、本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも大部分を評価する文法誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記言語入力に基づいて、前記言語入力中の前記少なくとも大部分の単語のうちの少なくとも一つについて複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記少なくとも大部分の単語のうちの前記少なくとも一つの各々について少なくとも前記複数の選択肢の中から選択をするための選択器をさらに含み、前記訂正生成器は、前記選択器による選択に基づいて前記訂正出力を提供するよう機能する。

本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記言語入力中の前記単語の前記少なくとも大部分のうちの少なくとも一部についてその単語が文法上の誤りを含んでいる疑いの程度を表示する被疑単語出力表示器をさらに含んでいる。

好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正テキストの出力を提供するよう機能する自動訂正言語生成器を含んでいる。

また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価する文法誤り検出器と、前記検出器によって疑わしい単語と評価された前記言語入力中の単語の少なくとも一部について複数の選択肢を生成する選択肢生成器であって、前記言語入力中の単語についての前記複数の選択肢のうちの少なくとも一つは、前記言語入力中の前記単語の文脈的な特徴と一致するものである、選択肢生成器と、少なくとも前記複数の選択肢の中から選択をする選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

さらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価し、疑わしい単語を特定する文法誤り検出器と、前記疑わしい単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記疑わしい単語、および、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに対して、前記疑わしい単語に有利になるバイアスを適用する選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含むものである。

またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的に基づいて、各種訂正用選択肢に文脈ベースのスコア付けをすることを含んでいる。

好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記文脈ベースのスコア付けと協力する、綴り訂正機能、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つをさらに含んでいる。

本発明の好ましい実施形態によれば、前記文脈ベースのスコア付けはまた、インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的に基づくものである。付加的または代替的に、前記文脈ベースのスコア付けはまた、ＣＦＳの重要度のスコアに少なくとも部分的に基づくものである。付加的に、前記ＣＦＳの重要度のスコアは、品詞のタグ付けおよびセンテンスの構文解析機能の操作、ＣＦＳの長さ、ＣＦＳ中の単語の各々の発生頻度、およびＣＦＳのタイプ、のうちの少なくとも一つの関数である。

また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、入力センテンスに基づいて、該センテンス中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記センテンス中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器と、前記複数の選択肢から選択された選択肢に対して信頼水準を割り当てるよう機能する信頼水準割当器と、前記選択器による選択に基づいて、および、前記信頼水準に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記複数の選択肢は文脈特徴シーケンス（ＣＦＳ）に基づいて評価され、前記信頼水準は、以下のパラメータ：
選択されたＣＦＳの個数、タイプ、およびスコア、
前記ＣＦＳの文脈における前記複数の選択肢の発生頻度の統計的有意性の度合い、
前記ＣＦＳの各々の選好性メトリックおよび前記複数の選択肢の単語類似度スコアに基づく、前記複数の選択肢のうちの一つの選択についてのコンセンサスの度合い、
第一の所定の最小閾値を上回る、前記複数の選択肢のうちの前記一つの非文脈的な類似度スコア、および
第二の所定の最小閾値を上回るＣＦＳスコアと、第三の所定の閾値を上回る選好性スコアを有する、前記ＣＦＳの個数によって示される、利用可能な文脈データの程度
のうちの少なくとも一つに基づくものである。

また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈内での適合度に基づいて評価する句読点誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記訂正生成器は、欠落句読点訂正機能、不要な句読点訂正機能、および句読点置換訂正機能のうちの少なくとも一つを含むものである。

さらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈内での適合度に基づいて評価する文法要素誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。

好ましくは、前記訂正生成器は、欠落文法要素訂正機能、不要な文法要素訂正機能、および文法要素置換訂正機能のうちの少なくとも一つを含むものである。付加的または代替的に、前記文法要素は、冠詞、前置詞、および接続詞のうちの一つである。

本発明は、図面と共に解釈される以下の詳細な説明からより十分に理解および認識されるであろう。

図１は、本発明の好ましい実施形態に従って構築され機能するコンピュータ支援言語訂正用のシステムおよび機能の単純化したブロック図である。図２は、図１のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図３は、図１のシステムおよび機能において好ましくは用いられる誤用単語および文法の訂正機能を示す単純化したフローチャートである。図４は、図１のシステムおよび機能において好ましくは用いられる文脈特徴シーケンス（ＣＦＳ）機能を示す単純化したフローチャートである。図５Ａは、本発明の好ましい実施形態に従う、図２の機能の部分を形成する綴り訂正機能を示す単純化したフローチャートである。図５Ｂは、本発明の好ましい実施形態に従う、図３の機能の部分を形成する誤用単語および文法訂正機能を示す単純化したフローチャートである。図６は、図２および図３の機能において有用である訂正用選択肢を生成するための機能を示す単純化したフローチャートである。図７は、図２の綴り訂正機能において有用である、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行う機能を示す単純化したフローチャートである。図８は、図３、図９および図１０の誤用単語および文法の訂正機能において有用である、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行う機能を示す単純化したフローチャートである。図９は、冠詞、前置詞および句読点の欠落訂正機能の動作を示す単純化したフローチャートである。図１０は、不要な冠詞、前置詞および句読点の訂正機能の動作を示す単純化したフローチャートである。

好ましい実施形態の詳細な説明
いかなるキーボードベースの入力システムにおいても、ユーザが、所望するキーの近傍に位置する１以上のキーを間違って打ってしまうことでエラーが生じることは認識されている。このことは、特に、キーボードが小さい装置では顕著であり、ユーザは、所望のキーの近くの他のキーを間違って叩いてしまったり、所望のキーに加えて他のキーも叩いてしまったりする。このように、例えば、ＱＷＥＲＴＹ配列のキーボードでは、Ｆキーを押そうとしてユーザは、Ｒ、Ｔ、Ｄ、Ｇ、Ｃ、およびＶのうちの１つ以上のキーも一緒に押してしまうことがある。本発明の小型キーボード装置での使用に特に適したコンピュータベースの言語訂正のためのシステムおよび機能は、これらの入力ミスを修復するためにユーザに訂正を示唆する機能を含むことが好ましい。

ここで図１を参照する。図１は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ支援言語訂正用のシステムおよび機能の単純化したブロック図である。図１に見られるように、訂正用のテキストは、１以上のソースから言語訂正モジュール１００に提供される。１以上のソースとしては、以下に限定されないが、携帯電話１０２、ハンドヘルド装置１０４、タブレットＰＣ１０６、タッチスクリーン１０８、および、あらゆる他の小型キーボード装置１１０などのテキスト機能が挙げられる。

言語訂正モジュール１００は、綴り訂正機能１１２、誤用単語および文法の訂正機能１１４を有することが好ましい。

綴り訂正機能１１２および誤用単語および文法の訂正機能１１４が、インターネットコーパス１２０を利用する文脈特徴シーケンス（ＣＦＳ）機能１１８とそれぞれ交信することは、本発明の特有の特徴である。

文脈特徴シーケンスまたはＣＦＳは、本明細書の目的のためには、図４を参照して以下で定義されるＮグラム、スキップグラム、スイッチグラム、共起(co-occurrences)、「ユーザによって以前に使用された特徴(previously used by user features)」、およびそれらの組み合わせを含むものとして定義される。説明の単純化および明確化のために、以下の例の大部分ではｎグラムのみを用いていることに留意されたい。本発明はそれに限定されないことが理解される。

インターネットコーパスは、極めて多くの文脈特徴シーケンスについてのかなりの統計データを提供し、高度にロバストな言語訂正機能をもたらすという点で、インターネットコーパスの使用は重要である。実際、３個以上の単語の組み合わせは、従来の非インターネットコーパスでは非常に乏しい統計を有するが、インターネットコーパスでは許容できるまたは良好な統計を有する。

インターネットコーパスは、通常はインターネットを巡回してウェブサイトのページからテキストを集めることにより、ワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの動的テキストもまた集められる。集められたテキストは、自然言語テキストの統計の蓄積に使用される。インターネットコーパスのサイズは、例えば、１兆（1,000,000,000,000）ワードまたは数兆ワードであり得る。それに反して、もっと典型的なコーパスのサイズは２０億ワード以下である。ウェブコーパスなどの小さいウェブのサンプルは、１００億ワードであるが、これは、ＧＯＯＧＬＥ（登録商標）などの検索エンジンによってインデックスが付けられるウェブテキストの１パーセントよりもはるかに少ない。本発明は、ウェブコーパスなどのウェブのサンプルを使って機能し得るが、好ましくは、もっとはるかに大きいウェブのサンプルを利用してテキスト訂正のタスクを行う。

インターネットコーパスは、以下の方法で用いられることが好ましい。
ローカルインデックスは、インターネットを巡回しインデックスを付けることによって時間をかけて作り上げられている。各ＣＦＳの発生回数は、ＣＦＳ頻度を提供する。ローカルインデックスおよび検索クエリは、インターネットの選択可能な部分に基づいてもよく、かつ、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と普段の言語の用法との間の不一致を訂正するために、インターネットの一部が除外されたり、または適当に重み付けされたりしてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザフォーラムなどの他のウェブサイトよりも大きな重みを与えられてもよい。

好ましくは、入力テキストは、最初に綴り訂正機能１１２に提供され、その後、誤用単語および文法の訂正機能１１４に提供される。入力テキストは、任意の好適なテキストであってよく、小型キーボード装置用途の文脈では、好ましくは、センテンスなどのメッセージまたは電子メールの一部である。

好ましくは、言語訂正モジュール１００は、訂正された単語または単語群ごとに１以上の選択肢の提示を伴う訂正テキストを含む出力を提供する。

ここで図２を参照する。図２は、図１のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図２に見られるように、綴り訂正機能は以下のステップを有することが好ましい。
インターネットで通常使用される適当な名称および単語が充実した従来の辞書を好ましくは用いて、入力テキスト中の綴りの誤りを特定するステップ。好ましくは、その辞書は、以前の電子メール、ｓｍｓメッセージ、文書、連絡、その他、ユーザが小型キーボード装置またはパーソナルコンピュータで挿入したあらゆるテキストなど、ユーザの電話および／またはパーソナルコンピュータからの内容でも充実している。付加的または代替的に、辞書はユーザの手入力による単語を含む。
綴りの誤りを有する一つの、または、連続もしくはほぼ連続した複数の単語を含み得るクラスターに綴りの誤りをグループ化し、訂正のためのクラスターを選択するステップ。この選択は、最も多くの正しい文脈データを含むクラスターを見つける試みである。好ましくは、その付近において正しく綴られた単語の最も長い（一つまたは複数の）シーケンスを有するクラスターが選択される。以上のステップは、図５Ａを参照して以下においてより詳細に説明される。
図６を参照して以下に説明されるアルゴリズムに好ましくは基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図７を参照して以下に説明される、綴り訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、少なくとも部分的に非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行うステップ。
クラスターごとに、上述のスコアに基づいて、一つの綴り訂正を選択し、最も好ましい綴り訂正用選択肢を提示するステップ。
誤った綴りのクラスターを置き換える、誤った綴りの各クラスターのための前記一つの綴り訂正を組み込んだ訂正テキストの出力を提供するステップ。

図２の機能の動作は、以下の例を考慮することにより、より良く理解され得る。
以下の入力テキストが受け取られる。
If he is wuzw

この場合、訂正が、ユーザがテキストを打ち込んでいる途中、センテンスが完了する前に提案される。今の時点で打ち込まれている「wuzw」は、綴りミスとして識別され訂正サイクルが開始される。

表１に見られるように、以下のクラスターが選択される。

以下の訂正用選択肢が、誤った綴りの単語「wuzw」に対して生成される(部分的なリスト)。
was, wise, eyes, wiz

訂正用選択肢ごとに、例えば表２に見られるように、誤った綴りの単語に対する音声および文字列の類似度、キーボードのキーの近接度に基づいて、非文脈的な単語類似度スコアが与えられる。

非文脈的なスコアは、各種方法で導出され得る。一つの例としては、http://en.wikipedia.org/wiki/Levenshtein_distanceで利用できるレーベンシュタイン距離のアルゴリズムを用いることによる。このアルゴリズムは、単語の列、単語の音声表現、キーボード近接性の表現、またはその全ての組み合わせの上に想定され得る。例えば、「wise」という単語は、「wuzw」に類似している。「Ｉ」と「ｕ」がキーボード上で隣同士のキーであり、「w」と「e」もキーボード上で隣同士のキーであり、それらの置換は、レーベンシュタイン距離のアルゴリズムでは、「小さな距離」の編集行為と考えるはずであるからである。

入力センテンスの文脈における適合度に基づいて、表３に見られるように、選択肢ごとに文脈的なスコアも与えられる。この例では、用いられる文脈は、「If he is <wuzw>」である。

文脈的なスコアは、図７を参照して以下に説明されるようにして導出されることが好ましく、また、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の頻度に基づく。

図７に関して以下に説明されるように、文脈的なスコアと非文脈的な単語類似度スコアとの組み合わせに基づいて、単語「wise」が最良の選択肢として選択される。
If he is wise

ユーザは、推奨された訂正の承認後、センテンスを続けてタイプすることができる。代替的に、ユーザは、全ての推奨訂正を無視してタイプを続けることもできる。各時点で、システムは関連性のある訂正を示唆するだろう。ユーザがセンテンスのタイプ打ちを終了したら、フルセンテンスについての推奨訂正が提供されるだろう。

ここで図３を参照する。図３は、図１のシステムおよび機能において好ましくは用いられる誤用単語および文法の訂正機能を示す単純化したフローチャートである。誤用単語および文法の訂正機能は、正しい綴りなのに入力テキストの文脈では誤用となる単語の訂正、ならびに、文法的に正しい単語の代わりに文法的に正しくない単語を使ったもの、不要な単語を使ったもの、単語や句読点が欠落したものを含む、文法上の誤りの訂正を提供する。

図３に見られるように、誤用単語および文法の訂正機能は、以下のステップを有することが好ましい。
図２の綴り訂正機能から出力された、綴りを訂正された入力テキストにおいて、誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは入力センテンスの文脈内での少なくとも大部分の単語の適合度を評価することによって、特定するステップ。
誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは重複しないクラスターにグループ化するステップ。
訂正のためのクラスターを選択するステップ。前記特定ステップ、グループ化ステップおよび選択ステップは、図５Ｂを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図６を参照して以下に説明される訂正用選択肢生成アルゴリズムに好ましくは基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図９を参照して以下に説明される欠落した冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図１０を参照して以下に説明される不要な冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図８を参照して以下に説明される、誤用単語および文法の訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、各種訂正用選択肢に、少なくとも部分的に文脈ベースのスコア付けおよび単語類似度ベースのスコア付けを行うステップ。
クラスターごとに、図８を参照して以下に説明されてもいる上述のスコア付けに基づいて、一つの誤用単語および文法の訂正を選択し、最も好ましい誤用単語および文法の訂正用選択肢を提示するステップ。
正しくないクラスターを置き換える、各クラスターのための前記一つの誤用単語および文法の訂正を組み込んだ、綴り、誤用単語および文法の訂正されたテキストの出力を提供するステップ。

好ましくは、前記のスコア付けは、疑わしい単語についての複数の選択肢のうちの一つ一つに対して、該疑わしい単語にとって有利になるバイアスを適用することを含む。バイアスは、入力をする人の不確実性を示す入力不確実性メトリック（metric）の関数である。

図３の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが受け取られる。
Put it on a singe lost

以下の単語が、誤用の疑いのある単語として特定される。
singe, lost

以下のクラスターが生成される。
singe lost

以下は、該クラスターに対して生成される訂正用選択肢の例である（部分的なリスト）。
sing last; single list; song list; sing least; ding lost; ding last; swing list; singer lost; singer lot; single lot; sing lot; ding lot; sing lots; swing lots; single lots

インターネットコーパスを用いた少なくとも部分的に文脈的なスコア付け、文脈ベース、および、非文脈的な単語類似度ベースのスコア付けの結果を表４に示す。

グローバルスコアに到達する各種方法が存在することを理解されたい。好ましいグローバルスコアは、図８を参照して以下に説明されるアルゴリズムに基づくものである。

上記スコア付けに基づいて、選択肢「single list」が選択される。従って、訂正されたテキストは、
Put it on a single list.
である。

ここで図４を参照する。図４は、本発明の好ましい実施形態のコンピュータ支援言語訂正のためのシステムおよび機能において有用である文脈特徴シーケンス（ＣＦＳ）機能１１８（図１）を示す単純化したブロック図である。

ＣＦＳ機能１１８は、好ましくは、特徴抽出機能を有し、該特徴抽出機能は、Ｎグラム抽出機能、ならびに任意には、スキップグラム抽出機能、スイッチグラム抽出機能、共起抽出機能、および、ユーザによって既に使用された特徴抽出機能のうちの少なくとも一つを有する。

用語Ｎグラムは、当該技術分野において公知の用語であり、入力テキストにおけるＮ個の連続する単語のシーケンスを意味する。文法的な考慮に基づいて、コーパス中、好ましくはインターネットコーパス中に高頻度で現れるとは予想されないある種のＮグラムの生成を回避するために、Ｎグラム抽出機能は、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書の目的のために、用語「スキップグラム抽出機能」は、「スキップグラム」を抽出するように機能する機能を意味し、「スキップグラム」は、形容詞、副詞、形容詞句、および副詞句などのある種の不可欠ではない単語または句を除外した修正されたｎグラムであり、あるいは、主語−動詞、動詞−目的語、副詞−動詞、または動詞−時間表現などの所定の文法的な関係を有する単語のみを含む修正されたｎグラムである。スキップグラム抽出機能は、所与の文脈においてどの単語をスキップしてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書の目的のために、用語「スイッチグラム抽出機能」は、「スイッチグラム」を特定する機能を意味し、「スイッチグラム」は、ある種の単語の出現順序が切り替えられた修正されたｎグラムである。スイッチグラム抽出機能は、所与の文脈においてどの単語がその出現順序を切り替えられてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書の目的のために、用語「共起抽出機能(co-occurrence extraction functionality)」は、入力センテンス中または入力センテンスを多数含む入力文書中の単語の組み合わせを特定する機能を意味する。一般に生じる単語（前置詞、冠詞、接続詞、その他、その機能が主として文法的なものである単語など）を除去した後の、入力単語からの距離および方向の表示を伴う、Ｎグラム、スイッチグラム、または、スキップグラムに含まれるもの以外の入力テキスト中の全ての単語についての入力テキストの単語の共起(co-occurrence)を含む。

本明細書の目的のために、用語「ユーザによって以前に使用された特徴抽出機能」は、前置詞、冠詞、接続詞、その他、その機能が主として文法的なものである単語などの一般に生じる単語を除去した後に、他の文書においてユーザによって使用された単語を特定する機能を意味する。

本明細書の目的のために、Ｎグラム、スキップグラム、スイッチグラム、およびそれらの組み合わせは特徴グラムと呼ばれる。

本明細書の目的のために、Ｎグラム、スキップグラム、スイッチグラム、共起、「ユーザによって以前に使用された特徴」、およびそれらの組み合わせは、文脈特徴シーケンスまたはＣＦＳと呼ばれる。

図４の機能は、入力テキスト中の個々の単語または単語のクラスターに対して機能することが好ましい。

図４の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが提供される。
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer , to invesigate the death of sir Charles”

入力テキスト中のクラスター「Cherlock Homes」に対して、以下のＣＦＳが生成される：
Ｎグラム:
２グラム: Cherlock Homes; Homes the
３グラム: Cherlock Homes the; Homes the lead
４グラム: Cherlock Homes the lead; Homes the lead character
５グラム: Cherlock Homes the lead character
スキップグラム:
Cherlock Homes the character; Cherlock Homes the chief inspecter; Cherlock Homes the inspecter; Cherlock Homes has been cold
スイッチグラム:
The lead character Cherlock Homes
入力テキスト中の共起:
Character; inspector; investigate; death
入力テキストを含む文書中の共起:
Arthur Conan Doyle; story
ユーザの他の文書中の共起:
mystery

入力テキスト中のクラスター「cold」に対して、以下のＣＦＳが生成される。
Ｎグラム:
２グラム: been cold; cold in
３グラム: has been cold; been cold in; cold in by
４グラム: inspector has been cold; has been cold in; been cold in by; cold in by the
５グラム: chief inspector has been cold; inspector has been cold in; has been cold in by; been cold in by the; cold in by the family
スキップグラム:
cold in to investigate; Cherlock has been cold; cold by the doctor; cold by Dr Mortimer; character has been cold

ＣＦＳにはそれぞれ、以下のうちの少なくとも一つ、好ましくは二以上、最も好ましくは全てに基づいて、「重要度スコア」が与えられる。
ａ．従来の品詞タグ付け機能およびセンテンス構文解析機能の操作。複数の構文解析木のノードの部分を含むＣＦＳは比較的低いスコアを与えられる。ＣＦＳに含まれる構文解析木のノードの個数が多くなるほど、そのＣＦＳのスコアは低くなる。
ｂ．ＣＦＳの長さ。ＣＦＳが長くなるほど、スコアは高くなる。
ｃ．入力ワード以外のＣＦＳ中の単語の各々の発生頻度。そのような単語の発生頻度が高くなるほど、スコアは低くなる。
ｄ．ＣＦＳのタイプ。例えば、Ｎグラムは共起よりも好ましい。入力センテンス中の共起は入力文書中の共起よりも好ましく、入力文書中の共起は「ユーザによって以前に使用された特徴」よりも好ましい。

上記の例に関して、典型的なスコアは表５に見られる通りである。

これらのＣＦＳおよびそれらの重要度スコアは、インターネットコーパス中でのＣＦＳの発生頻度に基づく、クラスターの各種訂正用選択肢の文脈ベースのスコア付けのために、図７および図８を参照して以下で説明される機能において用いられる。

ここで図５Ａを参照する。図５Ａは、入力テキスト中の綴りを誤った単語を特定し、好ましくは重複しないクラスターに綴りを誤った単語をグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。

図５Ａに見られるように、綴りを誤った単語の特定は、インターネット上で一般に用いられる適当な名称および単語が充実した従来の辞書を用いることによって行われることが好ましい。好ましくはその辞書は、電子メール、ｓｍｓメッセージ、文書、連絡、その他、ユーザが小型キーボード装置またはパーソナルコンピュータで挿入したあらゆるテキストなど、ユーザの電話およびパーソナルコンピュータからの内容でも充実している。付加的または追加的に、辞書はユーザの手入力による単語を含む。

綴りを誤った単語のクラスターへのグループ化は、連続するまたはほぼ連続する綴りを誤った単語を、文法上の関係を有する綴りを誤った単語と一緒に、１つのクラスターにグループ化することによって行われることが好ましい。

訂正のためのクラスターの選択は、最も多くの量の疑わしくない文脈データを含むクラスターを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において正しく綴られた単語の最も長い（一つまたは複数の）シーケンスを有するクラスターが選択される。

ここで図５Ｂを参照する。図５Ｂは、綴りを訂正された入力テキスト中の誤用の疑いのある単語および文法の誤りを有する疑いのある単語を特定し、誤用の疑いのある単語および文法の誤りの疑いのある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。

誤用の疑いのある単語の特定は以下のようにして行われることが好ましい。
綴りを訂正された入力テキスト中の単語ごとに、特徴グラムが生成される。
コーパス、好ましくはインターネットコーパス中での各特徴グラムの発生頻度が記録される。
単語ごとに疑わしい特徴グラムの数が記録される。疑わしい特徴グラムは、予期される頻度よりも低い頻度、または最小の頻度の閾値を下回る頻度を有するものである。特徴グラムの予期される頻度は、その構成要素およびそれらの組み合わせの頻度に基づいて見積もられる。
その単語を含む疑わしい特徴グラムの数が、所定の閾値を超えている場合、その単語は疑わしい。

本発明の好ましい実施形態に従って、コーパス中、好ましくはインターネットコーパス中での、綴りを訂正された入力テキスト中の各特徴グラムの発生頻度（FREQ F-G）が確かめられる。そのコーパス中での綴りを訂正された入力テキスト中の各単語の発生頻度（FREQ W）もまた確かめられ、さらには、その単語を有しない各特徴グラムの発生頻度（FREQ FG-W）が確かめられる。

各特徴グラムの予期される発生頻度（EFREQ F-G）は、以下の通りに算出される。
EFREQ F-G＝FREQ F-G-W × FREQ W／（コーパス中での全ての単語の頻度の合計）

コーパス、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各特徴グラムの発生頻度の、各特徴グラムの予期される発生頻度に対する比（FREQ F-G／EFREQ F-G）が所定の閾値よりも小さい場合、あるいは、FREQ F-Gが別の所定の閾値よりも小さい場合、特徴グラムは疑わしい特徴グラムであると考えられる。疑わしい特徴グラムに含まれる全ての単語は、誤用の疑いのある単語または文法の誤りの疑いのある単語であると考えられる。

綴りを訂正された入力テキストにおける誤用の疑いのある単語および文法の誤りの疑いのある単語の特定のための図５Ｂの機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴りを訂正された入力テキストが提供される。
Pleads call me soon
ここで、誤用単語「pleads」は、「s」の隣のキー「d」の挿入、およびキー「e」の脱落の結果である。

特徴グラムは以下を含む。
Pleads; Pleads call; Pleads call me; Pleads call me soon

表６は、上記特徴グラムのインターネットコーパス中での発生頻度を示す。

予期される発生頻度が、２グラムごとに以下の通りに算出される。
EFREQ F-G＝（FREQ F-G-W × FREQ W）／（コーパス中の全ての単語の頻度の合計）

例えば、２グラムについて、
２グラム（ｘ，ｙ）についての予期される２グラムの頻度＝（ｘの１グラムの頻度 × ｙの１グラムの頻度）／インターネットコーパス中の単語の数（例：１兆（1,000,000,000,000）ワード）

コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各特徴グラムの発生頻度の、各特徴グラムの予期される発生頻度に対する比は、以下の通りに算出される。
FREQ F-G／EFREQ F-G

コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の上記各２グラムの発生頻度の、上記各２グラムの予期される発生頻度に対する比は、表７に見られる。

「Pleads call」のFREQ F-Gはその予期される頻度よりも低いため、FREQ F-G/EFREQ F-Gは、１などの所定の閾値よりも低いと考えることができ、従って、クラスター「Pleads call」は疑わしいことが分かる。

単語「Pleads call」を含む３グラムおよび４グラムは共に、インターネットコーパス中では頻度ゼロであることが分かる。これもまた、「Pleads call」は疑わしいと考える根拠となり得る。

誤用の疑いのある単語および文法の誤りの疑いのある単語のクラスターへのグループ化は、以下の通りに行われることが好ましい。連続するまたはほぼ連続する誤用の疑いのある単語は1つのクラスターにグループ化され、また、それらの間に文法上の関係を有する誤用の疑いのある単語は同じクラスターにグループ化される。

訂正のためのクラスターの選択は、最も多くの量の疑わしくない文脈データを含むクラスターを見付けるのを試みることによって行われることが好ましい。好ましくは、その付近において疑わしくない単語の最も長い（一つまたは複数の）シーケンスを有するクラスターが選択される。

ここで図６を参照する。図６は、図２および図３の機能において有用である、クラスターに対する訂正用選択肢を生成するための機能を示す単純化したフローチャートである。

もともとの入力単語が正しく綴られていれば、選択肢とみなされる。

図６に見られるように、クラスター中の各々の単語に対して、複数の訂正用選択肢が最初に以下のようにして生成される。
文字列の類似度で表されるような書面上の見た目に基づいて、および、音または音声上の類似度に基づいて、クラスター中の各単語に類似する、辞書から取られた、複数の単語が検索される。文字列の類似度に基づく単語検索機能は公知であり、ＧＮＵＡｓｐｅｌｌおよびＧｏｏｇｌｅ（登録商標）ＧＳｐｅｌｌなどのフリーウェアとして、インターネット上で利用可能である。この機能は、キーボードのキーの位置の接近度によって拡張され、置換、挿入、削除、検索単語および優先単語が、第一の複数の訂正用選択肢を提供しうる。例えば、入力単語feezixが与えられた場合、共通文字は１つ、すなわち「ｉ」しかないが、類似する音声に基づいて、辞書から単語「physics」が検索されるだろう。また、類似する音声は無いが、文字列の類似性に基づいて、単語「felix」が検索されるだろう。

追加の選択肢が以下の行為またはこれらの行為の組合せによって生成されうる。
１。隣接するキーの混乱
ユーザは、意図したキーの隣のキーを押してしまう場合がある。前述したように、Ａを押そうとして、ユーザはかわりにその隣のキーである、Ｑ、Ｗ、Ｓ、ＺまたはＸを押してしまう可能性がある。こうして、「abbreviated」と書こうとして、最初の「Ａ」を「Ｓ」と置き換えた、「sbbreviated」と書いてしまうことが起こりうる。
キーボード上のキーには異なる配列もあり、図は例に過ぎない。キーボードにおける物理的な距離に基づくキーボード置換の入力の可能性はキーボードの種類ごとに供給されうる。
２．複数のキーの挿入
ユーザは、二つの隣接するキーの間に指を置いてしまう場合があり、その場合、二つのキーが押されて一文字のかわりに二文字が挿入される。このように、「abbreviated」と書こうとして、ユーザは、「sabbreviated」または「asbbreviated」と書いてしまいうる。「ｓ」キーが「ａ」キーの隣にあるからである。スペースキーの隣には「ｖ」などのキーがある。以下のスペルミスも、同じようにして生じうる。「abbre viated」
３．意図して押したキーの脱落
急いでおよび／または不正確にタイプ打ちをすると、意図して押したキーのうちの幾つかは、小型キーボード装置が受け付けていない場合がある。このため結果として文字の欠落、句読点の欠落またはスペースの欠落が生じる。このように、「abbreviated」と書こうとして、ユーザは、「bbreviated」と書いてしまいうる。同様に、スペースキーが抜けることがあり、そうするとその次の単語が今の単語と分離されないで、綴りの間違いを生じる。このように、「abbreviated text」と書こうとして、ユーザは、「abbreviatedtext」と書いてしまいうる。
４．母音の欠落と一般的な短縮表現
母音の脱落と、特定の音声的な誤字の用法（例えば、Ｃ、ＣＫまたはＱのいずれかをＫと置き換えること、または、ＳおよびＴＨをＺと置き換えること）は、急いで表現しようとしてショートテキストメッセージを書く人のよくある習慣である。こうして、単語「quick」は「kwik」と書かれ、単語「please」は「plz」と書かれることがある。付加的に、数と記号もまた音声ツールとして用いられ、「before」は「be4」と、「at」は「＠」と書かれることがある。
５．音声類似性の誤記と書面類似性の誤記
小型キーボード装置の大きさが小さいことと感度に制限があることの結果として生じる綴りの間違いに加えて、音声と書面上の紛らわしさのために単語が間違って綴られる場合がある。装置を用いてまたは手で書いたテキスト中で起こりうる。例えば、「ocean」は、類似した音の単語「oshen」と誤記されうるし、または書面上で類似した単語「ossion」と誤記されうる。
６．上記全ての組合せ
前述の間違いのタイプのいずれも、綴りの間違った同じ単語内で組み合わせられうるし、その同じ単語内で２回以上起こりうる。例えば、ユーザは、「auction」の代わりに「oictiopn」と書くかもしれない。そこには２つの間違いの組合せがあり、そのうちの１つは二度繰り返されている。
ａ．音声類似性の誤記は、「ｏ」と似た音声である、単語「auction」内の組合せ「au」で生じ、「auction」の代わりに、「oction」と書かれる。
ｂ．この誤記との組み合わせで、複数のキーの挿入が、単語の始めの前述の「ｏ」で生じて「ｏｉ」となり得、「auction」が「oiction」と誤った綴りになるだろう。
ｃ．また、単語「auction」のもともとの「ｏ」で複数のキーの挿入がさらに生じると、「ｏ」の代わりに「ｏｐ」が書かれうる。そして「auction」は、「oictiopn」と誤った綴りになってしまうだろう。

追加の選択肢は、公知の代替用法に基づく規則、および蓄積されたユーザの入力を用いることによって生成され得る。例：u→you、r→are、Im→I am

更なる選択肢が、好ましくは予め定義されたリストを用いて、文法規則に基づいて生成され得る。少数の例は以下の通りである。
単数形／複数形の規則：入力センテンスが「leaf fall off trees in the autumn」である場合、複数形の選択肢「leaves」が生成される。
冠詞の規則：入力テキストが「a old lady」である場合、冠詞の選択肢「an」および「the」が生成される。
前置詞の規則：入力テキストが「I am interested of football」である場合、前置詞の選択肢「in」、「at」、「to」、「on」、「through」、...が生成される。
動詞の活用規則：入力テキストが「He leave the room」である場合、動詞の活用の選択肢「left」、「leaves」、「had left」、...が生成される。
単語の結合および単語の分割の規則：入力テキストが「get alot fitter」である場合、選択肢「a lot」が生成される。
入力テキストが「we have to wat ch out」である場合、選択肢「watch」が生成される。
入力テキストが「do many sittups」である場合、選択肢「sit ups」が生成される。

本発明の好ましい実施形態の特有の特徴は、ＣＦＳおよびより具体的には特徴グラムなどの文脈情報を用いて訂正用選択肢を生成し、そしてそれはそのような「文脈的に検索された」訂正用選択肢にスコアを付けるためだけではないということである。ＣＦＳおよびより具体的には特徴グラムなどの、頻繁に生じる単語の組み合わせは、ユーザの電話テキスト（以前の電子メール、ｓｍｓメッセージ、および連絡など）から、およびユーザのコンピュータ（文書および電子メールなど）から、および既存のコーパス（インターネットコーパスなど）から検索されうる。

以下の例は本発明のこの態様を示している。
入力センテンスが
「Way to go girl! This is my Donna premadma…」
である場合について。
ここで、誤記「premadma」は、音声上の置換で「ｉ」が「ｅ」となり、スペースと「ｏ」が脱落し、近接キーの置換で「ｎ」が「ｍ」となり、「ｎ」を二回打ち損じたことによる。
単語「premadma」は、単語「prima donna」に対して、キーボード近接性において、音または書面上において充分に類似しているわけではなく、本発明のこの態様がなければ、「prima donna」は選択肢の一つにならないかもしれない。

本発明のこの態様によれば、ｓｍｓメッセージ、メールメッセージ、および個人的な連絡などのユーザの小型キーボード装置またはユーザのパーソナルコンピュータで使用可能なテキストにおいて、ｎグラム「my Donna」の後に一般に現れる単語、すなわち、クエリ「my Donna *」において*として見付かる全ての単語を探すことにより、以下の選択肢が検索される。
madonna; prima donna; donn; did it again; dear;

本発明の好ましい実施形態によれば、「文脈的に検索された」選択肢はその後フィルタリングにかけられ、元々の単語（この例では「premadma」）に対してキーボード近接性、音声上または書面上の類似性をいくらか有する文脈的に検索された選択肢のみが残る。この例では、最も高い音声上および書面上の類似性を有する選択肢、「prima donna」が検索される。

入力テキストが、音声テキストなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接受け取られてもよい。そのような追加の選択肢は、典型的には、そのようなシステムの動作の過程で生成される。例えば、音声認識システムでは、同じ音声の単語の単語選択肢が、選択肢として使用するためにそのシステムに供給され得る。

クラスター中の各単語について全ての選択肢が生成されると、クラスター全体についてクラスター選択肢が生成される。そのために、各種選択肢の可能な組合せを全て突き止め、次に、コーパス中、好ましくはインターネットコーパス中でのその発生頻度に基づいてその組み合わせをフィルタリングする。

以下の例が実例である。
入力クラスターが「singe lost」である場合、単語「singe」に対する選択肢は(部分的なリスト)、
sing; single; singer
であり、単語「lost」に対する選択肢は(部分的なリスト)、
last; list; lot
である。

以下のクラスターの選択肢が生成される。
sing last; sing list; sing lot; single last; single list; single lot; singer last; singer list; singer lot;

ここで図８を参照する。図８は、図２の綴り訂正機能において有用である、各種選択肢強化の文脈ベースおよび単語類似度ベースのスコア付けのための機能を例示する単純化したフローチャートである。

図８に見られるように、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。
Ｉ．非文脈的なスコア付け−各種クラスター選択肢に、キーボードの近接性、書面上の見た目、および音の類似性の観点から、入力テキスト中のクラスターに対する類似度に基づいてスコアを付ける。このスコア付けは、与えられたクラスター以外のいかなる文脈的な類似度も考慮に入れない。
ＩＩ．インターネットコーパスを用いる文脈的なスコア付け−各種クラスター選択肢の各々にまた、図４を参照して上記で説明したようにして提供される、抽出された文脈特徴シーケンス（ＣＦＳ）に基づいてスコアを付ける。このスコア付けは、以下のサブステージを含む。
ＩＩＡ．発生頻度の解析が行われる。これは、好ましくはインターネットコーパスを用いて、図６の機能によって作り出された各種クラスター訂正用選択肢に対し、図４を参照して上記で説明されたようにして抽出されたＣＦＳの文脈において、為される。
ＩＩＢ．ＣＦＳの選択および各種ＣＦＳの重み付けが行われる。これは、サブステージＩＩＡの発生頻度解析の結果にとりわけ基づいて行われる。重み付けはまた、各種ＣＦＳの相対的な固有の重要度にも基づく。ＣＦＳの一部にはゼロの重みが与えられ、選択されないようにしてもよいことは理解される。選択されたＣＦＳには好ましくは相対的な重みが与えられる。
ＩＩＣ．発生頻度のメトリックが、サブステージＩＩＢで選択されたＣＦＳごとに、各訂正用選択肢に対して割り当てられる。
ＩＩＤ．クラスター訂正用選択肢の縮小セットが生成される。これは、サブステージＩＩＡの発生頻度解析、サブステージＩＩＣの発生頻度メトリック、および、サブステージＩＩＢのＣＦＳの選択と重み付けの結果にとりわけ基づいて行われる。
ＩＩＥ．ステージＩの非文脈的な類似度の最も高いスコアを有するクラスターが、訂正基準クラスターとして使用するために、サブステージＩＩＤの縮小セットから選択される。
ＩＩＦ．発生頻度のメトリックが、ステージＩＩＢで選択されたＣＦＳごとに、サブステージＩＩＥの訂正基準クラスターに対して割り当てられる。
ＩＩＧ．比のメトリック（ratio metric）が、サブステージＩＩＢで選択されたＣＦＳの各々に対して割り当てられる。これは、その特徴についての各訂正用選択肢の発生頻度メトリックの、サブステージＩＩＥの基準クラスターに割り当てられた発生頻度メトリックに対する比である。
ＩＩＩ．最も好ましいクラスター訂正用選択肢が、ステージＩの結果およびステージＩＩの結果に基づいて選択される。
ＩＶ．信頼水準スコアが、最も好ましいクラスター訂正用選択肢に割り当てられる。

ステージＩＩ−ＩＶにおいて上述した機能のより詳細な説明は以下で与えられる。
サブステージＩＩＡに関して、訂正されるべきクラスターを含む全てのＣＦＳは、図４において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むＣＦＳは除外される。

ＣＦＳの各々におけるクラスターに対する訂正用選択肢の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての訂正用選択肢が発生頻度ゼロである全てのＣＦＳは除外される。その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。

以下の例は、発生頻度マトリクスの生成を示す。
以下の入力テキストが提供される。
please cskk ne the minute you see this
ここで、誤記「cskk」は、二つの隣接するキーの置換によって起こったものである。つまり、「ａ」が隣接キー「ｓ」に、「ｌ」が隣接キー「ｋ」に（２度）置き換えられたものである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
cskk ne
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
ask me; vale new; call me; cake near; call new; cell new
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘cskk ne’; ‘please cskk ne’; ‘cskk ne the’; ‘please cskk ne the’; ‘cskk ne the minute’; ‘please cskk ne the minute’; ‘cskk ne the minute you’
ステージＩＩＡに関して上述した機能を用いて、表８に見られるインターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおける上記リストのクラスター訂正用選択肢について生成される。

全ての訂正用選択肢で発生頻度がゼロとなったＣＦＳは全て除外される。この例では、以下の特徴グラムは除外される。
‘cskk ne the minute you’

その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれるＣＦＳは全て除外される。この例では以下の特徴グラムは除外される。
‘cskk ne’; ‘please cskk ne’; ‘cskk ne the’; ‘please cskk ne the’; ‘cskk ne the minute’;
この例では、唯一残るＣＦＳは、特徴グラム
‘please cskk ne the minute’
である。

その結果生じるマトリクスは表９に見られる通りとなる。

上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、「call me」が好ましい訂正用選択肢であることは明らかである。現実には、選択は通常このように直接的ではないことを理解すべきである。従って、以下に提示する更なる例では、訂正用選択肢の間でのはるかに難しい選択を行うための機能が提供される。

サブステージＩＩＢの考慮に戻って、任意には、残るＣＦＳの各々には、図４を参照して上述したようにしてスコアが与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ、所定の信頼水準の閾値を下回る信頼水準を有するＣＦＳは、負にバイアスされる。

一般的な場合において、サブステージＩＩＣにおいて上述したのと同様に、インターネットコーパス中での各ＣＦＳの正規化された発生頻度を示す正規化頻度マトリクスが生成されることが好ましい。正規化頻度マトリクスは通常、頻度マトリクスから、各ＣＦＳの頻度を、関連するクラスター選択肢の発生頻度の関数で割ることにより、生成される。

正規化は、各種訂正用選択肢の全体の人気度(popularity)における実質的な差の影響をなくすように機能する。好適な正規化係数は、特定のＣＦＳに関係なく、全体として、コーパス中での各種訂正用選択肢の全体の発生頻度に基づく。

以下の例は、正規化された発生頻度のマトリクスの生成を示す。
以下の入力テキストが提供される。
Oh, then are you a dwcent or a student?
ここで、誤記「dwcent」は、隣接するキーの置換によって起こったものである。つまり、「ｏ」が隣接キー「ｗ」に置き換えられたものである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
dwcent
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
docent; decent; doesn’t
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘a dwcent’; ‘dwcent or a’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１０に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

各種訂正用選択肢の全体の人気度における実質的な差のために、最も高い発生頻度を有する単語が、最も高い正規化された発生頻度を有するとは限らないことが上記の例より理解され得る。上記の例では、「docent」が最も高い正規化された発生頻度を有する。また、入力テキストの文脈から、「decent」ではなく、「docent」の方が正しい単語であることが明らかである。「decent」の方がインターネットコーパス中での発生頻度は高いにもかかわらずである。

本発明の特有の特徴は、各種訂正用選択肢の全体の人気度における実質的な差をなくす、正規化された発生頻度が、好ましくは、訂正用選択肢の選択に用いられることである。正規化された発生頻度以外の、発生頻度の他のメトリックが、代替的または付加的に、メトリックとして用いられ得ることを理解されたい。発生頻度が比較的低い場合、または著しく高い場合、付加的または代替的なメトリックは有益である。

付加的な機能がしばしば、各種訂正用選択肢の選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。

サブステージＩＩＤにおいて、以下の２つのメトリックに従って、他のクラスター訂正用選択肢よりも好ましくない各クラスター訂正用選択肢が除外される。
ｉ．他よりも、単語類似度スコアが低いクラスター訂正用選択肢。
ｉｉ．他よりも、ＣＦＳの全ての発生頻度が低く、好ましくは正規化された発生頻度も低いクラスター訂正用選択肢。

以下の例は、上述したような訂正用選択肢の除外を示す。
以下の入力テキストが提供される。
I leav un a big house
ここで、誤記「leav」は、小型キーボード装置のキーパッドで、「ｅ」と押したのが認識されない、押下キー脱落によって起こったものである。誤記「ｕｎ」は、隣接キー置換によって起こったものである。つまり、「ｉ」が隣接キー「ｕ」に置き換えられている。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
leav un
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
leave in; live in; love in
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘I leav un a’; ‘leav un a big’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１１に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表１２に示される通りである。

クラスター訂正用選択肢「love in」は除外される。「live in」よりも類似度スコアが低く、かつ、発生頻度および正規化された発生頻度も低いからである。クラスター訂正用選択肢「leave in」は、この段階では除外されない。類似度スコアが「live in」よりも高いからである。

以上より理解され得るように、ステージＩＩＤの機能の動作の結果、縮小された頻度マトリクス（および、好ましくはまた、縮小された正規化頻度マトリクス）を得る。これらは、縮小された複数のＣＦＳの各々についての、縮小された複数の訂正用選択肢（各々、類似度スコアを有する）の各発生頻度（および、好ましくはまた、正規化された発生頻度）を示すものである。以下の例から分かるように、クラスター訂正用選択肢の縮小セットは、後続のクラスター選択肢の選択機能の全てで好ましくは用いられる。

縮小された頻度マトリクス（および、好ましくはまた、縮小された正規化頻度マトリクス）における各訂正用選択肢に対し、最終選好性メトリックが生成される。１つまたは複数の以下の選択肢のメトリックが用いられ訂正用選択肢ごとに最終選好性スコアが生成されてもよい。
用語「頻度関数（frequency function）」は、以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。

Ａ．一つの可能な選好性メトリックは、一つまたは複数の縮小されたマトリクス中のＣＦＳのいずれかについての、そのマトリクス中の各クラスター訂正用選択肢に対する最も高い発生頻度の関数である。例えば、各種クラスター訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A big rsgle in the sky
ここで、誤記「rsgle」は、隣接キーの２つの置換によって起こったものである。つまり、「ｅ」が隣接キー「ｒ」に置き換えられ、「ａ」が隣接キー「ｓ」に置き換えられている。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
rsgle
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
regale; eagle; angle
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘big rsgle’; ‘rsgle in the sky’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１３に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表１４に示される通りである。

選択肢「eagle」が選択される。最大の発生頻度と最も高い類似度スコアのＣＦＳを有するからである。

Ｂ．他の可能な選好性メトリックは、各訂正用選択肢についての、全てのＣＦＳの発生頻度の平均の関数である。例えば、各種訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A while ago yheee lived 3 dwarfs
ここで、誤記「yheee」は、隣接キーの２つの置換によって起こったものである。つまり、「ｔ」が隣接キー「ｙ」に置き換えられ、「ｒ」が隣接キー「ｅ」に置き換えられている。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
yheee
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
the; there; you; tree
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘ago yheee lived’; ‘yheee lived 3’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１５および１６に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

平均の発生頻度に基づいて「there」が選択されることに留意されたい。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表１７に示される通りである。

最も高い類似度スコアを有するクラスター訂正用選択肢は選択されないことに留意されたい。

Ｃ．さらに可能な選好性メトリックは、加重和である。図４を参照して上述した機能によって算出されるようなＣＦＳのスコアを掛け算された各ＣＦＳの発生頻度関数の、訂正用選択肢ごとの全ＣＦＳにわたる、加重和である。

Ｄ．［特定の訂正用選択肢／ＣＦＳ］の選好性メトリックが生成される。サブステージＩＩＥ−ＩＩＧを参照して上述したように、一つまたは複数の縮小されたマトリクス中の訂正用選択肢に対し以下の操作を、いずれか一つ以上、より好ましくは大部分、最も好ましくは全て、行うことによって、生成される。
ｉ．最も高い非文脈的な類似度スコアを有するクラスター訂正用選択肢を選択し、基準クラスターとする。
ｉｉ．修正マトリクスが作成される。各選択マトリクスにおいて、各特徴グラムにおける各訂正用選択肢の発生頻度関数を、各訂正用選択肢の発生頻度関数の、基準クラスターの発生頻度関数に対する比に置き換えたものである。
ｉｉｉ．ｉｉにおいて上述したタイプの修正マトリクスが、さらに修正される。各選好性メトリックにおける比を、比の関数（比の差が非常に大きいことの計算上の重要性を軽減させる関数）に置き換えることによって修正される。好適なそのような関数は対数関数である。この操作の目的は、最も好ましい訂正用選択肢の最終選好性スコア付けにおいて、発生頻度の差が大きいことにあまり重点が置かれず、最も好ましくない訂正用選択肢の最終選好性スコア付け（従って除去）において、発生頻度の差が大きいことに依然として重点が置かれるようにすることである。
ｉｖ．ｉｉまたはｉｉｉで上述したタイプの修正マトリクスが、追加的に修正される。各選好性メトリックにおける適用可能な比または比の関数に、適切なＣＦＳスコアを掛けることによって修正される。これは、正しい文法の用法、およびＣＦＳスコアに反映される他の要因を基にした強調を提供する。
ｖ．ｉｉ、ｉｉｉまたはｉｖで上述したタイプの修正マトリクスが、追加的に修正される。適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって修正される。好ましい関数は、各選好性メトリックにおける適用可能な比または比の関数に、そのＣＦＳの発生頻度を掛けることによって生成される。

Ｅ．最終選好性メトリックが、Ｄで上述したような［特定の訂正用選択肢／ＣＦＳ］の選好性メトリックに基づいて、各訂正用選択肢について算出される。訂正用選択肢の類似度スコアに、その［訂正用選択肢］の全てのＣＦＳの［特定の訂正用選択肢／ＣＦＳ］の選好性メトリックの和を掛けることによって、訂正用選択肢ごとに算出される。

そのような修正マトリクスの使用を示す例は以下の通りである。
以下の入力テキストが提供される。
I will be able to tach base with you next week
ここで、誤記「tach」は、文字「ｏ」の脱落によって起こったものである。これは、不正確なタイプ打ちのために小型キーボード装置で「ｏ」が記録されなかったものである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
tach
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
teach; touch
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘able to tach’; ‘to tach base’
上記においてサブステージＩＩＡおよびＩＩＣに関して上述した機能を用いて、表１８に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

発生頻度と正規化された発生頻度の両方とも、ある特徴については、「teach」の方が「touch」よりも大きいが、別の特徴については、「touch」の方が「teach」よりも大きいことに留意されたい。訂正用選択肢を正しく選択するために、サブステージＩＩＧに関して上述した、比のメトリックは、以下に説明するようにして用いられることが好ましい。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表１９に示される通りである。

基準クラスターは「teach」であることがわかる。その類似度スコアが最も高いからである。それにも関わらず、上述した最終選好性スコアによれば、「touch」が選択される。「teach」が最も高い発生頻度と最も高い正規化された発生頻度を有することを示す上記マトリクスを考慮すれば認識され得るように、これはすぐには理解できない。この例では、最終選好性スコアは、「teach」ではなく「touch」を選択することを示している。「touch」を好む特徴の発生頻度の比は、「teach」を好む、他方の特徴の発生頻度の比よりもずっと大きいからである。

Ｆ．任意に、訂正用選択肢が除去されてもよい。除去は、その訂正用選択肢について、および、基準クラスターについて、頻度関数の値および選好性メトリックの比較を基に、以下の決定規則の一つ以上を用いて行われる。
１．所定の閾値を下回る類似度スコアを有し、かつ、ＣＦＳスコアが所定の閾値よりも高い少なくとも一つの特徴の基準クラスターのＣＦＳ頻度関数よりも小さいＣＦＳ頻度関数を有する訂正用選択肢を除去する。
２．所定の閾値を下回る類似度スコアを有し、かつ、ＣＦＳスコアが別の所定の閾値よりも高い少なくとも一つの特徴について、所定の閾値よりも小さい選好性メトリックを有する訂正用選択肢を除去する。
３．ａ．各ＣＦＳのＣＦＳスコアを確かめる。
ｂ．各ＣＦＳについて、基準クラスターのＣＦＳ頻度関数と、訂正用選択肢のＣＦＳ頻度関数を確かめ、基準クラスターと訂正用選択肢のどちらがそのＣＦＳについてより高い頻度関数を有するかを確かめる。
ｃ．訂正用選択肢が基準クラスターよりも高い頻度を有するＣＦＳについて、そのＣＦＳスコアを合計する。
ｄ．基準クラスターが訂正用選択肢よりも高い頻度を有するＣＦＳについて、そのＣＦＳスコアを合計する。
ｅ．ｃの和がｄの和よりも小さい訂正用選択肢を除去する。

以下の例は、上述した除去機能を示す。
以下の入力テキストが提供される.
I am fawlling im love
ここで、誤記「fawling」は、「ａ」に隣接するキーである「ｗ」の挿入によって起こり、誤記「im」は、「ｎ」のかわりに「ｍ」を押した結果である。それらは２つとも隣接キーである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fawlling im
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
falling on; falling in; feeling on; feeling in
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘am fawlling im ’; ‘fawlling im love’; ‘am fawlling im love’; ‘I am fawlling im ’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表２０に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される。
‘am fawlling im ’; ‘fawlling im love’
この例では、残るＣＦＳは特徴グラム
‘am fawlling im love’; ‘I am fawlling im ’
である。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表２１に示される通りである。

訂正用選択肢「falling on」、「feeling on」、および「feeling in」は除去される。ＣＦＳのうちの一つについて発生頻度がゼロだからである。

Ｇ．前記Ｆでの除去で残った訂正用選択肢について、Ａ−Ｅで上述したようにして生じた最終選好性メトリックに基づいて、ステージＩＩＩに関して上述したように、ランクが確定する。最も高い最終選好性スコアを有する訂正用選択肢が選択される。

Ｈ．選択された訂正用選択肢に対し、ステージＩＶに関して上述したように、信頼水準が割り当てられる。この信頼水準は、以下のパラメータのうちの一つ以上に基づいて算出される。
ａ．上記サブステージＩＩＢで提供された選択されたＣＦＳの個数、タイプ、およびスコア。
ｂ．ＣＦＳの文脈における、各種クラスター訂正用選択肢の発生頻度の統計的な有意性。
ｃ．各ＣＦＳの選好性メトリック、および、各種訂正用選択肢の単語類似度スコアに基づく、訂正用選択肢の選択に関するコンセンサスの度合い。
ｄ．所定の最小の閾値を上回る、選択されたクラスター訂正用選択肢の非文脈的な類似度スコア（ステージＩ）。
ｅ．所定の最小の閾値を上回るＣＦＳスコアを有し、かつ、別の所定の閾値を上回る選好性スコアを有する、縮小マトリクス中のＣＦＳの個数によって示される、利用可能な文脈データの程度。

信頼水準が所定の閾値を上回っている場合、選択された訂正用選択肢は、ユーザとの対話処理無しで実施される。信頼水準が所定の閾値よりも低いが、より低い所定の閾値よりも高い場合、選択された訂正用選択肢は実施されるが、ユーザとの対話処理が求められる。信頼水準が、より低い所定の閾値よりも低い場合、訂正用選択肢の優先順位を付されたリストに基づくユーザの選択が求められる。

以下の例は、信頼水準のスコア付けの使用の実例である。
以下の入力テキストが提供される。
He was not feeling wekk when he returned
ここで、誤記「wekk」は、隣接キーの置換によって起こったものである。つまり、「ｌ」が「ｋ」と二回置き換えられている。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
wekk
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
week; well
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘was not feeling wekk’; ‘not feeling wekk when’; ‘feeling wekk when he’; ‘wekk when he returned’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表２２に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

以上の例は、上記Ｈで示した全ての基準により、「week」よりも「well」の選択が高い信頼水準を有することを示す。

以下の例では、信頼水準は幾分低くなっている。訂正用選択肢「back」は、ＣＦＳ「bech in the summer」で「beach」より発生頻度が高いが、「beach」は、ＣＦＳ「on the beech in」と「the bech in the」で、「back」より発生頻度が高いからである。訂正用選択肢「beach」が、基準Ｈ（ｃ）に基づいて中級の信頼水準で選択される。

以下の入力テキストが提供される。
I like to work on the bech in the summer
ここで、誤記「bech」は、押下キー脱落によって起こったものである。つまり「ａ」と押したのに、小型キーボード装置のキーパッドで記録されなかったものである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
bech
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
beach; beech; back
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘on the bech in’; ‘the bech in the’; ‘bech in the summer’
サブステージＩＩＡに関して上述した機能を用いて、表２３に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

訂正用選択肢「beach」が、基準Ｈ（ｃ）に基づいて中級の信頼水準で選択される。

以下の例では、基準Ｈ（ａ）に基づいて、信頼水準はさらに低い。
以下の入力テキストが受け取られる。
Expets are what we need now, really...
ここで、誤記「Expets」は、押下キーの脱落のよって起こったものである。つまり、「ｒ」を押したのに、小型キーボード装置のキーパッドで記録されなかったものである。
図５Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
Expets
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
Experts; Exerts; Expects
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘Expets are’; ‘Expets are restoring’; ‘Expets are restoring the; ‘Expets are restoring the British’
サブステージＩＩＡに関して上述した機能を用いて、表２４に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

全ての訂正用選択肢が発生頻度ゼロとなるＣＦＳは全て除外される。この例では、以下の特徴グラムは除外される。
‘Expets are what; ‘Expets are what we; ‘Expets are what we need’
この例では、唯一の残るＣＦＳは、特徴グラム
‘Expets are’
である。

以上の例から分かるように、除去処理で残った唯一のＣＦＳは「Expets are」である。結果として、信頼水準は比較的に低い。一つのＣＦＳのみに基づいての選択であり、そのＣＦＳも比較的に短く、疑わしい単語を除けば、含まれる単語は一つだけであり、その単語も頻繁に発生する単語だからである。

ここで図８を参照する。図８は、図３、図９および図１０の誤用された単語および文法の訂正機能において有用である、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。

図８に見られるように、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。

Ｉ．非文脈的なスコア付け−各種クラスター選択肢に、書面上の見た目および音の類似性の観点から、入力テキスト中のクラスターに対する類似度に基づいてスコアを付ける。このスコア付けは、与えられたクラスター以外のいかなる文脈的な類似度も考慮に入れない。
ＩＩ．インターネットコーパスを用いる文脈的なスコア付け−各種クラスター選択肢の各々にまた、図４を参照して上記で説明したようにして提供される、抽出された文脈特徴シーケンス（ＣＦＳ）に基づいてスコアを付ける。このスコア付けは、以下のサブステージを含む。
ＩＩＡ．発生頻度の解析が行われる。これは、好ましくはインターネットコーパスを用いて、図６の機能によって作り出された各種クラスター訂正用選択肢に対し、
図４を参照して上記で説明されたようにして抽出されたＣＦＳの文脈において、為される。
ＩＩＢ．ＣＦＳの選択および各種ＣＦＳの重み付けが行われる。これは、サブステージＩＩＡの発生頻度解析の結果にとりわけ基づいて行われる。重み付けはまた、各種ＣＦＳの相対的な固有の重要度にも基づく。ＣＦＳの一部にはゼロの重みが与えられ、選択されないようにしてもよいことは理解される。選択されるＣＦＳには、好ましくは相対的な重みが与えられる。
ＩＩＣ．発生頻度のメトリックが、サブステージＩＩＢで選択されたＣＦＳの各々について、各訂正用選択肢に対して割り当てられる。
ＩＩＤ．クラスター訂正用選択肢の縮小セットが生成される。これは、サブステージＩＩＡの発生頻度解析、サブステージＩＩＣの発生頻度メトリック、および、サブステージＩＩＢのＣＦＳの選択と重み付けの結果にとりわけ基づいて行われる。
ＩＩＥ．訂正基準クラスターとして使用するために、入力クラスターが選択される。
ＩＩＦ．発生頻度のメトリックが、ステージＩＩＢで選択されたＣＦＳごとに、サブステージＩＩＥの訂正基準クラスターに対して割り当てられる。
ＩＩＧ．比のメトリックが、サブステージＩＩＢで選択された特徴の各々に対して割り当てられる。これは、その特徴についての各訂正用選択肢の発生頻度メトリックの、サブステージＩＩＢの基準クラスターに割り当てられた発生頻度メトリックに対する比である。
ＩＩＩ．最も好ましいクラスター訂正用選択肢が、ステージＩの結果およびステージＩＩの結果に基づいて選択される。
ＩＶ．信頼水準スコアが、その最も好ましいクラスター訂正用選択肢に割り当てられる。

ステージＩＩ−ＩＶにおいて上述した機能のより詳細な説明は以下で与えられる。
サブステージＩＩＡに関して、訂正されるべきクラスターを含むＣＦＳの全ては、図４において上述したようにして生成される。入力クラスター中の誤り以外の誤りが疑われるものを含むＣＦＳは除外される。

各ＣＦＳのクラスターに対する訂正用選択肢の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての訂正用選択肢が発生頻度ゼロであるＣＦＳは全て除外される。その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれるＣＦＳは全て除外される。

以下の例は、発生頻度マトリクスの生成を示す。
以下の入力テキストが提供される。
I fid dome research already
ここで、誤記「fid」は、「ｄ」が「ｆ」に置き換えられた隣接キー置換によって起こったものであり、誤記「dome」は、「ｓ」が「ｄ」に置き換えられた隣接キー置換によって起こったものである。
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fid dome
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
feed some; did some; did come; deed dim; pod dime; pod dome
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘fid dome’; ‘I fid dome’; ‘fid dome research’; ‘I fid dome research’; ‘I fid dome research already’
サブステージＩＩＡに関して上述した機能を用いて、表２５に見られるインターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

全ての訂正用選択肢が発生頻度ゼロとなるＣＦＳは全て除外される。この例では、以下の特徴グラムは除外される。
‘I fid dome research already’

その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される。
‘fid dome’; ‘I fid dome’; ‘fid dome research’
この例では、唯一の残るＣＦＳは、以下の特徴グラム
‘I fid dome research’
である。

その結果生じるマトリクスは表２６に見られる通りとなる。

上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、「did some」が好ましい訂正用選択肢であることは明らかである。実際には毎回そんなにすんなりと選択されるものではないと認識される。従って、以下に提示する更なる例では、訂正用選択肢からの選択がはるかに難しいときの機能が提供される。

サブステージＩＩＢの考慮に戻って、任意には、残るＣＦＳの各々には、図４を参照して上述したようにしてスコアが与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ所定の信頼水準の閾値を下回る信頼水準を有するＣＦＳは、負にバイアスされる。

一般的な場合において、サブステージＩＩＣにおいて上述したのと同様に、好ましくは、インターネットコーパス中での各ＣＦＳの正規化された発生頻度を示す正規化頻度マトリクスが生成される。正規化頻度マトリクスは通常、各ＣＦＳの頻度を、関連するクラスター選択肢の発生頻度の関数で割ることにより、頻度マトリクスから生成される。

正規化は、各種訂正用選択肢の全体の人気度における実質的な差の影響をなくすように機能する。好適な正規化係数は、ＣＦＳに関係なく、全体として、コーパス中での各種訂正用選択肢の全体の発生頻度に基づく。

以下の例は、正規化された発生頻度のマトリクスの生成を示す。
以下の入力テキストが、典型的には音声認識によって、提供される。
Oh, then are you a [decent/docent] or a student?
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
decent
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
decent; decent; doesn’t
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘a decent’; ‘decent or a’
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表２７に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

本発明の特有の特徴は、各種訂正用選択肢の全体の人気度における実質的な差の影響をなくす、正規化された発生頻度が、訂正用選択肢の選択に用いられることにある。正規化された発生頻度以外の、発生頻度の他のメトリックが、代替的または付加的に、メトリックとして用いられ得ることを理解されたい。発生頻度が比較的低い場合、または著しく高い場合、付加的または代替的なメトリックは有益である。

サブステージＩＩＤにおいて、以下の２つのメトリックに従って、他の訂正用選択肢よりも好ましくないクラスター訂正用選択肢が除外される。
ｉ．他よりも、単語類似度スコアが低いクラスター訂正用選択肢。
ｉｉ．他よりも、ＣＦＳの全ての発生頻度が低く、好ましくは正規化された発生頻度も低いクラスター訂正用選択肢。

以下の例は、上述したような訂正用選択肢の除外を示す。
以下の入力テキストが提供される。
I leave on a big house
ここで、誤記「leave」は、「ｉ」が「ea」と置き換えられた音声置換によって起こったものであり、誤記「on」は、「ｉ」が「ｏ」と置き換えられた隣接キー置換によって起こったものである。
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
leave on
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
leave in; live in; love in;
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘I leave on a’; ‘leave on a big’
本明細書においてステージＩＩＥに関して上述した機能を用いて、表２８に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表２９に示される通りである。

以上より理解され得るように、サブステージＩＩＤの機能の動作の結果、縮小された頻度マトリクス（および、好ましくはまた、縮小された正規化頻度マトリクス）を得る。これらは、縮小された複数のＣＦＳの各々についての、縮小された複数の訂正用選択肢（各々、類似度スコアを有する）毎の発生頻度（および、好ましくはまた、正規化された発生頻度）を示すものである。以下の例から分かるように、クラスター訂正用選択肢の縮小セットは、後続のクラスター選択肢の選択機能の全てで好ましくは用いられる。

縮小された頻度マトリクス（および、好ましくは、縮小された正規化頻度マトリクス）における各訂正用選択肢に対し、最終選好性メトリックが生成される。１つまたは複数の以下の択一のメトリックが用いられ訂正用選択肢ごとに最終選好性スコアが生成され得る。
用語「頻度関数」は、以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。

Ａ．一つの可能な選好性メトリックは、一つまたは複数の縮小されたマトリクス中のＣＦＳのいずれかについての、そのマトリクス中の各クラスター訂正用選択肢に対する最も高い発生頻度の関数である。例えば、各種クラスター訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される：
I am vary satisfied with your work
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
vary
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
vary; very
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘am vary’; ‘vary satisfied’; 'I am vary satisfied with'
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表３０および表３１に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、発生頻度および正規化された発生頻度の両方から、「very」が最も高い頻度関数を有することが分かる。

Ｂ．他の可能な選好性メトリックは、各訂正用選択肢についての、全てのＣＦＳの発生頻度の平均の関数である。例えば、各種訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A while ago the lived 3 dwarfs
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
the
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
the; they; she; there
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘ago the lived’; ‘the lived 3’
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表３２および表３３に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

「there」は、その発生頻度がマトリクス中での最大の発生頻度となるＣＦＳを有するにも関わらず、平均の発生頻度に基づいて「they」が選択されることに留意されたい。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表３４に示される通りである。

Ｄ．［特定の訂正用選択肢／ＣＦＳ］の選好性メトリックが生成される。サブステージＩＩＥ−ＩＩＧを参照して上述したように、一つまたは複数の縮小されたマトリクス中の訂正用選択肢に対し以下の操作を、いずれか一つ以上、より好ましくは大部分、最も好ましくは全て、行うことによって、生成される。
ｉ．訂正のために選択された元々の入力テキストからのクラスターが選択されて、基準クラスターとなる。
ｉｉ．修正マトリクスが作成される。各選択マトリクスにおいて、各特徴グラムにおける各訂正用選択肢の発生頻度関数を、各訂正用選択肢の発生頻度関数の、基準クラスターの発生頻度関数に対する比に置き換えたものである。
ｉｉｉ．ｉｉにおいて上述したタイプの修正マトリクスが、さらに修正される。各選好性メトリックにおける比を、比の関数（比の差が非常に大きいことの計算上の重要性を軽減させる関数）に置き換えることによって修正される。好適なそのような関数は対数関数である。この操作の目的は、最も好ましい訂正用選択肢の最終選好性スコア付けにおいて、発生頻度の差が大きいことにあまり重点が置かれず、最も好ましくない訂正用選択肢の最終選好性スコア付け（従って除去）において、発生頻度の差が大きさことに依然として重点が置かれるようにすることである。
ｉｖ．ｉｉまたはｉｉｉで上述したタイプの修正マトリクスが、追加的に修正される。各選好性メトリックにおける適用可能な比または比の関数に、適切なＣＦＳスコアを掛けることによって修正される。これは、正しい文法の用法、およびＣＦＳスコアに反映される他の要因を基にした強調を提供する。
ｖ．ｉｉ、ｉｉｉまたはｉｖで上述したタイプの修正されたマトリクスが、追加的に修正される。各選択マトリクスにおける適用可能な比または比の関数に、ユーザ不確実性メトリックの関数を掛け算することによって修正される。ユーザ入力不確実性メトリックのいくつかの例としては、
ワードプロセッサで行われた入力単語またはクラスターに関する編集行為の回数（その文書中の他の単語に対する編集行為と比較して）、
ワードプロセッサで行われた入力単語またはクラスターの書き込みのタイミング（その文書中の他の単語の書き込みの時間と比較して）、および
音声認識入力機能で行われた入力単語またはクラスターの語りのタイミング（そのユーザが他の単語を話す時間と比較して）
が挙げられる。ユーザ入力不確実性メトリックは、そのユーザの単語の選択の確実性の指標を提供する。このステップは、基準クラスターに対する算出されたバイアスを取得し、このクラスターについてのユーザの確実性または不確実性の関数によってそれを修正する。
ｖｉ．ｉｉ、ｉｉｉ、ｉｖまたはｖで上述したタイプの修正マトリクスが追加的に修正される。適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって修正される。好ましい関数は、各選好性メトリックにおける適用可能な比または比の関数に、そのＣＦＳの発生頻度を掛けることによって生成される。

そのような修正マトリクスの例は以下の通りである。
以下の入力テキストが提供される。
I will be able to teach base with you next week
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
teach
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
teach; touch
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘able to teach’; ‘to teach base’
上記においてサブステージＩＩＡおよびＩＩＣに関して上述した機能を用いて、表３５に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表３６に示される通りである。

以下の例は、上述した除去機能を示す。
以下の入力テキストが、典型的には音声認識機能によって、提供される。
I want [two/to/too] items, please.
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
[two/to/too]
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
two; to; too
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘I want two’; ‘want two items’
本明細書においてステージＩＩＡに関して上述した機能を用いて、表３７に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

訂正用選択肢「too」および「to」は除去される。ＣＦＳのうちの一つについて発生頻度がゼロだからである。他のＣＦＳについて高い発生頻度があるにも関わらずである。このようにここで、唯一の残るＣＦＳは、「two」である。

Ｇ．前記Ｆでの除去で残った訂正用選択肢について、Ａ−Ｅで上述したようにして展開された最終選好性メトリックに基づいて、ステージＩＩＩに関して上述したように、ランクが確定する。最も高い最終選好性スコアを有する訂正用選択肢が選択される。

以下の例は、信頼水準のスコア付けの使用の実例である。
以下の入力テキストが提供される。
He was not feeling wale when he returned
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
wale
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
wale; well
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘was not feeling wale'; ‘not feeling wale when; ‘feeling wale when he’; ‘wale when he returned’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表３８に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

以上の例は、上記Ｈで示した基準の全てにより、「wale」よりも「well」の選択が高い信頼水準を有することを示す。

以下の例では、信頼水準は幾分低くなっている。訂正用選択肢「back」は、ＣＦＳ「beech in the summer」で「beach」より発生頻度が高いが、「beach」は、ＣＦＳ「on the beech in」と「the beech in the」で、「back」より発生頻度が高いからである。訂正用選択肢「beach」が、基準Ｈ（ｃ）に基づいて中級の信頼水準で選択される。

以下の入力テキストが提供される。
I like to work on the beech in the summer
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
beech
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
beach; beech; back
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘on the beech in’; ‘the beech in the’; ‘beech in the summer’
ステージＩＩＡに関して上述した機能を用いて、表３９に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

以下の例では、基準Ｈ（ａ）に基づいて、信頼水準はさらに低い。
以下の入力テキストが受け取られる。
Exerts are restoring the British Museum’s round reading room
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
Exerts
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
Expert; Exerts; Expects
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘Exerts are’; ‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
サブステージＩＩＡに関して上述した機能を用いて、表４０に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

全ての訂正用選択肢が発生頻度ゼロとなるＣＦＳは全て除外される。この例では、以下の特徴グラムは除外される。
‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
この例では、唯一の残るＣＦＳは、特徴グラム
‘Exerts are’
である。

以下の例は、上記ステージＤおよびＥで説明した最終選好性スコアのメトリックの使用を示す。
以下の入力テキストが提供される。
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図５Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fast
図６を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
fat; fast
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
'and getting fast'; 'getting fast so'; 'fast so you'; 'fast so you will'
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表４１に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表４２に示される通りである。

上記ステージＤおよびＥで説明した最終選好性スコアのメトリックを用いて、訂正用選択肢「fat」が低い信頼度で選択される。

ここで図９を参照する。図９は、欠落要素の訂正機能の動作を示す詳細なフローチャートである。欠落要素の訂正機能は、冠詞、前置詞、句読点、および入力テキスト中で主に文法的な機能を果たす他の要素について、その欠落の訂正をするように機能する。この機能は、図１の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。

欠落の疑いのある要素の特定は、以下のようにして行われることが好ましい。
先ず、綴りを訂正された入力テキストについて、特徴グラムが生成される。綴りを訂正された入力テキストにおける各特徴グラムの、コーパス中、好ましくはインターネットコーパス中での発生頻度（FREQ F-G）が確かめられる。

各特徴グラムの予期される発生頻度（EFREQ F-G）は以下のように算出される。
特徴グラムは、Ｗ_１−Ｗ_ｎとして特定されるｎ個の単語を含むと想定される。
Ｗ_ｉは、特徴グラム中のｉ番目の単語を示す。
与えられた特徴グラムの予期される発生頻度は、特徴グラム中の単語の分割（単語Ｗ_１．．．Ｗ_{（ｎ−１）}の各々に続く２つの連続部分への分割）に基づいて、その特徴グラムの予期される頻度のうちで最も高いものになるように取られる。
単語Ｗ_ｉに続く２つの連続部分への特徴グラム中の単語の分割に基づく特徴グラムの予期される頻度は、以下の通りに表すことができる。
Ｗ_ｉについてのEFREQ F-G ＝（FREQ(W₁-W_i)×FREQ(W_i+1-W_n)）／（コーパス中での全ての単語の頻度の合計）

２つの連続部分への特徴グラム中の単語の全ての可能な分割に基づいて、各特徴グラムの予期される頻度が算出される。

Ｗ_ｉについてのFREQ F-G／EFREQ F-Gが所定の閾値よりも小さい場合、Ｗ_ｉについての特徴グラムは、その特徴グラムにおいてＷ_ｉとＷ_ｉ＋１との間で冠詞、前置詞、または句読点が欠落している疑いがあると考えられる。

綴りを訂正された入力テキスト中の２つの連続する単語の間で欠落の疑いがある単語連結部は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた単語連結部分を見い出す試みを行うことによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語連結部の最も長い一つまたは複数のシーケンスを有する単語連結部が選択される。

一つまたは好ましくは複数の挿入用選択肢が単語連結部ごとに生成される。好ましくは、もしかしたら欠落している、句読点、冠詞、前置詞、接続詞、その他の要素（名詞、動詞または形容詞を通常含まない）などの所定のセットに基づいて生成される。

各種挿入用選択肢の、少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付けが、図８を参照して上述し、かつ以下に説明される訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。

以下の例が実例となる。
以下の入力テキストが適用される。
I can’t read please help me
図４を参照して上述した機能を用いて、以下の特徴グラムが生成される（部分的なリスト）。
I can't read; can't read please; read please help; please help me
上述した機能を用いて、インターネットコーパス中での発生頻度のマトリクスが、上記リストの特徴グラムに対して生成され、それは、典型的には表４３に見られる通りである。

予期される発生頻度は、以下の式に従って、特徴グラム中の各単語Ｗ_ｉについて特徴グラムごとに算出される。
Ｗ_ｉについてのEFREQ F-G ＝（FREQ(W₁-W_i)×FREQ(W_i+1-W_n)）／（コーパス中での全ての単語の頻度の合計）

それらの計算の一部の例示的な結果は、表４４および表４５に見られる。

上記結果から分かるように、特徴グラムの各々の実際の発生頻度は、その予期される発生頻度よりも小さい。これは、句読点などの要素の不在が疑われることを示す。

単語「read」に続く挿入用選択肢のリストが生成される。このリストは、句読点、冠詞、接続詞、および前置詞の所定のリストを含むことが好ましい。特には、ピリオド「．」を含めておく。

選択肢の部分的なリストは、
'read please'; 'read. Please'; 'read of please'; 'read a please'
である。
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される。
'I can't read [?]'; 'read [?] please help'; ' [?] please help me'
図８のステージＩＩＡで説明した機能を用いて、表４６に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。
「．」がクラスターに含まれている場合、「．」を有するクラスターを含むＣＦＳの発生頻度が、「．」の前後のテキストで別々に検索される。つまり、特徴グラム「can’t read. Please」は、２つの別の文法構文解析フレーズを含むため、生成されない。

図８のステージＤおよびＥで説明した機能を用いて、最終選好性メトリックは、訂正用選択肢「read. Please」を選択する。訂正された入力テキストは、
I can’t read. Please help me.
である。

以下の例は、欠落した前置詞を追加する機能を示している。
以下の入力テキストが提供される。
I sit the sofa
後述する機能を用いて、以下のクラスターが訂正のために選択される。
‘sit the’
後述する機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
sit on the; sit of the; sit the
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される。
‘I sit the’; ‘sit the sofa’
図８のステージＩＩＡで説明した機能を用いて、表４７に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

図８のステージＩＩＤおよびＩＩＥで説明した機能を用いて、最終選好性メトリックは、訂正用選択肢「sit on the」を選択する。訂正された入力テキストは、
I sit on the sofa.
である。

ここで図１０を参照する。図１０は、不要な要素の訂正機能の動作を示す詳細なフローチャートである。不要な要素の訂正機能は、冠詞、前置詞、句読点、および入力テキスト中で主に文法的な機能を果たす他の要素について、それが不要であるものを訂正するように機能する。この機能は、図１の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。

図１０の機能は、図９の機能と組み合わされてもよい。または代替的に、図９の機能と並行して行われてもよく、また、その前後に行われてもよい。

不要である疑いのある要素の特定は、以下のようにして行われることが好ましい。
検索は、綴りを訂正された入力テキストに対して行われ、不要である可能性がある句読点、冠詞、前置詞、接続詞、およびその他の要素（名詞、動詞または形容詞を通常含まない）についての所定のセットに属する要素を特定する。

そのような要素ごとに、そのような要素を含む、誤用単語および文法を訂正され、綴りを訂正された入力テキストの全ての部分について、特徴グラムが生成される。そのような特徴グラムごとに、および、その要素を省略した該当する特徴グラムについて、発生頻度が算出される。

その要素を省略した特徴グラムの発生頻度が、その要素が存在している該当する特徴グラムの発生頻度を上回っている場合、その要素は疑わしいと考えられる。

誤用単語および文法を訂正され、綴りを訂正された入力テキスト中の疑わしい要素は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた要素を見付ける試みによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の最も長い一つまたは複数のシーケンスを有する要素が選択される。

可能な要素の削除が、疑わしい要素ごとに生成される。各種選択肢の少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付け（すなわち、要素の削除または要素の不削除）が、図８を参照して上述し、かつ以下に説明する訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。

以下の例が実例となる。
以下の入力テキストが提供される。
It is a nice, thing to wear.

入力テキストが検索され、例えば、句読点、前置詞、接続詞、および冠詞等のよく起こる不要である要素の所定のリストに属するあらゆる要素を特定するように検索される。
この例では、カンマ「，」は、そのようなリストに属するものとして特定される。
図４を参照して上述した機能を用いて、表４８に見られるカンマ「，」を含む特徴グラムが生成され、カンマを有しない同一の特徴グラムもまた生成される（部分的なリスト）。

上述した機能を用いて、インターネットコーパス中の発生頻度のマトリクスが、上記リストの特徴グラムに対して生成され、それは、典型的には表４９に見られる通りである。

上記マトリクスに見られるように、「，」を省略した特徴グラムの発生頻度は、「，」が存在する該当する特徴グラムの発生頻度を上回っている。従って、「，」は不要の疑いがあると考えられる。

カンマの削除の可能性は、カンマを維持するものおよびカンマを省略するものの以下の選択肢の、文脈ベースのスコア付けに基づいて考慮される。
‘nice,’; ‘nice’

図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
'a nice,'; 'nice, thing'; 'is a nice,'; 'a nice, thing'; 'nice, thing to'

図８のステージＩＩＡを参照して上述した機能を用いて、表５０に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれるＣＦＳは全て除外される。例えば、以下の特徴グラムは除外される。
'a nice,'; 'nice, thing'
この例では、残るＣＦＳは特徴グラム
'is a nice,'; 'a nice, thing'; 'nice, thing to'
である。

上記図８のステージＤおよびＥで説明された最終選好性スコアを用いて、カンマを有しない訂正用選択肢「nice」が選択される。カンマ削除後の入力テキストは、
It is a nice thing to wear.
である。

以下の例は、不要な冠詞を削除する機能を示す。
以下の入力テキストが提供される。
We should provide them a food and water.
図１０を参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
a food
図１０を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される（部分的なリスト）。
a food; food
図４を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）。
‘provide them a food’; ‘them a food and’; ‘a food and water’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表５１に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのＣＦＳにおいて上記リストのクラスター訂正用選択肢について生成される。

図８に記載されたスコア付け機能を用いて、最終選好性メトリックは、訂正用選択肢「food」を選択する。訂正された入力テキストは、
We should provide them food and water.
である。

上記で具体的に示され、説明されたものに本発明は限定されないことが当業者には理解されるであろう。本発明の範囲はむしろ、上記で説明し、示した各種特徴の組み合わせおよび部分的組み合わせの両方、ならびに、上記の説明を読んだ当業者が想起するであろう、先行技術にはないそれらの修正を含む。

Claims

コンピュータ支援言語訂正システムであって、当該システムは、
選択肢生成器を有し、該選択肢生成器は、キーボードによる言語入力に基づいて、該言語入力中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成するものであり、前記複数の選択肢は、キーボードのキーの位置の接近度に基づいた選択肢を含んでおり、
選択器を有し、該選択器は、
インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の頻度に基づいた文脈的なスコアと、
前記キーボードのキーの位置の接近度に基づいた非文脈的な単語類似度スコアと
の組み合わせに基づいて、前記言語入力中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、前記選択器による選択に基づいて訂正出力を提供するよう機能するものである、
前記コンピュータ支援言語訂正システム。
前記選択肢生成器が、
音声類似度機能を含み、該音声類似度機能は、前記入力中の単語に対する音声類似度に基づいて単語選択肢を提案し、かつ、音声類似度のメトリックを表示するよう機能するものであり、かつ、
文字列類似度機能を含み、該文字列類似度機能は、前記入力中の単語に対する文字列の類似度に基づいて単語選択肢を提案し、かつ、単語選択肢ごとに文字列の類似度のメトリックを表示するよう機能するものであり、
前記選択器が、文脈ベースの選択機能と一緒に、前記音声類似度のメトリックおよび文字列の類似度のメトリックを用いることによって、前記出力中の単語、または、前記選択肢生成器によって提案された選択的単語候補のいずれかを選択するよう機能するものである、
請求項１に記載のコンピュータ支援言語訂正システム。
信頼水準割当器をさらに有し、該信頼水準割当器は、前記複数の選択肢から選択された選択肢に対して信頼水準を割り当てるように機能するものであり、かつ、
前記訂正出力が、前記信頼水準に少なくとも部分的に基づいている、
請求項１または２に記載のコンピュータ支援言語訂正システム。
前記複数の選択肢が文脈特徴シーケンス（ＣＦＳ）に基づいて評価され、前記信頼水準が、以下のパラメータ：
選択されたＣＦＳの個数、タイプ、およびスコア、
前記ＣＦＳの文脈における前記複数の選択肢の発生頻度の統計的有意性の度合い、
前記ＣＦＳの各々の選好性メトリックおよび前記複数の選択肢の単語類似度スコアに基づく、前記複数の選択肢のうちの一つの選択についてのコンセンサスの度合い、
第一の所定の最小閾値を上回る、前記複数の選択肢のうちの前記一つの非文脈的な単語類似度スコア、および
第二の所定の最小閾値を上回るＣＦＳスコアと、第三の所定の閾値を上回る選好性スコアを有する、前記ＣＦＳの個数によって示される、利用可能な文脈データの程度、
のうちの少なくとも一つに基づくものである、
請求項４に記載のコンピュータ支援言語訂正システム。
誤用単語検出器および文法誤り検出器のうちの少なくとも一方をさらに有し、これら検出器は、前記言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも一部を評価するものであり、
前記訂正生成器が、前記検出器によってなされた評価に少なくとも部分的に基づいて、訂正出力を提供するように機能するものである、
請求項１から４のいずれか１項に記載のコンピュータ支援言語訂正システム。
前記複数の選択肢が、隣接するキーの混乱に基づいた選択肢を含んでいる、
請求項１から５のいずれか１項に記載のコンピュータ支援言語訂正システム。
前記複数の選択肢が、複数のキーの挿入に基づいた選択肢を含んでいる、
請求項１から６のいずれか１項に記載のコンピュータ支援言語訂正システム。
前記複数の選択肢が、意図して押したキーの脱落に基づいた選択肢を含んでいる、
請求項１から７のいずれか１項に記載のコンピュータ支援言語訂正システム。
前記複数の選択肢が、母音の脱落に基づいた、および、音声的な誤字の使用に基づいた選択肢を含んでいる、
請求項１から８のいずれか１項に記載のコンピュータ支援言語訂正システム。