JP2014238855A

JP2014238855A - インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善

Info

Publication number: JP2014238855A
Application number: JP2014147212A
Authority: JP
Inventors: ザンビル、ヤエルカロブ; Karov Zangvil Yael
Original assignee: Ginger Software Inc
Current assignee: Ginger Software Inc
Priority date: 2008-07-31
Filing date: 2014-07-17
Publication date: 2014-12-18
Also published as: WO2010013228A1; JP5584212B2; EP2313835A1; EP2313835A4; JP2011529594A

Abstract

【課題】入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成する。【解決手段】コンピュータ補助による言語生成システムは、センテンス取得機能を有し、センテンス取得機能は、単語を含む入力テキストに基づいて、入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能する。かつ、システムはセンテンス生成機能を有し、センテンス生成機能は、センテンス取得機能によってインターネットコーパスから取得された複数のセンテンスを用いて、入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能する。【選択図】図１

Description

関連出願への参照
METHODS FOR CONTEXT SENSITIVE ERROR DETECTION AND CORRECTIONというタイトルの２００７年８月１日に出願された米国仮特許出願シリアル番号60/953,209、および、２００８年７月３１日に出願されたＰＣＴ特許出願PCT/IL2008/001051が本明細書により参照さ
れ、それらの開示は、参照することにより本明細書によって援用され、かつ、37 CFR 1.78(a)(4)および(5)(i)に従ってそれらの優先権が本明細書により主張される。

発明の分野
本発明は、概しては、コンピュータ補助(computer-assisted)による言語の生成および
訂正に関し、より具体的には、機械翻訳に適用可能なものに関する。

発明の背景
以下の刊行物は、当該技術分野の現状を表すものと思われる。
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号および第4,674,065号
米国特許出願公開第2006/0247914号および第2007/0106937号。

発明の要旨
本発明は、コンピュータ補助による言語の生成のための改善されたシステムおよび機能を提供することを目的とする。

すなわち、本発明の好ましい実施形態に従って、コンピュータ補助による言語の生成システムが提供され、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、単語(words)を含む入力テキス
トに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである。

好ましくは、前記センテンス取得機能は、
独立フレーズ生成器(independent phrase generator)を有し、該独立フレーズ生成器は、入力テキストを１つまたはそれより多くの独立したフレーズに分割するものであり、
語幹生成器(word stem generator)と分類器(classifier)とを有し、これら語幹生成器
および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹(word stem)を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するもの
であり、かつ、
選択肢生成器(alternative generator)を有し、該選択肢生成器は、該語幹に対応する
代替的(alternative)な語幹を生成するためのものである。

本発明の好ましい実施形態に従って、前記コンピュータ補助による言語生成システムはまた、ステム・トゥ・センテンス・インデックス(stem to sentence index)を有し、該ス
テム・トゥ・センテンス・インデックスは、前記入力テキスト中の単語に一致する単語を含む前記複数のセンテンスを取得するために前記インターネットコーパスと交信するものである。

好ましくは、前記センテンス生成機能は、
センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得したセンテンスを単純化するように機能するものであり、
単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、該センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、
単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである。

本発明の好ましい実施形態によれば、前記単純化センテンスグループ・ランク付け機能は、以下の基準のうちの少なくともいくつかを用いて機能する。
Ａ．グループに含まれる単純化されたセンテンスの個数
Ｂ．グループ内の単語の語幹が、前記独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
Ｃ．グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度

好ましくは、前記単純化センテンスグループ・ランク付け機能は、以下の手順のうちの少なくとも一部を用いて機能する。
その言語における当該単語の重要度を指し示す語幹の重みを定義すること；
基準(criterion)Ｂに対応するポジティブマッチランク(Positive Match Rank)を算出すること；
基準Ｃに対応するネガティブマッチランク(Negative Match Rank)を算出すること；
次の事項に基いて、コンポジットランクを算出すること：
基準Ａに対応する、グループに含まれる単純化されたセンテンスの個数、
ポジティブマッチランク、および
ネガティブマッチランク。

本発明の実施形態によれば、前記コンピュータ補助による言語生成システムはまた、前記入力テキストを提供する機械翻訳機能を有する。

本発明の好ましい実施形態に従って、機械翻訳システムもまた提供され、該機械翻訳システムは、
機械翻訳機能を有し、
センテンス取得機能を有し、該センテンス取得機能は、該機械翻訳機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該機械翻訳機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである。

好ましくは、前記機械翻訳機能は、前記入力テキスト中の単語に対応する複数の選択肢を提供し、かつ、前記センテンス取得機能は、該選択肢に一致する単語を含む複数のセンテンスを前記インターネットコーパスから取得するように機能する。

本発明の実施形態によれば、言語生成はテキストの訂正を含む。

本発明の好ましい実施形態に従って、テキスト生成システムもまた提供され、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、テキスト訂正機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス訂正機能を有し、該センテンス訂正機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである。

好ましくは、前記システムはまた、センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて前記入力テキストを提供する。

本発明の好ましい実施形態に従って、センテンス検索システムもまた提供され、当該システムは、
センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて入力テキストを提供するものであり、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該センテンス検索機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである。

好ましくは、前記コンピュータ補助による言語生成システムはまた、音声テキスト変換機能を有し、該音声テキスト変換機能は前記入力テキストを提供する。

本発明の好ましい実施形態に従って、音声テキスト変換システムもまた提供され、当該システムは、
音声テキスト変換機能を有し、該音声テキスト変換機能は入力テキストを提供し、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該音声テキスト変換機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである。

上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該言語訂正システムは、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器(selector)を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正
出力を提供するように機能するものである。

好ましくは、前記選択器は、以下の訂正機能のうちの少なくとも一つに基づいて選択を行うように機能する：綴りの訂正、誤用(misused)された単語の訂正、文法の訂正、およ
び語彙の改善。

本発明の好ましい実施形態によれば、前記選択器は、以下の訂正機能のうちの少なくとも二つに基づいて選択を行うように機能する：綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善。付加的には、前記選択器は、訂正についての以下の時間的順序のうちの少なくとも一つに基づいて選択を行うように機能する：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。

付加的または代替的には、前記入力センテンスは、以下の機能：ワードプロセッサ機能、機械翻訳機能、音声テキスト変換機能、光学文字認識機能、およびインスタントメッセージング機能のうちの一つによって提供され、かつ、前記選択器は、以下の訂正機能：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。

好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。付加的または代替的には、前記文法訂正機能は、句読点、動詞の活用、単数形／複数形、冠詞、および前置詞の訂正機能のうちの少なくとも一つを有する。

本発明の好ましい実施形態によれば、前記文法訂正機能は、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する。

好ましくは、前記選択器は、文脈ベーススコア付け機能を有し、該文脈ベーススコア付け機能は、インターネットコーパス中での文脈特徴シーケンス(contextual feature-sequence、ＣＦＳ)の発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク
付けするように機能する。付加的には、前記文脈ベーススコア付け機能はまた、インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク付けするように機能する。

上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも一つ、ならびに、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能を有する。

好ましくは、前記文法訂正機能は、句読点、動詞の活用、単数形／複数形、冠詞および前置詞の訂正機能のうちの少なくとも一つを有する。付加的または代替的には、前記文法訂正機能は、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する。

本発明の好ましい実施形態によれば、前記コンピュータ補助による言語訂正システムは、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも二つを有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも二
つと協力し、かつインターネットコーパスを用いる。

好ましくは、前記コンピュータ補助による言語訂正システムはまた、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも三つを有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも三つと協力し、かつインターネットコーパスを用いる。

本発明の好ましい実施形態によれば、前記コンピュータ補助による言語訂正システムはまた、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能を有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能と協力し、かつインターネットコーパスを用いる。

好ましくは、前記訂正生成器は、訂正言語生成器を有し、該訂正言語生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。

上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、前記の言語入力中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。

好ましくは、前記言語入力は、入力センテンスおよび入力テキストのうちの少なくとも一つを含む。付加的または代替的には、前記言語入力は音声であり、かつ、前記生成器は、音声での言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する。

本発明の好ましい実施形態によれば、前記言語入力は、テキスト入力、光学文字認識機能の出力、機械翻訳機能の出力、およびワードプロセッシング機能の出力のうちの少なくとも一つであり、かつ、前記生成器は、テキストでの言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する。

好ましくは、前記選択器は、以下の訂正機能のうちの少なくとも二つに基づいて選択を行うように機能する：綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善。付加的には、前記選択器は、訂正についての以下の時間的順序のうちの少なくとも一つに基づいて選択を行うように機能する：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。

本発明の好ましい実施形態によれば、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。

好ましくは、前記選択器は、以下の機能：初期選択のために、前記言語入力中の前記複数の単語の全てよりは少ない単語を含む単語または単語の組み合わせの第一のセットを選択すること、その後で、前記の単語または単語の組み合わせの第一のセットの要素を順序付けて選択の優先度を確立すること、および、その後で、単語の第一のセットの要素に対する前記複数の選択肢の間での選択を行う際に、該選択に影響する文脈として、前記複数の単語の全てではない他の単語を選ぶことのうちの少なくとも二つを実行することにより選択を行うように機能する。付加的または代替的には、前記選択器は、以下の機能：少なくとも二つの単語を有する要素についての選択を行う際に、該少なくとも二つの単語の互いに対する複数の選択肢の各々との組み合わせで、該少なくとも二つの単語の各々に対する複数の選択肢の各々を評価することを実行することによって選択を行うように機能する。

本発明の好ましい実施形態によれば、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器（misused-word suspector、誤用された単語を検出するもの）を有し、該誤用単語検出器は、該言語入力の文脈内での適合に基づいて、言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。

好ましくは、前記コンピュータ補助による言語訂正システムはまた、選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、該言語入力中の少なくとも大部分の単語の少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、
選択器を有し、該選択器は、前記の言語入力中の少なくとも大部分の単語の少なくとも一つの各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、前記訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能する。付加的または代替的には、前記コンピュータ補助による言語訂正システムはまた、疑わしい単語を出力表示する表示器(suspect word output indicator)を有し、
該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分の少なくとも一部が、誤用された単語である疑わしさの程度を指し示すものである。

本発明の好ましい実施形態によれば、前記訂正生成器は、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的には基づいて、訂正されたテキスト出力を提供するように機能する。

好ましくは、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて前記選択を行うように機能する。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成す
るものであり、前記の言語入力中の単語に対する複数の選択肢の少なくとも一つは、インターネットコーパス中での該言語入力中の単語の文脈的な特徴(feature)と一致するもの
であり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアス（bias、偏り）を加えるものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、入力に基づいて、該入力中の少なくとも一つの単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該選択器は、該少なくとも一つの単語の各々、および、該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢に対して、該少なくとも一つの単語にとって有利になるバイアスを適用するものであり、該バイアスは、該入力を提供する人の不確実性を指し示す入力不確実性(input uncertainly)の指標(metric)の関数(function)であ
り、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
正しくない単語を検出する検出器を有し、該検出器は、言語入力中の単語の少なくとも大部分を評価するものであり、該検出器は、該入力を提供する人の不確実性を指し示す入力不確実性の指標に少なくとも部分的には応答するものであり、該検出器は、正しくないと疑われる単語の出力を提供し、かつ、当該システムは、選択肢生成器を有し、該選択肢生成器は、該正しくないと疑われる単語の出力によって特定される正しくないと疑われる単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、正しくないと疑われる単語の各々、および、該選択肢生成器によって生成された前記の複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
複数単語の入力を受け取って訂正出力を提供する、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも
一つを有し、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つのうちの各々は、代替単語候補生成器(alternative word candidate generator)を有し、該代替単語候補生成器は音声類似度機能を有し、該音声類似度機能は、該入力中の単語に対する音声上の類似度に基づいて代替的な単語を提案するように、および、音声上の類似度の指標を指し示すように機能するものであり、かつ、該代替単語候補生成器は文字列類似度機能を有し、該文字列類似度機能は、該入力中の単語に対する文字列の類似度に基づいて代替的な単語を提案するように、および、各々の代替的な単語に対して、文字列の類似度の指標を指し示すように機能するものであり、かつ、当該システムは、選択器を有し、該選択器は、文脈ベースの選択機能と共に、前記の音声上の類似度の指標および文字列の類似度の指標を用いることによって、該出力中の単語、または、該代替単語候補生成器によって提案された代替的な単語候補のいずれかを選択するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、特徴発生機能(feature occurrence functionality)を有し、該特徴発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む様々な特徴をランク付けするものであり、かつ、当該システムは、選択器を有し、該選択器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、特徴フィルタリング機能を有し、該特徴フィルタリング機能は、誤りの疑いがあるものを含む特徴を除去するための機能、複数単語の入力のより以前の訂正の繰り返しにおいて導入された単語を含み、かつ信頼度水準の予め定められた閾値を下回る信頼度水準を有する特徴を負にバイアスするための機能、ならびに、予め定められた頻度の閾値を上回る発生頻度を有する別の特徴に含まれる特徴を除去するための機能のうちの少なくとも一つを有する。

好ましくは、前記選択器は、以下の訂正機能：綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも二つに基づいて選択を行うように機能する。付加的には、前記選択器は、訂正についての以下の時間的順序の少なくとも一つに基づいて選択を行うように機能する：誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。

本発明の好ましい実施形態によれば、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能：文法の訂正、および誤用された単語の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。

好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。

本発明の好ましい実施形態によれば、前記選択器はまた、ユーザー入力の不確実性の指標に少なくとも部分的には基づいて前記選択を行うように機能する。付加的には、前記ユーザー入力の不確実性の指標は、前記入力を提供する人の不確実性の計測に基づく関数である。付加的または代替的には、前記選択器はまた、ユーザーの入力履歴を学習する機能を用いる。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、発生機能(occurrence functionality)を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、次の機能のうちの少なくとも一つを有する：Ｎグラム特定機能、共起特定機能、および、（スキップグラム特定機能、スウィッチグラム特定機能、および、ユーザーによって以前に使用された特徴特定機能のうちの少なくとも一つの機能）。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器を有し、該文法誤り検出器は、言語入力の文脈内での適合に基づいて該言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。

好ましくは、前記コンピュータ補助による言語訂正システムはまた、選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、前記の言語入力中の少なくとも大部分の単語のうちの少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、かつ、当該システムは、選択器を有し、該選択器は、前記の言語入力中の少なくとも大部分の単語のうちの一つの各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、前記訂正生成器は、該選択器によって為された選択に基づいて訂正出力を提供するように機能する。

本発明の好ましい実施形態によれば、前記コンピュータ補助による言語生成システムはまた、疑わしい単語を出力表示する表示器を有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分のうちの少なくとも一部が文法上の誤りを含む疑いについての程度を指し示すものである。

好ましくは、前記訂正生成器は、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正されたテキスト出力を提供するように機能する。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器(grammatical error suspector)を有し、該文法誤り検出器は、言語入
力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。

好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを有してもよく、当該システムは、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的には基づく、様々な代替的な訂正(corrections、訂正体）の文脈ベースのスコア付けを有する、前記システムを有してもよい。

好ましくは、前記コンピュータ補助による言語訂正システムはまた、前記文脈ベースのスコア付けと協力する、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙改善機能のうちの少なくとも一つを有する。

本発明の好ましい実施形態によれば、前記文脈ベースのスコア付けはまた、インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的には基づく。付加的または代替的には、前記文脈ベースのスコア付けはまた、ＣＦＳの重要度のスコアに少なくとも部分的には基づく。付加的には、前記ＣＦＳの重要度のスコアは、品詞のタグ付けおよびセンテンスの構文解析機能の操作、ＣＦＳの長さ、ＣＦＳ中の単語の各々の発生頻度、およびＣＦＳの類型のうちの少なくとも一つの関数である。

またさらには、本発明のまた別の好ましい実施形態に従って、コンピュータ補助による言語訂正システムが提供され、当該システムは、
語彙改善機能を有し、該語彙改善機能は、語彙に問題のある単語特定機能（vocabulary-challenged words identification functionality）、代替的な語彙改善生成機能、および、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記のセンテンス中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、当該システムは、信頼度水準付与器を有し、該信頼度水準付与器は、該複数の選択肢からの選択
された選択肢に対して信頼度水準を付与するように機能するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、および、少なくとも部分的には該信頼度水準に基づいて、訂正出力を提供するように機能するものである。

好ましくは、前記複数の選択肢は、文脈特徴シーケンス（ＣＦＳ）に基づいて評価され、かつ、前記信頼度水準は、以下のパラメータ：選択されたＣＦＳの個数、類型、およびスコア、ＣＦＳの文脈における前記の複数の選択肢の発生頻度の統計的有意性の指標、ＣＦＳの各々の優先度の指標および前記複数の選択肢の単語類似度スコアに基づく、前記の複数の選択肢のうちの一つの選択におけるコンセンサスの程度のうちの少なくとも一つに基づくものであり、ここで、前記の複数の選択肢のうちの一つの非文脈的な類似度スコアは、第一の予め定められた最小の閾値を上回り、かつ、第二の予め定められた最小の閾値を上回るＣＦＳスコアを有し、かつ第三の予め定められた閾値を上回る優先度スコアを有するＣＦＳの個数によって示される、利用可能な文脈データの程度を上回る。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
句読点誤り検出器を有し、該句読点誤り検出器は、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。

好ましくは、前記訂正生成器は、句読点欠落訂正機能、不要な句読点訂正機能、および句読点置換訂正機能のうちの少なくとも一つを有する。

上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法要素誤り検出器を有し、該文法要素誤り検出器は、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。

好ましくは、前記訂正生成器は、文法要素欠落訂正機能、不要な文法要素訂正機能、および文法要素置換訂正機能のうちの少なくとも一つを有する。付加的または代替的には、前記文法要素は、冠詞、前置詞、および接続詞のうちの一つである。

本発明は、図面と共に解釈される以下の詳細な説明からより十分に理解および認識されるであろう。

図１は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ補助による言語訂正用のシステムおよび機能の単純化したブロック図の図面である。図２は、図１のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図３は、図１のシステムおよび機能において好ましくは用いられる誤用された単語および文法訂正機能を示す単純化したフローチャートである。図４は、図１のシステムおよび機能において好ましくは用いられる語彙改善機能を示す単純化したフローチャートである。図５は、図１のシステムおよび機能において好ましくは用いられる文脈特徴シーケンス（ＣＦS）機能を示す単純化したフローチャートである。図６Ａは、本発明の好ましい実施形態に従って図２の機能の部分を形成する綴り訂正機能を示す単純化したフローチャートである。図６Ｂは、本発明の好ましい実施形態に従って図３の機能の部分を形成する誤用された単語および文法訂正機能を示す単純化したフローチャートである。図６Ｃは、本発明の好ましい実施形態に従って図４の機能の部分を形成する語彙改善機能を示す単純化したフローチャートである。図７Ａは、図２および３の機能において有用である、代替的な訂正を生成するための機能を示す単純化したフローチャートである。図７Ｂは、図４の機能において有用である、代替的な改善を生成するための機能を示す単純化したフローチャートである。図８は、図２の綴り訂正機能において有用な様々な代替的な訂正の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けのための機能を示す単純化したフローチャートである。図９は、図３、１０および１１の誤用された単語および文法訂正機能において、および、図４の語彙改善機能において有用である様々な代替的な訂正の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けのための機能を示す単純化したフローチャートである。図１０は、冠詞、前置詞および句読点の欠落訂正機能の動作を示す単純化したフローチャートである。図１１は、不要な冠詞、前置詞および句読点の訂正機能の動作を示す単純化したフローチャートである。図１２は、本発明の好ましい実施形態に従って構築され、機能する、コンピュータ補助による言語翻訳および生成用のシステムおよび機能の単純化したブロック図の図面である。図１３は、図１２のシステムおよび機能の部分を好ましくは形成するセンテンス取得機能を示す単純化したフローチャートである。図１４Ａおよび１４Ｂは合わせて、図１２のシステムおよび機能の部分を好ましくは形成するセンテンス生成機能を示す単純化したフローチャートである。図１４Ａおよび１４Ｂは合わせて、図１２のシステムおよび機能の部分を好ましくは形成するセンテンス生成機能を示す単純化したフローチャートである。図１５は、図１３、１４Ａおよび１４Ｂの機能において有用である選択肢を生成するための機能を示す単純化したフローチャートである。

好ましい実施形態の詳細な説明
ここで図１を参照する。図１は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ補助による言語訂正用のシステムおよび機能の単純化したブロック図の図面である。図１に見られるように、訂正用のテキストは、１以上のソースから言語訂正モジュール１００に提供され、該１以上のソースとしては、以下に限定されないが、ワードプロセッサ機能１０２、機械翻訳機能１０４、音声テキスト変換機能１０６、光学文字認識機能１０８、および、インスタントメッセージングまたはインターネットなどの任意の他のテキストソース１１０が挙げられる。

言語訂正モジュール１００は、綴り訂正機能１１２、誤用された単語および文法訂正機能１１４、および語彙改善機能１１６を有することが好ましい。

綴り訂正機能１１２、誤用された単語および文法訂正機能１１４、および語彙改善機能１１６が、インターネットコーパス１２０を利用する文脈特徴シーケンス（ＣＦＳ）機能
１１８とそれぞれ交信することは、本発明の特有の特徴である。

文脈特徴シーケンスまたはＣＦＳは、本明細書の目的のためには、図５を参照して以下で定義されるＮグラム、スキップグラム、スウィッチグラム、共起(co-occurrences)、「ユーザーによって以前に使用された特徴(previously used by user features)」、およびそれらの組み合わせを含むものとして定義される。説明の単純化および明確化のために、以下の例の大部分ではｎグラムのみを用いていることに留意されたい。本発明はそれに限定されないことが理解される。

インターネットコーパスは、極めて多くの文脈特徴シーケンスについてのかなりの統計データを提供し、高度にロバストな言語訂正機能をもたらすという点で、インターネットコーパスの使用は重要である。実際、２つを上回る単語の組み合わせは、従来の非インターネットコーパスでは非常に乏しい統計であるが、インターネットコーパスでは許容できるまたは良好な統計である。

インターネットコーパスは、通常はインターネットを巡回して、ウェブサイトのページからテキストを集めることによりワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの生き生きしたテキストもまた集められる。集められたテキストは、自然言語テキストの統計を蓄積するために使用される。インターネットコーパスのサイズは、例えば、より典型的なコーパスサイズが最大２０億ワードというのとは対照的に、１兆（1,000,000,000,000）ワードまたは数兆ワードであり得る。ウ
ェブコーパスなどの小さいウェブのサンプルは、１００億ワードを含み、これは、ＧＯＯＧＬＥ（登録商標）などの検索エンジンによって索引されるウェブテキストの１パーセントよりも著しく小さい。本発明は、ウェブコーパスなどのウェブのサンプルと共に機能し得るが、好ましくは、テキスト訂正のタスクのために、著しく大きいウェブのサンプルを利用する。

インターネットコーパスは、以下の２つの方法のうちの一つで用いられることが好ましい。
検索クエリとしてＣＦＳを用いて、１以上のインターネット検索エンジンが用いられる。そのようなクエリの各々に対する結果の数は、そのＣＦＳの発生頻度を提供する。
インターネットを巡回し、索引付けすることによって、ローカルインデックスが時間と共に蓄積される。各々のＣＦＳの発生回数はＣＦＳ頻度を提供する。ローカルインデックスおよび検索クエリは、インターネットの選択可能な部分に基づいてもよく、かつ、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネットの部分が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。

好ましくは、入力テキストは、最初に綴り訂正機能１１２に提供され、その後で誤用された単語および文法訂正機能１１４に提供される。入力テキストは、任意の好適なテキストであってよく、ワードプロセッシングの文脈では、好ましくは、センテンスなどの文書の部分である。語彙改善機能１１６は、綴り訂正機能１１２に対して、および、誤用された単語および文法訂正機能１１４に対して既に提供されたテキストに関して、ユーザーの自由選択で作動されることが好ましい。

好ましくは、言語訂正モジュール１００は、各々の訂正された単語または単語群に対して、１以上の選択肢の示唆を伴う訂正されたテキストを含む出力を提供する。

ここで図２を参照する。図２は、図１のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図２に見られるように、綴り訂正機能は以下のステップを有することが好ましい。
インターネットで通常使用される適当な名称および単語が充実した従来の辞書を好ましくは用いて、入力テキスト中の綴りの誤りを特定すること；
綴りの誤りを有する単一または連続もしくはほぼ連続の複数の単語を含んでもよいクラスターに、綴りの誤りをグループ化し、かつ、訂正のためのクラスターを選択すること。この選択は、最も多くの正しい文脈データを含むクラスターを見つけることを試みるものである。好ましくは、その付近において正しく綴られた単語の最も長いシーケンス（単数または複数）を有するクラスターが選択される。以上のステップは、図６Ａを参照して以下においてより詳細に説明される。
図７Ａを参照して以下に説明されるアルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正（訂正体）を生成すること；
図８を参照して以下に説明される綴り訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、好ましくはインターネットコーパスを用いる、少なくとも部分的に非文脈的な単語類似度ベースのスコア付け、および、文脈的なスコア付けを行うこと；
各々のクラスターに対して、上述のスコア付けに基づいて、単一の綴り訂正を選択し、かつ、最も好ましい代替的な綴り訂正を提示すること；および、
誤った綴りのクラスターを置き換える、各々の誤った綴りのクラスターに対する前記単一の綴り訂正を含む、訂正されたテキスト出力を提供すること。

図２の機能の動作は、以下の例を考慮することにより、より良く理解され得る。
以下の入力テキストが受け取られる。
Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate.

以下の単語が綴りの誤りとして特定される。
ecudation, assits; strenghing; eksersiv; inprove; strenth; helth; becals; thay, ea.

“fate”は、辞書に現れるため、綴りの誤りとして特定されないことに留意されたい。

表１に見られるように、以下のクラスターが選択される。

クラスター２に関して、“their”は正しく綴られているにも関わらず、誤って綴られ
た単語に囲まれているためにクラスターに含まれていることに留意されたい。

クラスター１の“eksersiv”は、その付近において正しく綴られた単語の最も長いシーケンス（単数または複数）を有するため、訂正のために選択される。

以下の代替的な訂正が、誤って綴られた単語“eksersiv”に対して生成される。
excessive, expressive, obsessive, assertive, exercise, extensive, exclusive,
exertion, excised, exorcism.

各々の代替的な訂正は、例えば表２に見られるように、誤って綴られた単語に対する音声および文字列の類似度に基づいて、非文脈的な単語類似度スコアを与えられる。

非文脈的なスコアは、様々な方法で導出され得る。一つの例としては、http://en.wikipedia.org/wiki/Levenshtein_distanceで利用できるレーベンシュタイン距離（Levelnshtein Distance）アルゴリズムを用いることによる。このアルゴリズムは、単語の列、単語の音声上の表現、または両者の組み合わせに想定され得る。

入力センテンスの文脈における適合に基づいて、表３に見られるように、各々の選択肢は文脈的なスコアも与えられる。この例では、用いられる文脈は、“Some students should <eksersiv> daily”である。

文脈的なスコアは、図８を参照して以下に説明されるようにして導出されることが好ましく、また、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の頻度に基づく。

図８に関して以下に説明されるように、文脈的なスコアと非文脈的な単語類似度スコアとの組み合わせに基づいて、単語“exercise”が最良の選択肢として選択される。

クラスターの全ては、同様にして訂正される。本発明の好ましい実施形態に従う綴りの訂正後の、綴りを訂正された入力テキストは、
Physical education can assist in strengthening muscles. Some students should
exercise daily to improve their strength and health because they are so fate.
である。

綴りを訂正された入力テキストには誤用された単語が残っていることに留意されたい。単語“fate”は、図３を参照して以下に説明される誤用された単語および文法訂正アルゴリズムによる訂正を必要とする。

ここで図３を参照する。図３は、図１のシステムおよび機能において好ましくは用いられる誤用された単語および文法訂正機能を示す単純化したフローチャートである。誤用された単語および文法訂正機能は、正しく綴られているが入力テキストの文脈では誤って用いられている単語の訂正、ならびに、文法的に正しい単語の代わりに文法的に正しくない単語の使用、不要な単語の使用、単語および句読点の欠落を含む、文法の誤りの訂正を提供する。

図３に見られるように、誤用された単語および文法訂正機能は、以下のステップを有することが好ましい。
図２の綴り訂正機能からの綴りを訂正された入力テキストの出力における誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは入力センテンスの文脈内での該単語の少なくとも大部分の適合を評価することによって、特定すること；
誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは重複しないクラスターにグループ化すること；および、
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップ
は、図６Ｂを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図７Ａを参照して以下に説明される代替的な訂正生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること；
図１０を参照して以下に説明される冠詞、前置詞、および句読点の欠落訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること；
図１１を参照して以下に説明される不要な冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること；
図９を参照して以下に説明される誤用された単語および文法訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、少なくとも部分的に文脈ベースのスコア付けおよび単語類似度ベースのスコア付けをすること；
図９を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の誤用された単語および文法の訂正を選択し、かつ、最も好ましい代替的な誤用された単語および文法の訂正を提示すること；および、
正しくないクラスターを置き換える、各々のクラスターに対する前記の単一の誤用された単語および文法の訂正を含む綴り、誤用された単語および文法を訂正されたテキスト出力を提供すること。

好ましくは、該スコア付けは、疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用することを含み、該バイアスは、該入力を提供する人の不確実性を指し示す入力の不確実性の指標の関数である。

図３の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが受け取られる：
I have money book

以下の単語が、誤用の疑いのある単語として特定される：
money, book

以下のクラスターが生成される：
money book

以下は、該クラスターに対して生成される代替的な訂正の例である（部分的なリスト）：
money books; money back; money box; money bulk; money Buick; money ebook; money bank; mini book; mummy book; Monet book; honey book; mannerly book; mono book; Monday book; many books; mini bike; mummy back; monkey bunk; Monday booked; Monarchy back; Mourned brook

インターネットコーパスを用いた少なくとも部分的に文脈的なスコア付け文脈ベース、および、非文脈的な単語類似度ベースのスコア付けの結果は、表４に示される。

グローバルスコアに到達する様々な方法が存在することを理解されたい。好ましいグローバルスコアは、図９を参照して以下に説明されるアルゴリズムに基づくものである。

上記スコア付けに基づいて、選択肢“many books”が選択される。従って、訂正されたテキストは：
I have many books.
である。

ここで図４を参照する。図４は、図１のシステムおよび機能において用いられる語彙改善機能を示す単純化したフローチャートである。図４に見られるように、語彙改善機能は以下のステップを有することが好ましい。
図３の誤用された単語および文法訂正機能からの綴り、誤用された単語および文法を訂正された入力テキストの出力において、準最適である疑いのある語彙の使用を有する語彙に問題のある単語を特定すること；
語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化すること；
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップは、図６Ｃを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図７Ｂを参照して以下に説明される語彙改善生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な語彙改善を生成すること；
図９を参照して以下に説明される語彙改善選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な語彙改善の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けをすること；
図９を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の語彙改善を選択し、かつ、最も好ましい代替的な語彙改善を提示すること；および、
各々の準最適な語彙クラスターに対して、語彙改善の提案を提供すること。

図４の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴り、誤用された単語および文法を訂正された入力テキストが提供される：
Wearing colorful clothes will separate us from the rest of the children in t
he school.

図６Ｃを参照して以下に説明される機能を用いて、語彙改善のために以下のクラスターが選択される：
separate

図７Ｂを参照して以下に説明される機能を用いて、表５に見られる以下の代替的なクラスターの訂正が、図７Ｂに説明される前処理された語彙データベースに基づいて生成される（部分的なリスト）：

様々な代替的な語彙改善が、入力テキストの文脈内でのそれらの適合に少なくとも部分的には基づいて、および、語彙に問題のある単語“separate”に対するそれらの単語の意味の類似度にも基づいて、インターネットコーパスを用いてスコア付けされる。

図５を参照して以下に説明される機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'will separate', 'separate us', 'clothes will separate', 'will separate us',
'separate us from'

図９のステージＩＩＡを参照して以下に説明される機能を用いて、表６に見られるインターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の部分的なリストに対して生成される。

全ての代替的な訂正が発生頻度ゼロである全てのＣＦＳは除外される。この例では、以下の特徴グラムは除外される：
'clothes will separate'

その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される：
'will separate', 'separate us'

この例では、残るＣＦＳは特徴グラム：
'will separate us', 'separate us from'
である。

図９を参照してステージＩＩＤおよびＩＩＥにおいて以下に説明される最終の優先度スコアを用いて、選択肢“differentiate”が選択され、改善されたセンテンスは：
Wearing colorful clothes will differentiate us from the rest of the children
in the school.
である。

ここで図５を参照する。図５は、本発明の好ましい実施形態のコンピュータ補助による言語訂正のためのシステムおよび機能において有用である文脈特徴シーケンス（ＣＦS）
機能１１８（図１）を示す単純化したブロック図である。

ＣＦＳ機能１１８は、好ましくは、特徴抽出機能を有し、該特徴抽出機能は、Ｎグラム抽出機能、ならびに任意には、スキップグラム抽出機能、スイッチグラム抽出機能、共起抽出機能、および、ユーザーによって既に使用された特徴抽出機能のうちの少なくとも一つを有する。

用語Ｎグラムは、当該技術分野において公知の用語であり、入力テキストにおけるＮ個の連続する単語のシーケンスを意味する。文法的な考慮に基づいて、コーパス中、好ましくはインターネットコーパス中に高頻度で現れるとは予想されないある種のＮグラムの生成を回避するために、Ｎグラム抽出機能は、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書の目的のためには、用語「スキップグラム抽出機能」は、「スキップグラム」を抽出するように機能する機能を意味し、「スキップグラム」は、形容詞、副詞、形容詞
句、および副詞句などのある種の不可欠ではない単語または句を除外した修正されたｎグラムであり、あるいは、主語−動詞、動詞−目的語、副詞−動詞、または動詞−時間表現などの予め定められた文法的な関係を有する単語のみを含む修正されたｎグラムである。スキップグラム抽出機能は、所与の文脈においてどの単語をスキップしてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書の目的のためには、用語「スイッチグラム抽出機能」は、「スイッチグラム」を特定する機能を意味し、「スイッチグラム」は、ある種の単語の出現順序が切り替えられた修正されたｎグラムである。スイッチグラム抽出機能は、所与の文脈においてどの単語がその出現順序を切り替えられてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。

本明細書においては、用語「共起抽出機能(co-occurrence extraction functionality)」は、入力センテンス中または多くの入力センテンスを含む入力文書中の単語の組み合わせを特定する機能を意味し、一般に発生する単語（前置詞、冠詞、接続詞、および、その機能が主として文法的なものである他の単語といったもの）のフィルター除去に引き続いて、入力単語からの距離および方向の表示と共に、Ｎグラム、スイッチグラム、または、スキップグラムに含まれる単語以外の入力テキスト中の全ての単語に対する入力テキストの単語の共起(co-occurrence)を有する。

本明細書においては、用語「ユーザーによって以前に使用された特徴抽出機能」は、前置詞、冠詞、接続詞、およびその機能が主として文法的なものである他の単語などの一般に起こる単語の除去後に、他の文書においてユーザーによって使用された単語を特定する機能を意味する。

本明細書においては、Ｎグラム、スキップグラム、スイッチグラム、およびそれらの組み合わせは特徴グラムと呼ばれる。

本明細書においては、Ｎグラム、スキップグラム、スイッチグラム、共起、「ユーザーによって以前に使用された特徴」、およびそれらの組み合わせは、文脈特徴シーケンスまたはＣＦＳと呼ばれる。

図５の機能は、入力テキスト中の個々の単語または単語のクラスターに対して機能することが好ましい。

図５の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが提供される：
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer , to invesigate the death of sir Charles”

入力テキスト中のクラスター“Cherlock Homes”に対して、以下のＣＦＳが生成される：
Ｎグラム:
２グラム: Cherlock Homes; Homes the
３グラム: Cherlock Homes the; Homes the lead
４グラム: Cherlock Homes the lead; Homes the lead character
５グラム: Cherlock Homes the lead character
スキップグラム:
Cherlock Homes the character; Cherlock Homes the chief inspecter; Cherlock H
omes the inspecter; Cherlock Homes has been cold
スイッチグラム:
The lead character Cherlock Homes
入力テキスト中の共起:
Character; inspector; investigate; death
入力テキストを含む文書中の共起:
Arthur Conan Doyle; story
ユーザーの他の文書中の共起:
mystery

入力テキスト中のクラスター“cold”に対して、以下のＣＦＳが生成される：
Ｎグラム:
２グラム: been cold; cold in
３グラム: has been cold; been cold in; cold in by
４グラム: inspector has been cold; has been cold in; been cold in by; cold in by the
５グラム: chief inspector has been cold; inspector has been cold in; has been cold in by; been cold in by the; cold in by the family
スキップグラム:
cold in to investigate; Cherlock has been cold; cold by the doctor; cold by Dr Mortimer; character has been cold

ＣＦＳは各々、以下のうちの少なくとも一つ、好ましくは一つより多く、最も好ましくは全てに基づいて、「重要度スコア」を与えられる。
ａ．従来の品詞タグ付け機能およびセンテンス構文解析機能の操作。複数のパースツリーノード（parsing tree nodes）の部分を含むＣＦＳは比較的低いスコアを与えられる。ＣＦＳに含まれるパースツリーノードの個数が多くなるほど、そのＣＦＳのスコアは低くなる。
ｂ．ＣＦＳの長さ。ＣＦＳが長くなるほど、スコアは高くなる。
ｃ．入力ワード以外のＣＦＳ中の単語の各々の発生頻度。そのような単語の発生頻度が高くなるほど、スコアは低くなる。
ｄ．ＣＦＳの類型。例えば、Ｎグラムは共起よりも好ましい。入力センテンス中の共起は入力文書中の共起よりも好ましく、入力文書中の共起は「ユーザーによって以前に使用された特徴」よりも好ましい。

上記の例に関して、典型的なスコアは表７に見られる通りである。

これらのＣＦＳおよびそれらの重要度スコアは、インターネットコーパス中でのＣＦＳの発生頻度に基づく様々な代替的なクラスターの訂正の文脈ベースのスコア付けのために、図８および９を参照して以下で説明される機能において用いられる。

ここで図６Ａを参照する。図６Ａは、入力テキスト中の綴りを誤った単語を特定し、好ましくは重複しないクラスターに綴りを誤った単語をグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。

図６Ａに見られるように、綴りを誤った単語の特定は、インターネット上で一般に用いられる適当な名称および単語が充実した従来の辞書を用いることによって行われることが好ましい。

綴りを誤った単語のクラスターへのグループ化は、連続するまたはほぼ連続する綴りを誤った単語を、文法上の関係を有する綴りを誤った単語と共に、単一のクラスターにグループ化することによって行われることが好ましい。

訂正のためのクラスターの選択は、最も多くの、疑いのない文脈データを含むクラスタ
ーを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において正しく綴られた単語の最も長いシーケンス（単数または複数）を有するクラスターが選択される。

ここで図６Ｂを参照する。図６Ｂは、綴りを訂正された入力テキスト中の誤用の疑いのある単語および文法の誤りを有する疑いのある単語を特定し、誤用の疑いのある単語および文法の誤りの疑いのある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。

誤用の疑いのある単語の特定は以下のようにして行われることが好ましい。
綴りを訂正された入力テキスト中の各々の単語に対して、特徴グラムが生成される；
コーパス、好ましくはインターネットコーパス中での該特徴グラムの各々の発生頻度が記録される；
各々の単語に対して疑わしい特徴グラムの数が記録される。疑わしい特徴グラムは、予期される頻度(expected frequency)よりも著しく低い頻度、または最小の頻度の閾値を下回る頻度を有する。特徴グラムの予期される頻度は、その構成要素およびそれらの組み合わせの頻度に基づいて見積もられる。
ある単語は、その単語を含む疑わしい特徴グラムの数が、予め定められた閾値を超えている場合に疑わしいものとなる。

本発明の好ましい実施形態に従って、コーパス中、好ましくはインターネットコーパス中での、綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度（ＦＲＥＱＦ−Ｇ）が確かめられる。そのコーパス中での綴りを訂正された入力テキスト中の各々の単語の発生頻度（ＦＲＥＱＷ）もまた確かめられ、さらには、その単語を有しない各々の特徴グラムの発生頻度（ＦＲＥＱＦＧ−Ｗ）が確かめられる。

各々の特徴グラムの予期される発生頻度（ＥＦＲＥＱＦ−Ｇ）は、以下の通りに算出される：
ＥＦＲＥＱＦ−Ｇ＝ＦＲＥＱＦ−Ｇ−Ｗ＊ＦＲＥＱＷ／（コーパス中での全ての単語の頻度の合計）

コーパス、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度の、各々の特徴グラムの予期される発生頻度に対する比（ＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇ）が予め定められた閾値よりも小さい場合、あるいは、ＦＲＥＱＦ−Ｇが別の予め定められた閾値よりも小さい場合、特徴グラムは疑わしい特徴グラムであると考えられる。疑わしい特徴グラムに含まれる全ての単語は、誤用の疑いのある単語または文法の誤りの疑いのある単語であると考えられる。

綴りを訂正された入力テキストにおける誤用の疑いのある単語および文法の誤りの疑いのある単語の特定のための図６Ｂの機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴りを訂正された入力テキストが提供される：
I have money book

特徴グラムは以下を含む：
I; I have; I have money; I have money book

表８は、上記特徴グラムのインターネットコーパス中での発生頻度を示す。

予期される発生頻度は、２グラムの各々に対して以下の通りに算出される：
ＥＦＲＥＱＦ−Ｇ＝（ＦＲＥＱＦ−Ｇ−Ｗ＊ＦＲＥＱＷ）／（コーパス中の全ての単語の頻度の合計）

例えば、２グラムに対しては、
２グラム（ｘ，ｙ）に対する予期される２グラムの頻度＝（ｘの１グラムの頻度＊ｙの１グラムの頻度）／インターネットコーパス中の単語の数（例：１兆（1,000,000,000,000）ワード）

コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度の、各々の特徴グラムの予期される発生頻度に対する比は、以下の通りに算出される：
ＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇ

コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の上記２グラムの各々の発生頻度の、上記２グラムの各々の予期される発生頻度に対する比は、表９に見られる。

“money book”のＦＲＥＱＦ−Ｇはその予期される頻度よりも著しく低いため、ＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇは、１などの予め定められた閾値よりも低いと考えることができ、従って、クラスター“money book”は疑わしいことが分かる。

単語“money book”を含む３グラムおよび４グラムは共に、インターネットコーパス中では頻度ゼロであることが分かる。これもまた、“money book”は疑わしいと考える根拠となり得る。

誤用の疑いのある単語および文法の誤りの疑いのある単語のクラスターへのグループ化は、以下の通りに行われることが好ましい。連続するまたはほぼ連続する誤用の疑いのある単語は単一のクラスターにグループ化され、また、それらの間に文法上の関係を有する誤用の疑いのある単語は同一のクラスターにグループ化される。

訂正のためのクラスターの選択は、多くの量の疑わしくない文脈データを含むクラスターを見付けるのを試みることによって行われることが好ましい。好ましくは、その付近において疑わしくない単語の最も長いシーケンス（単数または複数）を有するクラスターが選択される。

ここで図６Ｃを参照する。図６Ｃは、綴り、誤用された単語および文法を訂正された入力テキストにおいて、準最適である疑いのある語彙の使用を有する、語彙に問題のある単語を特定し、語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。

語彙に問題のある単語の特定は、以下の通りに行われることが好ましい：
各々の単語に対して言語豊富度スコアを付与するためにシソーラスを前処理する。該言語豊富度スコアは、ヒエラルキーでの単語のレベルを示し、該ヒエラルキーでは、書かれた言語は話された言語よりも好ましく、例えば、インターネットソースの間では、記事および書籍はチャットおよびフォーラムよりも好ましく、かつ、より使用頻度の低い単語は、より使用頻度の高い単語よりも好ましい；
シソーラスを更に前処理して、先行する前処理ステップの結果に基づいて、および、文法規則に基づいて、語彙改善のための候補ではありそうもない単語を除外する；
更に前処理して、入力単語の言語豊富度スコアよりも高い言語豊富度スコアを有する語彙改善用の候補を、各々の残っている単語に対して指し示す；および、
綴り、誤用された単語および文法を訂正された入力テキスト中の各々の単語が、複数に前処理されたシソーラス中に残っている単語として現れるかどうかを確認し、残っている単語として現れたそのような単語の各々を、語彙改善のための候補として特定する。

語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化することは、任意選択的であり、好ましくは以下の通りに行われる：
連続する語彙に問題のある単語が単一のクラスターにグループ化される；および、
文法上の関係を有する語彙に問題のある単語が、同一のクラスターにグループ化される。

訂正のためのクラスターの選択は、最も多くの量の、語彙に問題のない単語を含むクラスターを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において語彙に問題のない単語の最も長いシーケンス（単数または複数）を有するクラスターが選択される。

ここで図７Ａを参照する。図７Ａは、図２および３の機能において有用である、クラスターに対する代替的な訂正を生成するための機能を示す単純化したフローチャートである。

元々の入力単語が正しく綴られている場合、それが選択肢として考えられる。

図７Ａに見られるように、クラスター中の各々の単語に対して、複数の代替的な訂正が最初に以下のようにして生成される：
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、クラスター中の各々の単語に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、ＧＮＵＡｓｐｅｌｌおよびＧｏｏｇｌｅ（登録商標）ＧＳｐｅｌｌなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の代替的な訂正を提供する。例えば、入力単語feezixを考えると、一つの文字、すなわち“i”しか共通しないが、音声の類
似に基づいて、辞書から単語“physics”が取得されることになる。類似の音声を有しな
いが、その列の文字の類似度に基づいて、単語“felix”が取得されることになる。

更なる選択肢は、公知の代替的な用法に基づく規則、および蓄積されたユーザーの入力を用いることによって生成され得る。例：u→you、r→are、Im→I am。

更なる選択肢は、好ましくは予め定義されたリストを用いて、文法規則に基づいて生成され得る。少数の例は以下の通りである：
単数形／複数形の規則：入力センテンスが“leaf fall off trees in the autumn”
である場合、複数形の選択肢“leaves”が生成される。
冠詞の規則：入力テキストが“a old lady”である場合、代替的な冠詞“an”および“the”が生成される。
前置詞の規則：入力テキストが“I am interested of football”である場合、代替
的な前置詞“in”、“at”、“to”、“on”、“through”,...が生成される。
動詞の活用規則：入力テキストが“He leave the room”である場合、代替的な動詞
の活用“left”、“leaves”、“had left”,...が生成される。
単語の結合および単語の分割の規則：入力テキストが“get alot fitter”である場
合、選択肢“a lot”が生成される。
入力テキストが“we have to wat ch out”である場合、選択肢“watch”が生成される。
入力テキストが“do many sittups”である場合、選択肢“sit ups”が生成される。

ＣＦＳ、より具体的には特徴グラムなどの文脈情報が、代替的な訂正を生成するために用いられ、そしてそれは、そのような「文脈的に取得された」代替的な訂正をスコア付けするためのみではないということは、本発明の好ましい実施形態の特有の特徴である。Ｃ
ＦＳ、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。

以下の例は本発明のこの側面を示している：
入力センテンスが“The cat has kts”である場合、単語“kts”は単語“kittens”に
音声または記述として有意には類似していないかもしれないため、本発明のこの側面がなければ、“kittens”は選択肢の一つにならないかもしれない。

本発明のこの側面によれば、インターネットコーパスにおいて、ｎグラム“cat has”
の後に一般に現れる単語、すなわち、クエリ“cat has *”において*として見付かる全ての単語を探すことにより、以下の選択肢が取得される：
nine lives; left; fleas; dandruff; kittens; tapeworms; adopted; retractile claws; been; urinated; diarrhea; eaten; swallowed; hairballs; gone; always been

本発明の好ましい実施形態によれば、「文脈的に取得された」選択肢はその後フィルタリングにかけられ、元々の単語に対して何らかの音声学上または記述上の類似度を有する文脈的に取得された選択肢のみ（当該の例では“kts”）が残る。この例では、最も高い
音声学上および記述上の類似度を有する選択肢“kitten”が取得される。

入力テキストが、光学文字認識、音声テキストまたは機械翻訳システムなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接取得され得る。そのような追加の選択肢は、典型的には、そのようなシステムの作動の過程で生成される。例えば、機械翻訳システムでは、外国語の単語の代替的な翻訳が、選択肢として使用するために当該システムに提供され得る。

クラスター中の単語の各々に対する選択肢の全てが生成されると、クラスター全体に対するクラスターの選択肢が、様々な選択肢の可能な全ての組み合わせを確かめ、続いてコーパス中、好ましくはインターネットコーパス中での発生頻度に基づいて該組み合わせをフィルタリングすることにより、生成される。

以下の例が実例である：
入力クラスターが“money book”である場合、単語“money”に対する選択肢は：
Monday; many; monkey
であり、単語“book”に対する選択肢は：
Books; box; back
である。

以下のクラスターの選択肢が生成される：
money books; money box; money back; Monday books; Monday box; Monday back; many books; many box; many back; monkey books; monkey box; monkey back; many book; monkey book; Monday book

ここで図７Ｂを参照する。図７Ｂは、図４の機能において有用である、クラスターに対する代替的な改善(enhancements、改選体）を生成するための機能を示す単純化したフロ
ーチャートである。

図７Ｂに見られるように、複数の代替的な改善は、最初に以下のようにして生成される：
元々の入力単語が正しく綴られている場合、それが選択肢として考慮される。

シソーラス、または、インターネット上で自由に利用できるPrinceton WordNetなどの
他の語彙データベースから取られ、クラスター中の各々の単語に対して同義語、上位集合または部分集合として語彙的に関連する複数の単語が取得される。取得され、優先順位を付された単語は、第一の複数の代替的な改善を提供する。

公知の代替的な用法に基づく規則および蓄積されたユーザーの入力を用いることにより、さらなる選択肢が生成され得る。

ＣＦＳ、より具体的には特徴グラムなどの文脈情報が、代替的な改善を生成するために用いられ、そしてそれは、そのような「文脈的に取得された」代替的な改善をスコア付けするためのみではないということは、本発明の好ましい実施形態の特有の特徴である。ＣＦＳ、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。

クラスター中の単語の各々に対する選択肢の全てが生成されると、クラスター全体に対する選択肢が、様々な単語の選択肢の可能な全ての組み合わせを確かめ、インターネットなどの既存のコーパス中での生じた複数単語の組み合わせの発生頻度に基づいて組み合わせをフィルタリングすることにより、生成される。

以下の例は、図７Ｂの機能の実例となる：
以下の入力テキストが提供される：
It was nice to meet you
単語“nice”に対して以下の選択肢がPrinceton WordNetなどの語彙データベースによ
り生成される（部分的なリスト）：
pleasant, good, kind, polite, fine, decent, gracious, courteous, considerate, enjoyable, agreeable, satisfying, delightful, entertaining, amiable, friendly,
elegant, precise, careful, meticulous
単語“nice”に対して以下の選択肢が、予め定められた規則の適用により生成される：
cool
“it was * to meet”などのクエリに対する応答などにおいて、単語“nice”に対して、以下の文脈的に取得された選択肢が生成される：
great; a pleasure; wonderful; lovely; good; impossible; fun; awesome; refreshing; exciting; agreed; fantastic; decided ; inspiring

ここで図８を参照する。図８は、図２の綴り訂正機能において有用である、様々な代替的な改善の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。

図８に見られるように、様々な代替的な訂正の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む：
Ｉ．非文脈的なスコア付け − 様々なクラスターの選択肢が、書かれたときの見た目および音声の類似度の観点での入力テキスト中のクラスターに対する類似度に基づいてスコア付けされる。このスコア付けは、所与のクラスターの外のいかなる文脈的な類似度も考慮に入れない。
ＩＩ．インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図５を参照して上記で説明したようにして提供される抽出された文脈特徴シーケンス（ＣＦＳ）に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する：
ＩＩＡ．図５を参照して上記で説明されたようにして抽出されたＣＦＳの文脈における、図７Ａの機能によって作り出された様々な代替的なクラスターの訂正に関する発生頻
度の解析が、好ましくはインターネットコーパスを用いて行われる。
ＩＩＢ．サブステージＩＩＡの発生頻度の解析の結果にとりわけ基づいて、ＣＦＳの選択および様々なＣＦＳの重み付けが行われる。重み付けは、様々なＣＦＳの相対的な固有の重要度にも基づく。ＣＦＳの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるＣＦＳは、相対的な重みを与えられることが好ましい。
ＩＩＣ．サブステージＩＩＢで選択されたＣＦＳの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
ＩＩＤ．サブステージＩＩＡの発生頻度の解析の結果、サブステージＩＩＣの発生頻度の指標、ならびに、サブステージＩＩＢのＣＦＳの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
ＩＩＥ．基準となるクラスターの訂正として使用するために、ステージＩにおける最も高い非文脈的な類似度スコアを有するクラスターが、サブステージＩＩＤにおける縮小されたセットから選択される。
ＩＩＦ．ステージＩＩＢで選択されたＣＦＳの各々に対する、サブステージＩＩＥの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
ＩＩＧ．サブステージＩＩＢで選択されたＣＦＳの各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージＩＩＥの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
ＩＩＩ．ステージＩの結果およびステージＩＩの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
ＩＶ．最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。

ステージＩＩ−ＩＶにおいて上述した機能のより詳細な説明は以下で与えられる：
サブステージＩＩＡに関して、訂正されるべきクラスターを含む全てのＣＦＳは、図５において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むＣＦＳは除外される。

ＣＦＳの各々におけるクラスターに対する代替的な訂正の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての代替的な訂正が発生頻度ゼロである全てのＣＦＳは除外される。その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。

以下の例は、発生頻度マトリクスの生成を示す：
以下の入力テキストが提供される：
I lik tw play outside a lot
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
lik tw
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
like to; like two; lick two; lack two; lack true; like true
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside';
'I lik tw play outside'; 'lik tw play outside a'
ステージＩＩＡに関して上述した機能を用いて、表１０に見られるインターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

全ての代替的な訂正が発生頻度ゼロとなる全てのＣＦＳは除外される。この例では、以下の特徴グラムは除外される：
'lik tw play outside a'

その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。この例では以下の特徴グラムは除外される：
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside'
この例では、唯一の残るＣＦＳは、特徴グラム：
'I lik tw play outside'
である。

生じるマトリクスは表１１に見られる通りとなる。

上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、“like to”が好ましい代替的な訂正であることは明らかである。現実には、選択
は通常このように直接的ではないことを理解すべきである。従って、以下に提示する更なる例では、代替的な訂正の間でのはるかに難しい選択を行うための機能が提供される。

サブステージＩＩＢの考慮に戻って、任意には、残るＣＦＳの各々は、図５を参照して上述したようにしてスコアを与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ予め定められた信頼度水準の閾値を下回る信頼度水準を有するＣＦＳは、負にバイアスされる

一般的な場合において、サブステージＩＩＣにおいて上述したのと同様に、インターネットコーパス中での各々のＣＦＳの正規化された発生頻度を示す正規化頻度マトリクスが生成されることが好ましい。正規化頻度マトリクスは通常、各々のＣＦＳの頻度を、関連するクラスターの選択肢の発生頻度の関数で割ることにより、頻度マトリクスから生成される。

正規化は、様々な代替的な訂正の全体的な豊富度(popularity)における有意な差異の効果を中立化するように機能する。好適な正規化の係数は、特定のＣＦＳに関係なく、コーパス中での様々な代替的な訂正全体としての全発生頻度に基づくものである。

以下の例は、正規化された発生頻度のマトリクスの生成を示す：
以下の入力テキストが提供される：
footprints of a mysterious haund said to be six feet tall
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
haund
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
hound; hand; sound
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'a mysterious haund'; 'haund said'
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１２に見られる、
インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される：

様々な代替的な訂正の全体的な豊富度における実質的な差異により、最も高い発生頻度を有する単語が必ずしも最も高い正規化された発生頻度を有しない可能性があることが上記の例から理解され得る。上記の例では、“hound”はもっとも高い正規化された発生頻
度を有し、また、インターネットコーパス中で最も高い発生頻度を有する“hand”ではなく、“hound”が正しい単語であることが、入力テキストの文脈から明らかである。

正規化された発生頻度は、様々な代替的な訂正の全体的な豊富度における実質的な差異を中立化し、代替的な訂正の間での選択において使用されることが好ましいということは、本発明の特有の特徴である。正規化された発生頻度以外の発生頻度の指標が、代替的または付加的に、指標として用いられ得ることを理解されたい。発生頻度が比較的低いまたは特に高い場合、付加的または代替的な指標は有益である。

付加的な機能がしばしば、様々な代替的な訂正の間での選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。

サブステージＩＩＤにおいて、以下の指標の両方に従って、別の代替的なクラスターの訂正よりも好ましくない各々の代替的なクラスターの訂正は除外される：
ｉ．他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの；および、
ｉｉ．ＣＦＳの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。

以下の例は、上述したような代替的な訂正の除外を示す：
以下の入力テキストが提供される：
I leav un a big house
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
leav un
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
leave in; live in; love in
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘I leav un a’; ‘leav un a big’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１３に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表１４に示される通りである。

代替的なクラスターの訂正“love in”は、“live in”よりも低い類似度スコアを有し、そしてまた、より低い発生頻度およびより低い正規化された発生頻度を有するため、除外される。代替的なクラスターの訂正“leave in”は、その類似度スコアは“live in”
のそれよりも高いため、この段階では除外されない。

以上より理解され得るように、ステージＩＩＤの機能の動作の結果は、縮小された頻度マトリクスであり、そして好ましくは、縮小された正規化頻度マトリクスでもあり、これらは、縮小された複数のＣＦＳの各々に対して、縮小された複数の代替的な訂正（これらの各々は類似度スコアを有する）の各々の発生頻度、そして好ましくはまた正規化された発生頻度を示すものである。以下の例から分かるように、全ての更なる代替的なクラスターの選択機能について、代替的なクラスターの訂正の縮小されたセットが用いられることが好ましい。

縮小された頻度マトリクスにおける、そして好ましくはまた縮小された正規化頻度マトリクスにおける各々の代替的な訂正に対して、最終の優先度の指標が生成される。各々の代替的な訂正に対して最終の優先度のスコアを生成するために、以下の代替的な指標の一つ以上が用いられ得る。
用語「頻度関数(frequency function)」は、以下では、頻度(frequency)、正規化(normalized)頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。

Ａ．一つの可能な優先度の指標は、縮小されたマトリクス（単数または複数）中のＣＦＳのいずれかに対する、縮小されたマトリクス（単数または複数）中の各々の代替的なクラスターの訂正に対する最も高い発生頻度の関数である。例えば、様々な代替的なクラスターの訂正は以下の通りにスコア付けされる：
以下の入力テキストが提供される：
A big agle in the sky
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
agle
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
ogle; eagle; angel
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘big agle’; ‘agle in the sky’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１５に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表１６に示される通りである。

選択肢’eagle’は、最大の発生頻度を有するＣＦＳを有するため、選択される。

Ｂ．別の可能な優先度の指標は、各々の代替的な訂正に対する、全てのＣＦＳの平均の発生頻度の関数である。例えば、様々な代替的な訂正は以下の通りにスコア付けされる。
以下の入力テキストが提供される：
A while ago sthe lived 3 dwarfs
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
sthe
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
the; they; she; there
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘ago sthe lived’; ‘sthe lived 3’
本明細書においてステージＩＩＣに関して上述した機能を用いて、表１７および１８に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

平均の発生頻度に基づいて“there”が選択されることに留意されたい。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表１９に示される通りである。

最も高い類似度スコアを有する代替的なクラスターの訂正は選択されないことに留意されたい。

Ｃ．更なる可能な優先度の指標は、各々のＣＦＳに対する発生頻度の関数に、図５を参照して上述した機能によって算出されるようなＣＦＳのスコアを掛け合わせものの、各々の代替的な訂正に対する全てのＣＦＳにわたる加重和である。

Ｄ．縮小されたマトリクス（単数または複数）中の代替的な訂正に対する以下の操作の、いずれか一つ以上、より好ましくは大部分、最も好ましくは全てによって、特定の代替的な訂正／ＣＦＳの優先度の指標が、サブステージＩＩＥ−ＩＩＧを参照して上述したようにして生成される。
ｉ．最も高い非文脈的な類似度スコアを有する代替的なクラスターの訂正が選択されて、基準となるクラスターとなる。
ｉｉ．修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
ｉｉｉ．ｉｉにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
ｉｖ．ｉｉまたはｉｉｉで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なＣＦＳスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、ＣＦＳスコアに反映される他の要因に基づく強調を提供する。
ｖ．ｉｉ、ｉｉｉまたはｉｖで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのＣＦＳの発生頻度を掛けることによって生成される。

Ｅ．最終の優先度の指標は、Ｄで上述したような特定の代替的な訂正／ＣＦＳの優先度の
指標に基づいて、代替的な訂正の類似度スコアに、その代替的な訂正についての全てのＣＦＳに対する特定の代替的な訂正／ＣＦＳの優先度の指標の和を掛けることによって、各々の代替的な訂正に対して算出される。

そのような修正されたマトリクスの使用を示す例は以下の通りである。
以下の入力テキストが提供される：
I will be able to tach base with you next week
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
tach
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
teach; touch
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘able to tach’; ‘to tach base’
上記においてサブステージＩＩＡおよびＩＩＣに関して上述した機能を用いて、表２０に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

ある特徴に対しては、“teach”の発生頻度および正規化された発生頻度の両方は、“touch”のそれらよりも大きいが、別の特徴に対しては、“touch”の発生頻度および正規
化頻度の両方が“teach”のそれらよりも大きいことに留意されたい。代替的な訂正を正
しく選択するために、サブステージＩＩＧに関して上述した比の指標は、以下に説明するようにして用いられることが好ましい。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表２１に示される通りである。

“teach”は最も高い類似度スコアを有するため、基準となるクラスターは“teach”であることが分かる。それにも関わらず、上述した最終の優先度のスコアに基づいて“touch”が選択される。“teach”が最も高い発生頻度および最も高い正規化された発生頻度を有することを示す上記マトリクスの考慮から理解され得るように、これは直観的ではない。この例では、“touch”が有利である特徴についての発生頻度の比は、“teach”が有利である他の特徴についての発生頻度の比よりも遥かに大きいため、最終の優先度スコアは“teach”よりも“touch”の選択を示唆する。

Ｆ．任意には、代替的な訂正は、その代替的な訂正についての、および、基準となるクラスターについての頻度関数の値および優先度の指標の比較に基づいて、以下の決定規則の一つ以上を用いて、除去されてもよい。
１．予め定められた閾値を下回る類似度スコアを有し、かつ、予め定められた閾値よりも高いＣＦＳスコアを有する少なくとも一つの特徴に対して、基準となるクラスターのＣＦＳ頻度関数よりも小さいＣＦＳ頻度関数を有する代替的な訂正を除去する。
２．予め定められた閾値を下回る類似度スコアを有し、かつ、別の予め定められた閾値よりも高いＣＦＳスコアを有する少なくとも一つの特徴に対して、予め定められた閾値よりも小さい優先度の指標を有する代替的な訂正を除去する。
３．ａ．各々のＣＦＳのＣＦＳスコアを確かめる；
ｂ．各々のＣＦＳに対して、基準となるクラスターについての、および、代替的な訂正についてのＣＦＳ頻度関数を確かめ、それにより、基準となるクラスターまたは該代替的な訂正は、そのＣＦＳに対して、より高い頻度関数を有するかどうかを確かめる；
ｃ．該代替的な訂正が基準となるクラスターよりも高い頻度を有するＣＦＳについて、ＣＦＳスコアを加え合わせる；
ｄ．基準となるクラスターが該代替的な訂正よりも高い頻度を有するＣＦＳについて、ＣＦＳスコアを加え合わせる；
ｅ．ｃ．での和がｄ．での和よりも小さい場合、その代替的な訂正を除去する。

以下の例は、上述したフィルタリング機能を示す。
以下の入力テキストが提供される；
I am faelling en love
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
faelling en
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
falling on; falling in; feeling on; feeling in
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘am faelling en’; ‘faelling en love’; ‘am faelling en love’; ‘I am fa
elling en’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表２２に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される：
‘am faelling en’; ‘faelling en love’
この例では、残るＣＦＳは特徴グラム：
‘am faelling en love’; ‘I am faelling en’
である。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表２３に示される通りである。

代替的な訂正“falling on”、“feeling on”、および“feeling in”は、ＣＦＳの一つに対して発生頻度ゼロであるため、除去される。

Ｇ．ステージＩＩＩに関して上述したように、Ｆでのフィルタリングで残った代替的な訂正に関して、Ａ−Ｅで上述したようにして発展された最終の優先度の指標に基づいて、ランキングが確立される。最も高い最終の優先度のスコアを有する代替的な選択が選択される。

Ｈ．ステージＩＶに関して上述したように、選択された代替的な訂正に対して、信頼度水準が付与される。この信頼度水準は、以下のパラメータのうちの一つ以上に基づいて算出される：
ａ．上記サブステージＩＩＢで提供された選択されたＣＦＳの個数、類型、およびスコア付け；
ｂ．ＣＦＳの文脈における、様々な代替的なクラスターの訂正の発生頻度の統計的な優位度；
ｃ．ＣＦＳの各々の優先度の指標、および、様々な代替的な訂正の単語の類似度スコアに基づく、代替的な訂正の選択における合致の程度；
ｄ．予め定められた最小の閾値を上回る、選択された代替的なクラスターの訂正の非文脈的な類似度スコア（ステージＩ）。
ｅ．予め定められた最小の閾値を上回るＣＦＳスコアを有し、かつ、別の予め定められた閾値を上回る優先度スコアを有する縮小されたマトリクス中のＣＦＳの個数によって示される、利用可能な文脈データの程度。

信頼度水準が予め定められた閾値を上回っている場合、選択された代替的な訂正は、ユーザーとの交信なしで実現される。信頼度水準が予め定められた閾値よりも低いが、より低い予め定められた閾値よりも高い場合、選択された代替的な訂正は実現されるが、ユーザーとの交信が要請される。信頼度水準が、より低い予め定められた閾値よりも低い場合、代替的な訂正の優先順位を付されたリストに基づくユーザーの選択が要請される。

以下の例は、信頼度水準のスコア付けの使用の実例である：
以下の入力テキストが提供される：
He was not feeling wehl when he returned
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
wehl
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
wale; well
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘was not feeling wehl’; ‘not feeling wehl when; ‘feeling wehl when he’;
‘wehl when he returned’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表２４に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

以上の例は、上記Ｈで示した全ての基準により、’wale’よりも’well’の選択が高い信頼度水準を有することを示す。

以下の例では、ＣＦＳ’bech in the summer’において、代替的な訂正’back’は’beach’よりも高い発生頻度を有するが、ＣＦＳ’on the beech in’および’the bech in the’において、’beach’は’back’よりも高い発生頻度を有するという事実により、信頼度水準がいくぶん小さい。代替的な訂正’beach’は、基準Ｈ（ｃ）に基づいて中間的
な信頼度水準と共に選択される。

以下の入力テキストが提供される；
I like to work on the bech in the summer
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
bech
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
beach; beech; back
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘on the bech in’; ‘the bech in the’; ‘bech in the summer’
サブステージＩＩＡに関して上述した機能を用いて、表２５に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

代替的な訂正’beach’は、基準Ｈ（ｃ）に基づいて中間的な信頼度水準と共に選択さ
れる。

以下の例では、基準Ｈ（ａ）に基づいて、信頼度水準はさらに低い：
以下の入力テキストが受け取られる：
Exarts are restoring the British Museum’s round reading room
図６Ａを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
Exarts
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
Experts; Exerts; Exits
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘Exarts are’; ‘Exarts are restoring’; ‘Exarts are restoring the; ‘Exarts are restoring the British’
サブステージＩＩＡに関して上述した機能を用いて、表２６に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

全ての代替的な訂正が発生頻度ゼロとなる全てのＣＦＳは除外される。この例では、以下の特徴グラムは除外される：
‘Exarts are restoring’; ‘Exarts are restoring the’; ‘Exarts are restoring the British’
この例では、唯一の残るＣＦＳは、特徴グラム：
‘Exarts are’
である。

以上の例から分かるように、フィルタリング処理で残る唯一のＣＦＳは“exarts are”である。結果として、比較的短く、かつ、疑わしい単語以外には頻繁に起こる単語である一つの単語しか含まない単一のＣＦＳのみに選択が基づくため、信頼度水準は比較的低い。

ここで図９を参照する。図９は、図３、１０および１１の誤用された単語および文法の訂正機能において、および、図４の語彙改善機能においても有用である、様々な選択肢の訂正の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。

図９に見られるように、様々な代替的な訂正の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。

Ｉ．非文脈的なスコア付け − 様々なクラスターの選択肢が、書かれたときの見た目および音声の類似度の観点での入力テキスト中のクラスターに対する類似度に基づいてスコア付けされる。このスコア付けは、所与のクラスターの外のいかなる文脈的な類似度も考慮に入れない。
ＩＩ．インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図５を参照して上記で説明したようにして提供される抽出された文
脈特徴シーケンス（ＣＦＳ）に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する：
ＩＩＡ．図５を参照して上記で説明されたようにして抽出されたＣＦＳの文脈における、図７Ａまたは７Ｂの機能によって作り出された様々な代替的なクラスターの訂正に対する発生頻度の解析が、好ましくはインターネットコーパスを用いて行われる。
ＩＩＢ．サブステージＩＩＡの発生頻度の解析の結果にとりわけ基づいて、ＣＦＳの選択および様々なＣＦＳの重み付けが行われる。重み付けは、様々なＣＦＳの相対的な固有の重要度にも基づく。ＣＦＳの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるＣＦＳは、相対的な重みを与えられることが好ましい。
ＩＩＣ．サブステージＩＩＢで選択されたＣＦＳの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
ＩＩＤ．サブステージＩＩＡの発生頻度の解析の結果、サブステージＩＩＣの発生頻度の指標、ならびに、サブステージＩＩＢのＣＦＳの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
ＩＩＥ．基準となるクラスターの訂正として使用するために、入力クラスターが選択される。
ＩＩＦ．ステージＩＩＢで選択されたＣＦＳの各々に対する、サブステージＩＩＥの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
ＩＩＧ．サブステージＩＩＢで選択された特徴の各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージＩＩＥの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
ＩＩＩ．ステージＩの結果およびステージＩＩの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
ＩＶ．最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。

以下の例は、発生頻度マトリクスの生成を示す：
以下の入力テキストが提供される：
I lick two play outside a lot
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
lick two
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
like to; like two; lick two; lack two; lack true; like true
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play
outside'; 'I lick two play outside'; 'lick two play outside a'
サブステージＩＩＡに関して上述した機能を用いて、表２７に見られるインターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

全ての代替的な訂正が発生頻度ゼロとなる全てのＣＦＳは除外される。この例では、以下の特徴グラムは除外される：
'lick two play outside a'

その後、少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される：
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play
outside'
この例では、唯一の残るＣＦＳは、以下の特徴グラム：
'I lick two play outside'
である。

生じるマトリクスは表２８に見られる通りとなる。

サブステージＩＩＢの考慮に戻って、任意には、残るＣＦＳの各々は、図５を参照して上述したようにしてスコアを与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ予め定められた信頼度水準の閾値を下回る信頼度水準を有するＣＦＳは、負にバイアスされる。

正規化は、様々な代替的な訂正の全体的な豊富度における有意な差異の効果を中立化するように機能する。好適な正規化の係数は、ＣＦＳに関係なく、コーパス中での様々な代替的な訂正全体としての全発生頻度に基づくものである。

以下の例は、正規化された発生頻度のマトリクスの生成を示す：
以下の入力テキストが、典型的には音声認識によって、提供される：
footprints of a mysterious [hound/hand] said to be six feet tall
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
hound
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
hound; hand; sound
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'a mysterious hound'; 'hound said'
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表２９に見られ
る、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される：

正規化された発生頻度は、様々な代替的な訂正の全体的な豊富度における実質的な差異を中立化し、代替的な訂正の間での選択において使用されることは、本発明の特有の特徴である。正規化された発生頻度以外の発生頻度の指標が、代替的または付加的に、指標として用いられ得ることを理解されたい。発生頻度が比較的低いまたは特に高い場合、付加的または代替的な指標は有益である。

サブステージＩＩＤにおいて、以下の指標の両方に従って、別の代替的な訂正よりも好ましくない各々の代替的なクラスターの訂正は除外される：
ｉ．他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの；および、
ｉｉ．ＣＦＳの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。

以下の例は、上述したような代替的な訂正の除外を示す：
以下の入力テキストが提供される：
I leave on a big house
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
leave un
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成され
る（部分的なリスト）：
leave in; live in; love in; leave on
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘I leave on a’; ‘leave on a big’
本明細書においてステージＩＩＥに関して上述した機能を用いて、表３０に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表３１に示される通りである。

以上より理解され得るように、サブステージＩＩＤの機能の動作の結果は、縮小された頻度マトリクスであり、そして好ましくは、縮小された正規化頻度マトリクスでもあり、これらは、縮小された複数のＣＦＳの各々に対して、縮小された複数の代替的な訂正（これらの各々は類似度スコアを有する）の各々の発生頻度、そして好ましくはまた正規化された発生頻度を示すものである。以下の例から分かるように、全ての更なる代替的なクラスターの選択機能について、代替的なクラスターの訂正の縮小されたセットが用いられることが好ましい。

縮小された頻度マトリクスにおける、そして好ましくはまた縮小された正規化頻度マトリクスにおける各々の代替的な訂正に対して、最終の優先度の指標が生成される。各々の代替的な訂正に対して最終の優先度のスコアを生成するために、以下の代替的な指標の一つ以上が用いられ得る。
用語「頻度関数」は以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。

Ａ．一つの可能な優先度の指標は、縮小されたマトリクス（単数または複数）中のＣＦＳのいずれかに対する、縮小されたマトリクス（単数または複数）中の各々の代替的なクラスターの訂正に対する最も高い発生頻度の関数である。例えば、様々な代替的なクラスターの訂正は以下の通りにスコア付けされる：
以下の入力テキストが提供される：
I am vary satisfied with your work
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
vary
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
vary; very
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘am vary’; ‘vary satisfied’; 'I am vary satisfied with'
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表３２および３３に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、発生頻度および正規化された発生頻度の両方から、"vary"が最も高い頻度関数を有することが分かる。

Ｂ．別の可能な優先度の指標は、各々の代替的な訂正に対する、全てのＣＦＳの平均の発生頻度の関数である。例えば、様々な代替的な訂正は以下の通りにスコア付けされる。
以下の入力テキストが提供される：
A while ago the lived 3 dwarfs
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
the
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
the; they; she; there
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘ago the lived’; ‘the lived 3’
本明細書においてサブステージＩＩＣに関して上述した機能を用いて、表３４および３５に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

"there"は、その発生頻度がマトリクス中での最大の発生頻度となるＣＦＳを有するに
も関わらず、平均の発生頻度に基づいて“they”が選択されることに留意されたい。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表３６に示される通りである。

Ｄ．縮小されたマトリクス（単数または複数）中の代替的な訂正に対する以下の操作の、いずれか一つ以上、より好ましくは大部分、最も好ましくは全てによって、特定の代替的な訂正／ＣＦＳの優先度の指標が、サブステージＩＩＥ−ＩＩＧを参照して上述したようにして生成される。
ｉ．訂正のために選択された元々の入力テキストからのクラスターが選択されて、基準となるクラスターとなる。
ｉｉ．修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
ｉｉｉ．ｉｉにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
ｉｖ．ｉｉまたはｉｉｉで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なＣＦＳスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、ＣＦＳスコアに反映される他の要因に基づく強調を提供する。
ｖ．ｉｉ、ｉｉｉまたはｉｖで上述した類型の修正されたマトリクスは、各々の優先度の指標における適用可能な比または比の関数に、ユーザーの不確実性の指標の関数を掛けることによって更に修正される。ユーザーの入力の不確実性の指標のいくつかの例としては、当該文書の他の単語に関する編集行為に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターに関連する編集行為の回数、当該文書の他の単語の記述の時点に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターの記述の時点、および、そのユーザーが他の単語を話した時点に対する、音声認識入力機能において行われた入力の単語またはクラスターが話された時点が挙げられる。ユーザーの入力の
不確実性の指標は、該ユーザーによるその単語の選択はどの程度確実なものかの指標を提供する。このステップは、基準となるクラスターに対して算出されたバイアスを受け取り、そのクラスターに関するユーザーの確実性または不確実性の関数によってそれを修正する。
ｖｉ．ｉｉ、ｉｉｉ、ｉｖまたはｖで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのＣＦＳの発生頻度を掛けることによって生成される。

Ｅ．最終の優先度の指標は、Ｄで上述したような特定の代替的な訂正／ＣＦＳの優先度の指標に基づいて、代替的な訂正の類似度スコアに、その代替的な訂正についての全てのＣＦＳに対する特定の代替的な訂正／ＣＦＳの優先度の指標の和を掛けることによって、各々の代替的な訂正に対して算出される。

そのような修正されたマトリクスの例は以下の通りである。
以下の入力テキストが提供される：
I will be able to teach base with you next week
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
teach
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
teach; touch
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘able to teach’; ‘to teach base’
上記においてサブステージＩＩＡおよびＩＩＣに関して上述した機能を用いて、表３７に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表３８に示される通りである。

以下の例は、上述したフィルタリング機能を示す。
以下の入力テキストが、典型的には音声認識機能によって、提供される；
I want [two/to/too] items, please.
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
[two/to/too]
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
two; to; too
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘I want two’; ‘want two items’
本明細書においてステージＩＩＡに関して上述した機能を用いて、表３９に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

代替的な訂正"too"および"to"は、別のＣＦＳについて高い発生頻度を有するにも関わ
らず、ＣＦＳの一つに対して発生頻度がゼロであるため、除去される。従ってここでは、唯一の残るＣＦＳは"two"である。

信頼度水準が予め定められた閾値を上回っている場合、選択された代替的な訂正は、ユーザーとの交信なしで実現される。信頼度水準が予め定められた閾値よりも低いが、より低い予め定められた閾値よりも高い場合、選択された代替的な訂正は実現されるが、ユー
ザーとの交信が要請される。信頼度水準が、より低い予め定められた閾値よりも低い場合、代替的な訂正の優先順位を付されたリストに基づくユーザーの選択が要請される。

以下の例は、信頼度水準のスコア付けの使用の実例である：
以下の入力テキストが提供される：
He was not feeling wale when he returned
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
wale
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
wale; well
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘was not feeling wale'; ‘not feeling wale when; ‘feeling wale when he’; ‘wale when he returned’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表４０に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

以下の例では、ＣＦＳ’beech in the summer’において、代替的な訂正’back’は’beach’よりも高い発生頻度を有するが、ＣＦＳ’on the beech in’および’the beech in the’において、’beach’は’back’よりも高い発生頻度を有するという事実により、信頼度水準がいくぶん小さい。代替的な訂正’beach’は、基準Ｈ（ｃ）に基づいて中間
的な信頼度水準と共に選択される。

以下の入力テキストが提供される；
I like to work on the beech in the summer
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
beech
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
beach; beech; back
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘on the beech in’; ‘the beech in the’; ‘beech in the summer’
ステージＩＩＡに関して上述した機能を用いて、表４１に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

以下の例では、基準Ｈ（ａ）に基づいて、信頼度水準はさらに低い：
以下の入力テキストが受け取られる：
Exerts are restoring the British Museum’s round reading room
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
Exerts
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
Experts; Exerts; Exits
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘Exerts are’; ‘Exerts are restoring’; ‘Exerts are restoring the'; ‘Exarts are restoring the British’
サブステージＩＩＡに関して上述した機能を用いて、表４２に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

全ての代替的な訂正が発生頻度ゼロとなる全てのＣＦＳは除外される。この例では、以下の特徴グラムは除外される：
‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
この例では、唯一の残るＣＦＳは、特徴グラム：
‘Exerts are’
である。

以上の例から分かるように、フィルタリング処理で残る唯一のＣＦＳは'exerts are'である。結果として、比較的短く、かつ、疑わしい単語以外には頻繁に起こる単語である一つの単語しか含まない単一のＣＦＳのみに選択が基づくため、信頼度水準は比較的低い。
以下の例は、上記ステージＤおよびＥで説明した最終の優先度スコアの指標の使用を示す。
以下の入力テキストが提供される：
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図６Ｂを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
fast
図７Ａを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
fat; fast
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'and getting fast'; 'getting fast so'; 'fast so you'; 'fast so you will'
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表４３に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表４４に示される通りである。

上記ステージＤおよびＥで説明した最終の優先度スコアの指標を用いて、代替的な訂正"fat"が低い信頼度と共に選択される。

ここで図１０を参照する。図１０は、欠落要素訂正機能の動作を示す詳細なフローチャートである。欠落要素訂正機能は、欠落した冠詞、前置詞、句読点、および入力テキストにおいて主として文法的な機能を有する他の要素について訂正するように機能する。この機能は、図１の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。

欠落の疑いのある要素の特定は、以下のようにして行われることが好ましい。
先ず、綴りを訂正された入力テキストに対して、特徴グラムが生成される。コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度（ＦＲＥＱＦ−Ｇ）が確かめられる。

各々の特徴グラムの予期される発生頻度（ＥＦＲＥＱＦ−Ｇ）は以下のように算出される：
特徴グラムは、Ｗ_１−Ｗ_ｎとして特定されるｎ個の単語を含むと想定される。
Ｗ_ｉは、特徴グラム中のｉ番目の単語を示す。
与えられた特徴グラムの予期される発生頻度は、特徴グラム中の単語の分割（単語Ｗ_１．．．Ｗ_{（ｎ−１）}の各々に続く連続する２つの部分への分割）に基づいて、その特徴グラムの予期される頻度のうちで最も高いものになるように取られる。
単語Ｗ_ｉに続く二つの連続する部分への特徴グラム中の単語の分割に基づく特徴グラムの予期される頻度は、以下の通りに表すことができる：
Ｗ_ｉについてのＥＦＲＥＱＦ−Ｇ＝（ＦＲＥＱ（Ｗ_１−Ｗ_ｉ）＊ＦＲＥＱ（Ｗ_ｉ＋１−Ｗ_ｎ））／（コーパス中での全ての単語の頻度の合計）

二つの連続する部分への特徴グラム中の単語の全ての可能な分割に基づいて、各々の特徴グラムの予期される頻度が算出される。

Ｗ_ｉについてのＦＲＥＱＦ−Ｇ／ＥＦＲＥＱＦ−Ｇが予め定められた閾値よりも小さい場合、Ｗ_ｉについての特徴グラムは、その特徴グラムにおいてＷ_ｉとＷ_ｉ＋１との間に欠落した冠詞、前置詞、または句読点があるという点で疑わしいと考えられる。

綴りを訂正された入力テキスト中の二つの連続する単語の間の疑わしい単語の連結は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた単語の連結を見付けるように試みることによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の連結の最も長いシーケンス（単数または複数）を有する単語の連結が選択される。

一つまたは好ましくは一つより多くの代替的な挿入が、句読点、冠詞、前置詞、接続詞、または他の要素（通常、名詞、動詞または形容詞を含まない）が欠落している可能性のある予め定められたセットに好ましくは基づいて、各々の単語の連結に対して生成される。

様々な代替的な挿入の、少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付けが、図９を参照して上述し、かつ以下に説明される訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。

以下の例が実例となる：
以下の入力テキストが適用される：
I can’t read please help me
図５を参照して上述した機能を用いて、以下の特徴グラムが生成される（部分的なリスト）：
I can't read; can't read please; read please help; please help me
上述した機能を用いて、インターネットコーパス中での発生頻度のマトリクスが、特徴グラムの上記リストに対して生成され、それは、典型的には表４５に見られる通りである：

予期される発生頻度は、以下の式に従って、特徴グラム中の各々の単語Ｗ_ｉについて各々の特徴グラムに対して算出される：
Ｗ_ｉについてのＥＦＲＥＱＦ−Ｇ＝（ＦＲＥＱ（Ｗ_１−Ｗ_ｉ）＊ＦＲＥＱ（Ｗ_ｉ＋１−Ｗ_ｎ））／（コーパス中での全ての単語の頻度の合計）

それらの計算の一部の例示的な結果は、表４６および４７に見られる。

上記結果から分かるように、特徴グラムの各々の実際の発生頻度は、その予期される発生頻度よりも小さい。これは、句読点などの要素の不在が疑われることを示す。

単語“word”に続く代替的な挿入のリストが生成される。このリストは、句読点、冠詞、接続詞、および前置詞の予め定められたリストを含むことが好ましい。特には、ピリオド“．”を含む。

選択肢の部分的なリストは：
'read please'; 'read. Please'; 'read of please'; 'read a please'
である。
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される：
'I can't read [?]'; 'read [?] please help'; ' [?] please help me'
図９のステージＩＩＡで説明した機能を用いて、表４８に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘.’がクラスターに含まれる場合、’.’を有するクラスターを含むＣＦＳの発生頻度が、’.’の前および後のテキストについて別々に取得される。すなわち、特徴グラム“can’t read. Please”は、２つの別々の文法構文解析フレーズを含むため、生成されない。

図９のステージＤおよびＥで説明した機能を用いて、最終の優先度の指標は、代替的な
訂正“read. Please”を選択し、また、訂正された入力テキストは：
I can’t read. Please help me.
である。

以下の例は、欠落した前置詞を追加する機能を示している。
以下の入力テキストが提供される：
I sit the sofa
後述する機能を用いて、以下のクラスターが訂正のために選択される：
‘sit the’
後述する機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
sit on the; sit of the; sit the
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される：
‘I sit the’; ‘sit the sofa’
図９のステージＩＩＡで説明した機能を用いて、表４９に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

図９のステージＩＩＤおよびＩＩＥで説明した機能を用いて、最終の優先度の指標は、代替的な訂正“sit on the”を選択し、また、訂正された入力テキストは：
I sit on the sofa.
である。

ここで図１１を参照する。図１１は、不要な要素訂正機能の動作を示す詳細なフローチャートである。不要な要素訂正機能は、不要な冠詞、前置詞、句読点、および入力テキスト中の主として文法的な機能を有するその他の要素を訂正するように機能する。この機能は、図１の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。

図１１の機能は、図１０の機能と組み合わせられてもよく、あるいは代替的には、それと並行して、それに先だって、またはその作動の後に行われてもよい。

不要である疑いのある要素の特定は、以下のようにして行われることが好ましい。
句読点、冠詞、前置詞、接続詞、または他の要素（通常、名詞、動詞または形容詞を含まない）が不要である可能性のある予め定められたセットに属する要素を特定するためのサーチが、綴りを訂正された入力テキストに対して行われる。

各々のそのような要素について、そのような要素を含む、誤用された単語および文法を訂正され、綴りを訂正された入力テキストの全ての部分に対して特徴グラムが生成される
。発生頻度が、各々のそのような特徴グラムに対して、および、該要素が省略された対応する特徴グラムに対して、算出される。

該要素が省略された特徴グラムに対する発生頻度が、該要素が存在している対応する特徴グラムに対する発生頻度を上回っている場合、該要素は疑わしいと考えられる。

誤用された単語および文法を訂正され、綴りを訂正された入力テキスト中の疑わしい要素は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた要素を見付ける試みによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の最も長いシーケンス（単数または複数）を有する要素が選択される。

可能な要素の削除が各々の疑わしい要素に対して生成される。様々な選択肢の少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付け（すなわち、要素の削除または要素の不削除）が、図９を参照して上述し、かつ以下に説明する訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。

以下の例が実例となる：
以下の入力テキストが提供される：
It is a nice, thing to wear.

入力テキストは、例えば句読点、前置詞、接続詞、および冠詞等の通常不要である要素の予め定められたリストに属するあらゆる要素を特定するようにサーチされる。
この例では、カンマ“,”はそのようなリストに属するものとして特定される。
図５を参照して上述した機能を用いて、表５０に見られるカンマ“,”を含む特徴グラ
ムが生成され、カンマを有しない同一の特徴グラムもまた生成される（部分的なリスト）。

上述した機能を用いて、インターネットコーパス中の発生頻度のマトリクスが、特徴グラムの上記リストに対して生成され、それは、典型的には表５１に見られる通りである。

上記マトリクスに見られるように、“,”を省略した特徴グラムに対する発生頻度は、
“,”が存在する対応する特徴グラムに対する発生頻度を上回っている。従って、“,”は不要の疑いがあるものと考えられる。

カンマの削除の可能性は、カンマを維持するものおよびカンマを省略するものの以下の選択肢の、文脈ベースのスコア付けに基づいて考慮される：
‘nice,’; ‘nice’

図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
'a nice,'; 'nice, thing'; 'is a nice,'; 'a nice, thing'; 'nice, thing to'

図９のステージＩＩＡを参照して上述した機能を用いて、表５２に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

少なくとも最小の閾値の発生頻度を有する他のＣＦＳに完全に含まれる全てのＣＦＳは除外される。例えば、以下の特徴グラムは除外される：
'a nice,'; 'nice, thing'
この例では、残るＣＦＳは特徴グラム：
'is a nice,'; 'a nice, thing'; 'nice, thing to'
である。

上記図９のステージＤおよびＥで説明された最終の優先度スコアを用いて、カンマを有しない代替的な訂正“nice”が選択される。カンマの削除語の入力テキストは：
It is a nice thing to wear.
である。

以下の例は、不要な冠詞を削除する機能を示す。
以下の入力テキストが提供される：
We should provide them a food and water.
図１１を参照して上述した機能を用いて、以下のクラスターが訂正のために選択される：
a food
図１１を参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される（部分的なリスト）：
a food; food
図５を参照して上述した機能を用いて、以下のＣＦＳが生成される（部分的なリスト）：
‘provide them a food’; ‘them a food and’; ‘a food and water’
本明細書においてサブステージＩＩＡに関して上述した機能を用いて、表５３に見られる、インターネットコーパス中での発生頻度のマトリクスが、ＣＦＳの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。

図９に記載されたスコアリング機能を用いて、最終の優先度の指標は、代替的な訂正“food”を選択し、訂正された入力テキストは：
We should provide them food and water.
である。

ここで図１２を参照する。図１２は、本発明の好ましい実施形態に従って構築され、機能する、コンピュータ補助による言語翻訳および生成用のシステムおよび機能の単純化したブロック図の図面である。図１２に見られるように、入力テキストは、１以上のソースから言語生成モジュール２００に提供され、該ソースとしては、以下に限定されないが以下が含まれる：
センテンス検索機能２０１。これは、ユーザーが少数の単語を含むクエリを入力すること、および、そのような単語を含む完全なセンテンスを取得することを可能とすることにより、ユーザーがセンテンスを構築するのを補助する。
機械テキスト生成機能２０２。これは、知識ベースまたは論理形などの機械提示システムから自然言語のセンテンスを生成する。
ワードプロセッサ機能２０３。これは、任意の好適なテキスト、好ましくはセンテンスなどの文書の部分を生成し得る。
機械翻訳機能２０４。これは、元の言語のテキストを、目的の言語のテキストに変換し、かつ、目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および／または単語を提供できるものであり、該目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および／または単語は、言語生成モジュールによって、代替的な入力テキスト、代替的なフレーズ、および／または代替的な単語として、処理され得る。
音声テキスト変換機能２０５。これは、音声をテキストに変換し、複数の代替的な単語を提供できるものであり、該複数の代替的な単語は、言語生成モジュールによって、各々の単語に対する選択肢と共に入力テキストとして処理され得る。
光学文字認識機能２０６。これは、文字をテキストに変換し、かつ、各々の単語に対して複数の選択肢を提供できるものであり、該複数の選択肢は、言語生成モジュールによって、各々の単語に対する選択肢を有する入力テキストとして、処理され得る。および、
インスタントメッセージング、またはインターネット上で通信されるテキストなどの任意の他のテキストソース２１０。

言語生成モジュール２００は、センテンス取得機能２１２およびセンテンス生成機能２１４を有することが好ましい。

センテンス取得機能２１２が、インターネットコーパス２２０を利用するステム・トゥ・センテンス・インデックス２１６と交信するのが、本発明の特有の特徴である。

インターネットコーパスの使用は、極めて多数のセンテンスを提供し、非常にロバストな言語生成機能をもたらすという点で、重要である。

インターネットコーパスは、通常はインターネットを巡回して、ウェブサイトのページからテキストを集めることにより、ワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの生き生きしたテキストもまた集められる。集められたテキストは、自然言語テキストの統計を蓄積するために用いられる。インターネットコーパスのサイズは、より典型的なコーパスサイズが最大２０億ワードであるのとは対照的に、例えば、１兆（1,000,000,000,000）ワードまたは数兆ワードであり得る。
ウェブコーパスなどの小さいウェブのサンプルは、１００億ワードを含み、これは、ＧＯＯＧＬＥ（登録商標）などの検索エンジンによって索引されるウェブテキストの１パーセントよりも著しく小さい。本発明は、ウェブコーパスなどのウェブのサンプルと共に機能し得るが、好ましくは、テキスト生成のタスクのために、著しく大きいウェブのサンプルを利用する。

インターネットコーパスは、以下の２つの方法のうちの一つで用いられることが好ましい。
修正された入力テキストを検索クエリとして用いて、１以上のインターネット検索エンジンが用いられる。検索クエリに含まれる単語を含むセンテンスが、検索結果から抽出され得る。
インターネットを巡回し、索引付けすることによって、ステム・トゥ・センテンス・インデックス２１６が時間と共に蓄積される。これは、インターネットコーパスに現れる活用した単語をそれらの各々の語幹にまで縮小させ、かつ、そのような語幹を有する単語を含むコーパス中の全てのセンテンスをリストすることにより行われることが好ましい。ステム・トゥ・センテンス・インデックス、および検索クエリは、インターネットの選択可能な部分に基づいてもよく、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネッ
トの一部が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。

好ましくは、入力テキストは最初に、センテンス取得機能２１２に提供される。センテンス取得機能２１２の動作は、図１３を更に参照して以下に説明される。

センテンス取得機能２１２は、入力テキストを独立したフレーズに分けるように機能し、独立したフレーズは次いで、センテンス生成モジュール２１４において独立して処理される。語幹は、各々の独立したフレーズ中の全ての単語に対して生成される。代替的には、語幹は、各々の独立したフレーズ中の一部または全ての単語に対しては生成されず、そのような場合には、単語それ自体が、インターネットコーパスからセンテンスを取得するためにワード・トゥ・センテンス・インデックスにおいて使用される。

語幹は次いで、必須の語幹または任意選択的な語幹のいずれかとして分類される。任意選択的な語幹は、形容詞、副詞、冠詞、前置詞、句読点、および、入力テキスト中で主として文法的な機能を有する他の要素、ならびに任意選択的な単語の予め定められたリスト中の要素の語幹である。必須の語幹は、任意選択的な語幹ではないあらゆる語幹である。任意選択的な語幹は、入力テキスト中での重要度に関してランク付けされ得る。

各々の独立したフレーズに対して、ステム・トゥ・センテンス・インデックス２１６は、全ての語幹を含む、インターネットコーパス２２０中の全てのセンテンスを取得するために用いられる。

各々の独立したフレーズに対して、取得されたセンテンスの個数が予め定められた閾値よりも小さい場合、ステム・トゥ・センテンス・インデックス２１６は、全ての必須の語幹を含む、インターネットコーパス２２０中の全てのセンテンスを取得するために用いられる。

各々の独立したフレーズに対して、全ての必須の語幹を含む取得されたセンテンスの個数が別の予め定められた閾値よりも小さい場合、語幹選択肢生成器が、図１５を参照して以下に説明されるようにして、全ての必須の語幹に対する選択肢を生成するために用いられる。

その後、各々の独立したフレーズに対して、ステム・トゥ・センテンス・インデックス２１６は、可能なだけ多くであって一つ以上の必須の語幹、そしてまた、全ての生じた必須の語幹の選択肢を含む、インターネットコーパス２２０中の全てのセンテンスを取得するために用いられる。

センテンス取得機能２１２の出力は、好ましくは以下の通りである。
独立したフレーズ；
各々の独立したフレーズに対して：
ランキングと共に、必須のおよび任意選択的な語幹；
インターネットコーパス２１２から取得されたセンテンス。

センテンス取得機能２１２の上記出力は、センテンス生成機能２１４に提供される。センテンス生成機能２１４の動作は、図１４Ａおよび１４Ｂを更に参照して以下で説明される。

各々の独立したフレームに対して、インターネットコーパス２１２から取られたセンテ
ンスの単純化が以下に説明するようにして行われる。
図１４Ａに見られるように、インターネットコーパスから取られたセンテンス中の全ての単語は、先ず、独立したフレーズ中の語幹をクラス分けするために用いられたのと同じ基準を好ましくは用いて、必須または不要のいずれかとしてクラス分けされる。不要な単語は、それらの語幹が、対応する独立したフレーズ中に現れなければ、または、代替的な語幹の一つでなければ、削除される。

標準的な構文解析機能を用いて、全てのセンテンスからフレーズが抽出される。対応する独立したフレーズ中に現れるか、または代替的な語幹である語幹を何ら含まないフレーズは削除される。

各々の独立したフレーズに対して、以上のステップから生じたそのように単純化されたセンテンスは、少なくとも予め定められた類似度を有するグループにグループ化され、各々のグループ中の単純化されたセンテンスの個数がカウントされる。

図１４Ｂに示されるように、各々のそのようなグループは、以下の基準を用いてランク付けされる。
Ａ．その中に含まれる単純化されたセンテンスの個数
Ｂ．グループ内の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
Ｃ．グループが、独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度

基準Ａ、ＢおよびＣに基づく好適な複合のランキングが提供されることが好ましい。

個別に取られた基準Ａ、ＢおよびＣの全てによるランキングを有するグループであって、予め定められた閾値を下回るグループは除外される。加えて、基準Ａ、ＢおよびＣの全てによるランキングが別のグループのランキングを下回るグループは除外される。

残りのグループは、入力テキストに対応するように連結され、好ましくはそのランキングの表示と共に、重み付けされた複合のランキングの順番でユーザーに提示される。

最も高いランキンググループの複合のランキングが予め定められた閾値を上回っている場合、自動的なテキスト生成のために有効である。

ここで図１５を参照する。図１５は、図１２および１３の機能において有用である、語幹に対する選択肢を生成するための機能を示す単純化したフローチャートである。

図１５に見られるように、各々の語幹に対して、複数の選択肢が以下のようにして最初に生成される：
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、各々の語幹に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、ＧＮＵＡｓｐｅｌｌおよびＧｏｏｇｌｅ（登録商標）ＧＳｐｅｌｌなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の選択肢を提供する。

更なる選択肢は、既知の代替的な用法に基づく規則、および蓄積されたユーザーの入力を用いることによって生成され得る。例：u→you、r→are、Im→I am。

シソーラス、または、インターネット上で自由に利用できるPrinceton WordNetなどの
他の語彙データベースから取られ、同義語、上位集合または部分集合などとして語彙的に語幹に関連する複数の単語が取得される。

ＣＦＳ、より具体的には特徴グラムなどの文脈情報が、選択肢を生成するために用いられるということは、本発明の好ましい実施形態の特有の特徴である。同じ文脈にしばしば現れる語幹は、有効な選択肢であり得る。ＣＦＳ、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。

入力テキストが、光学文字認識、音声テキストまたは機械翻訳システムなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接取得され得る。そのような追加の選択肢は、典型的には、そのようなシステムの動作の過程で生成される。例えば、機械翻訳システムでは、外国語の単語の代替的な翻訳が、選択肢として使用するために当該システムに提供され得る。

以下の例は、図１２〜１５の機能の実例となる：
以下の入力テキストが、ワードプロセッサまたは機械翻訳機能から取得される：
Be calling if to problem please

この場合、入力テキストは、単一の独立したフレーズから構成される。語幹生成器および必須／任意選択の語幹のクラス分けは以下の結果を提供する：
必須の語幹： call, if, problem, please
任意選択的な語幹： be, to

以下に見られる表に示されるのは、上記結果に対してインターネットコーパスから取得されたセンテンス、対応する単純化されたセンテンス、単純化されたセンテンスのグループ、およびグループのランキング情報の、全てではなくて一部である。

この例では、以下のランキング手順が用いられるが、本発明はこの手順の使用に限定されず、単に例であることが理解される：
言語中の単語の重要度を示す語幹の重みが定義される。独立したフレーズ中の語幹に対して、語幹が必須である場合には重みは１に等しく、語幹が任意選択的である場合には１よりも小さい。
表では、重みは各々の語幹に続く括弧中に示されている。例えば、"you (0.5)"は、
語幹’you’は0.5の重要度の重みを有することを意味する。
ポジティブマッチランク（基準Ｂに対応する（図１４Ｂ））を算出する。これは、独立したフレーズ中、および、対応する単純化されたセンテンスのグループ中に現れる語幹の上記重みの和を、独立したフレーズ中に現れる全ての語幹の重みの和で割ったものに等しい。
ネガティブマッチランク（基準Ｃに対応する（図１４Ｂ））を算出する。これは、対応する単純化されたセンテンスのグループ中に現れるが、独立したフレーズ中には現れない語幹の上記重みの和を、対応する単純化されたセンテンスのグループ中に現れる全ての語幹の重みの和で割ったものを、１から引いたものに等しい。
グループのカウント（基準Ａ（図１４Ｂ））ならびにポジティブおよびネガティブマッチランクに基づいて、コンポジットランク（２に対応する（図１４Ｂ））を算出する。好ましいコンポジットランクは、以下の一般式により与えられる：
コンポジットランク＝グループのカウントを、ポジティブマッチランクおよびネガティブマッチランクの重み付けした和で掛けたものの関数
より具体的な例は、以下の式で与えられるが、本発明は上記一般式または下記の具体的な式のいずれにも限定されないことが理解される：
コンポジットランク＝（グループのカウント）の平方根＊（0.8 ＊ポジティ
ブマッチランク＋ 0.2 ＊ネガティブマッチランク）

コンポジットランクに基づいて、第二のグループが選択される。

以上のことから、図１２〜１５を特に参照して上述した本発明は、インターネットコーパスから取得されたセンテンス中の正確な形態では該センテンスは現れないにも関わらず、以下の入力テキスト：
Be calling if to problem please
を以下のセンテンス：
If you have any problems, please call
に変換できることが理解され得る。

上記で具体的に示され、説明されたものに本発明は限定されないことが当業者には理解されるであろう。本発明の範囲はむしろ、上記で説明し、示した様々な特徴の組み合わせおよび部分的組み合わせの両方、ならびに、上記の説明を読んだ当業者が想起するであろう、先行技術にはないそれらの修正を含む。

Claims

コンピュータ補助による言語生成システムであって、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、単語を含む入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである、
前記コンピュータ補助による言語生成システム。
前記センテンス取得機能が、
独立フレーズ生成器を有し、該独立フレーズ生成器は、前記入力テキストを１つまたはそれより多くの独立したフレーズに分割するものであり、
語幹生成器および分類器を有し、該語幹生成器および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するものであり、かつ、
選択肢生成器を有し、該選択肢生成器は、該語幹に対応する代替的な語幹を生成するためのものである、
請求項１記載のコンピュータ補助による言語生成システム。
当該システムが、ステム・トゥ・センテンス・インデックスをも有し、該ステム・トゥ・センテンス・インデックスは、前記入力テキスト中の単語に一致する単語を含む前記複数のセンテンスを取得するために前記インターネットコーパスと交信するものである、請求項２記載のコンピュータ補助による言語生成システム。
前記センテンス生成機能が、
センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得した前記センテンスを単純化するように機能するものであり、
単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、該センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、
単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである、
上記請求項のいずれかに記載のコンピュータ補助による言語生成システム。
前記単純化センテンスグループ・ランク付け機能が、下記の基準のうちの少なくともいくつかを用いて機能する、請求項４記載のコンピュータ補助による言語生成システム。
Ａ．グループに含まれる単純化されたセンテンスの個数。
Ｂ．グループ内の単語の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度。
Ｃ．グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度。
前記単純化センテンスグループ・ランク付け機能が、下記の手順のうちの少なくとも一部を用いて機能する、請求項５記載のコンピュータ補助による言語生成システム。
その言語における当該単語の重要度を指し示す語幹の重みを定義すること。
基準Ｂに対応するポジティブマッチランクを算出すること。
基準Ｃに対応するネガティブマッチランクを算出すること。
次の事項に基づいて、コンポジットランクを算出すること：
基準Ａに対応する、グループに含まれる単純化されたセンテンスの個数、
ポジティブマッチランク、および
ネガティブマッチランク。
前記入力テキストを提供する機械翻訳機能も有する、上記請求項のいずれかに記載のコンピュータ補助による言語生成システム。
機械翻訳システムであって、当該システムは、
機械翻訳機能を有し、
センテンス取得機能を有し、該センテンス取得機能は、該機械翻訳機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該機械翻訳機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである、
前記機械翻訳システム。
前記機械翻訳機能が、前記入力テキスト中の単語に対応する複数の選択肢を提供し、かつ、前記センテンス取得機能が、該選択肢に一致する単語を含む複数のセンテンスを前記インターネットコーパスから取得するように機能する、請求項７または８のいずれかに記載のシステム。
前記言語生成はテキストの訂正を含む、上記請求項１〜６のいずれかに記載のコンピュータ補助による言語生成システム。
テキスト生成システムであって、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、前記テキスト訂正機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス訂正機能を有し、該センテンス訂正機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである、
前記テキスト生成システム。
センテンス検索機能も有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて前記入力テキストを提供する、上記請求項１〜６のいずれかに記載のコンピュータ補助による言語生成システム。
センテンス検索システムであって、当該システムは、
センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて入力テキストを提供するものであり、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該センテンス検索
機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである、
前記センテンス検索システム。
音声テキスト変換機能も有し、該音声テキスト変換機能は前記入力テキストを提供する、上記請求項１〜６のいずれかに記載のコンピュータ補助による言語生成システム。
音声テキスト変換システムであって、当該システムは、
音声テキスト変換機能を有し、該音声テキスト変換機能は入力テキストを提供し、
センテンス取得機能を有し、該センテンス取得機能は、前記センテンス検索機能によって提供された前記入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該音声テキスト変換機能によって生成された該入力テキストに対して少なくとも１つの、正しいセンテンスを与える表現を生成するように機能するものである、
前記音声テキスト変換システム。
当該システムはまた、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
選択器を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
上記請求項のいずれかに記載のシステム。
前記選択器が、以下の訂正機能：
綴りの訂正、
誤用された単語の訂正、
文法の訂正、および
語彙の改善、
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項１６記載のコンピュータ補助による言語生成システム。
前記選択器が、以下の訂正機能：
綴りの訂正、
誤用された単語の訂正、
文法の訂正、および
語彙の改善。
のうちの少なくとも二つに基づいて選択を行うように機能する、請求項１６記載のシステム。
前記選択器が、訂正についての以下の時間的順序：
誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、
語彙の改善に先立つ誤用された単語の訂正および文法の訂正、
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項１８記載のシステム。
前記入力センテンスが、以下の機能：
ワードプロセッサ機能、
機械翻訳機能、
音声テキスト変換機能、
光学文字認識機能、および
インスタントメッセージング機能
のうちの一つによって提供され、かつ、
前記選択器が、以下の訂正機能：
誤用された単語の訂正、
文法の訂正、および
語彙の改善
のうちの少なくとも一つに基づいて選択を行うように機能する、
請求項１６〜１９のいずれかに記載のシステム。
前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器が、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項１７〜２０のいずれかに記載のシステム。
前記文法訂正機能が、句読点、動詞の活用、単数形／複数形、冠詞、および前置詞の訂正機能のうちの少なくとも一つを有する、請求項１７〜２１のいずれかに記載のシステム。
前記文法訂正機能が、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する、請求項１７〜２２のいずれかに記載のシステム。
前記選択器が、文脈ベーススコア付け機能を有し、該文脈ベーススコア付け機能は、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク付けするように機能する、請求項１６〜２３のいずれかに記載のシステム。
前記文脈ベーススコア付け機能はまた、前記インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク付けするように機能する、請求項２４記載のシステム。
前記システムはまた、
綴り訂正機能、
誤用された単語訂正機能、
文法訂正機能、および
語彙の改善機能
のうちの少なくとも一つを有し、かつ、
文脈特徴シーケンスを有し、該文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能も有する、
請求項１〜１５のいずれかに記載のシステム。
前記文法訂正機能が、句読点、動詞の活用、単数形／複数形、冠詞および前置詞の訂正機能のうちの少なくとも一つを有する、請求項２６記載のシステム。
前記文法訂正機能が、置換、挿入、および脱落訂正機能のうちの少なくとも一つを有する、請求項２６または請求項２７記載のシステム。
前記システムはまた、
前記綴り訂正機能、
前記誤用された単語訂正機能、
前記文法訂正機能、および
前記語彙の改善機能
のうちの少なくとも二つを有し、かつ、
前記文脈特徴シーケンス機能が、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも二つと協力し、かつインターネットコーパスを用いる、
請求項２６〜２８のいずれかに記載のシステム。
前記システムが、
前記綴り訂正機能、
前記誤用された単語訂正機能、
前記文法訂正機能、および
前記語彙の改善機能
のうちの少なくとも三つを有し、かつ、
前記文脈特徴シーケンス機能が、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも三つと協力し、かつインターネットコーパスを用いる、
請求項２５〜２９のいずれかに記載のシステム。
前記システムが、
前記綴り訂正機能、
前記誤用された単語訂正機能、
前記文法訂正機能、および
前記語彙の改善機能
を有し、かつ、
前記文脈特徴シーケンス機能が、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能と協力し、かつインターネットコーパスを用いる、
請求項２５〜３０のいずれかに記載のシステム。
前記訂正生成器が、訂正言語生成器を有し、該訂正言語生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項２５〜３１のいずれかに記載のシステム。
前記システムが、
選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、少なくとも、前記の言語入力中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記言語入力が、入力センテンスおよび入力テキストのうちの少なくとも一つを含む、請求項３３記載のシステム。
前記言語入力が音声であり、かつ、前記生成器が、音声での言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、請求項３３または請求項３４記載のシステム。
前記言語入力が、
テキスト入力、
光学文字認識機能の出力、
機械翻訳機能の出力、および
ワードプロセッシング機能の出力
のうちの少なくとも一つであり、かつ、
前記生成器が、テキストでの言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、
請求項３３または請求項３４記載のシステム。
前記選択器が、以下の訂正機能：
綴りの訂正、
誤用された単語の訂正、
文法の訂正、および
語彙の改善
のうちの少なくとも二つに基づいて選択を行うように機能する、請求項３２〜３６のいずれかに記載のシステム。
前記選択器が、訂正についての以下の時間的順序：
誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、
語彙の改善に先立つ誤用された単語の訂正および文法の訂正
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項３７記載のシステム。
前記言語入力が音声であり、かつ、前記選択器が、以下の訂正機能：
誤用された単語の訂正、
文法の訂正、および
語彙の改善
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項３３〜３８のいずれかに記載のシステム。
前記選択器が、以下の機能：
初期選択のために、前記言語入力中の前記複数の単語の全てよりは少ない単語を含む単語または単語の組み合わせの第一のセットを選択すること、
その後で、前記の単語または単語の組み合わせの第一のセットの要素を順序付けて選択の優先度を確立すること、および、
その後で、前記の単語の第一のセットの要素に対する前記複数の選択肢の間での選択を行う際に、該選択に影響する文脈として、前記複数の単語の全てではない他の単語を選ぶこと、
のうちの少なくとも二つを実行することにより選択を行うように機能する、請求項３３〜
３９のいずれかに記載のシステム。
前記選択器が、以下の機能：
少なくとも二つの単語を有する要素についての選択を行う際に、該少なくとも二つの単語の互いに対する複数の選択肢の各々との組み合わせで、該少なくとも二つの単語の各々に対する複数の選択肢の各々を評価すること、
を実行することによって選択を行うように機能する、請求項３３〜４０のいずれかに記載のシステム。
前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項３３〜４１のいずれかに記載のシステム。
前記システムはまた、
誤用単語検出器も有し、該誤用単語検出器は、該言語入力の文脈内での適合に基づいて、言語入力中の単語の少なくとも大部分を評価するものであり、かつ、
訂正生成器も有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、該言語入力中の少なくとも大部分の単語の少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、かつ、
選択器を有し、該選択器は、少なくとも、前記の言語入力中の少なくとも大部分の単語の少なくとも一つの各々に対する複数の選択肢の間で、選択を行うためのものであり、
かつ、前記訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能する、
請求項４３記載のシステム。
前記システムはまた、
疑わしい単語を出力表示する表示器も有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分の少なくとも一部が、誤用された単語である疑わしさの程度を指し示すものである、
請求項４３または４４記載のシステム。
前記訂正生成器が、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的には基づいて、訂正されたテキスト出力を提供するように機能する、請求項４３〜４５のいずれかに記載のシステム。
前記言語入力が音声であり、かつ、前記選択器が、以下の訂正機能：
誤用された単語の訂正、
文法の訂正、および
語彙の改善
のうちの少なくとも一つに基づいて前記選択を行うように機能する、請求項４３〜４６のいずれかに記載のシステム。
前記システムはまた、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価するものであり
、
選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢の少なくとも一つは、インターネットコーパス中での前記の言語入力中の単語の文脈的な特徴と一致するものであり、
選択器を有し、該選択器は、少なくとも該複数の選択肢の間で選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、
選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、
選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
選択肢生成器を有し、該選択肢生成器は、入力に基づいて、該入力中の少なくとも一つの単語に対して複数の選択肢を生成するものであり、
選択器を有し、該選択器は、該少なくとも一つの単語の各々、および、該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢に対して、該少なくとも一つの単語にとって有利になるバイアスを適用するものであり、該バイアスは、該入力を提供する人の不確実性を指し示す入力不確実性の指標の関数であり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
正しくない単語を検出する検出器を有し、該検出器は、言語入力中の単語の少なくとも大部分を評価するものであり、該検出器は、該入力を提供する人の不確実性を指し示す入力不確実性の指標に少なくとも部分的には応答するものであり、該検出器は、正しくないと疑われる単語の出力を提供し、かつ、
選択肢生成器を有し、該選択肢生成器は、該正しくないと疑われる単語の出力によって特定される正しくないと疑われる単語に対して複数の選択肢を生成するものであり、
選択器を有し、該選択器は、正しくないと疑われる単語の各々、および、該選択肢生成器によって生成された前記の複数の選択肢の間で選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
複数単語の入力を受け取って訂正出力を提供する、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つを有し、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つのうちの各々は、
代替単語候補生成器を有し、該代替単語候補生成器は、
音声類似度機能を有し、該音声類似度機能は、該入力中の単語に対する音声上の類似度に基づいて代替的な単語を提案するように、および、音声上の類似度の指標を指し示すように機能するものであり、かつ、
文字列類似度機能を有し、該文字列類似度機能は、該入力中の単語に対する文字列の類似度に基づいて代替的な単語を提案するように、および、各々の代替的な単語に対して、文字列の類似度の指標を指し示すように機能するものであり、
かつ、前記システムはまた、
選択器を有し、該選択器は、文脈ベースの選択機能と共に、前記の音声上の類似度の指標および文字列の類似度の指標を用いることによって、該出力中の単語、または、該代替単語候補生成器によって提案された代替的な単語候補のいずれかを選択するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、
特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、
選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、
特徴発生機能を有し、該特徴発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む様々な特徴をランク付けするものであり、かつ、
選択器を有し、該選択器は、該発生出力を用いて訂正出力を提供するものであり、
該特徴特定機能は、特徴フィルタリング機能を有し、該特徴フィルタリング機能は、
誤りの疑いがあるものを含む特徴を除去するための機能、
前記の複数単語の入力のより以前の訂正の繰り返しにおいて導入された単語を含み、かつ信頼度水準の予め定められた閾値を下回る信頼度水準を有する特徴を負にバイアスするための機能、ならびに、
予め定められた頻度の閾値を上回る発生頻度を有する別の特徴に含まれる特徴を除去するための機能、
のうちの少なくとも一つを有する、
請求項１〜１５のいずれかに記載のシステム。
前記選択器が、以下の訂正機能：
綴りの訂正、
誤用された単語の訂正、
文法の訂正、および
語彙の改善
のうちの少なくとも二つに基づいて選択を行うように機能する、請求項４８〜５３のいずれかに記載のシステム。
前記選択器が、訂正についての以下の時間的順序：
誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、
語彙の改善に先立つ誤用された単語の訂正および文法の訂正
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項５４記載のシステム。
前記言語入力が音声であり、かつ、前記選択器が、以下の訂正機能：
文法の訂正、および
誤用された単語の訂正、および
語彙の改善
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項４８〜５５のいずれかに記載のシステム。
前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器が、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項４８〜５６のいずれかに記載のシステム。
前記選択器がまた、ユーザー入力の不確実性の指標に少なくとも部分的には基づいて選択を行うように機能する、請求項４８、４９、および５２〜５７のいずれかに記載のシステム。
前記ユーザー入力の不確実性の指標が、前記入力を提供する人の不確実性の計測に基づく関数である、請求項５８記載のシステム。
前記選択器はまた、ユーザーの入力履歴を学習する機能を用いる、請求項４８〜５９のいずれかに記載のシステム。
前記システムはまた、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、
特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、
選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、
発生機能を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、
訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、
該特徴特定機能は、下記の機能のうちの少なくとも一つを有する、請求項１〜１５のいずれかに記載のシステム。
Ｎグラム特定機能、
共起特定機能、および、
以下の機能のうちの少なくとも一つ：
スキップグラム特定機能、
スウィッチグラム特定機能、および、
ユーザーによって以前に使用された特徴特定機能。
前記システムはまた、
文法誤り検出器を有し、該文法誤り検出器は、言語入力の文脈内での適合に基づいて該言語入力中の単語の少なくとも大部分を評価するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、前記の言語入力中の少なくとも大部分の単語のうちの少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、かつ、
選択器を有し、該選択器は、少なくとも、前記の言語入力中の少なくとも大部分の単語のうちの少なくとも一つの各々に対する複数の選択肢の間で、選択を行うためのものであり、
かつ、前記訂正生成器は、該選択器によって為された選択に基づいて訂正出力を提供するように機能する、
請求項６２記載のシステム。
前記システムはまた、
疑わしい単語を出力表示する表示器を有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分のうちの少なくとも一部が文法上の誤りを含む疑いについての程度を指し示すものである、
請求項６２または６３記載のシステム。
前記訂正生成器は、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正されたテキスト出力を提供するように機能する、請求項６２〜６４のいずれかに記載のシステム。
前記システムはまた、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、
選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、
選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、
選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、
選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分
的には基づいて訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能するものである、請求項６６または請求項６７記載のシステム。
前記システムはまた、インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的には基づく、様々な代替的な訂正の文脈ベースのスコア付けを有する、請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、前記文脈ベースのスコア付けと協力する下記機能のうちの少なくとも一つを有する、請求項６９記載のシステム。
綴り訂正機能、
誤用された単語訂正機能、
文法訂正機能、および
語彙改善機能。
前記文脈ベースのスコア付けはまた、インターネットコーパス中での正規化されたＣＦＳの発生頻度に少なくとも部分的には基づく、請求項６９または請求項７０記載のシステム。
前記文脈ベースのスコア付けはまた、ＣＦＳの重要度のスコアに少なくとも部分的には基づく、請求項６９〜７１のいずれかに記載のシステム。
前記ＣＦＳの重要度のスコアが、以下：
品詞のタグ付けおよびセンテンスの構文解析機能の操作、
ＣＦＳの長さ
ＣＦＳ中の単語の各々の発生頻度、および
ＣＦＳの類型
のうちの少なくとも一つの関数である、
請求項６９〜７１のいずれかに記載のシステム。
前記システムはまた、語彙改善機能を有し、該語彙改善機能は、
語彙に問題のある単語特定機能、
代替的な語彙改善生成機能、および、
インターネットコーパス中での文脈特徴シーケンス（ＣＦＳ）の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能、
を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記システムはまた、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
選択器を有し、該選択器は、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、
信頼度水準付与器を有し、該信頼度水準付与器は、該複数の選択肢からの選択された選
択肢に対して信頼度水準を付与するように機能するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、および、少なくとも部分的には該信頼度水準に基づいて、訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記複数の選択肢は、文脈特徴シーケンス（ＣＦＳ）に基づいて評価され、かつ、前記信頼度水準は、以下のパラメータ：
選択されたＣＦＳの個数、類型、およびスコア、
ＣＦＳの文脈における前記の複数の選択肢の発生頻度の統計的有意性の指標、
ＣＦＳの各々の優先度の指標および前記複数の選択肢の単語類似度スコアに基づく、前記の複数の選択肢のうちの一つの選択におけるコンセンサスの程度
のうちの少なくとも一つに基づくものであり、
ここで、
前記の複数の選択肢のうちの一つの非文脈的な類似度スコアは、第一の予め定められた最小の閾値を上回り、かつ、
ＣＦＳの個数によって示される利用可能な文脈データの程度は、第二の予め定められた最小の閾値を上回るＣＦＳスコアを有し、かつ第三の予め定められた閾値を上回る優先度スコアを有する、
請求項７５記載のシステム。
前記システムはまた、
句読点誤り検出器を有し、該句読点誤り検出器は、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記訂正生成器は、句読点欠落訂正機能、不要な句読点訂正機能、および句読点置換訂正機能のうちの少なくとも一つを有する、請求項７７記載のシステム。
前記システムはまた、
文法要素誤り検出器を有し、該文法要素誤り検出器は、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項１〜１５のいずれかに記載のシステム。
前記訂正生成器は、文法要素欠落訂正機能、不要な文法要素訂正機能、および文法要素置換訂正機能のうちの少なくとも一つを有する、請求項７９記載のシステム。
前記文法要素は、冠詞、前置詞、および接続詞のうちの一つである、請求項７９または請求項８０記載のシステム。