JP5638948B2 - インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 - Google Patents

インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 Download PDF

Info

Publication number
JP5638948B2
JP5638948B2 JP2010518809A JP2010518809A JP5638948B2 JP 5638948 B2 JP5638948 B2 JP 5638948B2 JP 2010518809 A JP2010518809 A JP 2010518809A JP 2010518809 A JP2010518809 A JP 2010518809A JP 5638948 B2 JP5638948 B2 JP 5638948B2
Authority
JP
Japan
Prior art keywords
functionality
words
gram
input
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010518809A
Other languages
English (en)
Other versions
JP2010535377A (ja
Inventor
ザンビル、ヤエル カロブ
ザンビル、ヤエル カロブ
ザンビル、アビネール
Original Assignee
ジンジャー ソフトウェア、インコーポレイティッド
ジンジャー ソフトウェア、インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジンジャー ソフトウェア、インコーポレイティッド, ジンジャー ソフトウェア、インコーポレイティッド filed Critical ジンジャー ソフトウェア、インコーポレイティッド
Publication of JP2010535377A publication Critical patent/JP2010535377A/ja
Application granted granted Critical
Publication of JP5638948B2 publication Critical patent/JP5638948B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

〔関連する出願の参照〕
米国仮特許出願第60/953,209号(2007年8月1日出願、名称:文脈に依存したエラーの検出および修正のための方法)を、ここに参照し、その開示内容は、参照したことによって本明細書に組み込まれ、そして、37CFR1.78(a)(4)および(5)(i)に従って、その仮特許出願の優先権が主張されている。
〔発明の分野〕
本発明は、概しては、コンピュータを利用した言語修正に関する。
この技術分野における現在の状況は、以下の刊行物に示されていると考える:
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号、第4,674,065号、米国公開特許出願第2006/0247914号、および、第2007/0106937号。
本発明は、コンピュータを利用した言語修正に関する、改善されたシステムおよびファンクショナリティ(functionality、機能、機能部)を提供しようとするものである。
従って、本発明の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器(alternative generator、代替品生成器)を有し、該代替生成器は、入力文に基づいて、テキストベースの表現(representation)を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替(alternative、代替品)を与えるものであり、当該システムは、選択器(セレクタ)を有し、該選択器は、インターネットコーパス(internet corpus)に少なくとも部分的に基づいて、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、当該システムは、修正生成器(correction generator、修正品生成器)を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力(correction output、修正品出力)を提供するように作動するものである。
好ましくは、該選択器は、次の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善(vocabulary enhancement)である。
本発明の好ましい実施形態によれば、該選択器は、次の修正機能のうちの少なくとも2つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、該選択器は、次の修正の時間的順序のうちの少なくとも1つに基づいて、該選択を行うように作動するものであり、その修正の時間的順序が、誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること、および、誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、である。
追加的または代替的には、入力文(入力センテンス)が、次のファンクショナリティのうちの1つによって提供されるものであり、該ファンクショナリティが、ワードプロセッサのファンクショナリティ、機械翻訳のファンクショナリティ、音声テキスト変換のファンクショナリティ、光学式文字認識のファンクショナリティ、および、インスタントメッセージのファンクショナリティであり、かつ、該選択器が、次の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善である。
好ましくは、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。追加的または代替的には、文法修正のファンクショナリティが、句読点、動詞活用、単数形/複数形、冠詞、および、前置詞のうちの、少なくとも1つを修正するファンクショナリティを含んでいる。
本発明の好ましい実施形態によると、文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも1つを含んでいる。
好ましくは、選択器が、文脈ベースのスコアリングのファンクショナリティを有しており、このファンクショナリティが、インターネットコーパス内での、文脈素性シーケンス(contextual feature-sequence)(CFS)の出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する。追加的には、文脈ベースのスコアリングのファンクショナリティが、さらに、インターネットコーパス内でのCFSの規格化(「正規化」ともいう。以下、同様である。)された出現頻度に少なくとも部分的に基づいて、複数の代替をランク付けするように作動する。
本発明における別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティ、のうちの少なくとも1つを含んでおり、かつ、当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティのうちの、少なくとも1つと協働するとともに、インターネットコーパスを使用するものである。
好ましくは、文法修正のファンクショナリティが、句読点、動詞活用、単数形/複数形、冠詞、および、前置詞のうちの、少なくとも1つを修正するファンクショナリティを含んでいる。追加的または代替的には、文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも1つを含んでいる。
本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの少なくとも2つを有し、かつ、該文脈素性シーケンスのファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの、少なくとも1つと協働するとともに、インターネットコーパスを使用するものである。
好ましくは、当該コンピュータを利用した言語修正システムは、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティ、のうちの少なくとも3つを有し、かつ、文脈素性シーケンスのファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、語彙改善のファンクショナリティのうちの、少なくとも1つと協働するとともに、インターネットコーパスを使用するものである。
本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、また、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、前記文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティを有し、かつ、前記文脈素性シーケンスのファンクショナリティが、前記スペル修正のファンクショナリティ、前記誤用されている単語を修正するファンクショナリティ、文法修正のファンクショナリティ、および、前記語彙改善のファンクショナリティと協働するとともに、インターネットコーパスを使用するものである。
好ましくは、修正生成器が、修正言語生成器を含んでおり、この修正言語生成器が、選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。
本発明のさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、言語入力に基づいて、テキストベース(text-based)の表現を生成し、該表現は、その文中の複数の単語のそれぞれのための複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の複数の単語の少なくともいくつかのための前記複数の代替のうちから選択された代替同士の間の関連性に、少なくとも部分的に基づいて、少なくとも該言語入力の中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。
好ましくは、言語入力が、入力文、および、入力テキストのうちの、少なくとも1つを含んでいる。追加的または代替的には、言語入力が音声であり、生成器が、音声による言語入力を、テキストベースの表現へと変換するものであり、該表現が、言語入力の中の複数の単語のための複数の代替を与えるものである。
本発明の好ましい実施形態によれば、言語入力が、テキスト入力、光学式文字認識のファンクショナリティからの出力、機械翻訳のファンクショナリティからの出力、および、ワードプロセッシングのファンクショナリティからの出力のうちの、少なくとも1つであり、かつ、生成器が、テキストによる前記言語入力を、その言語入力の中の複数の単語のための複数の代替を与えるテキストベースの表現へと変換する。
好ましくは、選択器が、次の修正機能のうちの少なくとも2つに基づいて、選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、選択器が、次の修正の時間的順序のうちの少なくとも1つに基づいて、選択を行うように作動するものであり、該修正の時間的順序が、誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること、および、誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあることである。
本発明の好ましい実施形態によれば、言語入力が音声であり、かつ、選択器が、次の修正機能のうちの少なくとも1つに基づいて、選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善である。
好ましくは、選択器が、次の機能のうちの少なくとも2つを実行することによって、前記選択を行うように作動するものであり、該機能が、初期選択のために、前記言語入力の中の前記複数の単語の全てよりも少ない単語を含んだ、単語または単語の組み合わせからなる第1のセットを選択すること、その後、単語または単語の組み合わせからなる前記第1のセットの構成要素を順序付けし、選択における優先順位を設定すること、および、その後、単語からなる前記第1のセットの構成要素のための前記複数の代替からの選択を行ない、前記選択に影響を与える文脈に沿って、前記複数の単語から他の単語を選ぶこと(ただし、全ては選らばないこと)である。代替的または追加的には、選択器が、次の機能を実行することによって選択を行うように作動するものであり、該機能が、少なくとも2つの単語を有する構成要素に関する選択を行う際に、少なくとも2つの単語の一方のための複数の代替のそれぞれと結合している、少なくとも2つの単語の他方のための複数の代替のそれぞれを評価することである。
本発明の好ましい実施形態によれば、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器(misused-word suspector)を有し、該誤用単語調査器は、言語言語入力の中の少なくとも大部分の単語を、その言語入力の文脈内でのそれらの適合度に基づいて評価するものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に、少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
好ましくは、当該コンピュータを利用した言語修正システムは、代替生成器を有し、該代替生成器は、前記言語入力に基づいて、テキストベースの表現を生成し、該表現は、該言語入力の中の前記少なくとも大部分の単語のうちの少なくとも1つの単語のための、複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の前記少なくとも大部分の単語のうちの前記少なくとも1つの単語のそれぞれのための前記複数の代替の、少なくともそれら代替のなかから選択するためのものであり、かつ、前記修正生成器が、前記選択器によって行われた選択に基づいて、前記修正出力を提供するように作動するものである。代替的または追加的には、当該コンピュータを利用した言語修正システムは、疑わしい単語出力の指示器(suspect word output indicator)を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、誤用されている単語としてどの程度疑われているのかを示すものである。
本発明の好ましい実施形態によれば、修正生成器が、自動修正言語生成器(automatic corrected language generator)を有し、この自動修正言語生成器が、前記調査器(suspector)によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである。
好ましくは、言語入力が音声であり、かつ、前記選択器が、次の修正機能のうちの少なくとも1つに基づいて、選択を行うように作動するものであり、該修正機能が、誤用されている単語の修正、文法修正、および、語彙改善、である。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器を有し、該調査記は、言語入力の中の単語を評価するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも1つが、インターネットコーパスにおける該言語入力の中の前記単語の文脈素性と一致しており、当該システムは、選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、当該システムは、代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの1つ1つと比較して、前記疑わしい単語に優先的に付勢(バイアス)を加えるものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、入力に基づいて、該言語入力の中の少なくとも1つの単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記少なくとも1つの単語のそれぞれ、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された前記少なくとも1つの単語のための前記複数の代替のうちの1つ1つと比較して、前記少なくとも1つの単語に優先的に付勢を加えるものであり、前記付勢は、前記入力を与える人の不確実さを示す入力不確実性メトリック(input uncertainly metric)の関数であり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、不正確な単語の調査器を有し、該不正確な単語の調査器は、言語入力の中の少なくとも大部分の単語を評価するものであり、該調査器は、前記入力を与えた人の不確実さを示す入力不確実性メトリックに少なくとも部分的に反応し、該調査器は、不正確であると疑われる単語の出力を提供するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記不正確であると疑われる単語の出力によって特定された不正確であると疑われる単語のための、複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、不正確であると疑われる単語のそれぞれ、および、前記代替生成器によって生成された複数の代替のなかからの選択を行うものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、スペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの、少なくとも1つを有し、これらモジュールは、複数単語の入力を受け取りかつ修正出力を提供するものであり、前記のスペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの少なくとも1つは、それぞれ、音声の類似性のファンクショナリティと文字列の類似性のファンクショナリティとを含み、音声の類似性のファンクショナリティは、代替単語候補生成器、および、選択器を備えており、該代替単語候補生成器は、入力の中の単語に対する音声の類似性に基づいて、代替単語を提示するとともに、音声の類似性のメトリック(metric、距離)を示すように作動するものであり、文字列の類似性のファンクショナリティは、前記入力の中の単語に対する文字列の類似性に基づいて、代替単語を提示するとともに、各代替単語に関する文字列の類似性のメトリックを示すように作動するものであり、前記選択器は、前記音声の類似性のメトリックおよび前記文字列の類似性のメトリックを、文脈ベースの選択のファンクショナリティとともに使用することによって、前記出力の中の単語、または、前記代替単語候補生成器によって提示された代替単語候補のいずれか一方を選択するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、当該システムは、素性特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる素性を特定するように作動するものであり、当該システムは、代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、当該システムは、素性出現のファンクショナリティを有し、該ファンクショナリティは、コーパスを使用するとともに、前記代替を含んでいるさまざまな素性を、コーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、当該システムは、選択器を有し、該選択器は、前記出現出力を使用して修正出力を提供するものであり、前記素性特定のファンクショナリティが、素性フィルタリングのファンクショナリティを有し、この素性フィルタリングのファンクショナリティが、次のファンクショナリティのうちの少なくとも1つを含んでいる。エラーがあると疑われる素性を除去するためのファンクショナリティ。前記複数単語の入力に対する以前の修正反復において導入された単語を含んでいる素性、および、所定の信頼レベル閾値を下回る信頼レベルを有している素性に対して、マイナスの付勢を印加するためのファンクショナリティ。所定の頻度閾値を上回る出現頻度を有している他の素性内に含まれる素性を除去するためのファンクショナリティ。
好ましくは、選択器が、下記の修正機能のうちの少なくとも2つに基づいて、前記選択を行うように作動するものであり、該修正機能が、スペル修正、誤用されている単語の修正、文法修正、および、語彙改善である。追加的には、選択器は、次の修正の時間的順序のうちの少なくとも1つに基づいて、前記選択を行うように作動するものである。誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること。誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること。
本発明の好ましい実施形態によれば、言語入力が音声であり、上記選択器が、文法修正、誤用されている単語の修正、および、語彙改善、という修正機能のうちの少なくとも1つに基づいて、上記選択を実施するように機能する。
好ましくは、上記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。
本発明の好ましい実施形態によれば、選択器が、さらに、ユーザーの入力不確実性メトリックに少なくとも部分的に基づいて、選択を行うように作動する。追加的には、選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する。追加的または代替的には、選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する。
本発明のさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、当該システムは、素性特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる素性を特定するように作動するものであり、当該システムは、代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、当該システムは、出現のファンクショナリティを有し、該ファンクショナリティは、コーパスを使用するとともに、前記代替を含んでいる素性を、コーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、当該システムは、修正出力生成器を有し、該修正出力生成器は、前記出現出力を使用して修正出力を提供するものであって、前記素性特定のファンクショナリティが、次のファンクショナリティのうちの少なくとも1つを有しており、該ファンクショナリティが、N−グラム特定ファンクショナリティ、共起性特定(co-occurrence identification)ファンクショナリティ、および、〔スキップ−グラム特定のファンクショナリティ、スイッチ−グラム特定のファンクショナリティ、および、ユーザによって以前に利用された素性を特定するファンクショナリティのうちの、少なくとも1つのファンクショナリティ〕である。
本発明における別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の少なくとも大部分の単語を、この言語入力の文脈に対するそれらの適合度に基づいて評価するものであり、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
好ましくは、当該コンピュータを利用した言語修正システムは、さらに、代替生成器を有し、該代替生成器は、前記言語入力に基づいて、テキストベースの表現を生成し、該表現は、該言語入力の中の前記少なくとも大部分の単語のうちの少なくとも1つの単語のための、複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、前記言語入力の中の前記少なくとも大部分の単語のうちの前記少なくとも1つの単語のそれぞれのための前記複数の代替の、少なくともそれら代替のなかから選択するためのものであり、かつ、修正生成器が、選択器によって行われた選択に基づいて、修正出力を提供するように作動するものである。
本発明の好ましい実施形態によれば、当該コンピュータを利用した言語修正システムは、さらに、疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、文法的なエラーを有している単語としてどの程度疑われているのかを示すものである。
好ましくは、修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動する。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、当該システムは、代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも1つが、該言語入力の中の前記単語の文脈素性と一致しており、当該システムは、選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、当該システムは、代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、当該システムは、選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの1つ1つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
好ましくは、修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、さまざまな代替的な修正についての文脈ベースのスコアリングを有し、該スコアリングは、インターネットコーパス内での、文脈素性シーケンス(CFS)の出現頻度に少なくとも部分的に基づいている。
好ましくは、当該コンピュータを利用した言語修正システムは、さらに、次のファンクショナリティのうちの少なくとも1つを有しており、該ファンクショナリティが、スペル修正のファンクショナリティ、誤用されている単語を修正するファンクショナリティ、
文法修正のファンクショナリティ、および、語彙改善のファンクショナリティであって、これらのファンクショナリティが、前記の文脈ベースのスコアリングと協働するものである。
本発明の好ましい実施形態によれば、文脈ベースのスコアリングが、さらに、インターネットコーパス内での規格化されたCFSの出現頻度に少なくとも部分的に基づいている。追加的または代替的には、文脈ベースのスコアリングは、さらに、CFSの重要性のスコアに少なくとも部分的に基づいている。追加的には、CFSの重要性のスコアが、〔品詞タギングおよび構文解析のファンクショナリティの作用、CFSの長さ、CFSにおける各単語の出現頻度、および、CFSのタイプ〕のうちの少なくとも1つの関数である。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、語彙改善のファンクショナリティを有し、該ファンクショナリティは、表現の悪い単語を特定するファンクショナリティと、代替的な語彙改善案を生成するファンクショナリティと、インターネットコーパス内での文脈素性シーケンス(CFS)の出現頻度に少なくとも部分的に基づいた、文脈ベースのスコアリングのファンクショナリティとを含んでおり、前記の代替的な語彙改善案を生成するファンクショナリティが、シソーラスの前処理のファンクショナリティを含んでおり、それが、代替的な語彙改善案を生成するように作動するものである。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、代替生成器を有し、該代替生成器は、入力文に基づいて、テキストベースの表現を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替を与えるものであり、当該システムは、選択器を有し、該選択器は、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから選択するためのものであり、当該システムは、信頼レベル割り当て器を有し、該信頼レベル割り当て器は、前記複数の代替から選択された代替に対して、信頼レベルを割りあてるように作動するものであり、当該システムは、修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づくとともに、前記信頼レベルに少なくとも部分的に基づいて、修正出力を提供するように作動するものである。
好ましくは、複数の代替が、文脈素性シーケンス(CFS)に基づいて評価され、かつ、信頼レベルが、下記のパラメーターのうちの少なくとも1つに基づくものであって、該パラメーターが、〔選択されたCFSの、数、タイプ、および、スコアリング〕、〔該CFSの文脈における、前記複数の代替の出現頻度の統計的な有意性の測定値〕、〔前記CFSのそれぞれの優先メトリック(preference metric)、および、前記複数の代替の単語の類似性スコアに基づく、前記複数の代替の1つの選択における、一致の程度〕、〔第1の所定の最小閾値を超える、前記複数の代替の1つの、非文脈的な類似性スコア〕、および、〔第2の所定の最小閾値を超えるCFSスコアを有するとともに、第3の所定の閾値よりも大きい優先スコア(preference score)を有する前記CFSの数によって示される、利用可能な文脈データの範囲〕である。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、句読点エラー調査器を有し、該調査器は、言語入力の中の少なくともいくつかの単語および句読点を、前記言語入力の素性グラム(feature-grams)におけるインターネットコーパス内での出現頻度に基づいた前記言語入力の文脈内での、前記単語および句読点の適合度に基づいて評価するものであり、当該システムは、修正生成器を有し、該修正生成器は、少なくとも部分的に、前記調査器によって行われた評価に基づいて、修正出力を提供するように作動するものである。
好ましくは、修正生成器が、欠落している句読点を修正するファンクショナリティ、余分な句読点を修正するファンクショナリティ、および、句読点を置換修正するファンクショナリティのうちの、少なくとも1つを有している。
本発明におけるさらに別の好ましい実施形態に従った、コンピュータを利用した言語修正システムが提供され、当該システムは、文法的要素エラーの調査器を有し、該調査記は、言語入力の中の少なくともいくつかの単語を、前記言語入力の素性グラムにおけるインターネットコーパス内での出現頻度に基づいた、前記言語入力の文脈に対する前記単語の適合度に基づいて評価するものであり、かつ、当該システムは、修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するものである。
好ましくは、修正生成器が、欠落している文法的要素を修正するファンクショナリティ、余分な文法的要素を修正するファンクショナリティ、および、文法的要素を置換修正するファンクショナリティのうちの、少なくとも1つを有している。追加的または代替的には、文法的要素が、冠詞、前置詞、および接続詞のうちの1つである。
本発明は、後述する詳細な説明によって、より完全に理解および認識されるはずである。この詳細な説明では、以下に示す図面が用いられている。
図1は、本発明の好ましい実施形態に従って構築され、この実施形態に従って動作する、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティを示す、簡略化されたブロック図である。 図2は、図1に示したシステムおよびファンクショナリティにおいて好適に使用される、スペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。 図3は、図1に示したシステムおよびファンクショナリティにおいて好適に使用される、誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。 図4は、図1に示したシステムおよびファンクショナリティにおいて好適に使用される、語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。 図5は、図1に示したシステムおよびファンクショナリティにおいて好適に使用される、文脈素性シーケンス(CFS)のファンクショナリティを例示する、簡略化されたブロック図である。 図6Aは、本発明の好ましい実施形態に従う、図2に示したファンクショナリティの一部を形成するスペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。 図6Bは、本発明の好ましい実施形態に従う、図3に示したファンクショナリティの一部を形成する誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。 図6Cは、本発明の好ましい実施形態に従う、図4に示したファンクショナリティの一部を形成する語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。 図7Aは、図2および図3に示したファンクショナリティにおいて有用な、代替的な修正を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。 図7Bは、図4に示したファンクショナリティにおいて有用な、代替的な改善を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。 図8は、図2に示したスペル修正のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリング(好ましくは、インターネットコーパスを利用したもの)に関するファンクショナリティを例示する、簡略化されたフローチャートである。 図9は、図3、図10および図11に示した誤用されている単語および文法を修正するファンクショナリティ、および、図4に示した語彙改善のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリング(好ましくは、インターネットコーパスを利用したもの)に関するファンクショナリティを例示する、簡略化されたフローチャートである。 図10は、欠落している冠詞、前置詞、および句読点を修正するファンクショナリティにおける動作を例示する、簡略化されたフローチャートである。 図11は、余分な冠詞、前置詞、および句読点を修正するファンクショナリティにおける動作を例示する、簡略化されたフローチャートである。
まず、図1について説明する。この図は、本発明の好ましい実施形態に従って構築され、この実施形態に従って動作する、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティ(機能、または、機能部)を示す、簡略化されたブロック図である。図1に示すように、修正されるテキストは、1つまたは複数のソースから、言語修正モジュール100に供給される。このソースには、ワードプロセッサのファンクショナリティ102、機械翻訳のファンクショナリティ104、音声テキスト変換のファンクショナリティ106、光学式文字認識のファンクショナリティ108、および、他の任意のテキストソース110(例えば、インスタントメッセージまたはインターネット)が含まれる(ただし、これらに限られるわけではない)。
言語修正モジュール100は、好ましくは、スペル修正のファンクショナリティ112、誤用されている単語および文法を修正するファンクショナリティ114、および、語彙改善のファンクショナリティ116を含んでいる。
本発明における際立った特徴点は、スペル修正のファンクショナリティ112、誤用されている単語および文法を修正するファンクショナリティ114、および語彙改善のファンクショナリティ116のそれぞれが、インターネットコーパス120を利用している文脈素性シーケンス(CFS)のファンクショナリティ118と、相互作用していることにある。
この明細書に関しては、文脈素性シーケンス(すなわちCFS)は、N−グラム、スキップ−グラム、スイッチ−グラム、共起性(co-occurrences)、「ユーザによって以前に利用された素性(features)」およびこれらの組み合わせ(これらについては、後に、図5を用いて定義する)として、定義されている。なお、後述する実施例の大部分は、N−グラムだけを使用しているが、これは、説明を簡単かつ明確にするためである。当然のことながら、本発明は、これに限定されるわけではない。
インターネットコーパスの使用は、極めて大量の文書素性シーケンスに関する重要な統計的データを提供するものであり、これにより、言語修正のファンクショナリティが非常に堅固となる。この点において、インターネットコーパスを利用することは重要である。実際に、2つ以上の単語の組み合わせは、従来の非インターネットコーパスにおいては非常に乏しい統計値しか有していないけれども、インターネットコーパスにおいては、満足できる(すなわち良好な)統計値を有している。
インターネットコーパスは、自然言語テキストからなる大量の代表サンプルである。これらのサンプルは、通常、インターネットを巡回し、ウェブサイトのページからテキストを収集することによって、ワールド・ワイド・ウェブから収集される。好ましくは、動的なテキスト(例えば、チャットの記録、ウェブフォーラムからのテキスト、および、ブログからのテキスト)も収集される。収集されたテキストは、自然言語テキストの統計を蓄積するために使用される。インターネットコーパスのサイズは、例えば、1兆語(1,000,000,000,000語)であり、あるいは、数兆語となることもある。これとは対照的に、より一般的なコーパスのサイズは、せいぜい20億語である。ウェブコーパスのようなウェブ上の小さなサンプルは、100億語を含んでいる。この値は、検索エンジン(例えば、GOOGLE(登録商標))によってインデックス付けされるウェブテキストの1%よりも、はるかに少ない。本発明は、ウェブコーパスなどのウェブ上のサンプルを用いて機能することも可能である。しかしながら、好ましくは、本発明は、テキストの修正という目的のために、ウェブ上におけるはるかに大きなサンプルを利用する。
インターネットコーパスは、好ましくは、以下の2つの方法のいずれかにおいて使用される。
検索クエリーとしてCFSを用いて、1つまたは複数のインターネット検索エンジンを使用する。このようなクエリーのそれぞれに関する結果数は、このCFSの出現頻度を与える。
インターネットを巡回し、インデックス付けをすることによって、時間をかけてローカルインデックスを構築する。各CFSの出現数は、CFSの頻度を与える。このローカルインデックスについては、検索クエリーと同様に、インターネットにおける選択可能な部分に基づくものとすることが可能であり、さらに、これらの選択可能な部分によって特定することも可能である。同様に、インターネットにおける利用と一般的な言語利用との間の不調和を修正するために、インターネットの一部について、排除するか、または、適切に重み付けすることも可能である。このような方法では、言語利用に関して信頼することのできるウェブサイト(例えば、ニュース用または政府用のウェブサイトなど)に対して、他のウェブサイト(例えば、チャットまたはユーザフォーラムなど)に比して、より強い重み付けを与えることが可能である。
好ましくは、入力テキストは、最初に、スペル修正のファンクショナリティ112に供給され、その後、誤用されている単語および文法を修正するファンクショナリティ114に供給される。この入力テキストについては、任意の好適なテキストとすることが可能である。ワードプロセッシングとの関連においては、入力テキストは、好ましくは文書の一部(例えば1つの文)である。語彙改善のファンクショナリティ116は、好ましくは、ユーザの選択により、テキスト(スペル修正のファンクショナリティ112、および、誤用されている単語および文法を修正するファンクショナリティ114に対して、既に供給されているテキスト)に作用する。
好ましくは、言語修正モジュール100は、修正されたテキストを含む出力を提供するとともに、さらに、このテキストに対し、修正された単語(または単語のグループ)のそれぞれに関する、1つまたは複数の推奨される代替を添付する。
ここで、図2を参照すると、同図は、図1に示したシステムおよびファンクショナリティにおいて好適に使用されるスペル修正のファンクショナリティを例示する、簡略化されたフローチャートである。この図2に示すように、スペル修正のファンクショナリティは、好ましくは、以下のステップを含んでいる。
入力テキストにおけるスペルエラーを特定するステップ。このステップでは、好ましくは、インターネットにおいて一般的に使用されている適切な名称および単語によって改善された、標準的な辞書を使用する。
スペルエラーをクラスタにグループ化するステップ。このクラスタは、スペルの間違いを有する1つまたは複数の単語(連続している(またはほぼ連続している)もの)を含むことが可能である。その後、修正するためのクラスタを選択する。この選択では、最も大量の修正文脈データを包含しているクラスタを見つけることが試みられる。選択されるクラスタは、その近傍に、正しいスペルの単語からなる最も長いシーケンス(単数または複数)を有していることが好ましい。これらのステップについては、図6Aを用いて、後により詳細に説明する。
各クラスタに関し、1つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、好ましくは、図7Aを用いて後に説明するアルゴリズムに基づくものである。
さまざまな代替的な修正に対して、好ましくはインターネットコーパスを用いて、単語の類似性に基づく、非文脈的(non-contextual)なスコアリング、および、文脈的(contextual)なスコアリングを少なくとも部分的に実施するステップ。これらのスコアリングについては、好ましくは、スペル修正における代替スコアリング・アルゴリズム(図8を用いて後に説明する)に基づいて実施する。
各クラスタに関し、上述のスコアリングに基づいて、1つのスペル修正を選択し、最も好ましいスペル修正の代替を表示するステップ。
スペルに間違いのあるクラスタごとに、1つのスペル修正を組み込んでいる、修正されたテキストの出力を提供するステップ(スペルに間違いのあるクラスタは、このスペル修正によって置き換えられる)。
以下の実施例を検討することによって、図2に示したファンクショナリティの作用を、より深く理解することが可能である。
以下の入力テキストが受領される。
Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate.
以下の単語が、スペルエラーとして特定される。
ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay;ea.
なお、「fate」については、これが辞書にあるために、スペルエラーとして特定されていないことに注意されたい。
表1に示すように、以下のクラスタが選択される。
Figure 0005638948
クラスタ2に関しては、「their」は、正しいスペルではあるけれども、スペルに間違いのある単語に囲まれているために、クラスタに含まれていることに注意されたい。
クラスタ1の「eksersiv」が、修正するために選択される。その理由は、これが、正しいスペルの単語からなる最も長いシーケンス(単数または複数)を、その近傍に有しているからである。
スペルに間違いのある単語「eksersiv」のために、以下の代替的な修正が生成される。
excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism.
代替的な修正のそれぞれから、スペルに間違いのある単語に対する音および文字列の類似性に基づいて、例えば表2に示すように、非文脈的な単語の類似性スコアが得られる。
Figure 0005638948
この非文脈的なスコアについては、さまざまな方法によって導出することが可能である。1つの例として、レーベンシュタイン距離(Levelnshtein Distance、編集距離)アルゴリズムを用いるものがある(このアルゴリズムは、http://en.wikipedia.org/wiki/Levenshtein distance から入手することが可能である)。このアルゴリズムについては、単語の列、単語の発音表記、あるいはこれら双方の組み合わせに含めることが可能である。
各代替からは、さらに、入力文の文脈内での適合度(fit)に基づいて、表3に示すように、文脈的なスコアが得られる。この例では、使用されている文脈は、「Some students should <eksersiv> daily」である。
Figure 0005638948
この文脈的なスコアは、好ましくは図8を用いて後に説明するように導出されるものであり、インターネットコーパスにおける、文脈素性シーケンス(CFS)の頻度に基づいている。
「exercise」という単語が、文脈的なスコアと非文脈的な単語の類似性スコアとの組み合わせに基づいて、最適な代替として選択される(これについては、図8を用いて後に説明する)。
全てのクラスタが、同様の手法によって修正される。スペル修正された入力テキストは、本発明の好ましい実施形態に従うスペル修正によって、以下のようになる。
Physical education can assist in strengthening muscles. Some students should exercise daily to improve their strength and health because they are so fate.
なお、スペル修正された入力テキスト内には、誤用されている単語が残っていることに注意されたい。「fate」という単語は、誤用されている単語および文法の修正アルゴリズム(図3を用いて後に説明する)による修正を必要とする。
ここで、図3を参照すると、同図は、図1に示したシステムおよびファンクショナリティにおいて好適に使用される、誤用されている単語および文法を修正するファンクショナリティを例示する、簡略化されたフローチャートである。この誤用されている単語および文法を修正するファンクショナリティは、正しいスペルではあるけれども、入力テキストの文脈において誤用されている単語の修正、および、文法的な間違いの修正を実施する。例えば、文法的に正しい単語の代わりに文法的に正しくない単語が使用されていること、余分な単語が使用されていること、および、単語および句読点が欠落していること、が修正される。
図3に示すように、この誤用されている単語および文法を修正するファンクショナリティは、好ましくは、以下のステップを含む。
図2に示したスペル修正のファンクショナリティから出力された、スペルを修正された入力テキストにおける、誤用されていると疑われる単語、または、文法的な間違いを含んでいると疑われる単語を特定するステップ。これは、好ましくは、入力文の文脈内における少なくとも大部分の単語の適合度を評価することによって実施される。
誤用されていると疑われる単語、または、文法的な間違いを含んでいると疑われる単語を、複数のクラスタにグループ化するステップ。これらのクラスタは、重複していないことが好ましい。
修正するためのクラスタを選択するステップ。上記の特定、グループ化および選択のステップは、好ましくは、図6Bを用いて後に説明されるアルゴリズムに基づくステップである。
各クラスタに関して、1つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、好ましくは、図7Aを用いて後に説明される、代替的な修正の生成アルゴリズムに基づくものである。
各クラスタに関して、1つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、図10を用いて後に説明される、欠落している冠詞、前置詞、および句読点の修正アルゴリズムを用いて実施される。
各クラスタに関して、1つまたは好ましくは複数の代替的な修正を生成するステップ。このステップは、図11を用いて後に説明される、余分な冠詞、前置詞、および句読点の修正アルゴリズムを用いて実施される。
さまざまな代替的な修正に対する文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングを実施するステップ。このステップは、好ましくは、図9を用いて後に説明される誤用されている単語および文法の修正における、代替スコアリング・アルゴリズムに基づいて実施される。
各クラスタに関して、1つの誤用されている単語および文法の修正を選択し、誤用されている単語および文法の修正における最も好ましい代替を表示するステップ。このステップは、同様に図9を用いて後に説明される、上述のスコアリングに基づいて実施される。
各クラスタに関して、1つの誤用されている単語および文法の修正を組み込んでいる、スペル、誤用されている単語および文法を修正されたテキストの出力を提供するステップ。正しくないクラスタは、この修正によって置き換えられる。
好ましくは、上記のスコアリングは、疑わしい単語に関する複数の代替のうちの1つ1つに比べて、その疑わしい単語に優先的に付勢を加えることを含んでいる。この付勢は、その入力を与える人物の不確実さを示す、入力不確実性メトリックの関数である。
以下の実施例を検討することによって、図3に示したファンクショナリティの作用を、より深く理解することが可能である。
以下の入力テキストが受領される。
I have money book
以下の単語が、誤用されていると疑われる単語として特定される。
money,book
以下のクラスタが生成される。
money book
以下は、代替的な修正の例である。これらは、上記のクラスタに関して生成されたものである(部分的なリスト)。
money books;money back;money box;money bulk;money Buick;money ebook;money bank;mini book;mummy book;Monet book;honey book;mannerly book;mono book;Monday book;many books;mini bike;mummy back;monkey bunk;Monday booked;Monarchy back;Mourned brook
文脈に基づいたインターネットコーパスを用いた少なくとも部分的に文脈的なスコアリング、および、単語の類似性に基づく非文脈的なスコアリングの結果を、表4に示す。
Figure 0005638948
当然のことではあるが、グローバルスコアにたどり着くためには、さまざまな方法がある。好ましいグローバルスコアは、図9を用いて後に説明するアルゴリズムに基づいている。
上述のスコアリングに基づいて、代替である「many books」が選択される。従って、修正されたテキストは、
I have many books.
となる。
次に、図4を参照すると、同図は、図1に示したシステムおよびファンクショナリティにおいて使用される語彙改善のファンクショナリティを例示する、簡略化されたフローチャートである。図4に示すように、この語彙改善のファンクショナリティは、好ましくは、以下のステップを含んでいる。
図3に示した誤用されている単語および文法を修正するファンクショナリティから出力された、スペル、誤用されている単語および文法を修正された入力テキストにおいて、下位の選択的な表現を利用していると疑われる、表現の悪い単語を特定するステップ。
表現の悪い単語を、複数のクラスタにグループ化するステップ。これらのクラスタは、重複していないことが好ましい。
修正するためのクラスタを選択するステップ。上記の特定、グループ化および選択のステップは、好ましくは、図6Cを用いて後に説明されるアルゴリズムに基づくステップである。
クラスタのそれぞれに関して、1つまたは好ましくは複数の代替的な語彙改善を生成するステップ。このステップは、好ましくは、図7Bを用いて後に説明される、語彙改善の生成アルゴリズムに基づくものである。
さまざまな代替的な語彙改善に対する、単語の類似性に基づく非文脈的なスコアリングおよび文脈的なスコアリングを実施するステップ。このステップでは、好ましくは、インターネットコーパスを利用する。また、このステップは、好ましくは、図9を用いて後に説明される、語彙改善の代替スコアリング・アルゴリズムに基づいて実施される。
各クラスタに関し、1つの語彙改善を選択し、最も好ましい代替的な語彙改善を表示するステップ。このステップは、同様に図9を用いて後に説明される、上述のスコアリングに基づいて実施される。
それぞれの下位(sub-)の望ましい表現のクラスタに関する、語彙改善を提案するステップ。
以下の実施例を検討することによって、図4に示したファンクショナリティの作用を、より深く理解することが可能である。
以下に示す、スペル、誤用されている単語および文法を修正された入力テキストが与えられる。
Wearing colorful clothes will separate us from the rest of the children in the school.
図6Cを用いて後に説明されるファンクショナリティを用いることによって、語彙改善のために、以下のクラスタが選択される。
separate
図7Bを用いて後に説明されるファンクショナリティを用いることによって、表5に示すように、以下の代替的なクラスタ修正が生成される(部分的なリスト)。この生成は、図7Bにおいて説明されている、前処理された語彙データベースに基づいて実施される。
Figure 0005638948
インターネットコーパスを用いることによって、さまざまな代替的な語彙改善がスコアリングされる。これは、入力テキストの文脈に対する語彙改善の適合度に、少なくとも部分的に基づいており、さらに、語彙改善の表現の悪い単語である「separate」に対する、単語の意味の類似性に基づいている。
図5を用いて後に説明されるファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「will separate」、「separate us」、「clothes will separate」、「will separate us」、「separate us from」
図9のステージIIAを用いて後に説明されるファンクショナリティを用いることによって、上述のCFSのリストにおける代替的なクラスタ修正の部分的なリストに関して、表6に示すような、インターネットコーパスにおける出現頻度のマトリクスが生成される。
Figure 0005638948
全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除かれる。この例では、以下の素性グラムが除かれる。
「clothes will separate」
その後、少なくとも最小閾値の出現頻度を有する他のCFSに完全に含まれる、全てのCFSが除かれる。例えば、以下の素性グラムが除かれる。
「will separate」、「separate us」
この実施例では、残っているCFSは、以下の素性グラムである。
「will separate us」、「separate us from」
図9に関するステージIIDおよびIIEにおいて後に説明される、最終的な優先スコアを用いることによって、代替である「differentiate」が選択される。そして、改善された文は、以下のようになる。
Wearing colorful clothes will differentiate us from the rest of the children in the school.
次に、図5について説明する。この図は、文脈素性シーケンス(CFS)のファンクショナリティ118を例示する、簡略化されたブロック図である。このファンクショナリティ118は、本発明の好ましい実施形態における、コンピュータを利用した言語修正のためのシステムおよびファンクショナリティにおいて、有用なものである。
このCFSのファンクショナリティ118は、好ましくは、素性抽出(feature extraction)のファンクショナリティを含んでいる。この素性抽出のファンクショナリティは、N−グラム抽出のファンクショナリティを含んでおり、さらに、選択的には、スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および「ユーザによって以前に利用された素性」を抽出するファンクショナリティにおける、少なくとも1つを含んでいる。
N−グラム(N-gram)という用語は、この技術分野における既知の用語であり、入力テキストにおけるN個の連続的な単語のシーケンスを示している。このN−グラム抽出のファンクショナリティは、従来の品詞タギング(part-of-speech tagging)および構文解析のファンクショナリティを使用することも可能である。これは、コーパス(好ましくはインターネットコーパス)内に高い頻度で出現しそうにない、文法的な考察に基づく明白なN−グラムの生成を、回避するためである。
この明細書に関しては、「スキップ−グラム抽出(skip-gram extraction)のファンクショナリティ」という用語は、「スキップ−グラム」を抽出するように動作するファンクショナリティを意味している。この「スキップ−グラム」は、特定の非本質的な単語または句(例えば、形容詞、副詞、形容詞句および副詞句など)を除去した、改良されたN−グラム、または、所定の文法的な関係性(例えば、主語−動詞、動詞−目的語、副詞−動詞、または、動詞−時間を示す句など)を有する単語だけを含んでいる、改良されたN−グラムである。このスキップ−グラム抽出のファンクショナリティは、与えられた文脈において、どの単語をスキップすることが可能であるかの決定に利用するために、従来の品詞タギングおよび構文解析のファンクショナリティを使用することも可能である。
この明細書に関しては、「スイッチ−グラム抽出(switch-gram extraction)のファンクショナリティ」という用語は、「スイッチ−グラム」を特定するファンクショナリティを意味している。この「スイッチ−グラム」は、特定の単語における出現の順序が切り替えられている、改良されたN−グラムである。このスイッチ−グラム抽出のファンクショナリティは、与えられた文脈において、どの単語における出現の順序を切り替えるのかの決定に利用するために、従来の品詞タギングおよび構文解析のファンクショナリティを使用することも可能である。
この明細書に関しては、「共起性抽出(co-occurrence extraction)のファンクショナリティ」という用語は、入力文(input sentence)、または、多くの入力文を含んだ入力文書(input document)における、単語の組み合わせを特定するファンクショナリティを意味している。上記の入力文または入力文書は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示とともに有しているものである。また、上記全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラム内に含まれている単語が除かれるとともに、一般的に存在する単語(例えば、前置詞、冠詞、接続詞、および、主として文法的な機能を有する他の単語など)も、取り除かれている。
この明細書に関しては、「ユーザによって以前に利用された素性を抽出するファンクショナリティ」という用語は、他の文書において、ユーザによって使用された単語を特定するファンクショナリティを意味している。なお、これらの単語からは、一般的に存在する単語(例えば、前置詞、冠詞、接続詞、および、主として文法的な機能を有する他の単語など)が取り除かれている。
この明細書に関しては、N−グラム、スキップ−グラム、スイッチ−グラムおよびこれらの組み合わせは、素性グラムと称される。
この明細書に関しては、N−グラム、スキップ−グラム、スイッチ−グラム、共起性、「ユーザによって以前に利用された素性」、およびこれらの組み合わせは、文脈素性シーケンス(すなわちCFS)と称される。
図5に示したファンクショナリティは、好ましくは、入力テキストにおける個々の単語、または単語のクラスタに作用する。
以下の実施例を検討することによって、図5に示したファンクショナリティの作用を、より深く理解することが可能である。
以下の入力テキストが与えられる。
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer, to invesigate the death of sir Charles
入力テキストにおける「Cherlock Homes」というクラスタに関して、以下のCFSが生成される。
N−グラム:
2−グラム:Cherlock Homes;Homes the
3−グラム:Cherlock Homes the;Homes the lead
4−グラム:Cherlock Homes the lead;Homes the lead character
5−グラム:Cherlock Homes the lead character
スキップ−グラム:
Cherlock Homes the character;Cherlock Homes the chief inspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
スイッチ−グラム:
The lead character Cherlock Homes
入力テキストにおける共起性:
Character;inspector;investigate;death
入力テキストを含んでいる文書における共起性:
Arthur Conan Doyle;story
ユーザの他の文書における共起性:
mystery
入力テキストにおける「cold」というクラスタに関しては、以下のCFSが生成される。
N−グラム:
2−グラム:been cold;cold in
3−グラム:has been cold;been cold in;cold in by
4−グラム:inspector has been cold;has been cold in;been cold in by;cold in by the
5−グラム:chief inspector has been cold;inspector has been cold in;has been cold in by;been cold in by the;cold in by the family
スキップ−グラム:
cold in to investigate;Cherlock has been cold;cold by the doctor;cold by Dr Mortimer;character has been cold
これらのCFSには、それぞれ、以下のa〜dのうちの少なくとも1つ(好ましくは複数、最も好ましくは全て)に基づいて、「重要性のスコア」が与えられる。
a.従来の品詞ダギングおよび構文解析のファンクショナリティの作用。複数の構文解析ツリーノードの一部を含むCFSには、比較的に低いスコアが与えられている。CFSに含まれている構文解析ツリーノードの数が多くなるほど、そのCFSのスコアは低くなる。
b.CFSの長さ。CFSが長くなるほど、スコアは高くなる。
c.CFSにおける各単語(入力単語を除く)の出現頻度。このような単語の出現頻度が高くなるほど、スコアは低くなる。
d.CFSのタイプ。例えば、N−グラムは、好ましくは、共起性よりも優先される。入力文における共起性は、好ましくは、入力文書における共起性よりも優先される。さらに、入力文書における共起性は、好ましくは、「ユーザによって以前に使用された素性」よりも優先される。
上述の実施例に関連する、典型的なスコアを表7に示す。
Figure 0005638948
上記のCFS、および、これらの重要性のスコアは、図8および図9を用いて後に説明されるファンクショナリティにおいて使用される。このファンクショナリティは、インターネットコーパスにおけるCFSの出現頻度に基づいた、さまざまな代替的なクラスタ修正に対する文脈に基づくスコアリングに関するものである。
次に、図6Aについて説明する。この図は、入力テキストにおけるスペルに間違いのある単語を特定すること、スペルに間違いのある単語を複数のクラスタにグループ化すること(これらのクラスタは、重複していないことが好ましい)、さらに、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。
図6Aに示すように、スペルに間違いのある単語の特定は、好ましくは、インターネットにおいて一般的に使用されている適切な名称および単語によって改善された、標準的な辞書を用いて実行される。
スペルに間違いのある単語におけるクラスタへのグループ化は、好ましくは、スペルに間違いのある連続している(またはほぼ連続している)単語を、文法的な関係性を有する、スペルに間違いのある単語とともに、単一のクラスタにグループ化することによって実行される。
修正するためのクラスタの選択は、好ましくは、疑わしくない文脈データを最も大量に含んでいるクラスタを見つけようと試みることによって、実行される。選択されるクラスタは、正しいスペルの単語からなる最も長いシーケンス(単数または複数)を、その近傍に有していることが好ましい。
次に、図6Bについて説明する。この図は、スペル修正された入力テキストにおける誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を特定すること、誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を複数のクラスタにグループ化すること(これらのクラスタは、重複していないことが好ましい)、および、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。
誤用されていると疑われる単語の特定は、好ましくは、以下のように実行される。
スペル修正された入力テキストにおける、各単語に関する素性グラムを生成する。
コーパス(好ましくはインターネットコーパス)における、素性グラムのそれぞれにおける出現頻度を記録する。
各単語に関する、疑わしい素性グラムの数を記録する。疑わしい素性グラムの頻度は、それらの予想頻度に比して著しく低くなっているか、あるいは、最小頻度閾値を下回っている。素性グラムにおける予想頻度は、その構成要素およびこれらの組み合わせの頻度に基づいて、見積もられる。
ある単語を含んでいる疑わしい素性グラムの数が、所定の閾値を超えた場合、その単語を疑わしいものであるとする。
本発明の好ましい実施形態によれば、スペル修正された入力テキストにおける、各素性グラムのコーパス(好ましくはインターネットコーパス)内での出現頻度(FREQ F−G)が解明される。スペル修正された入力テキストにおける、上記のコーパス内での各単語の出現頻度(FREQ W)も解明され、さらに、その単語をもたない各素性グラムの出現頻度(FREQ FG−W)も、追加的に解明される。
各素性グラムにおける予想出現頻度(EFREQ F−G)は、次のように計算される。
EFREQ F−G = FREQ F−G−W * FREQ W/(コーパス内における全ての単語の頻度の合計)
スペル修正された入力テキストにおける各素性グラムのコーパス(好ましくはインターネットコーパス)内での出現頻度における、各素性グラムの予想出現頻度に対する比率(FREQ F−G/EFREQ F−G)が、所定の閾値よりも小さい場合、または、(FREQ F−G)が、別の所定の閾値よりも小さい場合には、素性グラムは、疑わしい素性グラムであると見なされる。疑わしい素性グラムに含まれている全ての単語は、誤用されていると疑われる単語、または、文法的な間違いのあると疑われる単語であると見なされる。
以下の実施例を検討することによって、スペル修正された入力テキストにおける誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語を特定するための、図6Bに示したファンクショナリティの作用を、より深く理解することが可能である。
以下のスペル修正された入力テキストが与えられる。
Ihave money book
素性グラムは、
I;I have;I have money;I have money book
を含んでいる。
表8は、上述の素性グラムにおける、インターネットコーパス内での出現頻度を示している。
Figure 0005638948
予想出現頻度が、2−グラムのそれぞれに関して、以下のように計算される。
EFREQ F−G = FREQ F−G−W * FREQ W /(コーパス内における、全ての単語の頻度の合計)
例えば、2−グラムに関しては、
2−グラム(x,y)について予想される2−グラムの頻度 = (Xの1−グラムの頻度 * Yの1−グラムの頻度)/インターネットコーパス内の単語の数(例えば、1兆(1,000,000,000,000)個の単語)
となる。
スペル修正された入力テキストにおける各素性グラムのコーパス(好ましくはインターネットコーパス)内での出現頻度における、各素性グラムの予想出現頻度に対する比率は、次のように計算される。
FREQ F−G / EFREQ F−G
スペル修正された入力テキストにおける上述した各2−グラムのコーパス(好ましくはインターネットコーパス)内での出現頻度における、上述した各2−グラムの予想出現頻度に対する比率を、表9に示す。
Figure 0005638948
この表からわかるように、「money book」の(FREQ F−G)が、その予想頻度よりも実質的に小さくなっており、このために、(FREQ F−G)/(EFREQ F−G)を、所定の閾値(例えば1)よりも低くなっていると見なすことが可能である。従って、クラスタ「money book」は、疑わしい。
この表からわかるように、「money book」という複数の単語を含んでいる3−グラムおよび4−グラムの双方における、インターネットコーパス内での頻度は、ゼロである。このことは、「money book」を疑わしいと見なすための、根拠となりえる。
誤用されていると疑われる単語または文法的な間違いを含んでいると疑われる単語における、複数のクラスタへのグループ化は、好ましくは、以下のように実行される。すなわち、誤用されていると疑われる、連続している(またはほぼ連続している)複数の単語を、単一のクラスタにグループ化する。そして、文法的な関係性を有する、誤用されていると疑われる単語を、同一のクラスタにグループ化する。
修正するためのクラスタの選択は、好ましくは、疑わしくない文脈データを最も大量に含んでいるクラスタを見つけようと試みることによって、実施される。好ましくは、疑わしくない単語からなる最も長いシーケンス(単数または複数)を、その近傍に有しているクラスタが選択される。
次に、図6Cについて説明する。この図は、スペル、誤用されている単語および文法を修正された入力テキストにおける、下位の選択的(suboptional)な表現を利用していると疑われる表現の悪い単語を特定すること、表現の悪い単語を複数のクラスタにグループ化すること(これらのクラスタは、重複していないことが好ましい)、および、修正するためのクラスタを選択すること、に関するファンクショナリティを例示する、簡略化されたフローチャートである。
表現の悪い単語の特定は、好ましくは、以下のように実行される。
シソーラス(thesaurus)に前処理を施し、これにより、階層において単語のレベルを示している各単語に対して、言語の豊富度(language richness)のスコアを割りあてる。この場合、話し言葉よりも書き言葉が好まれる。インターネットスコアにおいては、例えば、論文および書籍は、チャットおよびフォーラムよりも好まれる。また、頻繁に使用されていない単語は、頻繁に使用されている単語よりも好まれる。
シソーラスに対してさらなる前処理を施し、これにより、先に行った前処理ステップの結果および文法的なルールに基づいて、表現を改善するための候補になりそうにない単語を除去する。
追加的な前処理を実施し、これにより、残っている単語のそれぞれに関して、表現を改善するための候補を提示する。これらの候補の言語における豊富度のスコアは、入力単語のそれよりも高くなっている。
スペル、誤用されている単語および文法を修正された入力テキストにおける各単語が、上記した複数の前処理を施されたシソーラス内に、残っている単語として現れているか否かを確認する。そして、表現を改善するための候補として、残っている単語として現れている上記のような単語のそれぞれを特定する。
表現の悪い単語を複数のクラスタにグループ化すること(これらのクラスタは、重複していないことが好ましい)は、任意的なものであり、好ましくは、以下のように実行される。
連続している表現の悪い単語を、単一のクラスタにグループ化する。
文法的な関係性を有する、表現の悪い複数の単語を、同一のクラスタにグループ化する。
修正するためのクラスタの選択は、好ましくは、表現の悪くない単語を最も大量に含んでいるクラスタを見つけようと試みることによって、実行される。選択されるクラスタは、表現の悪くない単語からなる最も長いシーケンス(単数または複数)を、その近傍に有していることが好ましい。
次に、図7Aについて説明する。この図は、図2および図3に示したファンクショナリティにおいて有用な、クラスタに関する代替的な修正を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。
オリジナルの入力単語が正しいスペルを有している場合、その単語は、代替と見なされる。
図7Aに示すように、クラスタ内の各単語に関して、最初に、以下に示す方法によって、複数の代替的な修正が生成される。
辞書から選び出された複数の単語であって、それらの書面上での外見(文字列の類似性に表れる)に基づいて、および、音または音声の類似性に基づいて、クラスタ内の各単語と類似している単語を取り出す。このファンクショナリティは、既知のものであり、インターネットからフリーウェアとして入手することが可能である(例えば、GNU Aspell および Google(登録商標) GSpellなど)。取り出されて優先順位をつけられた単語は、第1の複数の代替的な修正となる。例えば、feezixという入力単語が与えられた場合、共通する文字はたった1つ(すなわち「i」)であるけれども、音が類似していることに基づいて、「physics」という単語が辞書から取り出されることになる。また、類似する音は有していないけれども、その文字列の類似性に基づいて、「felix」という単語が取り出されることになる。
既知の代替的な利用およびユーザによる入力の蓄積に基づいたルールを使用することによって、追加的な代替を生成することも可能である。例えば、u → you、r → are、Im → I am である。
文法的なルールに基づいて(好ましくは、所定のリストを使用することによって)、別の代替を生成することも可能である。以下に、いくつか例を示す。
単数形/複数形ルール:入力文が「leaf fall off trees in the autumn」である場合、複数形の代替である「leaves」が生成される。
冠詞ルール:入力テキストが「a old lady」である場合、代替的な冠詞である「an」および「the」が生成される。
前置詞ルール:入力テキストが「I am interested of football」である場合、代替的な前置詞である「in」、「at」、「to」、「on」、「through」、...が生成される。
動詞活用ルール:入力テキストが「He leave the room」である場合、代替的な動詞活用である「left」、「leaves」、「had left」、...が生成される。
結合単語および分割単語ルール:入力テキストが「get alot fitter」である場合、代替である「a lot」が生成される。
入力テキストが「we have to wat ch out」である場合、代替である「watch」が生成される。
入力テキストが「do many sitfups」である場合、代替である「sit ups」が生成される。
本発明の好ましい実施形態における際立った特徴点は、文脈情報(例えば、CFS、および、より具体的には素性グラムなど)を使用して、上述の「文脈的に取り出された」代替的な修正をスコアリングするだけでなく、このような代替的な修正を生成することにある。頻繁に出現する単語の組み合わせ(例えば、CFS、および、より具体的には素性グラムなど)を、既存のコーパス(インターネットコーパスなど)から取り出すことも可能である。
以下の実施例によって、本発明における上記の態様を例示する。
入力文が「The cat has kts」である場合、「kts」という単語は、音の点においても文字の点においても、「kittens」という単語とは十分に類似していないかもしれない。このため、本発明における上記の態様のない場合には、「kittens」は、代替の1つにならない可能性がある。
本発明における上記の態様に従うと、「cat has」というN−グラムの後に一般的に表れる単語、すなわち、「cat has *」というクエリー内における、 * として見いだされる全ての単語を、インターネットコーパスにおいて探し出すことによって、以下の代替が取り出される。
nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been
本発明における好ましい実施形態によれば、「文脈的に取り出された」代替は、その後、フィルタリングされる。これにより、オリジナルの単語に対する音声上または書面上の何らかの類似性を有する、文脈的に取り出された代替(この実施例では、「kts」)だけが残る。この実施例では、音声上または書面上の最も高い類似性を有する代替である「kittens」が、取り出される。
外部のシステム(例えば、光学式文字認識、音声テキスト変換、または、機械翻訳システムなど)によって、入力テキストが自動的に生成される場合、このようなシステムから、追加的な代替を直接的に取り出すことが可能である。このような追加的な代替は、一般的には、上記のようなシステムにおける動作の過程において生成される。例えば、機械翻訳システムは、外国語における単語の代替的な翻訳を、代替として使用するために本システムに対して供給することが可能である。
各単語に関する全ての代替がいったん生成されると、さまざまな代替における全ての可能な組み合わせを解明し、その後に、これらの組み合わせを、コーパス(好ましくはインターネットコーパス)におけるこれらの出現頻度に基づいてフィルタリングすることによって、クラスタ全体に関するクラスタ代替が生成される。
以下の実施例が実例となる。
入力クラスタが「money book」である場合、単語「money」に関する代替は、
Monday;many;monkey
であり、「book」に関する代替は、
books;box;back
である。
以下のクラスタ代替が生成される。
Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book
次に、図7Bについて説明する。この図は、図4に示したファンクショナリティにおいて有用な、クラスタに関する代替的な改善を生成するためのファンクショナリティを例示する、簡略化されたフローチャートである。
図7Bに示すように、以下に示す方法において、複数の代替的な改善が最初に生成される。
オリジナルの入力単語が正しいスペルを有している場合、その単語は、代替と見なされる。
インターネット上で自由に利用することの可能な、シソーラスまたは他の語彙データベース(例えば、Princeton WordNetなど)から選び出された、複数の単語を取り出す。これらの単語は、類義語、スーパーセット、またはサブセットのように、クラスタ内の各単語に対して語彙的に関連しているものである。取り出されて優先順位をつけられた単語は、第1の複数の代替的な改善となる。
既知の代替的な利用およびユーザによる入力の蓄積に基づいたルールを使用することによって、追加的な代替を生成することも可能である。
本発明の好ましい実施形態における際立った特徴点は、文脈情報(例えば、CFS、および、より具体的には素性グラムなど)を使用して、上述の「文脈的に取り出された」代替的な改善をスコアリングするだけでなく、このような代替的な修正を生成することにある。頻繁に出現する単語の組み合わせ(例えば、CFS、および、より具体的には素性グラムなど)を、既存のコーパス(インターネットコーパスなど)から取り出すことも可能である。
各単語に関する全ての代替がいったん生成されると、さまざまな単語の代替における全ての可能な組み合わせを解明し、これらの組み合わせを、「得られた複数単語の組み合わせにおける、既存のコーパス(例えばインターネット)内での出現頻度」に基づいてフィルタリングすることによって、クラスタ全体に関する代替が生成される。
以下の実施例は、図7Bのファンクショナリティの実例である。
以下の入力テキストが与えられる。
it was nice to meet you
語彙データベース(例えば、Princeton WordNet)によって、単語「nice」に関する以下の代替が生成される(部分的なリスト)。
pleasant,good,kind,polite,fine,decent,gracious,courteous,considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,friendly,elegant,precise,careful,meticulous.
所定のルールを適用することによって、単語「nice」に関する以下の代替が生成される。
cool
単語「nice」に関する、以下の文脈的に取り出された代替が、「it was * to meet」というようなクエリーに応じて、生成される。
great;a pleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
次に、図8について説明する。この図は、図2に示したスペル修正のファンクショナリティにおいて有用な、さまざまな代替的な改善に対する、文脈に基づいた、単語の類似性に基づくスコアリングに関するファンクショナリティを例示する、簡略化されたフローチャートである。
図8に示すように、さまざまな代替的な修正に対する、文脈ベースの(文脈に基づいた)、単語の類似性に基づくスコアリングは、以下に示す概略的なステージにおいて実施される。
I.非文脈的なスコアリング − さまざまなクラスタ代替が、それらの書面上での外見および音声の類似性に関して、入力テキストにおけるクラスタに対する類似性に基づいてスコアリングされる。このスコアリングでは、与えられたクラスタを別とすれば、文脈的な類似性は全く考慮されない。
II.インターネットコーパスを用いた文脈的なスコアリング − さまざまなクラスタ代替のそれぞれも、抽出された文脈素性シーケンス(CFS)に基づいて、スコアリングされる。これらのCFSは、図5を用いて既に説明されたように提供される。このスコアリングは、以下のサブステージを含んでいる。
IIA.図5を用いて既に説明されたように抽出されるCFSとの関連において、図7Aのファンクショナリティによって生成された、さまざまな代替的なクラスタ修正に対して、好ましくはインターネットコーパスを用いて、出現頻度の分析が実行される。
IIB.さまざまなCFSにおける重み付けおよびCFSの選択が、とりわけ、サブステージIIAにおける出現頻度の分析の結果に基づいて、実行される。この重み付けは、また、さまざまなCFSにおける、相対的な内在する重要性に基づいている。当然のことではあるが、CFSによっては、ゼロの重み付けを与えられ、このために選択されることのないものもある。選択されたCFSは、好ましくは、相対的な重み付けを与えられている。
IIC.サブステージIIBにおいて選択された各CFSに関する代替的な修正のそれぞれに対して、出現頻度のメトリック(metric)が割りあてられる。
IID.代替的なクラスタ修正からなる、1組の縮小されたセットが生成される。この生成は、とりわけ、サブステージIIAにおける出現頻度の分析の結果、サブステージIICにおける出現頻度のメトリック、および、サブステージIIBにおけるCFSの選択および重み付け、に基づいて実施される。
IIE.ステージIにおいて最も高い非文脈的な類似性スコアを有するクラスタが、基準クラスタ修正として使用するために、サブステージIIDにおける縮小されたセットから選択される。
IIF.ステージIIBにおいて選択されたCFSのそれぞれに関する、サブステージIIEの基準クラスタ修正に対して、出現頻度のメトリックが割りあてられる。
IIG.サブステージIIBにおいて選択されたCFSのそれぞれに対して、レシオメトリックが割りあてられる。このレシオメトリック(ratio metric)は、その素性に関する代替的な修正のそれぞれに関する、出現頻度のメトリックにおける、サブステージIIEの基準クラスタに割りあてられた、出現頻度のメトリックに対する比率を示している。
III.最も好ましい代替的なクラスタ修正が、ステージIの結果およびステージIIの結果に基づいて、選択される。
IV.この最も好ましい代替的なクラスタ修正に対して、信頼レベルのスコアが割りあてられる。
ステージII〜IVにおいて説明したファンクショナリティにおけるより詳細な説明を、以下に示す。
サブステージIIAに関しては、修正されるべきクラスタを含んでいる全てのCFSが、図5において上述したように生成される。エラー(入力クラスタ内のエラー以外)を含んでいると疑われるCFSは、除去される。
各CFS内のクラスタに関する代替的な修正のそれぞれにおける、コーバス(好ましくはインターネットコーパス)内での出現頻度を示す、マトリクスが生成される。全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。その後、少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。
以下の実施例は、出現頻度のマトリクスの生成を例示するものである。
以下の入力テキストが与えられる。
I lik tw play outside a lot
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
lik tw
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
like to;like two;lick two;lack two;lack true;like true
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「lik tw」;「I lik tw」;「lik tw play」;「I lik tw play」;「lik tw play outside」;「I lik tw play outside」;「lik tw play outside a」
ステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表10に示すように生成される。
Figure 0005638948
全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。この実施例では、以下の素性グラムが除去される。
lik tw play outside a
その後、少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。この実施例では、以下の素性グラムが除去される。
「lik tw」;「I lik tw」;「lik tw play」;「I lik tw play」;「lik tw play outside」
この実施例では、唯一の残っているCFSは、以下の素性グラムである。
I lik tw play outside
結果として得られたマトリクスは、表11のように示される。
Figure 0005638948
上述の実施例は、本発明の好ましい実施形態に従うマトリクスの生成について例示している。この実施例では、明らかに、「like to」が好ましい代替的な修正である。当然のことではあるが、実際には、選択は、いつもこれほど単純なものではない。従って、以下に示す別の実施例では、代替的な修正からはるかに難解な選択を実施するためのファンクショナリティを示している。
サブステージIIBの検討に戻ると、選択的に、残っているCFSのそれぞれに対し、図5を用いて上述したスコアが与えられる。さらに、複数単語の入力に対する以前の修正反復において導入された単語を含んでいるCFS、および、所定の信頼レベル閾値を下回る信頼レベルを有しているCFSは、マイナスの付勢を受ける。
一般的なケースでは、サブステージIICにおいて上述したケースと同様に、好ましくは、各CFSにおけるインターネットコーパス内での規格化された出現頻度を示す、規格化された頻度マトリクスが生成される。この規格化された頻度マトリクスは、通常、各CFSの頻度を「関連性のあるクラスタ代替における出現頻度の関数」によって除算することによって、頻度マトリクスから生成される。
この規格化は、代替的な修正の全体的な出現数における、実質的な差異の効果を中和するように機能する。適切な規格化因子は、特定のCFSとは無関係に、全体として、さまざまな代替的な修正におけるコーパス内での全体的な出現頻度に基づいている。
以下に示す実施例は、規格化された出現頻度マトリクスの生成を例示するものである。
以下の入力テキストが与えられる。
footprints of a mysterious haund said to be six feet tall
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
haund
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
hound;hand;sound
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「a mysterious haund」;「haund said」
この明細書においてステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表12に示すように生成される。
Figure 0005638948
上述の実施例からわかるように、最も高い出現頻度を有する単語が、最も高い規格化された出現頻度を必ず有するというわけではない。これは、代替的な修正の全体的な出現数に、実質的な差異があるためである。上述の実施例では、「hound」が、最も高い規格化された出現頻度を有している。そして、入力テキストの文脈から明らかなように、正しい単語は「hound」であって、インターネットコーパス内における最も高い出現頻度を有する「hand」ではない。
本発明における際立った特徴点は、代替的な修正からの選択において、代替的な修正の全体的な出現数における、実質的な差異を中和する、規格化された出現頻度が使用されていることが好ましいことにある。当然のことではあるが、出現頻度における他のメトリック(規格化された出現頻度以外)を、代替的または追加的に、メトリックとして使用することも可能である。出現頻度が比較的に低い(または特に高い)場合、追加的または代替的なメトリックが有益となる。
以下に示す説明からわかるように、さまざまな代替的な修正からの選択においては、多くの場合に、追加的なファンクショナリティが有用となる。以下に、これらのファンクショナリティについて説明する。
サブステージIIDでは、以下に示すメトリックの双方に照らして他の代替的なクラスタ修正よりも好ましくない、各代替的なクラスタ修正が除去される。
i.単語の類似性スコアが、他の代替的なクラスタ修正よりも低い。および、
ii.他の代替的なクラスタ修正に比して、出現頻度が低く、かつ、好ましくは、全てのCFSに関する規格化された出現頻度が低い。
以下の実施例は、上述した代替的な修正の除去を例示するものである。
以下の入力テキストが与えられる。
I leav un a big house
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
leav un
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
leave in;live in;love in
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「I leav un a」;「leav un a big」
この明細書においてステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表13に示すように生成される。
Figure 0005638948
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表14に示すようになる。
Figure 0005638948
代替的なクラスタ修正「love in」は、その類似性スコア、出現頻度および規格化された出現頻度が「live in」よりも低いために、除去される。代替的なクラスタ修正「leave in」は、その類似性スコアが「live in」のそれよりも高いために、このステージでは除去されない。
上述の事項からわかるように、ステージIIDのファンクショナリティにおける作用の結果は、縮小された頻度マトリクスであり、好ましくは、縮小された、規格化された頻度マトリクスでもある。これらは、縮小された複数の代替的な修正のそれぞれにおける、出現頻度を(および、好ましくは規格化された出現頻度も)示している。代替的な修正のそれぞれは、縮小された複数のCFSのそれぞれに関して、類似性スコアを有している。代替的なクラスタ修正における縮小されたセットは、好ましくは、以下に示す実施例からわかるように、他の全ての代替的なクラスタを選択するファンクショナリティに関して使用される。
縮小された頻度マトリクス(好ましくは、縮小された、規格化された頻度マトリクスについても)における、代替的な修正のそれぞれに関して、最終的な優先メトリックが生成される。代替的な修正のそれぞれに関して、最終的な優先スコアを生成するために、1つまたは複数の後述する代替的なメトリックを使用することも可能である。
以下では、「頻度関数」という用語は、頻度、規格化された頻度、または、頻度および規格化された頻度の双方の関数を示すために、使用されている。
A. 可能性のある1つの優先メトリックは、縮小されたマトリクス(単数または複数)における任意のCFSに関する、縮小されたマトリクス(単数または複数)における代替的なクラスタ修正のそれぞれに関する、最も高い出現頻度関数である。例えば、さまざまな代替的なクラスタ修正は、以下のようにスコアリングされる。
以下の入力テキストが与えられる。
A big agle in the sky
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
agle
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
ogle;eagle;angel
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「big agle」;「agle in the sky」
この明細書においてステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表15に示すように生成される。
Figure 0005638948
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表16に示すようになる。
Figure 0005638948
代替「eagle」は、それが最大の出現頻度をもつCFSを有しているために、選択される。
B.可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのCFSにおける、平均出現頻度関数である。例えば、さまざまな代替的な修正は、以下のようにスコアリングされる。
以下の入力テキストが与えられる。
A while ago sthe lived 3 dwarfs
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
sthe
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
the;they;she;there
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「ago sthe lived」;「sthe lived 3」
この明細書においてステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度、規格化された出現頻度および平均出現頻度のマトリクスが、表17および表18に示すように生成される。
Figure 0005638948
Figure 0005638948
なお、平均出現頻度に基づいて、「there」が選択されることに注意されたい。
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表19に示すようになる。
Figure 0005638948
ここで、最も高い類似性スコアを有する代替的なクラスタ修正は、選択されないことに注意されたい。
C.可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのCFSにわたる、各CFSに関する出現頻度関数に、図5を用いて上述したファンクショナリティによって計算されるそのCFSのスコアを乗じたものの加重和である。
D.サブステージIIE〜IIGを用いて上述したように、縮小されたマトリクス(単数または複数)における代替的な修正に対する、以下に示すいずれか1つまたは複数の(より好ましくは大部分の、最も好ましくは全ての)作用によって、特定の代替的な修正/CFS優先メトリックが生成される。
i.最も非文脈的な類似性スコアを有する代替的なクラスタ修正が選択され、基準クラスタとなる。
ii.改良されたマトリクスが生成される。この場合、各優先マトリクスにおいて、各素性グラムにおける代替的な修正のそれぞれの出現頻度関数が、「基準クラスタの出現頻度関数に対する、各代替的な修正の出現頻度関数の比率」によって置き換えられる。
iii.iiにおいて上述したタイプの改良されたマトリクスがさらに改良されて、各優先メトリックにおける比率が、比率の関数によって置き換えられる。この関数は、比率における非常に大きな差異における、計算上の重要性を小さくする。このような好適な関数は、対数関数である。この作用の目的は、最も好ましい代替的な修正に対する最終的な優先スコアリングにおいて、出現頻度における大きな差異の重要性を重視しない一方、最も好ましくない代替的な修正に対する最終的な優先スコアリング(および除去)において、出現頻度における大きな差異の重要性を維持することにある。
iv. 各優先メトリックにおける、適用可能な比率、または、比率の関数に、適切なCFSスコアを乗じることによって、iiまたはiiiにおいて上述したタイプの改良されたマトリクスが、さらに改良される。これにより、文法的に正しく利用されていること、および、CFSスコアに影響する他の要因が、重要視されることになる。
v.適用可能な比率、比率の関数、出現頻度、および規格化された出現頻度の関数を生成することによって、ii、iii、または、ivにおいて上述したタイプの改良されたマトリクスが、さらに改良される。好ましい関数は、各優先メトリックにおける、適用可能な比率、または、比率の関数に、そのCFSの出現頻度を乗じることによって、生成される。
E.Dにおいて上述した特定の代替的な修正/CFS優先メトリックに基づいて、各代替的な修正に関して、最終的な優先メトリックが計算される。この計算は、代替的な修正の類似性スコアに、その代替的な修正のための全てのCFSに関する、特定の代替的な修正/CFS優先メトリックの和を乗じることによって、実施される。
以下に、上記のような改良されたマトリクスの使用を例示する実施例を示す。
以下の入力テキストが与えられる。
I will be able to tach base with you next week
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
tach
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
teach;touch
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「able to tach」;「to tach base」
上述のサブステージIIAおよびIICに関連して示したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表20に示すように生成される。
Figure 0005638948
ここで、1つの素性に関しては、「teach」の出現頻度および規格化された出現頻度の双方ともが、「touch」のそれらよりも大きくなっているけれども、他の素性に関しては、「touch」の出現頻度および規格化された出現頻度の双方ともが、「teach」のそれらよりも大きくなっている、ということに注意されたい。代替的な修正を正しく選択するために、好ましくは、サブステージIIGに関連して上述したレシオメトリックが、以下に示すように使用される。
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表21に示すようになる。
Figure 0005638948
最も高い類似性スコアを有しているために、「teach」が基準クラスタとなることがわかる。それでもやはり、上述した最終的な優先スコアに基づいて、「touch」が選択される。このことは、直感によって理解できることではなく、「teach」が最も高い出現頻度および最も高い規格化された出現頻度を有していることを示す上述のマトリクスを検討することから、明らかになる可能性があることである。この実施例では、最終的な優先スコアは、「teach」よりも「touch」を選択することを示している。なぜならば、「touch」を支持する素性に関する出現頻度の比率が、「teach」を支持する他の素性に関する出現頻度の比率に比べて、はるかに大きいからである。
F.選択的に、代替的な修正を、この代替的な修正および基準クラスタに関する優先メトリックと頻度関数の値との比較に基づいて、以下に示す決定ルールにおける1つまたは複数を利用して、フィルタ除去することも可能である。
1.所定の閾値よりも高いCFSスコアを有する少なくとも1つの素性に関して、基準クラスタのCFS頻度関数よりも小さいCFS頻度関数を有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
2.別の所定の閾値よりも高いCFSスコアを有する少なくとも1つの素性に関して、所定の閾値よりも小さい優先メトリックを有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
3.a.各CFSのCFSスコアを解明する。
b.各CFSに関して、基準クラスタおよび代替的な修正に関する、CFS頻度関数を解明する。これにより、基準クラスタまたは代替的な修正のどちらが、そのCFSに関してより高い頻度関数を有しているのかを解明する。
c.代替的な修正が基準クラスタよりも高い頻度を有しているCFSにおける、CFSスコアを合計する。
d.基準クラスタが代替的な修正よりも高い頻度を有しているCFSにおける、CFSスコアを合計する。
e.cでの合計がdでの合計よりも小さい場合、その代替的な修正をフィルタ除去する。
以下の実施例は、上述したフィルタリング機能を例示するものである。
以下の入力テキストが与えられる。
I am faelling en love
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
faelling en
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
falling on;falling in;feeling on;feeling in
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「am faelling en」;「faelling en love」;「am faelling en love」;「I am faelling en」
この明細書においてサブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表22に示すように生成される。
Figure 0005638948
少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。例えば、以下の素性グラムは除去される。
「am faelling en」;「faelling en love」
この実施例では、残っているCFSは、以下の素性グラムである。
「am faelling en love」;「I am faelling en」
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表23に示すようになる。
Figure 0005638948
代替的な修正である「falling on」、「feeling on」および「feeling in」は、CFSの1つに関するこれらの出現頻度がゼロであるために、フィルタ除去される。
G.ステージIIIに関連して上述したように、Fにおけるフィルタリングを生きのびた代替的な修正において、A〜Eにおいて上述したように形成された最終的な優先メトリックに基づいて、ランキングが確立される。最も高い最終的な優先スコアを有する代替的な修正が、選択される。
H.ステージIVに関連して上述したように、選択された代替的な修正に対し、信頼レベルが割りあてられる。この信頼レベルは、以下に示すパラメーターにおける1つまたは複数に基づいて、計算される。
a.上述のサブステージIIBにおいて与えられる、選択されたCFSの数、タイプ、およびスコアリング。
b.CFSの文脈における、さまざまな代替的なクラスタ修正の出現頻度における統計的な有意性。
c.CFSのそれぞれにおける優先メトリック、および、さまざまな代替的な修正における単語の類似性スコアに基づく、代替的な修正の選択における、コンセンサスの程度。
d.上述した所定の最小閾値を超えている、選択された代替的なクラスタ修正における非文脈的な類似性スコア(ステージI)。
e.利用可能な文脈データの範囲。これは、所定の最小閾値を超えるCFSスコアを有するとともに、別の所定の閾値よりも大きい優先スコアを有する、縮小されたマトリクスにおけるCFSの数によって示される。
信頼レベルが所定の閾値を超えている場合、選択された代替的な修正は、ユーザの指示をまたずに組み入れられる。信頼レベルが、所定の閾値を下回っているが、より低い所定の閾値を超えている場合には、選択された代替的な修正は組み入れられるけれども、ユーザの指示が求められる。信頼レベルがより低い所定の閾値を下回っている場合、代替的な修正の優先順位リストに基づく、ユーザの選択が求められる。
以下の実施例は、信頼レベルスコアリングの使用の実例である。
以下の入力テキストが与えられる。
He was not feeling wehl when he returned
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
wehl
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
wale;well
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「was not feeling wehl」;「not feeling wehl when」;「feeling wehl when he」;「wehl when he returned」
この明細書においてサブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表24に示すように生成される。
Figure 0005638948
上述の実施例は、Hにおいて説明した全ての基準に従うと、「wale」よりも「well」を選択する方が、高い信頼レベルを得られるということを示している。
以下の実施例では、信頼レベルはいくぶん小さくなっている。これは、CFS「bech in the summer」においては、代替的な修正「back」が「beach」よりも高い出現頻度を有しているけれども、CFS「on the beech in」および「the bech in the」においては、「beach」が「back」よりも高い出現頻度を有している、という事実に起因する。基準H(c)に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。
以下の入力テキストが与えられる。
I like to work on the bech in the summer
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
bech
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
b;beech;back
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「on the bech in」;「the bech in the」;「bech in the summer」
サブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表25に示すように生成される。
Figure 0005638948
基準H(c)に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。
以下に示す実施例では、信頼レベルはさらに低くなる。この実施例は、基準H(a)に基づいている。
以下の入力テキストが受領される。
Exarts are restoring the British Museum's round reading room
図6Aを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
Exarts
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
Experts;Exerts;Exits
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「Exarts are」;「Exarts are restoring」;「Exarts are restoring the」;「Exarts are restoring the British」
ステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表26に示すように生成される。
Figure 0005638948
全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。この実施例では、以下の素性グラムが除去される。
「Exarts are restoring」;「Exarts are restoring the」;「Exarts are restoring the British」
この実施例では、唯一の残っているCFSは、以下の素性グラムである。
「Exarts are」。
上述の実施例からわかるように、フィルタリングプロセスを生きのびている唯一のCFSは、「exarts are」である。その結果、信頼レベルは比較的に低くなる。なぜならば、この選択は、たった1つのCFSに基づいているからであり、さらに、このCFSが、比較的に短いとともに、疑わしい単語を除いては、たった1つの頻繁に出現する単語だけを含んでいるからである。
次に、図9について説明する。この図は、図3、図10および図11に示した誤用されている単語および文法を修正するファンクショナリティ、および、図4に示した語彙改善のファンクショナリティにおいて有用な、さまざまな代替的な修正に対する、文脈ベースの、単語の類似性に基づくスコアリングに関するファンクショナリティを例示する、簡略化されたフローチャートである。
図9に示すように、さまざまな代替的な修正に対する、文脈ベースの、単語の類似性に基づくスコアリングは、以下に示す概略的なステージにおいて実施される。
I.非文脈的なスコアリング − さまざまなクラスタ代替が、それらの書面上での外見および音声の類似性に関して、入力テキストにおけるクラスタに対する類似性に基づいてスコアリングされる。このスコアリングでは、与えられたクラスタを別とすれば、文脈的な類似性は全く考慮されない。
II.インターネットコーパスを用いた文脈的なスコアリング…さまざまなクラスタ代替のそれぞれも、抽出された文脈素性シーケンス(CFS)に基づいて、スコアリングされる。これらのCFSは、図5を用いて既に説明されたように提供される。このスコアリングは、以下のサブステージを含んでいる。
IIA.図5において既に説明されたように抽出されるCFSとの関連において、図7Aまたは図7Bのファンクショナリティによって生成された、さまざまな代替的なクラスタ修正に対して、好ましくはインターネットコーパスを用いて、出現頻度の分析が実行される。
IIB.とりわけサブステージIIAにおける出現頻度の分析の結果に基づく、さまざまなCFSにおける重み付けおよびCFSの選択。この重み付けは、また、さまざまなCFSにおける、相対的な「内在する重要性」に基づいている。当然のことではあるが、CFSによっては、ゼロの重み付けを与えられ、このために選択されることのないものもある。選択されたCFSは、好ましくは、相対的な重み付けを与えられている。
IIC.サブステージIIBにおいて選択された各CFSに関する代替的な修正のそれぞれに対して、出現頻度のメトリックが割りあてられる。
IID.代替的なクラスタ修正からなる、1組の縮小されたセットが生成される。この生成は、とりわけ、サブステージIIAにおける出現頻度の分析の結果、サブステージIICにおける出現頻度のメトリック、および、サブステージIIBにおけるCFSの選択および重み付け、に基づいて実施される。
IIE.基準クラスタ修正として使用するために、入力クラスタが選択される。
IIF.ステージIIBにおいて選択されたCFSのそれぞれに関する、サブステージIIEの基準クラスタ修正に対して、出現頻度のメトリックが割りあてられる。
IIG.サブステージIIBにおいて選択された素性のそれぞれに対して、レシオメトリックが割りあてられる。このレシオメトリックは、その素性に関する代替的な修正のそれぞれに関する、出現頻度のメトリックにおける、サブステージIIBの基準クラスタに割りあてられた、出現頻度のメトリックに対する比率を示している。
III.最も好ましい代替的なクラスタ修正が、ステージIの結果およびステージIIの結果に基づいて、選択される。
IV.この最も好ましい代替的なクラスタ修正に対して、信頼レベルのスコアが割りあてられる。
ステージII〜IVにおいて説明したファンクショナリティにおけるより詳細な説明を、以下に示す。
サブステージIIAに関しては、修正されるべきクラスタを含んでいる全てのCFSが、図5において上述したように生成される。エラー(入力クラスタ内のエラー以外)を含んでいると疑われるCFSは、除去される。
各CFS内のクラスタに関する代替的な修正のそれぞれにおける、コーバス(好ましくはインターネットコーパス)内での出現頻度を示す、マトリクスが生成される。全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。その後、少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。
以下に示す実施例は、出現頻度マトリクスの生成を例示するものである。
以下の入力テキストが与えられる。
I lick two play outside a lot
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
lick two
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
like to;like two;lick two;lack two;lack true;like true
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「lick two」;「I lick two」;「lick two play」;「I lick two play」;「lick two play outside」;「I lick two play outside」;「lick two play outside a」
サブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表27に示すように生成される。
Figure 0005638948
全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。この実施例では、以下の素性グラムが除去される。
lick two play outside a
その後、少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。例えば、以下の素性グラムが除去される。
「lick two」;「I lick two」;「lick two play」;「I lick two play」;「lick two play outside」
この実施例では、唯一の残っているCFSは、以下の素性グラムである。
I lick two play outside
結果として得られたマトリクスは、表28のように示される。
Figure 0005638948
上述の実施例は、本発明の好ましい実施形態に従うマトリクスの生成について例示している。この実施例では、明らかに、「like to」が好ましい代替的な修正である。当然のことではあるが、実際には、選択は、いつもこれほど単純なものではない。従って、以下に示す別の実施例では、代替的な修正からはるかに難解な選択を実施するためのファンクショナリティを示している。
サブステージIIBの検討に戻ると、選択的に、残っているCFSのそれぞれに対し、図5を用いて上述したスコアが与えられる。さらに、複数単語の入力に対する以前の修正反復において導入された単語を含んでいるCFS、および、所定の信頼レベル閾値を下回る信頼レベルを有しているCFSは、マイナスの付勢を受ける。
一般的なケースでは、サブステージIICにおいて上述したケースと同様に、好ましくは、各CFSにおけるインターネットコーパス内での規格化された出現頻度を示す、規格化された頻度マトリクスが生成される。この規格化された頻度マトリクスは、通常、各CFSの頻度を、関連性のあるクラスタ代替における出現頻度の関数によって除算することによって、頻度マトリクスから生成される。
この規格化は、代替的な修正の全体的な出現数における、実質的な差異の効果を中和するように機能する。適切な規格化因子は、CFSとは無関係に、全体として、さまざまな代替的な修正におけるコーパス内での全体的な出現頻度に基づいている。
以下に示す実施例は、規格化された出現頻度マトリクスの生成を例示するものである。
以下の入力テキストが、典型的には音声認識によって、与えられる。
footprints of a mysterious [hound/hand]said to be six feet tall
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
hound
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
hound;hand;sound
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「a mysterious hound」;「hound said」
この明細書においてサブステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表29に示すように生成される。
Figure 0005638948
上述の実施例からわかるように、「最も高い出現頻度を有する単語が、最も高い規格化された出現頻度を必ず有する」というわけではない。これは、代替的な修正の全体的な出現数に、実質的な差異があるためである。上述の実施例では、「hound」が、最も高い規格化された出現頻度を有している。そして、入力テキストの文脈から明らかなように、正しい単語は「hound」であって、インターネットコーパス内における最も高い出現頻度を有する「hand」ではない。
本発明における際立った特徴点は、代替的な修正からの選択において、「代替的な修正の全体的な出現数における、実質的な差異」を中和する、規格化された頻度が使用されていることにある。当然のことではあるが、出現頻度における他のメトリック(規格化された出現頻度以外)を、代替的または追加的に、メトリックとして使用することも可能である。出現頻度が比較的に低い(または特に高い)場合、追加的または代替的なメトリックが有益となる。
以下に示す説明からわかるように、さまざまな代替的な修正からの選択においては、多くの場合に、追加的なファンクショナリティが有用となる。以下に、これらのファンクショナリティについて説明する。
サブステージIIDでは、以下に示すマトリクスの双方に照らして他の代替的な修正よりも好ましくない、代替的な各クラスタ修正が除去される。
i.単語の類似性スコアが、他の代替的なクラスタ修正よりも低い。および、
ii.他の代替的なクラスタ修正に比して、出現頻度が低く、かつ、好ましくは、全てのCFSに関する規格化された出現頻度が低い。
以下の実施例は、上述した代替的な修正の除去を例示するものである。
以下の入力テキストが与えられる。
I leave on a big house
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
leave on
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
leave in;live in;love in;leave on
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「I leave on a」;「leave on a big」
この明細書においてステージIIEに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表30に示すように生成される。
Figure 0005638948
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表31に示すようになる。
Figure 0005638948
代替的なクラスタ修正「love in」は、その類似性スコア、出現頻度および規格化された出現頻度が「live in」よりも低いために、除去される。代替的なクラスタ修正「leave in」は、その類似性スコアが「live in」のそれよりも高いために、このステージでは除去されない。
上述の事項からわかるように、サブステージIIDのファンクショナリティにおける作用の結果は、縮小された頻度マトリクスであり、好ましくは、縮小された、規格化された頻度マトリクスでもある。これらは、縮小された複数の代替的な修正のそれぞれにおける、出現頻度を(および、好ましくは規格化された出現頻度も)示している。代替的な修正のそれぞれは、縮小された複数のCFSのそれぞれに関して、類似性スコアを有している。代替的なクラスタ修正における縮小されたセットは、好ましくは、以下に示す実施例からわかるように、他の全ての代替的なクラスタを選択するファンクショナリティに関して使用される。
縮小された頻度マトリクス(好ましくは、縮小された、規格化された頻度マトリクスについても)における、代替的な修正のそれぞれに関して、最終的な優先メトリックが生成される。代替的な修正のそれぞれに関して、最終的な優先スコアを生成するために、1つまたは複数の後述する代替的なメトリックを使用することも可能である。
以下では、「頻度関数(frequency function)」という用語は、頻度、規格化された頻度、または、頻度および規格化された頻度の双方の関数を示すために、使用されている。
A.可能性のある1つの優先メトリックは、縮小されたマトリクス(単数または複数)における任意のCFSに関する、縮小されたマトリクス(単数または複数)における代替的なクラスタ修正のそれぞれに関する、最も高い出現頻度関数である。例えば、さまざまな代替的なクラスタ修正は、以下のようにスコアリングされる。
以下の入力テキストが与えられる。
I am vary satisfied with your work
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
vary
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
vary;very
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「am vary」;「vary satisfied」;「I am vary satisfied with」
この明細書においてサブステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表32および表33に示すように生成される。
Figure 0005638948
Figure 0005638948
この実施例では、出現頻度および規格化された出現頻度の双方から、「very」が最も高い出現頻度関数を有していることがわかる。
B.可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのCFSにおける、平均出現頻度関数である。例えば、さまざまな代替的な修正は、以下のようにスコアリングされる。
以下の入力テキストが与えられる。
A while ago the lived 3 dwarfs
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
the
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
the;they;she;there
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「ago the lived」;「the lived 3」
この明細書においてサブステージIICに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度、規格化された出現頻度および平均出現頻度のマトリクスが、表34および表35に示すように生成される。
Figure 0005638948
Figure 0005638948
なお、「there」が、マトリクス内で最大の出現頻度をもつCFSを有しているにも関わらず、平均出現頻度に基づいて、「they」が選択されることに注意されたい。
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表36に示すようになる。
Figure 0005638948
ここで、最も高い類似性スコアを有する代替的なクラスタ修正は、選択されないことに注意されたい。
C.可能性のある別の優先メトリックは、代替的な修正のそれぞれに関する全てのCFSにわたる、「各CFSに関する出現頻度関数に、図5を用いて上述したファンクショナリティによって計算されるそのCFSのスコアを乗じたもの」の加重和である。
D.サブステージIIE〜IIGを用いて上述したように、縮小されたマトリクス(単数または複数)における代替的な修正に対する、以下に示すいずれか1つまたは複数の(より好ましくは大部分の、最も好ましくは全ての)作用によって、特定の代替的な修正/CFS優先メトリックが生成される。
i.修正するために選択されるオリジナルの入力テキストから、クラスタが選択され、基準クラスタとなる。
ii.改良されたマトリクスが生成される。この場合、各優先マトリクスにおいて、各素性グラムにおける代替的な修正のそれぞれの出現頻度関数が、基準クラスタの出現頻度関数に対する、各代替的な修正の出現頻度関数の比率によって置き換えられる。
iii.iiにおいて上述したタイプの改良されたマトリクスがさらに改良されて、各優先メトリックにおける比率が、比率の関数によって置き換えられる。この関数は、比率における非常に大きな差異における、計算上の重要性を小さくする。このような好適な関数は、対数関数である。この作用の目的は、最も好ましい代替的な修正に対する最終的な優先スコアリングにおいて、出現頻度における大きな差異の重要性を重視しない一方、最も好ましくない代替的な修正に対する最終的な優先スコアリング(および除去)において、出現頻度における大きな差異の重要性を維持することにある。
iv.各優先メトリックにおける、適用可能な比率、または、比率の関数に、適切なCFSスコアを乗じることによって、iiまたはiiiにおいて上述したタイプの改良されたマトリクスが、さらに改良される。これにより、文法的に正しく利用されていること、および、CFSスコアに影響する他の要因が、重要視されることになる。
v.各優先メトリックにおける、適用可能な比率、または、比率の関数に、ユーザの不確実性メトリックを乗じることによって、ii、iii、または、ivにおいて上述したタイプの改良されたマトリクスが、さらに改良される。ユーザの入力不確実性メトリックの例としては、ワードプロセッサにおいて実行された、入力単語またはクラスタに関連する編集行為の数(文書内の他の単語に対する編集行為と比較した数)、ワードプロセッサにおいて実行された、入力単語またはクラスタを書き込んだタイミング(文書内の他の単語に対する書き込みの時間と比較したもの)、および、音声認識において実行された、入力単語またはクラスタを吹き込んだタイミング(他の単語に対するユーザによる吹き込みの時間と比較したもの)、を挙げられる。このユーザの入力不確実性メトリックは、この単語の選択において、ユーザがどの程度の確実性をもっていたかを示すメトリックである。このステップは、計算された付勢を基準クラスタに印加し、さらに、このクラスタに関するユーザの確実性または不確実性の関数によって、基準クラスタを改良するステップである。
vi.「適用可能な比率、比率の関数、出現頻度、および規格化された出現頻度」の関数を生成することによって、ii、iii、iv、または、vにおいて上述したタイプの改良されたマトリクスが、さらに改良される。好ましい関数は、各優先メトリックにおける、適用可能な比率、または、比率の関数に、そのCFSの出現頻度を乗じることによって、生成される。
E.Dにおいて上述した特定の代替的な修正/CFS優先メトリックに基づいて、各代替的な修正に関して、最終的な優先メトリックが計算される。この計算は、代替的な修正の類似性スコアに、その代替的な修正のための全てのCFSに関する、特定の代替的な修正/CFS優先メトリックの和を乗じることによって、実施される。
上記のように改良されたマトリクスの例を、以下に示す。
以下の入力テキストが与えられる。
I will be able to teach base with you next week
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
teach
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
teach;touch
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「able to teach」;「to teach base」
上述のサブステージIIAおよびIICに関連して示したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度および規格化された出現頻度のマトリクスが、表37に示すように生成される。
Figure 0005638948
ここで、1つの素性に関しては、「teach」の出現頻度および規格化された出現頻度の双方ともが、「touch」のそれらよりも大きくなっているけれども、他の素性に関しては、「touch」の出現頻度および規格化された出現頻度の双方ともが、「teach」のそれらよりも大きくなっている、ということに注意されたい。代替的な修正を正しく選択するために、好ましくは、サブステージIIGに関連して上述したレシオメトリックが、以下に示すように使用される。
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表38に示すようになる。
Figure 0005638948
最も高い類似性スコアを有しているために、「teach」が基準クラスタとなることがわかる。それでもやはり、上述した最終的な優先スコアに基づいて、「touch」が選択される。このことは、直感によって理解できることではなく、「teach」が最も高い出現頻度および最も高い規格化された出現頻度を有していることを示す上述のマトリクスを検討することから、明らかになる可能性があることである。この実施例では、最終的な優先スコアは、「teach」よりも「touch」を選択することを示している。なぜならば、「touch」を支持する素性に関する出現頻度の比率が、「teach」を支持する他の素性に関する出現頻度の比率に比べて、はるかに大きいからである。
F.選択的に、代替的な修正を、この代替的な修正および基準クラスタに関する優先メトリックと頻度関数の値との比較に基づいて、以下に示す決定ルールにおける1つまたは複数を利用して、フィルタ除去することも可能である。
1.所定の閾値よりも高いCFSスコアを有する少なくとも1つの素性に関して、基準クラスタのCFS頻度関数よりも小さいCFS頻度関数を有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
2.別の所定の閾値よりも高いCFSスコアを有する少なくとも1つの素性に関して、所定の閾値よりも小さい優先メトリックを有するとともに、所定の閾値を下回る類似性スコアを有する、代替的な修正をフィルタ除去する。
3.a.各CFSのCFSスコアを解明する。
b.各CFSに関して、基準クラスタおよび代替的な修正に関する、CFS頻度関数を解明する。これにより、基準クラスタまたは代替的な修正のどちらが、そのCFSに関してより高い頻度関数を有しているのかを解明する。
c.代替的な修正が基準クラスタよりも高い頻度を有しているCFSにおける、CFSスコアを合計する。
d.基準クラスタが代替的な修正よりも高い頻度を有しているCFSにおける、CFSスコアを合計する。
e.cでの合計がdでの合計よりも小さい場合、その代替的な修正をフィルタ除去する。
以下の実施例は、上述したフィルタリングのファンクショナリティを例示するものである。
以下の入力テキストが、典型的には音声認識によって、与えられる。
I want [two/to/too] items, please.
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
[two/to/too]。
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
too;to;two
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「I want two」;「want two items」
この明細書においてステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表39に示すように生成される。
Figure 0005638948
代替的な修正である「too」および「to」は、CFSの1つに関するこれらの出現頻度がゼロであるために、別のCFSにおけるこれらの出現頻度が高いにも関わらず、フィルタ除去される。従って、この場合、生きのびる唯一のCFSは、「two」である。
G.ステージIIIに関連して上述したように、Fにおけるフィルタリングを生きのびた代替的な修正において、A〜Eにおいて上述したように形成された最終的な優先メトリックに基づいて、ランキングが確立される。最も高い最終的な優先スコアを有する代替的な修正が、選択される。
H.ステージIVに関連して上述したように、選択された代替的な修正に対し、信頼レベルが割りあてられる。この信頼レベルは、以下に示すパラメーターにおける1つまたは複数に基づいて、計算される。
a.上述のサブステージIIBにおいて与えられる、選択されたCFSの数、タイプ、およびスコアリング。
b.CFSの文脈における、さまざまな代替的なクラスタ修正の出現頻度における統計的な有意性。
c.CFSのそれぞれにおける優先メトリック、および、さまざまな代替的な修正における単語の類似性スコアに基づく、代替的な修正の選択におけるコンセンサスの程度。
d.上述した所定の最小閾値を超えている、選択された代替的なクラスタ修正における非文脈的な類似性スコア(ステージI)。
e.利用可能な文脈データの範囲。これは、所定の最小閾値を超えるCFSスコアを有するとともに、別の所定の閾値より大きい優先スコアを有する、縮小されたマトリクスにおけるCFSの数によって示される。
信頼レベルが所定の閾値を超えている場合、選択された代替的な修正は、ユーザの指示をまたずに組み入れられる。信頼レベルが、所定の閾値を下回っているが、より低い所定の閾値を超えている場合には、選択された代替的な修正は組み入れられるけれども、ユーザの指示が求められる。信頼レベルがより低い所定の閾値を下回っている場合、代替的な修正の優先順位リストに基づく、ユーザの選択が求められる。
以下の実施例は、信頼レベルスコアリングの使用の実例である。
以下の入力テキストが与えられる。
He was not feeling wale when he returned
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
wale
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
wale;well
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「was not feeling wale」;「not feeling wale when」;「feeling wale when he」;「wale when he returned」
この明細書においてサブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表40に示すように生成される。
Figure 0005638948
上述の実施例は、Hにおいて説明した全ての基準に従うと、「wale」よりも「well」を選択する方が、高い信頼レベルを得られるということを示している。
以下の実施例では、信頼レベルはいくぶん小さくなっている。これは、CFS「beech in the summer」においては、代替的な修正「back」が「beach」よりも高い出現頻度を有しているけれども、CFS「on the beech in」および「the beech in the」においては、「beach」が「back」よりも高い出現頻度を有している、という事実に起因する。基準H(c)に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。
以下の入力テキストが与えられる。
I like to work on the beech in the summer
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
beech
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
beach;beech;back
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「on the beech in」;「the beech in the」;「beech in the summer」
ステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表41に示すように生成される。
Figure 0005638948
基準H(c)に基づく中間的な信頼レベルをもって、代替的な修正「beach」が選択される。
以下に示す実施例では、信頼レベルはさらに低くなる。この実施例は、基準H(a)に基づいている。
以下の入力テキストが受領される。
Exerts are restoring the British Museum's round reading room
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
Exerts
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
Expert;Exerts;Exits
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「Exerts are」;「Exerts are restoring」;「Exerts are restoring the」;「Exerts are restoring the British」
サブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表42に示すように生成される。
Figure 0005638948
全ての代替的な修正がゼロの出現頻度を有する、全てのCFSが除去される。この実施例では、以下の素性グラムが除去される。
「Exerts are restoring」;「Exerts are restoring the」;「Exerts are restoring the British」
この実施例では、唯一の残っているCFSは、以下の素性グラムである。
Exerts are
上述の実施例からわかるように、フィルタリングプロセスを生きのびている唯一のCFSは、「Exarts are」である。その結果、信頼レベルは比較的に低くなる。なぜならば、この選択は、たった1つのCFSに基づいているからであり、さらに、このCFSが、比較的に短いとともに、疑わしい単語を除いては、たった1つの頻繁に出現する単語だけを含んでいるからである。
以下の実施例は、上述のステージDおよびEにおいて説明した、最終的な優先スコアメトリックの利用を例示するものである。
以下の入力テキストが与えられる。
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図6Bを用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
「fast
図7Aを用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
「fat」;「fast」
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「and getting fast」;「getting fast so」;「fast so you」;「fast so you will」
この明細書におけるサブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表43に示すように生成される。
Figure 0005638948
この実施例では、代替的なクラスタ修正における非文脈的な類似性スコアは、表44に示すようになる。
Figure 0005638948
上述のステージDおよびEにおいて説明した最終的な優先スコアメトリックを用いることによって、低い信頼度をもって、「fat」が選択される。
次に、図10について説明する。この図は、欠落している要素を修正するファンクショナリティの作用を例示する、詳細なフローチャートである。この欠落している要素を修正するファンクショナリティは、入力テキストにおける、欠落している冠詞、前置詞、句読点、および、主として文法的な機能を有する他の要素を、修正するように機能する。このファンクショナリティは、好ましくは、図1に示したスペル修正のファンクショナリティから出力された、スペル修正された入力テキストに対して作用する。
欠落していると疑われる要素の特定は、好ましくは、以下に示す方法によって実行される。
最初に、スペル修正された入力テキストに関して、素性グラムが生成される。スペル修正された入力テキストにおける各素性グラムの、コーパス(好ましくはインターネットコーパス)内での出現頻度(FREQ F−G)が解明される。
各素性グラムにおける予想出現頻度(EFREQ F−G)が、以下のように計算される。
素性グラムがn個の単語を有していると仮定すると、これらの単語は、W〜Wとして定義される。Wは、素性グラムにおけるi番目の単語を指定している。
与えられた素性グラムの予想出現頻度は、その素性グラムの予想頻度における最も高いものだと考えられる。この予想頻度は、素性グラム内の単語を、各単語W...W(n−1)に続く2つの連続部分に分割することに基づくものである。
素性グラム内の単語を、各単語Wに続く2つの連続部分に分割することに基づく、素性グラムの予想頻度については、以下のように表現することが可能である。
についての EFREQ F−G = (FREQ(W−W) * FREQ(Wi+1−W))/(全ての単語におけるコーパス内での頻度の合計)
各素性グラムの予想頻度が、素性グラム内の単語における可能性のある全ての分割に基づいて、計算される。
についての FREQ F−G/EFREQ F−G が所定の閾値よりも小さい場合、Wについての素性グラムは、その素性グラム内のWとWi+1との間において、冠詞、前置詞、または、句読点が欠落していると疑われるものであると考えられる。
スペル修正された入力テキストにおける2つの連続している単語の間の、疑わしい単語分岐点が、修正するために選択される。この選択は、好ましくは、最大量の疑わしくない文脈データによって囲まれている、単語分岐点を見つけようと試みることによって、実施される。選択される単語分岐点は、疑わしくない単語分岐点からなる最も長いシーケンス(単数または複数)を、その近傍に有していることが好ましい。
各単語分岐点に関して、1つ(または、好ましくは複数の)代替的な挿入が生成される。この生成は、好ましくは、欠落している可能性のある句読点、冠詞、前置詞、接続詞、または、他の要素(通常、名詞、動詞、または、形容詞は含まれない)からなる、所定のセットに基づいて実施される。
さまざまな代替的な挿入における、文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングが、実施される。このスコアリングは、好ましくは、修正における代替スコアリング・アルゴリズムに基づいて、実施される。このアルゴリズムは、図9を用いて既に説明したものであり、以下でも説明する。
以下の実施例を示す。
以下の入力テキストが与えられる。
I can't read please help me
図5を用いて上述したファンクショナリティを用いることによって、以下の素性グラムが生成される(部分的なリスト)。
I can't read;can't read please;read please help;please help me
上述したファンクショナリティを用いることによって、上述した素性グラムのリストに関して、インターネットコーパス内での出現頻度のマトリクスが生成される。このマトリクスは、典型的には、表45のように示される。
Figure 0005638948
素性グラム内の各単語Wiについては、素性グラムごとに、以下の式に従って予想出現頻度が生成される。
についての EFREQ F−G = (FREQ(W−W) * FREQ(Wi+1−W))/(全ての単語におけるコーパス内での頻度の合計)
これらの計算のいくつかにおける実験的な結果を、表46および表47に示す。
Figure 0005638948
Figure 0005638948
上述した結果からわかるように、素性グラムのそれぞれにおける実際の出現頻度は、それらの予想出現頻度よりも小さい。これは、要素(例えば句読点)がないと疑われることを示している。
単語「read」に続くべき代替的な挿入物のリストが生成される。このリストは、好ましくは、句読点、冠詞、接続詞および前置詞からなる所定のリストを含んでいる。特に、このリストは、ピリオド「.」を含んでいるはずである。
代替の部分的なリストを、以下に示す。
「read please」;「read. Please」;「read of please」;「read a please」
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される。
「I can't read [?]」;「read [?] please help」;「[?] please help me」
図9のステージIIAにおいて説明したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表48に示すように生成される。
クラスタ内に「.」が含まれている場合には、「.」の前後のテキストに関して、「.」を有するクラスタを含んでいるCFSの出現頻度が、別々に取り出される。すなわち、素性グラム「can't read. Please」は、これが2つの別々の文法的な構文解析的フレーズを含んでいるために、生成されないことになる。
Figure 0005638948
※注記:コーパスにおける出現頻度の算出時には、素性グラムの冒頭から「.」が省略されている。例えば、「. Please help me」の頻度は、「Please help me」の頻度に一致する。
図9のステージDおよびEにおいて説明したファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「read. Please」を選択する。そして、修正された入力テキストは、以下のようになる。
I can't read. Please help me.
以下に示す実施例は、欠落している前置詞を追加するファンクショナリティを例示するものである。
以下の入力テキストが与えられる。
I sit the sofa
後述するファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
sit the
後述するファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
sit on the;sit of the;sit the
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される。
「I sit the」;「sit the sofa」
図9に関するステージIIAにおいて説明したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表49に示すように生成される。
Figure 0005638948
図9のステージIIDおよびIIEにおいて説明したファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「sit on the」を選択する。そして、修正された入力テキストは、以下のようになる。
I sit on the sofa.
次に、図11について説明する。この図は、余分な要素を修正するファンクショナリティの作用を例示する、詳細なフローチャートである。この余分な要素を修正するファンクショナリティは、入力テキストにおける「余分な冠詞、前置詞、句読点、および、主として文法的な機能を有する他の要素」を、修正するように機能する。このファンクショナリティは、好ましくは、図1に示したスペル修正のファンクショナリティから出力された、スペル修正された入力テキストに対して作用する。
当然のことではあるが、図11に示したファンクショナリティを、図10に示したファンクショナリティと組み合わせることが可能である。あるいは、図11のファンクショナリティを、図10のファンクショナリティと並行して、またはその前に、または、その作用の後に、実行することも可能である。
余分であると疑われる要素の特定は、好ましくは、以下の方法によって実行される。
スペル修正された入力テキストに対して検索が実行され、これにより、余分なものである可能性のある句読点、冠詞、前置詞、接続詞、および他の要素(通常、名詞、動詞、または、形容詞はふくまれない)からなる所定のセットに属する要素を特定する。
要素ごとに、その要素を含んでいる、誤用されている単語および文法を修正され、スペルを修正された入力テキストにおける全ての部分に関して、素性グラムが生成される。これらの各素性グラムに関して、および、その要素を除去した対応する素性グラムに関して、出現頻度が計算される。
要素を除去した素性グラムに関する出現頻度が、要素の存在する対応する素性グラムに関する出現頻度を超えている場合、その要素は、疑わしいものであると見なされる。
修正するために、誤用されている単語および文法を修正され、スペルを修正された入力テキスト内の疑わしい要素が選択される。この選択は、好ましくは、最大量の疑わしくない文脈データによって囲まれている要素を見つけようと試みることによって、実施される。好ましくは、疑わしくない単語からなる最も長いシーケンス(単数または複数)を、その近傍に有している要素が選択される。
各疑わしい要素に関して、要素を削除する可能性が生成される。さまざまな代替(すなわち、要素を削除したもの、または要素を削除していないもの)に対する文脈に少なくとも部分的に基づいた、単語の類似性に基づくスコアリングが実施される。このスコアリングは、好ましくは、修正における代替スコアリング・アルゴリズムに基づいて実施される。このアルゴリズムは、図9を用いて既に説明したものであり、以下でも説明する。
以下の実施例が実例となる。
以下の入力テキストが与えられる。
It is a nice, thing to wear.
この入力テキストが検索され、これにより、一般的に余分な要素(例えば、句読点、前置詞、接続詞、および冠詞)からなる所定のリストに属している任意の要素を特定する。
この例では、このようなリストに属しているコンマ「,」が特定される。
図5を用いて上述したファンクショナリティを用いることによって、表50に示すような、コンマ「,」を含む素性グラムが生成され、さらに、コンマを含まない同じ素性グラムも生成される(部分的なリスト)。
Figure 0005638948
上述したファンクショナリティを用いることによって、上述した素性グラムのリストに関して、インターネットコーパス内での出現頻度のマトリクスが生成される。このマトリクスは、典型的には、表51のように示される。
Figure 0005638948
上記のマトリクスからわかるように、「,」を除去した素性グラムに関する出現頻度は、「,」の存在する対応する素性グラムに関する出現頻度を超えている。従って、「,」は、余分であると疑われるものであると見なされる。
以下の代替(コンマを保持しているもの、および、コンマを除去したもの)に対する、文脈ベースのスコアリングに基づいて、コンマの除去の可能性が検討される。
「nice,」;「nice」
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「a nice,」;「nice, thing」;「is a nice,」;「a nice, thing」;「nice, thing to」
図9のステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表52に示すように生成される。
Figure 0005638948
少なくとも最小閾値の出現頻度を有している他のCFS内に完全に含まれる、全てのCFSが除去される。例えば、以下の素性グラムが除去される。
「a nice,」;「nice, thing」
この実施例では、残っているCFSは、以下の素性グラムである。
「is a nice,」;「a nice, thing」;「nice, thing to」
図9のステージDおよびEにおいて既に説明した最終的な優先スコアを用いることによって、コンマを含まない代替的な修正「nice」が選択される。コンマを除去した後の入力テキストは、以下のようになる。
It is a nice thing to wear.
以下の実施例は、余分な冠詞を除去するファンクショナリティを例示するものである。
以下の入力テキストが与えられる。
We should provide them a food and water.
図11を用いて上述したファンクショナリティを用いることによって、修正するために、以下のクラスタが選択される。
a food
図11を用いて上述したファンクショナリティを用いることによって、以下の代替的なクラスタ修正が生成される(部分的なリスト)。
a food;food
図5を用いて上述したファンクショナリティを用いることによって、以下のCFSが生成される(部分的なリスト)。
「provide them a food」;「them a food and」;「a food and water」
この明細書においてサブステージIIAに関連して上述したファンクショナリティを用いることによって、上述したCFSのリストにおける代替的なクラスタ修正からなる上述したリストに関して、インターネットコーパス内での出現頻度のマトリクスが、表53に示すように生成される。
Figure 0005638948
図9において説明したスコアリングのファンクショナリティを用いることによって、最終的な優先メトリックは、代替的な修正「food」を選択する。そして、修正された入力テキストは、以下のようになる。
We should provide them food and water.
当業者にとっては当然のことではあるが、本発明は、この明細書において詳細に表示および説明したものに限定されるわけではない。むしろ、本発明の範囲は、この明細書において表示および説明したさまざまな構成の組み合わせ(および部分的な組み合わせ)、および、これらの改良形(従来技術にはないものの、上記の説明を読んだ当業者には想定されるはずのもの)の双方を含んでいる。

Claims (55)

  1. コンピューターを利用した言語修正システムであって、当該システムは、
    代替生成器を有し、該代替生成器は、入力文に基づいて、テキストベースの表現を生成し、該表現は、該文中の複数の単語のそれぞれのための複数の代替を与えるものであり、
    選択器を有し、該選択器は、少なくとも該文中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピューターを利用した言語修正システム。
  2. 前記選択器が、下記の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    スペル修正、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項1に記載のコンピュータを利用した言語修正システム。
  3. 前記選択器が、下記の修正機能のうちの少なくとも2つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    スペル修正、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項1に記載のコンピュータを利用した言語修正システム。
  4. 前記選択器が、下記の修正の時間的順序のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
    誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること、および、
    誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
    である、
    請求項3に記載のコンピュータを利用した言語修正システム。
  5. 前記入力文が、下記のファンクショナリティのうちの1つによって提供されるものであり、該ファンクショナリティが、
    ワードプロセッサのファンクショナリティ、
    機械翻訳のファンクショナリティ、
    音声テキスト変換のファンクショナリティ、
    光学式文字認識のファンクショナリティ、および、
    インスタントメッセージのファンクショナリティ、
    であり、かつ、
    前記選択器が、下記の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項2〜4のいずれか1項に記載のコンピュータを利用した言語修正システム。
  6. 前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項2〜5のいずれか1項に記載のコンピュータを利用した言語修正システム。
  7. 前記文法修正のファンクショナリティが、句読点、動詞活用、単数形/複数形、冠詞、および、前置詞のうちの、少なくとも1つを修正するファンクショナリティを含んでいる、請求項2〜6のいずれか1項に記載のコンピュータを利用した言語修正システム。
  8. 前記文法修正のファンクショナリティが、置換修正、挿入修正、および、除去修正のファンクショナリティのうちの、少なくとも1つを含んでいる、請求項2〜7のいずれか1項に記載のコンピュータを利用した言語修正システム。
  9. 前記文脈ベースのスコアリングのファンクショナリティが、さらに、前記インターネットコーパス内での文脈素性シーケンスの正規化された出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項8に記載のコンピュータを利用した言語修正システム。
  10. コンピュータを利用した言語修正システムであって、当該システムは、
    代替生成器を有し、該代替生成器は、言語入力に基づいて、テキストベースの表現を生成し、該表現は、その言語入力中の複数の単語のそれぞれのための複数の代替を与えるものであり、
    選択器を有し、該選択器は、前記言語入力の中の複数の単語の少なくともいくつかのための前記複数の代替のうちから選択された代替同士の間の関連性に、少なくとも部分的に基づいて、少なくとも該言語入力の中の複数の単語のそれぞれのための前記複数の代替のなかから、選択するためのものであり、かつ、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  11. 前記言語入力が、入力文、および、入力テキストのうちの、少なくとも1つを有している、請求項10に記載のコンピュータを利用した言語修正システム。
  12. 前記言語入力が音声であり、
    前記生成器が、前記音声による言語入力を、テキストベースの表現へと変換するものであり、該表現が、前記言語入力の中の複数の単語のための複数の代替を与えるものである、
    請求項10または請求項11に記載のコンピュータを利用した言語修正システム。
  13. 前記言語入力が、
    テキスト入力、
    光学式文字認識のファンクショナリティからの出力、
    機械翻訳のファンクショナリティからの出力、および、
    ワードプロセッシングのファンクショナリティからの出力、
    のうちの少なくとも1つであり、かつ、
    前記生成器が、テキストによる前記言語入力を、その言語入力の中の複数の単語のための複数の代替を与えるテキストベースの表現へと変換する、
    請求項10または11に記載のコンピュータを利用した言語修正システム。
  14. 前記選択器が、下記の修正機能のうちの少なくとも2つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    スペル修正、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、
    請求項10〜13のいずれか1項に記載のコンピュータを利用した言語修正システム。
  15. 前記選択器が、下記の修正の時間的順序のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
    誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること、および、
    誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
    である、
    請求項14に記載のコンピュータを利用した言語修正システム。
  16. 前記言語入力が音声であり、かつ、
    前記選択器が、下記の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項10〜12のいずれか1項に記載のコンピュータを利用した言語修正システム。
  17. 前記選択器が、下記の機能のうちの少なくとも2つを実行することによって、前記選択を行うように作動するものであり、該機能が、
    初期選択のために、前記言語入力の中の前記複数の単語の全てよりも少ない単語を含んだ、単語または単語の組み合わせからなる第1のセットを選択すること、
    その後、単語または単語の組み合わせからなる前記第1のセットの構成要素を順序付けし、選択における優先順位を設定すること、および、
    その後、単語からなる前記第1のセットの構成要素のための前記複数の代替からの選択を行ない、前記選択に影響を与える文脈に沿って、前記複数の単語から他の単語を選ぶこと、ただし、全てを選らばないこと、
    である、請求項10〜16のいずれか1項に記載のコンピュータを利用した言語修正システム。
  18. 前記選択器が、下記の機能を実行することによって、前記選択を行うように作動するものであり、該機能が、
    少なくとも2つの単語を有する構成要素に関する選択を行う際に、前記少なくとも2つの単語の一方のための前記複数の代替のそれぞれと結合している、前記少なくとも2つの単語の他方のための前記複数の代替のそれぞれを評価すること、
    である、請求項10〜17のいずれか1項に記載のコンピュータを利用した言語修正システム。
  19. 前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項10〜18のいずれか1項に記載のコンピュータを利用した言語修正システム。
  20. コンピュータを利用した言語修正システムであって、当該システムは、
    誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の少なくとも大部分の単語を、その言語入力の文脈内でのそれらの適合度に基づいて評価するものであり、かつ、
    修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に、少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  21. さらに、当該システムが、
    疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、誤用されている単語としてどの程度疑われているのかを示すものである、
    請求項20に記載のコンピュータを利用した言語修正システム。
  22. 前記修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである、請求項20または21に記載のコンピュータを利用した言語修正システム。
  23. 前記言語入力が音声であり、かつ、
    前記選択器が、下記の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項20〜22のいずれか1項に記載のコンピュータを利用した言語修正システム。
  24. コンピュータを利用した言語修正システムであって、当該システムは、
    誤用単語調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、
    代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも1つが、インターネットコーパスにおける該言語入力の中の前記単語の文脈素性と一致しており、
    選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  25. コンピュータを利用した言語修正システムであって、当該システムは、
    誤用単語調査器を有し、該誤用単語調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、
    代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、
    選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの1つ1つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  26. コンピュータを利用した言語修正システムであって、当該システムは、
    代替生成器を有し、該代替生成器は、言語入力に基づいて、該言語入力の中の少なくとも1つの単語のための複数の代替を生成するものであり、
    選択器を有し、該選択器は、前記少なくとも1つの単語のそれぞれ、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された前記少なくとも1つの単語のための前記複数の代替のうちの1つ1つと比較して、前記少なくとも1つの単語に優先的に付勢を加えるものであり、前記付勢は、前記入力を与える人の不確実さを示す入力不確実性メトリックの関数であり、かつ、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  27. コンピュータを利用した言語修正システムであって、当該システムは、
    不正確な単語の調査器を有し、該不正確な単語の調査器は、言語入力の中の少なくとも大部分の単語を評価するものであり、該調査器は、前記入力を与えた人の不確実さを示す入力不確実性メトリックに少なくとも部分的に反応し、該調査器は、不正確であると疑われる単語の出力を提供するものであり、
    代替生成器を有し、該代替生成器は、前記不正確であると疑われる単語の出力によって特定された不正確であると疑われる単語のための、複数の代替を生成するものであり、
    選択器を有し、該選択器は、不正確であると疑われる単語のそれぞれ、および、前記代替生成器によって生成された複数の代替のなかからの選択を行うものであり、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  28. コンピュータを利用した言語修正システムであって、当該システムは、
    スペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの、少なくとも1つを有し、これらモジュールは、複数単語の入力を受け取りかつ修正出力を提供するものであり、
    前記のスペル修正モジュール、誤用されている単語の修正モジュール、文法修正モジュール、および、語彙改善モジュールのうちの少なくとも1つは、それぞれ、
    代替単語候補生成器、および、選択器を備えており、
    代替単語候補生成器は、
    前記入力の中の単語に対する音声の類似性に基づいて、代替単語を提示するとともに、音声の類似性のメトリックを示すように作動する、音声の類似性のファンクショナリティを含み、かつ、
    前記入力の中の単語に対する文字列の類似性に基づいて、代替単語を提示するとともに、各代替単語に関する文字列の類似性のメトリックを示すように作動する、文字列の類似性のファンクショナリティを含み、
    前記選択器は、前記音声の類似性のメトリックおよび前記文字列の類似性のメトリックを、文脈ベースの選択のファンクショナリティとともに使用することによって、前記出力の中の単語、または、前記代替単語候補生成器によって提示された代替単語候補のいずれか一方を選択するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  29. コンピュータを利用した言語修正システムであって、当該システムは、
    疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、
    文脈素性シーケンス特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる文脈素性シーケンスを特定するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    当該システムは、
    代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、
    文脈素性シーケンス出現のファンクショナリティを有し、該ファンクショナリティは、インターネットコーパスを使用するとともに、前記代替を含んでいるさまざまな文脈素性シーケンスを、該インターネットコーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、
    選択器を有し、該選択器は、前記出現出力を使用して修正出力を提供するものであり、
    前記文脈素性シーケンス特定のファンクショナリティが、文脈素性シーケンスフィルタリングのファンクショナリティを有し、この文脈素性シーケンスフィルタリングのファンクショナリティが、
    エラーがあると疑われる文脈素性シーケンスを除去するためのファンクショナリティ、
    前記複数単語の入力に対する、より以前の修正反復において導入された単語を含んでいる文脈素性シーケンス、および、所定の信頼レベル閾値を下回る信頼レベルを有している文脈素性シーケンスに対して、マイナスの付勢を印加するためのファンクショナリティ、および、
    所定の頻度閾値を上回る出現頻度を有している他の文脈素性シーケンス内に含まれる文脈素性シーケンスを除去するためのファンクショナリティ、
    のうちの少なくとも1つを含んでいる、
    前記コンピュータを利用した言語修正システム。
  30. 前記選択器が、下記の修正機能のうちの少なくとも2つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    スペル修正、
    誤用されている単語の修正、
    文法修正、および、
    語彙改善、
    である、請求項24〜29のいずれか1項に記載のコンピュータを利用した言語修正システム。
  31. 前記選択器が、下記の修正の時間的順序のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正の時間的順序が、
    誤用されている単語の修正、文法修正、および、語彙改善のうちの、少なくとも1つよりも先に、スペル修正があること、および、
    誤用されている単語の修正、および、文法修正が、語彙改善よりも前にあること、
    である、請求項30に記載のコンピュータを利用した言語修正システム。
  32. 前記言語入力が音声であり、かつ、
    前記選択器が、下記の修正機能のうちの少なくとも1つに基づいて、前記選択を行うように作動するものであり、該修正機能が、
    文法修正、
    誤用されている単語の修正、および、
    語彙改善、
    である、請求項24〜31のいずれか1項に記載のコンピュータを利用した言語修正システム。
  33. 前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項24〜32のいずれか1項に記載のコンピュータを利用した言語修正システム。
  34. 前記選択器が、さらに、ユーザーの入力不確実性メトリックに少なくとも部分的に基づいて、前記選択を行うように作動する、請求項24、25、28、29、30、31、32、および、33のいずれか1項に記載のコンピュータを利用した言語修正システム。
  35. 前記ユーザの入力不確実性メトリックが、前記入力を与える人物の不確実さの測定に基づく関数である、請求項34に記載のコンピュータを利用した言語修正システム。
  36. 前記選択器が、さらに、ユーザの入力履歴を学習するファンクショナリティを使用する、請求項24〜35のいずれか1項に記載のコンピュータを利用した言語修正システム。
  37. コンピュータを利用した言語修正システムであって、当該システムは、
    疑わしい単語を特定するファンクショナリティを有し、該ファンクショナリティは、複数単語の言語入力を受領するとともに、疑わしい単語出力を提供するものであり、該単語出力は、疑わしい単語を示すものであり、
    文脈素性シーケンス特定のファンクショナリティを有し、該ファンクショナリティは、前記疑わしい単語を含んでいる文脈素性シーケンスを特定するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    当該システムは、
    代替選択器を有し、該代替選択器は、前記疑わしい単語に対する代替を特定するものであり、
    出現のファンクショナリティを有し、該ファンクショナリティは、インターネットコーパスを使用するとともに、前記代替を含んでいる文脈素性シーケンスを、該インターネットコーパス内でのそれらの使用頻度に関してランク付けする出現出力を提供するものであり、
    修正出力生成器を有し、該修正出力生成器は、前記出現出力を使用して修正出力を提供するものである、
    前記コンピュータを利用した言語修正システム。
  38. コンピュータを利用した言語修正システムであって、当該システムは、
    文法的なエラーの調査器を有し、該調査器は、言語入力の中の少なくとも大部分の単語を、この言語入力の文脈に対するそれらの適合度に基づいて評価するものであり、
    修正生成器を有し、該修正生成器は、前記調査器によって行われた評価に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  39. さらに、当該システムが、
    疑わしい単語出力の指示器を有し、該指示器は、前記言語入力の中の前記単語における前記少なくとも大部分のうちの少なくともいくつかが、文法的なエラーを有している単語としてどの程度疑われているのかを示すものである、
    請求項38に記載のコンピュータを利用した言語修正システム。
  40. 前記修正生成器が、自動修正言語生成器を有し、この自動修正言語生成器が、前記調査器によって達成された評価に少なくとも部分的に基づいて、ユーザの介入を必要とすることなく、修正テキスト出力を提供するように作動するものである、請求項38または39に記載のコンピュータを利用した言語修正システム。
  41. コンピュータを利用した言語修正システムであって、当該システムは、
    文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するものであり、
    代替生成器を有し、該代替生成器は、前記調査器によって疑わしい単語であると評価された言語入力の中の単語のうちの少なくともいくつかのための複数の代替を生成するものであり、該言語入力の中の単語のための前記複数の代替のうちの少なくとも1つが、該言語入力の中の前記単語の文脈素性と一致しており、
    選択器を有し、該選択器は、少なくとも前記複数の代替から選択するためのものであり、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  42. コンピュータを利用した言語修正システムであって、当該システムは、
    文法的なエラーの調査器を有し、該調査器は、言語入力の中の単語を評価するとともに、疑わしい単語を特定するものであり、
    代替修正器を有し、該代替修正器は、前記疑わしい単語のための複数の代替を生成するものであり、
    選択器を有し、該選択器は、前記疑わしい単語のそれぞれを、および、それらのために前記代替生成器によって生成された前記複数の代替のうちの1つ1つを、複数の選択基準に従って格付けするものであり、かつ、前記代替修正器によって生成された、前記疑わしい単語のための前記複数の代替のうちの1つ1つと比較して、前記疑わしい単語に優先的に付勢を加えるものであり、
    修正生成器を有し、該修正生成器は、前記選択器によって行われた選択に少なくとも部分的に基づいて、修正出力を提供するように作動するものであり、
    当該システムは、文脈素性シーケンスのファンクショナリティを有し、該文脈素性シーケンスのファンクショナリティは、前記入力文に基づいて複数の文脈素性シーケンスを生成するように作動するものであり、該文脈素性シーケンスのファンクショナリティは、素性抽出のファンクショナリティを含んでおり、該素性抽出のファンクショナリティは、
    N−グラム抽出のファンクショナリティを含んでおり、かつ、
    スキップ−グラム抽出のファンクショナリティ、スイッチ−グラム抽出のファンクショナリティ、共起性抽出のファンクショナリティ、および、ユーザによって以前に利用された素性を抽出するファンクショナリティのうちの、少なくとも1つを含んでおり、
    前記のN−グラム抽出のファンクショナリティは、前記入力文からN−グラムを抽出するように作動するものであり、該N−グラムは、N個の連続的な単語のシーケンスであり、
    前記のスキップ−グラム抽出のファンクショナリティは、前記入力文からスキップ−グラムを抽出するように作動するものであり、該スキップ−グラムは、特定の非本質的な単語または句を除去した改良されたN−グラムであるか、または、所定の文法的な関係性を有する単語だけを含んだ改良されたN−グラムであり、
    前記のスイッチ−グラム抽出のファンクショナリティは、前記入力文からスイッチ−グラムを抽出するように作動するものであり、該スイッチ−グラムは、特定の単語の出現の順序が切り替えられた、改良されたN−グラムであり、
    前記の共起性抽出のファンクショナリティは、前記入力文から共起性を抽出するように作動するものであり、該共起性は、入力テキストにおける全ての単語に関する入力テキスト単語の共起性を、入力単語からの距離および方向の表示と共に有する場合における、単語の組み合わせであって、前記の全ての単語からは、N−グラム、スイッチ−グラム、または、スキップ−グラムに含まれている単語が除かれるとともに、一般的に存在する単語も取り除かれており、
    前記のユーザによって以前に利用された素性を抽出するファンクショナリティは、前記入力文から、ユーザによって以前に利用された単語を抽出するように作動するものであり、該ユーザによって以前に利用された単語は、他の文書においてユーザによって使用された単語であるとともに、一般的に存在する単語は取り除かれており、
    前記選択器は、文脈ベースのスコアリングのファンクショナリティを有し、該文脈ベースのスコアリングのファンクショナリティは、インターネットコーパス内での文脈素性シーケンスの出現頻度に少なくとも部分的に基づいて、前記複数の文脈素性シーケンスのそれぞれのために、前記複数の代替をランク付けするように作動するものである、
    前記コンピュータを利用した言語修正システム。
  43. 前記修正生成器が、修正言語入力生成器を有しており、この修正言語入力生成器が、前記選択器によって行われた選択に基づいて、ユーザの介入を必要とすることなく、修正言語出力を提供するように作動する、請求項41または42に記載のコンピュータを利用した言語修正システム。
  44. さらに、当該システムが、次のファンクショナリティのうちの少なくとも1つを有しており、該ファンクショナリティが、
    スペル修正のファンクショナリティ、
    誤用されている単語を修正するファンクショナリティ、
    文法修正のファンクショナリティ、および、
    語彙改善のファンクショナリティ、
    であって、これらのファンクショナリティが、前記の文脈ベースのスコアリングのファンクショナリティと協働するものである、請求項に記載のコンピュータを利用した言語修正システム。
  45. 前記の文脈ベースのスコアリングのファンクショナリティが、さらに、前記インターネットコーパス内でのCFSの正規化された出現頻度に少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項44記載のコンピュータを利用した言語修正システム。
  46. 前記の文脈ベースのスコアリングのファンクショナリティが、さらに、CFSの重要性のスコアに少なくとも部分的に基づいて、前記複数の代替をランク付けするように作動する、請求項44〜45のいずれか1項に記載のコンピュータを利用した言語修正システム。
  47. 前記CFSの重要性のスコアが、
    品詞タギングおよび構文解析のファンクショナリティの作用、CFSの長さ、CFSにおける各単語の出現頻度、および、CFSのタイプ、
    のうちの少なくとも1つの関数である、
    請求項44〜46のいずれか1項に記載のコンピュータを利用した言語修正システム。
  48. さらに、語彙改善のファンクショナリティを有し、該ファンクショナリティは、
    表現の悪い単語を特定するファンクショナリティと、
    代替的な語彙改善案を生成するファンクショナリティと
    含んでおり、
    前記の代替的な語彙改善案を生成するファンクショナリティが、シソーラスの前処理のファンクショナリティを含んでおり、それが、代替的な語彙改善案を生成するように作動するものである、
    請求項1記載のコンピュータを利用した言語修正システム。
  49. 当該システムが、さらに、
    信頼レベル割り当て器を有し、該信頼レベル割り当て器は、前記複数の代替から選択された代替に対して、信頼レベルを割りあてるように作動するものであり、
    上記修正生成器は、前記信頼レベルに少なくとも部分的に基づいて、修正出力を提供するように作動するものである、
    請求項1記載のコンピュータを利用した言語修正システム。
  50. 前記複数の代替が、文脈素性シーケンス(CFS)に基づいて評価され、かつ、前記信頼レベルが、下記のパラメーターのうちの少なくとも1つに基づくものであって、該パラメーターが、
    選択されたCFSの、数、タイプ、および、スコアリング、
    該CFSの文脈における、前記複数の代替の出現頻度の統計的な有意性の測定値、
    前記CFSのそれぞれの優先メトリック、および、前記複数の代替の単語の類似性スコアに基づく、前記複数の代替の1つの選択における、一致の程度、
    第1の所定の最小閾値を超える、前記複数の代替の1つの、非文脈的な類似性スコア、および、
    第2の所定の最小閾値を超えるCFSスコアを有するとともに、第3の所定の閾値よりも大きい優先スコアを有する前記CFSの数によって示される、利用可能な文脈データの範囲、
    である、請求項49に記載のコンピュータを利用した言語修正システム。
  51. さらに、句読点エラー調査器を有し、該調査器は、前記言語入力の中の少なくともいくつかの単語および句読点を、前記言語入力の文脈素性シーケンスにおけるインターネットコーパス内での出現頻度に基づいた前記言語入力の文脈内での、前記単語および句読点の適合度に基づいて評価するものであり、
    前記修正生成器が、また、前記句読点エラー調査器によって行われた評価に少なくとも部分的に基づいて、前記修正出力を提供するように作動するものである、
    請求項1記載のコンピュータを利用した言語修正システム。
  52. 前記修正生成器が、欠落している句読点を修正するファンクショナリティ、余分な句読点を修正するファンクショナリティ、および、句読点を置換修正するファンクショナリティのうちの、少なくとも1つを有している、請求項51に記載のコンピュータを利用した言語修正システム。
  53. さらに、文法的要素エラーの調査器を有し、該調査記は、前記入力の中の少なくともいくつかの単語を、前記入の文脈素性シーケンスにおける前記インターネットコーパス内での出現頻度に基づいた、前記入の文脈に対する前記単語の適合度に基づいて評価するものであり、
    前記修正生成器、前記文法的要素エラーの調査器によって行われた評価に少なくとも部分的に基づいて、前記修正出力を提供するように作動するものである、
    請求項1記載のコンピュータを利用した言語修正システム。
  54. 前記修正生成器が、欠落している文法的要素を修正するファンクショナリティ、余分な文法的要素を修正するファンクショナリティ、および、文法的要素を置換修正するファンクショナリティのうちの、少なくとも1つを有している、請求項53に記載のコンピュータを利用した言語修正システム。
  55. 前記文法的要素が、冠詞、前置詞、および、接続詞のうちの1つである、請求項53または54に記載のコンピュータを利用した言語修正システム。
JP2010518809A 2007-08-01 2008-07-31 インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 Expired - Fee Related JP5638948B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95320907P 2007-08-01 2007-08-01
US60/953,209 2007-08-01
PCT/IL2008/001051 WO2009016631A2 (en) 2007-08-01 2008-07-31 Automatic context sensitive language correction and enhancement using an internet corpus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014216025A Division JP2015057716A (ja) 2007-08-01 2014-10-23 インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善

Publications (2)

Publication Number Publication Date
JP2010535377A JP2010535377A (ja) 2010-11-18
JP5638948B2 true JP5638948B2 (ja) 2014-12-10

Family

ID=40305018

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010518809A Expired - Fee Related JP5638948B2 (ja) 2007-08-01 2008-07-31 インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
JP2014216025A Withdrawn JP2015057716A (ja) 2007-08-01 2014-10-23 インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014216025A Withdrawn JP2015057716A (ja) 2007-08-01 2014-10-23 インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善

Country Status (6)

Country Link
US (5) US8914278B2 (ja)
EP (1) EP2183685A4 (ja)
JP (2) JP5638948B2 (ja)
CN (3) CN105045777A (ja)
CA (2) CA2694327A1 (ja)
WO (1) WO2009016631A2 (ja)

Families Citing this family (349)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721987B2 (ja) * 1991-07-16 1995-03-08 株式会社愛知電機製作所 真空切替遮断器
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8799776B2 (en) 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN105117376B (zh) * 2007-04-10 2018-07-10 谷歌有限责任公司 多模式输入法编辑器
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
CA2694327A1 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
WO2009063465A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20110086331A1 (en) * 2008-04-16 2011-04-14 Ginger Software, Inc. system for teaching writing based on a users past writing
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20110161072A1 (en) * 2008-08-20 2011-06-30 Nec Corporation Language model creation apparatus, language model creation method, speech recognition apparatus, speech recognition method, and recording medium
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9871916B2 (en) 2009-03-05 2018-01-16 International Business Machines Corporation System and methods for providing voice transcription
US8666730B2 (en) 2009-03-13 2014-03-04 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
JP5244661B2 (ja) * 2009-03-17 2013-07-24 株式会社教育測定研究所 文末句読点の欠落検出装置及び欠落検出プログラム
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
JP5752150B2 (ja) * 2010-02-01 2015-07-22 ジンジャー ソフトウェア、インコーポレイティッド 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US8782556B2 (en) 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102193939B (zh) * 2010-03-10 2016-04-06 阿里巴巴集团控股有限公司 信息导航的实现方法、信息导航服务器和信息处理系统
US20110239111A1 (en) * 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9208147B1 (en) 2011-01-07 2015-12-08 Narrative Science Inc. Method and apparatus for triggering the automatic generation of narratives
US8355903B1 (en) 2010-05-13 2013-01-15 Northwestern University System and method for using data and angles to automatically generate a narrative story
CN104484322A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
WO2012047955A1 (en) * 2010-10-05 2012-04-12 Infraware, Inc. Language dictation recognition systems and methods for using the same
KR20120048140A (ko) * 2010-11-05 2012-05-15 한국전자통신연구원 자동 번역 장치 및 그 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10657201B1 (en) 2011-01-07 2020-05-19 Narrative Science Inc. Configurable and portable system for generating narratives
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US8527451B2 (en) 2011-03-17 2013-09-03 Sap Ag Business semantic network build
US20120239381A1 (en) * 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9760920B2 (en) * 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9697871B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing recorded audio content and companion content
US9697265B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing digital content
US9706247B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9734153B2 (en) * 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
EP2511831A1 (en) * 2011-04-14 2012-10-17 James Lawley Text processor and method of text processing
US20120304124A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Context aware input engine
US8725760B2 (en) 2011-05-31 2014-05-13 Sap Ag Semantic terminology importer
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US20140163969A1 (en) * 2011-07-20 2014-06-12 Tata Consultancy Services Limited Method and system for differentiating textual information embedded in streaming news video
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130060560A1 (en) * 2011-09-01 2013-03-07 Google Inc. Server-based spell checking
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR101522522B1 (ko) 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
WO2013078388A1 (en) * 2011-11-21 2013-05-30 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9122673B2 (en) 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
US9037956B2 (en) 2012-03-29 2015-05-19 Audible, Inc. Content customization
US8849676B2 (en) 2012-03-29 2014-09-30 Audible, Inc. Content customization
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
JP5994366B2 (ja) * 2012-04-27 2016-09-21 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8661049B2 (en) 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN103678271B (zh) * 2012-09-10 2016-09-14 华为技术有限公司 一种文本校正方法及用户设备
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9400848B2 (en) * 2012-09-26 2016-07-26 Google Inc. Techniques for context-based grouping of messages for translation
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9087508B1 (en) 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
EP2915068A4 (en) 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
CN103853702B (zh) * 2012-12-06 2016-08-17 富士通株式会社 校正语料中的成语错误的装置和方法
KR101374900B1 (ko) * 2012-12-13 2014-03-13 포항공과대학교 산학협력단 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
JP6086714B2 (ja) * 2012-12-14 2017-03-01 日本放送協会 音声認識装置、誤り修正モデル学習方法、及びプログラム
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9218819B1 (en) 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9183195B2 (en) * 2013-03-15 2015-11-10 Disney Enterprises, Inc. Autocorrecting text for the purpose of matching words from an approved corpus
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US10073839B2 (en) 2013-06-28 2018-09-11 International Business Machines Corporation Electronically based thesaurus querying documents while leveraging context sensitivity
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
JP2015069334A (ja) * 2013-09-27 2015-04-13 富士通株式会社 文字変換プログラム、文字変換装置、及び文字変換方法
US8831969B1 (en) * 2013-10-02 2014-09-09 Linkedin Corporation System and method for determining users working for the same employers in a social network
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN105095826B (zh) * 2014-04-17 2019-10-01 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US9959296B1 (en) 2014-05-12 2018-05-01 Google Llc Providing suggestions within a document
US9251141B1 (en) 2014-05-12 2016-02-02 Google Inc. Entity identification model training
US9881010B1 (en) 2014-05-12 2018-01-30 Google Inc. Suggestions based on document topics
US9607032B2 (en) 2014-05-12 2017-03-28 Google Inc. Updating text within a document
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US20160110327A1 (en) * 2014-10-20 2016-04-21 Lenovo (Singapore) Pte. Ltd. Text correction based on context
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US11475076B2 (en) 2014-10-22 2022-10-18 Narrative Science Inc. Interactive and conversational data exploration
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10140293B2 (en) * 2015-05-18 2018-11-27 Google Llc Coordinated user word selection for translation and obtaining of contextual information for the selected word
EP3298367B1 (en) 2015-05-18 2020-04-29 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
JP6648421B2 (ja) * 2015-06-09 2020-02-14 富士通株式会社 文書を処理する情報処理装置、情報処理方法、およびプログラム
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CA2991275A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10565351B2 (en) * 2015-08-24 2020-02-18 3M Innovative Properties Company Analysis and rule generation of medical documents
US10255270B2 (en) * 2015-08-28 2019-04-09 Freedom Solutions Group, Llc Automated document analysis comprising company name recognition
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9818405B2 (en) * 2016-03-15 2017-11-14 SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
CN107291683A (zh) * 2016-04-11 2017-10-24 珠海金山办公软件有限公司 一种拼写检查方法及装置
CN105912712B (zh) * 2016-04-29 2019-09-17 华南师范大学 基于大数据的机器人对话控制方法和系统
CN105893626A (zh) * 2016-05-10 2016-08-24 中广核工程有限公司 一种用于核电工程的索引库创建方法及其采用其方法的索引系统
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10083171B1 (en) * 2017-08-03 2018-09-25 Gyrfalcon Technology Inc. Natural language processing using a CNN based integrated circuit
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
WO2018085757A1 (en) * 2016-11-07 2018-05-11 Equifax, Inc. Data processing systems and methods for efficiently transforming entity descriptors in textual data
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
CN106847288B (zh) * 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
KR20190004525A (ko) * 2017-07-04 2019-01-14 주식회사 마인즈랩 문장 학습 시스템 및 문장 학습 방법
US11263399B2 (en) 2017-07-31 2022-03-01 Apple Inc. Correcting input based on user context
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11423208B1 (en) * 2017-11-29 2022-08-23 Amazon Technologies, Inc. Text encoding issue detection
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US10942954B2 (en) * 2017-12-22 2021-03-09 International Business Machines Corporation Dataset adaptation for high-performance in specific natural language processing tasks
US11042708B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language generation
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11003866B1 (en) 2018-01-17 2021-05-11 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and data re-organization
US11625630B2 (en) 2018-01-26 2023-04-11 International Business Machines Corporation Identifying intent in dialog data through variant assessment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11182556B1 (en) 2018-02-19 2021-11-23 Narrative Science Inc. Applied artificial intelligence technology for building a knowledge base using natural language processing
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108595431B (zh) * 2018-04-28 2020-09-25 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
US10311149B1 (en) * 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
GB2577879B (en) 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109614499B (zh) * 2018-11-22 2023-02-17 创新先进技术有限公司 一种词典生成方法、新词发现方法、装置及电子设备
GB2579554A (en) * 2018-12-03 2020-07-01 Audiogum Uk Ltd Content playback system
US10331967B1 (en) * 2018-12-05 2019-06-25 Gyrfalcon Technology Inc. Machine learning via a two-dimensional symbol
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
US10909973B2 (en) * 2019-01-04 2021-02-02 International Business Machines Corporation Intelligent facilitation of communications
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10990767B1 (en) 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
US11151317B1 (en) * 2019-01-29 2021-10-19 Amazon Technologies, Inc. Contextual spelling correction system
US11392853B2 (en) 2019-02-27 2022-07-19 Capital One Services, Llc Methods and arrangements to adjust communications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
US11281911B2 (en) 2019-04-27 2022-03-22 Gyrfalcon Technology Inc. 2-D graphical symbols for representing semantic meaning of a video clip
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US10713830B1 (en) 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11526723B2 (en) 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11301626B2 (en) 2019-11-11 2022-04-12 International Business Machines Corporation Artificial intelligence based context dependent spellchecking
US20210182663A1 (en) * 2019-12-17 2021-06-17 Sony Interactive Entertainment LLC Methods and systems for defining emotional machines
EP4080399A4 (en) * 2019-12-18 2022-11-23 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE

Family Cites Families (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPH0778165B2 (ja) 1986-06-27 1995-08-23 東芝ケミカル株式会社 成形用耐熱性樹脂組成物
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
JPH07325825A (ja) * 1994-06-01 1995-12-12 Mitsubishi Electric Corp 英文法チェックシステム装置
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US5899973A (en) * 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6085206A (en) * 1996-06-20 2000-07-04 Microsoft Corporation Method and system for verifying accuracy of spelling and grammatical composition of a document
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6181909B1 (en) 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000019410A1 (en) * 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
ATE443946T1 (de) * 1999-05-27 2009-10-15 Tegic Communications Inc Tastatursystem mit automatischer korrektur
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
DE10124429B4 (de) 2000-07-07 2008-11-27 International Business Machines Corp. System und Verfahren für eine verbesserte Rechtschreibprüfung
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
JP3396734B2 (ja) * 2000-09-14 2003-04-14 独立行政法人通信総合研究所 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
CN100568222C (zh) * 2001-01-31 2009-12-09 微软公司 歧义消除语言模型
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7117144B2 (en) * 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
FR2824978B1 (fr) * 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7296019B1 (en) * 2001-10-23 2007-11-13 Microsoft Corporation System and methods for providing runtime spelling analysis and correction
NO316480B1 (no) 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
AU2003267953A1 (en) * 2002-03-26 2003-12-22 University Of Southern California Statistical machine translation using a large monlingual corpus
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030210249A1 (en) * 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
GB2388940A (en) * 2002-05-22 2003-11-26 Sharp Kk Method and apparatus for the correction or improvement of word usage
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
AU2003279037B2 (en) * 2002-09-27 2010-09-02 Callminer, Inc. Software for statistical analysis of speech
US7542908B2 (en) * 2002-10-18 2009-06-02 Xerox Corporation System for learning a language
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US20050043940A1 (en) * 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20050053900A1 (en) 2003-09-05 2005-03-10 Steven Kaufmann Method of teaching a foreign language to a student providing measurement in a context based learning system
US7475015B2 (en) * 2003-09-05 2009-01-06 International Business Machines Corporation Semantic language modeling and confidence measurement
US20050120002A1 (en) * 2003-10-02 2005-06-02 Hassan Behbehani Automated text generation process
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
CN1886767A (zh) 2003-11-28 2006-12-27 语言的森林有限公司 作文的评估和评分装置
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7779354B2 (en) * 2004-05-13 2010-08-17 International Business Machines Corporation Method and data processing system for recognizing and correcting dyslexia-related spelling errors
US20060003297A1 (en) 2004-06-16 2006-01-05 Elisabeth Wiig Language disorder assessment and associated methods
US8321786B2 (en) * 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
CA2577075C (en) * 2004-08-13 2014-10-07 5 Examples, Inc. The one-row keyboard and approximate typing
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7401293B2 (en) 2004-11-19 2008-07-15 Spelldoctor, Llc System and method for teaching spelling
CN101065746A (zh) * 2004-12-01 2007-10-31 怀斯莫克有限公司 文件自动丰富的方法和系统
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8131746B2 (en) * 2005-06-23 2012-03-06 International Business Machines Corporation Dynamic language checking
US8433711B2 (en) * 2005-09-09 2013-04-30 Kang Jo Mgmt. Limited Liability Company System and method for networked decision making support
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
JP2007122509A (ja) 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8126700B2 (en) * 2006-03-29 2012-02-28 International Business Machines Corporation Computer-assisted comprehension of texts
US8608477B2 (en) 2006-04-06 2013-12-17 Vantage Technologies Knowledge Assessment, L.L.C. Selective writing assessment with tutoring
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
WO2008053466A2 (en) * 2006-10-30 2008-05-08 Cellesense Technologies Ltd. Context sensitive, error correction of short text messages
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
EP1936606B1 (en) * 2006-12-21 2011-10-05 Harman Becker Automotive Systems GmbH Multi-stage speech recognition
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US7957955B2 (en) * 2007-01-05 2011-06-07 Apple Inc. Method and system for providing word recommendations for text input
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
CA2694327A1 (en) 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
WO2009029865A1 (en) * 2007-08-31 2009-03-05 Google Inc. Automatic correction of user input
WO2009040790A2 (en) 2007-09-24 2009-04-02 Robert Iakobashvili Method and system for spell checking
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US8232973B2 (en) * 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090198671A1 (en) * 2008-02-05 2009-08-06 Yahoo! Inc. System and method for generating subphrase queries
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
KR101491581B1 (ko) * 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
US20110086331A1 (en) 2008-04-16 2011-04-14 Ginger Software, Inc. system for teaching writing based on a users past writing
US20100275118A1 (en) * 2008-04-22 2010-10-28 Robert Iakobashvili Method and system for user-interactive iterative spell checking
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
JP5584212B2 (ja) 2008-07-31 2014-09-03 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
US8219905B2 (en) 2008-11-17 2012-07-10 International Business Machines Corporation Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
JP5752150B2 (ja) 2010-02-01 2015-07-22 ジンジャー ソフトウェア、インコーポレイティッド 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US8838453B2 (en) * 2010-08-31 2014-09-16 Red Hat, Inc. Interactive input method
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
US8484218B2 (en) * 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language

Also Published As

Publication number Publication date
US9026432B2 (en) 2015-05-05
US20150142422A1 (en) 2015-05-21
CA2731899C (en) 2016-10-25
CN102165435A (zh) 2011-08-24
JP2015057716A (ja) 2015-03-26
WO2009016631A2 (en) 2009-02-05
CN101802812A (zh) 2010-08-11
EP2183685A2 (en) 2010-05-12
US20110184720A1 (en) 2011-07-28
US20100286979A1 (en) 2010-11-11
US20140122062A1 (en) 2014-05-01
JP2010535377A (ja) 2010-11-18
CN102165435B (zh) 2014-12-24
WO2009016631A3 (en) 2010-03-04
US8645124B2 (en) 2014-02-04
CN101802812B (zh) 2015-07-01
CA2694327A1 (en) 2009-02-05
US20150186336A1 (en) 2015-07-02
EP2183685A4 (en) 2012-08-08
CA2731899A1 (en) 2010-02-04
CN105045777A (zh) 2015-11-11
US8914278B2 (en) 2014-12-16

Similar Documents

Publication Publication Date Title
JP5638948B2 (ja) インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
JP5584212B2 (ja) インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
JP5752150B2 (ja) 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
Hossain et al. " President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines
van Ostade Usage guides and the Age of Prescriptivism
Stehouwer Statistical language models for alternative sequence selection
L’haire FipsOrtho: A spell checker for learners of French
Inkpen et al. Generating more-positive and more-negative text
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
Preiss Probabilistic word sense disambiguation: Analysis and techniques for combining knowledge sources
Teshome Design of Anaphora Resolution for Afaan Oromo Personal Pronoun
Preiss et al. HMMs, GRs, and n-grams as lexical substitution techniques–are they portable to other languages?
Attard Natural Language Processing Model for Maltese Syntax
Gola An analysis of translation divergence patterns using PanLex translation pairs
Pereira et al. Collocation suggestion for Japanese second language learners
Flor et al. ETS Lexical Associations System for the COGALEX-4 Shared Task
Savoy Feature weighting approaches in sentiment analysis of short text
Menzel Identifying English gerunds and their translation equivalents in an English-German translation corpus
Kanashiro Collocation Suggestion for Japanese Second Language Learners

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130426

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130528

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130604

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130628

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140411

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141023

LAPS Cancellation because of no payment of annual fees