JP5752150B2 - 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 - Google Patents

特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 Download PDF

Info

Publication number
JP5752150B2
JP5752150B2 JP2012550565A JP2012550565A JP5752150B2 JP 5752150 B2 JP5752150 B2 JP 5752150B2 JP 2012550565 A JP2012550565 A JP 2012550565A JP 2012550565 A JP2012550565 A JP 2012550565A JP 5752150 B2 JP5752150 B2 JP 5752150B2
Authority
JP
Japan
Prior art keywords
correction
options
word
cfs
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012550565A
Other languages
English (en)
Other versions
JP2013519131A5 (ja
JP2013519131A (ja
Inventor
ザンビル、ヤエル カロブ
ザンビル、ヤエル カロブ
ザンビル、アビネール
Original Assignee
ジンジャー ソフトウェア、インコーポレイティッド
ジンジャー ソフトウェア、インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジンジャー ソフトウェア、インコーポレイティッド, ジンジャー ソフトウェア、インコーポレイティッド filed Critical ジンジャー ソフトウェア、インコーポレイティッド
Publication of JP2013519131A publication Critical patent/JP2013519131A/ja
Publication of JP2013519131A5 publication Critical patent/JP2013519131A5/ja
Application granted granted Critical
Publication of JP5752150B2 publication Critical patent/JP5752150B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

関連出願への参照
AUTOMATIC CONTEXT SENSITIVE LANGUAGE CORRECTION USING AN INTERNET CORPUS PARTICULARLY FOR SMALL KEYBOARD DEVICESというタイトルの2010年2月1日に出願された米国仮特許出願シリアル番号61/300,081が本明細書により参照され、その開示は、参照することにより本明細書によって援用され、かつ、37 CFR 1.78(a)(4)および(5)(i)に従ってその優先権が本願で主張される。
発明の分野
本発明は、概して、コンピュータ支援の言語訂正に関する。
発明の背景
以下の刊行物は、当該技術分野の現状を表すものと思われる。
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号および第4,674,065号。
米国特許出願公開第2006/0247914号および第2007/0106937号。
発明の要旨
本発明は、ハンドヘルド装置、モバイル装置、タッチスクリーン装置およびタブレットPC装置などの小型キーボード装置向けのコンピュータベースの言語訂正のための改善されたシステムおよび機能を提供することを目的とする。
すなわち、本発明の好ましい実施形態に従って、ハンドヘルド装置、モバイル装置、タッチスクリーン装置およびタブレットPC装置などの小型キーボード装置に特に適した言語訂正システムが提供され、当該システムは、入力センテンスに基づいて、該センテンス中の複数の単語の各々について複数の選択肢 を提供するテキストベースの表現を生成する選択肢生成器と、インターネットコーパスに少なくとも部分的に基づいて、前記センテンス中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記選択器は、綴り訂正機能、誤用単語の訂正機能、および、文法訂正機能、のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
付加的または代替的に、前記入力センテンスは、ショートメッセージサービス(SMS)機能、電子メール機能、ウェブ検索機能、ウェブページ編集ボックス機能、小型キーボード装置ワードプロセッサ機能および音声テキスト変換機能のうちの一つによって提供され、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうち少なくとも一つに基づいて前記選択を行うよう機能する。
好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。付加的または代替的には、前記文法訂正機能は、句読点、動詞の活用、名詞の単数/複数、冠詞および前置詞の訂正機能のうちの少なくとも一つを含んでいる。
本発明の好ましい実施形態によれば、前記文法訂正機能は、置換、挿入および脱落の訂正機能のうちの少なくとも一つを含んでいる。
好ましくは、前記選択器は、インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づいて、前記複数の選択肢をランク付けするよう機能する文脈ベースのスコア付け機能を含んでいる。付加的に、前記文脈ベースのスコア付け機能はまた、前記インターネットコーパス中での正規化されたCFSの発生頻度に少なくとも部分的に基づいて、前記複数の選択肢をランク付けするよう機能する。
本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適した言語訂正システムが提供される。該システムは、綴り訂正機能、誤用単語の訂正機能および文法訂正、ならびに、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正のうちの少なくとも一つと協力するとともに、インターネットコーパスを用いる文脈特徴シーケンス機能、のうちの少なくとも一つを含んでいる。
好ましくは、前記文法訂正機能は、句読点、動詞の活用、名詞の単数/複数、冠詞および前置詞の訂正機能のうちの少なくとも一つを含んでいる。付加的または代替的に、前記文法訂正機能は、置換、挿入および脱落の訂正機能のうちの少なくとも一つを含んでいる。
本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能のうちの少なくとも一つを含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能のうちの少なくとも一つと協力するとともに、インターネットコーパスを用いるものである。
好ましくは、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能のうちの少なくとも二つを含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能のうちの少なくとも二つと協力するとともに、インターネットコーパスを用いるものである。
本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記言語訂正システムは、前記綴り訂正機能と、前記誤用単語の訂正機能と、前記文法訂正機能を含み、前記文脈特徴シーケンス機能は、前記綴り訂正機能、前記誤用単語の訂正機能および前記文法訂正機能と協力するとともに、インターネットコーパスを用いるものである。
好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語生成器を含んでいる。
本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムがさらに提供される。該システムは、言語入力に基づいて、センテンス中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器であって、前記言語入力中の前記複数の単語の少なくとも一部について前記複数の選択肢から選択されたもの同士の関係に少なくとも部分的に基づいて該選択をする選択器と、前記選択器による選択に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記言語入力は、入力センテンスと入力テキストのうちの少なくとも一つを含んでいる。付加的または代替的に、前記言語入力は音声であり、前記生成器は、前記音声での言語入力を、前記言語入力中の複数の単語について複数の選択肢を提供するテキストベースの表現に変換するものである。
本発明の好ましい実施形態によれば、前記言語入力は、テキスト入力、およびワードプロセッシング機能の出力のうちの少なくとも一つであり、前記生成器は、前記テキストでの言語入力を、前記言語入力中の複数の単語について複数の選択肢を提供するテキストベースの表現に変換するものである。
好ましくは、前記選択器は、綴り訂正機能、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
本発明の好ましい実施形態によれば、前記言語入力は音声であり、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
好ましくは、前記選択器は、以下の機能:
初期選択のために、単語または単語の組み合わせの第一セットを選択する機能であって、該単語の組み合わせは前記言語入力中の前記複数の単語の全てではなく一部の単語を含むものである機能、
その後、選択の優先度を確立するために、前記単語または単語の組み合わせの第一セットの要素に順序付けをする機能、および、
その後、前記第一セットの単語の要素について前記複数の選択肢の中から選択を行う際に、該選択に影響する文脈として、前記複数の単語の中から他の単語を、全てではないが、選択する機能、
のうちの少なくとも二つを実行することにより前記選択を行うよう機能する。付加的または代替的に、前記選択器は、以下の機能:
少なくとも二つの単語を有する要素についての選択を行う際に、該少なくとも二つの単語の各々についての前記複数の選択肢の各々の評価を、該少なくとも二つの単語の互いについての前記複数の選択肢の各々と組み合わせて行う機能、
を実行することによって前記選択を行うよう機能する。
本発明の好ましい実施形態によれば、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。
またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも大部分を評価する誤用単語検出器と、前記検出器による評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムはまた、前記言語入力に基づいて、該言語入力中の前記少なくとも大部分の単語のうちの少なくとも一つについて複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記少なくとも大部分の単語のうちの前記少なくとも一つの各々について少なくとも前記複数の選択肢の中から選択を行うための選択器をさらに含み、前記訂正生成器は、前記選択器による選択に基づいて、前記訂正出力を提供するよう機能する。付加的または代替的に、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムはまた、前記言語入力中の前記単語の前記少なくとも大部分のうちの少なくとも一部についてそれが誤用単語である疑いの程度を表示する被疑単語出力表示器をさらに含んでいる。
本発明の好ましい実施形態によれば、前記訂正生成器は、ユーザの介入を必要とすることなく、前記検出器による評価に少なくとも部分的に基づいて、訂正テキストの出力を提供するよう機能する自動訂正言語生成器を含んでいる。
好ましくは、前記言語入力は音声であり、前記選択器は、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価する誤用単語検出器と、前記検出器によって疑わしい単語として評価された前記言語入力中の前記単語のうちの少なくとも一部について複数の選択肢を生成する選択肢生成器であって、前記言語入力中の単語についての前記複数の選択肢の少なくとも一つは、インターネットコーパス中での前記言語入力中の前記単語の文脈的な特徴と一致するものである、選択肢生成器と、少なくとも前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に少なくとも部分的に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。
さらに、本発明のまた他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価し、疑わしい単語を特定する誤用単語検出器と、前記疑わしい単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記疑わしい単語、および、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに対して、前記疑わしい単語にとって有利になるバイアスを適用する選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、入力に基づいて、該入力中の少なくとも一つの単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記少なくとも一つの単語、および、前記選択肢生成器によって生成された前記少なくとも一つの単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記少なくとも一つの単語についての前記複数の選択肢のうちの一つ一つに対して、前記少なくとも一つの単語にとって有利になるバイアスであって、前記入力を提供する人の不確実性を示す入力不確実性メトリックの関数であるバイアスを適用する選択器と、前記選択器による選択に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
またさらに、本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語の少なくとも大部分を評価し、前記入力を提供する人の不確実性を示す入力不確実性メトリックに少なくとも部分的に応答し、正しくないと疑われる単語の出力を提供する、誤単語検出器と、前記正しくないと疑われる単語の出力によって特定された被疑誤単語について複数の選択肢を生成する選択肢生成器と、各被疑誤単語、および、前記選択肢生成器によって生成された前記複数の選択肢の中から選択をするための選択器と、前記選択器による選択に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語入力を受けて訂正出力を提供する、綴り訂正モジュール、誤用単語訂正モジュールおよび文法訂正モジュールのうちの少なくとも一つを含み、前記綴り訂正モジュール、前記誤用単語訂正モジュールおよび前記文法訂正モジュールのうちの前記少なくとも一つの各々は、選択的単語候補生成器と選択器を含み、前記選択的単語候補生成器は、前記入力中の単語に対する音声類似度に基づいて単語選択肢を提案し、かつ、音声類似度のメトリックを表示するよう機能する音声類似度機能と、前記入力中の単語に対する文字列の類似度に基づいて単語選択肢を提案し、かつ、単語選択肢ごとに文字列の類似度のメトリックを表示するよう機能する文字列類似度機能を含み、前記選択器は、文脈ベースの選択機能と一緒に、前記音声類似度のメトリックおよび文字列の類似度のメトリックを用いることによって、前記出力中の単語、または、前記選択的単語候補生成器によって提案された選択的単語候補のいずれかを選択するよう機能する。
またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語の言語入力を受けて疑わしい単語を表示する被疑単語出力を提供する被疑単語特定機能と、前記疑わしい単語を含む特徴を特定するよう機能する特徴特定機能と、前記疑わしい単語について選択肢を特定する選択肢選択器と、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に応じて前記選択肢を含む各種特徴にランクを付ける特徴発生機能と、前記発生出力を用いて訂正出力を提供する選択器を含み、前記特徴特定機能は特徴除去機能を含み、該特徴除去機能は、誤りを含むと疑われる特徴を除去する機能、前記複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ、信頼水準の所定の閾値を下回る信頼水準を有する特徴を、負にバイアスする機能、および、所定の頻度の閾値を上回る発生頻度を有する他の特徴に含まれる特徴を除去する機能のうちの少なくとも一つを含むものである。
好ましくは、前記選択器は、綴り訂正機能、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
本発明の好ましい実施形態によれば、前記言語入力は音声であり、前記選択器は、文法訂正機能、および誤用単語の訂正機能のうちの少なくとも一つに基づいて前記選択を行うよう機能する。
好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含んでいる。
本発明の好ましい実施形態によれば、前記選択器はまた、ユーザ入力不確実性メトリックに少なくとも部分的に基づいて、前記選択を行うよう機能する。付加的に、前記ユーザ入力不確実性メトリックは、前記入力を提供する人の不確実性の測定量に基づく関数である。付加的または代替的に、前記選択器はまた、ユーザ入力履歴学習機能を用いる。
またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、複数単語の言語入力を受けて疑わしい単語を表示する被疑単語出力を提供する被疑単語特定機能と、前記疑わしい単語を含む特徴を特定するよう機能する特徴特定機能と、前記疑わしい単語に対する選択肢を特定する選択肢選択器と、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に応じて前記選択肢を含む特徴にランクを付ける発生機能と、前記発生出力を用いて訂正出力を提供する訂正出力生成器を含み、前記特徴特定機能は、Nグラム特定機能、および共起特定機能、ならびに、スキップグラム特定機能、スイッチグラム特定機能、および、ユーザによって以前に使用された特徴特定機能のうちの少なくとも一つ、のうちの少なくとも一つを含んでいる。
またさらに、本発明の他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも大部分を評価する文法誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記言語入力に基づいて、前記言語入力中の前記少なくとも大部分の単語のうちの少なくとも一つについて複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記言語入力中の前記少なくとも大部分の単語のうちの前記少なくとも一つの各々について少なくとも前記複数の選択肢の中から選択をするための選択器をさらに含み、前記訂正生成器は、前記選択器による選択に基づいて前記訂正出力を提供するよう機能する。
本発明の好ましい実施形態によれば、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記言語入力中の前記単語の前記少なくとも大部分のうちの少なくとも一部についてその単語が文法上の誤りを含んでいる疑いの程度を表示する被疑単語出力表示器をさらに含んでいる。
好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正テキストの出力を提供するよう機能する自動訂正言語生成器を含んでいる。
また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価する文法誤り検出器と、前記検出器によって疑わしい単語と評価された前記言語入力中の単語の少なくとも一部について複数の選択肢を生成する選択肢生成器であって、前記言語入力中の単語についての前記複数の選択肢のうちの少なくとも一つは、前記言語入力中の前記単語の文脈的な特徴と一致するものである、選択肢生成器と、少なくとも前記複数の選択肢の中から選択をする選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
さらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語を評価し、疑わしい単語を特定する文法誤り検出器と、前記疑わしい単語について複数の選択肢を生成する選択肢生成器と、複数の選択基準に従って、前記疑わしい単語、および、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに、それぞれ等級を付け、前記選択肢生成器によって生成された前記疑わしい単語についての前記複数の選択肢のうちの一つ一つに対して、前記疑わしい単語に有利になるバイアスを適用する選択器と、前記選択器による選択に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記訂正生成器は、ユーザの介入を必要とすることなく、前記選択器による選択に基づいて、訂正言語の出力を提供するよう機能する訂正言語入力生成器を含むものである。
またさらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づいて、各種訂正用選択肢に文脈ベースのスコア付けをすることを含んでいる。
好ましくは、小型キーボード装置での使用に特に適した前記コンピュータ支援言語訂正システムは、前記文脈ベースのスコア付けと協力する、綴り訂正機能、誤用単語の訂正機能、および文法訂正機能のうちの少なくとも一つをさらに含んでいる。
本発明の好ましい実施形態によれば、前記文脈ベースのスコア付けはまた、インターネットコーパス中での正規化されたCFSの発生頻度に少なくとも部分的に基づくものである。付加的または代替的に、前記文脈ベースのスコア付けはまた、CFSの重要度のスコアに少なくとも部分的に基づくものである。付加的に、前記CFSの重要度のスコアは、品詞のタグ付けおよびセンテンスの構文解析機能の操作、CFSの長さ、CFS中の単語の各々の発生頻度、およびCFSのタイプ、のうちの少なくとも一つの関数である。
また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、入力センテンスに基づいて、該センテンス中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成する選択肢生成器と、前記センテンス中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするための選択器と、前記複数の選択肢から選択された選択肢に対して信頼水準を割り当てるよう機能する信頼水準割当器と、前記選択器による選択に基づいて、および、前記信頼水準に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記複数の選択肢は文脈特徴シーケンス(CFS)に基づいて評価され、前記信頼水準は、以下のパラメータ:
選択されたCFSの個数、タイプ、およびスコア、
前記CFSの文脈における前記複数の選択肢の発生頻度の統計的有意性の度合い、
前記CFSの各々の選好性メトリックおよび前記複数の選択肢の単語類似度スコアに基づく、前記複数の選択肢のうちの一つの選択についてのコンセンサスの度合い、
第一の所定の最小閾値を上回る、前記複数の選択肢のうちの前記一つの非文脈的な類似度スコア、および
第二の所定の最小閾値を上回るCFSスコアと、第三の所定の閾値を上回る選好性スコアを有する、前記CFSの個数によって示される、利用可能な文脈データの程度
のうちの少なくとも一つに基づくものである。
また、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈内での適合度に基づいて評価する句読点誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記訂正生成器は、欠落句読点訂正機能、不要な句読点訂正機能、および句読点置換訂正機能のうちの少なくとも一つを含むものである。
さらに、本発明のさらに他の好ましい実施形態に従って、小型キーボード装置での使用に特に適したコンピュータ支援言語訂正システムが提供される。該システムは、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈内での適合度に基づいて評価する文法要素誤り検出器と、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正出力を提供するよう機能する訂正生成器を含んでいる。
好ましくは、前記訂正生成器は、欠落文法要素訂正機能、不要な文法要素訂正機能、および文法要素置換訂正機能のうちの少なくとも一つを含むものである。付加的または代替的に、前記文法要素は、冠詞、前置詞、および接続詞のうちの一つである。
本発明は、図面と共に解釈される以下の詳細な説明からより十分に理解および認識されるであろう。
図1は、本発明の好ましい実施形態に従って構築され機能するコンピュータ支援言語訂正用のシステムおよび機能の単純化したブロック図である。 図2は、図1のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。 図3は、図1のシステムおよび機能において好ましくは用いられる誤用単語および文法の訂正機能を示す単純化したフローチャートである。 図4は、図1のシステムおよび機能において好ましくは用いられる文脈特徴シーケンス(CFS)機能を示す単純化したフローチャートである。 図5Aは、本発明の好ましい実施形態に従う、図2の機能の部分を形成する綴り訂正機能を示す単純化したフローチャートである。 図5Bは、本発明の好ましい実施形態に従う、図3の機能の部分を形成する誤用単語および文法訂正機能を示す単純化したフローチャートである。 図6は、図2および図3の機能において有用である訂正用選択肢を生成するための機能を示す単純化したフローチャートである。 図7は、図2の綴り訂正機能において有用である、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行う機能を示す単純化したフローチャートである。 図8は、図3、図9および図10の誤用単語および文法の訂正機能において有用である、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行う機能を示す単純化したフローチャートである。 図9は、冠詞、前置詞および句読点の欠落訂正機能の動作を示す単純化したフローチャートである。 図10は、不要な冠詞、前置詞および句読点の訂正機能の動作を示す単純化したフローチャートである。
好ましい実施形態の詳細な説明
いかなるキーボードベースの入力システムにおいても、ユーザが、所望するキーの近傍に位置する1以上のキーを間違って打ってしまうことでエラーが生じることは認識されている。このことは、特に、キーボードが小さい装置では顕著であり、ユーザは、所望のキーの近くの他のキーを間違って叩いてしまったり、所望のキーに加えて他のキーも叩いてしまったりする。このように、例えば、QWERTY配列のキーボードでは、Fキーを押そうとしてユーザは、R、T、D、G、C、およびVのうちの1つ以上のキーも一緒に押してしまうことがある。本発明の小型キーボード装置での使用に特に適したコンピュータベースの言語訂正のためのシステムおよび機能は、これらの入力ミスを修復するためにユーザに訂正を示唆する機能を含むことが好ましい。
ここで図1を参照する。図1は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ支援言語訂正用のシステムおよび機能の単純化したブロック図である。図1に見られるように、訂正用のテキストは、1以上のソースから言語訂正モジュール100に提供される。1以上のソースとしては、以下に限定されないが、携帯電話102、ハンドヘルド装置104、タブレットPC106、タッチスクリーン108、および、あらゆる他の小型キーボード装置110などのテキスト機能が挙げられる。
言語訂正モジュール100は、綴り訂正機能112、誤用単語および文法の訂正機能114を有することが好ましい。
綴り訂正機能112および誤用単語および文法の訂正機能114が、インターネットコーパス120を利用する文脈特徴シーケンス(CFS)機能118とそれぞれ交信することは、本発明の特有の特徴である。
文脈特徴シーケンスまたはCFSは、本明細書の目的のためには、図4を参照して以下で定義されるNグラム、スキップグラム、スイッチグラム、共起(co-occurrences)、「ユーザによって以前に使用された特徴(previously used by user features)」、およびそれらの組み合わせを含むものとして定義される。説明の単純化および明確化のために、以下の例の大部分ではnグラムのみを用いていることに留意されたい。本発明はそれに限定されないことが理解される。
インターネットコーパスは、極めて多くの文脈特徴シーケンスについてのかなりの統計データを提供し、高度にロバストな言語訂正機能をもたらすという点で、インターネットコーパスの使用は重要である。実際、3個以上の単語の組み合わせは、従来の非インターネットコーパスでは非常に乏しい統計を有するが、インターネットコーパスでは許容できるまたは良好な統計を有する。
インターネットコーパスは、通常はインターネットを巡回してウェブサイトのページからテキストを集めることにより、ワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの動的テキストもまた集められる。集められたテキストは、自然言語テキストの統計の蓄積に使用される。インターネットコーパスのサイズは、例えば、1兆(1,000,000,000,000)ワードまたは数兆ワードであり得る。それに反して、もっと典型的なコーパスのサイズは20億ワード以下である。ウェブコーパスなどの小さいウェブのサンプルは、100億ワードであるが、これは、GOOGLE(登録商標)などの検索エンジンによってインデックスが付けられるウェブテキストの1パーセントよりもはるかに少ない。本発明は、ウェブコーパスなどのウェブのサンプルを使って機能し得るが、好ましくは、もっとはるかに大きいウェブのサンプルを利用してテキスト訂正のタスクを行う。
インターネットコーパスは、以下の方法で用いられることが好ましい。
ローカルインデックスは、インターネットを巡回しインデックスを付けることによって時間をかけて作り上げられている。各CFSの発生回数は、CFS頻度を提供する。ローカルインデックスおよび検索クエリは、インターネットの選択可能な部分に基づいてもよく、かつ、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と普段の言語の用法との間の不一致を訂正するために、インターネットの一部が除外されたり、または適当に重み付けされたりしてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザフォーラムなどの他のウェブサイトよりも大きな重みを与えられてもよい。
好ましくは、入力テキストは、最初に綴り訂正機能112に提供され、その後、誤用単語および文法の訂正機能114に提供される。入力テキストは、任意の好適なテキストであってよく、小型キーボード装置用途の文脈では、好ましくは、センテンスなどのメッセージまたは電子メールの一部である。
好ましくは、言語訂正モジュール100は、訂正された単語または単語群ごとに1以上の選択肢の提示を伴う訂正テキストを含む出力を提供する。
ここで図2を参照する。図2は、図1のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図2に見られるように、綴り訂正機能は以下のステップを有することが好ましい。
インターネットで通常使用される適当な名称および単語が充実した従来の辞書を好ましくは用いて、入力テキスト中の綴りの誤りを特定するステップ。好ましくは、その辞書は、以前の電子メール、smsメッセージ、文書、連絡、その他、ユーザが小型キーボード装置またはパーソナルコンピュータで挿入したあらゆるテキストなど、ユーザの電話および/またはパーソナルコンピュータからの内容でも充実している。付加的または代替的に、辞書はユーザの手入力による単語を含む。
綴りの誤りを有する一つの、または、連続もしくはほぼ連続した複数の単語を含み得るクラスターに綴りの誤りをグループ化し、訂正のためのクラスターを選択するステップ。この選択は、最も多くの正しい文脈データを含むクラスターを見つける試みである。好ましくは、その付近において正しく綴られた単語の最も長い(一つまたは複数の)シーケンスを有するクラスターが選択される。以上のステップは、図5Aを参照して以下においてより詳細に説明される。
図6を参照して以下に説明されるアルゴリズムに好ましくは基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図7を参照して以下に説明される、綴り訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、各種訂正用選択肢に、好ましくはインターネットコーパスを用いて、少なくとも部分的に非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けを行うステップ。
クラスターごとに、上述のスコアに基づいて、一つの綴り訂正を選択し、最も好ましい綴り訂正用選択肢を提示するステップ。
誤った綴りのクラスターを置き換える、誤った綴りの各クラスターのための前記一つの綴り訂正を組み込んだ訂正テキストの出力を提供するステップ。
図2の機能の動作は、以下の例を考慮することにより、より良く理解され得る。
以下の入力テキストが受け取られる。
If he is wuzw
この場合、訂正が、ユーザがテキストを打ち込んでいる途中、センテンスが完了する前に提案される。今の時点で打ち込まれている「wuzw」は、綴りミスとして識別され訂正サイクルが開始される。
表1に見られるように、以下のクラスターが選択される。
Figure 0005752150
以下の訂正用選択肢が、誤った綴りの単語「wuzw」に対して生成される(部分的なリスト)。
was, wise, eyes, wiz
訂正用選択肢ごとに、例えば表2に見られるように、誤った綴りの単語に対する音声および文字列の類似度、キーボードのキーの近接度に基づいて、非文脈的な単語類似度スコアが与えられる。
Figure 0005752150
非文脈的なスコアは、各種方法で導出され得る。一つの例としては、http://en.wikipedia.org/wiki/Levenshtein_distanceで利用できるレーベンシュタイン距離のアルゴリズムを用いることによる。このアルゴリズムは、単語の列、単語の音声表現、キーボード近接性の表現、またはその全ての組み合わせの上に想定され得る。例えば、「wise」という単語は、「wuzw」に類似している。「I」と「u」がキーボード上で隣同士のキーであり、「w」と「e」もキーボード上で隣同士のキーであり、それらの置換は、レーベンシュタイン距離のアルゴリズムでは、「小さな距離」の編集行為と考えるはずであるからである。
入力センテンスの文脈における適合度に基づいて、表3に見られるように、選択肢ごとに文脈的なスコアも与えられる。この例では、用いられる文脈は、「If he is <wuzw>」である。
Figure 0005752150
文脈的なスコアは、図7を参照して以下に説明されるようにして導出されることが好ましく、また、インターネットコーパス中での文脈特徴シーケンス(CFS)の頻度に基づく。
図7に関して以下に説明されるように、文脈的なスコアと非文脈的な単語類似度スコアとの組み合わせに基づいて、単語「wise」が最良の選択肢として選択される。
If he is wise
ユーザは、推奨された訂正の承認後、センテンスを続けてタイプすることができる。代替的に、ユーザは、全ての推奨訂正を無視してタイプを続けることもできる。各時点で、システムは関連性のある訂正を示唆するだろう。ユーザがセンテンスのタイプ打ちを終了したら、フルセンテンスについての推奨訂正が提供されるだろう。
ここで図3を参照する。図3は、図1のシステムおよび機能において好ましくは用いられる誤用単語および文法の訂正機能を示す単純化したフローチャートである。誤用単語および文法の訂正機能は、正しい綴りなのに入力テキストの文脈では誤用となる単語の訂正、ならびに、文法的に正しい単語の代わりに文法的に正しくない単語を使ったもの、不要な単語を使ったもの、単語や句読点が欠落したものを含む、文法上の誤りの訂正を提供する。
図3に見られるように、誤用単語および文法の訂正機能は、以下のステップを有することが好ましい。
図2の綴り訂正機能から出力された、綴りを訂正された入力テキストにおいて、誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは入力センテンスの文脈内での少なくとも大部分の単語の適合度を評価することによって、特定するステップ。
誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは重複しないクラスターにグループ化するステップ。
訂正のためのクラスターを選択するステップ。前記特定ステップ、グループ化ステップおよび選択ステップは、図5Bを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図6を参照して以下に説明される訂正用選択肢生成アルゴリズムに好ましくは基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図9を参照して以下に説明される欠落した冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図10を参照して以下に説明される不要な冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、クラスターごとに、一つまたは好ましくは複数の訂正用選択肢を生成するステップ。
図8を参照して以下に説明される、誤用単語および文法の訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、各種訂正用選択肢に、少なくとも部分的に文脈ベースのスコア付けおよび単語類似度ベースのスコア付けを行うステップ。
クラスターごとに、図8を参照して以下に説明されてもいる上述のスコア付けに基づいて、一つの誤用単語および文法の訂正を選択し、最も好ましい誤用単語および文法の訂正用選択肢を提示するステップ。
正しくないクラスターを置き換える、各クラスターのための前記一つの誤用単語および文法の訂正を組み込んだ、綴り、誤用単語および文法の訂正されたテキストの出力を提供するステップ。
好ましくは、前記のスコア付けは、疑わしい単語についての複数の選択肢のうちの一つ一つに対して、該疑わしい単語にとって有利になるバイアスを適用することを含む。バイアスは、入力をする人の不確実性を示す入力不確実性メトリック(metric)の関数である。
図3の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが受け取られる。
Put it on a singe lost
以下の単語が、誤用の疑いのある単語として特定される。
singe, lost
以下のクラスターが生成される。
singe lost
以下は、該クラスターに対して生成される訂正用選択肢の例である(部分的なリスト)。
sing last; single list; song list; sing least; ding lost; ding last; swing list; singer lost; singer lot; single lot; sing lot; ding lot; sing lots; swing lots; single lots
インターネットコーパスを用いた少なくとも部分的に文脈的なスコア付け、文脈ベース、および、非文脈的な単語類似度ベースのスコア付けの結果を表4に示す。
Figure 0005752150
グローバルスコアに到達する各種方法が存在することを理解されたい。好ましいグローバルスコアは、図8を参照して以下に説明されるアルゴリズムに基づくものである。
上記スコア付けに基づいて、選択肢「single list」が選択される。従って、訂正されたテキストは、
Put it on a single list.
である。
ここで図4を参照する。図4は、本発明の好ましい実施形態のコンピュータ支援言語訂正のためのシステムおよび機能において有用である文脈特徴シーケンス(CFS)機能118(図1)を示す単純化したブロック図である。
CFS機能118は、好ましくは、特徴抽出機能を有し、該特徴抽出機能は、Nグラム抽出機能、ならびに任意には、スキップグラム抽出機能、スイッチグラム抽出機能、共起抽出機能、および、ユーザによって既に使用された特徴抽出機能のうちの少なくとも一つを有する。
用語Nグラムは、当該技術分野において公知の用語であり、入力テキストにおけるN個の連続する単語のシーケンスを意味する。文法的な考慮に基づいて、コーパス中、好ましくはインターネットコーパス中に高頻度で現れるとは予想されないある種のNグラムの生成を回避するために、Nグラム抽出機能は、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書の目的のために、用語「スキップグラム抽出機能」は、「スキップグラム」を抽出するように機能する機能を意味し、「スキップグラム」は、形容詞、副詞、形容詞句、および副詞句などのある種の不可欠ではない単語または句を除外した修正されたnグラムであり、あるいは、主語−動詞、動詞−目的語、副詞−動詞、または動詞−時間表現などの所定の文法的な関係を有する単語のみを含む修正されたnグラムである。スキップグラム抽出機能は、所与の文脈においてどの単語をスキップしてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書の目的のために、用語「スイッチグラム抽出機能」は、「スイッチグラム」を特定する機能を意味し、「スイッチグラム」は、ある種の単語の出現順序が切り替えられた修正されたnグラムである。スイッチグラム抽出機能は、所与の文脈においてどの単語がその出現順序を切り替えられてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書の目的のために、用語「共起抽出機能(co-occurrence extraction functionality)」は、入力センテンス中または入力センテンスを多数含む入力文書中の単語の組み合わせを特定する機能を意味する。一般に生じる単語(前置詞、冠詞、接続詞、その他、その機能が主として文法的なものである単語など)を除去した後の、入力単語からの距離および方向の表示を伴う、Nグラム、スイッチグラム、または、スキップグラムに含まれるもの以外の入力テキスト中の全ての単語についての入力テキストの単語の共起(co-occurrence)を含む。
本明細書の目的のために、用語「ユーザによって以前に使用された特徴抽出機能」は、前置詞、冠詞、接続詞、その他、その機能が主として文法的なものである単語などの一般に生じる単語を除去した後に、他の文書においてユーザによって使用された単語を特定する機能を意味する。
本明細書の目的のために、Nグラム、スキップグラム、スイッチグラム、およびそれらの組み合わせは特徴グラムと呼ばれる。
本明細書の目的のために、Nグラム、スキップグラム、スイッチグラム、共起、「ユーザによって以前に使用された特徴」、およびそれらの組み合わせは、文脈特徴シーケンスまたはCFSと呼ばれる。
図4の機能は、入力テキスト中の個々の単語または単語のクラスターに対して機能することが好ましい。
図4の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが提供される。
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer , to invesigate the death of sir Charles”
入力テキスト中のクラスター「Cherlock Homes」に対して、以下のCFSが生成される:
Nグラム:
2グラム: Cherlock Homes; Homes the
3グラム: Cherlock Homes the; Homes the lead
4グラム: Cherlock Homes the lead; Homes the lead character
5グラム: Cherlock Homes the lead character
スキップグラム:
Cherlock Homes the character; Cherlock Homes the chief inspecter; Cherlock Homes the inspecter; Cherlock Homes has been cold
スイッチグラム:
The lead character Cherlock Homes
入力テキスト中の共起:
Character; inspector; investigate; death
入力テキストを含む文書中の共起:
Arthur Conan Doyle; story
ユーザの他の文書中の共起:
mystery
入力テキスト中のクラスター「cold」に対して、以下のCFSが生成される。
Nグラム:
2グラム: been cold; cold in
3グラム: has been cold; been cold in; cold in by
4グラム: inspector has been cold; has been cold in; been cold in by; cold in by the
5グラム: chief inspector has been cold; inspector has been cold in; has been cold in by; been cold in by the; cold in by the family
スキップグラム:
cold in to investigate; Cherlock has been cold; cold by the doctor; cold by Dr Mortimer; character has been cold
CFSにはそれぞれ、以下のうちの少なくとも一つ、好ましくは二以上、最も好ましくは全てに基づいて、「重要度スコア」が与えられる。
a.従来の品詞タグ付け機能およびセンテンス構文解析機能の操作。複数の構文解析木のノードの部分を含むCFSは比較的低いスコアを与えられる。CFSに含まれる構文解析木のノードの個数が多くなるほど、そのCFSのスコアは低くなる。
b.CFSの長さ。CFSが長くなるほど、スコアは高くなる。
c.入力ワード以外のCFS中の単語の各々の発生頻度。そのような単語の発生頻度が高くなるほど、スコアは低くなる。
d.CFSのタイプ。例えば、Nグラムは共起よりも好ましい。入力センテンス中の共起は入力文書中の共起よりも好ましく、入力文書中の共起は「ユーザによって以前に使用された特徴」よりも好ましい。
上記の例に関して、典型的なスコアは表5に見られる通りである。
Figure 0005752150
これらのCFSおよびそれらの重要度スコアは、インターネットコーパス中でのCFSの発生頻度に基づく、クラスターの各種訂正用選択肢の文脈ベースのスコア付けのために、図7および図8を参照して以下で説明される機能において用いられる。
ここで図5Aを参照する。図5Aは、入力テキスト中の綴りを誤った単語を特定し、好ましくは重複しないクラスターに綴りを誤った単語をグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。
図5Aに見られるように、綴りを誤った単語の特定は、インターネット上で一般に用いられる適当な名称および単語が充実した従来の辞書を用いることによって行われることが好ましい。好ましくはその辞書は、電子メール、smsメッセージ、文書、連絡、その他、ユーザが小型キーボード装置またはパーソナルコンピュータで挿入したあらゆるテキストなど、ユーザの電話およびパーソナルコンピュータからの内容でも充実している。付加的または追加的に、辞書はユーザの手入力による単語を含む。
綴りを誤った単語のクラスターへのグループ化は、連続するまたはほぼ連続する綴りを誤った単語を、文法上の関係を有する綴りを誤った単語と一緒に、1つのクラスターにグループ化することによって行われることが好ましい。
訂正のためのクラスターの選択は、最も多くの量の疑わしくない文脈データを含むクラスターを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において正しく綴られた単語の最も長い(一つまたは複数の)シーケンスを有するクラスターが選択される。
ここで図5Bを参照する。図5Bは、綴りを訂正された入力テキスト中の誤用の疑いのある単語および文法の誤りを有する疑いのある単語を特定し、誤用の疑いのある単語および文法の誤りの疑いのある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。
誤用の疑いのある単語の特定は以下のようにして行われることが好ましい。
綴りを訂正された入力テキスト中の単語ごとに、特徴グラムが生成される。
コーパス、好ましくはインターネットコーパス中での各特徴グラムの発生頻度が記録される。
単語ごとに疑わしい特徴グラムの数が記録される。疑わしい特徴グラムは、予期される頻度よりも低い頻度、または最小の頻度の閾値を下回る頻度を有するものである。特徴グラムの予期される頻度は、その構成要素およびそれらの組み合わせの頻度に基づいて見積もられる。
その単語を含む疑わしい特徴グラムの数が、所定の閾値を超えている場合、その単語は疑わしい。
本発明の好ましい実施形態に従って、コーパス中、好ましくはインターネットコーパス中での、綴りを訂正された入力テキスト中の各特徴グラムの発生頻度(FREQ F-G)が確かめられる。そのコーパス中での綴りを訂正された入力テキスト中の各単語の発生頻度(FREQ W)もまた確かめられ、さらには、その単語を有しない各特徴グラムの発生頻度(FREQ FG-W)が確かめられる。
各特徴グラムの予期される発生頻度(EFREQ F-G)は、以下の通りに算出される。
EFREQ F-G=FREQ F-G-W × FREQ W/(コーパス中での全ての単語の頻度の合計)
コーパス、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各特徴グラムの発生頻度の、各特徴グラムの予期される発生頻度に対する比(FREQ F-G/EFREQ F-G)が所定の閾値よりも小さい場合、あるいは、FREQ F-Gが別の所定の閾値よりも小さい場合、特徴グラムは疑わしい特徴グラムであると考えられる。疑わしい特徴グラムに含まれる全ての単語は、誤用の疑いのある単語または文法の誤りの疑いのある単語であると考えられる。
綴りを訂正された入力テキストにおける誤用の疑いのある単語および文法の誤りの疑いのある単語の特定のための図5Bの機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴りを訂正された入力テキストが提供される。
Pleads call me soon
ここで、誤用単語「pleads」は、「s」の隣のキー「d」の挿入、およびキー「e」の脱落の結果である。
特徴グラムは以下を含む。
Pleads; Pleads call; Pleads call me; Pleads call me soon
表6は、上記特徴グラムのインターネットコーパス中での発生頻度を示す。
Figure 0005752150
予期される発生頻度が、2グラムごとに以下の通りに算出される。
EFREQ F-G=(FREQ F-G-W × FREQ W)/(コーパス中の全ての単語の頻度の合計)
例えば、2グラムについて、
2グラム(x,y)についての予期される2グラムの頻度=(xの1グラムの頻度 × yの1グラムの頻度)/インターネットコーパス中の単語の数(例:1兆(1,000,000,000,000)ワード)
コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各特徴グラムの発生頻度の、各特徴グラムの予期される発生頻度に対する比は、以下の通りに算出される。
FREQ F-G/EFREQ F-G
コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の上記各2グラムの発生頻度の、上記各2グラムの予期される発生頻度に対する比は、表7に見られる。
Figure 0005752150
「Pleads call」のFREQ F-Gはその予期される頻度よりも低いため、FREQ F-G/EFREQ F-Gは、1などの所定の閾値よりも低いと考えることができ、従って、クラスター「Pleads call」は疑わしいことが分かる。
単語「Pleads call」を含む3グラムおよび4グラムは共に、インターネットコーパス中では頻度ゼロであることが分かる。これもまた、「Pleads call」は疑わしいと考える根拠となり得る。
誤用の疑いのある単語および文法の誤りの疑いのある単語のクラスターへのグループ化は、以下の通りに行われることが好ましい。連続するまたはほぼ連続する誤用の疑いのある単語は1つのクラスターにグループ化され、また、それらの間に文法上の関係を有する誤用の疑いのある単語は同じクラスターにグループ化される。
訂正のためのクラスターの選択は、最も多くの量の疑わしくない文脈データを含むクラスターを見付けるのを試みることによって行われることが好ましい。好ましくは、その付近において疑わしくない単語の最も長い(一つまたは複数の)シーケンスを有するクラスターが選択される。
ここで図6を参照する。図6は、図2および図3の機能において有用である、クラスターに対する訂正用選択肢を生成するための機能を示す単純化したフローチャートである。
もともとの入力単語が正しく綴られていれば、選択肢とみなされる。
図6に見られるように、クラスター中の各々の単語に対して、複数の訂正用選択肢が最初に以下のようにして生成される。
文字列の類似度で表されるような書面上の見た目に基づいて、および、音または音声上の類似度に基づいて、クラスター中の各単語に類似する、辞書から取られた、複数の単語が検索される。文字列の類似度に基づく単語検索機能は公知であり、GNU AspellおよびGoogle(登録商標)GSpellなどのフリーウェアとして、インターネット上で利用可能である。この機能は、キーボードのキーの位置の接近度によって拡張され、置換、挿入、削除、検索単語および優先単語が、第一の複数の訂正用選択肢を提供しうる。例えば、入力単語feezixが与えられた場合、共通文字は1つ、すなわち「i」しかないが、類似する音声に基づいて、辞書から単語「physics」が検索されるだろう。また、類似する音声は無いが、文字列の類似性に基づいて、単語「felix」が検索されるだろう。
追加の選択肢が以下の行為またはこれらの行為の組合せによって生成されうる。
1。隣接するキーの混乱
ユーザは、意図したキーの隣のキーを押してしまう場合がある。前述したように、Aを押そうとして、ユーザはかわりにその隣のキーである、Q、W、S、ZまたはXを押してしまう可能性がある。こうして、「abbreviated」と書こうとして、最初の「A」を「S」と置き換えた、「sbbreviated」と書いてしまうことが起こりうる。
キーボード上のキーには異なる配列もあり、図は例に過ぎない。キーボードにおける物理的な距離に基づくキーボード置換の入力の可能性はキーボードの種類ごとに供給されうる。
2.複数のキーの挿入
ユーザは、二つの隣接するキーの間に指を置いてしまう場合があり、その場合、二つのキーが押されて一文字のかわりに二文字が挿入される。このように、「abbreviated」と書こうとして、ユーザは、「sabbreviated」または「asbbreviated」と書いてしまいうる。「s」キーが「a」キーの隣にあるからである。スペースキーの隣には「v」などのキーがある。以下のスペルミスも、同じようにして生じうる。「abbre viated」
3.意図して押したキーの脱落
急いでおよび/または不正確にタイプ打ちをすると、意図して押したキーのうちの幾つかは、小型キーボード装置が受け付けていない場合がある。このため結果として文字の欠落、句読点の欠落またはスペースの欠落が生じる。このように、「abbreviated」と書こうとして、ユーザは、「bbreviated」と書いてしまいうる。同様に、スペースキーが抜けることがあり、そうするとその次の単語が今の単語と分離されないで、綴りの間違いを生じる。このように、「abbreviated text」と書こうとして、ユーザは、「abbreviatedtext」と書いてしまいうる。
4.母音の欠落と一般的な短縮表現
母音の脱落と、特定の音声的な誤字の用法(例えば、C、CKまたはQのいずれかをKと置き換えること、または、SおよびTHをZと置き換えること)は、急いで表現しようとしてショートテキストメッセージを書く人のよくある習慣である。こうして、単語「quick」は「kwik」と書かれ、単語「please」は「plz」と書かれることがある。付加的に、数と記号もまた音声ツールとして用いられ、「before」は「be4」と、「at」は「@」と書かれることがある。
5.音声類似性の誤記と書面類似性の誤記
小型キーボード装置の大きさが小さいことと感度に制限があることの結果として生じる綴りの間違いに加えて、音声と書面上の紛らわしさのために単語が間違って綴られる場合がある。装置を用いてまたは手で書いたテキスト中で起こりうる。例えば、「ocean」は、類似した音の単語「oshen」と誤記されうるし、または書面上で類似した単語「ossion」と誤記されうる。
6.上記全ての組合せ
前述の間違いのタイプのいずれも、綴りの間違った同じ単語内で組み合わせられうるし、その同じ単語内で2回以上起こりうる。例えば、ユーザは、「auction」の代わりに「oictiopn」と書くかもしれない。そこには2つの間違いの組合せがあり、そのうちの1つは二度繰り返されている。
a.音声類似性の誤記は、「o」と似た音声である、単語「auction」内の組合せ「au」で生じ、「auction」の代わりに、「oction」と書かれる。
b.この誤記との組み合わせで、複数のキーの挿入が、単語の始めの前述の「o」で生じて「oi」となり得、「auction」が「oiction」と誤った綴りになるだろう。
c.また、単語「auction」のもともとの「o」で複数のキーの挿入がさらに生じると、「o」の代わりに「op」が書かれうる。そして「auction」は、「oictiopn」と誤った綴りになってしまうだろう。
追加の選択肢は、公知の代替用法に基づく規則、および蓄積されたユーザの入力を用いることによって生成され得る。例:u→you、r→are、Im→I am
更なる選択肢が、好ましくは予め定義されたリストを用いて、文法規則に基づいて生成され得る。少数の例は以下の通りである。
単数形/複数形の規則:入力センテンスが「leaf fall off trees in the autumn」である場合、複数形の選択肢「leaves」が生成される。
冠詞の規則:入力テキストが「a old lady」である場合、冠詞の選択肢「an」および「the」が生成される。
前置詞の規則:入力テキストが「I am interested of football」である場合、前置詞の選択肢「in」、「at」、「to」、「on」、「through」、...が生成される。
動詞の活用規則:入力テキストが「He leave the room」である場合、動詞の活用の選択肢「left」、「leaves」、「had left」、...が生成される。
単語の結合および単語の分割の規則:入力テキストが「get alot fitter」である場合、選択肢「a lot」が生成される。
入力テキストが「we have to wat ch out」である場合、選択肢「watch」が生成される。
入力テキストが「do many sittups」である場合、選択肢「sit ups」が生成される。
本発明の好ましい実施形態の特有の特徴は、CFSおよびより具体的には特徴グラムなどの文脈情報を用いて訂正用選択肢を生成し、そしてそれはそのような「文脈的に検索された」訂正用選択肢にスコアを付けるためだけではないということである。CFSおよびより具体的には特徴グラムなどの、頻繁に生じる単語の組み合わせは、ユーザの電話テキスト(以前の電子メール、smsメッセージ、および連絡など)から、およびユーザのコンピュータ(文書および電子メールなど)から、および既存のコーパス(インターネットコーパスなど)から検索されうる。
以下の例は本発明のこの態様を示している。
入力センテンスが
「Way to go girl! This is my Donna premadma…」
である場合について。
ここで、誤記「premadma」は、音声上の置換で「i」が「e」となり、スペースと「o」が脱落し、近接キーの置換で「n」が「m」となり、「n」を二回打ち損じたことによる。
単語「premadma」は、単語「prima donna」に対して、キーボード近接性において、音または書面上において充分に類似しているわけではなく、本発明のこの態様がなければ、「prima donna」は選択肢の一つにならないかもしれない。
本発明のこの態様によれば、smsメッセージ、メールメッセージ、および個人的な連絡などのユーザの小型キーボード装置またはユーザのパーソナルコンピュータで使用可能なテキストにおいて、nグラム「my Donna」の後に一般に現れる単語、すなわち、クエリ「my Donna *」において*として見付かる全ての単語を探すことにより、以下の選択肢が検索される。
madonna; prima donna; donn; did it again; dear;
本発明の好ましい実施形態によれば、「文脈的に検索された」選択肢はその後フィルタリングにかけられ、元々の単語(この例では「premadma」)に対してキーボード近接性、音声上または書面上の類似性をいくらか有する文脈的に検索された選択肢のみが残る。この例では、最も高い音声上および書面上の類似性を有する選択肢、「prima donna」が検索される。
入力テキストが、音声テキストなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接受け取られてもよい。そのような追加の選択肢は、典型的には、そのようなシステムの動作の過程で生成される。例えば、音声認識システムでは、同じ音声の単語の単語選択肢が、選択肢として使用するためにそのシステムに供給され得る。
クラスター中の各単語について全ての選択肢が生成されると、クラスター全体についてクラスター選択肢が生成される。そのために、各種選択肢の可能な組合せを全て突き止め、次に、コーパス中、好ましくはインターネットコーパス中でのその発生頻度に基づいてその組み合わせをフィルタリングする。
以下の例が実例である。
入力クラスターが「singe lost」である場合、単語「singe」に対する選択肢は(部分的なリスト)、
sing; single; singer
であり、単語「lost」に対する選択肢は(部分的なリスト)、
last; list; lot
である。
以下のクラスターの選択肢が生成される。
sing last; sing list; sing lot; single last; single list; single lot; singer last; singer list; singer lot;
ここで図8を参照する。図8は、図2の綴り訂正機能において有用である、各種選択肢強化の文脈ベースおよび単語類似度ベースのスコア付けのための機能を例示する単純化したフローチャートである。
図8に見られるように、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。
I.非文脈的なスコア付け−各種クラスター選択肢に、キーボードの近接性、書面上の見た目、および音の類似性の観点から、入力テキスト中のクラスターに対する類似度に基づいてスコアを付ける。このスコア付けは、与えられたクラスター以外のいかなる文脈的な類似度も考慮に入れない。
II.インターネットコーパスを用いる文脈的なスコア付け−各種クラスター選択肢の各々にまた、図4を参照して上記で説明したようにして提供される、抽出された文脈特徴シーケンス(CFS)に基づいてスコアを付ける。このスコア付けは、以下のサブステージを含む。
IIA.発生頻度の解析が行われる。これは、好ましくはインターネットコーパスを用いて、図6の機能によって作り出された各種クラスター訂正用選択肢に対し、図4を参照して上記で説明されたようにして抽出されたCFSの文脈において、為される。
IIB.CFSの選択および各種CFSの重み付けが行われる。これは、サブステージIIAの発生頻度解析の結果にとりわけ基づいて行われる。重み付けはまた、各種CFSの相対的な固有の重要度にも基づく。CFSの一部にはゼロの重みが与えられ、選択されないようにしてもよいことは理解される。選択されたCFSには好ましくは相対的な重みが与えられる。
IIC.発生頻度のメトリックが、サブステージIIBで選択されたCFSごとに、各訂正用選択肢に対して割り当てられる。
IID.クラスター訂正用選択肢の縮小セットが生成される。これは、サブステージIIAの発生頻度解析、サブステージIICの発生頻度メトリック、および、サブステージIIBのCFSの選択と重み付けの結果にとりわけ基づいて行われる。
IIE.ステージIの非文脈的な類似度の最も高いスコアを有するクラスターが、訂正基準クラスターとして使用するために、サブステージIIDの縮小セットから選択される。
IIF.発生頻度のメトリックが、ステージIIBで選択されたCFSごとに、サブステージIIEの訂正基準クラスターに対して割り当てられる。
IIG.比のメトリック(ratio metric)が、サブステージIIBで選択されたCFSの各々に対して割り当てられる。これは、その特徴についての各訂正用選択肢の発生頻度メトリックの、サブステージIIEの基準クラスターに割り当てられた発生頻度メトリックに対する比である。
III.最も好ましいクラスター訂正用選択肢が、ステージIの結果およびステージIIの結果に基づいて選択される。
IV.信頼水準スコアが、最も好ましいクラスター訂正用選択肢に割り当てられる。
ステージII−IVにおいて上述した機能のより詳細な説明は以下で与えられる。
サブステージIIAに関して、訂正されるべきクラスターを含む全てのCFSは、図4において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むCFSは除外される。
CFSの各々におけるクラスターに対する訂正用選択肢の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての訂正用選択肢が発生頻度ゼロである全てのCFSは除外される。その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。
以下の例は、発生頻度マトリクスの生成を示す。
以下の入力テキストが提供される。
please cskk ne the minute you see this
ここで、誤記「cskk」は、二つの隣接するキーの置換によって起こったものである。つまり、「a」が隣接キー「s」に、「l」が隣接キー「k」に(2度)置き換えられたものである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
cskk ne
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
ask me; vale new; call me; cake near; call new; cell new
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘cskk ne’; ‘please cskk ne’; ‘cskk ne the’; ‘please cskk ne the’; ‘cskk ne the minute’; ‘please cskk ne the minute’; ‘cskk ne the minute you’
ステージIIAに関して上述した機能を用いて、表8に見られるインターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおける上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
全ての訂正用選択肢で発生頻度がゼロとなったCFSは全て除外される。この例では、以下の特徴グラムは除外される。
‘cskk ne the minute you’
その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれるCFSは全て除外される。この例では以下の特徴グラムは除外される。
‘cskk ne’; ‘please cskk ne’; ‘cskk ne the’; ‘please cskk ne the’; ‘cskk ne the minute’;
この例では、唯一残るCFSは、特徴グラム
‘please cskk ne the minute’
である。
その結果生じるマトリクスは表9に見られる通りとなる。
Figure 0005752150
上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、「call me」が好ましい訂正用選択肢であることは明らかである。現実には、選択は通常このように直接的ではないことを理解すべきである。従って、以下に提示する更なる例では、訂正用選択肢の間でのはるかに難しい選択を行うための機能が提供される。
サブステージIIBの考慮に戻って、任意には、残るCFSの各々には、図4を参照して上述したようにしてスコアが与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ、所定の信頼水準の閾値を下回る信頼水準を有するCFSは、負にバイアスされる。
一般的な場合において、サブステージIICにおいて上述したのと同様に、インターネットコーパス中での各CFSの正規化された発生頻度を示す正規化頻度マトリクスが生成されることが好ましい。正規化頻度マトリクスは通常、頻度マトリクスから、各CFSの頻度を、関連するクラスター選択肢の発生頻度の関数で割ることにより、生成される。
正規化は、各種訂正用選択肢の全体の人気度(popularity)における実質的な差の影響をなくすように機能する。好適な正規化係数は、特定のCFSに関係なく、全体として、コーパス中での各種訂正用選択肢の全体の発生頻度に基づく。
以下の例は、正規化された発生頻度のマトリクスの生成を示す。
以下の入力テキストが提供される。
Oh, then are you a dwcent or a student?
ここで、誤記「dwcent」は、隣接するキーの置換によって起こったものである。つまり、「o」が隣接キー「w」に置き換えられたものである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
dwcent
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
docent; decent; doesn’t
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘a dwcent’; ‘dwcent or a’
本明細書においてステージIICに関して上述した機能を用いて、表10に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
各種訂正用選択肢の全体の人気度における実質的な差のために、最も高い発生頻度を有する単語が、最も高い正規化された発生頻度を有するとは限らないことが上記の例より理解され得る。上記の例では、「docent」が最も高い正規化された発生頻度を有する。また、入力テキストの文脈から、「decent」ではなく、「docent」の方が正しい単語であることが明らかである。「decent」の方がインターネットコーパス中での発生頻度は高いにもかかわらずである。
本発明の特有の特徴は、各種訂正用選択肢の全体の人気度における実質的な差をなくす、正規化された発生頻度が、好ましくは、訂正用選択肢の選択に用いられることである。正規化された発生頻度以外の、発生頻度の他のメトリックが、代替的または付加的に、メトリックとして用いられ得ることを理解されたい。発生頻度が比較的低い場合、または著しく高い場合、付加的または代替的なメトリックは有益である。
付加的な機能がしばしば、各種訂正用選択肢の選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。
サブステージIIDにおいて、以下の2つのメトリックに従って、他のクラスター訂正用選択肢よりも好ましくない各クラスター訂正用選択肢が除外される。
i.他よりも、単語類似度スコアが低いクラスター訂正用選択肢。
ii.他よりも、CFSの全ての発生頻度が低く、好ましくは正規化された発生頻度も低いクラスター訂正用選択肢。
以下の例は、上述したような訂正用選択肢の除外を示す。
以下の入力テキストが提供される。
I leav un a big house
ここで、誤記「leav」は、小型キーボード装置のキーパッドで、「e」と押したのが認識されない、押下キー脱落によって起こったものである。誤記「un」は、隣接キー置換によって起こったものである。つまり、「i」が隣接キー「u」に置き換えられている。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
leav un
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
leave in; live in; love in
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘I leav un a’; ‘leav un a big’
本明細書においてステージIICに関して上述した機能を用いて、表11に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表12に示される通りである。
Figure 0005752150
クラスター訂正用選択肢「love in」は除外される。「live in」よりも類似度スコアが低く、かつ、発生頻度および正規化された発生頻度も低いからである。クラスター訂正用選択肢「leave in」は、この段階では除外されない。類似度スコアが「live in」よりも高いからである。
以上より理解され得るように、ステージIIDの機能の動作の結果、縮小された頻度マトリクス(および、好ましくはまた、縮小された正規化頻度マトリクス)を得る。これらは、縮小された複数のCFSの各々についての、縮小された複数の訂正用選択肢(各々、類似度スコアを有する)の各発生頻度(および、好ましくはまた、正規化された発生頻度)を示すものである。以下の例から分かるように、クラスター訂正用選択肢の縮小セットは、後続のクラスター選択肢の選択機能の全てで好ましくは用いられる。
縮小された頻度マトリクス(および、好ましくはまた、縮小された正規化頻度マトリクス)における各訂正用選択肢に対し、最終選好性メトリックが生成される。1つまたは複数の以下の選択肢のメトリックが用いられ訂正用選択肢ごとに最終選好性スコアが生成されてもよい。
用語「頻度関数(frequency function)」は、以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
A.一つの可能な選好性メトリックは、一つまたは複数の縮小されたマトリクス中のCFSのいずれかについての、そのマトリクス中の各クラスター訂正用選択肢に対する最も高い発生頻度の関数である。例えば、各種クラスター訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A big rsgle in the sky
ここで、誤記「rsgle」は、隣接キーの2つの置換によって起こったものである。つまり、「e」が隣接キー「r」に置き換えられ、「a」が隣接キー「s」に置き換えられている。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
rsgle
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
regale; eagle; angle
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘big rsgle’; ‘rsgle in the sky’
本明細書においてステージIICに関して上述した機能を用いて、表13に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表14に示される通りである。
Figure 0005752150
選択肢「eagle」が選択される。最大の発生頻度と最も高い類似度スコアのCFSを有するからである。
B.他の可能な選好性メトリックは、各訂正用選択肢についての、全てのCFSの発生頻度の平均の関数である。例えば、各種訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A while ago yheee lived 3 dwarfs
ここで、誤記「yheee」は、隣接キーの2つの置換によって起こったものである。つまり、「t」が隣接キー「y」に置き換えられ、「r」が隣接キー「e」に置き換えられている。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
yheee
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
the; there; you; tree
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘ago yheee lived’; ‘yheee lived 3’
本明細書においてステージIICに関して上述した機能を用いて、表15および16に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
Figure 0005752150
平均の発生頻度に基づいて「there」が選択されることに留意されたい。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表17に示される通りである。
Figure 0005752150
最も高い類似度スコアを有するクラスター訂正用選択肢は選択されないことに留意されたい。
C.さらに可能な選好性メトリックは、加重和である。図4を参照して上述した機能によって算出されるようなCFSのスコアを掛け算された各CFSの発生頻度関数の、訂正用選択肢ごとの全CFSにわたる、加重和である。
D.[特定の訂正用選択肢/CFS]の選好性メトリックが生成される。サブステージIIE−IIGを参照して上述したように、一つまたは複数の縮小されたマトリクス中の訂正用選択肢に対し以下の操作を、いずれか一つ以上、より好ましくは大部分、最も好ましくは全て、行うことによって、生成される。
i.最も高い非文脈的な類似度スコアを有するクラスター訂正用選択肢を選択し、基準クラスターとする。
ii.修正マトリクスが作成される。各選択マトリクスにおいて、各特徴グラムにおける各訂正用選択肢の発生頻度関数を、各訂正用選択肢の発生頻度関数の、基準クラスターの発生頻度関数に対する比に置き換えたものである。
iii.iiにおいて上述したタイプの修正マトリクスが、さらに修正される。各選好性メトリックにおける比を、比の関数(比の差が非常に大きいことの計算上の重要性を軽減させる関数)に置き換えることによって修正される。好適なそのような関数は対数関数である。この操作の目的は、最も好ましい訂正用選択肢の最終選好性スコア付けにおいて、発生頻度の差が大きいことにあまり重点が置かれず、最も好ましくない訂正用選択肢の最終選好性スコア付け(従って除去)において、発生頻度の差が大きいことに依然として重点が置かれるようにすることである。
iv.iiまたはiiiで上述したタイプの修正マトリクスが、追加的に修正される。各選好性メトリックにおける適用可能な比または比の関数に、適切なCFSスコアを掛けることによって修正される。これは、正しい文法の用法、およびCFSスコアに反映される他の要因を基にした強調を提供する。
v.ii、iiiまたはivで上述したタイプの修正マトリクスが、追加的に修正される。適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって修正される。好ましい関数は、各選好性メトリックにおける適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
E.最終選好性メトリックが、Dで上述したような[特定の訂正用選択肢/CFS]の選好性メトリックに基づいて、各訂正用選択肢について算出される。訂正用選択肢の類似度スコアに、その[訂正用選択肢]の全てのCFSの[特定の訂正用選択肢/CFS]の選好性メトリックの和を掛けることによって、訂正用選択肢ごとに算出される。
そのような修正マトリクスの使用を示す例は以下の通りである。
以下の入力テキストが提供される。
I will be able to tach base with you next week
ここで、誤記「tach」は、文字「o」の脱落によって起こったものである。これは、不正確なタイプ打ちのために小型キーボード装置で「o」が記録されなかったものである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
tach
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
teach; touch
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘able to tach’; ‘to tach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表18に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
発生頻度と正規化された発生頻度の両方とも、ある特徴については、「teach」の方が「touch」よりも大きいが、別の特徴については、「touch」の方が「teach」よりも大きいことに留意されたい。訂正用選択肢を正しく選択するために、サブステージIIGに関して上述した、比のメトリックは、以下に説明するようにして用いられることが好ましい。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表19に示される通りである。
Figure 0005752150
基準クラスターは「teach」であることがわかる。その類似度スコアが最も高いからである。それにも関わらず、上述した最終選好性スコアによれば、「touch」が選択される。「teach」が最も高い発生頻度と最も高い正規化された発生頻度を有することを示す上記マトリクスを考慮すれば認識され得るように、これはすぐには理解できない。この例では、最終選好性スコアは、「teach」ではなく「touch」を選択することを示している。「touch」を好む特徴の発生頻度の比は、「teach」を好む、他方の特徴の発生頻度の比よりもずっと大きいからである。
F.任意に、訂正用選択肢が除去されてもよい。除去は、その訂正用選択肢について、および、基準クラスターについて、頻度関数の値および選好性メトリックの比較を基に、以下の決定規則の一つ以上を用いて行われる。
1.所定の閾値を下回る類似度スコアを有し、かつ、CFSスコアが所定の閾値よりも高い少なくとも一つの特徴の基準クラスターのCFS頻度関数よりも小さいCFS頻度関数を有する訂正用選択肢を除去する。
2.所定の閾値を下回る類似度スコアを有し、かつ、CFSスコアが別の所定の閾値よりも高い少なくとも一つの特徴について、所定の閾値よりも小さい選好性メトリックを有する訂正用選択肢を除去する。
3.a.各CFSのCFSスコアを確かめる。
b.各CFSについて、基準クラスターのCFS頻度関数と、訂正用選択肢のCFS頻度関数を確かめ、基準クラスターと訂正用選択肢のどちらがそのCFSについてより高い頻度関数を有するかを確かめる。
c.訂正用選択肢が基準クラスターよりも高い頻度を有するCFSについて、そのCFSスコアを合計する。
d.基準クラスターが訂正用選択肢よりも高い頻度を有するCFSについて、そのCFSスコアを合計する。
e.cの和がdの和よりも小さい訂正用選択肢を除去する。
以下の例は、上述した除去機能を示す。
以下の入力テキストが提供される.
I am fawlling im love
ここで、誤記「fawling」は、「a」に隣接するキーである「w」の挿入によって起こり、誤記「im」は、「n」のかわりに「m」を押した結果である。それらは2つとも隣接キーである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fawlling im
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
falling on; falling in; feeling on; feeling in
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘am fawlling im ’; ‘fawlling im love’; ‘am fawlling im love’; ‘I am fawlling im ’
本明細書においてサブステージIIAに関して上述した機能を用いて、表20に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される。
‘am fawlling im ’; ‘fawlling im love’
この例では、残るCFSは特徴グラム
‘am fawlling im love’; ‘I am fawlling im ’
である。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表21に示される通りである。
Figure 0005752150
訂正用選択肢「falling on」、「feeling on」、および「feeling in」は除去される。CFSのうちの一つについて発生頻度がゼロだからである。
G.前記Fでの除去で残った訂正用選択肢について、A−Eで上述したようにして生じた最終選好性メトリックに基づいて、ステージIIIに関して上述したように、ランクが確定する。最も高い最終選好性スコアを有する訂正用選択肢が選択される。
H.選択された訂正用選択肢に対し、ステージIVに関して上述したように、信頼水準が割り当てられる。この信頼水準は、以下のパラメータのうちの一つ以上に基づいて算出される。
a.上記サブステージIIBで提供された選択されたCFSの個数、タイプ、およびスコア。
b.CFSの文脈における、各種クラスター訂正用選択肢の発生頻度の統計的な有意性。
c.各CFSの選好性メトリック、および、各種訂正用選択肢の単語類似度スコアに基づく、訂正用選択肢の選択に関するコンセンサスの度合い。
d.所定の最小の閾値を上回る、選択されたクラスター訂正用選択肢の非文脈的な類似度スコア(ステージI)。
e.所定の最小の閾値を上回るCFSスコアを有し、かつ、別の所定の閾値を上回る選好性スコアを有する、縮小マトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
信頼水準が所定の閾値を上回っている場合、選択された訂正用選択肢は、ユーザとの対話処理無しで実施される。信頼水準が所定の閾値よりも低いが、より低い所定の閾値よりも高い場合、選択された訂正用選択肢は実施されるが、ユーザとの対話処理が求められる。信頼水準が、より低い所定の閾値よりも低い場合、訂正用選択肢の優先順位を付されたリストに基づくユーザの選択が求められる。
以下の例は、信頼水準のスコア付けの使用の実例である。
以下の入力テキストが提供される。
He was not feeling wekk when he returned
ここで、誤記「wekk」は、隣接キーの置換によって起こったものである。つまり、「l」が「k」と二回置き換えられている。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
wekk
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
week; well
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘was not feeling wekk’; ‘not feeling wekk when’; ‘feeling wekk when he’; ‘wekk when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表22に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
以上の例は、上記Hで示した全ての基準により、「week」よりも「well」の選択が高い信頼水準を有することを示す。
以下の例では、信頼水準は幾分低くなっている。訂正用選択肢「back」は、CFS「bech in the summer」で「beach」より発生頻度が高いが、「beach」は、CFS「on the beech in」と「the bech in the」で、「back」より発生頻度が高いからである。訂正用選択肢「beach」が、基準H(c)に基づいて中級の信頼水準で選択される。
以下の入力テキストが提供される。
I like to work on the bech in the summer
ここで、誤記「bech」は、押下キー脱落によって起こったものである。つまり「a」と押したのに、小型キーボード装置のキーパッドで記録されなかったものである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
bech
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
beach; beech; back
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘on the bech in’; ‘the bech in the’; ‘bech in the summer’
サブステージIIAに関して上述した機能を用いて、表23に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
訂正用選択肢「beach」が、基準H(c)に基づいて中級の信頼水準で選択される。
以下の例では、基準H(a)に基づいて、信頼水準はさらに低い。
以下の入力テキストが受け取られる。
Expets are what we need now, really...
ここで、誤記「Expets」は、押下キーの脱落のよって起こったものである。つまり、「r」を押したのに、小型キーボード装置のキーパッドで記録されなかったものである。
図5Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
Expets
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
Experts; Exerts; Expects
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘Expets are’; ‘Expets are restoring’; ‘Expets are restoring the; ‘Expets are restoring the British’
サブステージIIAに関して上述した機能を用いて、表24に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
全ての訂正用選択肢が発生頻度ゼロとなるCFSは全て除外される。この例では、以下の特徴グラムは除外される。
‘Expets are what; ‘Expets are what we; ‘Expets are what we need’
この例では、唯一の残るCFSは、特徴グラム
‘Expets are’
である。
以上の例から分かるように、除去処理で残った唯一のCFSは「Expets are」である。結果として、信頼水準は比較的に低い。一つのCFSのみに基づいての選択であり、そのCFSも比較的に短く、疑わしい単語を除けば、含まれる単語は一つだけであり、その単語も頻繁に発生する単語だからである。
ここで図8を参照する。図8は、図3、図9および図10の誤用された単語および文法の訂正機能において有用である、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。
図8に見られるように、各種訂正用選択肢の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。
I.非文脈的なスコア付け−各種クラスター選択肢に、書面上の見た目および音の類似性の観点から、入力テキスト中のクラスターに対する類似度に基づいてスコアを付ける。このスコア付けは、与えられたクラスター以外のいかなる文脈的な類似度も考慮に入れない。
II.インターネットコーパスを用いる文脈的なスコア付け−各種クラスター選択肢の各々にまた、図4を参照して上記で説明したようにして提供される、抽出された文脈特徴シーケンス(CFS)に基づいてスコアを付ける。このスコア付けは、以下のサブステージを含む。
IIA.発生頻度の解析が行われる。これは、好ましくはインターネットコーパスを用いて、図6の機能によって作り出された各種クラスター訂正用選択肢に対し、
図4を参照して上記で説明されたようにして抽出されたCFSの文脈において、為される。
IIB.CFSの選択および各種CFSの重み付けが行われる。これは、サブステージIIAの発生頻度解析の結果にとりわけ基づいて行われる。重み付けはまた、各種CFSの相対的な固有の重要度にも基づく。CFSの一部にはゼロの重みが与えられ、選択されないようにしてもよいことは理解される。選択されるCFSには、好ましくは相対的な重みが与えられる。
IIC.発生頻度のメトリックが、サブステージIIBで選択されたCFSの各々について、各訂正用選択肢に対して割り当てられる。
IID.クラスター訂正用選択肢の縮小セットが生成される。これは、サブステージIIAの発生頻度解析、サブステージIICの発生頻度メトリック、および、サブステージIIBのCFSの選択と重み付けの結果にとりわけ基づいて行われる。
IIE.訂正基準クラスターとして使用するために、入力クラスターが選択される。
IIF.発生頻度のメトリックが、ステージIIBで選択されたCFSごとに、サブステージIIEの訂正基準クラスターに対して割り当てられる。
IIG.比のメトリックが、サブステージIIBで選択された特徴の各々に対して割り当てられる。これは、その特徴についての各訂正用選択肢の発生頻度メトリックの、サブステージIIBの基準クラスターに割り当てられた発生頻度メトリックに対する比である。
III.最も好ましいクラスター訂正用選択肢が、ステージIの結果およびステージIIの結果に基づいて選択される。
IV.信頼水準スコアが、その最も好ましいクラスター訂正用選択肢に割り当てられる。
ステージII−IVにおいて上述した機能のより詳細な説明は以下で与えられる。
サブステージIIAに関して、訂正されるべきクラスターを含むCFSの全ては、図4において上述したようにして生成される。入力クラスター中の誤り以外の誤りが疑われるものを含むCFSは除外される。
各CFSのクラスターに対する訂正用選択肢の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての訂正用選択肢が発生頻度ゼロであるCFSは全て除外される。その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれるCFSは全て除外される。
以下の例は、発生頻度マトリクスの生成を示す。
以下の入力テキストが提供される。
I fid dome research already
ここで、誤記「fid」は、「d」が「f」に置き換えられた隣接キー置換によって起こったものであり、誤記「dome」は、「s」が「d」に置き換えられた隣接キー置換によって起こったものである。
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fid dome
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
feed some; did some; did come; deed dim; pod dime; pod dome
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘fid dome’; ‘I fid dome’; ‘fid dome research’; ‘I fid dome research’; ‘I fid dome research already’
サブステージIIAに関して上述した機能を用いて、表25に見られるインターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
全ての訂正用選択肢が発生頻度ゼロとなるCFSは全て除外される。この例では、以下の特徴グラムは除外される。
‘I fid dome research already’
その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される。
‘fid dome’; ‘I fid dome’; ‘fid dome research’
この例では、唯一の残るCFSは、以下の特徴グラム
‘I fid dome research’
である。
その結果生じるマトリクスは表26に見られる通りとなる。
Figure 0005752150
上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、「did some」が好ましい訂正用選択肢であることは明らかである。実際には毎回そんなにすんなりと選択されるものではないと認識される。従って、以下に提示する更なる例では、訂正用選択肢からの選択がはるかに難しいときの機能が提供される。
サブステージIIBの考慮に戻って、任意には、残るCFSの各々には、図4を参照して上述したようにしてスコアが与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ所定の信頼水準の閾値を下回る信頼水準を有するCFSは、負にバイアスされる。
一般的な場合において、サブステージIICにおいて上述したのと同様に、好ましくは、インターネットコーパス中での各CFSの正規化された発生頻度を示す正規化頻度マトリクスが生成される。正規化頻度マトリクスは通常、各CFSの頻度を、関連するクラスター選択肢の発生頻度の関数で割ることにより、頻度マトリクスから生成される。
正規化は、各種訂正用選択肢の全体の人気度における実質的な差の影響をなくすように機能する。好適な正規化係数は、CFSに関係なく、全体として、コーパス中での各種訂正用選択肢の全体の発生頻度に基づく。
以下の例は、正規化された発生頻度のマトリクスの生成を示す。
以下の入力テキストが、典型的には音声認識によって、提供される。
Oh, then are you a [decent/docent] or a student?
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
decent
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
decent; decent; doesn’t
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘a decent’; ‘decent or a’
本明細書においてサブステージIICに関して上述した機能を用いて、表27に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
各種訂正用選択肢の全体の人気度における実質的な差のために、最も高い発生頻度を有する単語が、最も高い正規化された発生頻度を有するとは限らないことが上記の例より理解され得る。上記の例では、「docent」が最も高い正規化された発生頻度を有する。また、入力テキストの文脈から、「decent」ではなく、「docent」の方が正しい単語であることが明らかである。「decent」の方がインターネットコーパス中での発生頻度は高いにもかかわらずである。
本発明の特有の特徴は、各種訂正用選択肢の全体の人気度における実質的な差の影響をなくす、正規化された発生頻度が、訂正用選択肢の選択に用いられることにある。正規化された発生頻度以外の、発生頻度の他のメトリックが、代替的または付加的に、メトリックとして用いられ得ることを理解されたい。発生頻度が比較的低い場合、または著しく高い場合、付加的または代替的なメトリックは有益である。
付加的な機能がしばしば、各種訂正用選択肢の選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。
サブステージIIDにおいて、以下の2つのメトリックに従って、他の訂正用選択肢よりも好ましくないクラスター訂正用選択肢が除外される。
i.他よりも、単語類似度スコアが低いクラスター訂正用選択肢。
ii.他よりも、CFSの全ての発生頻度が低く、好ましくは正規化された発生頻度も低いクラスター訂正用選択肢。
以下の例は、上述したような訂正用選択肢の除外を示す。
以下の入力テキストが提供される。
I leave on a big house
ここで、誤記「leave」は、「i」が「ea」と置き換えられた音声置換によって起こったものであり、誤記「on」は、「i」が「o」と置き換えられた隣接キー置換によって起こったものである。
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
leave on
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
leave in; live in; love in;
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘I leave on a’; ‘leave on a big’
本明細書においてステージIIEに関して上述した機能を用いて、表28に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表29に示される通りである。
Figure 0005752150
クラスター訂正用選択肢「love in」は除外される。「live in」よりも類似度スコアが低く、かつ、発生頻度および正規化された発生頻度も低いからである。クラスター訂正用選択肢「leave in」は、この段階では除外されない。類似度スコアが「live in」よりも高いからである。
以上より理解され得るように、サブステージIIDの機能の動作の結果、縮小された頻度マトリクス(および、好ましくはまた、縮小された正規化頻度マトリクス)を得る。これらは、縮小された複数のCFSの各々についての、縮小された複数の訂正用選択肢(各々、類似度スコアを有する)毎の発生頻度(および、好ましくはまた、正規化された発生頻度)を示すものである。以下の例から分かるように、クラスター訂正用選択肢の縮小セットは、後続のクラスター選択肢の選択機能の全てで好ましくは用いられる。
縮小された頻度マトリクス(および、好ましくは、縮小された正規化頻度マトリクス)における各訂正用選択肢に対し、最終選好性メトリックが生成される。1つまたは複数の以下の択一のメトリックが用いられ訂正用選択肢ごとに最終選好性スコアが生成され得る。
用語「頻度関数」は、以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
A.一つの可能な選好性メトリックは、一つまたは複数の縮小されたマトリクス中のCFSのいずれかについての、そのマトリクス中の各クラスター訂正用選択肢に対する最も高い発生頻度の関数である。例えば、各種クラスター訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される:
I am vary satisfied with your work
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
vary
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
vary; very
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘am vary’; ‘vary satisfied’; 'I am vary satisfied with'
本明細書においてサブステージIICに関して上述した機能を用いて、表30および表31に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
Figure 0005752150
この例では、発生頻度および正規化された発生頻度の両方から、「very」が最も高い頻度関数を有することが分かる。
B.他の可能な選好性メトリックは、各訂正用選択肢についての、全てのCFSの発生頻度の平均の関数である。例えば、各種訂正用選択肢に以下の通りにスコアが付けられる。
以下の入力テキストが提供される。
A while ago the lived 3 dwarfs
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
the
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
the; they; she; there
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘ago the lived’; ‘the lived 3’
本明細書においてサブステージIICに関して上述した機能を用いて、表32および表33に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
Figure 0005752150
「there」は、その発生頻度がマトリクス中での最大の発生頻度となるCFSを有するにも関わらず、平均の発生頻度に基づいて「they」が選択されることに留意されたい。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表34に示される通りである。
Figure 0005752150
最も高い類似度スコアを有するクラスター訂正用選択肢は選択されないことに留意されたい。
C.さらに可能な選好性メトリックは、加重和である。図4を参照して上述した機能によって算出されるようなCFSのスコアを掛け算された各CFSの発生頻度関数の、訂正用選択肢ごとの全CFSにわたる、加重和である。
D.[特定の訂正用選択肢/CFS]の選好性メトリックが生成される。サブステージIIE−IIGを参照して上述したように、一つまたは複数の縮小されたマトリクス中の訂正用選択肢に対し以下の操作を、いずれか一つ以上、より好ましくは大部分、最も好ましくは全て、行うことによって、生成される。
i.訂正のために選択された元々の入力テキストからのクラスターが選択されて、基準クラスターとなる。
ii.修正マトリクスが作成される。各選択マトリクスにおいて、各特徴グラムにおける各訂正用選択肢の発生頻度関数を、各訂正用選択肢の発生頻度関数の、基準クラスターの発生頻度関数に対する比に置き換えたものである。
iii.iiにおいて上述したタイプの修正マトリクスが、さらに修正される。各選好性メトリックにおける比を、比の関数(比の差が非常に大きいことの計算上の重要性を軽減させる関数)に置き換えることによって修正される。好適なそのような関数は対数関数である。この操作の目的は、最も好ましい訂正用選択肢の最終選好性スコア付けにおいて、発生頻度の差が大きいことにあまり重点が置かれず、最も好ましくない訂正用選択肢の最終選好性スコア付け(従って除去)において、発生頻度の差が大きさことに依然として重点が置かれるようにすることである。
iv.iiまたはiiiで上述したタイプの修正マトリクスが、追加的に修正される。各選好性メトリックにおける適用可能な比または比の関数に、適切なCFSスコアを掛けることによって修正される。これは、正しい文法の用法、およびCFSスコアに反映される他の要因を基にした強調を提供する。
v.ii、iiiまたはivで上述したタイプの修正されたマトリクスが、追加的に修正される。各選択マトリクスにおける適用可能な比または比の関数に、ユーザ不確実性メトリックの関数を掛け算することによって修正される。ユーザ入力不確実性メトリックのいくつかの例としては、
ワードプロセッサで行われた入力単語またはクラスターに関する編集行為の回数(その文書中の他の単語に対する編集行為と比較して)、
ワードプロセッサで行われた入力単語またはクラスターの書き込みのタイミング(その文書中の他の単語の書き込みの時間と比較して)、および
音声認識入力機能で行われた入力単語またはクラスターの語りのタイミング(そのユーザが他の単語を話す時間と比較して)
が挙げられる。ユーザ入力不確実性メトリックは、そのユーザの単語の選択の確実性の指標を提供する。このステップは、基準クラスターに対する算出されたバイアスを取得し、このクラスターについてのユーザの確実性または不確実性の関数によってそれを修正する。
vi.ii、iii、ivまたはvで上述したタイプの修正マトリクスが追加的に修正される。適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって修正される。好ましい関数は、各選好性メトリックにおける適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
E.最終選好性メトリックが、Dで上述したような[特定の訂正用選択肢/CFS]の選好性メトリックに基づいて、各訂正用選択肢について算出される。訂正用選択肢の類似度スコアに、その[訂正用選択肢]の全てのCFSの[特定の訂正用選択肢/CFS]の選好性メトリックの和を掛けることによって、訂正用選択肢ごとに算出される。
そのような修正マトリクスの例は以下の通りである。
以下の入力テキストが提供される。
I will be able to teach base with you next week
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
teach
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
teach; touch
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘able to teach’; ‘to teach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表35に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
発生頻度と正規化された発生頻度の両方とも、ある特徴については、「teach」の方が「touch」よりも大きいが、別の特徴については、「touch」の方が「teach」よりも大きいことに留意されたい。訂正用選択肢を正しく選択するために、サブステージIIGに関して上述した、比のメトリックは、以下に説明するようにして用いられることが好ましい。
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表36に示される通りである。
Figure 0005752150
基準クラスターは「teach」であることがわかる。その類似度スコアが最も高いからである。それにも関わらず、上述した最終選好性スコアによれば、「touch」が選択される。「teach」が最も高い発生頻度と最も高い正規化された発生頻度を有することを示す上記マトリクスを考慮すれば認識され得るように、これはすぐには理解できない。この例では、最終選好性スコアは、「teach」ではなく「touch」を選択することを示している。「touch」を好む特徴の発生頻度の比は、「teach」を好む、他方の特徴の発生頻度の比よりもずっと大きいからである。
F.任意に、訂正用選択肢が除去されてもよい。除去は、その訂正用選択肢について、および、基準クラスターについて、頻度関数の値および選好性メトリックの比較を基に、以下の決定規則の一つ以上を用いて行われる。
1.所定の閾値を下回る類似度スコアを有し、かつ、CFSスコアが所定の閾値よりも高い少なくとも一つの特徴の基準クラスターのCFS頻度関数よりも小さいCFS頻度関数を有する訂正用選択肢を除去する。
2.所定の閾値を下回る類似度スコアを有し、かつ、CFSスコアが別の所定の閾値よりも高い少なくとも一つの特徴について、所定の閾値よりも小さい選好性メトリックを有する訂正用選択肢を除去する。
3.a.各CFSのCFSスコアを確かめる。
b.各CFSについて、基準クラスターのCFS頻度関数と、訂正用選択肢のCFS頻度関数を確かめ、基準クラスターと訂正用選択肢のどちらがそのCFSについてより高い頻度関数を有するかを確かめる。
c.訂正用選択肢が基準クラスターよりも高い頻度を有するCFSについて、そのCFSスコアを合計する。
d.基準クラスターが訂正用選択肢よりも高い頻度を有するCFSについて、そのCFSスコアを合計する。
e.cの和がdの和よりも小さい訂正用選択肢を除去する。
以下の例は、上述した除去機能を示す。
以下の入力テキストが、典型的には音声認識機能によって、提供される。
I want [two/to/too] items, please.
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
[two/to/too]
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
two; to; too
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘I want two’; ‘want two items’
本明細書においてステージIIAに関して上述した機能を用いて、表37に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
訂正用選択肢「too」および「to」は除去される。CFSのうちの一つについて発生頻度がゼロだからである。他のCFSについて高い発生頻度があるにも関わらずである。このようにここで、唯一の残るCFSは、「two」である。
G.前記Fでの除去で残った訂正用選択肢について、A−Eで上述したようにして展開された最終選好性メトリックに基づいて、ステージIIIに関して上述したように、ランクが確定する。最も高い最終選好性スコアを有する訂正用選択肢が選択される。
H.選択された訂正用選択肢に対し、ステージIVに関して上述したように、信頼水準が割り当てられる。この信頼水準は、以下のパラメータのうちの一つ以上に基づいて算出される。
a.上記サブステージIIBで提供された選択されたCFSの個数、タイプ、およびスコア。
b.CFSの文脈における、各種クラスター訂正用選択肢の発生頻度の統計的な有意性。
c.各CFSの選好性メトリック、および、各種訂正用選択肢の単語類似度スコアに基づく、訂正用選択肢の選択に関するコンセンサスの度合い。
d.所定の最小の閾値を上回る、選択されたクラスター訂正用選択肢の非文脈的な類似度スコア(ステージI)。
e.所定の最小の閾値を上回るCFSスコアを有し、かつ、別の所定の閾値を上回る選好性スコアを有する、縮小マトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
信頼水準が所定の閾値を上回っている場合、選択された訂正用選択肢は、ユーザとの対話処理無しで実施される。信頼水準が所定の閾値よりも低いが、より低い所定の閾値よりも高い場合、選択された訂正用選択肢は実施されるが、ユーザとの対話処理が求められる。信頼水準が、より低い所定の閾値よりも低い場合、訂正用選択肢の優先順位を付されたリストに基づくユーザの選択が求められる。
以下の例は、信頼水準のスコア付けの使用の実例である。
以下の入力テキストが提供される。
He was not feeling wale when he returned
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
wale
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
wale; well
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘was not feeling wale'; ‘not feeling wale when; ‘feeling wale when he’; ‘wale when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表38に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
以上の例は、上記Hで示した基準の全てにより、「wale」よりも「well」の選択が高い信頼水準を有することを示す。
以下の例では、信頼水準は幾分低くなっている。訂正用選択肢「back」は、CFS「beech in the summer」で「beach」より発生頻度が高いが、「beach」は、CFS「on the beech in」と「the beech in the」で、「back」より発生頻度が高いからである。訂正用選択肢「beach」が、基準H(c)に基づいて中級の信頼水準で選択される。
以下の入力テキストが提供される。
I like to work on the beech in the summer
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
beech
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
beach; beech; back
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘on the beech in’; ‘the beech in the’; ‘beech in the summer’
ステージIIAに関して上述した機能を用いて、表39に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
訂正用選択肢「beach」が、基準H(c)に基づいて中級の信頼水準で選択される。
以下の例では、基準H(a)に基づいて、信頼水準はさらに低い。
以下の入力テキストが受け取られる。
Exerts are restoring the British Museum’s round reading room
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
Exerts
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
Expert; Exerts; Expects
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘Exerts are’; ‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
サブステージIIAに関して上述した機能を用いて、表40に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
全ての訂正用選択肢が発生頻度ゼロとなるCFSは全て除外される。この例では、以下の特徴グラムは除外される。
‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
この例では、唯一の残るCFSは、特徴グラム
‘Exerts are’
である。
以上の例から分かるように、除去処理で残った唯一のCFSは「Expets are」である。結果として、信頼水準は比較的に低い。一つのCFSのみに基づいての選択であり、そのCFSも比較的に短く、疑わしい単語を除けば、含まれる単語は一つだけであり、その単語も頻繁に発生する単語だからである。
以下の例は、上記ステージDおよびEで説明した最終選好性スコアのメトリックの使用を示す。
以下の入力テキストが提供される。
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図5Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
fast
図6を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
fat; fast
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
'and getting fast'; 'getting fast so'; 'fast so you'; 'fast so you will'
本明細書においてサブステージIIAに関して上述した機能を用いて、表41に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
この例では、クラスター訂正用選択肢の非文脈的な類似度スコアは、表42に示される通りである。
Figure 0005752150
上記ステージDおよびEで説明した最終選好性スコアのメトリックを用いて、訂正用選択肢「fat」が低い信頼度で選択される。
ここで図9を参照する。図9は、欠落要素の訂正機能の動作を示す詳細なフローチャートである。欠落要素の訂正機能は、冠詞、前置詞、句読点、および入力テキスト中で主に文法的な機能を果たす他の要素について、その欠落の訂正をするように機能する。この機能は、図1の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。
欠落の疑いのある要素の特定は、以下のようにして行われることが好ましい。
先ず、綴りを訂正された入力テキストについて、特徴グラムが生成される。綴りを訂正された入力テキストにおける各特徴グラムの、コーパス中、好ましくはインターネットコーパス中での発生頻度(FREQ F-G)が確かめられる。
各特徴グラムの予期される発生頻度(EFREQ F-G)は以下のように算出される。
特徴グラムは、W−Wとして特定されるn個の単語を含むと想定される。
は、特徴グラム中のi番目の単語を示す。
与えられた特徴グラムの予期される発生頻度は、特徴グラム中の単語の分割(単語W...W(n−1)の各々に続く2つの連続部分への分割)に基づいて、その特徴グラムの予期される頻度のうちで最も高いものになるように取られる。
単語Wに続く2つの連続部分への特徴グラム中の単語の分割に基づく特徴グラムの予期される頻度は、以下の通りに表すことができる。
についてのEFREQ F-G = (FREQ(W1-Wi)×FREQ(Wi+1-Wn))/(コーパス中での全ての単語の頻度の合計)
2つの連続部分への特徴グラム中の単語の全ての可能な分割に基づいて、各特徴グラムの予期される頻度が算出される。
についてのFREQ F-G/EFREQ F-Gが所定の閾値よりも小さい場合、Wについての特徴グラムは、その特徴グラムにおいてWとWi+1との間で冠詞、前置詞、または句読点が欠落している疑いがあると考えられる。
綴りを訂正された入力テキスト中の2つの連続する単語の間で欠落の疑いがある単語連結部は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた単語連結部分を見い出す試みを行うことによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語連結部の最も長い一つまたは複数のシーケンスを有する単語連結部が選択される。
一つまたは好ましくは複数の挿入用選択肢が単語連結部ごとに生成される。好ましくは、もしかしたら欠落している、句読点、冠詞、前置詞、接続詞、その他の要素(名詞、動詞または形容詞を通常含まない)などの所定のセットに基づいて生成される。
各種挿入用選択肢の、少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付けが、図8を参照して上述し、かつ以下に説明される訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。
以下の例が実例となる。
以下の入力テキストが適用される。
I can’t read please help me
図4を参照して上述した機能を用いて、以下の特徴グラムが生成される(部分的なリスト)。
I can't read; can't read please; read please help; please help me
上述した機能を用いて、インターネットコーパス中での発生頻度のマトリクスが、上記リストの特徴グラムに対して生成され、それは、典型的には表43に見られる通りである。
Figure 0005752150
予期される発生頻度は、以下の式に従って、特徴グラム中の各単語Wについて特徴グラムごとに算出される。
についてのEFREQ F-G = (FREQ(W1-Wi)×FREQ(Wi+1-Wn))/(コーパス中での全ての単語の頻度の合計)
それらの計算の一部の例示的な結果は、表44および表45に見られる。
Figure 0005752150
Figure 0005752150
上記結果から分かるように、特徴グラムの各々の実際の発生頻度は、その予期される発生頻度よりも小さい。これは、句読点などの要素の不在が疑われることを示す。
単語「read」に続く挿入用選択肢のリストが生成される。このリストは、句読点、冠詞、接続詞、および前置詞の所定のリストを含むことが好ましい。特には、ピリオド「.」を含めておく。
選択肢の部分的なリストは、
'read please'; 'read. Please'; 'read of please'; 'read a please'
である。
図4を参照して上述した機能を用いて、以下のCFSが生成される。
'I can't read [?]'; 'read [?] please help'; ' [?] please help me'
図8のステージIIAで説明した機能を用いて、表46に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
「.」がクラスターに含まれている場合、「.」を有するクラスターを含むCFSの発生頻度が、「.」の前後のテキストで別々に検索される。つまり、特徴グラム「can’t read. Please」は、2つの別の文法構文解析フレーズを含むため、生成されない。
Figure 0005752150
図8のステージDおよびEで説明した機能を用いて、最終選好性メトリックは、訂正用選択肢「read. Please」を選択する。訂正された入力テキストは、
I can’t read. Please help me.
である。
以下の例は、欠落した前置詞を追加する機能を示している。
以下の入力テキストが提供される。
I sit the sofa
後述する機能を用いて、以下のクラスターが訂正のために選択される。
‘sit the’
後述する機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
sit on the; sit of the; sit the
図4を参照して上述した機能を用いて、以下のCFSが生成される。
‘I sit the’; ‘sit the sofa’
図8のステージIIAで説明した機能を用いて、表47に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
図8のステージIIDおよびIIEで説明した機能を用いて、最終選好性メトリックは、訂正用選択肢「sit on the」を選択する。訂正された入力テキストは、
I sit on the sofa.
である。
ここで図10を参照する。図10は、不要な要素の訂正機能の動作を示す詳細なフローチャートである。不要な要素の訂正機能は、冠詞、前置詞、句読点、および入力テキスト中で主に文法的な機能を果たす他の要素について、それが不要であるものを訂正するように機能する。この機能は、図1の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。
図10の機能は、図9の機能と組み合わされてもよい。または代替的に、図9の機能と並行して行われてもよく、また、その前後に行われてもよい。
不要である疑いのある要素の特定は、以下のようにして行われることが好ましい。
検索は、綴りを訂正された入力テキストに対して行われ、不要である可能性がある句読点、冠詞、前置詞、接続詞、およびその他の要素(名詞、動詞または形容詞を通常含まない)についての所定のセットに属する要素を特定する。
そのような要素ごとに、そのような要素を含む、誤用単語および文法を訂正され、綴りを訂正された入力テキストの全ての部分について、特徴グラムが生成される。そのような特徴グラムごとに、および、その要素を省略した該当する特徴グラムについて、発生頻度が算出される。
その要素を省略した特徴グラムの発生頻度が、その要素が存在している該当する特徴グラムの発生頻度を上回っている場合、その要素は疑わしいと考えられる。
誤用単語および文法を訂正され、綴りを訂正された入力テキスト中の疑わしい要素は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた要素を見付ける試みによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の最も長い一つまたは複数のシーケンスを有する要素が選択される。
可能な要素の削除が、疑わしい要素ごとに生成される。各種選択肢の少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付け(すなわち、要素の削除または要素の不削除)が、図8を参照して上述し、かつ以下に説明する訂正用選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。
以下の例が実例となる。
以下の入力テキストが提供される。
It is a nice, thing to wear.
入力テキストが検索され、例えば、句読点、前置詞、接続詞、および冠詞等のよく起こる不要である要素の所定のリストに属するあらゆる要素を特定するように検索される。
この例では、カンマ「,」は、そのようなリストに属するものとして特定される。
図4を参照して上述した機能を用いて、表48に見られるカンマ「,」を含む特徴グラムが生成され、カンマを有しない同一の特徴グラムもまた生成される(部分的なリスト)。
Figure 0005752150
上述した機能を用いて、インターネットコーパス中の発生頻度のマトリクスが、上記リストの特徴グラムに対して生成され、それは、典型的には表49に見られる通りである。
Figure 0005752150
上記マトリクスに見られるように、「,」を省略した特徴グラムの発生頻度は、「,」が存在する該当する特徴グラムの発生頻度を上回っている。従って、「,」は不要の疑いがあると考えられる。
カンマの削除の可能性は、カンマを維持するものおよびカンマを省略するものの以下の選択肢の、文脈ベースのスコア付けに基づいて考慮される。
‘nice,’; ‘nice’
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
'a nice,'; 'nice, thing'; 'is a nice,'; 'a nice, thing'; 'nice, thing to'
図8のステージIIAを参照して上述した機能を用いて、表50に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれるCFSは全て除外される。例えば、以下の特徴グラムは除外される。
'a nice,'; 'nice, thing'
この例では、残るCFSは特徴グラム
'is a nice,'; 'a nice, thing'; 'nice, thing to'
である。
上記図8のステージDおよびEで説明された最終選好性スコアを用いて、カンマを有しない訂正用選択肢「nice」が選択される。カンマ削除後の入力テキストは、
It is a nice thing to wear.
である。
以下の例は、不要な冠詞を削除する機能を示す。
以下の入力テキストが提供される。
We should provide them a food and water.
図10を参照して上述した機能を用いて、以下のクラスターが訂正のために選択される。
a food
図10を参照して上述した機能を用いて、以下のクラスター訂正用選択肢が生成される(部分的なリスト)。
a food; food
図4を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト)。
‘provide them a food’; ‘them a food and’; ‘a food and water’
本明細書においてサブステージIIAに関して上述した機能を用いて、表51に見られる、インターネットコーパス中での発生頻度のマトリクスが、上記リストのCFSにおいて上記リストのクラスター訂正用選択肢について生成される。
Figure 0005752150
図8に記載されたスコア付け機能を用いて、最終選好性メトリックは、訂正用選択肢「food」を選択する。訂正された入力テキストは、
We should provide them food and water.
である。
上記で具体的に示され、説明されたものに本発明は限定されないことが当業者には理解されるであろう。本発明の範囲はむしろ、上記で説明し、示した各種特徴の組み合わせおよび部分的組み合わせの両方、ならびに、上記の説明を読んだ当業者が想起するであろう、先行技術にはないそれらの修正を含む。

Claims (9)

  1. コンピュータ支援言語訂正システムであって、当該システムは、
    選択肢生成器を有し、該選択肢生成器は、キーボードによる言語入力に基づいて、該言語入力中の複数の単語の各々について複数の選択肢を提供するテキストベースの表現を生成するものであり、前記複数の選択肢は、キーボードのキーの位置の接近度に基づいた選択肢を含んでおり、
    選択器を有し、該選択器は、
    インターネットコーパス中での文脈特徴シーケンス(CFS)の頻度に基づいた文脈的なスコアと、
    前記キーボードのキーの位置の接近度に基づいた非文脈的な単語類似度スコアと
    の組み合わせに基づいて、前記言語入力中の前記複数の単語の各々について少なくとも前記複数の選択肢の中から選択をするためのものであり、かつ、
    訂正生成器を有し、該訂正生成器は、前記選択器による選択に基づいて訂正出力を提供するよう機能するものである、
    前記コンピュータ支援言語訂正システム。
  2. 前記選択肢生成器が、
    音声類似度機能を含み、該音声類似度機能は、前記入力中の単語に対する音声類似度に基づいて単語選択肢を提案し、かつ、音声類似度のメトリックを表示するよう機能するものであり、かつ、
    文字列類似度機能を含み、該文字列類似度機能は、前記入力中の単語に対する文字列の類似度に基づいて単語選択肢を提案し、かつ、単語選択肢ごとに文字列の類似度のメトリックを表示するよう機能するものであり、
    前記選択器が、文脈ベースの選択機能と一緒に、前記音声類似度のメトリックおよび文字列の類似度のメトリックを用いることによって、前記出力中の単語、または、前記選択肢生成器によって提案された選択的単語候補のいずれかを選択するよう機能するものである、
    請求項に記載のコンピュータ支援言語訂正システム。
  3. 信頼水準割当器をさらに有し、該信頼水準割当器は、前記複数の選択肢から選択された選択肢に対して信頼水準を割り当てるように機能するものであり、かつ、
    前記訂正出力が、前記信頼水準に少なくとも部分的に基づいている、
    請求項1または2に記載のコンピュータ支援言語訂正システム。
  4. 前記複数の選択肢が文脈特徴シーケンス(CFS)に基づいて評価され、前記信頼水準が、以下のパラメータ:
    選択されたCFSの個数、タイプ、およびスコア、
    前記CFSの文脈における前記複数の選択肢の発生頻度の統計的有意性の度合い、
    前記CFSの各々の選好性メトリックおよび前記複数の選択肢の単語類似度スコアに基づく、前記複数の選択肢のうちの一つの選択についてのコンセンサスの度合い、
    第一の所定の最小閾値を上回る、前記複数の選択肢のうちの前記一つの非文脈的な単語類似度スコア、および
    第二の所定の最小閾値を上回るCFSスコアと、第三の所定の閾値を上回る選好性スコアを有する、前記CFSの個数によって示される、利用可能な文脈データの程度、
    のうちの少なくとも一つに基づくものである、
    請求項に記載のコンピュータ支援言語訂正システム。
  5. 誤用単語検出器および文法誤り検出器のうちの少なくとも一方をさらに有し、これら検出器は、前記言語入力の文脈内での適合度に基づいて該言語入力中の単語の少なくとも一部を評価するものであり、
    前記訂正生成器が、前記検出器によってなされた評価に少なくとも部分的に基づいて、訂正出力を提供するように機能するものである、
    請求項1からのいずれか1項に記載のコンピュータ支援言語訂正システム。
  6. 前記複数の選択肢が、隣接するキーの混乱に基づいた選択肢を含んでいる、
    請求項1からのいずれか1項に記載のコンピュータ支援言語訂正システム。
  7. 前記複数の選択肢が、複数のキーの挿入に基づいた選択肢を含んでいる、
    請求項1からのいずれか1項に記載のコンピュータ支援言語訂正システム。
  8. 前記複数の選択肢が、意図して押したキーの脱落に基づいた選択肢を含んでいる、
    請求項1からのいずれか1項に記載のコンピュータ支援言語訂正システム。
  9. 前記複数の選択肢が、母音の脱落に基づいた、および、音声的な誤字の使用に基づいた選択肢を含んでいる、
    請求項1からのいずれか1項に記載のコンピュータ支援言語訂正システム。
JP2012550565A 2010-02-01 2011-01-26 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 Expired - Fee Related JP5752150B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US30008110P 2010-02-01 2010-02-01
US61/300,081 2010-02-01
PCT/IL2011/000088 WO2011092691A1 (en) 2010-02-01 2011-01-26 Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices

Publications (3)

Publication Number Publication Date
JP2013519131A JP2013519131A (ja) 2013-05-23
JP2013519131A5 JP2013519131A5 (ja) 2014-03-13
JP5752150B2 true JP5752150B2 (ja) 2015-07-22

Family

ID=44318742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012550565A Expired - Fee Related JP5752150B2 (ja) 2010-02-01 2011-01-26 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正

Country Status (7)

Country Link
US (2) US9015036B2 (ja)
EP (1) EP2531930A1 (ja)
JP (1) JP5752150B2 (ja)
KR (1) KR20120125310A (ja)
CN (1) CN102884518A (ja)
CA (1) CA2787390A1 (ja)
WO (1) WO2011092691A1 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996769B2 (en) * 2006-04-05 2011-08-09 Research In Motion Limited Handheld electronic device and method for performing spell checking during text entry and for providing a spell-check learning feature
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
KR101753625B1 (ko) * 2011-03-08 2017-07-20 삼성전자주식회사 휴대용 단말기에서 오입력을 방지하기 위한 방법 및 장치
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
WO2013163717A1 (en) * 2012-04-30 2013-11-07 Research In Motion Limited Electronic device and method for a bidirectional context-based text disambiguation
US8972241B2 (en) 2012-04-30 2015-03-03 Blackberry Limited Electronic device and method for a bidirectional context-based text disambiguation
EP2660728A1 (en) * 2012-04-30 2013-11-06 BlackBerry Limited Electronic device and method for a bidirectional context-based text disambiguation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10838513B2 (en) * 2012-08-06 2020-11-17 Nokia Technologies Oy Responding to selection of a displayed character string
WO2014098640A1 (en) * 2012-12-19 2014-06-26 Abbyy Infopoisk Llc Translation and dictionary selection by context
US20140214401A1 (en) 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN103970765B (zh) * 2013-01-29 2016-03-09 腾讯科技(深圳)有限公司 一种改错模型训练方法、装置和文本改错方法、装置
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
WO2014138756A1 (en) * 2013-03-07 2014-09-12 Dang Thi Mai Huong System and method for automatic diacritizing vietnamese text
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6155821B2 (ja) 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
KR101332757B1 (ko) 2013-05-16 2013-11-25 주식회사 큐키 삭제키 입력 없이 단어 또는 문자열을 수정하는 방법 및 이를 구현한 장치
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
KR101482430B1 (ko) * 2013-08-13 2015-01-15 포항공과대학교 산학협력단 전치사 교정 방법 및 이를 수행하는 장치
JP2015041845A (ja) * 2013-08-21 2015-03-02 カシオ計算機株式会社 文字入力装置及びプログラム
GB201320334D0 (en) * 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
IN2014MU00789A (ja) 2014-03-07 2015-09-25 Tata Consultancy Services Ltd
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105447019A (zh) * 2014-08-20 2016-03-30 北京羽扇智信息科技有限公司 一种基于用户使用场景的输入识别结果校正方法和系统
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US9280747B1 (en) * 2015-05-27 2016-03-08 Sas Institute Inc. Normalizing electronic communications using feature sets
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US11762989B2 (en) 2015-06-05 2023-09-19 Bottomline Technologies Inc. Securing electronic data by automatically destroying misdirected transmissions
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10332511B2 (en) * 2015-07-24 2019-06-25 International Business Machines Corporation Processing speech to text queries by optimizing conversion of speech queries to text
US10180989B2 (en) 2015-07-24 2019-01-15 International Business Machines Corporation Generating and executing query language statements from natural language
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US20170163664A1 (en) 2015-12-04 2017-06-08 Bottomline Technologies (De) Inc. Method to secure protected content on a mobile device
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US11163955B2 (en) 2016-06-03 2021-11-02 Bottomline Technologies, Inc. Identifying non-exactly matching text
US10235356B2 (en) * 2016-06-03 2019-03-19 Bottomline Technologies (De), Inc. Dual authentication method for identifying non-exactly matching text
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10635661B2 (en) * 2016-07-11 2020-04-28 Facebook, Inc. Keyboard-based corrections for search queries on online social networks
US10579729B2 (en) * 2016-10-18 2020-03-03 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10372814B2 (en) 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10944834B1 (en) 2016-12-27 2021-03-09 Amazon Technologies, Inc. Socket peering
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
JP6749705B2 (ja) * 2019-01-25 2020-09-02 株式会社インタラクティブソリューションズ プレゼンテーション支援システム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11416713B1 (en) 2019-03-18 2022-08-16 Bottomline Technologies, Inc. Distributed predictive analytics data set
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11042555B1 (en) 2019-06-28 2021-06-22 Bottomline Technologies, Inc. Two step algorithm for non-exact matching of large datasets
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
US11269841B1 (en) 2019-10-17 2022-03-08 Bottomline Technologies, Inc. Method and apparatus for non-exact matching of addresses
US11301626B2 (en) 2019-11-11 2022-04-12 International Business Machines Corporation Artificial intelligence based context dependent spellchecking
CN110728156B (zh) * 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
US11763278B2 (en) 2020-03-13 2023-09-19 Bottomline Technologies, Inc. Deposit token service system, apparatus and method
US11966372B1 (en) 2020-05-01 2024-04-23 Bottomline Technologies, Inc. Database record combination
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11449870B2 (en) 2020-08-05 2022-09-20 Bottomline Technologies Ltd. Fraud detection rule optimization
US11544798B1 (en) 2021-08-27 2023-01-03 Bottomline Technologies, Inc. Interactive animated user interface of a step-wise visual path of circles across a line for invoice management
US11694276B1 (en) 2021-08-27 2023-07-04 Bottomline Technologies, Inc. Process for automatically matching datasets
US20230214579A1 (en) * 2021-12-31 2023-07-06 Microsoft Technology Licensing, Llc Intelligent character correction and search in documents
CN116257777B (zh) * 2023-02-13 2023-09-12 哈尔滨工业大学 分类模型融合的密封继电器多余物检测与材质识别方法

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5218536A (en) * 1988-05-25 1993-06-08 Franklin Electronic Publishers, Incorporated Electronic spelling machine having ordered candidate words
US5369577A (en) 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
JPH04257965A (ja) * 1991-02-13 1992-09-14 Nippon Telegr & Teleph Corp <Ntt> 文字訂正装置
DE4323241A1 (de) 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5485372A (en) 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5617488A (en) 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5659771A (en) 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5828991A (en) 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US6006221A (en) 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5822728A (en) 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6173261B1 (en) 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
CA2203132C (en) 1995-11-04 2004-11-16 Upali Bandara Method and apparatus for adapting the language model's size in a speech recognition system
US6098034A (en) 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6085206A (en) * 1996-06-20 2000-07-04 Microsoft Corporation Method and system for verifying accuracy of spelling and grammatical composition of a document
US5956739A (en) 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5907839A (en) 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6181909B1 (en) 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
WO1999063456A1 (fr) 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
CA2395040A1 (en) 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US6317707B1 (en) 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
EP1192716B1 (en) 1999-05-27 2009-09-23 Tegic Communications, Inc. Keyboard system with automatic correction
US7030863B2 (en) 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1224569A4 (en) 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
DE10124429B4 (de) 2000-07-07 2008-11-27 International Business Machines Corp. System und Verfahren für eine verbesserte Rechtschreibprüfung
US7254773B2 (en) 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7117144B2 (en) 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
FR2824978B1 (fr) 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
CN1391180A (zh) 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
GB2376335B (en) 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7295965B2 (en) 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7296019B1 (en) 2001-10-23 2007-11-13 Microsoft Corporation System and methods for providing runtime spelling analysis and correction
NO316480B1 (no) 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7340388B2 (en) 2002-03-26 2008-03-04 University Of Southern California Statistical translation using a large monolingual corpus
US7020338B1 (en) 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030210249A1 (en) * 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
US20040002849A1 (en) 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040030540A1 (en) 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
DE60337022D1 (de) 2002-09-27 2011-06-16 Callminer Inc Verfahren zur statistischen analyse von sprache
US7092567B2 (en) 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
FR2848688A1 (fr) 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US20050043940A1 (en) 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20050053900A1 (en) 2003-09-05 2005-03-10 Steven Kaufmann Method of teaching a foreign language to a student providing measurement in a context based learning system
US20050120002A1 (en) 2003-10-02 2005-06-02 Hassan Behbehani Automated text generation process
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7720675B2 (en) 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7813916B2 (en) 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US20070141544A1 (en) 2003-11-28 2007-06-21 Katsuaki Nakane Apparatus for grading and evaluating compositional essays
US7890526B1 (en) * 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
US7254774B2 (en) 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7779354B2 (en) 2004-05-13 2010-08-17 International Business Machines Corporation Method and data processing system for recognizing and correcting dyslexia-related spelling errors
WO2006009727A2 (en) 2004-06-16 2006-01-26 Harcourt Assessment, Inc. Language disorder assessment and associated methods
US8321786B2 (en) 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
CA2577075C (en) 2004-08-13 2014-10-07 5 Examples, Inc. The one-row keyboard and approximate typing
US20060048055A1 (en) 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US7401293B2 (en) 2004-11-19 2008-07-15 Spelldoctor, Llc System and method for teaching spelling
JP2008522332A (ja) 2004-12-01 2008-06-26 ホワイトスモーク,インク. 自動的に文書を拡充するシステムおよび方法
US7457808B2 (en) 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7630980B2 (en) 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7805300B2 (en) 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7584093B2 (en) 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8131746B2 (en) * 2005-06-23 2012-03-06 International Business Machines Corporation Dynamic language checking
US7908132B2 (en) 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US20070094024A1 (en) 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
JP2007122509A (ja) 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
US8608477B2 (en) 2006-04-06 2013-12-17 Vantage Technologies Knowledge Assessment, L.L.C. Selective writing assessment with tutoring
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7558725B2 (en) 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US7640233B2 (en) * 2006-08-29 2009-12-29 International Business Machines Corporation Resolution of abbreviated text in an electronic communications system
US7689408B2 (en) 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8626486B2 (en) 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
WO2008053466A2 (en) * 2006-10-30 2008-05-08 Cellesense Technologies Ltd. Context sensitive, error correction of short text messages
US7590626B2 (en) 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US20080154600A1 (en) 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
EP1936606B1 (en) 2006-12-21 2011-10-05 Harman Becker Automotive Systems GmbH Multi-stage speech recognition
US7957955B2 (en) 2007-01-05 2011-06-07 Apple Inc. Method and system for providing word recommendations for text input
US9465791B2 (en) 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US7991609B2 (en) 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
WO2010013228A1 (en) 2008-07-31 2010-02-04 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
US7917355B2 (en) 2007-08-23 2011-03-29 Google Inc. Word detection
US8229732B2 (en) 2007-08-31 2012-07-24 Google Inc. Automatic correction of user input based on dictionary
US8341520B2 (en) * 2007-09-24 2012-12-25 Ghotit Ltd. Method and system for spell checking
US8176419B2 (en) 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090198671A1 (en) 2008-02-05 2009-08-06 Yahoo! Inc. System and method for generating subphrase queries
US8706474B2 (en) 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
KR101491581B1 (ko) * 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
JP5474933B2 (ja) 2008-04-16 2014-04-16 ジンジャー ソフトウェア、インコーポレイティッド ユーザーの過去のライティングに基づいて、ライティングを指導するためのシステム
WO2009130692A2 (en) * 2008-04-22 2009-10-29 Robert Iakobashvili Method and system for user-interactive iterative spell checking
US8473278B2 (en) 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US8219905B2 (en) 2008-11-17 2012-07-10 International Business Machines Corporation Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
US8868402B2 (en) 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices

Also Published As

Publication number Publication date
US9015036B2 (en) 2015-04-21
US20150220509A1 (en) 2015-08-06
WO2011092691A1 (en) 2011-08-04
EP2531930A1 (en) 2012-12-12
KR20120125310A (ko) 2012-11-14
CA2787390A1 (en) 2011-08-04
JP2013519131A (ja) 2013-05-23
CN102884518A (zh) 2013-01-16
US20130006613A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
JP5752150B2 (ja) 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US9026432B2 (en) Automatic context sensitive language generation, correction and enhancement using an internet corpus
JP5584212B2 (ja) インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
JP4960461B2 (ja) ウェブベースのコロケーション誤りの校正
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
CN110321561B (zh) 一种关键词提取方法和装置
Trost et al. The language component of the FASTY text prediction system
EP2894548B1 (en) System and method of manipulating an inputted character string to a diacritic-modified character string using a single layout for a character entry device
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics
Yahya et al. Arabic text correction using dynamic categorized dictionaries: A statistical approach
Polifroni et al. Combining word-based features, statistical language models, and parsing for named entity recognition.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140902

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140909

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141003

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150519

R150 Certificate of patent or registration of utility model

Ref document number: 5752150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees