JP5584212B2 - インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 - Google Patents

インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 Download PDF

Info

Publication number
JP5584212B2
JP5584212B2 JP2011520650A JP2011520650A JP5584212B2 JP 5584212 B2 JP5584212 B2 JP 5584212B2 JP 2011520650 A JP2011520650 A JP 2011520650A JP 2011520650 A JP2011520650 A JP 2011520650A JP 5584212 B2 JP5584212 B2 JP 5584212B2
Authority
JP
Japan
Prior art keywords
function
correction
word
words
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011520650A
Other languages
English (en)
Other versions
JP2011529594A5 (ja
JP2011529594A (ja
Inventor
ザンビル、ヤエル カロブ
Original Assignee
ジンジャー ソフトウェア、インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/IL2008/001051 external-priority patent/WO2009016631A2/en
Application filed by ジンジャー ソフトウェア、インコーポレイティッド filed Critical ジンジャー ソフトウェア、インコーポレイティッド
Publication of JP2011529594A publication Critical patent/JP2011529594A/ja
Publication of JP2011529594A5 publication Critical patent/JP2011529594A5/ja
Application granted granted Critical
Publication of JP5584212B2 publication Critical patent/JP5584212B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

関連出願への参照
METHODS FOR CONTEXT SENSITIVE ERROR DETECTION AND CORRECTIONというタイトルの2007年8月1日に出願された米国仮特許出願シリアル番号60/953,209、および、2008年7月31日に出願されたPCT特許出願PCT/IL2008/001051が本明細書により参照され、それらの開示は、参照することにより本明細書によって援用され、かつ、37 CFR 1.78(a)(4)および(5)(i)に従ってそれらの優先権が本明細書により主張される。
発明の分野
本発明は、概しては、コンピュータ補助(computer-assisted)による言語の生成および訂正に関し、より具体的には、機械翻訳に適用可能なものに関する。
発明の背景
以下の刊行物は、当該技術分野の現状を表すものと思われる。
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号および第4,674,065号
米国特許出願公開第2006/0247914号および第2007/0106937号。
発明の要旨
本発明は、コンピュータ補助による言語の生成のための改善されたシステムおよび機能を提供することを目的とする。
すなわち、本発明の好ましい実施形態に従って、コンピュータ補助による言語の生成システムが提供され、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、単語(words)を含む入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
好ましくは、前記センテンス取得機能は、
独立フレーズ生成器(independent phrase generator)を有し、該独立フレーズ生成器は、入力テキストを1つまたはそれより多くの独立したフレーズに分割するものであり、
語幹生成器(word stem generator)と分類器(classifier)とを有し、これら語幹生成器および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹(word stem)を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するものであり、かつ、
選択肢生成器(alternative generator)を有し、該選択肢生成器は、該語幹に対応する代替的(alternative)な語幹を生成するためのものである。
本発明の好ましい実施形態に従って、前記コンピュータ補助による言語生成システムはまた、ステム・トゥ・センテンス・インデックス(stem to sentence index)を有し、該ステム・トゥ・センテンス・インデックスは、前記入力テキスト中の単語に一致する単語を含む前記複数のセンテンスを取得するために前記インターネットコーパスと交信するものである。
好ましくは、前記センテンス生成機能は、
センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得したセンテンスを単純化するように機能するものであり、
単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、該センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、
単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである。
本発明の好ましい実施形態によれば、前記単純化センテンスグループ・ランク付け機能は、以下の基準のうちの少なくともいくつかを用いて機能する。
A.グループに含まれる単純化されたセンテンスの個数
B.グループ内の単語の語幹が、前記独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
C.グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度
好ましくは、前記単純化センテンスグループ・ランク付け機能は、以下の手順のうちの少なくとも一部を用いて機能する。
その言語における当該単語の重要度を指し示す語幹の重みを定義すること;
基準(criterion)Bに対応するポジティブマッチランク(Positive Match Rank)を算出すること;
基準Cに対応するネガティブマッチランク(Negative Match Rank)を算出すること;
次の事項に基いて、コンポジットランクを算出すること:
基準Aに対応する、グループに含まれる単純化されたセンテンスの個数、
ポジティブマッチランク、および
ネガティブマッチランク。
本発明の実施形態によれば、前記コンピュータ補助による言語生成システムはまた、前記入力テキストを提供する機械翻訳機能を有する。
本発明の好ましい実施形態に従って、機械翻訳システムもまた提供され、該機械翻訳システムは、
機械翻訳機能を有し、
センテンス取得機能を有し、該センテンス取得機能は、該機械翻訳機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該機械翻訳機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
好ましくは、前記機械翻訳機能は、前記入力テキスト中の単語に対応する複数の選択肢を提供し、かつ、前記センテンス取得機能は、該選択肢に一致する単語を含む複数のセンテンスを前記インターネットコーパスから取得するように機能する。
本発明の実施形態によれば、言語生成はテキストの訂正を含む。
本発明の好ましい実施形態に従って、テキスト生成システムもまた提供され、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、テキスト訂正機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス訂正機能を有し、該センテンス訂正機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
好ましくは、前記システムはまた、センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて前記入力テキストを提供する。
本発明の好ましい実施形態に従って、センテンス検索システムもまた提供され、当該システムは、
センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて入力テキストを提供するものであり、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該センテンス検索機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
好ましくは、前記コンピュータ補助による言語生成システムはまた、音声テキスト変換機能を有し、該音声テキスト変換機能は前記入力テキストを提供する。
本発明の好ましい実施形態に従って、音声テキスト変換システムもまた提供され、当該システムは、
音声テキスト変換機能を有し、該音声テキスト変換機能は入力テキストを提供し、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該音声テキスト変換機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該言語訂正システムは、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器(selector)を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
好ましくは、前記選択器は、以下の訂正機能のうちの少なくとも一つに基づいて選択を行うように機能する:綴りの訂正、誤用(misused)された単語の訂正、文法の訂正、および語彙の改善。
本発明の好ましい実施形態によれば、前記選択器は、以下の訂正機能のうちの少なくとも二つに基づいて選択を行うように機能する:綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善。付加的には、前記選択器は、訂正についての以下の時間的順序のうちの少なくとも一つに基づいて選択を行うように機能する:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。
付加的または代替的には、前記入力センテンスは、以下の機能:ワードプロセッサ機能、機械翻訳機能、音声テキスト変換機能、光学文字認識機能、およびインスタントメッセージング機能のうちの一つによって提供され、かつ、前記選択器は、以下の訂正機能:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。
好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。付加的または代替的には、前記文法訂正機能は、句読点、動詞の活用、単数形/複数形、冠詞、および前置詞の訂正機能のうちの少なくとも一つを有する。
本発明の好ましい実施形態によれば、前記文法訂正機能は、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する。
好ましくは、前記選択器は、文脈ベーススコア付け機能を有し、該文脈ベーススコア付け機能は、インターネットコーパス中での文脈特徴シーケンス(contextual feature-sequence、CFS)の発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク付けするように機能する。付加的には、前記文脈ベーススコア付け機能はまた、インターネットコーパス中での正規化されたCFSの発生頻度に少なくとも部分的には基づいて、前記複数の選択肢をランク付けするように機能する。
上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも一つ、ならびに、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能を有する。
好ましくは、前記文法訂正機能は、句読点、動詞の活用、単数形/複数形、冠詞および前置詞の訂正機能のうちの少なくとも一つを有する。付加的または代替的には、前記文法訂正機能は、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する。
本発明の好ましい実施形態によれば、前記コンピュータ補助による言語訂正システムは、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも二つを有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも二つと協力し、かつインターネットコーパスを用いる。
好ましくは、前記コンピュータ補助による言語訂正システムはまた、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも三つを有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも三つと協力し、かつインターネットコーパスを用いる。
本発明の好ましい実施形態によれば、前記コンピュータ補助による言語訂正システムはまた、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能を有し、かつ、前記文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能と協力し、かつインターネットコーパスを用いる。
好ましくは、前記訂正生成器は、訂正言語生成器を有し、該訂正言語生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。
上記に要約した様々な実施形態は、組み合わせられてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、前記の言語入力中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
好ましくは、前記言語入力は、入力センテンスおよび入力テキストのうちの少なくとも一つを含む。付加的または代替的には、前記言語入力は音声であり、かつ、前記生成器は、音声での言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する。
本発明の好ましい実施形態によれば、前記言語入力は、テキスト入力、光学文字認識機能の出力、機械翻訳機能の出力、およびワードプロセッシング機能の出力のうちの少なくとも一つであり、かつ、前記生成器は、テキストでの言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する。
好ましくは、前記選択器は、以下の訂正機能のうちの少なくとも二つに基づいて選択を行うように機能する:綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善。付加的には、前記選択器は、訂正についての以下の時間的順序のうちの少なくとも一つに基づいて選択を行うように機能する:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。
本発明の好ましい実施形態によれば、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。
好ましくは、前記選択器は、以下の機能:初期選択のために、前記言語入力中の前記複数の単語の全てよりは少ない単語を含む単語または単語の組み合わせの第一のセットを選択すること、その後で、前記の単語または単語の組み合わせの第一のセットの要素を順序付けて選択の優先度を確立すること、および、その後で、単語の第一のセットの要素に対する前記複数の選択肢の間での選択を行う際に、該選択に影響する文脈として、前記複数の単語の全てではない他の単語を選ぶことのうちの少なくとも二つを実行することにより選択を行うように機能する。付加的または代替的には、前記選択器は、以下の機能:少なくとも二つの単語を有する要素についての選択を行う際に、該少なくとも二つの単語の互いに対する複数の選択肢の各々との組み合わせで、該少なくとも二つの単語の各々に対する複数の選択肢の各々を評価することを実行することによって選択を行うように機能する。
本発明の好ましい実施形態によれば、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器(misused-word suspector、誤用された単語を検出するもの)を有し、該誤用単語検出器は、該言語入力の文脈内での適合に基づいて、言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
好ましくは、前記コンピュータ補助による言語訂正システムはまた、選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、該言語入力中の少なくとも大部分の単語の少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、
選択器を有し、該選択器は、前記の言語入力中の少なくとも大部分の単語の少なくとも一つの各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、前記訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能する。付加的または代替的には、前記コンピュータ補助による言語訂正システムはまた、疑わしい単語を出力表示する表示器(suspect word output indicator)を有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分の少なくとも一部が、誤用された単語である疑わしさの程度を指し示すものである。
本発明の好ましい実施形態によれば、前記訂正生成器は、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的には基づいて、訂正されたテキスト出力を提供するように機能する。
好ましくは、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに基づいて前記選択を行うように機能する。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢の少なくとも一つは、インターネットコーパス中での該言語入力中の単語の文脈的な特徴(feature)と一致するものであり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアス(bias、偏り)を加えるものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、入力に基づいて、該入力中の少なくとも一つの単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該選択器は、該少なくとも一つの単語の各々、および、該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢に対して、該少なくとも一つの単語にとって有利になるバイアスを適用するものであり、該バイアスは、該入力を提供する人の不確実性を指し示す入力不確実性(input uncertainly)の指標(metric)の関数(function)であり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
正しくない単語を検出する検出器を有し、該検出器は、言語入力中の単語の少なくとも大部分を評価するものであり、該検出器は、該入力を提供する人の不確実性を指し示す入力不確実性の指標に少なくとも部分的には応答するものであり、該検出器は、正しくないと疑われる単語の出力を提供し、かつ、当該システムは、選択肢生成器を有し、該選択肢生成器は、該正しくないと疑われる単語の出力によって特定される正しくないと疑われる単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、正しくないと疑われる単語の各々、および、該選択肢生成器によって生成された前記の複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
複数単語の入力を受け取って訂正出力を提供する、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つを有し、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つのうちの各々は、代替単語候補生成器(alternative word candidate generator)を有し、該代替単語候補生成器は音声類似度機能を有し、該音声類似度機能は、該入力中の単語に対する音声上の類似度に基づいて代替的な単語を提案するように、および、音声上の類似度の指標を指し示すように機能するものであり、かつ、該代替単語候補生成器は文字列類似度機能を有し、該文字列類似度機能は、該入力中の単語に対する文字列の類似度に基づいて代替的な単語を提案するように、および、各々の代替的な単語に対して、文字列の類似度の指標を指し示すように機能するものであり、かつ、当該システムは、選択器を有し、該選択器は、文脈ベースの選択機能と共に、前記の音声上の類似度の指標および文字列の類似度の指標を用いることによって、該出力中の単語、または、該代替単語候補生成器によって提案された代替的な単語候補のいずれかを選択するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、特徴発生機能(feature occurrence functionality)を有し、該特徴発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む様々な特徴をランク付けするものであり、かつ、当該システムは、選択器を有し、該選択器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、特徴フィルタリング機能を有し、該特徴フィルタリング機能は、誤りの疑いがあるものを含む特徴を除去するための機能、複数単語の入力のより以前の訂正の繰り返しにおいて導入された単語を含み、かつ信頼度水準の予め定められた閾値を下回る信頼度水準を有する特徴を負にバイアスするための機能、ならびに、予め定められた頻度の閾値を上回る発生頻度を有する別の特徴に含まれる特徴を除去するための機能のうちの少なくとも一つを有する。
好ましくは、前記選択器は、以下の訂正機能:綴りの訂正、誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも二つに基づいて選択を行うように機能する。付加的には、前記選択器は、訂正についての以下の時間的順序の少なくとも一つに基づいて選択を行うように機能する:誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、語彙の改善に先立つ誤用された単語の訂正および文法の訂正。
本発明の好ましい実施形態によれば、前記言語入力は音声であり、かつ、前記選択器は、以下の訂正機能:文法の訂正、および誤用された単語の訂正、および語彙の改善のうちの少なくとも一つに基づいて選択を行うように機能する。
好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する。
本発明の好ましい実施形態によれば、前記選択器はまた、ユーザー入力の不確実性の指標に少なくとも部分的には基づいて前記選択を行うように機能する。付加的には、前記ユーザー入力の不確実性の指標は、前記入力を提供する人の不確実性の計測に基づく関数である。付加的または代替的には、前記選択器はまた、ユーザーの入力履歴を学習する機能を用いる。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、発生機能(occurrence functionality)を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、次の機能のうちの少なくとも一つを有する:Nグラム特定機能、共起特定機能、および、(スキップグラム特定機能、スウィッチグラム特定機能、および、ユーザーによって以前に使用された特徴特定機能のうちの少なくとも一つの機能)。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器を有し、該文法誤り検出器は、言語入力の文脈内での適合に基づいて該言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
好ましくは、前記コンピュータ補助による言語訂正システムはまた、選択肢生成器を有し、該選択肢生成器は、前記言語入力に基づいて、前記の言語入力中の少なくとも大部分の単語のうちの少なくとも一つに対して複数の選択肢を提供するテキストベースの表現を生成するものであり、かつ、当該システムは、選択器を有し、該選択器は、前記の言語入力中の少なくとも大部分の単語のうちの一つの各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、前記訂正生成器は、該選択器によって為された選択に基づいて訂正出力を提供するように機能する。
本発明の好ましい実施形態によれば、前記コンピュータ補助による言語生成システムはまた、疑わしい単語を出力表示する表示器を有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分のうちの少なくとも一部が文法上の誤りを含む疑いについての程度を指し示すものである。
好ましくは、前記訂正生成器は、自動訂正言語生成器を有し、該自動訂正言語生成器は、ユーザーの介入を必要とすることなく、前記検出器によって行われた評価に少なくとも部分的に基づいて、訂正されたテキスト出力を提供するように機能する。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法誤り検出器(grammatical error suspector)を有し、該文法誤り検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
好ましくは、前記訂正生成器は、訂正言語入力生成器を有し、該訂正言語入力生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを有してもよく、当該システムは、インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的には基づく、様々な代替的な訂正(corrections、訂正体)の文脈ベースのスコア付けを有する、前記システムを有してもよい。
好ましくは、前記コンピュータ補助による言語訂正システムはまた、前記文脈ベースのスコア付けと協力する、綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙改善機能のうちの少なくとも一つを有する。
本発明の好ましい実施形態によれば、前記文脈ベースのスコア付けはまた、インターネットコーパス中での正規化されたCFSの発生頻度に少なくとも部分的には基づく。付加的または代替的には、前記文脈ベースのスコア付けはまた、CFSの重要度のスコアに少なくとも部分的には基づく。付加的には、前記CFSの重要度のスコアは、品詞のタグ付けおよびセンテンスの構文解析機能の操作、CFSの長さ、CFS中の単語の各々の発生頻度、およびCFSの類型のうちの少なくとも一つの関数である。
またさらには、本発明のまた別の好ましい実施形態に従って、コンピュータ補助による言語訂正システムが提供され、当該システムは、
語彙改善機能を有し、該語彙改善機能は、語彙に問題のある単語特定機能(vocabulary-challenged words identification functionality)、代替的な語彙改善生成機能、および、インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記のセンテンス中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、当該システムは、信頼度水準付与器を有し、該信頼度水準付与器は、該複数の選択肢からの選択された選択肢に対して信頼度水準を付与するように機能するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、および、少なくとも部分的には該信頼度水準に基づいて、訂正出力を提供するように機能するものである。
好ましくは、前記複数の選択肢は、文脈特徴シーケンス(CFS)に基づいて評価され、かつ、前記信頼度水準は、以下のパラメータ:選択されたCFSの個数、類型、およびスコア、CFSの文脈における前記の複数の選択肢の発生頻度の統計的有意性の指標、CFSの各々の優先度の指標および前記複数の選択肢の単語類似度スコアに基づく、前記の複数の選択肢のうちの一つの選択におけるコンセンサスの程度のうちの少なくとも一つに基づくものであり、ここで、前記の複数の選択肢のうちの一つの非文脈的な類似度スコアは、第一の予め定められた最小の閾値を上回り、かつ、第二の予め定められた最小の閾値を上回るCFSスコアを有し、かつ第三の予め定められた閾値を上回る優先度スコアを有するCFSの個数によって示される、利用可能な文脈データの程度を上回る。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
句読点誤り検出器を有し、該句読点誤り検出器は、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
好ましくは、前記訂正生成器は、句読点欠落訂正機能、不要な句読点訂正機能、および句読点置換訂正機能のうちの少なくとも一つを有する。
上記に要約した様々な実施形態は、組み合わされてもよく、あるいはまた、コンピュータ補助による言語訂正システムを含んでいてもよく、当該システムは、
文法要素誤り検出器を有し、該文法要素誤り検出器は、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
好ましくは、前記訂正生成器は、文法要素欠落訂正機能、不要な文法要素訂正機能、および文法要素置換訂正機能のうちの少なくとも一つを有する。付加的または代替的には、前記文法要素は、冠詞、前置詞、および接続詞のうちの一つである。
本発明は、図面と共に解釈される以下の詳細な説明からより十分に理解および認識されるであろう。
図1は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ補助による言語訂正用のシステムおよび機能の単純化したブロック図の図面である。 図2は、図1のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。 図3は、図1のシステムおよび機能において好ましくは用いられる誤用された単語および文法訂正機能を示す単純化したフローチャートである。 図4は、図1のシステムおよび機能において好ましくは用いられる語彙改善機能を示す単純化したフローチャートである。 図5は、図1のシステムおよび機能において好ましくは用いられる文脈特徴シーケンス(CFS)機能を示す単純化したフローチャートである。 図6Aは、本発明の好ましい実施形態に従って図2の機能の部分を形成する綴り訂正機能を示す単純化したフローチャートである。 図6Bは、本発明の好ましい実施形態に従って図3の機能の部分を形成する誤用された単語および文法訂正機能を示す単純化したフローチャートである。 図6Cは、本発明の好ましい実施形態に従って図4の機能の部分を形成する語彙改善機能を示す単純化したフローチャートである。 図7Aは、図2および3の機能において有用である、代替的な訂正を生成するための機能を示す単純化したフローチャートである。 図7Bは、図4の機能において有用である、代替的な改善を生成するための機能を示す単純化したフローチャートである。 図8は、図2の綴り訂正機能において有用な様々な代替的な訂正の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けのための機能を示す単純化したフローチャートである。 図9は、図3、10および11の誤用された単語および文法訂正機能において、および、図4の語彙改善機能において有用である様々な代替的な訂正の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けのための機能を示す単純化したフローチャートである。 図10は、冠詞、前置詞および句読点の欠落訂正機能の動作を示す単純化したフローチャートである。 図11は、不要な冠詞、前置詞および句読点の訂正機能の動作を示す単純化したフローチャートである。 図12は、本発明の好ましい実施形態に従って構築され、機能する、コンピュータ補助による言語翻訳および生成用のシステムおよび機能の単純化したブロック図の図面である。 図13は、図12のシステムおよび機能の部分を好ましくは形成するセンテンス取得機能を示す単純化したフローチャートである。 図14Aおよび14Bは合わせて、図12のシステムおよび機能の部分を好ましくは形成するセンテンス生成機能を示す単純化したフローチャートである。 図14Aおよび14Bは合わせて、図12のシステムおよび機能の部分を好ましくは形成するセンテンス生成機能を示す単純化したフローチャートである。 図15は、図13、14Aおよび14Bの機能において有用である選択肢を生成するための機能を示す単純化したフローチャートである。
好ましい実施形態の詳細な説明
ここで図1を参照する。図1は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ補助による言語訂正用のシステムおよび機能の単純化したブロック図の図面である。図1に見られるように、訂正用のテキストは、1以上のソースから言語訂正モジュール100に提供され、該1以上のソースとしては、以下に限定されないが、ワードプロセッサ機能102、機械翻訳機能104、音声テキスト変換機能106、光学文字認識機能108、および、インスタントメッセージングまたはインターネットなどの任意の他のテキストソース110が挙げられる。
言語訂正モジュール100は、綴り訂正機能112、誤用された単語および文法訂正機能114、および語彙改善機能116を有することが好ましい。
綴り訂正機能112、誤用された単語および文法訂正機能114、および語彙改善機能116が、インターネットコーパス120を利用する文脈特徴シーケンス(CFS)機能118とそれぞれ交信することは、本発明の特有の特徴である。
文脈特徴シーケンスまたはCFSは、本明細書の目的のためには、図5を参照して以下で定義されるNグラム、スキップグラム、スウィッチグラム、共起(co-occurrences)、「ユーザーによって以前に使用された特徴(previously used by user features)」、およびそれらの組み合わせを含むものとして定義される。説明の単純化および明確化のために、以下の例の大部分ではnグラムのみを用いていることに留意されたい。本発明はそれに限定されないことが理解される。
インターネットコーパスは、極めて多くの文脈特徴シーケンスについてのかなりの統計データを提供し、高度にロバストな言語訂正機能をもたらすという点で、インターネットコーパスの使用は重要である。実際、2つを上回る単語の組み合わせは、従来の非インターネットコーパスでは非常に乏しい統計であるが、インターネットコーパスでは許容できるまたは良好な統計である。
インターネットコーパスは、通常はインターネットを巡回して、ウェブサイトのページからテキストを集めることによりワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの生き生きしたテキストもまた集められる。集められたテキストは、自然言語テキストの統計を蓄積するために使用される。インターネットコーパスのサイズは、例えば、より典型的なコーパスサイズが最大20億ワードというのとは対照的に、1兆(1,000,000,000,000)ワードまたは数兆ワードであり得る。ウェブコーパスなどの小さいウェブのサンプルは、100億ワードを含み、これは、GOOGLE(登録商標)などの検索エンジンによって索引されるウェブテキストの1パーセントよりも著しく小さい。本発明は、ウェブコーパスなどのウェブのサンプルと共に機能し得るが、好ましくは、テキスト訂正のタスクのために、著しく大きいウェブのサンプルを利用する。
インターネットコーパスは、以下の2つの方法のうちの一つで用いられることが好ましい。
検索クエリとしてCFSを用いて、1以上のインターネット検索エンジンが用いられる。そのようなクエリの各々に対する結果の数は、そのCFSの発生頻度を提供する。
インターネットを巡回し、索引付けすることによって、ローカルインデックスが時間と共に蓄積される。各々のCFSの発生回数はCFS頻度を提供する。ローカルインデックスおよび検索クエリは、インターネットの選択可能な部分に基づいてもよく、かつ、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネットの部分が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。
好ましくは、入力テキストは、最初に綴り訂正機能112に提供され、その後で誤用された単語および文法訂正機能114に提供される。入力テキストは、任意の好適なテキストであってよく、ワードプロセッシングの文脈では、好ましくは、センテンスなどの文書の部分である。語彙改善機能116は、綴り訂正機能112に対して、および、誤用された単語および文法訂正機能114に対して既に提供されたテキストに関して、ユーザーの自由選択で作動されることが好ましい。
好ましくは、言語訂正モジュール100は、各々の訂正された単語または単語群に対して、1以上の選択肢の示唆を伴う訂正されたテキストを含む出力を提供する。
ここで図2を参照する。図2は、図1のシステムおよび機能において好ましくは用いられる綴り訂正機能を示す単純化したフローチャートである。図2に見られるように、綴り訂正機能は以下のステップを有することが好ましい。
インターネットで通常使用される適当な名称および単語が充実した従来の辞書を好ましくは用いて、入力テキスト中の綴りの誤りを特定すること;
綴りの誤りを有する単一または連続もしくはほぼ連続の複数の単語を含んでもよいクラスターに、綴りの誤りをグループ化し、かつ、訂正のためのクラスターを選択すること。この選択は、最も多くの正しい文脈データを含むクラスターを見つけることを試みるものである。好ましくは、その付近において正しく綴られた単語の最も長いシーケンス(単数または複数)を有するクラスターが選択される。以上のステップは、図6Aを参照して以下においてより詳細に説明される。
図7Aを参照して以下に説明されるアルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正(訂正体)を生成すること;
図8を参照して以下に説明される綴り訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、好ましくはインターネットコーパスを用いる、少なくとも部分的に非文脈的な単語類似度ベースのスコア付け、および、文脈的なスコア付けを行うこと;
各々のクラスターに対して、上述のスコア付けに基づいて、単一の綴り訂正を選択し、かつ、最も好ましい代替的な綴り訂正を提示すること;および、
誤った綴りのクラスターを置き換える、各々の誤った綴りのクラスターに対する前記単一の綴り訂正を含む、訂正されたテキスト出力を提供すること。
図2の機能の動作は、以下の例を考慮することにより、より良く理解され得る。
以下の入力テキストが受け取られる。
Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate.
以下の単語が綴りの誤りとして特定される。
ecudation, assits; strenghing; eksersiv; inprove; strenth; helth; becals; thay, ea.
“fate”は、辞書に現れるため、綴りの誤りとして特定されないことに留意されたい。
表1に見られるように、以下のクラスターが選択される。
Figure 0005584212
クラスター2に関して、“their”は正しく綴られているにも関わらず、誤って綴られた単語に囲まれているためにクラスターに含まれていることに留意されたい。
クラスター1の“eksersiv”は、その付近において正しく綴られた単語の最も長いシーケンス(単数または複数)を有するため、訂正のために選択される。
以下の代替的な訂正が、誤って綴られた単語“eksersiv”に対して生成される。
excessive, expressive, obsessive, assertive, exercise, extensive, exclusive, exertion, excised, exorcism.
各々の代替的な訂正は、例えば表2に見られるように、誤って綴られた単語に対する音声および文字列の類似度に基づいて、非文脈的な単語類似度スコアを与えられる。
Figure 0005584212
非文脈的なスコアは、様々な方法で導出され得る。一つの例としては、http://en.wikipedia.org/wiki/Levenshtein_distanceで利用できるレーベンシュタイン距離(Levelnshtein Distance)アルゴリズムを用いることによる。このアルゴリズムは、単語の列、単語の音声上の表現、または両者の組み合わせに想定され得る。
入力センテンスの文脈における適合に基づいて、表3に見られるように、各々の選択肢は文脈的なスコアも与えられる。この例では、用いられる文脈は、“Some students should <eksersiv> daily”である。
Figure 0005584212
文脈的なスコアは、図8を参照して以下に説明されるようにして導出されることが好ましく、また、インターネットコーパス中での文脈特徴シーケンス(CFS)の頻度に基づく。
図8に関して以下に説明されるように、文脈的なスコアと非文脈的な単語類似度スコアとの組み合わせに基づいて、単語“exercise”が最良の選択肢として選択される。
クラスターの全ては、同様にして訂正される。本発明の好ましい実施形態に従う綴りの訂正後の、綴りを訂正された入力テキストは、
Physical education can assist in strengthening muscles. Some students should exercise daily to improve their strength and health because they are so fate.
である。
綴りを訂正された入力テキストには誤用された単語が残っていることに留意されたい。単語“fate”は、図3を参照して以下に説明される誤用された単語および文法訂正アルゴリズムによる訂正を必要とする。
ここで図3を参照する。図3は、図1のシステムおよび機能において好ましくは用いられる誤用された単語および文法訂正機能を示す単純化したフローチャートである。誤用された単語および文法訂正機能は、正しく綴られているが入力テキストの文脈では誤って用いられている単語の訂正、ならびに、文法的に正しい単語の代わりに文法的に正しくない単語の使用、不要な単語の使用、単語および句読点の欠落を含む、文法の誤りの訂正を提供する。
図3に見られるように、誤用された単語および文法訂正機能は、以下のステップを有することが好ましい。
図2の綴り訂正機能からの綴りを訂正された入力テキストの出力における誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは入力センテンスの文脈内での該単語の少なくとも大部分の適合を評価することによって、特定すること;
誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは重複しないクラスターにグループ化すること;および、
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップは、図6Bを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図7Aを参照して以下に説明される代替的な訂正生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図10を参照して以下に説明される冠詞、前置詞、および句読点の欠落訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図11を参照して以下に説明される不要な冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図9を参照して以下に説明される誤用された単語および文法訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、少なくとも部分的に文脈ベースのスコア付けおよび単語類似度ベースのスコア付けをすること;
図9を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の誤用された単語および文法の訂正を選択し、かつ、最も好ましい代替的な誤用された単語および文法の訂正を提示すること;および、
正しくないクラスターを置き換える、各々のクラスターに対する前記の単一の誤用された単語および文法の訂正を含む綴り、誤用された単語および文法を訂正されたテキスト出力を提供すること。
好ましくは、該スコア付けは、疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用することを含み、該バイアスは、該入力を提供する人の不確実性を指し示す入力の不確実性の指標の関数である。
図3の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが受け取られる:
I have money book
以下の単語が、誤用の疑いのある単語として特定される:
money, book
以下のクラスターが生成される:
money book
以下は、該クラスターに対して生成される代替的な訂正の例である(部分的なリスト):
money books; money back; money box; money bulk; money Buick; money ebook; money bank; mini book; mummy book; Monet book; honey book; mannerly book; mono book; Monday book; many books; mini bike; mummy back; monkey bunk; Monday booked; Monarchy back; Mourned brook
インターネットコーパスを用いた少なくとも部分的に文脈的なスコア付け文脈ベース、および、非文脈的な単語類似度ベースのスコア付けの結果は、表4に示される。
Figure 0005584212
グローバルスコアに到達する様々な方法が存在することを理解されたい。好ましいグローバルスコアは、図9を参照して以下に説明されるアルゴリズムに基づくものである。
上記スコア付けに基づいて、選択肢“many books”が選択される。従って、訂正されたテキストは:
I have many books.
である。
ここで図4を参照する。図4は、図1のシステムおよび機能において用いられる語彙改善機能を示す単純化したフローチャートである。図4に見られるように、語彙改善機能は以下のステップを有することが好ましい。
図3の誤用された単語および文法訂正機能からの綴り、誤用された単語および文法を訂正された入力テキストの出力において、準最適である疑いのある語彙の使用を有する語彙に問題のある単語を特定すること;
語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化すること;
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップは、図6Cを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図7Bを参照して以下に説明される語彙改善生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な語彙改善を生成すること;
図9を参照して以下に説明される語彙改善選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な語彙改善の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けをすること;
図9を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の語彙改善を選択し、かつ、最も好ましい代替的な語彙改善を提示すること;および、
各々の準最適な語彙クラスターに対して、語彙改善の提案を提供すること。
図4の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴り、誤用された単語および文法を訂正された入力テキストが提供される:
Wearing colorful clothes will separate us from the rest of the children in the school.
図6Cを参照して以下に説明される機能を用いて、語彙改善のために以下のクラスターが選択される:
separate
図7Bを参照して以下に説明される機能を用いて、表5に見られる以下の代替的なクラスターの訂正が、図7Bに説明される前処理された語彙データベースに基づいて生成される(部分的なリスト):
Figure 0005584212
様々な代替的な語彙改善が、入力テキストの文脈内でのそれらの適合に少なくとも部分的には基づいて、および、語彙に問題のある単語“separate”に対するそれらの単語の意味の類似度にも基づいて、インターネットコーパスを用いてスコア付けされる。
図5を参照して以下に説明される機能を用いて、以下のCFSが生成される(部分的なリスト):
'will separate', 'separate us', 'clothes will separate', 'will separate us', 'separate us from'
図9のステージIIAを参照して以下に説明される機能を用いて、表6に見られるインターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の部分的なリストに対して生成される。
Figure 0005584212
全ての代替的な訂正が発生頻度ゼロである全てのCFSは除外される。この例では、以下の特徴グラムは除外される:
'clothes will separate'
その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される:
'will separate', 'separate us'
この例では、残るCFSは特徴グラム:
'will separate us', 'separate us from'
である。
図9を参照してステージIIDおよびIIEにおいて以下に説明される最終の優先度スコアを用いて、選択肢“differentiate”が選択され、改善されたセンテンスは:
Wearing colorful clothes will differentiate us from the rest of the children in the school.
である。
ここで図5を参照する。図5は、本発明の好ましい実施形態のコンピュータ補助による言語訂正のためのシステムおよび機能において有用である文脈特徴シーケンス(CFS)機能118(図1)を示す単純化したブロック図である。
CFS機能118は、好ましくは、特徴抽出機能を有し、該特徴抽出機能は、Nグラム抽出機能、ならびに任意には、スキップグラム抽出機能、スイッチグラム抽出機能、共起抽出機能、および、ユーザーによって既に使用された特徴抽出機能のうちの少なくとも一つを有する。
用語Nグラムは、当該技術分野において公知の用語であり、入力テキストにおけるN個の連続する単語のシーケンスを意味する。文法的な考慮に基づいて、コーパス中、好ましくはインターネットコーパス中に高頻度で現れるとは予想されないある種のNグラムの生成を回避するために、Nグラム抽出機能は、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書の目的のためには、用語「スキップグラム抽出機能」は、「スキップグラム」を抽出するように機能する機能を意味し、「スキップグラム」は、形容詞、副詞、形容詞句、および副詞句などのある種の不可欠ではない単語または句を除外した修正されたnグラムであり、あるいは、主語−動詞、動詞−目的語、副詞−動詞、または動詞−時間表現などの予め定められた文法的な関係を有する単語のみを含む修正されたnグラムである。スキップグラム抽出機能は、所与の文脈においてどの単語をスキップしてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書の目的のためには、用語「スイッチグラム抽出機能」は、「スイッチグラム」を特定する機能を意味し、「スイッチグラム」は、ある種の単語の出現順序が切り替えられた修正されたnグラムである。スイッチグラム抽出機能は、所与の文脈においてどの単語がその出現順序を切り替えられてもよいのかの決定を補助するために、従来の品詞タグ付け機能およびセンテンス構文解析機能を用いてもよい。
本明細書においては、用語「共起抽出機能(co-occurrence extraction functionality)」は、入力センテンス中または多くの入力センテンスを含む入力文書中の単語の組み合わせを特定する機能を意味し、一般に発生する単語(前置詞、冠詞、接続詞、および、その機能が主として文法的なものである他の単語といったもの)のフィルター除去に引き続いて、入力単語からの距離および方向の表示と共に、Nグラム、スイッチグラム、または、スキップグラムに含まれる単語以外の入力テキスト中の全ての単語に対する入力テキストの単語の共起(co-occurrence)を有する。
本明細書においては、用語「ユーザーによって以前に使用された特徴抽出機能」は、前置詞、冠詞、接続詞、およびその機能が主として文法的なものである他の単語などの一般に起こる単語の除去後に、他の文書においてユーザーによって使用された単語を特定する機能を意味する。
本明細書においては、Nグラム、スキップグラム、スイッチグラム、およびそれらの組み合わせは特徴グラムと呼ばれる。
本明細書においては、Nグラム、スキップグラム、スイッチグラム、共起、「ユーザーによって以前に使用された特徴」、およびそれらの組み合わせは、文脈特徴シーケンスまたはCFSと呼ばれる。
図5の機能は、入力テキスト中の個々の単語または単語のクラスターに対して機能することが好ましい。
図5の機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の入力テキストが提供される:
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer , to invesigate the death of sir Charles”
入力テキスト中のクラスター“Cherlock Homes”に対して、以下のCFSが生成される:
Nグラム:
2グラム: Cherlock Homes; Homes the
3グラム: Cherlock Homes the; Homes the lead
4グラム: Cherlock Homes the lead; Homes the lead character
5グラム: Cherlock Homes the lead character
スキップグラム:
Cherlock Homes the character; Cherlock Homes the chief inspecter; Cherlock Homes the inspecter; Cherlock Homes has been cold
スイッチグラム:
The lead character Cherlock Homes
入力テキスト中の共起:
Character; inspector; investigate; death
入力テキストを含む文書中の共起:
Arthur Conan Doyle; story
ユーザーの他の文書中の共起:
mystery
入力テキスト中のクラスター“cold”に対して、以下のCFSが生成される:
Nグラム:
2グラム: been cold; cold in
3グラム: has been cold; been cold in; cold in by
4グラム: inspector has been cold; has been cold in; been cold in by; cold in by the
5グラム: chief inspector has been cold; inspector has been cold in; has been cold in by; been cold in by the; cold in by the family
スキップグラム:
cold in to investigate; Cherlock has been cold; cold by the doctor; cold by Dr Mortimer; character has been cold
CFSは各々、以下のうちの少なくとも一つ、好ましくは一つより多く、最も好ましくは全てに基づいて、「重要度スコア」を与えられる。
a.従来の品詞タグ付け機能およびセンテンス構文解析機能の操作。複数のパースツリーノード(parsing tree nodes)の部分を含むCFSは比較的低いスコアを与えられる。CFSに含まれるパースツリーノードの個数が多くなるほど、そのCFSのスコアは低くなる。
b.CFSの長さ。CFSが長くなるほど、スコアは高くなる。
c.入力ワード以外のCFS中の単語の各々の発生頻度。そのような単語の発生頻度が高くなるほど、スコアは低くなる。
d.CFSの類型。例えば、Nグラムは共起よりも好ましい。入力センテンス中の共起は入力文書中の共起よりも好ましく、入力文書中の共起は「ユーザーによって以前に使用された特徴」よりも好ましい。
上記の例に関して、典型的なスコアは表7に見られる通りである。
Figure 0005584212
これらのCFSおよびそれらの重要度スコアは、インターネットコーパス中でのCFSの発生頻度に基づく様々な代替的なクラスターの訂正の文脈ベースのスコア付けのために、図8および9を参照して以下で説明される機能において用いられる。
ここで図6Aを参照する。図6Aは、入力テキスト中の綴りを誤った単語を特定し、好ましくは重複しないクラスターに綴りを誤った単語をグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。
図6Aに見られるように、綴りを誤った単語の特定は、インターネット上で一般に用いられる適当な名称および単語が充実した従来の辞書を用いることによって行われることが好ましい。
綴りを誤った単語のクラスターへのグループ化は、連続するまたはほぼ連続する綴りを誤った単語を、文法上の関係を有する綴りを誤った単語と共に、単一のクラスターにグループ化することによって行われることが好ましい。
訂正のためのクラスターの選択は、最も多くの、疑いのない文脈データを含むクラスターを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において正しく綴られた単語の最も長いシーケンス(単数または複数)を有するクラスターが選択される。
ここで図6Bを参照する。図6Bは、綴りを訂正された入力テキスト中の誤用の疑いのある単語および文法の誤りを有する疑いのある単語を特定し、誤用の疑いのある単語および文法の誤りの疑いのある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。
誤用の疑いのある単語の特定は以下のようにして行われることが好ましい。
綴りを訂正された入力テキスト中の各々の単語に対して、特徴グラムが生成される;
コーパス、好ましくはインターネットコーパス中での該特徴グラムの各々の発生頻度が記録される;
各々の単語に対して疑わしい特徴グラムの数が記録される。疑わしい特徴グラムは、予期される頻度(expected frequency)よりも著しく低い頻度、または最小の頻度の閾値を下回る頻度を有する。特徴グラムの予期される頻度は、その構成要素およびそれらの組み合わせの頻度に基づいて見積もられる。
ある単語は、その単語を含む疑わしい特徴グラムの数が、予め定められた閾値を超えている場合に疑わしいものとなる。
本発明の好ましい実施形態に従って、コーパス中、好ましくはインターネットコーパス中での、綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度(FREQ F−G)が確かめられる。そのコーパス中での綴りを訂正された入力テキスト中の各々の単語の発生頻度(FREQ W)もまた確かめられ、さらには、その単語を有しない各々の特徴グラムの発生頻度(FREQ FG−W)が確かめられる。
各々の特徴グラムの予期される発生頻度(EFREQ F−G)は、以下の通りに算出される:
EFREQ F−G=FREQ F−G−W * FREQ W/(コーパス中での全ての単語の頻度の合計)
コーパス、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度の、各々の特徴グラムの予期される発生頻度に対する比(FREQ F−G/EFREQ F−G)が予め定められた閾値よりも小さい場合、あるいは、FREQ F−Gが別の予め定められた閾値よりも小さい場合、特徴グラムは疑わしい特徴グラムであると考えられる。疑わしい特徴グラムに含まれる全ての単語は、誤用の疑いのある単語または文法の誤りの疑いのある単語であると考えられる。
綴りを訂正された入力テキストにおける誤用の疑いのある単語および文法の誤りの疑いのある単語の特定のための図6Bの機能の動作は、以下の例の考慮により、より良く理解され得る。
以下の綴りを訂正された入力テキストが提供される:
I have money book
特徴グラムは以下を含む:
I; I have; I have money; I have money book
表8は、上記特徴グラムのインターネットコーパス中での発生頻度を示す。
Figure 0005584212
予期される発生頻度は、2グラムの各々に対して以下の通りに算出される:
EFREQ F−G=(FREQ F−G−W * FREQ W)/(コーパス中の全ての単語の頻度の合計)
例えば、2グラムに対しては、
2グラム(x,y)に対する予期される2グラムの頻度=(xの1グラムの頻度 * yの1グラムの頻度)/インターネットコーパス中の単語の数(例:1兆(1,000,000,000,000)ワード)
コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度の、各々の特徴グラムの予期される発生頻度に対する比は、以下の通りに算出される:
FREQ F−G/EFREQ F−G
コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の上記2グラムの各々の発生頻度の、上記2グラムの各々の予期される発生頻度に対する比は、表9に見られる。
Figure 0005584212
“money book”のFREQ F−Gはその予期される頻度よりも著しく低いため、FREQ F−G/EFREQ F−Gは、1などの予め定められた閾値よりも低いと考えることができ、従って、クラスター“money book”は疑わしいことが分かる。
単語“money book”を含む3グラムおよび4グラムは共に、インターネットコーパス中では頻度ゼロであることが分かる。これもまた、“money book”は疑わしいと考える根拠となり得る。
誤用の疑いのある単語および文法の誤りの疑いのある単語のクラスターへのグループ化は、以下の通りに行われることが好ましい。連続するまたはほぼ連続する誤用の疑いのある単語は単一のクラスターにグループ化され、また、それらの間に文法上の関係を有する誤用の疑いのある単語は同一のクラスターにグループ化される。
訂正のためのクラスターの選択は、多くの量の疑わしくない文脈データを含むクラスターを見付けるのを試みることによって行われることが好ましい。好ましくは、その付近において疑わしくない単語の最も長いシーケンス(単数または複数)を有するクラスターが選択される。
ここで図6Cを参照する。図6Cは、綴り、誤用された単語および文法を訂正された入力テキストにおいて、準最適である疑いのある語彙の使用を有する、語彙に問題のある単語を特定し、語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化し、かつ訂正のためのクラスターを選択するための機能を示す単純化したフローチャートである。
語彙に問題のある単語の特定は、以下の通りに行われることが好ましい:
各々の単語に対して言語豊富度スコアを付与するためにシソーラスを前処理する。該言語豊富度スコアは、ヒエラルキーでの単語のレベルを示し、該ヒエラルキーでは、書かれた言語は話された言語よりも好ましく、例えば、インターネットソースの間では、記事および書籍はチャットおよびフォーラムよりも好ましく、かつ、より使用頻度の低い単語は、より使用頻度の高い単語よりも好ましい;
シソーラスを更に前処理して、先行する前処理ステップの結果に基づいて、および、文法規則に基づいて、語彙改善のための候補ではありそうもない単語を除外する;
更に前処理して、入力単語の言語豊富度スコアよりも高い言語豊富度スコアを有する語彙改善用の候補を、各々の残っている単語に対して指し示す;および、
綴り、誤用された単語および文法を訂正された入力テキスト中の各々の単語が、複数に前処理されたシソーラス中に残っている単語として現れるかどうかを確認し、残っている単語として現れたそのような単語の各々を、語彙改善のための候補として特定する。
語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化することは、任意選択的であり、好ましくは以下の通りに行われる:
連続する語彙に問題のある単語が単一のクラスターにグループ化される;および、
文法上の関係を有する語彙に問題のある単語が、同一のクラスターにグループ化される。
訂正のためのクラスターの選択は、最も多くの量の、語彙に問題のない単語を含むクラスターを見付けることを試みることによって行われることが好ましい。好ましくは、その付近において語彙に問題のない単語の最も長いシーケンス(単数または複数)を有するクラスターが選択される。
ここで図7Aを参照する。図7Aは、図2および3の機能において有用である、クラスターに対する代替的な訂正を生成するための機能を示す単純化したフローチャートである。
元々の入力単語が正しく綴られている場合、それが選択肢として考えられる。
図7Aに見られるように、クラスター中の各々の単語に対して、複数の代替的な訂正が最初に以下のようにして生成される:
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、クラスター中の各々の単語に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、GNU AspellおよびGoogle(登録商標)GSpellなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の代替的な訂正を提供する。例えば、入力単語feezixを考えると、一つの文字、すなわち“i”しか共通しないが、音声の類似に基づいて、辞書から単語“physics”が取得されることになる。類似の音声を有しないが、その列の文字の類似度に基づいて、単語“felix”が取得されることになる。
更なる選択肢は、公知の代替的な用法に基づく規則、および蓄積されたユーザーの入力を用いることによって生成され得る。例:u→you、r→are、Im→I am。
更なる選択肢は、好ましくは予め定義されたリストを用いて、文法規則に基づいて生成され得る。少数の例は以下の通りである:
単数形/複数形の規則:入力センテンスが“leaf fall off trees in the autumn”である場合、複数形の選択肢“leaves”が生成される。
冠詞の規則:入力テキストが“a old lady”である場合、代替的な冠詞“an”および“the”が生成される。
前置詞の規則:入力テキストが“I am interested of football”である場合、代替的な前置詞“in”、“at”、“to”、“on”、“through”,...が生成される。
動詞の活用規則:入力テキストが“He leave the room”である場合、代替的な動詞の活用“left”、“leaves”、“had left”,...が生成される。
単語の結合および単語の分割の規則:入力テキストが“get alot fitter”である場合、選択肢“a lot”が生成される。
入力テキストが“we have to wat ch out”である場合、選択肢“watch”が生成される。
入力テキストが“do many sittups”である場合、選択肢“sit ups”が生成される。
CFS、より具体的には特徴グラムなどの文脈情報が、代替的な訂正を生成するために用いられ、そしてそれは、そのような「文脈的に取得された」代替的な訂正をスコア付けするためのみではないということは、本発明の好ましい実施形態の特有の特徴である。CFS、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。
以下の例は本発明のこの側面を示している:
入力センテンスが“The cat has kts”である場合、単語“kts”は単語“kittens”に音声または記述として有意には類似していないかもしれないため、本発明のこの側面がなければ、“kittens”は選択肢の一つにならないかもしれない。
本発明のこの側面によれば、インターネットコーパスにおいて、nグラム“cat has”の後に一般に現れる単語、すなわち、クエリ“cat has *”において*として見付かる全ての単語を探すことにより、以下の選択肢が取得される:
nine lives; left; fleas; dandruff; kittens; tapeworms; adopted; retractile claws; been; urinated; diarrhea; eaten; swallowed; hairballs; gone; always been
本発明の好ましい実施形態によれば、「文脈的に取得された」選択肢はその後フィルタリングにかけられ、元々の単語に対して何らかの音声学上または記述上の類似度を有する文脈的に取得された選択肢のみ(当該の例では“kts”)が残る。この例では、最も高い音声学上および記述上の類似度を有する選択肢“kitten”が取得される。
入力テキストが、光学文字認識、音声テキストまたは機械翻訳システムなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接取得され得る。そのような追加の選択肢は、典型的には、そのようなシステムの作動の過程で生成される。例えば、機械翻訳システムでは、外国語の単語の代替的な翻訳が、選択肢として使用するために当該システムに提供され得る。
クラスター中の単語の各々に対する選択肢の全てが生成されると、クラスター全体に対するクラスターの選択肢が、様々な選択肢の可能な全ての組み合わせを確かめ、続いてコーパス中、好ましくはインターネットコーパス中での発生頻度に基づいて該組み合わせをフィルタリングすることにより、生成される。
以下の例が実例である:
入力クラスターが“money book”である場合、単語“money”に対する選択肢は:
Monday; many; monkey
であり、単語“book”に対する選択肢は:
Books; box; back
である。
以下のクラスターの選択肢が生成される:
money books; money box; money back; Monday books; Monday box; Monday back; many books; many box; many back; monkey books; monkey box; monkey back; many book; monkey book; Monday book
ここで図7Bを参照する。図7Bは、図4の機能において有用である、クラスターに対する代替的な改善(enhancements、改選体)を生成するための機能を示す単純化したフローチャートである。
図7Bに見られるように、複数の代替的な改善は、最初に以下のようにして生成される:
元々の入力単語が正しく綴られている場合、それが選択肢として考慮される。
シソーラス、または、インターネット上で自由に利用できるPrinceton WordNetなどの他の語彙データベースから取られ、クラスター中の各々の単語に対して同義語、上位集合または部分集合として語彙的に関連する複数の単語が取得される。取得され、優先順位を付された単語は、第一の複数の代替的な改善を提供する。
公知の代替的な用法に基づく規則および蓄積されたユーザーの入力を用いることにより、さらなる選択肢が生成され得る。
CFS、より具体的には特徴グラムなどの文脈情報が、代替的な改善を生成するために用いられ、そしてそれは、そのような「文脈的に取得された」代替的な改善をスコア付けするためのみではないということは、本発明の好ましい実施形態の特有の特徴である。CFS、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。
クラスター中の単語の各々に対する選択肢の全てが生成されると、クラスター全体に対する選択肢が、様々な単語の選択肢の可能な全ての組み合わせを確かめ、インターネットなどの既存のコーパス中での生じた複数単語の組み合わせの発生頻度に基づいて組み合わせをフィルタリングすることにより、生成される。
以下の例は、図7Bの機能の実例となる:
以下の入力テキストが提供される:
It was nice to meet you
単語“nice”に対して以下の選択肢がPrinceton WordNetなどの語彙データベースにより生成される(部分的なリスト):
pleasant, good, kind, polite, fine, decent, gracious, courteous, considerate, enjoyable, agreeable, satisfying, delightful, entertaining, amiable, friendly, elegant, precise, careful, meticulous
単語“nice”に対して以下の選択肢が、予め定められた規則の適用により生成される:
cool
“it was * to meet”などのクエリに対する応答などにおいて、単語“nice”に対して、以下の文脈的に取得された選択肢が生成される:
great; a pleasure; wonderful; lovely; good; impossible; fun; awesome; refreshing; exciting; agreed; fantastic; decided ; inspiring
ここで図8を参照する。図8は、図2の綴り訂正機能において有用である、様々な代替的な改善の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。
図8に見られるように、様々な代替的な訂正の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む:
I.非文脈的なスコア付け − 様々なクラスターの選択肢が、書かれたときの見た目および音声の類似度の観点での入力テキスト中のクラスターに対する類似度に基づいてスコア付けされる。このスコア付けは、所与のクラスターの外のいかなる文脈的な類似度も考慮に入れない。
II.インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図5を参照して上記で説明したようにして提供される抽出された文脈特徴シーケンス(CFS)に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する:
IIA.図5を参照して上記で説明されたようにして抽出されたCFSの文脈における、図7Aの機能によって作り出された様々な代替的なクラスターの訂正に関する発生頻度の解析が、好ましくはインターネットコーパスを用いて行われる。
IIB.サブステージIIAの発生頻度の解析の結果にとりわけ基づいて、CFSの選択および様々なCFSの重み付けが行われる。重み付けは、様々なCFSの相対的な固有の重要度にも基づく。CFSの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるCFSは、相対的な重みを与えられることが好ましい。
IIC.サブステージIIBで選択されたCFSの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
IID.サブステージIIAの発生頻度の解析の結果、サブステージIICの発生頻度の指標、ならびに、サブステージIIBのCFSの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
IIE.基準となるクラスターの訂正として使用するために、ステージIにおける最も高い非文脈的な類似度スコアを有するクラスターが、サブステージIIDにおける縮小されたセットから選択される。
IIF.ステージIIBで選択されたCFSの各々に対する、サブステージIIEの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
IIG.サブステージIIBで選択されたCFSの各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージIIEの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
III.ステージIの結果およびステージIIの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
IV.最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。
ステージII−IVにおいて上述した機能のより詳細な説明は以下で与えられる:
サブステージIIAに関して、訂正されるべきクラスターを含む全てのCFSは、図5において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むCFSは除外される。
CFSの各々におけるクラスターに対する代替的な訂正の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての代替的な訂正が発生頻度ゼロである全てのCFSは除外される。その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。
以下の例は、発生頻度マトリクスの生成を示す:
以下の入力テキストが提供される:
I lik tw play outside a lot
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
lik tw
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
like to; like two; lick two; lack two; lack true; like true
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside'; 'I lik tw play outside'; 'lik tw play outside a'
ステージIIAに関して上述した機能を用いて、表10に見られるインターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
全ての代替的な訂正が発生頻度ゼロとなる全てのCFSは除外される。この例では、以下の特徴グラムは除外される:
'lik tw play outside a'
その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。この例では以下の特徴グラムは除外される:
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside'
この例では、唯一の残るCFSは、特徴グラム:
'I lik tw play outside'
である。
生じるマトリクスは表11に見られる通りとなる。
Figure 0005584212
上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、“like to”が好ましい代替的な訂正であることは明らかである。現実には、選択は通常このように直接的ではないことを理解すべきである。従って、以下に提示する更なる例では、代替的な訂正の間でのはるかに難しい選択を行うための機能が提供される。
サブステージIIBの考慮に戻って、任意には、残るCFSの各々は、図5を参照して上述したようにしてスコアを与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ予め定められた信頼度水準の閾値を下回る信頼度水準を有するCFSは、負にバイアスされる
一般的な場合において、サブステージIICにおいて上述したのと同様に、インターネットコーパス中での各々のCFSの正規化された発生頻度を示す正規化頻度マトリクスが生成されることが好ましい。正規化頻度マトリクスは通常、各々のCFSの頻度を、関連するクラスターの選択肢の発生頻度の関数で割ることにより、頻度マトリクスから生成される。
正規化は、様々な代替的な訂正の全体的な豊富度(popularity)における有意な差異の効果を中立化するように機能する。好適な正規化の係数は、特定のCFSに関係なく、コーパス中での様々な代替的な訂正全体としての全発生頻度に基づくものである。
以下の例は、正規化された発生頻度のマトリクスの生成を示す:
以下の入力テキストが提供される:
footprints of a mysterious haund said to be six feet tall
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
haund
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
hound; hand; sound
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'a mysterious haund'; 'haund said'
本明細書においてステージIICに関して上述した機能を用いて、表12に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される:
Figure 0005584212
様々な代替的な訂正の全体的な豊富度における実質的な差異により、最も高い発生頻度を有する単語が必ずしも最も高い正規化された発生頻度を有しない可能性があることが上記の例から理解され得る。上記の例では、“hound”はもっとも高い正規化された発生頻度を有し、また、インターネットコーパス中で最も高い発生頻度を有する“hand”ではなく、“hound”が正しい単語であることが、入力テキストの文脈から明らかである。
正規化された発生頻度は、様々な代替的な訂正の全体的な豊富度における実質的な差異を中立化し、代替的な訂正の間での選択において使用されることが好ましいということは、本発明の特有の特徴である。正規化された発生頻度以外の発生頻度の指標が、代替的または付加的に、指標として用いられ得ることを理解されたい。発生頻度が比較的低いまたは特に高い場合、付加的または代替的な指標は有益である。
付加的な機能がしばしば、様々な代替的な訂正の間での選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。
サブステージIIDにおいて、以下の指標の両方に従って、別の代替的なクラスターの訂正よりも好ましくない各々の代替的なクラスターの訂正は除外される:
i.他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの;および、
ii.CFSの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。
以下の例は、上述したような代替的な訂正の除外を示す:
以下の入力テキストが提供される:
I leav un a big house
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
leav un
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
leave in; live in; love in
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I leav un a’; ‘leav un a big’
本明細書においてステージIICに関して上述した機能を用いて、表13に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表14に示される通りである。
Figure 0005584212
代替的なクラスターの訂正“love in”は、“live in”よりも低い類似度スコアを有し、そしてまた、より低い発生頻度およびより低い正規化された発生頻度を有するため、除外される。代替的なクラスターの訂正“leave in”は、その類似度スコアは“live in”のそれよりも高いため、この段階では除外されない。
以上より理解され得るように、ステージIIDの機能の動作の結果は、縮小された頻度マトリクスであり、そして好ましくは、縮小された正規化頻度マトリクスでもあり、これらは、縮小された複数のCFSの各々に対して、縮小された複数の代替的な訂正(これらの各々は類似度スコアを有する)の各々の発生頻度、そして好ましくはまた正規化された発生頻度を示すものである。以下の例から分かるように、全ての更なる代替的なクラスターの選択機能について、代替的なクラスターの訂正の縮小されたセットが用いられることが好ましい。
縮小された頻度マトリクスにおける、そして好ましくはまた縮小された正規化頻度マトリクスにおける各々の代替的な訂正に対して、最終の優先度の指標が生成される。各々の代替的な訂正に対して最終の優先度のスコアを生成するために、以下の代替的な指標の一つ以上が用いられ得る。
用語「頻度関数(frequency function)」は、以下では、頻度(frequency)、正規化(normalized)頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
A.一つの可能な優先度の指標は、縮小されたマトリクス(単数または複数)中のCFSのいずれかに対する、縮小されたマトリクス(単数または複数)中の各々の代替的なクラスターの訂正に対する最も高い発生頻度の関数である。例えば、様々な代替的なクラスターの訂正は以下の通りにスコア付けされる:
以下の入力テキストが提供される:
A big agle in the sky
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
agle
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
ogle; eagle; angel
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘big agle’; ‘agle in the sky’
本明細書においてステージIICに関して上述した機能を用いて、表15に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表16に示される通りである。
Figure 0005584212
選択肢’eagle’は、最大の発生頻度を有するCFSを有するため、選択される。
B.別の可能な優先度の指標は、各々の代替的な訂正に対する、全てのCFSの平均の発生頻度の関数である。例えば、様々な代替的な訂正は以下の通りにスコア付けされる。
以下の入力テキストが提供される:
A while ago sthe lived 3 dwarfs
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
sthe
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
the; they; she; there
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘ago sthe lived’; ‘sthe lived 3’
本明細書においてステージIICに関して上述した機能を用いて、表17および18に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
Figure 0005584212
平均の発生頻度に基づいて“there”が選択されることに留意されたい。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表19に示される通りである。
Figure 0005584212
最も高い類似度スコアを有する代替的なクラスターの訂正は選択されないことに留意されたい。
C.更なる可能な優先度の指標は、各々のCFSに対する発生頻度の関数に、図5を参照して上述した機能によって算出されるようなCFSのスコアを掛け合わせものの、各々の代替的な訂正に対する全てのCFSにわたる加重和である。
D.縮小されたマトリクス(単数または複数)中の代替的な訂正に対する以下の操作の、いずれか一つ以上、より好ましくは大部分、最も好ましくは全てによって、特定の代替的な訂正/CFSの優先度の指標が、サブステージIIE−IIGを参照して上述したようにして生成される。
i.最も高い非文脈的な類似度スコアを有する代替的なクラスターの訂正が選択されて、基準となるクラスターとなる。
ii.修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
iii.iiにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
iv.iiまたはiiiで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なCFSスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、CFSスコアに反映される他の要因に基づく強調を提供する。
v.ii、iiiまたはivで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
E.最終の優先度の指標は、Dで上述したような特定の代替的な訂正/CFSの優先度の指標に基づいて、代替的な訂正の類似度スコアに、その代替的な訂正についての全てのCFSに対する特定の代替的な訂正/CFSの優先度の指標の和を掛けることによって、各々の代替的な訂正に対して算出される。
そのような修正されたマトリクスの使用を示す例は以下の通りである。
以下の入力テキストが提供される:
I will be able to tach base with you next week
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
tach
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
teach; touch
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘able to tach’; ‘to tach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表20に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
ある特徴に対しては、“teach”の発生頻度および正規化された発生頻度の両方は、“touch”のそれらよりも大きいが、別の特徴に対しては、“touch”の発生頻度および正規化頻度の両方が“teach”のそれらよりも大きいことに留意されたい。代替的な訂正を正しく選択するために、サブステージIIGに関して上述した比の指標は、以下に説明するようにして用いられることが好ましい。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表21に示される通りである。
Figure 0005584212
“teach”は最も高い類似度スコアを有するため、基準となるクラスターは“teach”であることが分かる。それにも関わらず、上述した最終の優先度のスコアに基づいて“touch”が選択される。“teach”が最も高い発生頻度および最も高い正規化された発生頻度を有することを示す上記マトリクスの考慮から理解され得るように、これは直観的ではない。この例では、“touch”が有利である特徴についての発生頻度の比は、“teach”が有利である他の特徴についての発生頻度の比よりも遥かに大きいため、最終の優先度スコアは“teach”よりも“touch”の選択を示唆する。
F.任意には、代替的な訂正は、その代替的な訂正についての、および、基準となるクラスターについての頻度関数の値および優先度の指標の比較に基づいて、以下の決定規則の一つ以上を用いて、除去されてもよい。
1.予め定められた閾値を下回る類似度スコアを有し、かつ、予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、基準となるクラスターのCFS頻度関数よりも小さいCFS頻度関数を有する代替的な訂正を除去する。
2.予め定められた閾値を下回る類似度スコアを有し、かつ、別の予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、予め定められた閾値よりも小さい優先度の指標を有する代替的な訂正を除去する。
3.a.各々のCFSのCFSスコアを確かめる;
b.各々のCFSに対して、基準となるクラスターについての、および、代替的な訂正についてのCFS頻度関数を確かめ、それにより、基準となるクラスターまたは該代替的な訂正は、そのCFSに対して、より高い頻度関数を有するかどうかを確かめる;
c.該代替的な訂正が基準となるクラスターよりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
d.基準となるクラスターが該代替的な訂正よりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
e.c.での和がd.での和よりも小さい場合、その代替的な訂正を除去する。
以下の例は、上述したフィルタリング機能を示す。
以下の入力テキストが提供される;
I am faelling en love
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
faelling en
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
falling on; falling in; feeling on; feeling in
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘am faelling en’; ‘faelling en love’; ‘am faelling en love’; ‘I am faelling en’
本明細書においてサブステージIIAに関して上述した機能を用いて、表22に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される:
‘am faelling en’; ‘faelling en love’
この例では、残るCFSは特徴グラム:
‘am faelling en love’; ‘I am faelling en’
である。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表23に示される通りである。
Figure 0005584212
代替的な訂正“falling on”、“feeling on”、および“feeling in”は、CFSの一つに対して発生頻度ゼロであるため、除去される。
G.ステージIIIに関して上述したように、Fでのフィルタリングで残った代替的な訂正に関して、A−Eで上述したようにして発展された最終の優先度の指標に基づいて、ランキングが確立される。最も高い最終の優先度のスコアを有する代替的な選択が選択される。
H.ステージIVに関して上述したように、選択された代替的な訂正に対して、信頼度水準が付与される。この信頼度水準は、以下のパラメータのうちの一つ以上に基づいて算出される:
a.上記サブステージIIBで提供された選択されたCFSの個数、類型、およびスコア付け;
b.CFSの文脈における、様々な代替的なクラスターの訂正の発生頻度の統計的な優位度;
c.CFSの各々の優先度の指標、および、様々な代替的な訂正の単語の類似度スコアに基づく、代替的な訂正の選択における合致の程度;
d.予め定められた最小の閾値を上回る、選択された代替的なクラスターの訂正の非文脈的な類似度スコア(ステージI)。
e.予め定められた最小の閾値を上回るCFSスコアを有し、かつ、別の予め定められた閾値を上回る優先度スコアを有する縮小されたマトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
信頼度水準が予め定められた閾値を上回っている場合、選択された代替的な訂正は、ユーザーとの交信なしで実現される。信頼度水準が予め定められた閾値よりも低いが、より低い予め定められた閾値よりも高い場合、選択された代替的な訂正は実現されるが、ユーザーとの交信が要請される。信頼度水準が、より低い予め定められた閾値よりも低い場合、代替的な訂正の優先順位を付されたリストに基づくユーザーの選択が要請される。
以下の例は、信頼度水準のスコア付けの使用の実例である:
以下の入力テキストが提供される:
He was not feeling wehl when he returned
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
wehl
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
wale; well
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘was not feeling wehl’; ‘not feeling wehl when; ‘feeling wehl when he’; ‘wehl when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表24に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
以上の例は、上記Hで示した全ての基準により、’wale’よりも’well’の選択が高い信頼度水準を有することを示す。
以下の例では、CFS’bech in the summer’において、代替的な訂正’back’は’beach’よりも高い発生頻度を有するが、CFS’on the beech in’および’the bech in the’において、’beach’は’back’よりも高い発生頻度を有するという事実により、信頼度水準がいくぶん小さい。代替的な訂正’beach’は、基準H(c)に基づいて中間的な信頼度水準と共に選択される。
以下の入力テキストが提供される;
I like to work on the bech in the summer
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
bech
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
beach; beech; back
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘on the bech in’; ‘the bech in the’; ‘bech in the summer’
サブステージIIAに関して上述した機能を用いて、表25に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
代替的な訂正’beach’は、基準H(c)に基づいて中間的な信頼度水準と共に選択される。
以下の例では、基準H(a)に基づいて、信頼度水準はさらに低い:
以下の入力テキストが受け取られる:
Exarts are restoring the British Museum’s round reading room
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
Exarts
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
Experts; Exerts; Exits
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘Exarts are’; ‘Exarts are restoring’; ‘Exarts are restoring the; ‘Exarts are restoring the British’
サブステージIIAに関して上述した機能を用いて、表26に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
全ての代替的な訂正が発生頻度ゼロとなる全てのCFSは除外される。この例では、以下の特徴グラムは除外される:
‘Exarts are restoring’; ‘Exarts are restoring the’; ‘Exarts are restoring the British’
この例では、唯一の残るCFSは、特徴グラム:
‘Exarts are’
である。
以上の例から分かるように、フィルタリング処理で残る唯一のCFSは“exarts are”である。結果として、比較的短く、かつ、疑わしい単語以外には頻繁に起こる単語である一つの単語しか含まない単一のCFSのみに選択が基づくため、信頼度水準は比較的低い。
ここで図9を参照する。図9は、図3、10および11の誤用された単語および文法の訂正機能において、および、図4の語彙改善機能においても有用である、様々な選択肢の訂正の文脈ベースおよび単語類似度ベースのスコア付けのための機能を示す単純化したフローチャートである。
図9に見られるように、様々な代替的な訂正の文脈ベースおよび単語類似度ベースのスコア付けは、以下の大まかなステージで進む。
I.非文脈的なスコア付け − 様々なクラスターの選択肢が、書かれたときの見た目および音声の類似度の観点での入力テキスト中のクラスターに対する類似度に基づいてスコア付けされる。このスコア付けは、所与のクラスターの外のいかなる文脈的な類似度も考慮に入れない。
II.インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図5を参照して上記で説明したようにして提供される抽出された文脈特徴シーケンス(CFS)に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する:
IIA.図5を参照して上記で説明されたようにして抽出されたCFSの文脈における、図7Aまたは7Bの機能によって作り出された様々な代替的なクラスターの訂正に対する発生頻度の解析が、好ましくはインターネットコーパスを用いて行われる。
IIB.サブステージIIAの発生頻度の解析の結果にとりわけ基づいて、CFSの選択および様々なCFSの重み付けが行われる。重み付けは、様々なCFSの相対的な固有の重要度にも基づく。CFSの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるCFSは、相対的な重みを与えられることが好ましい。
IIC.サブステージIIBで選択されたCFSの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
IID.サブステージIIAの発生頻度の解析の結果、サブステージIICの発生頻度の指標、ならびに、サブステージIIBのCFSの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
IIE.基準となるクラスターの訂正として使用するために、入力クラスターが選択される。
IIF.ステージIIBで選択されたCFSの各々に対する、サブステージIIEの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
IIG.サブステージIIBで選択された特徴の各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージIIEの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
III.ステージIの結果およびステージIIの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
IV.最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。
ステージII−IVにおいて上述した機能のより詳細な説明は以下で与えられる:
サブステージIIAに関して、訂正されるべきクラスターを含む全てのCFSは、図5において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むCFSは除外される。
CFSの各々におけるクラスターに対する代替的な訂正の各々について、コーパス中、好ましくはインターネットコーパス中での発生頻度を示すマトリクスが生成される。全ての代替的な訂正が発生頻度ゼロである全てのCFSは除外される。その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。
以下の例は、発生頻度マトリクスの生成を示す:
以下の入力テキストが提供される:
I lick two play outside a lot
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
lick two
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
like to; like two; lick two; lack two; lack true; like true
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play outside'; 'I lick two play outside'; 'lick two play outside a'
サブステージIIAに関して上述した機能を用いて、表27に見られるインターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
全ての代替的な訂正が発生頻度ゼロとなる全てのCFSは除外される。この例では、以下の特徴グラムは除外される:
'lick two play outside a'
その後、少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される:
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play outside'
この例では、唯一の残るCFSは、以下の特徴グラム:
'I lick two play outside'
である。
生じるマトリクスは表28に見られる通りとなる。
Figure 0005584212
上記の例は、本発明の好ましい実施形態に従うマトリクスの生成を示している。この例では、“like to”が好ましい代替的な訂正であることは明らかである。現実には、選択は通常このように直接的ではないことを理解すべきである。従って、以下に提示する更なる例では、代替的な訂正の間でのはるかに難しい選択を行うための機能が提供される。
サブステージIIBの考慮に戻って、任意には、残るCFSの各々は、図5を参照して上述したようにしてスコアを与えられる。付加的には、複数単語の入力の以前の訂正の繰り返しにおいて導入された単語を含み、かつ予め定められた信頼度水準の閾値を下回る信頼度水準を有するCFSは、負にバイアスされる。
一般的な場合において、サブステージIICにおいて上述したのと同様に、インターネットコーパス中での各々のCFSの正規化された発生頻度を示す正規化頻度マトリクスが生成されることが好ましい。正規化頻度マトリクスは通常、各々のCFSの頻度を、関連するクラスターの選択肢の発生頻度の関数で割ることにより、頻度マトリクスから生成される。
正規化は、様々な代替的な訂正の全体的な豊富度における有意な差異の効果を中立化するように機能する。好適な正規化の係数は、CFSに関係なく、コーパス中での様々な代替的な訂正全体としての全発生頻度に基づくものである。
以下の例は、正規化された発生頻度のマトリクスの生成を示す:
以下の入力テキストが、典型的には音声認識によって、提供される:
footprints of a mysterious [hound/hand] said to be six feet tall
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
hound
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
hound; hand; sound
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'a mysterious hound'; 'hound said'
本明細書においてサブステージIICに関して上述した機能を用いて、表29に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される:
Figure 0005584212
様々な代替的な訂正の全体的な豊富度における実質的な差異により、最も高い発生頻度を有する単語が必ずしも最も高い正規化された発生頻度を有しない可能性があることが上記の例から理解され得る。上記の例では、“hound”はもっとも高い正規化された発生頻度を有し、また、インターネットコーパス中で最も高い発生頻度を有する“hand”ではなく、“hound”が正しい単語であることが、入力テキストの文脈から明らかである。
正規化された発生頻度は、様々な代替的な訂正の全体的な豊富度における実質的な差異を中立化し、代替的な訂正の間での選択において使用されることは、本発明の特有の特徴である。正規化された発生頻度以外の発生頻度の指標が、代替的または付加的に、指標として用いられ得ることを理解されたい。発生頻度が比較的低いまたは特に高い場合、付加的または代替的な指標は有益である。
付加的な機能がしばしば、様々な代替的な訂正の間での選択において有用であることが以下の議論から理解されるであろう。これらの機能は以下に説明される。
サブステージIIDにおいて、以下の指標の両方に従って、別の代替的な訂正よりも好ましくない各々の代替的なクラスターの訂正は除外される:
i.他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの;および、
ii.CFSの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。
以下の例は、上述したような代替的な訂正の除外を示す:
以下の入力テキストが提供される:
I leave on a big house
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
leave un
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
leave in; live in; love in; leave on
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I leave on a’; ‘leave on a big’
本明細書においてステージIIEに関して上述した機能を用いて、表30に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表31に示される通りである。
Figure 0005584212
代替的なクラスターの訂正“love in”は、“live in”よりも低い類似度スコアを有し、そしてまた、より低い発生頻度およびより低い正規化された発生頻度を有するため、除外される。代替的なクラスターの訂正“leave in”は、その類似度スコアは“live in”のそれよりも高いため、この段階では除外されない。
以上より理解され得るように、サブステージIIDの機能の動作の結果は、縮小された頻度マトリクスであり、そして好ましくは、縮小された正規化頻度マトリクスでもあり、これらは、縮小された複数のCFSの各々に対して、縮小された複数の代替的な訂正(これらの各々は類似度スコアを有する)の各々の発生頻度、そして好ましくはまた正規化された発生頻度を示すものである。以下の例から分かるように、全ての更なる代替的なクラスターの選択機能について、代替的なクラスターの訂正の縮小されたセットが用いられることが好ましい。
縮小された頻度マトリクスにおける、そして好ましくはまた縮小された正規化頻度マトリクスにおける各々の代替的な訂正に対して、最終の優先度の指標が生成される。各々の代替的な訂正に対して最終の優先度のスコアを生成するために、以下の代替的な指標の一つ以上が用いられ得る。
用語「頻度関数」は以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
A.一つの可能な優先度の指標は、縮小されたマトリクス(単数または複数)中のCFSのいずれかに対する、縮小されたマトリクス(単数または複数)中の各々の代替的なクラスターの訂正に対する最も高い発生頻度の関数である。例えば、様々な代替的なクラスターの訂正は以下の通りにスコア付けされる:
以下の入力テキストが提供される:
I am vary satisfied with your work
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
vary
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
vary; very
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘am vary’; ‘vary satisfied’; 'I am vary satisfied with'
本明細書においてサブステージIICに関して上述した機能を用いて、表32および33に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
Figure 0005584212
この例では、発生頻度および正規化された発生頻度の両方から、"vary"が最も高い頻度関数を有することが分かる。
B.別の可能な優先度の指標は、各々の代替的な訂正に対する、全てのCFSの平均の発生頻度の関数である。例えば、様々な代替的な訂正は以下の通りにスコア付けされる。
以下の入力テキストが提供される:
A while ago the lived 3 dwarfs
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
the
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
the; they; she; there
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘ago the lived’; ‘the lived 3’
本明細書においてサブステージIICに関して上述した機能を用いて、表34および35に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
Figure 0005584212
"there"は、その発生頻度がマトリクス中での最大の発生頻度となるCFSを有するにも関わらず、平均の発生頻度に基づいて“they”が選択されることに留意されたい。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表36に示される通りである。
Figure 0005584212
最も高い類似度スコアを有する代替的なクラスターの訂正は選択されないことに留意されたい。
C.更なる可能な優先度の指標は、各々のCFSに対する発生頻度の関数に、図5を参照して上述した機能によって算出されるようなCFSのスコアを掛け合わせものの、各々の代替的な訂正に対する全てのCFSにわたる加重和である。
D.縮小されたマトリクス(単数または複数)中の代替的な訂正に対する以下の操作の、いずれか一つ以上、より好ましくは大部分、最も好ましくは全てによって、特定の代替的な訂正/CFSの優先度の指標が、サブステージIIE−IIGを参照して上述したようにして生成される。
i.訂正のために選択された元々の入力テキストからのクラスターが選択されて、基準となるクラスターとなる。
ii.修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
iii.iiにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
iv.iiまたはiiiで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なCFSスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、CFSスコアに反映される他の要因に基づく強調を提供する。
v.ii、iiiまたはivで上述した類型の修正されたマトリクスは、各々の優先度の指標における適用可能な比または比の関数に、ユーザーの不確実性の指標の関数を掛けることによって更に修正される。ユーザーの入力の不確実性の指標のいくつかの例としては、当該文書の他の単語に関する編集行為に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターに関連する編集行為の回数、当該文書の他の単語の記述の時点に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターの記述の時点、および、そのユーザーが他の単語を話した時点に対する、音声認識入力機能において行われた入力の単語またはクラスターが話された時点が挙げられる。ユーザーの入力の不確実性の指標は、該ユーザーによるその単語の選択はどの程度確実なものかの指標を提供する。このステップは、基準となるクラスターに対して算出されたバイアスを受け取り、そのクラスターに関するユーザーの確実性または不確実性の関数によってそれを修正する。
vi.ii、iii、ivまたはvで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
E.最終の優先度の指標は、Dで上述したような特定の代替的な訂正/CFSの優先度の指標に基づいて、代替的な訂正の類似度スコアに、その代替的な訂正についての全てのCFSに対する特定の代替的な訂正/CFSの優先度の指標の和を掛けることによって、各々の代替的な訂正に対して算出される。
そのような修正されたマトリクスの例は以下の通りである。
以下の入力テキストが提供される:
I will be able to teach base with you next week
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
teach
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
teach; touch
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘able to teach’; ‘to teach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表37に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
ある特徴に対しては、“teach”の発生頻度および正規化された発生頻度の両方は、“touch”のそれらよりも大きいが、別の特徴に対しては、“touch”の発生頻度および正規化頻度の両方が“teach”のそれらよりも大きいことに留意されたい。代替的な訂正を正しく選択するために、サブステージIIGに関して上述した比の指標は、以下に説明するようにして用いられることが好ましい。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表38に示される通りである。
Figure 0005584212
“teach”は最も高い類似度スコアを有するため、基準となるクラスターは“teach”であることが分かる。それにも関わらず、上述した最終の優先度のスコアに基づいて“touch”が選択される。“teach”が最も高い発生頻度および最も高い正規化された発生頻度を有することを示す上記マトリクスの考慮から理解され得るように、これは直観的ではない。この例では、“touch”が有利である特徴についての発生頻度の比は、“teach”が有利である他の特徴についての発生頻度の比よりも遥かに大きいため、最終の優先度スコアは“teach”よりも“touch”の選択を示唆する。
F.任意には、代替的な訂正は、その代替的な訂正についての、および、基準となるクラスターについての頻度関数の値および優先度の指標の比較に基づいて、以下の決定規則の一つ以上を用いて、除去されてもよい。
1.予め定められた閾値を下回る類似度スコアを有し、かつ、予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、基準となるクラスターのCFS頻度関数よりも小さいCFS頻度関数を有する代替的な訂正を除去する。
2.予め定められた閾値を下回る類似度スコアを有し、かつ、別の予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、予め定められた閾値よりも小さい優先度の指標を有する代替的な訂正を除去する。
3.a.各々のCFSのCFSスコアを確かめる;
b.各々のCFSに対して、基準となるクラスターについての、および、代替的な訂正についてのCFS頻度関数を確かめ、それにより、基準となるクラスターまたは該代替的な訂正は、そのCFSに対して、より高い頻度関数を有するかどうかを確かめる;
c.該代替的な訂正が基準となるクラスターよりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
d.基準となるクラスターが該代替的な訂正よりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
e.c.での和がd.での和よりも小さい場合、その代替的な訂正を除去する。
以下の例は、上述したフィルタリング機能を示す。
以下の入力テキストが、典型的には音声認識機能によって、提供される;
I want [two/to/too] items, please.
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
[two/to/too]
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
two; to; too
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I want two’; ‘want two items’
本明細書においてステージIIAに関して上述した機能を用いて、表39に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
代替的な訂正"too"および"to"は、別のCFSについて高い発生頻度を有するにも関わらず、CFSの一つに対して発生頻度がゼロであるため、除去される。従ってここでは、唯一の残るCFSは"two"である。
G.ステージIIIに関して上述したように、Fでのフィルタリングで残った代替的な訂正に関して、A−Eで上述したようにして発展された最終の優先度の指標に基づいて、ランキングが確立される。最も高い最終の優先度のスコアを有する代替的な選択が選択される。
H.ステージIVに関して上述したように、選択された代替的な訂正に対して、信頼度水準が付与される。この信頼度水準は、以下のパラメータのうちの一つ以上に基づいて算出される:
a.上記サブステージIIBで提供された選択されたCFSの個数、類型、およびスコア付け;
b.CFSの文脈における、様々な代替的なクラスターの訂正の発生頻度の統計的な優位度;
c.CFSの各々の優先度の指標、および、様々な代替的な訂正の単語の類似度スコアに基づく、代替的な訂正の選択における合致の程度;
d.予め定められた最小の閾値を上回る、選択された代替的なクラスターの訂正の非文脈的な類似度スコア(ステージI)。
e.予め定められた最小の閾値を上回るCFSスコアを有し、かつ、別の予め定められた閾値を上回る優先度スコアを有する縮小されたマトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
信頼度水準が予め定められた閾値を上回っている場合、選択された代替的な訂正は、ユーザーとの交信なしで実現される。信頼度水準が予め定められた閾値よりも低いが、より低い予め定められた閾値よりも高い場合、選択された代替的な訂正は実現されるが、ユーザーとの交信が要請される。信頼度水準が、より低い予め定められた閾値よりも低い場合、代替的な訂正の優先順位を付されたリストに基づくユーザーの選択が要請される。
以下の例は、信頼度水準のスコア付けの使用の実例である:
以下の入力テキストが提供される:
He was not feeling wale when he returned
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
wale
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
wale; well
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘was not feeling wale'; ‘not feeling wale when; ‘feeling wale when he’; ‘wale when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表40に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
以上の例は、上記Hで示した全ての基準により、’wale’よりも’well’の選択が高い信頼度水準を有することを示す。
以下の例では、CFS’beech in the summer’において、代替的な訂正’back’は’beach’よりも高い発生頻度を有するが、CFS’on the beech in’および’the beech in the’において、’beach’は’back’よりも高い発生頻度を有するという事実により、信頼度水準がいくぶん小さい。代替的な訂正’beach’は、基準H(c)に基づいて中間的な信頼度水準と共に選択される。
以下の入力テキストが提供される;
I like to work on the beech in the summer
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
beech
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
beach; beech; back
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘on the beech in’; ‘the beech in the’; ‘beech in the summer’
ステージIIAに関して上述した機能を用いて、表41に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
代替的な訂正’beach’は、基準H(c)に基づいて中間的な信頼度水準と共に選択される。
以下の例では、基準H(a)に基づいて、信頼度水準はさらに低い:
以下の入力テキストが受け取られる:
Exerts are restoring the British Museum’s round reading room
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
Exerts
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
Experts; Exerts; Exits
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘Exerts are’; ‘Exerts are restoring’; ‘Exerts are restoring the'; ‘Exarts are restoring the British’
サブステージIIAに関して上述した機能を用いて、表42に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
全ての代替的な訂正が発生頻度ゼロとなる全てのCFSは除外される。この例では、以下の特徴グラムは除外される:
‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
この例では、唯一の残るCFSは、特徴グラム:
‘Exerts are’
である。
以上の例から分かるように、フィルタリング処理で残る唯一のCFSは'exerts are'である。結果として、比較的短く、かつ、疑わしい単語以外には頻繁に起こる単語である一つの単語しか含まない単一のCFSのみに選択が基づくため、信頼度水準は比較的低い。
以下の例は、上記ステージDおよびEで説明した最終の優先度スコアの指標の使用を示す。
以下の入力テキストが提供される:
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
fast
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
fat; fast
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'and getting fast'; 'getting fast so'; 'fast so you'; 'fast so you will'
本明細書においてサブステージIIAに関して上述した機能を用いて、表43に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表44に示される通りである。
Figure 0005584212
上記ステージDおよびEで説明した最終の優先度スコアの指標を用いて、代替的な訂正"fat"が低い信頼度と共に選択される。
ここで図10を参照する。図10は、欠落要素訂正機能の動作を示す詳細なフローチャートである。欠落要素訂正機能は、欠落した冠詞、前置詞、句読点、および入力テキストにおいて主として文法的な機能を有する他の要素について訂正するように機能する。この機能は、図1の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。
欠落の疑いのある要素の特定は、以下のようにして行われることが好ましい。
先ず、綴りを訂正された入力テキストに対して、特徴グラムが生成される。コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度(FREQ F−G)が確かめられる。
各々の特徴グラムの予期される発生頻度(EFREQ F−G)は以下のように算出される:
特徴グラムは、W−Wとして特定されるn個の単語を含むと想定される。
は、特徴グラム中のi番目の単語を示す。
与えられた特徴グラムの予期される発生頻度は、特徴グラム中の単語の分割(単語W...W(n−1)の各々に続く連続する2つの部分への分割)に基づいて、その特徴グラムの予期される頻度のうちで最も高いものになるように取られる。
単語Wに続く二つの連続する部分への特徴グラム中の単語の分割に基づく特徴グラムの予期される頻度は、以下の通りに表すことができる:
についてのEFREQ F−G = (FREQ(W−W)*FREQ(Wi+1−W))/(コーパス中での全ての単語の頻度の合計)
二つの連続する部分への特徴グラム中の単語の全ての可能な分割に基づいて、各々の特徴グラムの予期される頻度が算出される。
についてのFREQ F−G/EFREQ F−Gが予め定められた閾値よりも小さい場合、Wについての特徴グラムは、その特徴グラムにおいてWとWi+1との間に欠落した冠詞、前置詞、または句読点があるという点で疑わしいと考えられる。
綴りを訂正された入力テキスト中の二つの連続する単語の間の疑わしい単語の連結は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた単語の連結を見付けるように試みることによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の連結の最も長いシーケンス(単数または複数)を有する単語の連結が選択される。
一つまたは好ましくは一つより多くの代替的な挿入が、句読点、冠詞、前置詞、接続詞、または他の要素(通常、名詞、動詞または形容詞を含まない)が欠落している可能性のある予め定められたセットに好ましくは基づいて、各々の単語の連結に対して生成される。
様々な代替的な挿入の、少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付けが、図9を参照して上述し、かつ以下に説明される訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。
以下の例が実例となる:
以下の入力テキストが適用される:
I can’t read please help me
図5を参照して上述した機能を用いて、以下の特徴グラムが生成される(部分的なリスト):
I can't read; can't read please; read please help; please help me
上述した機能を用いて、インターネットコーパス中での発生頻度のマトリクスが、特徴グラムの上記リストに対して生成され、それは、典型的には表45に見られる通りである:
Figure 0005584212
予期される発生頻度は、以下の式に従って、特徴グラム中の各々の単語Wについて各々の特徴グラムに対して算出される:
についてのEFREQ F−G = (FREQ(W−W)*FREQ(Wi+1−W))/(コーパス中での全ての単語の頻度の合計)
それらの計算の一部の例示的な結果は、表46および47に見られる。
Figure 0005584212
Figure 0005584212
上記結果から分かるように、特徴グラムの各々の実際の発生頻度は、その予期される発生頻度よりも小さい。これは、句読点などの要素の不在が疑われることを示す。
単語“word”に続く代替的な挿入のリストが生成される。このリストは、句読点、冠詞、接続詞、および前置詞の予め定められたリストを含むことが好ましい。特には、ピリオド“.”を含む。
選択肢の部分的なリストは:
'read please'; 'read. Please'; 'read of please'; 'read a please'
である。
図5を参照して上述した機能を用いて、以下のCFSが生成される:
'I can't read [?]'; 'read [?] please help'; ' [?] please help me'
図9のステージIIAで説明した機能を用いて、表48に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘.’がクラスターに含まれる場合、’.’を有するクラスターを含むCFSの発生頻度が、’.’の前および後のテキストについて別々に取得される。すなわち、特徴グラム“can’t read. Please”は、2つの別々の文法構文解析フレーズを含むため、生成されない。
Figure 0005584212
図9のステージDおよびEで説明した機能を用いて、最終の優先度の指標は、代替的な訂正“read. Please”を選択し、また、訂正された入力テキストは:
I can’t read. Please help me.
である。
以下の例は、欠落した前置詞を追加する機能を示している。
以下の入力テキストが提供される:
I sit the sofa
後述する機能を用いて、以下のクラスターが訂正のために選択される:
‘sit the’
後述する機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
sit on the; sit of the; sit the
図5を参照して上述した機能を用いて、以下のCFSが生成される:
‘I sit the’; ‘sit the sofa’
図9のステージIIAで説明した機能を用いて、表49に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
図9のステージIIDおよびIIEで説明した機能を用いて、最終の優先度の指標は、代替的な訂正“sit on the”を選択し、また、訂正された入力テキストは:
I sit on the sofa.
である。
ここで図11を参照する。図11は、不要な要素訂正機能の動作を示す詳細なフローチャートである。不要な要素訂正機能は、不要な冠詞、前置詞、句読点、および入力テキスト中の主として文法的な機能を有するその他の要素を訂正するように機能する。この機能は、図1の綴り訂正機能からの綴りを訂正された入力テキストの出力に対して機能することが好ましい。
図11の機能は、図10の機能と組み合わせられてもよく、あるいは代替的には、それと並行して、それに先だって、またはその作動の後に行われてもよい。
不要である疑いのある要素の特定は、以下のようにして行われることが好ましい。
句読点、冠詞、前置詞、接続詞、または他の要素(通常、名詞、動詞または形容詞を含まない)が不要である可能性のある予め定められたセットに属する要素を特定するためのサーチが、綴りを訂正された入力テキストに対して行われる。
各々のそのような要素について、そのような要素を含む、誤用された単語および文法を訂正され、綴りを訂正された入力テキストの全ての部分に対して特徴グラムが生成される。発生頻度が、各々のそのような特徴グラムに対して、および、該要素が省略された対応する特徴グラムに対して、算出される。
該要素が省略された特徴グラムに対する発生頻度が、該要素が存在している対応する特徴グラムに対する発生頻度を上回っている場合、該要素は疑わしいと考えられる。
誤用された単語および文法を訂正され、綴りを訂正された入力テキスト中の疑わしい要素は、好ましくは、最も多くの量の疑わしくない文脈データによって囲まれた要素を見付ける試みによって、訂正のために選択される。好ましくは、その付近において疑わしくない単語の最も長いシーケンス(単数または複数)を有する要素が選択される。
可能な要素の削除が各々の疑わしい要素に対して生成される。様々な選択肢の少なくとも部分的に文脈ベースおよび単語類似度ベースのスコア付け(すなわち、要素の削除または要素の不削除)が、図9を参照して上述し、かつ以下に説明する訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、提供される。
以下の例が実例となる:
以下の入力テキストが提供される:
It is a nice, thing to wear.
入力テキストは、例えば句読点、前置詞、接続詞、および冠詞等の通常不要である要素の予め定められたリストに属するあらゆる要素を特定するようにサーチされる。
この例では、カンマ“,”はそのようなリストに属するものとして特定される。
図5を参照して上述した機能を用いて、表50に見られるカンマ“,”を含む特徴グラムが生成され、カンマを有しない同一の特徴グラムもまた生成される(部分的なリスト)。
Figure 0005584212
上述した機能を用いて、インターネットコーパス中の発生頻度のマトリクスが、特徴グラムの上記リストに対して生成され、それは、典型的には表51に見られる通りである。
Figure 0005584212
上記マトリクスに見られるように、“,”を省略した特徴グラムに対する発生頻度は、“,”が存在する対応する特徴グラムに対する発生頻度を上回っている。従って、“,”は不要の疑いがあるものと考えられる。
カンマの削除の可能性は、カンマを維持するものおよびカンマを省略するものの以下の選択肢の、文脈ベースのスコア付けに基づいて考慮される:
‘nice,’; ‘nice’
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'a nice,'; 'nice, thing'; 'is a nice,'; 'a nice, thing'; 'nice, thing to'
図9のステージIIAを参照して上述した機能を用いて、表52に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
少なくとも最小の閾値の発生頻度を有する他のCFSに完全に含まれる全てのCFSは除外される。例えば、以下の特徴グラムは除外される:
'a nice,'; 'nice, thing'
この例では、残るCFSは特徴グラム:
'is a nice,'; 'a nice, thing'; 'nice, thing to'
である。
上記図9のステージDおよびEで説明された最終の優先度スコアを用いて、カンマを有しない代替的な訂正“nice”が選択される。カンマの削除語の入力テキストは:
It is a nice thing to wear.
である。
以下の例は、不要な冠詞を削除する機能を示す。
以下の入力テキストが提供される:
We should provide them a food and water.
図11を参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
a food
図11を参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
a food; food
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘provide them a food’; ‘them a food and’; ‘a food and water’
本明細書においてサブステージIIAに関して上述した機能を用いて、表53に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
Figure 0005584212
図9に記載されたスコアリング機能を用いて、最終の優先度の指標は、代替的な訂正“food”を選択し、訂正された入力テキストは:
We should provide them food and water.
である。
ここで図12を参照する。図12は、本発明の好ましい実施形態に従って構築され、機能する、コンピュータ補助による言語翻訳および生成用のシステムおよび機能の単純化したブロック図の図面である。図12に見られるように、入力テキストは、1以上のソースから言語生成モジュール200に提供され、該ソースとしては、以下に限定されないが以下が含まれる:
センテンス検索機能201。これは、ユーザーが少数の単語を含むクエリを入力すること、および、そのような単語を含む完全なセンテンスを取得することを可能とすることにより、ユーザーがセンテンスを構築するのを補助する。
機械テキスト生成機能202。これは、知識ベースまたは論理形などの機械提示システムから自然言語のセンテンスを生成する。
ワードプロセッサ機能203。これは、任意の好適なテキスト、好ましくはセンテンスなどの文書の部分を生成し得る。
機械翻訳機能204。これは、元の言語のテキストを、目的の言語のテキストに変換し、かつ、目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および/または単語を提供できるものであり、該目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および/または単語は、言語生成モジュールによって、代替的な入力テキスト、代替的なフレーズ、および/または代替的な単語として、処理され得る。
音声テキスト変換機能205。これは、音声をテキストに変換し、複数の代替的な単語を提供できるものであり、該複数の代替的な単語は、言語生成モジュールによって、各々の単語に対する選択肢と共に入力テキストとして処理され得る。
光学文字認識機能206。これは、文字をテキストに変換し、かつ、各々の単語に対して複数の選択肢を提供できるものであり、該複数の選択肢は、言語生成モジュールによって、各々の単語に対する選択肢を有する入力テキストとして、処理され得る。および、
インスタントメッセージング、またはインターネット上で通信されるテキストなどの任意の他のテキストソース210。
言語生成モジュール200は、センテンス取得機能212およびセンテンス生成機能214を有することが好ましい。
センテンス取得機能212が、インターネットコーパス220を利用するステム・トゥ・センテンス・インデックス216と交信するのが、本発明の特有の特徴である。
インターネットコーパスの使用は、極めて多数のセンテンスを提供し、非常にロバストな言語生成機能をもたらすという点で、重要である。
インターネットコーパスは、通常はインターネットを巡回して、ウェブサイトのページからテキストを集めることにより、ワールドワイドウェブから集められる自然言語テキストの大きな代表サンプルである。好ましくは、チャットの記録、ウェブフォーラムからのテキスト、およびブログからのテキストなどの生き生きしたテキストもまた集められる。集められたテキストは、自然言語テキストの統計を蓄積するために用いられる。インターネットコーパスのサイズは、より典型的なコーパスサイズが最大20億ワードであるのとは対照的に、例えば、1兆(1,000,000,000,000)ワードまたは数兆ワードであり得る。ウェブコーパスなどの小さいウェブのサンプルは、100億ワードを含み、これは、GOOGLE(登録商標)などの検索エンジンによって索引されるウェブテキストの1パーセントよりも著しく小さい。本発明は、ウェブコーパスなどのウェブのサンプルと共に機能し得るが、好ましくは、テキスト生成のタスクのために、著しく大きいウェブのサンプルを利用する。
インターネットコーパスは、以下の2つの方法のうちの一つで用いられることが好ましい。
修正された入力テキストを検索クエリとして用いて、1以上のインターネット検索エンジンが用いられる。検索クエリに含まれる単語を含むセンテンスが、検索結果から抽出され得る。
インターネットを巡回し、索引付けすることによって、ステム・トゥ・センテンス・インデックス216が時間と共に蓄積される。これは、インターネットコーパスに現れる活用した単語をそれらの各々の語幹にまで縮小させ、かつ、そのような語幹を有する単語を含むコーパス中の全てのセンテンスをリストすることにより行われることが好ましい。ステム・トゥ・センテンス・インデックス、および検索クエリは、インターネットの選択可能な部分に基づいてもよく、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネットの一部が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。
好ましくは、入力テキストは最初に、センテンス取得機能212に提供される。センテンス取得機能212の動作は、図13を更に参照して以下に説明される。
センテンス取得機能212は、入力テキストを独立したフレーズに分けるように機能し、独立したフレーズは次いで、センテンス生成モジュール214において独立して処理される。語幹は、各々の独立したフレーズ中の全ての単語に対して生成される。代替的には、語幹は、各々の独立したフレーズ中の一部または全ての単語に対しては生成されず、そのような場合には、単語それ自体が、インターネットコーパスからセンテンスを取得するためにワード・トゥ・センテンス・インデックスにおいて使用される。
語幹は次いで、必須の語幹または任意選択的な語幹のいずれかとして分類される。任意選択的な語幹は、形容詞、副詞、冠詞、前置詞、句読点、および、入力テキスト中で主として文法的な機能を有する他の要素、ならびに任意選択的な単語の予め定められたリスト中の要素の語幹である。必須の語幹は、任意選択的な語幹ではないあらゆる語幹である。任意選択的な語幹は、入力テキスト中での重要度に関してランク付けされ得る。
各々の独立したフレーズに対して、ステム・トゥ・センテンス・インデックス216は、全ての語幹を含む、インターネットコーパス220中の全てのセンテンスを取得するために用いられる。
各々の独立したフレーズに対して、取得されたセンテンスの個数が予め定められた閾値よりも小さい場合、ステム・トゥ・センテンス・インデックス216は、全ての必須の語幹を含む、インターネットコーパス220中の全てのセンテンスを取得するために用いられる。
各々の独立したフレーズに対して、全ての必須の語幹を含む取得されたセンテンスの個数が別の予め定められた閾値よりも小さい場合、語幹選択肢生成器が、図15を参照して以下に説明されるようにして、全ての必須の語幹に対する選択肢を生成するために用いられる。
その後、各々の独立したフレーズに対して、ステム・トゥ・センテンス・インデックス216は、可能なだけ多くであって一つ以上の必須の語幹、そしてまた、全ての生じた必須の語幹の選択肢を含む、インターネットコーパス220中の全てのセンテンスを取得するために用いられる。
センテンス取得機能212の出力は、好ましくは以下の通りである。
独立したフレーズ;
各々の独立したフレーズに対して:
ランキングと共に、必須のおよび任意選択的な語幹;
インターネットコーパス212から取得されたセンテンス。
センテンス取得機能212の上記出力は、センテンス生成機能214に提供される。センテンス生成機能214の動作は、図14Aおよび14Bを更に参照して以下で説明される。
各々の独立したフレームに対して、インターネットコーパス212から取られたセンテンスの単純化が以下に説明するようにして行われる。
図14Aに見られるように、インターネットコーパスから取られたセンテンス中の全ての単語は、先ず、独立したフレーズ中の語幹をクラス分けするために用いられたのと同じ基準を好ましくは用いて、必須または不要のいずれかとしてクラス分けされる。不要な単語は、それらの語幹が、対応する独立したフレーズ中に現れなければ、または、代替的な語幹の一つでなければ、削除される。
標準的な構文解析機能を用いて、全てのセンテンスからフレーズが抽出される。対応する独立したフレーズ中に現れるか、または代替的な語幹である語幹を何ら含まないフレーズは削除される。
各々の独立したフレーズに対して、以上のステップから生じたそのように単純化されたセンテンスは、少なくとも予め定められた類似度を有するグループにグループ化され、各々のグループ中の単純化されたセンテンスの個数がカウントされる。
図14Bに示されるように、各々のそのようなグループは、以下の基準を用いてランク付けされる。
A.その中に含まれる単純化されたセンテンスの個数
B.グループ内の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
C.グループが、独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度
基準A、BおよびCに基づく好適な複合のランキングが提供されることが好ましい。
個別に取られた基準A、BおよびCの全てによるランキングを有するグループであって、予め定められた閾値を下回るグループは除外される。加えて、基準A、BおよびCの全てによるランキングが別のグループのランキングを下回るグループは除外される。
残りのグループは、入力テキストに対応するように連結され、好ましくはそのランキングの表示と共に、重み付けされた複合のランキングの順番でユーザーに提示される。
最も高いランキンググループの複合のランキングが予め定められた閾値を上回っている場合、自動的なテキスト生成のために有効である。
ここで図15を参照する。図15は、図12および13の機能において有用である、語幹に対する選択肢を生成するための機能を示す単純化したフローチャートである。
図15に見られるように、各々の語幹に対して、複数の選択肢が以下のようにして最初に生成される:
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、各々の語幹に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、GNU AspellおよびGoogle(登録商標)GSpellなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の選択肢を提供する。
更なる選択肢は、既知の代替的な用法に基づく規則、および蓄積されたユーザーの入力を用いることによって生成され得る。例:u→you、r→are、Im→I am。
シソーラス、または、インターネット上で自由に利用できるPrinceton WordNetなどの他の語彙データベースから取られ、同義語、上位集合または部分集合などとして語彙的に語幹に関連する複数の単語が取得される。
CFS、より具体的には特徴グラムなどの文脈情報が、選択肢を生成するために用いられるということは、本発明の好ましい実施形態の特有の特徴である。同じ文脈にしばしば現れる語幹は、有効な選択肢であり得る。CFS、より具体的には特徴グラムなどの頻繁に生じる単語の組み合わせは、インターネットコーパスなどの既存のコーパスから取得され得る。
入力テキストが、光学文字認識、音声テキストまたは機械翻訳システムなどの外部システムによって自動的に生成される場合、追加の選択肢がそのようなシステムから直接取得され得る。そのような追加の選択肢は、典型的には、そのようなシステムの動作の過程で生成される。例えば、機械翻訳システムでは、外国語の単語の代替的な翻訳が、選択肢として使用するために当該システムに提供され得る。
以下の例は、図12〜15の機能の実例となる:
以下の入力テキストが、ワードプロセッサまたは機械翻訳機能から取得される:
Be calling if to problem please
この場合、入力テキストは、単一の独立したフレーズから構成される。語幹生成器および必須/任意選択の語幹のクラス分けは以下の結果を提供する:
必須の語幹: call, if, problem, please
任意選択的な語幹: be, to
以下に見られる表に示されるのは、上記結果に対してインターネットコーパスから取得されたセンテンス、対応する単純化されたセンテンス、単純化されたセンテンスのグループ、およびグループのランキング情報の、全てではなくて一部である。
この例では、以下のランキング手順が用いられるが、本発明はこの手順の使用に限定されず、単に例であることが理解される:
言語中の単語の重要度を示す語幹の重みが定義される。独立したフレーズ中の語幹に対して、語幹が必須である場合には重みは1に等しく、語幹が任意選択的である場合には1よりも小さい。
表では、重みは各々の語幹に続く括弧中に示されている。例えば、"you (0.5)"は、語幹’you’は0.5の重要度の重みを有することを意味する。
ポジティブマッチランク(基準Bに対応する(図14B))を算出する。これは、独立したフレーズ中、および、対応する単純化されたセンテンスのグループ中に現れる語幹の上記重みの和を、独立したフレーズ中に現れる全ての語幹の重みの和で割ったものに等しい。
ネガティブマッチランク(基準Cに対応する(図14B))を算出する。これは、対応する単純化されたセンテンスのグループ中に現れるが、独立したフレーズ中には現れない語幹の上記重みの和を、対応する単純化されたセンテンスのグループ中に現れる全ての語幹の重みの和で割ったものを、1から引いたものに等しい。
グループのカウント(基準A(図14B))ならびにポジティブおよびネガティブマッチランクに基づいて、コンポジットランク(2に対応する(図14B))を算出する。好ましいコンポジットランクは、以下の一般式により与えられる:
コンポジットランク = グループのカウントを、ポジティブマッチランクおよびネガティブマッチランクの重み付けした和で掛けたものの関数
より具体的な例は、以下の式で与えられるが、本発明は上記一般式または下記の具体的な式のいずれにも限定されないことが理解される:
コンポジットランク = (グループのカウント)の平方根 * (0.8 * ポジティブマッチランク + 0.2 * ネガティブマッチランク)
Figure 0005584212
Figure 0005584212
Figure 0005584212
Figure 0005584212
コンポジットランクに基づいて、第二のグループが選択される。
以上のことから、図12〜15を特に参照して上述した本発明は、インターネットコーパスから取得されたセンテンス中の正確な形態では該センテンスは現れないにも関わらず、以下の入力テキスト:
Be calling if to problem please
を以下のセンテンス:
If you have any problems, please call
に変換できることが理解され得る。
上記で具体的に示され、説明されたものに本発明は限定されないことが当業者には理解されるであろう。本発明の範囲はむしろ、上記で説明し、示した様々な特徴の組み合わせおよび部分的組み合わせの両方、ならびに、上記の説明を読んだ当業者が想起するであろう、先行技術にはないそれらの修正を含む。

Claims (26)

  1. コンピュータ補助による言語生成システムであって、当該システムは、
    センテンス取得機能を有し、該センテンス取得機能は、単語を含む入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、該センテンス取得機能は、
    独立フレーズ生成器を有し、該独立フレーズ生成器は、前記入力テキストを1つ以上の独立したフレーズに分割するものであり、
    語幹生成器および分類器を有し、該語幹生成器および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するものであり、かつ、
    選択肢生成器を有し、該選択肢生成器は、該語幹に対応する代替的な語幹を生成するためのものであり、
    当該システムは、
    センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものであり、
    前記センテンス生成機能は、
    センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得した前記センテンスを単純化するように機能するものであり、かつ、該センテンス単純化機能は、
    前記複数のセンテンス中の、単語および/またはフレーズを、必須または不要のいずれかとしてクラス分けすることを含み、かつ、
    不要な単語および/またはフレーズを削除することを含み、ただし、不要な単語を削除するに際しては、該単語の語幹が、前記の1つ以上の独立したフレーズ中に現れるかまたは前記の代替的な語幹の1つであるならば、その単語は削除せず、不要なフレーズを削除するに際しては、該フレーズが、前記の1つ以上の独立したフレーズの中に現れる単語に対する前記語幹を含んでいるかまたは前記の代替的な語幹を何か含んでいるならば、そのフレーズは削除せず、
    前記センテンス生成機能は、
    単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、前記センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、該単純化センテンスグループ化機能は、類似度に基いてセンテンスをグループ化することを含み、かつ、
    単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである、
    前記コンピュータ補助による言語生成システム。
  2. 当該システムが、ステム・トゥ・センテンス・インデックスをも有し、該ステム・トゥ・センテンス・インデックスは、前記入力テキスト中の単語に一致する単語を含む前記複数のセンテンスを取得するために前記インターネットコーパスと交信するものである、請求項記載のコンピュータ補助による言語生成システム。
  3. 前記単純化センテンスグループ・ランク付け機能が、下記の基準のうちの少なくともいくつかを用いて機能する、請求項1または2に記載のコンピュータ補助による言語生成システム。
    A.グループに含まれる単純化されたセンテンスの個数。
    B.グループ内の単語の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度。
    C.グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度。
  4. 前記単純化センテンスグループ・ランク付け機能が、下記の手順のうちの少なくとも一部を用いて機能する、請求項記載のコンピュータ補助による言語生成システム。
    その言語における当該単語の重要度を指し示す語幹の重みを定義すること。
    基準Bに対応するポジティブマッチランクを算出すること。
    基準Cに対応するネガティブマッチランクを算出すること。
    次の事項に基づいて、コンポジットランクを算出すること:
    基準Aに対応する、グループに含まれる単純化されたセンテンスの個数、
    ポジティブマッチランク、および
    ネガティブマッチランク。
  5. 前記入力テキストを提供する機械翻訳機能も有する、上記請求項1〜のいずれか1項に記載のコンピュータ補助による言語生成システム。
  6. 前記機械翻訳機能が、前記入力テキスト中の単語に対応する複数の選択肢を提供し、かつ、前記センテンス取得機能が、該選択肢に一致する単語を含む複数のセンテンスを前記インターネットコーパスから取得するように機能する、請求項記載のシステム。
  7. 前記センテンス取得機能がテキスト訂正機能を含む、上記請求項1〜のいずれか1項に記載のコンピュータ補助による言語生成システム。
  8. センテンス検索機能も有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて前記入力テキストを提供する、上記請求項1〜のいずれか1項に記載のコンピュータ補助による言語生成システム。
  9. 音声テキスト変換機能も有し、該音声テキスト変換機能は前記入力テキストを提供する、上記請求項1〜のいずれか1項に記載のコンピュータ補助による言語生成システム。
  10. 当該システムはまた、
    選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
    選択器を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
    訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
    上記請求項1〜のいずれか1項に記載のシステム。
  11. 前記システムはまた、
    綴り訂正機能、
    誤用された単語訂正機能、
    文法訂正機能、および
    語彙の改善機能
    のうちの少なくとも一つを有し、かつ、
    文脈特徴シーケンスを有し、該文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能も有する、
    請求項1〜のいずれか1項に記載のシステム。
  12. 前記選択器が、訂正についての以下の時間的順序:
    誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、
    語彙の改善に先立つ誤用された単語の訂正および文法の訂正、
    のうちの少なくとも一つに基づいて選択を行うように機能する、請求項11記載のシステム。
  13. 前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器が、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項11記載のシステム。
  14. 前記文法訂正機能が、句読点、動詞の活用、単数形/複数形、冠詞、および前置詞の訂正機能のうちの少なくとも一つを有する、請求項11記載のシステム。
  15. 前記文法訂正機能が、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する、請求項11記載のシステム。
  16. 前記訂正生成器が、訂正言語生成器を有し、該訂正言語生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項11記載のシステム。
  17. 前記システムが、
    選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
    選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、少なくとも、前記の言語入力中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
    訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
    請求項1〜のいずれか1項に記載のシステム。
  18. 前記言語入力が、入力センテンスおよび入力テキストのうちの少なくとも一つを含む、請求項17記載のシステム。
  19. 前記言語入力が音声であり、かつ、前記生成器が、音声での言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、請求項17または請求項18記載のシステム。
  20. 前記言語入力が、
    テキスト入力、
    光学文字認識機能の出力、
    機械翻訳機能の出力、および
    ワードプロセッシング機能の出力
    のうちの少なくとも一つであり、かつ、
    前記生成器が、テキストでの言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、
    請求項17または請求項18記載のシステム。
  21. 前記選択器が、以下の機能:
    初期選択のために、前記言語入力中の前記複数の単語の全てよりは少ない単語を含む単語または単語の組み合わせの第一のセットを選択すること、
    その後で、前記の単語または単語の組み合わせの第一のセットの要素を順序付けて選択の優先度を確立すること、および、
    その後で、前記の単語の第一のセットの要素に対する前記複数の選択肢の間での選択を行う際に、該選択に影響する文脈として、前記複数の単語の全てではない他の単語を選ぶこと、
    のうちの少なくとも二つを実行することにより選択を行うように機能する、請求項1720のいずれか1項に記載のシステム。
  22. 前記選択器はまた、ユーザーの入力履歴を学習する機能を用いる、請求項10に記載のシステム。
  23. 前記システムはまた、
    疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、
    特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、
    選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、
    発生機能を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、
    訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、
    該特徴特定機能は、下記の機能のうちの少なくとも一つを有する、請求項10記載のシステム。
    Nグラム特定機能、
    共起特定機能、および、
    以下の機能のうちの少なくとも一つ:
    スキップグラム特定機能、
    スウィッチグラム特定機能、および、
    ユーザーによって以前に使用された特徴特定機能。
  24. 前記システムはまた、
    文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、
    選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、
    選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、
    訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
    請求項1〜のいずれか1項に記載のシステム。
  25. 前記システムはまた、
    文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、
    選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、
    選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、
    訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
    請求項1〜のいずれか1項に記載のシステム。
  26. 前記システムはまた、語彙改善機能を有し、該語彙改善機能は、
    語彙に問題のある単語特定機能、
    代替的な語彙改善生成機能、および、
    インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能、
    を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである、
    請求項1〜のいずれか1項に記載のシステム。
JP2011520650A 2008-07-31 2009-02-04 インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 Expired - Fee Related JP5584212B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/IL2008/001051 WO2009016631A2 (en) 2007-08-01 2008-07-31 Automatic context sensitive language correction and enhancement using an internet corpus
ILPCT/IL2008/001051 2008-07-31
PCT/IL2009/000130 WO2010013228A1 (en) 2008-07-31 2009-02-04 Automatic context sensitive language generation, correction and enhancement using an internet corpus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014147212A Division JP2014238855A (ja) 2008-07-31 2014-07-17 インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善

Publications (3)

Publication Number Publication Date
JP2011529594A JP2011529594A (ja) 2011-12-08
JP2011529594A5 JP2011529594A5 (ja) 2012-03-22
JP5584212B2 true JP5584212B2 (ja) 2014-09-03

Family

ID=41611281

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011520650A Expired - Fee Related JP5584212B2 (ja) 2008-07-31 2009-02-04 インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
JP2014147212A Pending JP2014238855A (ja) 2008-07-31 2014-07-17 インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014147212A Pending JP2014238855A (ja) 2008-07-31 2014-07-17 インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善

Country Status (3)

Country Link
EP (1) EP2313835A4 (ja)
JP (2) JP5584212B2 (ja)
WO (1) WO2010013228A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
WO2009063465A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
WO2013032617A1 (en) * 2011-09-01 2013-03-07 Google Inc. Server-based spell checking
US9122673B2 (en) * 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
CN103942339B (zh) * 2014-05-08 2017-06-09 深圳市宜搜科技发展有限公司 同义词挖掘方法及装置
KR102396983B1 (ko) 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
WO2016185474A1 (en) 2015-05-18 2016-11-24 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
WO2017006326A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
US10515152B2 (en) 2015-08-28 2019-12-24 Freedom Solutions Group, Llc Mitigation of conflicts between content matchers in automated document analysis
US10417269B2 (en) * 2017-03-13 2019-09-17 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for verbatim-text mining
US11087210B2 (en) * 2017-08-18 2021-08-10 MyFitnessPal, Inc. Context and domain sensitive spelling correction in a database
CN110348001B (zh) * 2018-04-04 2022-11-25 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US10909973B2 (en) 2019-01-04 2021-02-02 International Business Machines Corporation Intelligent facilitation of communications
US20220417261A1 (en) * 2021-06-23 2022-12-29 Comcast Cable Communications, Llc Methods, systems, and apparatuses for query analysis and classification

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235182A (ja) * 1995-02-28 1996-09-13 Canon Inc 文章処理方法とその装置
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7340388B2 (en) * 2002-03-26 2008-03-04 University Of Southern California Statistical translation using a large monolingual corpus
US20030204569A1 (en) * 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
JP2008522332A (ja) * 2004-12-01 2008-06-26 ホワイトスモーク,インク. 自動的に文書を拡充するシステムおよび方法
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム

Also Published As

Publication number Publication date
EP2313835A1 (en) 2011-04-27
JP2014238855A (ja) 2014-12-18
JP2011529594A (ja) 2011-12-08
WO2010013228A1 (en) 2010-02-04
EP2313835A4 (en) 2012-08-01

Similar Documents

Publication Publication Date Title
JP5584212B2 (ja) インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
US9026432B2 (en) Automatic context sensitive language generation, correction and enhancement using an internet corpus
JP5752150B2 (ja) 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
Zajic et al. Multi-candidate reduction: Sentence compression as a tool for document summarization tasks
US9678945B2 (en) Automated reading comprehension
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Sicilia et al. ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System
Wang et al. Linguistic analysis of datasets for semantic textual similarity
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
Preiss Probabilistic word sense disambiguation: Analysis and techniques for combining knowledge sources
Blum Techniques for automatic normalization of orthographically variant Yiddish texts
Flor et al. ETS Lexical Associations System for the COGALEX-4 Shared Task
Savoy Feature weighting approaches in sentiment analysis of short text
Fuentes Fort et al. FEMsum: A flexible eclectic multitask summarizer architecture evaluated in multidocument tasks
Jobbins The contribution of semantics to automatic text processing
Pycroft Exploring the boundaries of formulaic sequences: a corpus-based study of lexical substitution and insertion in contemporary British English.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130628

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131203

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140717

R150 Certificate of patent or registration of utility model

Ref document number: 5584212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees