JP5584212B2 - インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 - Google Patents
インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 Download PDFInfo
- Publication number
- JP5584212B2 JP5584212B2 JP2011520650A JP2011520650A JP5584212B2 JP 5584212 B2 JP5584212 B2 JP 5584212B2 JP 2011520650 A JP2011520650 A JP 2011520650A JP 2011520650 A JP2011520650 A JP 2011520650A JP 5584212 B2 JP5584212 B2 JP 5584212B2
- Authority
- JP
- Japan
- Prior art keywords
- function
- correction
- word
- words
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006870 function Effects 0.000 claims description 607
- 238000012937 correction Methods 0.000 claims description 529
- 230000006872 improvement Effects 0.000 claims description 62
- 238000013519 translation Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 9
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 77
- 238000000605 extraction Methods 0.000 description 13
- 241001070947 Fagus Species 0.000 description 11
- 235000010099 Fagus sylvatica Nutrition 0.000 description 11
- 238000001914 filtration Methods 0.000 description 11
- 235000013305 food Nutrition 0.000 description 9
- 241000282693 Cercopithecidae Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000007717 exclusion Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 206010013883 Dwarfism Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 206010004542 Bezoar Diseases 0.000 description 1
- 241000242722 Cestoda Species 0.000 description 1
- 208000001840 Dandruff Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 241001520808 Panicum virgatum Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 235000012907 honey Nutrition 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
METHODS FOR CONTEXT SENSITIVE ERROR DETECTION AND CORRECTIONというタイトルの2007年8月1日に出願された米国仮特許出願シリアル番号60/953,209、および、2008年7月31日に出願されたPCT特許出願PCT/IL2008/001051が本明細書により参照され、それらの開示は、参照することにより本明細書によって援用され、かつ、37 CFR 1.78(a)(4)および(5)(i)に従ってそれらの優先権が本明細書により主張される。
本発明は、概しては、コンピュータ補助(computer-assisted)による言語の生成および訂正に関し、より具体的には、機械翻訳に適用可能なものに関する。
以下の刊行物は、当該技術分野の現状を表すものと思われる。
米国特許第5,659,771号、第5,907,839号、第6,424,983号、第7,296,019号、第5,956,739号および第4,674,065号
米国特許出願公開第2006/0247914号および第2007/0106937号。
本発明は、コンピュータ補助による言語の生成のための改善されたシステムおよび機能を提供することを目的とする。
センテンス取得機能を有し、該センテンス取得機能は、単語(words)を含む入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
独立フレーズ生成器(independent phrase generator)を有し、該独立フレーズ生成器は、入力テキストを1つまたはそれより多くの独立したフレーズに分割するものであり、
語幹生成器(word stem generator)と分類器(classifier)とを有し、これら語幹生成器および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹(word stem)を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するものであり、かつ、
選択肢生成器(alternative generator)を有し、該選択肢生成器は、該語幹に対応する代替的(alternative)な語幹を生成するためのものである。
センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得したセンテンスを単純化するように機能するものであり、
単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、該センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、
単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである。
A.グループに含まれる単純化されたセンテンスの個数
B.グループ内の単語の語幹が、前記独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
C.グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度
その言語における当該単語の重要度を指し示す語幹の重みを定義すること;
基準(criterion)Bに対応するポジティブマッチランク(Positive Match Rank)を算出すること;
基準Cに対応するネガティブマッチランク(Negative Match Rank)を算出すること;
次の事項に基いて、コンポジットランクを算出すること:
基準Aに対応する、グループに含まれる単純化されたセンテンスの個数、
ポジティブマッチランク、および
ネガティブマッチランク。
機械翻訳機能を有し、
センテンス取得機能を有し、該センテンス取得機能は、該機械翻訳機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該機械翻訳機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
センテンス取得機能を有し、該センテンス取得機能は、テキスト訂正機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス訂正機能を有し、該センテンス訂正機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
センテンス検索機能を有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて入力テキストを提供するものであり、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該センテンス検索機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
音声テキスト変換機能を有し、該音声テキスト変換機能は入力テキストを提供し、
センテンス取得機能を有し、該センテンス取得機能は、該センテンス検索機能によって提供された入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、かつ、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該音声テキスト変換機能によって生成された該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものである。
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器(selector)を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
綴り訂正機能、誤用された単語訂正機能、文法訂正機能、および語彙の改善機能のうちの少なくとも一つ、ならびに、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能を有する。
選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、前記の言語入力中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
誤用単語検出器(misused-word suspector、誤用された単語を検出するもの)を有し、該誤用単語検出器は、該言語入力の文脈内での適合に基づいて、言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
選択器を有し、該選択器は、前記の言語入力中の少なくとも大部分の単語の少なくとも一つの各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、かつ、前記訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能する。付加的または代替的には、前記コンピュータ補助による言語訂正システムはまた、疑わしい単語を出力表示する表示器(suspect word output indicator)を有し、該疑わしい単語を出力表示する表示器は、前記の言語入力中の単語の少なくとも大部分の少なくとも一部が、誤用された単語である疑わしさの程度を指し示すものである。
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢の少なくとも一つは、インターネットコーパス中での該言語入力中の単語の文脈的な特徴(feature)と一致するものであり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
誤用単語検出器を有し、該誤用単語検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアス(bias、偏り)を加えるものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて、訂正出力を提供するように機能するものである。
選択肢生成器を有し、該選択肢生成器は、入力に基づいて、該入力中の少なくとも一つの単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該選択器は、該少なくとも一つの単語の各々、および、該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該少なくとも一つの単語に対する複数の選択肢のうちの選択肢に対して、該少なくとも一つの単語にとって有利になるバイアスを適用するものであり、該バイアスは、該入力を提供する人の不確実性を指し示す入力不確実性(input uncertainly)の指標(metric)の関数(function)であり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
正しくない単語を検出する検出器を有し、該検出器は、言語入力中の単語の少なくとも大部分を評価するものであり、該検出器は、該入力を提供する人の不確実性を指し示す入力不確実性の指標に少なくとも部分的には応答するものであり、該検出器は、正しくないと疑われる単語の出力を提供し、かつ、当該システムは、選択肢生成器を有し、該選択肢生成器は、該正しくないと疑われる単語の出力によって特定される正しくないと疑われる単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、正しくないと疑われる単語の各々、および、該選択肢生成器によって生成された前記の複数の選択肢の間で選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである。
複数単語の入力を受け取って訂正出力を提供する、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つを有し、綴り訂正モジュール、誤用された単語訂正モジュール、文法訂正モジュール、および語彙改善モジュールのうちの少なくとも一つのうちの各々は、代替単語候補生成器(alternative word candidate generator)を有し、該代替単語候補生成器は音声類似度機能を有し、該音声類似度機能は、該入力中の単語に対する音声上の類似度に基づいて代替的な単語を提案するように、および、音声上の類似度の指標を指し示すように機能するものであり、かつ、該代替単語候補生成器は文字列類似度機能を有し、該文字列類似度機能は、該入力中の単語に対する文字列の類似度に基づいて代替的な単語を提案するように、および、各々の代替的な単語に対して、文字列の類似度の指標を指し示すように機能するものであり、かつ、当該システムは、選択器を有し、該選択器は、文脈ベースの選択機能と共に、前記の音声上の類似度の指標および文字列の類似度の指標を用いることによって、該出力中の単語、または、該代替単語候補生成器によって提案された代替的な単語候補のいずれかを選択するように機能するものである。
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、特徴発生機能(feature occurrence functionality)を有し、該特徴発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む様々な特徴をランク付けするものであり、かつ、当該システムは、選択器を有し、該選択器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、特徴フィルタリング機能を有し、該特徴フィルタリング機能は、誤りの疑いがあるものを含む特徴を除去するための機能、複数単語の入力のより以前の訂正の繰り返しにおいて導入された単語を含み、かつ信頼度水準の予め定められた閾値を下回る信頼度水準を有する特徴を負にバイアスするための機能、ならびに、予め定められた頻度の閾値を上回る発生頻度を有する別の特徴に含まれる特徴を除去するための機能のうちの少なくとも一つを有する。
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、当該システムは、特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、当該システムは、選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、当該システムは、発生機能(occurrence functionality)を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、該特徴特定機能は、次の機能のうちの少なくとも一つを有する:Nグラム特定機能、共起特定機能、および、(スキップグラム特定機能、スウィッチグラム特定機能、および、ユーザーによって以前に使用された特徴特定機能のうちの少なくとも一つの機能)。
文法誤り検出器を有し、該文法誤り検出器は、言語入力の文脈内での適合に基づいて該言語入力中の単語の少なくとも大部分を評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、当該システムは、選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
文法誤り検出器(grammatical error suspector)を有し、該文法誤り検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、当該システムは、選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、当該システムは、選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
語彙改善機能を有し、該語彙改善機能は、語彙に問題のある単語特定機能(vocabulary-challenged words identification functionality)、代替的な語彙改善生成機能、および、インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである。
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、当該システムは、選択器を有し、該選択器は、前記のセンテンス中の複数の単語の各々に対する少なくとも複数の選択肢の間で、選択を行うためのものであり、当該システムは、信頼度水準付与器を有し、該信頼度水準付与器は、該複数の選択肢からの選択された選択肢に対して信頼度水準を付与するように機能するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、および、少なくとも部分的には該信頼度水準に基づいて、訂正出力を提供するように機能するものである。
句読点誤り検出器を有し、該句読点誤り検出器は、言語入力中の単語および句読点の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
文法要素誤り検出器を有し、該文法要素誤り検出器は、言語入力中の単語の少なくとも一部を、インターネットコーパス中での該言語入力の特徴グラムの発生頻度に基づく該言語入力の文脈における適合に基づいて、評価するものであり、かつ、当該システムは、訂正生成器を有し、該訂正生成器は、該検出器によって行われた評価に少なくとも部分的には基づいて訂正出力を提供するように機能するものである。
ここで図1を参照する。図1は、本発明の好ましい実施形態に従って構築され、機能するコンピュータ補助による言語訂正用のシステムおよび機能の単純化したブロック図の図面である。図1に見られるように、訂正用のテキストは、1以上のソースから言語訂正モジュール100に提供され、該1以上のソースとしては、以下に限定されないが、ワードプロセッサ機能102、機械翻訳機能104、音声テキスト変換機能106、光学文字認識機能108、および、インスタントメッセージングまたはインターネットなどの任意の他のテキストソース110が挙げられる。
検索クエリとしてCFSを用いて、1以上のインターネット検索エンジンが用いられる。そのようなクエリの各々に対する結果の数は、そのCFSの発生頻度を提供する。
インターネットを巡回し、索引付けすることによって、ローカルインデックスが時間と共に蓄積される。各々のCFSの発生回数はCFS頻度を提供する。ローカルインデックスおよび検索クエリは、インターネットの選択可能な部分に基づいてもよく、かつ、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネットの部分が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。
インターネットで通常使用される適当な名称および単語が充実した従来の辞書を好ましくは用いて、入力テキスト中の綴りの誤りを特定すること;
綴りの誤りを有する単一または連続もしくはほぼ連続の複数の単語を含んでもよいクラスターに、綴りの誤りをグループ化し、かつ、訂正のためのクラスターを選択すること。この選択は、最も多くの正しい文脈データを含むクラスターを見つけることを試みるものである。好ましくは、その付近において正しく綴られた単語の最も長いシーケンス(単数または複数)を有するクラスターが選択される。以上のステップは、図6Aを参照して以下においてより詳細に説明される。
図7Aを参照して以下に説明されるアルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正(訂正体)を生成すること;
図8を参照して以下に説明される綴り訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、好ましくはインターネットコーパスを用いる、少なくとも部分的に非文脈的な単語類似度ベースのスコア付け、および、文脈的なスコア付けを行うこと;
各々のクラスターに対して、上述のスコア付けに基づいて、単一の綴り訂正を選択し、かつ、最も好ましい代替的な綴り訂正を提示すること;および、
誤った綴りのクラスターを置き換える、各々の誤った綴りのクラスターに対する前記単一の綴り訂正を含む、訂正されたテキスト出力を提供すること。
以下の入力テキストが受け取られる。
Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate.
ecudation, assits; strenghing; eksersiv; inprove; strenth; helth; becals; thay, ea.
excessive, expressive, obsessive, assertive, exercise, extensive, exclusive, exertion, excised, exorcism.
Physical education can assist in strengthening muscles. Some students should exercise daily to improve their strength and health because they are so fate.
である。
図2の綴り訂正機能からの綴りを訂正された入力テキストの出力における誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは入力センテンスの文脈内での該単語の少なくとも大部分の適合を評価することによって、特定すること;
誤用の疑いのある単語および文法の誤りを有する疑いのある単語を、好ましくは重複しないクラスターにグループ化すること;および、
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップは、図6Bを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図7Aを参照して以下に説明される代替的な訂正生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図10を参照して以下に説明される冠詞、前置詞、および句読点の欠落訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図11を参照して以下に説明される不要な冠詞、前置詞、および句読点の訂正アルゴリズムに基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な訂正を生成すること;
図9を参照して以下に説明される誤用された単語および文法訂正選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な訂正の、少なくとも部分的に文脈ベースのスコア付けおよび単語類似度ベースのスコア付けをすること;
図9を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の誤用された単語および文法の訂正を選択し、かつ、最も好ましい代替的な誤用された単語および文法の訂正を提示すること;および、
正しくないクラスターを置き換える、各々のクラスターに対する前記の単一の誤用された単語および文法の訂正を含む綴り、誤用された単語および文法を訂正されたテキスト出力を提供すること。
以下の入力テキストが受け取られる:
I have money book
money, book
money book
money books; money back; money box; money bulk; money Buick; money ebook; money bank; mini book; mummy book; Monet book; honey book; mannerly book; mono book; Monday book; many books; mini bike; mummy back; monkey bunk; Monday booked; Monarchy back; Mourned brook
I have many books.
である。
図3の誤用された単語および文法訂正機能からの綴り、誤用された単語および文法を訂正された入力テキストの出力において、準最適である疑いのある語彙の使用を有する語彙に問題のある単語を特定すること;
語彙に問題のある単語を、好ましくは重複しないクラスターにグループ化すること;
訂正のためのクラスターを選択すること。特定、グループ化、および選択のステップは、図6Cを参照して以下に説明されるアルゴリズムに基づくことが好ましい。
図7Bを参照して以下に説明される語彙改善生成アルゴリズムに好ましくは基づいて、各々のクラスターに対して、一つまたは好ましくは一つより多くの代替的な語彙改善を生成すること;
図9を参照して以下に説明される語彙改善選択肢スコア付けアルゴリズムに好ましくは基づいて、様々な代替的な語彙改善の、好ましくはインターネットコーパスを用いる非文脈的な単語類似度ベースのスコア付けおよび文脈的なスコア付けをすること;
図9を参照して以下に説明されてもいる上述のスコア付けに基づいて、各々のクラスターに対して、単一の語彙改善を選択し、かつ、最も好ましい代替的な語彙改善を提示すること;および、
各々の準最適な語彙クラスターに対して、語彙改善の提案を提供すること。
以下の綴り、誤用された単語および文法を訂正された入力テキストが提供される:
Wearing colorful clothes will separate us from the rest of the children in the school.
separate
'will separate', 'separate us', 'clothes will separate', 'will separate us', 'separate us from'
'clothes will separate'
'will separate', 'separate us'
'will separate us', 'separate us from'
である。
Wearing colorful clothes will differentiate us from the rest of the children in the school.
である。
以下の入力テキストが提供される:
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Mortimer , to invesigate the death of sir Charles”
Nグラム:
2グラム: Cherlock Homes; Homes the
3グラム: Cherlock Homes the; Homes the lead
4グラム: Cherlock Homes the lead; Homes the lead character
5グラム: Cherlock Homes the lead character
スキップグラム:
Cherlock Homes the character; Cherlock Homes the chief inspecter; Cherlock Homes the inspecter; Cherlock Homes has been cold
スイッチグラム:
The lead character Cherlock Homes
入力テキスト中の共起:
Character; inspector; investigate; death
入力テキストを含む文書中の共起:
Arthur Conan Doyle; story
ユーザーの他の文書中の共起:
mystery
Nグラム:
2グラム: been cold; cold in
3グラム: has been cold; been cold in; cold in by
4グラム: inspector has been cold; has been cold in; been cold in by; cold in by the
5グラム: chief inspector has been cold; inspector has been cold in; has been cold in by; been cold in by the; cold in by the family
スキップグラム:
cold in to investigate; Cherlock has been cold; cold by the doctor; cold by Dr Mortimer; character has been cold
a.従来の品詞タグ付け機能およびセンテンス構文解析機能の操作。複数のパースツリーノード(parsing tree nodes)の部分を含むCFSは比較的低いスコアを与えられる。CFSに含まれるパースツリーノードの個数が多くなるほど、そのCFSのスコアは低くなる。
b.CFSの長さ。CFSが長くなるほど、スコアは高くなる。
c.入力ワード以外のCFS中の単語の各々の発生頻度。そのような単語の発生頻度が高くなるほど、スコアは低くなる。
d.CFSの類型。例えば、Nグラムは共起よりも好ましい。入力センテンス中の共起は入力文書中の共起よりも好ましく、入力文書中の共起は「ユーザーによって以前に使用された特徴」よりも好ましい。
綴りを訂正された入力テキスト中の各々の単語に対して、特徴グラムが生成される;
コーパス、好ましくはインターネットコーパス中での該特徴グラムの各々の発生頻度が記録される;
各々の単語に対して疑わしい特徴グラムの数が記録される。疑わしい特徴グラムは、予期される頻度(expected frequency)よりも著しく低い頻度、または最小の頻度の閾値を下回る頻度を有する。特徴グラムの予期される頻度は、その構成要素およびそれらの組み合わせの頻度に基づいて見積もられる。
ある単語は、その単語を含む疑わしい特徴グラムの数が、予め定められた閾値を超えている場合に疑わしいものとなる。
EFREQ F−G=FREQ F−G−W * FREQ W/(コーパス中での全ての単語の頻度の合計)
以下の綴りを訂正された入力テキストが提供される:
I have money book
I; I have; I have money; I have money book
EFREQ F−G=(FREQ F−G−W * FREQ W)/(コーパス中の全ての単語の頻度の合計)
2グラム(x,y)に対する予期される2グラムの頻度=(xの1グラムの頻度 * yの1グラムの頻度)/インターネットコーパス中の単語の数(例:1兆(1,000,000,000,000)ワード)
FREQ F−G/EFREQ F−G
各々の単語に対して言語豊富度スコアを付与するためにシソーラスを前処理する。該言語豊富度スコアは、ヒエラルキーでの単語のレベルを示し、該ヒエラルキーでは、書かれた言語は話された言語よりも好ましく、例えば、インターネットソースの間では、記事および書籍はチャットおよびフォーラムよりも好ましく、かつ、より使用頻度の低い単語は、より使用頻度の高い単語よりも好ましい;
シソーラスを更に前処理して、先行する前処理ステップの結果に基づいて、および、文法規則に基づいて、語彙改善のための候補ではありそうもない単語を除外する;
更に前処理して、入力単語の言語豊富度スコアよりも高い言語豊富度スコアを有する語彙改善用の候補を、各々の残っている単語に対して指し示す;および、
綴り、誤用された単語および文法を訂正された入力テキスト中の各々の単語が、複数に前処理されたシソーラス中に残っている単語として現れるかどうかを確認し、残っている単語として現れたそのような単語の各々を、語彙改善のための候補として特定する。
連続する語彙に問題のある単語が単一のクラスターにグループ化される;および、
文法上の関係を有する語彙に問題のある単語が、同一のクラスターにグループ化される。
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、クラスター中の各々の単語に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、GNU AspellおよびGoogle(登録商標)GSpellなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の代替的な訂正を提供する。例えば、入力単語feezixを考えると、一つの文字、すなわち“i”しか共通しないが、音声の類似に基づいて、辞書から単語“physics”が取得されることになる。類似の音声を有しないが、その列の文字の類似度に基づいて、単語“felix”が取得されることになる。
単数形/複数形の規則:入力センテンスが“leaf fall off trees in the autumn”である場合、複数形の選択肢“leaves”が生成される。
冠詞の規則:入力テキストが“a old lady”である場合、代替的な冠詞“an”および“the”が生成される。
前置詞の規則:入力テキストが“I am interested of football”である場合、代替的な前置詞“in”、“at”、“to”、“on”、“through”,...が生成される。
動詞の活用規則:入力テキストが“He leave the room”である場合、代替的な動詞の活用“left”、“leaves”、“had left”,...が生成される。
単語の結合および単語の分割の規則:入力テキストが“get alot fitter”である場合、選択肢“a lot”が生成される。
入力テキストが“we have to wat ch out”である場合、選択肢“watch”が生成される。
入力テキストが“do many sittups”である場合、選択肢“sit ups”が生成される。
入力センテンスが“The cat has kts”である場合、単語“kts”は単語“kittens”に音声または記述として有意には類似していないかもしれないため、本発明のこの側面がなければ、“kittens”は選択肢の一つにならないかもしれない。
nine lives; left; fleas; dandruff; kittens; tapeworms; adopted; retractile claws; been; urinated; diarrhea; eaten; swallowed; hairballs; gone; always been
入力クラスターが“money book”である場合、単語“money”に対する選択肢は:
Monday; many; monkey
であり、単語“book”に対する選択肢は:
Books; box; back
である。
money books; money box; money back; Monday books; Monday box; Monday back; many books; many box; many back; monkey books; monkey box; monkey back; many book; monkey book; Monday book
元々の入力単語が正しく綴られている場合、それが選択肢として考慮される。
以下の入力テキストが提供される:
It was nice to meet you
単語“nice”に対して以下の選択肢がPrinceton WordNetなどの語彙データベースにより生成される(部分的なリスト):
pleasant, good, kind, polite, fine, decent, gracious, courteous, considerate, enjoyable, agreeable, satisfying, delightful, entertaining, amiable, friendly, elegant, precise, careful, meticulous
単語“nice”に対して以下の選択肢が、予め定められた規則の適用により生成される:
cool
“it was * to meet”などのクエリに対する応答などにおいて、単語“nice”に対して、以下の文脈的に取得された選択肢が生成される:
great; a pleasure; wonderful; lovely; good; impossible; fun; awesome; refreshing; exciting; agreed; fantastic; decided ; inspiring
I.非文脈的なスコア付け − 様々なクラスターの選択肢が、書かれたときの見た目および音声の類似度の観点での入力テキスト中のクラスターに対する類似度に基づいてスコア付けされる。このスコア付けは、所与のクラスターの外のいかなる文脈的な類似度も考慮に入れない。
II.インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図5を参照して上記で説明したようにして提供される抽出された文脈特徴シーケンス(CFS)に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する:
IIA.図5を参照して上記で説明されたようにして抽出されたCFSの文脈における、図7Aの機能によって作り出された様々な代替的なクラスターの訂正に関する発生頻度の解析が、好ましくはインターネットコーパスを用いて行われる。
IIB.サブステージIIAの発生頻度の解析の結果にとりわけ基づいて、CFSの選択および様々なCFSの重み付けが行われる。重み付けは、様々なCFSの相対的な固有の重要度にも基づく。CFSの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるCFSは、相対的な重みを与えられることが好ましい。
IIC.サブステージIIBで選択されたCFSの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
IID.サブステージIIAの発生頻度の解析の結果、サブステージIICの発生頻度の指標、ならびに、サブステージIIBのCFSの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
IIE.基準となるクラスターの訂正として使用するために、ステージIにおける最も高い非文脈的な類似度スコアを有するクラスターが、サブステージIIDにおける縮小されたセットから選択される。
IIF.ステージIIBで選択されたCFSの各々に対する、サブステージIIEの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
IIG.サブステージIIBで選択されたCFSの各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージIIEの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
III.ステージIの結果およびステージIIの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
IV.最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。
サブステージIIAに関して、訂正されるべきクラスターを含む全てのCFSは、図5において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むCFSは除外される。
以下の入力テキストが提供される:
I lik tw play outside a lot
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
lik tw
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
like to; like two; lick two; lack two; lack true; like true
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside'; 'I lik tw play outside'; 'lik tw play outside a'
ステージIIAに関して上述した機能を用いて、表10に見られるインターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
'lik tw play outside a'
'lik tw'; 'I lik tw'; 'lik tw play'; 'I lik tw play'; 'lik tw play outside'
この例では、唯一の残るCFSは、特徴グラム:
'I lik tw play outside'
である。
以下の入力テキストが提供される:
footprints of a mysterious haund said to be six feet tall
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
haund
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
hound; hand; sound
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'a mysterious haund'; 'haund said'
本明細書においてステージIICに関して上述した機能を用いて、表12に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される:
i.他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの;および、
ii.CFSの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。
以下の入力テキストが提供される:
I leav un a big house
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
leav un
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
leave in; live in; love in
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I leav un a’; ‘leav un a big’
本明細書においてステージIICに関して上述した機能を用いて、表13に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
用語「頻度関数(frequency function)」は、以下では、頻度(frequency)、正規化(normalized)頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
以下の入力テキストが提供される:
A big agle in the sky
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
agle
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
ogle; eagle; angel
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘big agle’; ‘agle in the sky’
本明細書においてステージIICに関して上述した機能を用いて、表15に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
以下の入力テキストが提供される:
A while ago sthe lived 3 dwarfs
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
sthe
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
the; they; she; there
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘ago sthe lived’; ‘sthe lived 3’
本明細書においてステージIICに関して上述した機能を用いて、表17および18に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
i.最も高い非文脈的な類似度スコアを有する代替的なクラスターの訂正が選択されて、基準となるクラスターとなる。
ii.修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
iii.iiにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
iv.iiまたはiiiで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なCFSスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、CFSスコアに反映される他の要因に基づく強調を提供する。
v.ii、iiiまたはivで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
以下の入力テキストが提供される:
I will be able to tach base with you next week
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
tach
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
teach; touch
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘able to tach’; ‘to tach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表20に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
1.予め定められた閾値を下回る類似度スコアを有し、かつ、予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、基準となるクラスターのCFS頻度関数よりも小さいCFS頻度関数を有する代替的な訂正を除去する。
2.予め定められた閾値を下回る類似度スコアを有し、かつ、別の予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、予め定められた閾値よりも小さい優先度の指標を有する代替的な訂正を除去する。
3.a.各々のCFSのCFSスコアを確かめる;
b.各々のCFSに対して、基準となるクラスターについての、および、代替的な訂正についてのCFS頻度関数を確かめ、それにより、基準となるクラスターまたは該代替的な訂正は、そのCFSに対して、より高い頻度関数を有するかどうかを確かめる;
c.該代替的な訂正が基準となるクラスターよりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
d.基準となるクラスターが該代替的な訂正よりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
e.c.での和がd.での和よりも小さい場合、その代替的な訂正を除去する。
以下の入力テキストが提供される;
I am faelling en love
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
faelling en
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
falling on; falling in; feeling on; feeling in
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘am faelling en’; ‘faelling en love’; ‘am faelling en love’; ‘I am faelling en’
本明細書においてサブステージIIAに関して上述した機能を用いて、表22に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘am faelling en’; ‘faelling en love’
この例では、残るCFSは特徴グラム:
‘am faelling en love’; ‘I am faelling en’
である。
この例では、代替的なクラスターの訂正の非文脈的な類似度スコアは、表23に示される通りである。
a.上記サブステージIIBで提供された選択されたCFSの個数、類型、およびスコア付け;
b.CFSの文脈における、様々な代替的なクラスターの訂正の発生頻度の統計的な優位度;
c.CFSの各々の優先度の指標、および、様々な代替的な訂正の単語の類似度スコアに基づく、代替的な訂正の選択における合致の程度;
d.予め定められた最小の閾値を上回る、選択された代替的なクラスターの訂正の非文脈的な類似度スコア(ステージI)。
e.予め定められた最小の閾値を上回るCFSスコアを有し、かつ、別の予め定められた閾値を上回る優先度スコアを有する縮小されたマトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
以下の入力テキストが提供される:
He was not feeling wehl when he returned
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
wehl
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
wale; well
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘was not feeling wehl’; ‘not feeling wehl when; ‘feeling wehl when he’; ‘wehl when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表24に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
I like to work on the bech in the summer
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
bech
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
beach; beech; back
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘on the bech in’; ‘the bech in the’; ‘bech in the summer’
サブステージIIAに関して上述した機能を用いて、表25に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
以下の入力テキストが受け取られる:
Exarts are restoring the British Museum’s round reading room
図6Aを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
Exarts
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
Experts; Exerts; Exits
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘Exarts are’; ‘Exarts are restoring’; ‘Exarts are restoring the; ‘Exarts are restoring the British’
サブステージIIAに関して上述した機能を用いて、表26に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘Exarts are restoring’; ‘Exarts are restoring the’; ‘Exarts are restoring the British’
この例では、唯一の残るCFSは、特徴グラム:
‘Exarts are’
である。
II.インターネットコーパスを用いる文脈的なスコア付け − 様々なクラスターの選択肢の各々はまた、図5を参照して上記で説明したようにして提供される抽出された文脈特徴シーケンス(CFS)に基づいてスコア付けされる。このスコア付けは、以下のサブステージを有する:
IIA.図5を参照して上記で説明されたようにして抽出されたCFSの文脈における、図7Aまたは7Bの機能によって作り出された様々な代替的なクラスターの訂正に対する発生頻度の解析が、好ましくはインターネットコーパスを用いて行われる。
IIB.サブステージIIAの発生頻度の解析の結果にとりわけ基づいて、CFSの選択および様々なCFSの重み付けが行われる。重み付けは、様々なCFSの相対的な固有の重要度にも基づく。CFSの一部はゼロの重みを与えられてもよく、従って選択されないことを理解されたい。選択されるCFSは、相対的な重みを与えられることが好ましい。
IIC.サブステージIIBで選択されたCFSの各々に対する各々の代替的な訂正に対して、発生頻度の指標が付与される。
IID.サブステージIIAの発生頻度の解析の結果、サブステージIICの発生頻度の指標、ならびに、サブステージIIBのCFSの選択および重み付けにとりわけ基づいて、代替的なクラスターの訂正の縮小されたセットが生成される。
IIE.基準となるクラスターの訂正として使用するために、入力クラスターが選択される。
IIF.ステージIIBで選択されたCFSの各々に対する、サブステージIIEの基準となるクラスターの訂正に対して、発生頻度の指標が付与される。
IIG.サブステージIIBで選択された特徴の各々に対して比の指標が付与され、該比の指標は、その特徴に対する各々の代替的な訂正に対する発生頻度の指標の、サブステージIIEの基準となるクラスターに付与された発生頻度の指標に対する比を表す。
III.ステージIの結果およびステージIIの結果に基づいて、最も好ましい代替的なクラスターの訂正が選択される。
IV.最も好ましい代替的なクラスターの訂正に対して、信頼度水準スコアが付与される。
サブステージIIAに関して、訂正されるべきクラスターを含む全てのCFSは、図5において上述したようにして生成される。入力クラスターにおける誤り以外の誤りの疑いがあるものを含むCFSは除外される。
以下の入力テキストが提供される:
I lick two play outside a lot
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
lick two
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
like to; like two; lick two; lack two; lack true; like true
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play outside'; 'I lick two play outside'; 'lick two play outside a'
サブステージIIAに関して上述した機能を用いて、表27に見られるインターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
'lick two play outside a'
'lick two'; 'I lick two'; 'lick two play'; 'I lick two play'; 'lick two play outside'
この例では、唯一の残るCFSは、以下の特徴グラム:
'I lick two play outside'
である。
以下の入力テキストが、典型的には音声認識によって、提供される:
footprints of a mysterious [hound/hand] said to be six feet tall
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
hound
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
hound; hand; sound
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'a mysterious hound'; 'hound said'
本明細書においてサブステージIICに関して上述した機能を用いて、表29に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される:
i.他の代替的なクラスターの訂正よりも低い単語類似度スコアを有するもの;および、
ii.CFSの全てについて、他の代替的なクラスターの訂正よりも低い発生頻度、および、好ましくはまた、他の代替的なクラスターの訂正よりも低い正規化された発生頻度を有するもの。
以下の入力テキストが提供される:
I leave on a big house
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
leave un
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
leave in; live in; love in; leave on
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I leave on a’; ‘leave on a big’
本明細書においてステージIIEに関して上述した機能を用いて、表30に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
用語「頻度関数」は以下では、頻度、正規化頻度、または、頻度と正規化頻度との両方の関数を示すために用いられる。
以下の入力テキストが提供される:
I am vary satisfied with your work
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
vary
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
vary; very
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘am vary’; ‘vary satisfied’; 'I am vary satisfied with'
本明細書においてサブステージIICに関して上述した機能を用いて、表32および33に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
以下の入力テキストが提供される:
A while ago the lived 3 dwarfs
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
the
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
the; they; she; there
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘ago the lived’; ‘the lived 3’
本明細書においてサブステージIICに関して上述した機能を用いて、表34および35に見られる、インターネットコーパス中での発生頻度、正規化された発生頻度、および平均の発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
i.訂正のために選択された元々の入力テキストからのクラスターが選択されて、基準となるクラスターとなる。
ii.修正されたマトリクスが作られ、該修正されたマトリクスでは、各々の優先度のマトリクスにおいて、各々の特徴グラムにおける各々の代替的な訂正の発生頻度の関数が、各々の代替的な訂正の発生頻度の関数の、基準となるクラスターの発生頻度の関数に対する比によって置き換えられている。
iii.iiにおいて上述した類型の修正されたマトリクスがさらに修正され、各々の優先度の指標における該比が、比の非常に大きな差異の計算上の重要性を低減する該比の関数によって置き換えられる。好適なそのような関数としては対数関数である。この操作の目的は、最も好ましくない代替的な訂正の最終の優先度のスコア付けにおいて、従って除外において、発生頻度における大きな差異の重要性を保ちつつ、最も好ましい代替的な訂正の最終の優先度のスコア付けにおいて、発生頻度の大きな差異の重要性を強調しなくするためである。
iv.iiまたはiiiで上述した類型の修正されたマトリクスは、各々の優先度の指標における適当な比または比の関数に、適当なCFSスコアを掛けることによって、さらに修正される。これは、正しい文法の使用、および、CFSスコアに反映される他の要因に基づく強調を提供する。
v.ii、iiiまたはivで上述した類型の修正されたマトリクスは、各々の優先度の指標における適用可能な比または比の関数に、ユーザーの不確実性の指標の関数を掛けることによって更に修正される。ユーザーの入力の不確実性の指標のいくつかの例としては、当該文書の他の単語に関する編集行為に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターに関連する編集行為の回数、当該文書の他の単語の記述の時点に対する、ワードプロセッサにおいて行われた入力の単語またはクラスターの記述の時点、および、そのユーザーが他の単語を話した時点に対する、音声認識入力機能において行われた入力の単語またはクラスターが話された時点が挙げられる。ユーザーの入力の不確実性の指標は、該ユーザーによるその単語の選択はどの程度確実なものかの指標を提供する。このステップは、基準となるクラスターに対して算出されたバイアスを受け取り、そのクラスターに関するユーザーの確実性または不確実性の関数によってそれを修正する。
vi.ii、iii、ivまたはvで上述した類型の修正されたマトリクスは、適用可能な比、比の関数、発生頻度、および正規化された発生頻度の関数を生成することによって、さらに修正される。好ましい関数は、各々の優先度の指標における適用可能な比または比の関数に、そのCFSの発生頻度を掛けることによって生成される。
以下の入力テキストが提供される:
I will be able to teach base with you next week
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
teach
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
teach; touch
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘able to teach’; ‘to teach base’
上記においてサブステージIIAおよびIICに関して上述した機能を用いて、表37に見られる、インターネットコーパス中での発生頻度および正規化された発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
1.予め定められた閾値を下回る類似度スコアを有し、かつ、予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、基準となるクラスターのCFS頻度関数よりも小さいCFS頻度関数を有する代替的な訂正を除去する。
2.予め定められた閾値を下回る類似度スコアを有し、かつ、別の予め定められた閾値よりも高いCFSスコアを有する少なくとも一つの特徴に対して、予め定められた閾値よりも小さい優先度の指標を有する代替的な訂正を除去する。
3.a.各々のCFSのCFSスコアを確かめる;
b.各々のCFSに対して、基準となるクラスターについての、および、代替的な訂正についてのCFS頻度関数を確かめ、それにより、基準となるクラスターまたは該代替的な訂正は、そのCFSに対して、より高い頻度関数を有するかどうかを確かめる;
c.該代替的な訂正が基準となるクラスターよりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
d.基準となるクラスターが該代替的な訂正よりも高い頻度を有するCFSについて、CFSスコアを加え合わせる;
e.c.での和がd.での和よりも小さい場合、その代替的な訂正を除去する。
以下の入力テキストが、典型的には音声認識機能によって、提供される;
I want [two/to/too] items, please.
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
[two/to/too]
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
two; to; too
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘I want two’; ‘want two items’
本明細書においてステージIIAに関して上述した機能を用いて、表39に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
a.上記サブステージIIBで提供された選択されたCFSの個数、類型、およびスコア付け;
b.CFSの文脈における、様々な代替的なクラスターの訂正の発生頻度の統計的な優位度;
c.CFSの各々の優先度の指標、および、様々な代替的な訂正の単語の類似度スコアに基づく、代替的な訂正の選択における合致の程度;
d.予め定められた最小の閾値を上回る、選択された代替的なクラスターの訂正の非文脈的な類似度スコア(ステージI)。
e.予め定められた最小の閾値を上回るCFSスコアを有し、かつ、別の予め定められた閾値を上回る優先度スコアを有する縮小されたマトリクス中のCFSの個数によって示される、利用可能な文脈データの程度。
以下の入力テキストが提供される:
He was not feeling wale when he returned
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
wale
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
wale; well
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘was not feeling wale'; ‘not feeling wale when; ‘feeling wale when he’; ‘wale when he returned’
本明細書においてサブステージIIAに関して上述した機能を用いて、表40に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
I like to work on the beech in the summer
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
beech
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
beach; beech; back
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘on the beech in’; ‘the beech in the’; ‘beech in the summer’
ステージIIAに関して上述した機能を用いて、表41に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
以下の入力テキストが受け取られる:
Exerts are restoring the British Museum’s round reading room
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
Exerts
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
Experts; Exerts; Exits
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘Exerts are’; ‘Exerts are restoring’; ‘Exerts are restoring the'; ‘Exarts are restoring the British’
サブステージIIAに関して上述した機能を用いて、表42に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘Exerts are restoring’; ‘Exerts are restoring the’; ‘Exerts are restoring the British’
この例では、唯一の残るCFSは、特徴グラム:
‘Exerts are’
である。
以下の例は、上記ステージDおよびEで説明した最終の優先度スコアの指標の使用を示す。
以下の入力テキストが提供される:
Some kids don't do any sport and sit around doing nothing and getting fast so you will burn some calories and get a lot fitter if you exercise.
図6Bを参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
fast
図7Aを参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
fat; fast
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
'and getting fast'; 'getting fast so'; 'fast so you'; 'fast so you will'
本明細書においてサブステージIIAに関して上述した機能を用いて、表43に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
先ず、綴りを訂正された入力テキストに対して、特徴グラムが生成される。コーパス中、好ましくはインターネットコーパス中での綴りを訂正された入力テキスト中の各々の特徴グラムの発生頻度(FREQ F−G)が確かめられる。
特徴グラムは、W1−Wnとして特定されるn個の単語を含むと想定される。
Wiは、特徴グラム中のi番目の単語を示す。
与えられた特徴グラムの予期される発生頻度は、特徴グラム中の単語の分割(単語W1...W(n−1)の各々に続く連続する2つの部分への分割)に基づいて、その特徴グラムの予期される頻度のうちで最も高いものになるように取られる。
単語Wiに続く二つの連続する部分への特徴グラム中の単語の分割に基づく特徴グラムの予期される頻度は、以下の通りに表すことができる:
WiについてのEFREQ F−G = (FREQ(W1−Wi)*FREQ(Wi+1−Wn))/(コーパス中での全ての単語の頻度の合計)
以下の入力テキストが適用される:
I can’t read please help me
図5を参照して上述した機能を用いて、以下の特徴グラムが生成される(部分的なリスト):
I can't read; can't read please; read please help; please help me
上述した機能を用いて、インターネットコーパス中での発生頻度のマトリクスが、特徴グラムの上記リストに対して生成され、それは、典型的には表45に見られる通りである:
WiについてのEFREQ F−G = (FREQ(W1−Wi)*FREQ(Wi+1−Wn))/(コーパス中での全ての単語の頻度の合計)
'read please'; 'read. Please'; 'read of please'; 'read a please'
である。
図5を参照して上述した機能を用いて、以下のCFSが生成される:
'I can't read [?]'; 'read [?] please help'; ' [?] please help me'
図9のステージIIAで説明した機能を用いて、表48に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
‘.’がクラスターに含まれる場合、’.’を有するクラスターを含むCFSの発生頻度が、’.’の前および後のテキストについて別々に取得される。すなわち、特徴グラム“can’t read. Please”は、2つの別々の文法構文解析フレーズを含むため、生成されない。
I can’t read. Please help me.
である。
以下の入力テキストが提供される:
I sit the sofa
後述する機能を用いて、以下のクラスターが訂正のために選択される:
‘sit the’
後述する機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
sit on the; sit of the; sit the
図5を参照して上述した機能を用いて、以下のCFSが生成される:
‘I sit the’; ‘sit the sofa’
図9のステージIIAで説明した機能を用いて、表49に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
I sit on the sofa.
である。
句読点、冠詞、前置詞、接続詞、または他の要素(通常、名詞、動詞または形容詞を含まない)が不要である可能性のある予め定められたセットに属する要素を特定するためのサーチが、綴りを訂正された入力テキストに対して行われる。
以下の入力テキストが提供される:
It is a nice, thing to wear.
この例では、カンマ“,”はそのようなリストに属するものとして特定される。
図5を参照して上述した機能を用いて、表50に見られるカンマ“,”を含む特徴グラムが生成され、カンマを有しない同一の特徴グラムもまた生成される(部分的なリスト)。
‘nice,’; ‘nice’
'a nice,'; 'nice, thing'; 'is a nice,'; 'a nice, thing'; 'nice, thing to'
'a nice,'; 'nice, thing'
この例では、残るCFSは特徴グラム:
'is a nice,'; 'a nice, thing'; 'nice, thing to'
である。
It is a nice thing to wear.
である。
以下の入力テキストが提供される:
We should provide them a food and water.
図11を参照して上述した機能を用いて、以下のクラスターが訂正のために選択される:
a food
図11を参照して上述した機能を用いて、以下の代替的なクラスターの訂正が生成される(部分的なリスト):
a food; food
図5を参照して上述した機能を用いて、以下のCFSが生成される(部分的なリスト):
‘provide them a food’; ‘them a food and’; ‘a food and water’
本明細書においてサブステージIIAに関して上述した機能を用いて、表53に見られる、インターネットコーパス中での発生頻度のマトリクスが、CFSの上記リスト中の代替的なクラスターの訂正の上記リストに対して生成される。
We should provide them food and water.
である。
センテンス検索機能201。これは、ユーザーが少数の単語を含むクエリを入力すること、および、そのような単語を含む完全なセンテンスを取得することを可能とすることにより、ユーザーがセンテンスを構築するのを補助する。
機械テキスト生成機能202。これは、知識ベースまたは論理形などの機械提示システムから自然言語のセンテンスを生成する。
ワードプロセッサ機能203。これは、任意の好適なテキスト、好ましくはセンテンスなどの文書の部分を生成し得る。
機械翻訳機能204。これは、元の言語のテキストを、目的の言語のテキストに変換し、かつ、目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および/または単語を提供できるものであり、該目的の言語の複数の代替的な翻訳されたテキスト、フレーズ、および/または単語は、言語生成モジュールによって、代替的な入力テキスト、代替的なフレーズ、および/または代替的な単語として、処理され得る。
音声テキスト変換機能205。これは、音声をテキストに変換し、複数の代替的な単語を提供できるものであり、該複数の代替的な単語は、言語生成モジュールによって、各々の単語に対する選択肢と共に入力テキストとして処理され得る。
光学文字認識機能206。これは、文字をテキストに変換し、かつ、各々の単語に対して複数の選択肢を提供できるものであり、該複数の選択肢は、言語生成モジュールによって、各々の単語に対する選択肢を有する入力テキストとして、処理され得る。および、
インスタントメッセージング、またはインターネット上で通信されるテキストなどの任意の他のテキストソース210。
修正された入力テキストを検索クエリとして用いて、1以上のインターネット検索エンジンが用いられる。検索クエリに含まれる単語を含むセンテンスが、検索結果から抽出され得る。
インターネットを巡回し、索引付けすることによって、ステム・トゥ・センテンス・インデックス216が時間と共に蓄積される。これは、インターネットコーパスに現れる活用した単語をそれらの各々の語幹にまで縮小させ、かつ、そのような語幹を有する単語を含むコーパス中の全てのセンテンスをリストすることにより行われることが好ましい。ステム・トゥ・センテンス・インデックス、および検索クエリは、インターネットの選択可能な部分に基づいてもよく、それらの選択された部分で特定されてもよい。同様に、インターネットでの用法と一般的な言語の用法との不一致を訂正するために、インターネットの一部が除外または適当に重み付けされてもよい。そのようにして、ニュースおよび政府のウェブサイトなどの言語の用法に関して信頼できるウェブサイトは、チャットまたはユーザーフォーラムなどのその他のウェブサイトよりも大きな重みを与えられ得る。
独立したフレーズ;
各々の独立したフレーズに対して:
ランキングと共に、必須のおよび任意選択的な語幹;
インターネットコーパス212から取得されたセンテンス。
図14Aに見られるように、インターネットコーパスから取られたセンテンス中の全ての単語は、先ず、独立したフレーズ中の語幹をクラス分けするために用いられたのと同じ基準を好ましくは用いて、必須または不要のいずれかとしてクラス分けされる。不要な単語は、それらの語幹が、対応する独立したフレーズ中に現れなければ、または、代替的な語幹の一つでなければ、削除される。
A.その中に含まれる単純化されたセンテンスの個数
B.グループ内の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度
C.グループが、独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度
文字列の類似度で表される書かれたときの見た目、および、音声または音声学上の類似度の両方に基づいて、各々の語幹に類似する、辞書から取られた複数の単語が取得される。この機能は公知であり、GNU AspellおよびGoogle(登録商標)GSpellなどのフリーウェアとして、インターネット上で利用可能である。取得され、優先順位を付された単語は、第一の複数の選択肢を提供する。
以下の入力テキストが、ワードプロセッサまたは機械翻訳機能から取得される:
Be calling if to problem please
必須の語幹: call, if, problem, please
任意選択的な語幹: be, to
言語中の単語の重要度を示す語幹の重みが定義される。独立したフレーズ中の語幹に対して、語幹が必須である場合には重みは1に等しく、語幹が任意選択的である場合には1よりも小さい。
表では、重みは各々の語幹に続く括弧中に示されている。例えば、"you (0.5)"は、語幹’you’は0.5の重要度の重みを有することを意味する。
ポジティブマッチランク(基準Bに対応する(図14B))を算出する。これは、独立したフレーズ中、および、対応する単純化されたセンテンスのグループ中に現れる語幹の上記重みの和を、独立したフレーズ中に現れる全ての語幹の重みの和で割ったものに等しい。
ネガティブマッチランク(基準Cに対応する(図14B))を算出する。これは、対応する単純化されたセンテンスのグループ中に現れるが、独立したフレーズ中には現れない語幹の上記重みの和を、対応する単純化されたセンテンスのグループ中に現れる全ての語幹の重みの和で割ったものを、1から引いたものに等しい。
グループのカウント(基準A(図14B))ならびにポジティブおよびネガティブマッチランクに基づいて、コンポジットランク(2に対応する(図14B))を算出する。好ましいコンポジットランクは、以下の一般式により与えられる:
コンポジットランク = グループのカウントを、ポジティブマッチランクおよびネガティブマッチランクの重み付けした和で掛けたものの関数
より具体的な例は、以下の式で与えられるが、本発明は上記一般式または下記の具体的な式のいずれにも限定されないことが理解される:
コンポジットランク = (グループのカウント)の平方根 * (0.8 * ポジティブマッチランク + 0.2 * ネガティブマッチランク)
Be calling if to problem please
を以下のセンテンス:
If you have any problems, please call
に変換できることが理解され得る。
Claims (26)
- コンピュータ補助による言語生成システムであって、当該システムは、
センテンス取得機能を有し、該センテンス取得機能は、単語を含む入力テキストに基づいて、該入力テキスト中の単語に一致する単語を含む複数のセンテンスをインターネットコーパスから取得するように機能するものであり、該センテンス取得機能は、
独立フレーズ生成器を有し、該独立フレーズ生成器は、前記入力テキストを1つ以上の独立したフレーズに分割するものであり、
語幹生成器および分類器を有し、該語幹生成器および分類器は、各々の独立したフレーズについて、その中に現れる単語に対して語幹を生成し、かつ、該語幹に対して重要度の重みを付与するように機能するものであり、かつ、
選択肢生成器を有し、該選択肢生成器は、該語幹に対応する代替的な語幹を生成するためのものであり、
当該システムは、
センテンス生成機能を有し、該センテンス生成機能は、該センテンス取得機能によって該インターネットコーパスから取得された複数のセンテンスを用いて、該入力テキストに対して少なくとも1つの、正しいセンテンスを与える表現を生成するように機能するものであり、
前記センテンス生成機能は、
センテンス単純化機能を有し、該センテンス単純化機能は、前記インターネットコーパスから取得した前記センテンスを単純化するように機能するものであり、かつ、該センテンス単純化機能は、
前記複数のセンテンス中の、単語および/またはフレーズを、必須または不要のいずれかとしてクラス分けすることを含み、かつ、
不要な単語および/またはフレーズを削除することを含み、ただし、不要な単語を削除するに際しては、該単語の語幹が、前記の1つ以上の独立したフレーズ中に現れるかまたは前記の代替的な語幹の1つであるならば、その単語は削除せず、不要なフレーズを削除するに際しては、該フレーズが、前記の1つ以上の独立したフレーズの中に現れる単語に対する前記語幹を含んでいるかまたは前記の代替的な語幹を何か含んでいるならば、そのフレーズは削除せず、
前記センテンス生成機能は、
単純化センテンスグループ化機能を有し、該単純化センテンスグループ化機能は、前記センテンス単純化機能によって提供される類似の単純化されたセンテンスをグループ化するためのものであり、かつ、該単純化センテンスグループ化機能は、類似度に基いてセンテンスをグループ化することを含み、かつ、
単純化センテンスグループ・ランク付け機能を有し、該単純化センテンスグループ・ランク付け機能は、該類似の単純化されたセンテンスのグループをランク付けするためのものである、
前記コンピュータ補助による言語生成システム。 - 当該システムが、ステム・トゥ・センテンス・インデックスをも有し、該ステム・トゥ・センテンス・インデックスは、前記入力テキスト中の単語に一致する単語を含む前記複数のセンテンスを取得するために前記インターネットコーパスと交信するものである、請求項1記載のコンピュータ補助による言語生成システム。
- 前記単純化センテンスグループ・ランク付け機能が、下記の基準のうちの少なくともいくつかを用いて機能する、請求項1または2に記載のコンピュータ補助による言語生成システム。
A.グループに含まれる単純化されたセンテンスの個数。
B.グループ内の単語の語幹が、独立したフレーズ中の語幹およびそれらの選択肢に一致する程度。
C.グループが、前記独立したフレーズ中の単語およびそれらの選択肢に一致しない単語を含む程度。 - 前記単純化センテンスグループ・ランク付け機能が、下記の手順のうちの少なくとも一部を用いて機能する、請求項3記載のコンピュータ補助による言語生成システム。
その言語における当該単語の重要度を指し示す語幹の重みを定義すること。
基準Bに対応するポジティブマッチランクを算出すること。
基準Cに対応するネガティブマッチランクを算出すること。
次の事項に基づいて、コンポジットランクを算出すること:
基準Aに対応する、グループに含まれる単純化されたセンテンスの個数、
ポジティブマッチランク、および
ネガティブマッチランク。 - 前記入力テキストを提供する機械翻訳機能も有する、上記請求項1〜4のいずれか1項に記載のコンピュータ補助による言語生成システム。
- 前記機械翻訳機能が、前記入力テキスト中の単語に対応する複数の選択肢を提供し、かつ、前記センテンス取得機能が、該選択肢に一致する単語を含む複数のセンテンスを前記インターネットコーパスから取得するように機能する、請求項5記載のシステム。
- 前記センテンス取得機能がテキスト訂正機能を含む、上記請求項1〜4のいずれか1項に記載のコンピュータ補助による言語生成システム。
- センテンス検索機能も有し、該センテンス検索機能は、ユーザー入力のクエリワードに基づいて前記入力テキストを提供する、上記請求項1〜4のいずれか1項に記載のコンピュータ補助による言語生成システム。
- 音声テキスト変換機能も有し、該音声テキスト変換機能は前記入力テキストを提供する、上記請求項1〜5のいずれか1項に記載のコンピュータ補助による言語生成システム。
- 当該システムはまた、
選択肢生成器を有し、該選択肢生成器は、入力センテンスに基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
選択器を有し、該選択器は、少なくとも部分的にはインターネットコーパスに基づいて、少なくとも、前記のセンテンス中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
上記請求項1〜9のいずれか1項に記載のシステム。 - 前記システムはまた、
綴り訂正機能、
誤用された単語訂正機能、
文法訂正機能、および
語彙の改善機能
のうちの少なくとも一つを有し、かつ、
文脈特徴シーケンスを有し、該文脈特徴シーケンス機能は、該綴り訂正機能、該誤用された単語訂正機能、該文法訂正機能、および該語彙の改善機能のうちの少なくとも一つと協力し、かつインターネットコーパスを用いる、文脈特徴シーケンス機能も有する、
請求項1〜9のいずれか1項に記載のシステム。 - 前記選択器が、訂正についての以下の時間的順序:
誤用された単語の訂正、文法の訂正、および語彙の改善のうちの少なくとも一つに先立つ綴りの訂正、ならびに、
語彙の改善に先立つ誤用された単語の訂正および文法の訂正、
のうちの少なくとも一つに基づいて選択を行うように機能する、請求項11記載のシステム。 - 前記訂正生成器が、訂正言語入力生成器を有し、該訂正言語入力生成器が、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項11記載のシステム。
- 前記文法訂正機能が、句読点、動詞の活用、単数形/複数形、冠詞、および前置詞の訂正機能のうちの少なくとも一つを有する、請求項11記載のシステム。
- 前記文法訂正機能が、置換、挿入、および脱落の訂正機能のうちの少なくとも一つを有する、請求項11記載のシステム。
- 前記訂正生成器が、訂正言語生成器を有し、該訂正言語生成器は、ユーザーの介入を必要とすることなく、前記選択器によって為された選択に基づいて、訂正された言語出力を提供するように機能する、請求項11記載のシステム。
- 前記システムが、
選択肢生成器を有し、該選択肢生成器は、言語入力に基づいて、該センテンス中の複数の単語の各々に対して複数の選択肢を提供するテキストベースの表現を生成するものであり、
選択器を有し、該選択器は、前記の言語入力中の複数の単語の少なくとも一部に対する複数の選択肢のうちで選択されたものの間の関係性に少なくとも部分的には基づいて、少なくとも、前記の言語入力中の複数の単語の各々に対する複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に基づいて、訂正出力を提供するように機能するものである、
請求項1〜9のいずれか1項に記載のシステム。 - 前記言語入力が、入力センテンスおよび入力テキストのうちの少なくとも一つを含む、請求項17記載のシステム。
- 前記言語入力が音声であり、かつ、前記生成器が、音声での言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、請求項17または請求項18記載のシステム。
- 前記言語入力が、
テキスト入力、
光学文字認識機能の出力、
機械翻訳機能の出力、および
ワードプロセッシング機能の出力
のうちの少なくとも一つであり、かつ、
前記生成器が、テキストでの言語入力を、該言語入力中の複数の単語に対して複数の選択肢を提供するテキストベースの表現に変換する、
請求項17または請求項18記載のシステム。 - 前記選択器が、以下の機能:
初期選択のために、前記言語入力中の前記複数の単語の全てよりは少ない単語を含む単語または単語の組み合わせの第一のセットを選択すること、
その後で、前記の単語または単語の組み合わせの第一のセットの要素を順序付けて選択の優先度を確立すること、および、
その後で、前記の単語の第一のセットの要素に対する前記複数の選択肢の間での選択を行う際に、該選択に影響する文脈として、前記複数の単語の全てではない他の単語を選ぶこと、
のうちの少なくとも二つを実行することにより選択を行うように機能する、請求項17〜20のいずれか1項に記載のシステム。 - 前記選択器はまた、ユーザーの入力履歴を学習する機能を用いる、請求項10に記載のシステム。
- 前記システムはまた、
疑わしい単語を特定する機能を有し、該機能は、複数単語の言語入力を受け取り、かつ疑わしい単語を指し示す疑わしい単語出力を提供するものであり、
特徴特定機能を有し、該特徴特定機能は、該疑わしい単語を含む特徴を特定するように機能するものであり、
選択肢選択器を有し、該選択肢選択器は、該疑わしい単語に対する選択肢を特定するものであり、
発生機能を有し、該発生機能は、コーパスを用いて発生出力を提供し、該コーパス中での使用頻度に関して該選択肢を含む特徴をランク付けするものであり、かつ、
訂正出力生成器を有し、該訂正出力生成器は、該発生出力を用いて訂正出力を提供するものであり、
該特徴特定機能は、下記の機能のうちの少なくとも一つを有する、請求項10記載のシステム。
Nグラム特定機能、
共起特定機能、および、
以下の機能のうちの少なくとも一つ:
スキップグラム特定機能、
スウィッチグラム特定機能、および、
ユーザーによって以前に使用された特徴特定機能。 - 前記システムはまた、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価するものであり、
選択肢生成器を有し、該選択肢生成器は、該検出器によって疑わしい単語として評価された言語入力中の単語の少なくとも一部に対して複数の選択肢を生成するものであり、前記の言語入力中の単語に対する複数の選択肢のうちの少なくとも一つは、該言語入力中の単語の文脈的な特徴と一致するものであり、
選択器を有し、該選択器は、少なくとも該複数の選択肢の間で、選択を行うためのものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項1〜9のいずれか1項に記載のシステム。 - 前記システムはまた、
文法誤り検出器を有し、該文法誤り検出器は、言語入力中の単語を評価し、かつ疑わしい単語を特定するものであり、
選択肢生成器を有し、該選択肢生成器は、該疑わしい単語に対して複数の選択肢を生成するものであり、
選択器を有し、該選択器は、該疑わしい単語の各々、および、該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢を、複数の選択基準に従ってグレード付けし、かつ該選択肢生成器によって生成された該疑わしい単語に対する複数の選択肢のうちの選択肢に対して、該疑わしい単語にとって有利になるバイアスを適用するものであり、かつ、
訂正生成器を有し、該訂正生成器は、該選択器によって為された選択に少なくとも部分的には基づいて訂正出力を提供するように機能するものである、
請求項1〜9のいずれか1項に記載のシステム。 - 前記システムはまた、語彙改善機能を有し、該語彙改善機能は、
語彙に問題のある単語特定機能、
代替的な語彙改善生成機能、および、
インターネットコーパス中での文脈特徴シーケンス(CFS)の発生頻度に少なくとも部分的に基づく、文脈ベースのスコア付け機能、
を有し、該代替的な語彙改善生成機能は、シソーラス前処理機能を有し、該シソーラス前処理機能は、代替的な語彙改善を生成するように機能するものである、
請求項1〜9のいずれか1項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IL2008/001051 WO2009016631A2 (en) | 2007-08-01 | 2008-07-31 | Automatic context sensitive language correction and enhancement using an internet corpus |
ILPCT/IL2008/001051 | 2008-07-31 | ||
PCT/IL2009/000130 WO2010013228A1 (en) | 2008-07-31 | 2009-02-04 | Automatic context sensitive language generation, correction and enhancement using an internet corpus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014147212A Division JP2014238855A (ja) | 2008-07-31 | 2014-07-17 | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011529594A JP2011529594A (ja) | 2011-12-08 |
JP2011529594A5 JP2011529594A5 (ja) | 2012-03-22 |
JP5584212B2 true JP5584212B2 (ja) | 2014-09-03 |
Family
ID=41611281
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011520650A Expired - Fee Related JP5584212B2 (ja) | 2008-07-31 | 2009-02-04 | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 |
JP2014147212A Pending JP2014238855A (ja) | 2008-07-31 | 2014-07-17 | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014147212A Pending JP2014238855A (ja) | 2008-07-31 | 2014-07-17 | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2313835A4 (ja) |
JP (2) | JP5584212B2 (ja) |
WO (1) | WO2010013228A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
EP2024863B1 (en) | 2006-05-07 | 2018-01-10 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
JP2010526386A (ja) | 2007-05-06 | 2010-07-29 | バーコード リミティド | バーコード標識を利用する品質管理のシステムと方法 |
CN101802812B (zh) | 2007-08-01 | 2015-07-01 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
WO2009063465A2 (en) | 2007-11-14 | 2009-05-22 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
CA2787390A1 (en) | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
WO2013032617A1 (en) * | 2011-09-01 | 2013-03-07 | Google Inc. | Server-based spell checking |
US9122673B2 (en) * | 2012-03-07 | 2015-09-01 | International Business Machines Corporation | Domain specific natural language normalization |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US9164977B2 (en) | 2013-06-24 | 2015-10-20 | International Business Machines Corporation | Error correction in tables using discovered functional dependencies |
US9830314B2 (en) | 2013-11-18 | 2017-11-28 | International Business Machines Corporation | Error correction in tables using a question and answer system |
CN103942339B (zh) * | 2014-05-08 | 2017-06-09 | 深圳市宜搜科技发展有限公司 | 同义词挖掘方法及装置 |
KR102396983B1 (ko) | 2015-01-02 | 2022-05-12 | 삼성전자주식회사 | 문법 교정 방법 및 장치 |
WO2016185474A1 (en) | 2015-05-18 | 2016-11-24 | Varcode Ltd. | Thermochromic ink indicia for activatable quality labels |
WO2017006326A1 (en) | 2015-07-07 | 2017-01-12 | Varcode Ltd. | Electronic quality indicator |
US10095740B2 (en) | 2015-08-25 | 2018-10-09 | International Business Machines Corporation | Selective fact generation from table data in a cognitive system |
US10515152B2 (en) | 2015-08-28 | 2019-12-24 | Freedom Solutions Group, Llc | Mitigation of conflicts between content matchers in automated document analysis |
US10417269B2 (en) * | 2017-03-13 | 2019-09-17 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for verbatim-text mining |
US11087210B2 (en) * | 2017-08-18 | 2021-08-10 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
CN110348001B (zh) * | 2018-04-04 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
WO2019246239A1 (en) | 2018-06-19 | 2019-12-26 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US10909973B2 (en) | 2019-01-04 | 2021-02-02 | International Business Machines Corporation | Intelligent facilitation of communications |
US20220417261A1 (en) * | 2021-06-23 | 2022-12-29 | Comcast Cable Communications, Llc | Methods, systems, and apparatuses for query analysis and classification |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235182A (ja) * | 1995-02-28 | 1996-09-13 | Canon Inc | 文章処理方法とその装置 |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US7340388B2 (en) * | 2002-03-26 | 2008-03-04 | University Of Southern California | Statistical translation using a large monolingual corpus |
US20030204569A1 (en) * | 2002-04-29 | 2003-10-30 | Michael R. Andrews | Method and apparatus for filtering e-mail infected with a previously unidentified computer virus |
US7386442B2 (en) * | 2002-07-03 | 2008-06-10 | Word Data Corp. | Code, system and method for representing a natural-language text in a form suitable for text manipulation |
JP2008522332A (ja) * | 2004-12-01 | 2008-06-26 | ホワイトスモーク,インク. | 自動的に文書を拡充するシステムおよび方法 |
JP2007122509A (ja) * | 2005-10-28 | 2007-05-17 | Rozetta Corp | 語句配列の自然度判定装置、方法及びプログラム |
-
2009
- 2009-02-04 WO PCT/IL2009/000130 patent/WO2010013228A1/en active Application Filing
- 2009-02-04 JP JP2011520650A patent/JP5584212B2/ja not_active Expired - Fee Related
- 2009-02-04 EP EP09802606A patent/EP2313835A4/en not_active Withdrawn
-
2014
- 2014-07-17 JP JP2014147212A patent/JP2014238855A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP2313835A1 (en) | 2011-04-27 |
JP2014238855A (ja) | 2014-12-18 |
JP2011529594A (ja) | 2011-12-08 |
WO2010013228A1 (en) | 2010-02-04 |
EP2313835A4 (en) | 2012-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5584212B2 (ja) | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 | |
US9026432B2 (en) | Automatic context sensitive language generation, correction and enhancement using an internet corpus | |
JP5752150B2 (ja) | 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 | |
Zajic et al. | Multi-candidate reduction: Sentence compression as a tool for document summarization tasks | |
US9678945B2 (en) | Automated reading comprehension | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Sicilia et al. | ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System | |
Wang et al. | Linguistic analysis of datasets for semantic textual similarity | |
Althobaiti | Minimally-supervised Methods for Arabic Named Entity Recognition | |
Preiss | Probabilistic word sense disambiguation: Analysis and techniques for combining knowledge sources | |
Blum | Techniques for automatic normalization of orthographically variant Yiddish texts | |
Flor et al. | ETS Lexical Associations System for the COGALEX-4 Shared Task | |
Savoy | Feature weighting approaches in sentiment analysis of short text | |
Fuentes Fort et al. | FEMsum: A flexible eclectic multitask summarizer architecture evaluated in multidocument tasks | |
Jobbins | The contribution of semantics to automatic text processing | |
Pycroft | Exploring the boundaries of formulaic sequences: a corpus-based study of lexical substitution and insertion in contemporary British English. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130628 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20131203 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20131210 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20131227 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5584212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |