JP2009266244A - 簡潔言語学データを生成かつ使用するシステムおよび方法 - Google Patents

簡潔言語学データを生成かつ使用するシステムおよび方法 Download PDF

Info

Publication number
JP2009266244A
JP2009266244A JP2009145681A JP2009145681A JP2009266244A JP 2009266244 A JP2009266244 A JP 2009266244A JP 2009145681 A JP2009145681 A JP 2009145681A JP 2009145681 A JP2009145681 A JP 2009145681A JP 2009266244 A JP2009266244 A JP 2009266244A
Authority
JP
Japan
Prior art keywords
word
words
character
frequency
linguistic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009145681A
Other languages
English (en)
Inventor
Vadim Fux
ファックス バディム
Michael G Elizarov
ジー. エリザロブ マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
2012244 Ontario Inc
Original Assignee
2012244 Ontario Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 2012244 Ontario Inc filed Critical 2012244 Ontario Inc
Publication of JP2009266244A publication Critical patent/JP2009266244A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Communication Control (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】簡潔言語学データを生成かつ使用するシステムおよび方法が提供を提供すること。
【解決手段】コーパス中に出現するワードの頻度が算出される。これらワード中の特有の文字の各々が、文字インデックスにマップされ、そしてこれらワード中の文字が文字インデックスで置き換えられる。文字のシークエンスが置換インデックスにマップされ、そしてこれらワード中の文字のシークエンスがこの置換インデックスで置換される。これらワードは、共通プレフィックスによってグループ分けされ、そして各プレフィックスが、このプレフィックスで開始するワードのグループの情報を位置決めするためにマップされる。
【選択図】図1

Description

(関連する出願への相互参照)
本出願は、2002年7月3日に出願された米国仮出願番号第60/393,903号からの優先権を主張している。この仮出願の図面を含む全体の開示は、本明細書によって参考として本出願中に援用される。
(背景)
(発明の分野)
本発明は、一般に、言語学データに、そして詳細には、テキスト処理およびテキスト入力のための言語学データの記憶および使用に関する。
(技術の状態の説明)
モバイルデバイスおよび異なるタイプの埋め込みシステムの発展する使用は、これらデバイスの開発者および製造業者が、なお良好に機能する最小のメモリー使用法を必要とする製品を作ることに挑戦させる。これら製品の鍵となる要素は、ユーザーインターフェースであり、これは、代表的には、ユーザーがこの製品によって処理されるテキストに入ることを可能にする。
言語学データの1つの適用は、ユーザーによって入力されるワードの最初の文字に基づくワード完了を予測することによりテキスト入力を容易にすることである。言語学データから検索される予測のセットが与えられると、ユーザーは、予測の1つを選択し得、そしてそれ故、ワード中の残りの文字を入力する必要はない。
ユーザー入力の予測は、モバイルデバイス中に含められるとき特に有用である。なぜなら、このようなデバイスは、代表的には、サイズが拘束されるキーボードを含む入力デバイスを有するからである。入力予測は、このようなデバイスに対してワードを入力するために必要なキーストロークの数を最小にする。
入力予測はまた、テキストが縮小キーボードを用いて入力されるとき有用である。縮小キーボードは、入力され得る文字より少ないキーを有し、それ故、キーストロークの組み合わせは多義性である。入力予測のために言語学データを用いるシステムは、ユーザーがこのような多義性を容易に解決することを可能にする。言語学データはまた、縮小キーボードを用いて入力されている個々のキーストロークを明確にするために用いられ得る。
テキスト入力および処理のために用いられる言語学データの記憶のための現存する解決法は、ハッシュテーブル、ツリー、言語学データベースまたは平易ワードリストに依存する。これら言語学データフォーマットによってカバーされるワードの数は、記憶されたワードに制限される。
現存するテキスト入力予測システムで用いられている言語学データは、代表的には、コーパスとして知られ、テキストまたはスピーチのいずれかである、言語の集団から派生する。コーパスは、言語の特徴を確立するための言語の分析、特定の状況における言語の使用に関するヒトの挙動の分析、システムを特定の言語学環境にその挙動を適合させるために訓練すること、言語に関する理論を経験的に確証すること、または言語処理技法または適用のために試験セットを提供しそれが実際にどのように働くのかを確立することのような使用を有している。数億のワードの国のコーパスがあり、そしてまた、特定の目的のために構築されているコーパスがある。目的特異的なコーパスの例は、話された命令を認識するボイス作動制御システムのシミュレーションに対して車ドライバーが話すことを記録ことから構成されるものがある。国のコーパスの例は、英語の言語である。
(要約)
簡潔言語学データを生成するためのシステムが提供される。このシステムは、コーパスおよび言語学データアナライザを備える。この言語学データアナライザは、コーパス中に出現するワードの頻度を算出する。この言語学データアナライザはまた、ワード中に特有の各文字を文字インデックスにマップし、そしてこのワード中の各文字を、この文字がマップされる文字インデックスで置換する。この言語学データアナライザはまた、これらワード中に出現する文字のシークエンスを置換インデックスにマップし、そして各ワード中の文字の各シークエンスをこれら文字のシークエンスがマップされる置換インデックスで置換する。言語学データアナライザはまた、これらワードを、各グループが共通のプレフックスで開始するワードを含むグループに整列し、そして各プレフィックスを、このプレフィックスで開始するワードのグループに対する位置情報にマップする。上記簡潔言語学データは、特有文字、文字インデックス、置換インデックス、位置情報、ワードのグループおよびワードの頻度を含む、システム。
複数のワードのための簡潔言語学データ構造もまた提供される。これらワードはグループに組織化され、各グループが共通プレフィックスを有するワードを含む。該簡潔言語学このデータ構造は、該ワード中の各特有の文字から構成されるアルファベット、該アルファベット中の各文字を文字インデックスにマップするための文字マッピングテーブル、該ワードからの文字のシークエンスを置換インデックスにマップするための置換テーブル、および該ワードを記憶するための複数のワード定義テーブルから構成される。各ワード定義テーブルは、該グループの1つに含まれるワードの各々を記憶する。この簡潔言語学データ構造は、該ワード定義テーブルを位置決めするためのオフセットテーブルをさらに備える。上記共通プレフィックスの各々について、このオフセットテーブルは、上記共通プレフィックスで開始するワード定義テーブルの位置を含む。上記ワード定義テーブル中ワードの各々は、該ワード中の各文字を該文字が該文字マッピングテーブルによりマップされる該文字インデックスで置換されることにより、かつ該ワード中に出現する該置換テーブルからの文字の各シークエンスを、文字の該シークエンスがマップされる該置換インデックスで該置換テーブルによって置換することによりコード化される。各ワード定義テーブル中のワードに対する該共通プレフィックスは除去され。
簡潔言語学データを生成する方法もまた提供される。この方法は、コーパス中で最も頻繁に生じる複数ワードを含むワードリストを生成する工程で始まる。この方法では、該ワードリスト中のワードをアルファベットでソートする工程が続く。この方法では、該ワード中の文字を、上記文字マッピングテーブル中に含まれる関連する文字インデックスで置換することにより上記ワードリスト中のワードをコード化するための文字マッピングテーブルを生成する工程が続く。この方法では、該ワードリスト中のワードをグループに分離する工程が続き、ここで、各グループにおけるワードが共通プレフィックスを有している。この方法では、上記ワードを、上記グループ中のワード中の文字シークエンスを置換テーブルによって文字シークエンスにマップされる置換インデックスで置換することにより、上記グループにコード化するための置換テーブルを生成する工程が続く。この方法では、上記文字マッピングテーブルおよび置換テーブルを用いて、上記グループ中の上記ワードをバイトシークエンスにコード化する工程が続く。この方法では、ワード定義テーブルを生成する工程、およびこのワード定義テーブル中にコード化されたワードを記憶する工程が続く。この方法では、コード化されたワードのグループを位置決めするためのオフセットテーブルを生成する工程が続く。この方法は、上記文字マッピングテーブル、上記置換テーブル、上記ワード定義テーブル、および上記オフセットテーブルをソートする工程で終了する。
図1は、言語学データがテキスト入力予測のために用いられるシステムのブロック図である。 図2は、簡潔言語学データを生成するシステムのブロック図である。 図3は、ソースファイルをフィルターにかける方法を示すフローチャートである。 図4は、ワード頻度算出の方法を示すフローチャートである。 図5は、簡潔言語学データを生成する方法を示すフローチャートである。 図6は、簡潔言語学データのフォーマットのブロック図である。 図7は、複合ワード定義テーブルのブロック図である。 図8は、頻度改変の方法を示すフローチャートである。 図9は、屈折分析の方法を示すフローチャートである。
(詳細な説明)
統計学的文字置換でワードプレフィックス(接頭語)を索引することに基づく、簡潔言語学データを生成および用いるシステムおよび方法が提供される。このシステムが言語学データを記憶する方法は、最小のメモリー使用法を必要とし、そして特定されたプレフックスおよびそれらの関連する頻度で始まるワードへの非常に迅速なアクセスを提供する。
図1は、言語学データがテキスト入力予測のための用いられるシステムのブロック図である。このシステムは、言語学データ100、テキスト入力論理ユニット102、およびユーザーインターフェース103を含む。このシステムは、テキスト入力を必要とする任意の計算デバイス上で履行され得るが、モバイル通信デバイスのような、遅いCPUおよび顕著なRAMおよびROM制限をもつ埋め込みデバイスに特に適している。
ユーザーインターフェース103は、ユーザーがこのシステムにテキストを入力することを可能にするテキスト入力デバイス104を含む。このテキスト入力デバイス104は、テキスト入力を可能にする、QWERTY、AZERTYまたはDvorakキーボード、または縮小キーボードのような任意のデバイスである。このユーザーインターフェース103はまた、テキストをユーザーに表示するテキスト出力デバイス106を含む。テキスト出力デバイス106は、モバイルデバイスまたはコンピューターのスクリーン上に提示されるグラフィックコンポーネントであり得る。
言語学データ100は、統計学的文字置換でワードプレフックスを索引することに基づき、そして以下により詳細に記載される。
テキスト入力論理ユニット102は、例えば、モバイルデバイス中に含まれているコンピュータープロセッサによって実行されるコンピューター指示によって履行され得る。
このテキスト入力論理ユニット102は、テキスト入力デバイス104を用いてユーザーにより入力されたテキストを受ける。このテキスト入力論理ユニット102は、次いで、テキスト出力デバイス106を用いてユーザーに、ユーザーが入力を開始したワードの予測を提示する。これらの予測は、ユーザーによってテキストとして入力されるプレフィックスで開始する最も可能性の高い全体ワードであり、そして言語学データ100からのテキスト入力論理ユニット102によって検索される。次いで、ユーザーは、テキスト入力デバイス104を用いて予測の1つを選択し得る。
このテキスト入力デバイス104が縮小キーボードである場合、テキスト入力論理ユニット102はまた、縮小キーボードから受ける個々のキーストロークを明確にし、ユーザーに、言語学データ100中のワードに基づく最も可能性の高い文字を提示する。
図2は、簡潔言語学データを生成するシステムのブロック図である。言語学データアナライザ202は、以下に詳細に説明される言語学データ204を、英語またはフランス語のような国の言語のコーパス200を分析することにより生成する。この言語学データアナライザ202は、コーパス200中に出現するワードの頻度を算出し、ワード中の各特有の文字を文字インデックスにマップし、ワード中の文字をこれら文字がマップされる文字インデックスで置換し、ワード中に出現する文字のシークエンスを置換インデックスにマップし、ワード中の文字のシークエンスを、文字のシークエンスがマップされる置換インデックスで置換し、これらワードを、各グループが共通プレフィックスで開始するワードを含むグループに整列し、そして各プレフィックスを、このプレフィックスで開始するワードのグループに位置情報をマップする。
上記言語学データアナライザ202によりコーパス200の分析は、コーパス200中に出現する特有のワードの絶対頻度の算出を含む。この頻度の算出およびワードリストの作製のための方法は、図3および図4に説明される。一旦、ワードリストがコーパス200から得られると、このワードリストを用いて言語学データ204を生成する。この言語学データ204は、この特有文字、文字インデックス、置換インデックス、位置情報、これらワードのグループおよびこれらワードの頻度を含む。言語学データ204を生成する方法は図5に説明される。言語学データアナライザ202によって生成される言語学データ204は、図6に示される。
コーパス200中に見出されるワードの特定のグループの絶対頻度は、代替的に、このグループを異なるファイルに分離すること、およびこのファイルにカスタム重みを割り当てることにより改変され得る。このグループは、場所の名前または医療用語のようなドメイン特異的であるワードから構成され得、そして、ユーザー選択に基づき、得られるワードリスト中に含まれなければならない。結果として、ワードのこのグループに対する頻度の絶対値は、このグループに割り当てられた重みを用いて改変され得、その結果、ワードのこのグループは、それらがそうでなければ有するであろうと異なる頻度を有する。
図3は、ソースファイルをフィルターにかける方法を示すフローチャートである。ソースファイルは、コーパスを備えるテキストを含む。このフィルターにかける方法は、コーパス中のワードの頻度を算出するで最初の工程である。
この方法は、コンテンツのソースファイルを読み取る工程300で始まる。ソースファイルが読まれた後、この方法では、プロパティファイル中に記憶され得るユーザー選択に従って、ファイルからテキストの置換を実施する工程302が続く。このユーザー選択は、無効または所望されない文字を置換するために、テキストに適用される規則式を特定する。例えば、ユーザーは、ワードリスト中に含まれる通り名(street name)を欲しないかも知れないか、またはイタリアのユーザーは、非英字が続く「e」を
Figure 2009266244
で置換することを欲するかも知れず、またはユーザーは、最後の文章が著者名のみを含むことが期待されるとき、テキストの最後の文章をスキップすることを欲するかも知れない。
この方法では、次に、ソースファイルのファイル拡張子により示されるタイプに対応するフィルターを得る工程304が続く。例えば、ファイル拡張子が「.xml」であれば、このファイルは、eXtensive Markup Langauage(XML)ドキュメントを含むと推定され、そこでXMLフィルターが得られる。同様に、ファイル拡張子が「.html」である場合、そのときは、Hyper Text Markup
Language(HTML)フィルターが得られ、そしてファイル拡張子が「.txt」である場合、そのときは、テキストフィルターが得られる。その他のファイル拡張子もまた、さらなるフィルターにマップされ得る。
工程304で得られたフィルターは、次いで、コーパスの一部ではなく、むしろフォーマット定義の一部であるワードを取り除くために工程306で適用される。例えば、XMLフィルターは、ファイルから読まれたテキストからマークアップタグを除去する。
この方法では、工程306から得られるデータからワード0抽出する工程308、および工程310でフィルターにかけられたワードファイルにこの抽出されたワードを書き込むことが続く。
工程312で、フィルターにかけるより多くのソースファイルがあることが決定される場合、そのときは、この方法は、工程300で継続される。そうでなければ、この方法は、工程314で終了する。この方法が終了するとき、コーパスを備えるすべてのソースファイルはフィルターにかけられている。
図4は、ワード頻度算出の方法を示すフローチャートである。この方法は、図3に示される方法によって生成されたフィルターにかけられたワードファイルを利用する。このフィルターにかけられたワードファイルからのワードは、ワードツリー中にロードされる。このワードツリーは、最小のメモリーを用いて特有のワードおよびそれらの頻度を記憶するために効率的な構造である。このツリーは、フィルターにかけられたワードファイル中に頻繁に生じるワードが、ツリーの内部ノード中に位置決めされ、そしてより少ない頻度で生じるワードがツリーの葉に位置決めされるように組織化されている。このツリーの各ノードは、特有のワードおよびこのワードの絶対頻度を含む。ワードは、このツリーがバランスのとれたままであることを確実にする様式で、ツリーかに付加またはそれから削除される。
この方法は、フィルターにかけられたワードのファイルを読む工程400で開始する。この方法では、このフィルターにかけられたワードのファイルからワードを読み取る工程402、および、このワードがワードツリー中に既に存在しない場合、それをワードツリーに付加することが続く。このツリー中のワードと関連する頻度は増分される。
この方法では工程404が続き、ツリー中のノードの数が、プロパティファイル中で特定され得る予備定義された限度を超えるか否かが決定され、次いで、この方法では工程408が続く。そうでなければ、この方法では工程406が続く。
工程406では、ワードツリーが、それがもはやサイズ限度を超えないように収縮される。このツリーは、葉ノード中に位置決めされている最も少ない頻度で用いられるワードをツリーから削除することにより収縮される。次いで、この方法では、工程408が続く。
工程408は、上記フィルターにかけられたワードのファイル中にフィルターにかけられた任意のワードからあるか否かを決定する。それが存在する場合、そのときは、この方法では、工程402が続く。フィルターにかけられたワードが残っていない場合、そのときは、この方法では、工程410が続く。
工程410は、処理するための任意の残存するフィルターにかけられたワードファイルが存在するか否かを決定する。存在する場合、そのとき、この方法では、工程400が続く。そうでなければ、この方法では、工程412が続く。
工程412では、ワードツリーに付加されたワードおよびそれらの頻度を記憶するワードリストが出力ファイルに書き込まれる。
図4に示される方法は、非常に大きなコーポラでさえ、単一のコンピューターによって処理されることを可能にする。得られるワードリストは、コーパス中の最も頻繁に生じるワードの予備定義された限度数まで、およびこのワードに関連する絶対頻度を含む。
図5は、簡潔言語学データを生成する方法を示すフローチャートである。この方法は、簡潔言語学データを生成するためのワード頻度情報を含むワードリストを使用し、そしてワードプレフィックスを索引すること、および統計学的文字置換を含む。
この方法は、工程500で開始し、ここで、ワードリストが、図4に示される方法のようなワード頻度算出の方法により生成された出力ファイルから読み取られる。ワードリスト中のワードは、次いで、アルファベット順で記憶される。
この方法では、ワードリスト中の絶対頻度を規格化する工程501が続く。各絶対頻度は、相対頻度によって置換される。絶対頻度は、ユーザーによって特定され得る関数を適用することにより相対頻度にマップされる。可能な関数は、放物線、ガウシアン、双曲線または線形分布を含む。
この方法では、文字マッピングテーブルを生成する工程502が続く。この文字マッピングテーブルは、この方法の次の工程でワードをコード化するために用いられる。コード化が実施されるとき、当初のワード中の文字は、文字マッピングテーブル中のこれら文字の文字インデックスで置換される。アルファベット言語のアルファベットのサイズは、256よりかなり少ないので、単一バイトが、ユニコード文字データを記憶するために十分である。例えば、ユニコード文字0×3600は、文字マッピングテーブル中のインデックス10で位置決めされる場合、10として表現され得る。この文字マッピングテーブル中の文字の位置は、重要ではなく、そしてこれら文字が所定のワードリスト中に出現する順序に基づく。
この方法では、これらワードリスト中のワードをグループに分割する工程504が続く。各グループ中のワードは、所定長さの共通プレフィックスを有し、そして頻度によりソートされる。ワードは、最初、2文字長さであるプレフィックスによりグループ分けされる。同じ2文字プレフィックスで開始するワードが256を超えて存在する場合、そのときは、さらなる分離がより長いプレフィックスで実施される。例えば、ワードリストが、プレフィックス「co」で520ワードを含む場合、そのときは、このグループは、プレフィックス「com」、「con」などを用いてグループに分割される。
この方法では、ワードの各グループに対する頻度セットを生成する工程506が続く。頻度情報を記憶するために必要なスペースの量を低減するために、各グループ中のワードの最大頻度のみが完全な正確さで保持される。その他の各ワードの頻度は、そのグループ内の最大頻度のワードのパーセントとして保持される。この技法は、正確さのある程度の損失を引き起こすが、テキスト入力予測の目的には受容可能であり、そして頻度情報のためのより小さな記憶要求を生じる。
この方法では工程508が続く。ワードリスト中にワードを記憶するために必要なデータの量を低減するために、これらワード中で最も頻繁に生じる文字シークエンスが置換インデックスで置換される。n数の文字のシークエンスであるnグラムの置換は、多くの文字が単一文字により表現されることを可能にする。この情報は、置換テーブル中に記憶される。この置換テーブルは、各nグラムが置換インデックスにマップされるように索引が付けられる。次いで、これらワードは、各nグラムを、あるワード中にnグラムが出現する毎に置換テーブル中のその置換インデックスで置換することにより簡潔にされ得る。
この方法では、ワードグループを、上記のような文字マッピングテーブルおよび置換テーブルを用いて、バイトシークエンスにコード化する工程510が続く。ワードをグループに収集するために用いたプレフィックスは、これらワード自身から除かれる。その結果、各ワードは、そのプレフィックスが与えられると、当初のワードを見出すために必要なすべてのデータを含むバイトシークエンスによって表現される。
この方法では、ワード定義テーブルを生成する工程511が続く。このワード定義テーブルは、工程506で算出された頻度セットおよび510で生成されたコード化ワードを記憶する。
この方法では、オフセットテーブルを生成する工程512が続く。このオフセットテーブルは、ワードのグループを表現するバイトシークエンスを含む。このテーブルは、特定のワードグループを表現するバイトシークエンスの開始の識別を可能にする。このオフセットテーブルは、共通のプレフィックスで開始する特定のグループのためのコード化ワードを含むバイト配列を位置決めするために用いられる。
この方法は、工程514で終わる。この工程では、上記方法から得られる言語学データが、作製されたテーブル中に記憶されている。これらデータテーブルは、文字マッピングデータ、置換テーブル、オフセットテーブルおよびワード定義テーブルを含み、出力ファイル中に記憶される。
簡潔言語学データを生成する方法の間に集められた統計学的データは、必要に応じて、工程514で記憶され得る。この統計学的データは、置換テーブル中に記憶されたnグラムが言語学データ中のワード中に出現する頻度、言語学データ中のワードの数、ワードリストおよびワードリストが生成されたコーパス、および言語学データ中のワードの数、ワードリストおよびコーパス間の比率を含む。
図6は、簡潔言語学データのフォーマットのブロック図である。このデータフォーマットの主要な目的は、データを生成および解釈するために必要なメモリーの使用およびコンピューター指令の数を最小にしながら、この言語学データの解釈の単純さを保存することである。フォーマット中の言語学データは、言語学データアナライザ202(図2)によって生成され、そして図5によって示される方法の出力である。
このフォーマットは、言語学データがワード頻度情報ありまたはなしで記憶されることを可能にする。この言語学データが頻度情報を含むとき、以下に説明される学習能力が履行され得、そしてこのデータは、縮小キーボードで入れられた入力を予測するために用いられ得る。頻度情報が含められないとき、そのときは、3文字長より少ないワードは含められない。なぜなら、それらは、ユーザー入力を予測するために有用ではないからである。
このフォーマットは、多数のテーブルが続くヘッダー602を含むコンピューターファイルの構造を定義する。
ヘッダー602は、ファイルのフォーマットを識別する数であるマジックナンバーを含むシグネチャーを含む。ヘッダー602はまた、ファイル中に含まれた言語学データのバージョンおよび優先度を特定する情報を含む。優先度情報は、言語学データを含む複数ファイルがテキスト入力論理ユニットにより用いられるとき、言語学データに相対的重要性を割り当てるために用いられる。ヘッダー602はまた、ファイルが頻度情報を含むか否かを示す。
ヘッダー602には、インデックステーブル604が続く。このインデックステーブル604は、以下に定義される残りのテーブルへのファイル中のインデックスを含み、そしてまた、付加されるべきさらなるテーブルを許容する。テーブルは、インデックステーブル604中のテーブルのエントリーで見出されるインデックス情報を用いて位置決めされる。
インデックステーブル604には、名前テーブル606が続く。この名前テーブル606は、上記ワードリストを識別する名前を含む。
この名前テーブル606には、文字マッピングテーブル608が続く。
この文字マッピングテーブル608は、このワードリストのために用いられるアルファベットを含み、そして文字インデックスにアルファベット中の各文字をマップする。このアルファベットは、ワードリスト中のワードで用いられる各特有の文字からなる。
この文字マッピングテーブル608には、置換テーブル610が続く。この置換テーブル610は、2グラム(bi−gram)置換テーブルを含み、3グラム、4グラムなどのような定義されるより高いオーダーのnグラムの各グループのためのテーブルが続く。各nグラムは、置換テーブル610により置換インデックスにマップされる。
置換テーブル610には、オフセットテーブル612が続く。このテーブルは、以下に説明されるように、位置決めされるべきワード定義テーブル中のワードの共通プレフィックスに基づき、ワード定義を位置決めするために用いられる。アルファベット中の2文字の各組み合わせについて、このテーブルは、文字のその組み合わせで開始するワードを含むワード定義テーブルのファイル中のオフセットを含む。空のグループについては、このオフセットは、次の空でないオフセットに等しい。各オフセットはまた、以下に説明されるように、ファイル中のオフセットに位置するワード定義テーブルが単純であるか、または複合であるかを特定する。
2文字シークエンスが与えられると、このオフセットは、式:((アルファベット中の最初の文字の位置*アルファベット中の文字の数)+アルファベット中の第2番目の文字の位置)によって定義されるオフセットテーブル中のインデックスに位置決めされる。例えば、アルファベットが英語である場合、そのときは、アルファベットの数は26であり、そこで、オフセットテーブル中の「ab」のインデックスは、((0*26)+1)であり、これは1に等しい。これ故、オフセットテーブル612のサイズは、アルファベットの長さに基づく。
屈折テーブルは、示されていないが、必要に応じて、言語学データ中に含まれ得る。この屈折テーブルは、ワード定義において用いられ得るワードサフックスを記憶する。屈折分析の方法は、図9に示される。
言語学データはまた、ワード定義テーブル614を含む。ワード定義テーブルは、単一のワードグループからのワードおよびこれらワードに関連する頻度を記憶し、そして単純または複合のいずれかであり得る。単純テーブルは、2文字プレフィックスのみによりグループ分けされるワードを定義するために用いられる。複合テーブルは、より長い長さのプレフィックスによりグループ分けされるワードを定義するために用いられる。
定義テーブル614中のワードは、文字マッピングテーブル608および置換テーブル610を用いてコード化される。ワード中の文字は、文字マッピングテーブル608からの対応する文字インデックスで置換され、そして置換テーブル610中にあるnグラムは、ワード中で置換テーブル610中のそれらの対応する置換インデックスで置換される。オフセットテーブル612は、アルファベット中の各2グラムプレフィックスを、そのプレフィックスで開始するワードを定義するファイル中の位置に特有にマップするので、これらプレフィックスは、保持される必要はなく、そしてそれ故、これらのワード定義から除去される。
大文字ワードは、必要に応じて、付加的な特別の文字でマークされ得る。この特別の文字は、文字マッピングテーブル608中に記憶され、アルファベットを、ワードリスト中のワードの言語中で用いられない付加的な文字で拡張する。
単純ワード定義テーブルは、グループのコード化ワード、およびこれらワードに関連する頻度を含む。これら頻度は、これら頻度を、それらの値が所定の範囲内にあるように変換する規格化関数を適用することにより規格化される。グループ中のワードの最大頻度ののみが、完全な正確さでテーブル中に記憶される。すべてのその他の頻度は、この最大頻度のパーセントとして記憶される。コード化されたワードは、頻度によって記憶される。しかし、以下に説明されるように、学習機能が適用される場合、そのときは、初期ソーティングはもはや有効ではなく、そしてコード化されたワードは、再ソートされる必要があり得る。
当業者によって認識されるように、文字は、ビットのシークエンスによりコンピューターシステム中で表現され得る。ワード定義テーブル614中のワードは、最も重要なビットセットをもつ文字によって分離される。文字がその最も重要なビットセットを有する場合、そのときは、それは、ワード中の最後の文字である。次に、この文字は、その最も重要なビットがこの文字の値を決定する目的のためにセットされないように処理され、その結果、この最も重要なビットは、文字の値に影響しない。
図7は、複合ワード定義テーブルのブロック図である。この複合ワード定義テーブルは、ローカルワード定義テーブル708を含み、その各々が上記に記載のような単純または複合ワード定義テーブルである点で帰納的である。
このローカルワード定義ファイル708は、より高いオーダーのnグラムプレフィックスによってグループ分けされるワードを定義する。このローカルワード定義テーブル708の各々は、共通プレフィックスを有するワード定義テーブルにより記憶されるワードを記憶し、ここで、このローカルワード定義テーブル708の各々におけるワードに対するこの共通プレフィックスは、ワード定義テーブル中のワードに対する共通プレフィックスより長い。ローカルワード定義テーブル708中のワードの共通プレフィックスは、除去される。
例えば、ワードグループがプレフィックス「co」で開始されるワードを含み、そしてそのプレフィックスで開始する256以上のワードがある場合、そのときは、「co」プレフィックスワードに対する複合ワード定義テーブルは、「com」、「con」などで開始するワードを定義するローカルワード定義テーブル708を含む。「com」プレフィックスのワードに対するテーブルは、「comm」および「comp」で開始するワードのためのローカルワード定義テーブル708をさらに含む複合ワード定義テーブルであり得、その一方、「con」プレフィックスのワードに対するテーブルは、「con」で開始するワードのみを含む定義テーブルであり得る。
ローカルワード定義テーブル708を含むことに加え、各ワード定義テーブルは、ローカルオフセットテーブル706を含み、これは、ローカルワード定義テーブル708の各々を位置決めするために用いられる。各オフセットはまた、オフセットによって言及されるテーブルが複合または単純ワード定義テーブルであるか否かを示す。
各複合ワード定義テーブルはまた、ローカル文字マッピングテーブル704を含む。このテーブルは、それは、ローカルワード定義テーブル708中にあるワード中の文字のみが含まれることを除き、文字マッピングテーブル608(図6)と機能的には同一である。このローカル文字マッピングテーブル704は、ローカルワード定義テーブル708中のワード中の各文字を、ローカル文字インデックスにマップする。単純ローカルワード定義テーブル中のワードは、ワード中の文字を、ローカル文字インデックスで置換することによりコード化される。
複合ワード定義テーブルはまた、ホットワードテーブル700および例外テーブル702を含む。ホットワードは、複合ワード定義テーブル中に含まれるグループ中の最も高い頻度に関連するワードである。このホットワードテーブル700は、単純ワード定義テーブルであるローカルワード定義テーブル708中に位置決めされるホットワードのインデックスを含む。例外テーブル702は、複合ワード定義テーブルであるローカルワード定義テーブル708中に位置決めされるホットワードを記憶する。ホットワードは、ローカルワード定義テーブル708のサーチを実施する代わりに、このホットワードテーブル700および例外テーブル702を用いて迅速に検索され得、ホットワードを見出す。
上記に記載の言語学データのフォーマットは、最小量のメモリーを用いて、非常に迅速にワード予測の決定を可能にする。ユーザーが、QWERTYのような、特有のキーまたはキー組み合わせに文字をマップするテキスト入力デバイスを用いてワードプレフィックスを入力するとき、テキスト入力論理ユニットは、最も高い頻度を有するプレフィックスで開始する言語学データ中のワードを検索し、そしてユーザーに予測を提示する。ユーザーが、縮小キーボードを用いてワードをタイプすることを開始するとき、ワードプレフィックスはあいまいである。なぜなら、縮小キーボード上の各キーは、複数の文字にマップされるからである。この場合、テキスト入力論理ユニットは、ユーザーにより入力されたプレフィックスに対応する文字の任意の組み合わせで開始する言語学データから予測を検索する。
上記フォーマットはまた、個々のユーザーのテキスト入力習性に一致するために、ワードの頻度の容易な改変を可能にする。ワード予測代替物が提示されるとき、彼または彼女が行う入力選択によって確認されるユーザーの習性は、テキスト入力論理ユニットによって学習され、そして以下に説明されるようなテーブル中に記憶される。
学習能力は、ワードについての頻度情報の改変、および言語学データへのワードの付加を含む。両方の操作は、ワードおよび対応する頻度情報を学習ワードリストに付加する類似のプロセスを基にする。この学習ワードリストは、頻度改変のためのテーブルおよび新規ワードの付加のためのテーブルを含む。
図8は、頻度改変の方法を示すフローチャートである。この方法は、任意の学習データか集められる前に,上記のようにコンパイルされた言語学データである、基礎言語学データが、一般に、正確な頻度情報を有するという仮定の下に進行する。従って、この方法は、頻度情報の限られた改変を許容する。
この方法は、ユーザー選択ワード800を学習ワードリストに付加する工程802で開始する。ユーザー選択ワード800は、ユーザーによって、ユーザーにより入力されたワードプレフィックスで開始する提供された予測ワードのリストから選択されるワードである。ユーザーは、テキスト入力デバイスを用いて予測を選択する。選択されたワードは、学習ワードリストに付加される。
この方法では、ユーザーに提示された予測リスト中のワードの最大頻度をもつワードを得る工程804が続く。予測リスト中のワードおよびそれらの対応する頻度は、ベース言語学データ中のワード定義テーブルから、または学習ワードリストから得られたものであり得る。工程806で、最大頻度をもつワードが、ワード定義テーブルから得られたことが決定される場合、そのときは、この方法では、工程808が続き、そしてユーザー選択されたワード800は、最大頻度プラス1に等しい頻度を割り当てられる。
工程806で、最大頻度をもつワードが、ワード定義テーブルから得られず、むしろ、学習ワードリストから得られたことが決定される場合、そのときは、この方法では、工程810が続き、そしてユーザー選択されたワード800には、最大頻度に等しい頻度が割り当てられる。次いで、この方法は、学習ワードリストから工程804で得られた最大頻度をもつワードを削除する工程812で終了する。
以下の段落は、図8に示される方法の例である。各例は、ユーザーが3文字プレフィックスを入力すると仮定する。
「beg」の3文字プレフィックス、そして、予測が、3024の頻度を有する「began」、2950の頻度を有する「begin」、2880の頻度を有する「begining」、および2000の頻度を有する「begins」であり、すべてのワードがベース言語学データ中のワード定義テーブルから得られるとすると、ユーザーがワード「begin」を選択する場合、そのときは、ワード「begin」が、頻度3025で学習ワードリストに添加される。
同じ3文字プレフィックス「beg」、そして、予測が、3025の頻度を有する「begin」、3024の頻度を有する「began」、2880の頻度を有する「beginning」、および2000の頻度を有する「begins」であり、ここで「begin」が学習ワードリストから得られるとすると、ユーザーが「began」を選択する場合、そのときは、ワード「began」が、学習ワードリストに頻度3025で付加され、そしてワード「begin」が学習ワードリストから削除される。
以下は、図8の方法の例であり、ここでは、3文字プレフィックスが縮小キーボードを用いて入力される。この縮小キーボードは、「a」、「b」または「c」を入力するためのキー、「n」または「o」を入力するためのキー、および「w」、「x」、または「y」を入力するためのキーを含む。この例では、ユーザーが、「a/b/c」キー、次いで、「n/o」キー、そして最後に「w/x/y」キーを押すことによって3文字プレフィックスを入力すると仮定される。3024の頻度を有する「any」、2950の頻度を有する「boy」、2880の頻度を有する「box」、2000の頻度を有する「bow」、1890の頻度を有する「cow」、および1002の頻度を有する「cox」が与えられ、ここで、すべてのワードがベース言語学データ中のワード定義テーブルから得られる場合、ユーザーが「boy」を選択すると、そのときは、ワード「boy」が、ワード学習リストに頻度3025で付加される。
学習ワードリストは、アップデートされた頻度をもつワードを含むアップデートされた頻度テーブル、および新規ワードを含む新規ワードテーブルを含む。これらテーブルの両方は、ベース言語学データ中のように、ベース言語学データによって用いられるようなのと同じ文字マッピング608(図6)および置換テーブル610(図6)を用いてコード化されるワードを含む。各学習ワードリストテーブルはまた、テーブル中のワードの開始のためのインデックス、テーブル中のワードに関連する頻度情報、そしてアルファベット順にソートされたワードの順序を特定するソートインデックスを含む。各テーブルはまた、テーブルが、アップデートされた頻度または新規ワードを含むか否かを示すフラッグを含む。この学習ワードリストテーブルは、次々に、最初に出現するアップデートされた頻度テーブルとともに連続的に追従する。
学習ワードリストテーブルが、最大定義長さに到達する場合、そのときは、テーブル中の新規なエントリーのための余地を作製するために、最も古いワードがテーブルから削除される。
学習ワードリストテーブルにワードを付加すること、およびそれからワードを削除することは、アップデートされたテーブルを表現するバイトシークエンスを生成すること、そして同時に、出力ストリーム中にこのバイトシークエンスを書き込むことにより実施される。アップデートが終了した後、このアップデートされたデータは、再読み込みされる。出力ストリーム中への書き込みのプロセスは、ワードが学習ワードリストに付加または削除される毎に生じる。
学習ワードリストテーブルの1つにワードを付加または削除するために、文字マッピングテーブル608(図6)中のアルファベットは、それが、付加されるべきワード中に出現する文字を含まない場合にアップデートされる。次いで、付加されるべきワードは、文字マッピングテーブル608(図6)および置換テーブル(図6)を用いてコード化され、そして新規ワードテーブルの先頭中に挿入される。最後に、学習ワードリストテーブルの頻度およびソートインデックスがアップデートされる。
図9は、屈折分析の方法を示すフローチャートである。簡潔言語学データを生成するシステムおよび方法は、代わりに、屈折分析の方法を含み得、そこでは、最小の特定された頻度より高い頻度を有するワードのリストおよび屈折テーブルの両方が生成される。この屈折テーブルは、統計学的サフィックス分析を基に生成され、そしてコーパスの言語中にワード生成のための言語学規則をカプセル化する。この屈折テーブルは、屈折テーブル中に記憶された基礎ワード形態を用いて1より多いワードを生成することを可能にし、ワードリストが簡潔なままでありながら、より多くのワードが言語学データによって変換されることを確実にする。屈折テーブルは、必要に応じて、図6に示される言語学データフォーマット中に含められ得る。
この方法は、ワードの絶対頻度を基に、ワードリスト中で最も頻繁に起こるワードの構成された数を見出す工程900で開始する。
この方法では、頻繁に生じるワードのサフィックスを見出す工程901が続く。このサフィックスを見出す工程は、6文字長であるサフィックスで開始し、そして2文字長であるサフィックスで終わる減少する長さのサフィックスの反復サーチに基づく。これらのサフィックスは、所定の言語の文法中に存在する相等物に常に一致するわけではなく、むしろ、このサフィックスを見出すことは、ワードリスト中のサフィックスの出現の数に基づく。
この方法では、先の工程で見出されたサフィックスで屈折テーブルをアップデートする工程902が続く。この最初の時の工程902が実施され、屈折テーブルは、それがアップデートされる前に生成される。
工程903では、言語学データのサイズが構成された最大サイズより小さい場合、そのときは、この方法は、工程901に続く。そうでなければ、この方法は、屈折テーブル中に含まれるサフィックスなくして、ワードリスト中にワードのリストを生成する工程904で終了する。
サフィックスなしの屈折テーブルおよびワードのリストは、次いで、図5を参照して上記で説明したようにコード化され得る。屈折分析の方法が用いられるとき、図6に示されるような得られる簡潔言語学データはまた、屈折テーブルを含む。ワード定義テーブル614(図6)中のワードは、そのときは、屈折テーブル中に含まれるサフィックスを含まず、むしろ、屈折テーブル中のサフィックスへの参照を含む。記憶された各サフィックスに対する屈折テーブルを用いることにより節約されたスペースは、サフィックスの長さにより乗じられるサフィックスの出現の数である。
上記の説明は、本発明の1つの例に関する。多くの改変が、当業者に明らかであり、そしてこのような改変は、本出願の範囲内にある。
例えば、大部分の例で用いられる言語は、英語であるが、提供されるシステムおよび方法は、任意のアルファベット言語について簡潔言語学データを生成する。
さらに、簡潔言語学データを生成および用いるシステムおよび方法は、ソフトウェア、ファームウェア、またはハードウェアとして、またはそれらの組み合わせとして、パーソナルコンピューター、セルラーテレホン、2方向ページャー、任意の種類の装着型コンピューター、プリンター、セットトップボックスおよびテキスト入力および表示を可能にする任意のその他のデバイス上で履行され得る。
また、図3、4、5、8および9に示される方法は、示されるものより少ないか、多いか、または異なる工程を含み得る。例えば、これら方法は、これら方法の最終および中間結果を記憶するためにコンピューターファイルを用いることを記載しているが、これらの結果はまた、RAMまたはFlashメモリーモジュールのようなコンピューターメモリー中に記憶され得る。

Claims (1)

  1. 言語学データを解析することによって簡潔言語学データを生成するシステムであって、本願明細書に記載のシステム。
JP2009145681A 2002-07-03 2009-06-18 簡潔言語学データを生成かつ使用するシステムおよび方法 Pending JP2009266244A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US39390302P 2002-07-03 2002-07-03
US10/289,656 US7269548B2 (en) 2002-07-03 2002-11-07 System and method of creating and using compact linguistic data
CA002411227A CA2411227C (en) 2002-07-03 2002-11-07 System and method of creating and using compact linguistic data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004518331A Division JP4382663B2 (ja) 2002-07-03 2003-07-03 簡潔言語学データを生成かつ使用するシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2009266244A true JP2009266244A (ja) 2009-11-12

Family

ID=30770900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009145681A Pending JP2009266244A (ja) 2002-07-03 2009-06-18 簡潔言語学データを生成かつ使用するシステムおよび方法

Country Status (6)

Country Link
US (3) US7269548B2 (ja)
JP (1) JP2009266244A (ja)
CN (1) CN1703692A (ja)
AT (1) ATE506651T1 (ja)
CA (1) CA2411227C (ja)
HK (1) HK1091668A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE43082E1 (en) 1998-12-10 2012-01-10 Eatoni Ergonomics, Inc. Touch-typable devices based on ambiguous codes and methods to design such devices
US7312726B2 (en) 2004-06-02 2007-12-25 Research In Motion Limited Handheld electronic device with text disambiguation
US7091885B2 (en) * 2004-06-02 2006-08-15 2012244 Ontario Inc. Handheld electronic device with text disambiguation
US7711542B2 (en) * 2004-08-31 2010-05-04 Research In Motion Limited System and method for multilanguage text input in a handheld electronic device
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
FR2878344B1 (fr) * 2004-11-22 2012-12-21 Sionnest Laurent Guyot Dispositif de commandes et d'entree de donnees
KR20070088687A (ko) * 2004-12-01 2007-08-29 화이트스모크 인코포레이션 문서의 질을 자동으로 향상시키는 시스템 및 방법
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7644054B2 (en) 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7529741B2 (en) * 2006-03-06 2009-05-05 Veveo, Inc. Methods and systems for segmenting relative user preferences into fine-grain and coarse-grain collections
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US7539676B2 (en) 2006-04-20 2009-05-26 Veveo, Inc. User interface methods and systems for selecting and presenting content based on relationships between the user and other members of an organization
US7646868B2 (en) * 2006-08-29 2010-01-12 Intel Corporation Method for steganographic cryptography
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US7752193B2 (en) * 2006-09-08 2010-07-06 Guidance Software, Inc. System and method for building and retrieving a full text index
EP2062171A4 (en) 2006-09-14 2010-10-06 Veveo Inc METHOD AND SYSTEMS FOR THE DYNAMIC REORGANIZATION OF SEARCH RESULTS IN HIERARCHICALLY ORGANIZED CLAUSE CLUSTERS
WO2008045690A2 (en) 2006-10-06 2008-04-17 Veveo, Inc. Linear character selection display interface for ambiguous text input
US20080091427A1 (en) * 2006-10-11 2008-04-17 Nokia Corporation Hierarchical word indexes used for efficient N-gram storage
US8078884B2 (en) 2006-11-13 2011-12-13 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
AU2007323859A1 (en) * 2006-11-19 2008-05-29 Rmax, Llc Internet-based computer for mobile and thin client users
US8048363B2 (en) * 2006-11-20 2011-11-01 Kimberly Clark Worldwide, Inc. Container with an in-mold label
US8103499B2 (en) * 2007-03-22 2012-01-24 Tegic Communications, Inc. Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
JP2009245308A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 文書校正支援プログラム、文書校正支援方法および文書校正支援装置
US7663511B2 (en) * 2008-06-18 2010-02-16 Microsoft Corporation Dynamic character encoding
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
CN101533403B (zh) * 2008-11-07 2010-12-01 广东国笔科技股份有限公司 一种派生词生成方法及系统
US20100332215A1 (en) * 2009-06-26 2010-12-30 Nokia Corporation Method and apparatus for converting text input
US20110191330A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior
JP5337308B2 (ja) * 2010-08-06 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
JP5605288B2 (ja) * 2011-03-31 2014-10-15 富士通株式会社 出現マップ生成方法、ファイル抽出方法、出現マップ生成プログラム、ファイル抽出プログラム、出現マップ生成装置、およびファイル抽出装置
JPWO2012150637A1 (ja) * 2011-05-02 2014-07-28 富士通株式会社 抽出方法、情報処理方法、抽出プログラム、情報処理プログラム、抽出装置、および情報処理装置
US8924446B2 (en) 2011-12-29 2014-12-30 Verisign, Inc. Compression of small strings
CN102831224B (zh) * 2012-08-24 2018-09-04 北京百度网讯科技有限公司 一种数据索引库的建立方法、搜索建议生成方法和装置
US9329778B2 (en) 2012-09-07 2016-05-03 International Business Machines Corporation Supplementing a virtual input keyboard
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US10373615B2 (en) 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10381001B2 (en) 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US9805018B1 (en) 2013-03-15 2017-10-31 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
US8788263B1 (en) * 2013-03-15 2014-07-22 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
USD772898S1 (en) 2013-03-15 2016-11-29 H2 & Wf3 Research, Llc Display screen with graphical user interface for a document management system
USD788115S1 (en) 2013-03-15 2017-05-30 H2 & Wf3 Research, Llc. Display screen with graphical user interface for a document management system
EP3069248A4 (en) * 2013-11-14 2017-06-21 3M Innovative Properties Company Systems and methods for obfuscating data using dictionary
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US9799049B2 (en) * 2014-12-15 2017-10-24 Nuance Communications, Inc. Enhancing a message by providing supplemental content in the message
US20160170971A1 (en) * 2014-12-15 2016-06-16 Nuance Communications, Inc. Optimizing a language model based on a topic of correspondence messages
KR20180031291A (ko) * 2016-09-19 2018-03-28 삼성전자주식회사 다중 언어 번역 및 예측 장치 및 방법
US10120860B2 (en) * 2016-12-21 2018-11-06 Intel Corporation Methods and apparatus to identify a count of n-grams appearing in a corpus
US10877998B2 (en) * 2017-07-06 2020-12-29 Durga Turaga Highly atomized segmented and interrogatable data systems (HASIDS)
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
CN110673836B (zh) * 2019-08-22 2023-05-23 创新先进技术有限公司 一种代码补全方法、装置、计算设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58119032A (ja) * 1981-12-31 1983-07-15 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 情報処理システム
JPH07192095A (ja) * 1993-12-27 1995-07-28 Nec Corp 文字列入力装置

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4403303A (en) * 1981-05-15 1983-09-06 Beehive International Terminal configuration manager
US4814746A (en) * 1983-06-01 1989-03-21 International Business Machines Corporation Data compression method
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5126739A (en) * 1989-01-13 1992-06-30 Stac Electronics Data compression apparatus and method
US5146221A (en) * 1989-01-13 1992-09-08 Stac, Inc. Data compression apparatus and method
EP0464191B1 (en) * 1990-01-19 1996-03-27 Hewlett-Packard Limited Compressed data access
US5254990A (en) * 1990-02-26 1993-10-19 Fujitsu Limited Method and apparatus for compression and decompression of data
DE69123660T2 (de) * 1990-08-13 1997-04-17 Fujitsu Ltd Datenkompressionsmethode und Gerät
SG47586A1 (en) * 1990-12-21 1998-04-17 British Telecomm Speech coding
US5325091A (en) * 1992-08-13 1994-06-28 Xerox Corporation Text-compression technique using frequency-ordered array of word-number mappers
US5657423A (en) * 1993-02-22 1997-08-12 Texas Instruments Incorporated Hardware filter circuit and address circuitry for MPEG encoded data
US5509088A (en) * 1993-12-06 1996-04-16 Xerox Corporation Method for converting CCITT compressed data using a balanced tree
US5798721A (en) * 1994-03-14 1998-08-25 Mita Industrial Co., Ltd. Method and apparatus for compressing text data
US5684478A (en) * 1994-12-06 1997-11-04 Cennoid Technologies, Inc. Method and apparatus for adaptive data compression
US5847697A (en) * 1995-01-31 1998-12-08 Fujitsu Limited Single-handed keyboard having keys with multiple characters and character ambiguity resolution logic
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
GB2305746B (en) 1995-09-27 2000-03-29 Canon Res Ct Europe Ltd Data compression apparatus
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
JP3566441B2 (ja) * 1996-01-30 2004-09-15 シャープ株式会社 テキスト圧縮用辞書作成装置
US6169672B1 (en) * 1996-07-03 2001-01-02 Hitachi, Ltd. Power converter with clamping circuit
US5951623A (en) * 1996-08-06 1999-09-14 Reynar; Jeffrey C. Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US6414610B1 (en) * 1997-02-24 2002-07-02 Rodney J Smith Data compression
US6618506B1 (en) * 1997-09-23 2003-09-09 International Business Machines Corporation Method and apparatus for improved compression and decompression
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム
US5896321A (en) * 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer
US6075470A (en) * 1998-02-26 2000-06-13 Research In Motion Limited Block-wise adaptive statistical data compressor
US6646573B1 (en) * 1998-12-04 2003-11-11 America Online, Inc. Reduced keyboard text input system for the Japanese language
US6219731B1 (en) * 1998-12-10 2001-04-17 Eaton: Ergonomics, Inc. Method and apparatus for improved multi-tap text input
GB2347240A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal having a predictive editor application
US6668092B1 (en) * 1999-07-30 2003-12-23 Sun Microsystems, Inc. Memory efficient variable-length encoding/decoding system
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6516305B1 (en) * 2000-01-14 2003-02-04 Microsoft Corporation Automatic inference of models for statistical code compression
EP1213643A1 (en) * 2000-12-05 2002-06-12 Inventec Appliances Corp. Intelligent dictionary input method
US7103534B2 (en) * 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
US6400286B1 (en) * 2001-06-20 2002-06-04 Unisys Corporation Data compression method and apparatus implemented with limited length character tables
US6587057B2 (en) * 2001-07-25 2003-07-01 Quicksilver Technology, Inc. High performance memory efficient variable-length coding decoder
US6653954B2 (en) * 2001-11-07 2003-11-25 International Business Machines Corporation System and method for efficient data compression
US20030182279A1 (en) * 2002-03-19 2003-09-25 Willows Kevin John Progressive prefix input method for data entry
US6657565B2 (en) * 2002-03-21 2003-12-02 International Business Machines Corporation Method and system for improving lossless compression efficiency

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58119032A (ja) * 1981-12-31 1983-07-15 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 情報処理システム
JPH07192095A (ja) * 1993-12-27 1995-07-28 Nec Corp 文字列入力装置

Also Published As

Publication number Publication date
CA2411227C (en) 2007-01-09
HK1091668A1 (en) 2007-01-26
US20040006455A1 (en) 2004-01-08
CN1703692A (zh) 2005-11-30
ATE506651T1 (de) 2011-05-15
US7269548B2 (en) 2007-09-11
CA2411227A1 (en) 2004-01-03
US20100211381A1 (en) 2010-08-19
US7809553B2 (en) 2010-10-05
US20080015844A1 (en) 2008-01-17

Similar Documents

Publication Publication Date Title
CA2411227C (en) System and method of creating and using compact linguistic data
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
KR101130384B1 (ko) 태그 데이터를 갖는 풀-폼 어휘집 및 이를 구축하고이용하는 방법
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US4862408A (en) Paradigm-based morphological text analysis for natural languages
US8099416B2 (en) Generalized language independent index storage system and searching method
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
US20100185438A1 (en) Method of creating a dictionary
JP4493397B2 (ja) テキスト圧縮装置
JP4382663B2 (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
Akagi et al. Grammar index by induced suffix sorting
JP2005242416A (ja) 自然言語文の検索方法および検索装置
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP2000339342A (ja) 文書検索方法および文書検索装置
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH0721212A (ja) 文書処理装置
KR101753395B1 (ko) 음역 방법 및 장치
CN115796194A (zh) 一种基于机器学习的英语翻译系统
CN114528379A (zh) 专利句对语料库检索系统及方法
JP2012048418A (ja) 対訳情報検索装置及びプログラム
JPH02236634A (ja) 知識ベース構築支援方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110727

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110826

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120711