JP4672418B2 - ユーザモデリングによる効率のよい大文字化 - Google Patents
ユーザモデリングによる効率のよい大文字化 Download PDFInfo
- Publication number
- JP4672418B2 JP4672418B2 JP2005110069A JP2005110069A JP4672418B2 JP 4672418 B2 JP4672418 B2 JP 4672418B2 JP 2005110069 A JP2005110069 A JP 2005110069A JP 2005110069 A JP2005110069 A JP 2005110069A JP 4672418 B2 JP4672418 B2 JP 4672418B2
- Authority
- JP
- Japan
- Prior art keywords
- capitalization
- word
- occurrence
- computer
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- E—FIXED CONSTRUCTIONS
- E03—WATER SUPPLY; SEWERAGE
- E03F—SEWERS; CESSPOOLS
- E03F5/00—Sewerage structures
- E03F5/04—Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps
- E03F5/042—Arrangements of means against overflow of water, backing-up from the drain
-
- E—FIXED CONSTRUCTIONS
- E03—WATER SUPPLY; SEWERAGE
- E03F—SEWERS; CESSPOOLS
- E03F5/00—Sewerage structures
- E03F5/04—Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps
- E03F2005/0416—Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps with an odour seal
- E03F2005/0417—Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps with an odour seal in the form of a valve
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Hydrology & Water Resources (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Description
<segment, total_occurrences>
<cap_form1, occurrence_1>
<cap_form2, occurrence_2>
・
<cap_formn, occurrence_n>
のフォーマットを持つことができ、その場合、主エントリは、すべて小文字で書かれたその「セグメント」と、そのセグメントのキャピタライゼーションフォームにかかわらず、その文書中にそのセグメントが出現する合計回数を示す合計出現値からなる。各サブエントリは、「cap_form1」、「cap_form2」、「cap_formn」などの特定のキャピタライゼーションフォームと、その文書中で各キャピタライゼーションフォームが見つかった回数を提供する「occurrence_1」、「occurrence_2」、「occurrence_n」などのカウントからなる。例えば、「state」というワードが、「state」として1回、「State」として2回、「STATE」として4回出現した場合、その主エントリは、「state」という形を合計出現値(total _ occurrences value)7と共に含み、サブエントリの一方は、出現値(occurrence value)2を持つ「State」のものになり、サブエントリのもう一方は出現値4を持つ「STATE」のものになるはずである。
<word, maxlength>
<word, 1>
<word word2, 2>
<word word2B word3, 3>
・
・
・
<word...wordN, maxlength>
上記において、トップエントリ(top entry)は、このワードで始まるすべてのワードのシーケンスの索引(index)であるワードを含み、maxlengthは、その索引下に記憶された最長のワードのシーケンスに含まれるワード数である。トップエントリの下には、それぞれ、ワードのシーケンスの後にそのシーケンス中のワード数を示す数がくる一連のサブエントリがある。索引エントリ(index entry)の下には同じ長さで異なるワードのシーケンスを持つ複数のエントリが含まれる。上記の例では、副ワードエントリの1つは、「word word2」というワードのシーケンスであり、そのシーケンスの長さは「2」であると示されている。
130 システムメモリ
134、144 オペレーティングシステム
135、145 アプリケーションプログラム
136、146 その他のプログラムモジュール
137、147 プログラムデータ
140 取り外し不能不揮発性メモリインターフェイス
150 取り外し可能不揮発性メモリインターフェイス
160 ユーザ入力インターフェイス
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェイス
171 ローカルエリアネットワーク
172 モデム
173 広域ネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェイス
191 モニタ
195 出力周辺インターフェイス
196 プリンタ
197 スピーカ
202 プロセッサ
200 メモリ
208 通信インターフェイス
214 アプリケーション
216 オブジェクトストア
300 ハーベスタ
301 モデルアップデート
302 アプリケーション文書
304 電子メール
306 キャピタライゼーションカウンタ
307 ルールビルダ
308 出現リスト
309 キャピタライゼーションルール
310 プルーニング(枝刈り)
312 キャピタライゼーションモデル
314 入力テキスト
316 キャピタライゼーション訂正
318 キャピタライゼーションを伴うテキスト
Claims (25)
- コンピュータがプロセッサにプログラムモジュールを実行させることによって、テキストを自動的に大文字化するためのキャピタライゼーションモデルをトレーニングする方法であって、前記コンピュータは前記プロセッサに、
ハーベスタが、トレーニング文書が特定のユーザに関連付けられていることを必要とする制限事項を満たす前記トレーニング文書を収集するステップであって、前記トレーニング文書はテキストセグメントを備える、ステップと、
キャピタライゼーションカウンタが、収集した前記トレーニング文書中のキャピタライゼーションフォームの出現カウントを更新するステップであって、
収集した前記トレーニング文書中の前記テキストセグメントごとに、前記テキストセグメントの小文字使用形を含む主エントリが出現リストに存在するかどうかを判定するステップであって、前記出現リストは、前記主エントリと、前記テキストセグメントの前記キャピタライゼーションフォームごとのサブエントリからなる、ステップと、
前記トレーニング文書がユーザに関連付けられる度合いに基づいて出現カウントに重み付けをするステップと、
前記テキストセグメントが大文字を含み、前記テキストセグメントに関する前記主エントリが前記出現リストに存在しないとき、前記主エントリと前記テキストセグメントのキャピタライゼーションフォームに関する前記サブエントリとを前記出現リストに加え、前記重み付けに基づいて前記サブエントリの出現カウントを増加するステップと、
前記テキストセグメントが大文字を含み、前記テキストセグメントに関する主エントリが前記出現リストに存在し、前記テキストセグメントの前記キャピタライゼーションフォームに関する前記サブエントリが前記出現リストに存在しないとき、前記サブエントリを前記出現リストに加え、前記重み付けに基づいて前記サブエントリの出現カウントを増加するステップと
を含む、ステップと、
ルールビルダが、前記出現リストにおいて前記テキストセグメントごとの主エントリに関連付けられた前記サブエントリ及び前記小文字使用形の間で最大の出現カウントを有するサブエントリ又は小文字使用形に対応するキャピタライゼーションフォームを前記キャピタライゼーションモデルに加えるステップであって、
ワード対で構成されるキャピタライゼーションフォームを前記キャピタライゼーションモデルに加えるステップであって、前記ワード対のうちの少なくとも1つのワードは大文字使用を含む、ステップと、
単一ワードで構成されるキャピタライゼーションフォームを前記キャピタライゼーションモデルに加えるステップであって、前記ワード対で構成されるキャピタライゼーションフォームが前記キャピタライゼーションモデルに加えられる場合、前記ワード対における大文字使用を含むワードは、前記単一ワードで構成されるキャピタライゼーションフォームとして前記キャピタライゼーションモデルに加えられない、ステップと
を含む、ステップと、
前記ワード対の各々のワードが大文字使用を含み、前記ワード対で構成されるキャピタライゼーションフォームに含まれるワードの大文字使用の各々が前記単一ワードで構成されるキャピタライゼーションフォームの大文字使用のいずれかと同じである場合、プルーニング要素が、前記キャピタライゼーションモデルから前記ワード対で構成されるキャピタライゼーションフォームを除去するステップと
を実行させることを特徴とする方法。 - 前記制限事項は、前記トレーニング文書が前記ユーザによって書かれたものである、ことを必要とすることを特徴とする請求項1に記載の方法。
- 前記ユーザが電子メールに返信した場合、前記電子メールは、前記ユーザによって書かれたものとみなされる、ことを特徴とする請求項2に記載の方法。
- 前記ユーザが電子メールを転送した場合、前記電子メールは、前記ユーザによって書かれたものとみなされる、ことを特徴とする請求項2に記載の方法。
- 前記制限事項は、前記トレーニング文書が前記ユーザのローカルマシン上に記憶されていることを必要とする、ことを特徴とする請求項1に記載の方法。
- 前記制限事項は、前記トレーニング文書が前記ユーザに関連付けられたネットワーク上のディレクトリに記憶されていることを必要とする、ことを特徴とする請求項1に記載の方法。
- 前記更新するステップは、ワード対の出現をカウントするステップを含む、ことを特徴とする請求項1に記載の方法。
- 前記ワード対の出現をカウントするステップは、少なくとも1つの大文字を持つワード、および、前記ワードと少なくとも1つの大文字を持つ第2のワードとの間にある前置詞を含んだワード対の出現をカウントするステップを含む、ことを特徴とする請求項7に記載の方法。
- 前記ワード対の出現をカウントするステップは、少なくとも1つの大文字を持つ第1のワード、および、少なくとも1つの大文字を持つ隣接した第2のワードを含んだワード対の出現をカウントするステップを含む、ことを特徴とする請求項7に記載の方法。
- 前記ワード対で構成されるキャピタライゼーションフォームをワード対リストに記憶し、前記単一ワードで構成されるキャピタライゼーションフォームを別個の単一ワードリストに記憶するステップをさらに含む、ことを特徴とする請求項1に記載の方法。
- キャピタライゼーション訂正ユニットが、前記キャピタライゼーションモデルを用いてテキスト中のワードを大文字化するステップをさらに含む、ことを特徴とする請求項1に記載の方法。
- 前記大文字化するステップは、前記ワード対中のワードの1つを求めて前記単一ワードリストをサーチする前に、前記テキスト中のワード対に対するマッチングを求めて前記ワード対リストをサーチするステップを含む、ことを特徴とする請求項10に記載の方法。
- 前記トレーニング文書が前記ユーザによって書かれている場合、前記トレーニング文書が前記ユーザによって書かれたものではなく、前記ユーザに関連付けられたものである場合に適用される重みよりも高い重みが前記出現カウントに適用される、ことを特徴とする請求項1に記載の方法。
- コンピュータがプロセッサにプログラムモジュールを実行させることによってテキストを自動的に大文字化するためのキャピタライゼーションモデルをトレーニングする方法を実行するためのコンピュータ実行可能命令を記憶したコンピュータ可読な記憶媒体であって、前記コンピュータが前記プロセッサに、
ハーベスタが、特定のユーザに関連付けられた文書からトレーニングデータを獲得する手順であって、前記トレーニングデータはテキストセグメントを備える、手順と、
キャピタライゼーションカウンタが、収集した前記トレーニングデータ中のキャピタライゼーションフォームの出現カウントを更新する手順であって、
収集した前記トレーニングデータ中の前記テキストセグメントごとに、前記テキストセグメントの小文字使用形を含む主エントリが出現リストに存在するかどうかを判定する手順であって、前記出現リストは、前記主エントリと、前記テキストセグメントの前記キャピタライゼーションフォームごとのサブエントリからなる、手順と、
前記トレーニングデータがユーザに関連付けられる度合いに基づいて出現カウントに重み付けをする手順と、
前記テキストセグメントが大文字を含み、前記テキストセグメントに関する前記主エントリが前記出現リストに存在しないとき、前記主エントリと前記テキストセグメントのキャピタライゼーションフォームに関する前記サブエントリとを前記出現リストに加え、前記重み付けに基づいて前記サブエントリの出現カウントを増加する手順と、
前記テキストセグメントが大文字を含み、前記テキストセグメントに関する主エントリが前記出現リストに存在し、前記テキストセグメントの前記キャピタライゼーションフォームに関する前記サブエントリが前記出現リストに存在しないとき、前記サブエントリを前記出現リストに加え、前記重み付けに基づいて前記サブエントリの出現カウントを増加する手順と
を含む、手順と、
ルールビルダが、前記出現リストにおいて前記テキストセグメントごとの主エントリに関連付けられた前記サブエントリ及び前記小文字使用形の間で最大の出現カウントを有するサブエントリ又は小文字使用形に対応するキャピタライゼーションフォームを前記キャピタライゼーションモデルに加える手順であって、
ワード対で構成されるキャピタライゼーションフォームを前記キャピタライゼーションモデルに加える手順であって、前記ワード対のうちの少なくとも1つのワードは大文字使用を含む、手順と、
単一ワードで構成されるキャピタライゼーションフォームを前記キャピタライゼーションモデルに加える手順であって、前記ワード対で構成されるキャピタライゼーションフォームが前記キャピタライゼーションモデルに加えられる場合、前記ワード対における大文字使用を含むワードは、前記単一ワードで構成されるキャピタライゼーションフォームとして前記キャピタライゼーションモデルに加えられない、手順と
を含む、手順と、
前記ワード対の各々のワードが大文字使用を含み、前記ワード対で構成されるキャピタライゼーションフォームに含まれるワードの大文字使用の各々が前記単一ワードで構成されるキャピタライゼーションフォームの大文字使用のいずれかと同じである場合、プルーニング要素が、前記キャピタライゼーションモデルから前記ワード対で構成されるキャピタライゼーションフォームを除去する手順と、
キャピタライゼーション訂正ユニットが、前記キャピタライゼーションモデルを用いて、前記特定のユーザに関連付けられたテキストを自動的に大文字化する手順と、
を含む方法を実行させるためのコンピュータ実行可能命令を記憶した、ことを特徴とするコンピュータ可読な記憶媒体。 - 前記文書からトレーニングデータを獲得する手順は、前記特定のユーザに関連付けられた電子メールからトレーニングデータを獲得する手順を含む、ことを特徴とする請求項14に記載のコンピュータ可読な記憶媒体。
- 前記電子メールからトレーニングデータを獲得する手順は、前記特定のユーザによって書かれた電子メールからデータを獲得する手順を含む、ことを特徴とする請求項15に記載のコンピュータ可読な記憶媒体。
- 前記電子メールからトレーニングデータを獲得する手順は、前記特定のユーザによって転送された電子メールからデータを獲得する手順を含む、ことを特徴とする請求項15に記載のコンピュータ可読な記憶媒体。
- 前記電子メールからトレーニングデータを獲得する手順は、前記特定のユーザによって返信された電子メールからデータを獲得する手順を含む、ことを特徴とする請求項15に記載のコンピュータ可読な記憶媒体。
- 前記文書からトレーニングデータを獲得する手順は、前記特定のユーザによって書かれた文書からデータを獲得する手順を含む、ことを特徴とする請求項14に記載のコンピュータ可読な記憶媒体。
- 前記文書からトレーニングデータを獲得する手順は、前記特定のユーザによって開かれた文書からデータを獲得する手順を含む、ことを特徴とする請求項14に記載のコンピュータ可読な記憶媒体。
- 前記方法は、大文字使用を伴う少なくとも1つのワードを含んだ大文字使用を伴うワードのシーケンスを求めて、キャピタライゼーション訂正ユニットが前記トレーニングデータをサーチする手順をさらに含む、ことを特徴とする請求項14に記載のコンピュータ可読な記憶媒体。
- 大文字使用を伴うワードのシーケンスを求めて、前記トレーニングデータをサーチする前記手順は、大文字使用を伴うワードだけを持つシーケンスを求めてサーチする手順を含む、ことを特徴とする請求項21に記載のコンピュータ可読な記憶媒体。
- 大文字使用を伴うワードのシーケンスを求めて、前記トレーニングデータをサーチする前記手順は、大文字使用を伴うワード、および前記トレーニングデータ中の大文字使用を伴う2ワード間にある前置詞だけを持つシーケンスを求めてサーチする手順を含む、ことを特徴とする請求項21に記載のコンピュータ可読な記憶媒体。
- 前記方法は、前記キャピタライゼーション訂正ユニットが前記単一ワードを求めてサーチする手順をさらに含む、ことを特徴とする請求項21に記載のコンピュータ可読な記憶媒体。
- 前記方法は、前記単一ワードの出現が、大文字使用を伴うワードのシーケンスの出現の一部を構成しない場合に限って、前記キャピタライゼーションカウンタが前記単一ワードの出現をカウントする手順をさらに含む、ことを特徴とする請求項24に記載のコンピュータ可読な記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/819,023 US7827025B2 (en) | 2004-04-06 | 2004-04-06 | Efficient capitalization through user modeling |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005302023A JP2005302023A (ja) | 2005-10-27 |
JP2005302023A5 JP2005302023A5 (ja) | 2008-05-22 |
JP4672418B2 true JP4672418B2 (ja) | 2011-04-20 |
Family
ID=34912696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005110069A Expired - Fee Related JP4672418B2 (ja) | 2004-04-06 | 2005-04-06 | ユーザモデリングによる効率のよい大文字化 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7827025B2 (ja) |
EP (1) | EP1585030B1 (ja) |
JP (1) | JP4672418B2 (ja) |
KR (1) | KR101122887B1 (ja) |
CN (1) | CN1680935B (ja) |
AT (1) | ATE497213T1 (ja) |
DE (1) | DE602005026077D1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) * | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8972855B2 (en) * | 2008-12-16 | 2015-03-03 | At&T Intellectual Property I, L.P. | Method and apparatus for providing case restoration |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10733235B2 (en) * | 2015-06-09 | 2020-08-04 | Patricia Henery | Aid for dyslexic readers |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020099744A1 (en) * | 2001-01-25 | 2002-07-25 | International Business Machines Corporation | Method and apparatus providing capitalization recovery for text |
JP2003167901A (ja) * | 2001-11-29 | 2003-06-13 | Kddi Corp | 協調フィルタリング方法、協調フィルタリング装置及び協調フィルタリングプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2644995B2 (ja) | 1986-09-09 | 1997-08-25 | 株式会社東芝 | 文書処理方法 |
DE4323241A1 (de) * | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
US5761689A (en) * | 1994-09-01 | 1998-06-02 | Microsoft Corporation | Autocorrecting text typed into a word processing document |
CN1180204A (zh) * | 1996-05-02 | 1998-04-29 | 微软公司 | 大写和无重音文本的词典处理的方法和系统 |
US5819265A (en) * | 1996-07-12 | 1998-10-06 | International Business Machines Corporation | Processing names in a text |
US6618697B1 (en) * | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
US6490549B1 (en) * | 2000-03-30 | 2002-12-03 | Scansoft, Inc. | Automatic orthographic transformation of a text stream |
JP2002169834A (ja) | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
US7650348B2 (en) * | 2002-07-23 | 2010-01-19 | Research In Motion Limited | Systems and methods of building and using custom word lists |
US6873996B2 (en) * | 2003-04-16 | 2005-03-29 | Yahoo! Inc. | Affinity analysis method and article of manufacture |
US7447627B2 (en) * | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
-
2004
- 2004-04-06 US US10/819,023 patent/US7827025B2/en not_active Expired - Fee Related
-
2005
- 2005-03-30 DE DE602005026077T patent/DE602005026077D1/de active Active
- 2005-03-30 EP EP05102510A patent/EP1585030B1/en not_active Not-in-force
- 2005-03-30 AT AT05102510T patent/ATE497213T1/de not_active IP Right Cessation
- 2005-04-06 KR KR1020050028607A patent/KR101122887B1/ko not_active IP Right Cessation
- 2005-04-06 CN CN2005100650848A patent/CN1680935B/zh not_active Expired - Fee Related
- 2005-04-06 JP JP2005110069A patent/JP4672418B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020099744A1 (en) * | 2001-01-25 | 2002-07-25 | International Business Machines Corporation | Method and apparatus providing capitalization recovery for text |
JP2003167901A (ja) * | 2001-11-29 | 2003-06-13 | Kddi Corp | 協調フィルタリング方法、協調フィルタリング装置及び協調フィルタリングプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP1585030A2 (en) | 2005-10-12 |
KR101122887B1 (ko) | 2012-03-22 |
US7827025B2 (en) | 2010-11-02 |
KR20060045535A (ko) | 2006-05-17 |
JP2005302023A (ja) | 2005-10-27 |
EP1585030A3 (en) | 2006-07-12 |
DE602005026077D1 (de) | 2011-03-10 |
EP1585030B1 (en) | 2011-01-26 |
US20050228642A1 (en) | 2005-10-13 |
ATE497213T1 (de) | 2011-02-15 |
CN1680935B (zh) | 2011-05-11 |
CN1680935A (zh) | 2005-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4672418B2 (ja) | ユーザモデリングによる効率のよい大文字化 | |
JP4173774B2 (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
US5896321A (en) | Text completion system for a miniature computer | |
CN105512291B (zh) | 用于扩展数据库搜索查询的方法和系统 | |
US7493251B2 (en) | Using source-channel models for word segmentation | |
US7831911B2 (en) | Spell checking system including a phonetic speller | |
US7024351B2 (en) | Method and apparatus for robust efficient parsing | |
JP2004078962A (ja) | コーパスの中のテキストを構文解析する方法および記録媒体 | |
US8572110B2 (en) | Textual search for numerical properties | |
US20090055386A1 (en) | System and Method for Enhanced In-Document Searching for Text Applications in a Data Processing System | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
JPH07160684A (ja) | 文書圧縮装置および文書圧縮方法 | |
Albishre et al. | Effective 20 newsgroups dataset cleaning | |
WO2008103894A1 (en) | Automated word-form transformation and part of speech tag assignment | |
US8140546B2 (en) | Computer system for performing aggregation of tree-structured data, and method and computer program product therefor | |
AU740957B2 (en) | File processing method, data processing apparatus and storage medium | |
KR20060043583A (ko) | 언어 데이터의 로그의 압축 방법 및 시스템 | |
JPWO2007010836A1 (ja) | コミュニティ特有表現検出装置及び方法 | |
US7130470B1 (en) | System and method of context-based sorting of character strings for use in data base applications | |
US7231349B2 (en) | Method and apparatus for compressing asymmetric clustering language models | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US20050102278A1 (en) | Expanded search keywords | |
CN112559768B (zh) | 一种短文本图谱化及推荐方法 | |
US9323753B2 (en) | Method and device for representing digital documents for search applications | |
KR102351264B1 (ko) | 사용자 맞춤형 신간 도서 정보의 제공 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080404 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110114 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4672418 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |