JP2011511341A - 近似文字列マッチングのためのアーカイブ管理法 - Google Patents
近似文字列マッチングのためのアーカイブ管理法 Download PDFInfo
- Publication number
- JP2011511341A JP2011511341A JP2010543117A JP2010543117A JP2011511341A JP 2011511341 A JP2011511341 A JP 2011511341A JP 2010543117 A JP2010543117 A JP 2010543117A JP 2010543117 A JP2010543117 A JP 2010543117A JP 2011511341 A JP2011511341 A JP 2011511341A
- Authority
- JP
- Japan
- Prior art keywords
- string
- strings
- word
- proximity
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
近似文字列マッチング(つまり「ファジーマッチング」)の技法は、データセットを格納する様々な形式のデータベースシステムを含む各種システムに応用することができる。本明細書で用いるとき、データセットは、それぞれのフィールド(「属性」または「列」とも呼ばれる)に値を有するレコードとしてデータ部分を組織化できる任意のデータコレクションを含む。データベースシステムおよび格納されるデータセットは、多様な形式の内から、洗練されたデータベース管理システムまたは単純なフラットファイルを格納するファイルシステムのような、何れかの形式をとることができる。各種データベースシステムの一局面は、データセット内のレコードに使用する形式のレコード構造である(各レコード内のフィールドで使用されるフィールド構造を含めることができる)。システムによっては、データセットのレコード構造は、個々のテキストドキュメントをレコードとして定義するだけでもよく、文書のコンテンツは一つ以上のフィールドの値を表す。システムによっては、単一のデータセット内のレコードが全て同一構造(例えば、フィールド構造)を有するという要件はない。
多くの業務が直面している難問は、正確には同一でないこともあり得る等価の値を有する「名前」または「住所」のような、フィールドを使用する二つ(以上)のデータセットを一致させることである。データセットを一致させるには、以下のようなデータについての様々な疑問に答えることが必要である。あるデータセット内の企業名は別のデータセットにあるか? あるとすると、その住所は同じか? 二つのデータセットからの企業名が正確に同じ場合、マッチングキー(ここでは企業名)を有する全てのレコードを見付ける結合操作を用いて、対応する住所のフィールドを比較できる。しかし、その名前が正確には同じでないときはどう対処するか? ある名前は単語COMPANYで終わる一方で、別の名前ではCOと略され、三つめでは完全にそれが省かれるかもしれない。OFやTHEのような単語は、ある名前には付き、別の名前には付かないことがある。単語はスペルを間違うことがある(例えば、COMPANYのつもりのCOMPNY)。あるソース内の名前には、連絡先の個人名や口座番号のような追加情報が含まれているかもしれない。
ユーザーは識別したエラーを確認でき(例えば、アーカイブから生成されるリストから)、そのデータのエラーをデータ補正コンポーネントが補正できる。ファジーマッチに基づくこのエラー補正能力は、引用して本明細書に組み込む米国特許出願第10/941,402号、発明の名称「Data Profiling(データプロファイル化)」に詳細が記載されているように、データプロファイラ能力へ拡張できる。
多様な基準の内のどれかを用いてマッチ品質の測定に用いることができる。二つの単語、MOORGATEとMOOGRATEについて考える。基準の一形式は距離メトリックである。二つの単語間の距離を測定するための幾つかの異なる距離メトリック、または計測法がある。最も簡単な方法の一つは、ハミング距離であり、対応する文字の位置が異なる数をカウントする。この数は配列に依存するので、ハミング距離が最小となる配列が使用される。これは、以下の例に示すように、ある単語を他の単語に変換するのに必要な置換の最小数と対応する。
M O O R G A T E
M O O G R A T E
* *
M O O R G A T E
M O O R G R A T E
* * * *
ファジーマッチング法の実装によっては、フレーズを標準化してから比較する。これは、例えば、OFやTHEのような共通の単語を外したり、COをCOMPANYで置換する等、完全な単語で一般的な略語を置換したりすることにより、予期できる方法で変動性を減少させる。この標準化により、マッチ強度を増大させ、幾つかのアプローチではマッチング処理の性能を改良することができる。問題は、幾つかの情報が標準化中に失われるかもしれず、または偽識別が入り込むかもしれないことであり、すなわち、CORPはCORPORATIONの略語の可能性があるが、CORPSのスペルミスかもしれない。
事前実行モジュール110は、レコード内に出現する単語を探して所与のソースのレコードをスキャンし、場合によっては、スキャニングをレコードの選択したフィールドに限定する。所与のソースのレコードの選択したフィールドに出現する単語は、辞書111に格納される。実装によっては、辞書の各記入項目は、単語、単語の頻度、単語の位置統計および単語のコンテクストを格納する。頻度は単語がソースのレコード内に出現する回数のカウントである(例えば、単語は所与のレコード内に何回も出現する)。頻度は、フィールド全体の集約カウントまたは単語が所与のフィールドに出現する回数を表す複数のカウントとすることができる。頻度は、詳細に後述するように再正規化することもできる。単語が所与のフィールドのフレーズ内に出現する場合、フレーズ内の単語の位置は、そのフレーズに対して計算される。辞書111内の所与の単語の位置統計は、例えば、その単語が出現するフレーズ全てに対するこの位置の平均値および標準偏差を含む。
ソース内、ソース間の単語の潜在的ファジーマッチが予め計算され、マッチ品質を特徴付ける一対の単語間の各潜在的マッチに対するファジーマッチスコアとともにアーカイブ114に格納される。ソース内の注目すべき単語の数はソース内の全単語の数よりずっと少ないのが普通なので、事前計算ステップは、単語の冗長なファジー比較を除去することにより、後工程でのフィールドの比較および採点を加速する。最初に、潜在的ファジーマッチ(近接単語比較技法等の所定の基準に従って)を構築する単語だけがアーカイブ114に格納される。ユーザーは、所定の基準に基づいてアーカイブ113内の単語に対するファジーマッチスコアを手動で調整するか、またはファジーマッチスコアの最初の母集団内で識別されないマッチ対を追加することにより、アーカイブ114を修正し、拡張できる。
アーカイブ114に少なくとも幾つかの単語対を存在させた後、それを用いて辞書111内に単語頻度カウントを「再正規化」することができる。各単語の頻度を、その単語と関連する全ての単語のカウントを潜在的ファジーマッチとして加えることにより調整する。得られた再正規化頻度を用いて単語の「重要度スコア」を計算し、次いで、フレーズをマッチさせる場合に使用する。データ内の単語の頻度が少ない程、他の単語と見分けやすいという意味で重要である。
M▲E▼XICO
MEXICO
MEXICO MEXCIO
最初に、ソース0から単語と元のカウントを入力する:M▲E▼XICO 11
アーカイブ内を調べて{MEXICO}を返す
ソース0の辞書内をそれぞれ調べてカウントを加算する
ソース0:MEXICO
259
発見:{MEXICO}
M▲E▼XICOに対する繰り込みカウント = 11 + 259 = 270
二番目に、ソース0から単語と元のカウントを入力する:MEXICO 259
アーカイブ内を調べて{M▲E▼XICO,MEXCIO}を返す
ソース0の辞書内をそれぞれ調べてカウントを加算する
ソース0:M▲E▼XICO 11
ソース0:MEXCIO発見されず
発見:{M▲E▼XICO}
MEXICOに対する繰り込みカウント = 259 + 11 = 270
M▲E▼XICA M▲E▼XICO
ソース0:MEXICO 259
ソース0:M▲E▼XICA 5
発見: {M▲E▼XICA,MEXICO}
M▲E▼XICOに対する繰り込みカウント = 11 + 5 + 259 = 275
削除/結合手順で見つかる近接単語は、元のデータセット内の単語出現から変更されていない単語の文字編成に基づくのが基本である。近接単語の比較は、「単語コード化」を用いることにより変更される「単語空間」内で実行することもできる。発見される近接セットは、単語コード化を用いると異なることもある。単語コード化は、単語を新しい表現にマッピングする。マッピングは、1対1、1対多数、または多数対1とすることができる。コード化によっては、単語を異なる文字セットに変換し、コード化によっては、単語を数値表現に変換することもある。単語コード化は、所与の測定基準に従って単語間の距離を変化させ得るように単語空間を修正する。自然な文字表現の点から見て近接していないかもしれない単語が、単語コード化が適用された後に近接することがある。
マルチ語は単語として処理されるスペースを組み込んだフレーズである。先の実施例では、フレーズは、スペースを組み込まずに単語に分解してから採点していた。これは、二つの潜在的エラーの原因を見落としてしまう。すなわち、スペースが単語内に挿入されることがあることと、単語間のスペースが脱落することである。別の実施例は、フレーズを頭字語のような単一語に関連付ける同義語の扱いである。
JOHN A SMITH
JO HNA SMITH
JOHNA SMITH
本明細書で説明した近似文字列マッチング手法は、コンピュータ上の実行ソフトウエアを用いて実装できる。本ソフトウエアは、例えば、プログラムされるかまたはプログラム可能な、少なくとも一つのプロセッサ、少なくとも一つのデータ格納システム(揮発性および不揮発性メモリおよび/またはメモリ素子を含む)、少なくとも一つの入力装置または入力ポート、および少なくとも一つの出力装置または出力ポートをそれぞれ含む一台以上のコンピューターシステム(分散型、クライアント/サーバ、またはグリッド型等の各種アーキテクチャからなっていてもよい)上で実行される一つ以上のコンピュータープログラムの手順を形成する。本ソフトウエアは、例えば、計算グラフの設計および構成と関連する他のサービスを提供する大規模なプログラムの一つ以上のモジュールを形成してもよい。グラフのノードおよび要素は、コンピュータで読取り可能な媒体に格納されるデータ構造、またはデータリポジトリに格納されるデータモデルに準拠する他の組織化されたデータとして実装できる。
例えば、上記の幾つかのステップは順序に依存しないので、説明したものと異なる順序で実行することができる。
Claims (30)
- レコード内に出現する文字列と関係付けられる近似マッチを決定するためのアーカイブを管理する方法であって、
前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理するステップと、
前記セット内の少なくとも幾つかの文字列表現毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成するステップと、
個々の近接表現に基づく少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表す複数の記入項目をアーカイブ内に格納するステップとを含む方法。 - 各文字列表現は文字列からなる、請求項1の方法。
- 各近接表現は、前記文字列内の文字と同一の少なくとも幾つかの文字で構成される、請求項2の方法。
- 前記セット内の所与の文字列に対して前記複数の近接文字列を生成する前記ステップは、前記所与の文字列から削除した異なる文字をそれぞれ有する複数の近接文字列を生成するステップを含む、請求項3の方法。
- 前記セット内の所与の文字列に対して前記複数の近接文字列を生成する前記ステップは、前記所与の文字列から削除した単一文字をそれぞれ有する複数の近接文字列を生成するステップを含む、請求項4の方法。
- 前記セット内の所与の文字列に対して前記複数の近接文字列を生成する前記ステップは、近接文字列の内の少なくとも幾つかが前記所与の文字列から削除した複数の文字を有する、近接文字列を生成するステップを含む、請求項5の方法。
- 前記所与の文字列から削除した異なる文字をそれぞれ有する複数の近接文字列を生成する前記ステップは、前記所与の文字列が所定の長さより短い場合、前記所与の文字列から削除した単一文字をそれぞれ有する複数の近接文字列を生成するステップと、前記所与の文字列が前記所定の長さより長い場合、近接文字列の内の少なくとも幾つかが、前記所与の文字列から削除した複数の文字を有する、近接文字列を生成するステップとを含む、請求項4の方法。
- 前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記レコード内の前記対応文字列の出現頻度を決定するステップを更に含む、請求項1の方法。
- 前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列との滞在的近似マッチとして、前記文字列の出現頻度と、前記アーカイブ内で表現される少なくとも幾つかの文字列の前記出現頻度とを含む合計値に基づいて前記対応文字列の重要度を表す重要度値を生成するステップを更に含む、請求項8の方法。
- 前記重要度値は前記合計値の逆数に基づいて生成される、請求項9の方法。
- 前記フレーズ内の文字列が近似マッチに対応するかどうかを決定することにより、複数の文字列を含む別のフレーズが近似マッチに対応するかどうかを決定するステップを更に含み、前記フレーズ内の前記文字列は、対応する重要度値に基づいて選択される、請求項9の方法。
- フレーズ内の文字列の前記重要度値は、前記合計値に基づき、前記文字列の長さが最小の文字列、前記フレーズ内の前記文字列の位置、前記文字列が出現するレコードのフィールド、および前記フィールドが出現するレコードのソースに基づく、請求項11の方法。
- 前記アーカイブ内の前記記入項目の内の少なくとも幾つか毎に、少なくとも二つの文字列間の前記潜在的近似マッチの品質を定量化する前記記入項目と関係するスコアを生成するステップを更に含む、請求項1の方法。
- 記入項目と関係する文字列が、前記記入項目と関係する前記スコアをしきい値と比較することにより、近似マッチに対応するかどうかを決定するステップを更に含む、請求項13の方法。
- 前記スコアは、前記少なくとも二つの文字列間の前記潜在的近似マッチを決定するために使用する前記各近接表現間の一致度に基づく、請求項13の方法。
- 前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するよう前記レコードを処理する前記ステップは、前記セットの文字列表現に含めるために修正文字列を生成するよう少なくとも一つのレコードに出現する文字列を修正するステップを含む、請求項1の方法。
- 前記文字列を修正する前記ステップは、句読点を削除または置換するステップを含む、請求項16の方法。
- 前記文字列を修正する前記ステップは、前記文字列を別の表現にコード化するステップを含む、請求項16の方法。
- 前記文字列を修正する前記ステップは、前記文字列を数値化表現にコード化するステップを含む、請求項18の方法。
- 前記文字列を数値化表現にコード化する前記ステップは、前記文字列内の各文字を素数にマッピングするステップ、および前記文字列内の文字にマッピングされた前記素数の積として、文字列を表現するステップを含む、請求項19の方法。
- 前記アーカイブには、ユーザーからの入力に基づいて、少なくとも二つの文字列間の潜在的近似マッチを表わす少なくとも幾つかの記入項目が含まれる、請求項1の方法。
- レコード内に出現する文字列と関係する近似マッチを決定するためのアーカイブを管理するための、コンピュータで読取り可能な媒体上に格納されるコンピュータープログラムであって、前記コンピュータープログラムは、コンピュータに実行させる以下の命令、
前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理する命令と、
前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成する命令と、
前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目をアーカイブ内に格納する命令とを含むコンピュータープログラム。 - レコード内に出現する文字列と関係する近似マッチを決定するためにアーカイブを管理するシステムであって、前記システムは、
前記レコード内に出現する文字列と対応する一セットの文字列表現を決定するようレコードを処理する手段と、
前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成する手段と、
前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目をアーカイブ内に格納する手段とを含むシステム。 - レコード内に出現する文字列と関係する近似マッチを決定するためにアーカイブを管理するシステムであって、前記システムは、
レコードを格納するデータソースと、
前記データソース内の前記レコードを処理して、前記レコード内に出現する文字列と対応する一セットの文字列表現を決定し、
前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記文字列内の文字と同一の少なくとも幾つかの文字からそれぞれ生成される複数の近接表現を生成する
よう構成されるコンピューターシステムと、
前記各近接表現に基づいて少なくとも二つの文字列間の潜在的近似マッチをそれぞれ表わす記入項目を含むアーカイブを格納するための前記コンピューターシステムに接続されるデータ格納装置とを含むシステム。 - 前記記入項目はそれぞれ、前記文字列間に潜在的近似マッチと前記文字列間の前記潜在的近似マッチの品質を定量化するスコアとがある前記文字列を含む、請求項1の方法。
- 前記セット内の前記文字列表現の内の少なくとも幾つか毎に、前記対応文字列の出現頻度に基づいて前記対応文字列の重要度を表す重要度値を生成するステップを更に含む、請求項1の方法。
- 前記アーカイブ内の記入項目を用いて、起こり得る誤判定の潜在的近似マッチを識別するステップを更に含む、請求項13の方法。
- 第一文字列と第二文字列との間に起こり得る誤判定の潜在的近似マッチが、前記レコード内の前記第一文字列の出現頻度および前記レコード内の前記第二文字列の出現頻度に基づいて識別される、請求項27の方法。
- 起こり得る誤判定の潜在的近似マッチが、前記アーカイブ内に格納されるNグラム頻度に基づいて識別される、請求項27の方法。
- 起こり得る誤判定として前記潜在的近似マッチを識別することに応じて、潜在的近似マッチを表す前記記入項目と関係付けられた前記スコアを調整するステップを更に含む、請求項27の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/015,085 | 2008-01-16 | ||
US12/015,085 US8775441B2 (en) | 2008-01-16 | 2008-01-16 | Managing an archive for approximate string matching |
PCT/US2008/088530 WO2009091494A1 (en) | 2008-01-16 | 2008-12-30 | Managing an archive for approximate string matching |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011511341A true JP2011511341A (ja) | 2011-04-07 |
JP2011511341A5 JP2011511341A5 (ja) | 2012-02-16 |
JP5603250B2 JP5603250B2 (ja) | 2014-10-08 |
Family
ID=40851547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010543117A Active JP5603250B2 (ja) | 2008-01-16 | 2008-12-30 | 近似文字列マッチングのためのアーカイブ管理法 |
Country Status (8)
Country | Link |
---|---|
US (2) | US8775441B2 (ja) |
EP (1) | EP2235621A4 (ja) |
JP (1) | JP5603250B2 (ja) |
KR (1) | KR101564385B1 (ja) |
CN (2) | CN101978348B (ja) |
AU (1) | AU2008348066B2 (ja) |
CA (1) | CA2710882C (ja) |
WO (1) | WO2009091494A1 (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877350B2 (en) | 2005-06-27 | 2011-01-25 | Ab Initio Technology Llc | Managing metadata for graph-based computations |
EP2050013A4 (en) * | 2006-08-10 | 2010-01-06 | Ab Initio Software Llc | DISTRIBUTION SERVICES IN DIAGRAM-BASED CALCULATIONS |
KR101758670B1 (ko) | 2007-07-26 | 2017-07-18 | 아브 이니티오 테크놀로지 엘엘시 | 에러 핸들링이 가능한 그래프 기반의 트랜잭션 연산 처리 방법 및 시스템 |
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
WO2009094649A1 (en) * | 2008-01-24 | 2009-07-30 | Sra International, Inc. | System and method for variant string matching |
US8095773B2 (en) | 2008-02-26 | 2012-01-10 | International Business Machines Corporation | Dynamic address translation with translation exception qualifier |
KR101491581B1 (ko) * | 2008-04-07 | 2015-02-24 | 삼성전자주식회사 | 철자 오류 보정 시스템 및 방법 |
JP5535230B2 (ja) | 2008-10-23 | 2014-07-02 | アビニシオ テクノロジー エルエルシー | ファジーなデータ操作 |
US9135396B1 (en) | 2008-12-22 | 2015-09-15 | Amazon Technologies, Inc. | Method and system for determining sets of variant items |
KR20150038758A (ko) * | 2009-02-13 | 2015-04-08 | 아브 이니티오 테크놀로지 엘엘시 | 태스크 실행 관리 |
US8856879B2 (en) | 2009-05-14 | 2014-10-07 | Microsoft Corporation | Social authentication for account recovery |
US9124431B2 (en) * | 2009-05-14 | 2015-09-01 | Microsoft Technology Licensing, Llc | Evidence-based dynamic scoring to limit guesses in knowledge-based authentication |
US8667329B2 (en) * | 2009-09-25 | 2014-03-04 | Ab Initio Technology Llc | Processing transactions in graph-based applications |
CN102792298B (zh) | 2010-01-13 | 2017-03-29 | 起元技术有限责任公司 | 使用特征化匹配的规则来匹配元数据源 |
EP2583168B1 (en) | 2010-06-15 | 2017-11-08 | Ab Initio Technology LLC | Dynamically loading graph-based computations |
US9069767B1 (en) | 2010-12-28 | 2015-06-30 | Amazon Technologies, Inc. | Aligning content items to identify differences |
US9846688B1 (en) | 2010-12-28 | 2017-12-19 | Amazon Technologies, Inc. | Book version mapping |
US8798366B1 (en) | 2010-12-28 | 2014-08-05 | Amazon Technologies, Inc. | Electronic book pagination |
JP6066927B2 (ja) | 2011-01-28 | 2017-01-25 | アビニシオ テクノロジー エルエルシー | データパターン情報の生成 |
US9881009B1 (en) | 2011-03-15 | 2018-01-30 | Amazon Technologies, Inc. | Identifying book title sets |
US9317544B2 (en) | 2011-10-05 | 2016-04-19 | Microsoft Corporation | Integrated fuzzy joins in database management systems |
AU2012340429B2 (en) | 2011-11-15 | 2016-12-01 | Ab Initio Technology Llc | Data clustering based on candidate queries |
US8788471B2 (en) | 2012-05-30 | 2014-07-22 | International Business Machines Corporation | Matching transactions in multi-level records |
US9507682B2 (en) | 2012-11-16 | 2016-11-29 | Ab Initio Technology Llc | Dynamic graph performance monitoring |
US10108521B2 (en) | 2012-11-16 | 2018-10-23 | Ab Initio Technology Llc | Dynamic component performance monitoring |
GB2508223A (en) | 2012-11-26 | 2014-05-28 | Ibm | Estimating the size of a joined table in a database |
GB2508603A (en) * | 2012-12-04 | 2014-06-11 | Ibm | Optimizing the order of execution of multiple join operations |
US9274926B2 (en) | 2013-01-03 | 2016-03-01 | Ab Initio Technology Llc | Configurable testing of computer programs |
US9063944B2 (en) | 2013-02-21 | 2015-06-23 | International Business Machines Corporation | Match window size for matching multi-level transactions between log files |
US9317499B2 (en) * | 2013-04-11 | 2016-04-19 | International Business Machines Corporation | Optimizing generation of a regular expression |
US9146946B2 (en) * | 2013-05-09 | 2015-09-29 | International Business Machines Corporation | Comparing database performance without benchmark workloads |
US20140350919A1 (en) * | 2013-05-27 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for word counting |
CN104182383B (zh) * | 2013-05-27 | 2019-01-01 | 腾讯科技(深圳)有限公司 | 一种文字统计方法及设备 |
US20150046152A1 (en) * | 2013-08-08 | 2015-02-12 | Quryon, Inc. | Determining concept blocks based on context |
US10043182B1 (en) * | 2013-10-22 | 2018-08-07 | Ondot System, Inc. | System and method for using cardholder context and preferences in transaction authorization |
WO2015085152A1 (en) | 2013-12-05 | 2015-06-11 | Ab Initio Technology Llc | Managing interfaces for dataflow graphs composed of sub-graphs |
US10521441B2 (en) * | 2014-01-02 | 2019-12-31 | The George Washington University | System and method for approximate searching very large data |
MY173084A (en) * | 2014-05-23 | 2019-12-25 | Mimos Berhad | Adaptive-window edit distance algorithm computation |
US9589074B2 (en) | 2014-08-20 | 2017-03-07 | Oracle International Corporation | Multidimensional spatial searching for identifying duplicate crash dumps |
WO2016048295A1 (en) * | 2014-09-24 | 2016-03-31 | Hewlett Packard Enterprise Development Lp | Assigning a document to partial membership in communities |
US9805099B2 (en) * | 2014-10-30 | 2017-10-31 | The Johns Hopkins University | Apparatus and method for efficient identification of code similarity |
US9679024B2 (en) * | 2014-12-01 | 2017-06-13 | Facebook, Inc. | Social-based spelling correction for online social networks |
JP2015062146A (ja) * | 2015-01-05 | 2015-04-02 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
US9646061B2 (en) | 2015-01-22 | 2017-05-09 | International Business Machines Corporation | Distributed fuzzy search and join with edit distance guarantees |
US9904672B2 (en) | 2015-06-30 | 2018-02-27 | Facebook, Inc. | Machine-translation based corrections |
US20170004120A1 (en) * | 2015-06-30 | 2017-01-05 | Facebook, Inc. | Corrections for natural language processing |
US10657134B2 (en) | 2015-08-05 | 2020-05-19 | Ab Initio Technology Llc | Selecting queries for execution on a stream of real-time data |
US10140200B2 (en) * | 2015-10-15 | 2018-11-27 | King.Dom Ltd. | Data analysis |
IL242218B (en) * | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | A system and method for maintaining a dynamic dictionary |
CN105446957B (zh) | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
AU2016377516B2 (en) | 2015-12-21 | 2020-01-30 | Ab Initio Technology Llc | Sub-graph interface generation |
WO2017197402A2 (en) * | 2016-05-13 | 2017-11-16 | Maana, Inc. | Machine-assisted object matching |
US11176180B1 (en) * | 2016-08-09 | 2021-11-16 | American Express Travel Related Services Company, Inc. | Systems and methods for address matching |
US10228955B2 (en) * | 2016-09-29 | 2019-03-12 | International Business Machines Corporation | Running an application within an application execution environment and preparation of an application for the same |
US10394960B2 (en) | 2016-12-21 | 2019-08-27 | Facebook, Inc. | Transliteration decoding using a tree structure |
US10402489B2 (en) | 2016-12-21 | 2019-09-03 | Facebook, Inc. | Transliteration of text entry across scripts |
US10810380B2 (en) | 2016-12-21 | 2020-10-20 | Facebook, Inc. | Transliteration using machine translation pipeline |
US10546062B2 (en) * | 2017-11-15 | 2020-01-28 | International Business Machines Corporation | Phonetic patterns for fuzzy matching in natural language processing |
US11294943B2 (en) | 2017-12-08 | 2022-04-05 | International Business Machines Corporation | Distributed match and association of entity key-value attribute pairs |
US11163952B2 (en) * | 2018-07-11 | 2021-11-02 | International Business Machines Corporation | Linked data seeded multi-lingual lexicon extraction |
US11693860B2 (en) | 2019-01-31 | 2023-07-04 | Optumsoft, Inc. | Approximate matching |
US11269905B2 (en) * | 2019-06-20 | 2022-03-08 | International Business Machines Corporation | Interaction between visualizations and other data controls in an information system by matching attributes in different datasets |
US12008141B2 (en) * | 2020-03-31 | 2024-06-11 | Intuit Inc. | Privacy preserving synthetic string generation using recurrent neural networks |
CN112084771B (zh) * | 2020-07-22 | 2024-06-18 | 浙江工业大学 | 一种基于地址的单字权重统计方法 |
US11886794B2 (en) * | 2020-10-23 | 2024-01-30 | Saudi Arabian Oil Company | Text scrambling/descrambling |
US11556593B1 (en) | 2021-07-14 | 2023-01-17 | International Business Machines Corporation | String similarity determination |
US12019701B2 (en) | 2021-07-27 | 2024-06-25 | International Business Machines Corporation | Computer architecture for string searching |
US11615243B1 (en) * | 2022-05-27 | 2023-03-28 | Intuit Inc. | Fuzzy string alignment |
KR20240025272A (ko) | 2022-08-18 | 2024-02-27 | 한국전력공사 | 자연어 처리를 위한 비정형 데이터 기반 근사 질의응답 시스템 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02129756A (ja) * | 1988-11-10 | 1990-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 単語照合装置 |
JPH10275159A (ja) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11184884A (ja) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
WO2006102227A2 (en) * | 2005-03-19 | 2006-09-28 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
Family Cites Families (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5179643A (en) * | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
US5388259A (en) * | 1992-05-15 | 1995-02-07 | Bell Communications Research, Inc. | System for accessing a database with an iterated fuzzy query notified by retrieval response |
JPH0644309A (ja) | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
JPH0944518A (ja) | 1995-08-02 | 1997-02-14 | Adoin Kenkyusho:Kk | 画像データベースの構築方法と、画像データベースの検索方法及び検索装置 |
US5832182A (en) * | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
JP3466054B2 (ja) | 1997-04-18 | 2003-11-10 | 富士通株式会社 | グループ化と集計演算処理方式 |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6581058B1 (en) * | 1998-05-22 | 2003-06-17 | Microsoft Corporation | Scalable system for clustering of large databases having mixed data attributes |
US6285995B1 (en) | 1998-06-22 | 2001-09-04 | U.S. Philips Corporation | Image retrieval system using a query image |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2000029899A (ja) | 1998-07-14 | 2000-01-28 | Hitachi Software Eng Co Ltd | 建物と地図とのマッチング方法および記録媒体 |
US6658626B1 (en) * | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6317707B1 (en) * | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US7356462B2 (en) * | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6456995B1 (en) * | 1998-12-31 | 2002-09-24 | International Business Machines Corporation | System, method and computer program products for ordering objects corresponding to database operations that are performed on a relational database upon completion of a transaction by an object-oriented transaction system |
AU780926B2 (en) * | 1999-08-03 | 2005-04-28 | Bally Technologies, Inc. | Method and system for matching data sets |
WO2001031479A1 (en) | 1999-10-27 | 2001-05-03 | Zapper Technologies Inc. | Context-driven information retrieval |
JP2001147930A (ja) | 1999-11-19 | 2001-05-29 | Mitsubishi Electric Corp | 文字列比較方法および文字列比較を用いた情報検索装置 |
US7328211B2 (en) * | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
DE10048478C2 (de) * | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
US6931390B1 (en) * | 2001-02-27 | 2005-08-16 | Oracle International Corporation | Method and mechanism for database partitioning |
JP3605052B2 (ja) | 2001-06-20 | 2004-12-22 | 本田技研工業株式会社 | あいまい検索機能を備える図面管理システム |
US20030033138A1 (en) * | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US7043647B2 (en) | 2001-09-28 | 2006-05-09 | Hewlett-Packard Development Company, L.P. | Intelligent power management for a rack of servers |
US6570511B1 (en) * | 2001-10-15 | 2003-05-27 | Unisys Corporation | Data compression method and apparatus implemented with limited length character tables and compact string code utilization |
US7213025B2 (en) | 2001-10-16 | 2007-05-01 | Ncr Corporation | Partitioned database system |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
WO2003065180A2 (en) * | 2002-02-01 | 2003-08-07 | John Fairweather | System and method for creating a distributed network architecture |
CA2475267C (en) * | 2002-02-04 | 2014-08-05 | Cataphora, Inc. | A method and apparatus for sociological data mining |
EP1552501A4 (en) * | 2002-06-12 | 2009-07-01 | Jena Jordahl | TOOLS FOR STORAGE, EXTRACTION, HANDLING AND VISUALIZATION OF DATA, PROVIDING MULTIPLE VIEWPOINTS OF HIERARCHICAL PERCEIVES |
US6961721B2 (en) * | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US20050226511A1 (en) | 2002-08-26 | 2005-10-13 | Short Gordon K | Apparatus and method for organizing and presenting content |
US7043476B2 (en) * | 2002-10-11 | 2006-05-09 | International Business Machines Corporation | Method and apparatus for data mining to discover associations and covariances associated with data |
US7392247B2 (en) | 2002-12-06 | 2008-06-24 | International Business Machines Corporation | Method and apparatus for fusing context data |
US20040139072A1 (en) * | 2003-01-13 | 2004-07-15 | Broder Andrei Z. | System and method for locating similar records in a database |
US7912842B1 (en) | 2003-02-04 | 2011-03-22 | Lexisnexis Risk Data Management Inc. | Method and system for processing and linking data records |
US7287019B2 (en) * | 2003-06-04 | 2007-10-23 | Microsoft Corporation | Duplicate data elimination system |
US20050120011A1 (en) * | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
US7526464B2 (en) * | 2003-11-28 | 2009-04-28 | Manyworlds, Inc. | Adaptive fuzzy network system and method |
US7283999B1 (en) * | 2003-12-19 | 2007-10-16 | Ncr Corp. | Similarity string filtering |
US7472113B1 (en) * | 2004-01-26 | 2008-12-30 | Microsoft Corporation | Query preprocessing and pipelining |
GB0413743D0 (en) * | 2004-06-19 | 2004-07-21 | Ibm | Method and system for approximate string matching |
US7917480B2 (en) * | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US8407239B2 (en) * | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US20080040342A1 (en) * | 2004-09-07 | 2008-02-14 | Hust Robert M | Data processing apparatus and methods |
US8725705B2 (en) * | 2004-09-15 | 2014-05-13 | International Business Machines Corporation | Systems and methods for searching of storage data with reduced bandwidth requirements |
US7523098B2 (en) * | 2004-09-15 | 2009-04-21 | International Business Machines Corporation | Systems and methods for efficient data searching, storage and reduction |
US7290084B2 (en) * | 2004-11-02 | 2007-10-30 | Integrated Device Technology, Inc. | Fast collision detection for a hashed content addressable memory (CAM) using a random access memory |
US9110985B2 (en) * | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
US7584205B2 (en) | 2005-06-27 | 2009-09-01 | Ab Initio Technology Llc | Aggregating data with complex operations |
US7658880B2 (en) * | 2005-07-29 | 2010-02-09 | Advanced Cardiovascular Systems, Inc. | Polymeric stent polishing method and apparatus |
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US7890533B2 (en) * | 2006-05-17 | 2011-02-15 | Noblis, Inc. | Method and system for information extraction and modeling |
US8175875B1 (en) * | 2006-05-19 | 2012-05-08 | Google Inc. | Efficient indexing of documents with similar content |
US7634464B2 (en) | 2006-06-14 | 2009-12-15 | Microsoft Corporation | Designing record matching queries utilizing examples |
US20080140653A1 (en) * | 2006-12-08 | 2008-06-12 | Matzke Douglas J | Identifying Relationships Among Database Records |
US7739247B2 (en) * | 2006-12-28 | 2010-06-15 | Ebay Inc. | Multi-pass data organization and automatic naming |
CA2675216A1 (en) * | 2007-01-10 | 2008-07-17 | Nick Koudas | Method and system for information discovery and text analysis |
US8694472B2 (en) | 2007-03-14 | 2014-04-08 | Ca, Inc. | System and method for rebuilding indices for partitioned databases |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
JP4203967B1 (ja) * | 2007-05-28 | 2009-01-07 | パナソニック株式会社 | 情報探索支援方法および情報探索支援装置 |
US7769778B2 (en) * | 2007-06-29 | 2010-08-03 | United States Postal Service | Systems and methods for validating an address |
US7788276B2 (en) * | 2007-08-22 | 2010-08-31 | Yahoo! Inc. | Predictive stemming for web search with statistical machine translation models |
US7925652B2 (en) * | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8032546B2 (en) * | 2008-02-15 | 2011-10-04 | Microsoft Corp. | Transformation-based framework for record matching |
US8266168B2 (en) * | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US7958125B2 (en) * | 2008-06-26 | 2011-06-07 | Microsoft Corporation | Clustering aggregator for RSS feeds |
WO2010028438A1 (en) * | 2008-09-10 | 2010-03-18 | National Ict Australia Limited | Online presence of users |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
JP5535230B2 (ja) | 2008-10-23 | 2014-07-02 | アビニシオ テクノロジー エルエルシー | ファジーなデータ操作 |
US20100169311A1 (en) * | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
JP5173898B2 (ja) | 2009-03-11 | 2013-04-03 | キヤノン株式会社 | 画像処理方法、画像処理装置、及びプログラム |
US8161048B2 (en) * | 2009-04-24 | 2012-04-17 | At&T Intellectual Property I, L.P. | Database analysis using clusters |
US20100274770A1 (en) * | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
US8195626B1 (en) | 2009-06-18 | 2012-06-05 | Amazon Technologies, Inc. | Compressing token-based files for transfer and reconstruction |
US8285681B2 (en) * | 2009-06-30 | 2012-10-09 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
US8515957B2 (en) * | 2009-07-28 | 2013-08-20 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via injection |
US9542647B1 (en) * | 2009-12-16 | 2017-01-10 | Board Of Regents, The University Of Texas System | Method and system for an ontology, including a representation of unified medical language system (UMLS) using simple knowledge organization system (SKOS) |
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8346772B2 (en) * | 2010-09-16 | 2013-01-01 | International Business Machines Corporation | Systems and methods for interactive clustering |
US8463742B1 (en) | 2010-09-17 | 2013-06-11 | Permabit Technology Corp. | Managing deduplication of stored data |
US8606771B2 (en) * | 2010-12-21 | 2013-12-10 | Microsoft Corporation | Efficient indexing of error tolerant set containment |
US8612386B2 (en) * | 2011-02-11 | 2013-12-17 | Alcatel Lucent | Method and apparatus for peer-to-peer database synchronization in dynamic networks |
AU2012340429B2 (en) | 2011-11-15 | 2016-12-01 | Ab Initio Technology Llc | Data clustering based on candidate queries |
-
2008
- 2008-01-16 US US12/015,085 patent/US8775441B2/en active Active
- 2008-12-30 JP JP2010543117A patent/JP5603250B2/ja active Active
- 2008-12-30 AU AU2008348066A patent/AU2008348066B2/en active Active
- 2008-12-30 CN CN200880128089.2A patent/CN101978348B/zh active Active
- 2008-12-30 KR KR1020107017207A patent/KR101564385B1/ko active IP Right Grant
- 2008-12-30 CN CN201510647048.6A patent/CN105373365B/zh active Active
- 2008-12-30 EP EP08870601A patent/EP2235621A4/en not_active Ceased
- 2008-12-30 CA CA2710882A patent/CA2710882C/en active Active
- 2008-12-30 WO PCT/US2008/088530 patent/WO2009091494A1/en active Application Filing
-
2014
- 2014-07-07 US US14/325,007 patent/US9563721B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02129756A (ja) * | 1988-11-10 | 1990-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 単語照合装置 |
JPH10275159A (ja) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11184884A (ja) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
WO2006102227A2 (en) * | 2005-03-19 | 2006-09-28 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
Non-Patent Citations (2)
Title |
---|
JPN6013004971; T. Bocek, E. Hunt, B. Stiller: 'Fast Similarity Search in LargeDictionaries' TECHNICAL REPORT No. ifi-2007.02, 200704, 1-30ページ * |
JPN6013004972; William E. Winkler: 'Frequency-Based Matching in Fellegi-SunterModel of Record Linkage' Statistical Research Report Series , 20001004, 1-14ページ * |
Also Published As
Publication number | Publication date |
---|---|
CA2710882A1 (en) | 2009-07-23 |
CN101978348A (zh) | 2011-02-16 |
KR20100116595A (ko) | 2010-11-01 |
AU2008348066B2 (en) | 2015-03-26 |
US8775441B2 (en) | 2014-07-08 |
CN105373365A (zh) | 2016-03-02 |
CA2710882C (en) | 2017-01-17 |
CN105373365B (zh) | 2019-02-05 |
US20090182728A1 (en) | 2009-07-16 |
EP2235621A1 (en) | 2010-10-06 |
AU2008348066A1 (en) | 2009-07-23 |
WO2009091494A1 (en) | 2009-07-23 |
JP5603250B2 (ja) | 2014-10-08 |
EP2235621A4 (en) | 2012-08-29 |
US9563721B2 (en) | 2017-02-07 |
KR101564385B1 (ko) | 2015-10-29 |
CN101978348B (zh) | 2015-11-25 |
US20150066862A1 (en) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5603250B2 (ja) | 近似文字列マッチングのためのアーカイブ管理法 | |
JP6125520B2 (ja) | 候補クエリに基づくデータクラスタ化 | |
JP5306359B2 (ja) | 複数言語によるデータ記録を関連付ける方法およびシステム | |
US8321393B2 (en) | Parsing information in data records and in different languages | |
EP1952285B1 (en) | System and method for searching and matching data having ideogrammatic content | |
JPH079655B2 (ja) | スペルの誤りの検出訂正方法及び装置 | |
US11023452B2 (en) | Data dictionary with a reduced need for rebuilding | |
JPH08241335A (ja) | ファジー非決定性有限オートマトンを使用したあいまいな文字列検索方法及びシステム | |
JPH0778165A (ja) | テキスト中のエラーストリングを検出する方法及びコンピュータシステム | |
Mandal et al. | Clustering-based Bangla spell checker | |
Talbot et al. | Randomized language models via perfect hash functions | |
Eger et al. | A comparison of four character-level string-to-string translation models for (OCR) spelling error correction | |
JP2016133960A (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
Egera et al. | A Comparison of Four Character-Level String-to-String Translation Models for (OCR) Spelling Error Correction | |
Soualmia et al. | Matching health information seekers' queries to medical terms | |
AU2015202043B2 (en) | Managing an archive for approximate string matching | |
Varol et al. | Estimation of quality of service in spelling correction using Kullback–Leibler divergence | |
JP7228083B2 (ja) | データ検索装置、方法およびプログラム | |
US20230139699A1 (en) | Identifying Non-Exactly Matching Text with Diagonal Matching | |
Li et al. | An Error Classification-Based Query Error Correction Method in Chinese Search Engine | |
Luján-Mora et al. | Reducing inconsistency in data warehouses | |
CN113743094A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN116401334A (zh) | 数据指标管理方法、装置、电子设备和可读存储介质 | |
CN113326699A (zh) | 数据检测方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111215 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120323 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120419 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130204 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130426 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131106 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140110 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140306 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5603250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |