JP2014041615A - コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム - Google Patents
コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム Download PDFInfo
- Publication number
- JP2014041615A JP2014041615A JP2013172294A JP2013172294A JP2014041615A JP 2014041615 A JP2014041615 A JP 2014041615A JP 2013172294 A JP2013172294 A JP 2013172294A JP 2013172294 A JP2013172294 A JP 2013172294A JP 2014041615 A JP2014041615 A JP 2014041615A
- Authority
- JP
- Japan
- Prior art keywords
- data
- metadata
- flowing
- generated
- coprocessor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Logic Circuits (AREA)
- Advance Control (AREA)
Abstract
【解決手段】データのメタデータの生成をハードウェアアクセラレートする技法を開示する。このデータは、構造化データおよび/または非構造化データを含んでもよい。このメタデータから、ロバストで、高性能なデータ探索および解析を可能にする豊富な索引を生成することができる。データがコプロセッサに流され、索引用のメタデータがバス帯域幅速度で生成され、それによって索引付け待ち時間の劇的な改善がもたらされる。このような待ち時間の改善により、(すべてではないにせよ)はるかに大量の企業体データを効率よく、効果的に索引付けすることができる。
【選択図】図2a
Description
本出願は、参照によりその開示全体が本明細書に組み込まれる、2006年11月13日に出願された、米国仮特許出願第60/865629号の優先権を主張するものである。
以下の各項に、本明細書で使用する様々な用語のいくつかの定義を示す。また以下の項には、これらの用語に関連する背景情報も示す。
・XMLは、大きな値、またはサイズが無制限の値を持ち得る。
・XMLは、しばしば、強制されたデータ型を持たないことがある。
・XMLは柔軟なスキーマを有する。
・要素および属性のXML値は、しばしば、従来の「構造化」データベース列ほど厳格に適合されず、不要なものが完全に除去されていないことがある。
Claims (130)
- コプロセッサにデータを流すステップと、
コプロセッサを使って流れるデータのメタデータを生成するステップと、
生成されたメタデータに基づき流れるデータの索引を生成するステップと
を含む、索引付けの方法。 - コプロセッサが再構成可能論理回路を備える、請求項1に記載の方法。
- 再構成可能論理回路に、メタデータを生成するステップを実行するように構成されたファームウェアが展開されている、請求項2に記載の方法。
- ファームウェアがさらに索引を生成するステップを実行するように構成されている、請求項3に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき複数の索引を生成するステップを含む、請求項4に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項6に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項8に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行することをさらに含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対してヒストグラム生成操作を実行するステップを含む、請求項5に記載の方法。
- 生成されたヒストグラムに基づき流れるデータに対してクラスタ化操作を実行するステップをさらに含む、請求項12に記載の方法。
- ファームウェアを使って流れるデータに対して特徴ベクトル抽出を実行するステップをさらに含む、請求項5に記載の方法。
- 特徴ベクトル抽出操作が、流れるデータに対して単語解析操作を実行するステップを含む、請求項14に記載の方法。
- 特徴ベクトル抽出操作が、解析された流れるデータに対してストップリストフィルタ操作を実行するステップをさらに含む、請求項15に記載の方法。
- 特徴ベクトル抽出操作が、解析され、フィルタリングされた流れるデータに対して語幹抽出操作を実行するステップをさらに含む、請求項16に記載の方法。
- 流れるデータが非構造化データである、請求項5に記載の方法。
- 非構造化データが複数のドキュメントを含む、請求項18に記載の方法。
- 生成された索引を、関係データベースによって格納されている複数の作動用索引とマージするステップをさらに含む、請求項5に記載の方法。
- データを受け取るステップと、
受け取ったデータを、システムの主プロセッサ以外の処理装置に流すステップと、
処理装置を使い流れるデータに対してメタデータ生成操作を実行して、流れるデータのメタデータを生成するステップと
を含むデータのメタデータを生成する方法。 - 処理装置がコプロセッサを備える、請求項21に記載の方法。
- コプロセッサが再構成可能論理回路を備える、請求項22に記載の方法。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項23に記載の方法。
- メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの索引を生成するステップを含む、請求項22に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含む、請求項25に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と辞書内の複数の単語との間で完全マッチ操作を実行するステップと、
流れる単語と辞書内の単語の間に完全マッチが見つかったことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の完全マッチである流れるデータ内のデータ単語を指し示すポインタで更新するステップと
を含む、請求項25に記載の方法。 - メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含み、完全マッチ操作を実行するステップが、流れるデータ単語と、複数の辞書内の複数の単語との間で完全マッチ操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項27に記載の方法。
- 索引を生成するステップが、どの辞書内のどの単語の完全マッチでもない流れるデータ内の単語の総索引を生成するステップをさらに含む、請求項28に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の英語辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の外国語辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つが技術辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つが医学辞書である、請求項28に記載の方法。
- 辞書が、事前定義された単語のリストを含む、請求項27に記載の方法。
- 辞書の内容を変更するステップをさらに含む、請求項34に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と辞書内の複数の単語との間で近似マッチ操作を実行するステップと、
流れる単語と辞書内の単語の間に完全マッチが見つかったことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の近似マッチである流れるデータ内のデータ単語を指し示すデータ単語で更新するステップと
を含む、請求項25に記載の方法。 - メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含み、近似マッチ操作を実行するステップが、流れるデータ単語と、複数の辞書内の複数の単語との間で近似マッチ操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項36に記載の方法。
- 索引を生成するステップが、どの辞書内のどの単語の近似マッチでもない流れるデータ内の単語の総索引を生成するステップをさらに含む、請求項37に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の英語辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の外国語辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つが技術辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つが医学辞書である、請求項37に記載の方法。
- 辞書が事前定義された単語のリストを含む、請求項36に記載の方法。
- 辞書の内容を変更するステップをさらに含む、請求項43に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と、複数の事前定義されたパターンとの間で正規表現パターンマッチング操作を実行するステップと、
生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップとを含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応しており、さらに、
流れる単語と事前定義されたパターンの間にパターンマッチが見つかったことに応答して、その事前定義されたパターンに対応する生成された索引内のエントリを、その事前定義されたパターンのパターンマッチである流れるデータ内のデータを指し示すポインタで更新するステップ
を含む、請求項25に記載の方法。 - 索引を生成するステップが、どの事前定義されたパターンのパターンマッチでもない流れるデータ内のデータの総索引を生成するステップをさらに含む、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つがクレジットカード番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが社会保障番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが電子メールアドレスである、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが電話番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つがインターネットユニフォームリソースロケータ(URL)である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つを変更するステップをさらに含む、請求項45に記載の方法。
- メタデータ生成操作を実行するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項22に記載の方法。
- 分類操作を実行するステップが、流れるデータの各部分が複数の事前定義されたクラスのうちのいずれかに属するかどうか判定するステップを含む、請求項53に記載の方法。
- 分類操作に基づき流れるデータの複数のデータクラス索引を生成するステップをさらに含む、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが法律分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが医学分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つがニュース分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つがスポーツ分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが、データストリームの部分が事前定義されたパターンを含むかどうかに関する分類である、請求項54に記載の方法。
- 事前定義されたパターンがクレジットカード番号のパターンである、請求項54に記載の方法。
- メタデータ生成操作を実行するステップが、流れるデータのヒストグラムを生成するステップを含む、請求項22に記載の方法。
- 生成されたヒストグラムに基づき流れるデータ内のデータのクラスタ化操作を実行するステップをさらに含む、請求項62に記載の方法。
- クラスタ化操作に基づき流れるデータ内のデータの索引を生成するステップをさらに含む、請求項63に記載の方法。
- 生成された索引を、関係データベースによって維持されている既存の作動用索引とマージするステップ
をさらに含む、請求項25に記載の方法。 - 流れるデータが非構造化データである、請求項25に記載の方法。
- 非構造化データが複数のドキュメントを含む、請求項66に記載の方法。
- 流れるデータが構造化データである、請求項25に記載の方法。
- コプロセッサで流れるデータを前処理して流れるデータの複数の特徴ベクトルを生成するステップと、索引を生成するときに生成された特徴ベクトルを使用するステップとをさらに含む、請求項25に記載の方法。
- データのメタデータを生成するシステムであって、
主プロセッサと、
主プロセッサ以外の処理装置と
を備え、
主プロセッサがデータストリームを処理装置に向けるように構成されており、
処理装置が、データストリームを受け取り、データストリームにメタデータ生成操作を実行してデータストリームのメタデータを生成するように構成されているシステム。 - 処理装置がコプロセッサを備える、請求項70に記載のシステム。
- コプロセッサが再構成可能論理回路を備える、請求項71に記載のシステム。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項72に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの索引を生成するように構成されている、請求項71に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されている、請求項74に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサが、辞書がロードされた完全マッチングモジュールで構成されており、完全マッチングモジュールが、データストリーム内の単語と辞書内の複数の単語との間に存在する任意の完全マッチを検出するように構成されており、コプロセッサがさらに、データストリーム内の単語と辞書内の単語との間で完全マッチを検出したことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の完全マッチであるデータストリーム内のデータ単語を指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、完全マッチングモジュールがさらに、データストリームの単語と、複数の辞書内の複数の単語との間に存在する任意の完全マッチを検出するように構成されており、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項76に記載のシステム。
- コプロセッサがさらに、どの辞書内のどの単語の完全マッチでもないデータストリーム内の単語の総索引を生成するように構成されている、請求項77に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサが、辞書がロードされた近似マッチングモジュールで構成されており、近似マッチングモジュールが、データストリーム内の単語と辞書内の複数の単語との間に存在する任意の近似マッチを検出するように構成されており、コプロセッサがさらに、データストリーム内の単語と辞書内の単語との間で近似マッチを検出したことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の近似マッチであるデータストリーム内のデータ単語を指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、近似マッチングモジュールがさらに、データストリームの単語と、複数の辞書内の複数の単語との間に存在する任意の近似マッチを検出するように構成されており、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項79に記載のシステム。
- コプロセッサがさらに、どの辞書内のどの単語の近似マッチでもないデータストリーム内の単語の総索引を生成するように構成されている、請求項80に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、コプロセッサが、複数の事前定義されたパターンがロードされた正規表現パターンマッチングモジュールで構成されており、正規表現パターンマッチングモジュールが、データストリーム内の単語と事前定義されたパターンとの間に存在する任意のパターンマッチを検出するように構成されており、コプロセッサがさらに、データストリーム内のデータと事前定義されたパターンとの間のパターンマッチを検出したことに応答して、その事前定義されたパターンに対応する生成された索引内のエントリを、その事前定義されたパターンのパターンマッチであるデータストリーム内のデータを指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、どの事前定義されたパターンのパターンマッチでもないデータストリーム内のデータの総索引を生成するように構成されている、請求項82に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームに対して分類操作を実行するように構成されている、請求項71に記載のシステム。
- コプロセッサがさらに、データストリームの各部分が複数の事前定義されたクラスのうちのいずれかに属するかどうか判定するように構成されている、請求項84に記載のシステム。
- コプロセッサがさらに、分類操作に基づきデータストリームの複数のデータクラス索引を生成するように構成されている、請求項85に記載のシステム。
- コプロセッサがさらに、データストリームのヒストグラムを生成するように構成されている、請求項71に記載のシステム。
- プロセッサがさらに、生成されたヒストグラムに基づきデータストリーム内のデータのクラスタ化操作を実行するように構成されている、請求項87に記載のシステム。
- プロセッサがさらに、生成された索引を、関係データベースによって維持されている既存の作動用索引とマージするように構成されている、請求項74に記載のシステム。
- 複数のウェブページに索引付けする方法であって、
コプロセッサに複数のウェブページのデータを流すステップと、
コプロセッサを使って流れるデータのメタデータを生成するステップと、
生成されたメタデータに基づきウェブページの索引を生成するステップと
を含む、方法。 - コプロセッサが再構成可能論理回路を備える、請求項90に記載の方法。
- 再構成可能論理回路に、メタデータを生成するステップを実行するように構成されたファームウェアが展開されている、請求項91に記載の方法。
- ファームウェアがさらに、索引を生成するステップを実行するように構成されている、請求項92に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき複数の索引を生成するステップを含む、請求項93に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項95に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項97に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対してヒストグラム生成操作を実行するステップを含む、請求項94に記載の方法。
- 生成されたヒストグラムに基づき流れるデータに対してクラスタ化操作を実行するステップをさらに含む、請求項101に記載の方法。
- ファームウェアを使って流れるデータに対して特徴ベクトル抽出を実行するステップをさらに含む、請求項94に記載の方法。
- 特徴ベクトル抽出操作が、流れるデータに対して単語解析操作を実行するステップを含む、請求項103に記載の方法。
- 特徴ベクトル抽出操作が、解析された流れるデータに対してストップリストフィルタ操作を実行するステップをさらに含む、請求項104に記載の方法。
- 特徴ベクトル抽出操作が、解析され、フィルタリングされた流れるデータに対して語幹抽出操作を実行するステップをさらに含む、請求項105に記載の方法。
- 生成された索引を、関係データベースによって格納されている複数の作動用索引とマージするステップをさらに含む、請求項94に記載の方法。
- メタデータでビットストリームを豊富化する方法であって、
データオブジェクトに対応するビットストリームを受け取るステップと、
コプロセッサを使ってビットストリームのメタデータを生成するステップと、
コプロセッサを使い生成されたメタデータに基づいてビットストリームを変更するステップと
を含む、方法。 - コプロセッサを使い生成されたメタデータに基づいてデータオブジェクトを分類するステップ
をさらに含み、
変更するステップが、コプロセッサを使った分類するステップに基づいてビットストリームを変更するステップを含む、請求項108に記載の方法。 - 分類するステップが、データオブジェクトに分類を割り当てるステップを含み、変更するステップが、データオブジェクトに割り当てられた分類を示す少なくとも1ビットをビットストリームに加えるステップを含む、請求項109に記載の方法。
- コプロセッサが再構成可能論理回路を備える、請求項110に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含む、請求項111に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップを含む、請求項111に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含む、請求項111に記載の方法。
- 主プロセッサとコプロセッサとを備えるシステム内で、非構造化データのメタデータ索引を構築する方法であって、
コプロセッサに非構造化データを流すステップと、
コプロセッサを使い流れる非構造化データに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するステップと
を含む、方法。 - 非構造化データがコプロセッサを流れた後で非構造化データを非構造化データのデータストアに格納するステップと、
生成されたメタデータを構造化データのデータベースに格納するステップと
をさらに含む、請求項115に記載の方法。 - コプロセッサが再構成可能論理回路を備える、請求項116に記載の方法。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項117に記載の方法。
- メタデータが、非構造化データが非構造化データのデータストア内のどこに格納されているかの識別を含む、請求項118に記載の方法。
- メタデータを格納するステップが、メタデータをRDBMSに格納するステップを含む、請求項119に記載の方法。
- 流すステップが、
ファームウェアに企業体のすべての非構造化データを流してその非構造化データに関するメタデータを生成するステップ
を含む、請求項119に記載の方法。 - 非構造化データのメタデータ索引を構築するシステムであって、
主プロセッサと、
非構造化データストリームを受け取り、非構造化データストリームに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するように構成されたコプロセッサと
を備える、システム。 - コプロセッサが再構成可能論理回路を備える、請求項122に記載のシステム。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項123に記載のシステム。
- 非構造化データのメタデータ索引を構築する方法であって、
流される非構造化データに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するように構成されている、再構成可能論理回路に展開されたファームウェアに非構造化データを流すステップと、
非構造化データを非構造化データのデータストアに格納するステップと、
非構造化データに関するメタデータを構造化データのデータベースに格納するステップと
を含む、方法。 - データストリームにハードウェア速度で索引付けするように構成されたファームウェアパイプラインを備える、データストリームを受け取るように構成された再構成可能論理回路
を備える、索引付け装置。 - ファームウェアパイプラインがデータストリームを操作する完全マッチングモジュールを備え、完全マッチングモジュールが複数の辞書をキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作する近似マッチングモジュールを備え、近似マッチングモジュールが複数の辞書をキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作する正規表現パターンマッチングモジュールを備え、正規表現パターンモジュールが複数の事前定義されたパターンをキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作するマッチングモジュールをさらに備え、マッチングモジュールが複数の辞書をキーとして別の複数の索引の索引付け情報を生成する、請求項129に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US86562906P | 2006-11-13 | 2006-11-13 | |
US60/865,629 | 2006-11-13 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009536535A Division JP2010509691A (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014041615A true JP2014041615A (ja) | 2014-03-06 |
JP5746286B2 JP5746286B2 (ja) | 2015-07-08 |
Family
ID=39430470
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009536536A Active JP5379693B2 (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2009536535A Pending JP2010509691A (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
JP2013160166A Active JP5814989B2 (ja) | 2006-11-13 | 2013-08-01 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2013172294A Active JP5746286B2 (ja) | 2006-11-13 | 2013-08-22 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009536536A Active JP5379693B2 (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2009536535A Pending JP2010509691A (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
JP2013160166A Active JP5814989B2 (ja) | 2006-11-13 | 2013-08-01 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
Country Status (3)
Country | Link |
---|---|
EP (2) | EP2092419B1 (ja) |
JP (4) | JP5379693B2 (ja) |
WO (2) | WO2008063974A2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326819B2 (en) | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
WO2008063974A2 (en) * | 2006-11-13 | 2008-05-29 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US10229453B2 (en) | 2008-01-11 | 2019-03-12 | Ip Reservoir, Llc | Method and system for low latency basket calculation |
US8374986B2 (en) | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
CA2744746C (en) * | 2008-12-15 | 2019-12-24 | Exegy Incorporated | Method and apparatus for high-speed processing of financial market depth data |
US8659389B2 (en) | 2008-12-17 | 2014-02-25 | The Jewellery Store | Secure inventory control systems and methods for high-value goods |
US8930389B2 (en) * | 2009-10-06 | 2015-01-06 | International Business Machines Corporation | Mutual search and alert between structured and unstructured data stores |
JP5546909B2 (ja) * | 2010-03-09 | 2014-07-09 | 日本電信電話株式会社 | データ処理システム及び方法及びプログラム |
WO2013071305A2 (en) * | 2011-11-10 | 2013-05-16 | Inventime Usa, Inc. | Systems and methods for manipulating data using natural language commands |
US9292569B2 (en) * | 2012-10-02 | 2016-03-22 | Oracle International Corporation | Semi-join acceleration |
US10146845B2 (en) | 2012-10-23 | 2018-12-04 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10102260B2 (en) | 2012-10-23 | 2018-10-16 | Ip Reservoir, Llc | Method and apparatus for accelerated data translation using record layout detection |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
JP5891313B2 (ja) * | 2012-11-27 | 2016-03-22 | 株式会社日立製作所 | 計算機、計算機システム、及びデータ管理方法 |
KR101812398B1 (ko) * | 2013-05-16 | 2017-12-26 | 콘비다 와이어리스, 엘엘씨 | Iot 시스템들에 대한 서비스로서의 데이터 주석화 |
US10019483B2 (en) * | 2013-07-30 | 2018-07-10 | Hitachi, Ltd. | Search system and search method |
US9576039B2 (en) * | 2014-02-19 | 2017-02-21 | Snowflake Computing Inc. | Resource provisioning systems and methods |
GB2541577A (en) | 2014-04-23 | 2017-02-22 | Ip Reservoir Llc | Method and apparatus for accelerated data translation |
FR3021788B1 (fr) * | 2014-05-30 | 2023-07-21 | Amadeus Sas | Procede et systeme d'acces de contenu |
WO2016006098A1 (ja) * | 2014-07-11 | 2016-01-14 | 株式会社日立製作所 | データ処理システム、データベース管理システム及びデータ処理方法 |
WO2016092411A1 (en) * | 2014-12-09 | 2016-06-16 | Koninklijke Philips N.V. | System and method for uniformly correlating unstructured entry features to associated therapy features |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
JP6509718B2 (ja) * | 2015-12-17 | 2019-05-08 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、及び文書分類プログラム |
US10437780B2 (en) | 2016-07-14 | 2019-10-08 | Snowflake Inc. | Data pruning based on metadata |
JP7189125B2 (ja) | 2016-08-09 | 2022-12-13 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
JP6849904B2 (ja) * | 2016-10-28 | 2021-03-31 | 富士通株式会社 | 検索プログラム、検索装置および検索方法 |
IT201700082320A1 (it) * | 2017-07-19 | 2019-01-19 | Nuovo Pignone Tecnologie Srl | Sistema di ricerca per banche dati e metodo |
CN110472031A (zh) * | 2019-08-13 | 2019-11-19 | 北京知道创宇信息技术股份有限公司 | 一种正则表达式获得方法、装置、电子设备及存储介质 |
EP4144048A1 (en) | 2020-06-08 | 2023-03-08 | Liquid-Markets GmbH | Hardware-based transaction exchange |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998052130A1 (en) * | 1997-05-16 | 1998-11-19 | Hitachi, Ltd. | Text retrieval method |
WO2004017604A2 (en) * | 2002-08-15 | 2004-02-26 | Washington University In St. Louis | Tcp-splitter: reliable packet monitoring methods for high speed networks |
WO2005048134A2 (en) * | 2002-05-21 | 2005-05-26 | Washington University | Intelligent data storage and processing using fpga devices |
JP2005527042A (ja) * | 2002-05-21 | 2005-09-08 | ワシントン・ユニバーシティ | ネットワーク上でストリーミングされるデータを検査して再定義可能なパターンを検出しまたかつこれに応答した処理を定義するための再プログラミング可能なハードウェア |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3220865B2 (ja) * | 1991-02-28 | 2001-10-22 | 株式会社日立製作所 | フルテキストサーチ方法 |
JP2783622B2 (ja) * | 1989-11-15 | 1998-08-06 | 日本電信電話株式会社 | 複合データベースシステム |
JPH05101102A (ja) * | 1991-10-03 | 1993-04-23 | Matsushita Electric Ind Co Ltd | 検索装置 |
JPH05204993A (ja) * | 1992-01-23 | 1993-08-13 | Matsushita Electric Ind Co Ltd | 検索装置 |
JP3613403B2 (ja) * | 1993-08-13 | 2005-01-26 | 富士ゼロックス株式会社 | マルチメディア文書記憶装置 |
JP3673111B2 (ja) * | 1999-03-31 | 2005-07-20 | 株式会社東芝 | 文書管理方法および文書管理装置および記憶媒体 |
US7139743B2 (en) * | 2000-04-07 | 2006-11-21 | Washington University | Associative database scanning and information retrieval using FPGA devices |
JP2003323432A (ja) * | 2002-05-08 | 2003-11-14 | Ricoh Co Ltd | リレーショナルデータベース管理システム、プログラム及び記録媒体 |
EP1609038B1 (en) * | 2003-02-27 | 2011-02-16 | Nxp B.V. | Data processing system having a plurality of processing elements, a method of controlling a data processing system having a plurality of processing elements |
US7685254B2 (en) * | 2003-06-10 | 2010-03-23 | Pandya Ashish A | Runtime adaptable search processor |
US8311974B2 (en) * | 2004-02-20 | 2012-11-13 | Oracle International Corporation | Modularized extraction, transformation, and loading for a database |
JP2005309727A (ja) * | 2004-04-21 | 2005-11-04 | Hitachi Ltd | ファイルシステム |
US7693856B2 (en) * | 2004-06-25 | 2010-04-06 | Apple Inc. | Methods and systems for managing data |
US20060047636A1 (en) * | 2004-08-26 | 2006-03-02 | Mohania Mukesh K | Method and system for context-oriented association of unstructured content with the result of a structured database query |
US7917299B2 (en) * | 2005-03-03 | 2011-03-29 | Washington University | Method and apparatus for performing similarity searching on a data stream with respect to a query string |
JP4451332B2 (ja) * | 2005-03-07 | 2010-04-14 | 日本電信電話株式会社 | 類似時系列データ計算装置、および類似時系列データ計算プログラム |
US20070244859A1 (en) * | 2006-04-13 | 2007-10-18 | American Chemical Society | Method and system for displaying relationship between structured data and unstructured data |
WO2008063974A2 (en) * | 2006-11-13 | 2008-05-29 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
-
2007
- 2007-11-12 WO PCT/US2007/084466 patent/WO2008063974A2/en active Application Filing
- 2007-11-12 JP JP2009536536A patent/JP5379693B2/ja active Active
- 2007-11-12 EP EP07845064.0A patent/EP2092419B1/en active Active
- 2007-11-12 EP EP07845066.5A patent/EP2092440B1/en active Active
- 2007-11-12 JP JP2009536535A patent/JP2010509691A/ja active Pending
- 2007-11-12 WO PCT/US2007/084464 patent/WO2008063973A2/en active Application Filing
-
2013
- 2013-08-01 JP JP2013160166A patent/JP5814989B2/ja active Active
- 2013-08-22 JP JP2013172294A patent/JP5746286B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998052130A1 (en) * | 1997-05-16 | 1998-11-19 | Hitachi, Ltd. | Text retrieval method |
WO2005048134A2 (en) * | 2002-05-21 | 2005-05-26 | Washington University | Intelligent data storage and processing using fpga devices |
JP2005527042A (ja) * | 2002-05-21 | 2005-09-08 | ワシントン・ユニバーシティ | ネットワーク上でストリーミングされるデータを検査して再定義可能なパターンを検出しまたかつこれに応答した処理を定義するための再プログラミング可能なハードウェア |
WO2004017604A2 (en) * | 2002-08-15 | 2004-02-26 | Washington University In St. Louis | Tcp-splitter: reliable packet monitoring methods for high speed networks |
Also Published As
Publication number | Publication date |
---|---|
JP2010511925A (ja) | 2010-04-15 |
WO2008063974A3 (en) | 2008-11-20 |
WO2008063973A3 (en) | 2008-12-24 |
EP2092440A4 (en) | 2013-06-19 |
WO2008063974A2 (en) | 2008-05-29 |
EP2092419A4 (en) | 2013-06-05 |
EP2092419A2 (en) | 2009-08-26 |
JP2010509691A (ja) | 2010-03-25 |
JP5379693B2 (ja) | 2013-12-25 |
JP5814989B2 (ja) | 2015-11-17 |
JP5746286B2 (ja) | 2015-07-08 |
WO2008063973A2 (en) | 2008-05-29 |
EP2092419B1 (en) | 2020-01-01 |
JP2013242915A (ja) | 2013-12-05 |
EP2092440B1 (en) | 2019-01-09 |
EP2092440A2 (en) | 2009-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5746286B2 (ja) | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム | |
US8326819B2 (en) | Method and system for high performance data metatagging and data indexing using coprocessors | |
US11449538B2 (en) | Method and system for high performance integration, processing and searching of structured and unstructured data | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
Urvoy et al. | Tracking web spam with html style similarities | |
US8965894B2 (en) | Automated web page classification | |
US8577823B1 (en) | Taxonomy system for enterprise data management and analysis | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
Konchady | Building Search Applications: Lucene, LingPipe, and Gate | |
Maciołek et al. | Cluo: Web-scale text mining system for open source intelligence purposes | |
Raghavendra Nayaka et al. | An efficient framework for algorithmic metadata extraction over scholarly documents using deep neural networks | |
Kostakos | Strings and things: A semantic search engine for news quotes using named entity recognition | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN108733687A (zh) | 一种基于文字识别的信息检索方法和系统 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Singh et al. | User specific context construction for personalized multimedia retrieval | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム | |
Wu et al. | ChemBrowser: a flexible framework for mining chemical documents | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
CN105488035A (zh) | 一种对话式的自然语言处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140708 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20141002 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5746286 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |