JP2010509691A - コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム - Google Patents
コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム Download PDFInfo
- Publication number
- JP2010509691A JP2010509691A JP2009536535A JP2009536535A JP2010509691A JP 2010509691 A JP2010509691 A JP 2010509691A JP 2009536535 A JP2009536535 A JP 2009536535A JP 2009536535 A JP2009536535 A JP 2009536535A JP 2010509691 A JP2010509691 A JP 2010509691A
- Authority
- JP
- Japan
- Prior art keywords
- data
- metadata
- flowing
- generated
- coprocessor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Logic Circuits (AREA)
- Advance Control (AREA)
Abstract
Description
本出願は、参照によりその開示全体が本明細書に組み込まれる、2006年11月13日に出願された、米国仮特許出願第60/865629号の優先権を主張するものである。
以下の各項に、本明細書で使用する様々な用語のいくつかの定義を示す。また以下の項には、これらの用語に関連する背景情報も示す。
・XMLは、大きな値、またはサイズが無制限の値を持ち得る。
・XMLは、しばしば、強制されたデータ型を持たないことがある。
・XMLは柔軟なスキーマを有する。
・要素および属性のXML値は、しばしば、従来の「構造化」データベース列ほど厳格に適合されず、不要なものが完全に除去されていないことがある。
Claims (130)
- コプロセッサにデータを流すステップと、
コプロセッサを使って流れるデータのメタデータを生成するステップと、
生成されたメタデータに基づき流れるデータの索引を生成するステップと
を含む、索引付けの方法。 - コプロセッサが再構成可能論理回路を備える、請求項1に記載の方法。
- 再構成可能論理回路に、メタデータを生成するステップを実行するように構成されたファームウェアが展開されている、請求項2に記載の方法。
- ファームウェアがさらに索引を生成するステップを実行するように構成されている、請求項3に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき複数の索引を生成するステップを含む、請求項4に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項6に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項8に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行することをさらに含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項5に記載の方法。
- メタデータを生成するステップが、流れるデータに対してヒストグラム生成操作を実行するステップを含む、請求項5に記載の方法。
- 生成されたヒストグラムに基づき流れるデータに対してクラスタ化操作を実行するステップをさらに含む、請求項12に記載の方法。
- ファームウェアを使って流れるデータに対して特徴ベクトル抽出を実行するステップをさらに含む、請求項5に記載の方法。
- 特徴ベクトル抽出操作が、流れるデータに対して単語解析操作を実行するステップを含む、請求項14に記載の方法。
- 特徴ベクトル抽出操作が、解析された流れるデータに対してストップリストフィルタ操作を実行するステップをさらに含む、請求項15に記載の方法。
- 特徴ベクトル抽出操作が、解析され、フィルタリングされた流れるデータに対して語幹抽出操作を実行するステップをさらに含む、請求項16に記載の方法。
- 流れるデータが非構造化データである、請求項5に記載の方法。
- 非構造化データが複数のドキュメントを含む、請求項18に記載の方法。
- 生成された索引を、関係データベースによって格納されている複数の作動用索引とマージするステップをさらに含む、請求項5に記載の方法。
- データを受け取るステップと、
受け取ったデータを、システムの主プロセッサ以外の処理装置に流すステップと、
処理装置を使い流れるデータに対してメタデータ生成操作を実行して、流れるデータのメタデータを生成するステップと
を含むデータのメタデータを生成する方法。 - 処理装置がコプロセッサを備える、請求項21に記載の方法。
- コプロセッサが再構成可能論理回路を備える、請求項22に記載の方法。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項23に記載の方法。
- メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの索引を生成するステップを含む、請求項22に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含む、請求項25に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と辞書内の複数の単語との間で完全マッチ操作を実行するステップと、
流れる単語と辞書内の単語の間に完全マッチが見つかったことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の完全マッチである流れるデータ内のデータ単語を指し示すポインタで更新するステップと
を含む、請求項25に記載の方法。 - メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含み、完全マッチ操作を実行するステップが、流れるデータ単語と、複数の辞書内の複数の単語との間で完全マッチ操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項27に記載の方法。
- 索引を生成するステップが、どの辞書内のどの単語の完全マッチでもない流れるデータ内の単語の総索引を生成するステップをさらに含む、請求項28に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の英語辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の外国語辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つが技術辞書である、請求項28に記載の方法。
- 辞書のうちの少なくとも1つが医学辞書である、請求項28に記載の方法。
- 辞書が、事前定義された単語のリストを含む、請求項27に記載の方法。
- 辞書の内容を変更するステップをさらに含む、請求項34に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と辞書内の複数の単語との間で近似マッチ操作を実行するステップと、
流れる単語と辞書内の単語の間に完全マッチが見つかったことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の近似マッチである流れるデータ内のデータ単語を指し示すデータ単語で更新するステップと
を含む、請求項25に記載の方法。 - メタデータ生成操作を実行するステップが、生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップを含み、近似マッチ操作を実行するステップが、流れるデータ単語と、複数の辞書内の複数の単語との間で近似マッチ操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項36に記載の方法。
- 索引を生成するステップが、どの辞書内のどの単語の近似マッチでもない流れるデータ内の単語の総索引を生成するステップをさらに含む、請求項37に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の英語辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つがまる1冊分の外国語辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つが技術辞書である、請求項37に記載の方法。
- 辞書のうちの少なくとも1つが医学辞書である、請求項37に記載の方法。
- 辞書が事前定義された単語のリストを含む、請求項36に記載の方法。
- 辞書の内容を変更するステップをさらに含む、請求項43に記載の方法。
- データストリームが複数のデータ単語を含み、メタデータ生成操作を実行するステップが、
流れるデータ単語と、複数の事前定義されたパターンとの間で正規表現パターンマッチング操作を実行するステップと、
生成されたメタデータに基づき流れるデータの複数の索引を同時に生成するステップとを含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応しており、さらに、
流れる単語と事前定義されたパターンの間にパターンマッチが見つかったことに応答して、その事前定義されたパターンに対応する生成された索引内のエントリを、その事前定義されたパターンのパターンマッチである流れるデータ内のデータを指し示すポインタで更新するステップ
を含む、請求項25に記載の方法。 - 索引を生成するステップが、どの事前定義されたパターンのパターンマッチでもない流れるデータ内のデータの総索引を生成するステップをさらに含む、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つがクレジットカード番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが社会保障番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが電子メールアドレスである、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つが電話番号である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つがインターネットユニフォームリソースロケータ(URL)である、請求項45に記載の方法。
- 事前定義されたパターンのうちの少なくとも1つを変更するステップをさらに含む、請求項45に記載の方法。
- メタデータ生成操作を実行するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項22に記載の方法。
- 分類操作を実行するステップが、流れるデータの各部分が複数の事前定義されたクラスのうちのいずれかに属するかどうか判定するステップを含む、請求項53に記載の方法。
- 分類操作に基づき流れるデータの複数のデータクラス索引を生成するステップをさらに含む、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが法律分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが医学分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つがニュース分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つがスポーツ分類である、請求項54に記載の方法。
- 事前定義されたクラスのうちの少なくとも1つが、データストリームの部分が事前定義されたパターンを含むかどうかに関する分類である、請求項54に記載の方法。
- 事前定義されたパターンがクレジットカード番号のパターンである、請求項54に記載の方法。
- メタデータ生成操作を実行するステップが、流れるデータのヒストグラムを生成するステップを含む、請求項22に記載の方法。
- 生成されたヒストグラムに基づき流れるデータ内のデータのクラスタ化操作を実行するステップをさらに含む、請求項62に記載の方法。
- クラスタ化操作に基づき流れるデータ内のデータの索引を生成するステップをさらに含む、請求項63に記載の方法。
- 生成された索引を、関係データベースによって維持されている既存の作動用索引とマージするステップ
をさらに含む、請求項25に記載の方法。 - 流れるデータが非構造化データである、請求項25に記載の方法。
- 非構造化データが複数のドキュメントを含む、請求項66に記載の方法。
- 流れるデータが構造化データである、請求項25に記載の方法。
- コプロセッサで流れるデータを前処理して流れるデータの複数の特徴ベクトルを生成するステップと、索引を生成するときに生成された特徴ベクトルを使用するステップとをさらに含む、請求項25に記載の方法。
- データのメタデータを生成するシステムであって、
主プロセッサと、
主プロセッサ以外の処理装置と
を備え、
主プロセッサがデータストリームを処理装置に向けるように構成されており、
処理装置が、データストリームを受け取り、データストリームにメタデータ生成操作を実行してデータストリームのメタデータを生成するように構成されているシステム。 - 処理装置がコプロセッサを備える、請求項70に記載のシステム。
- コプロセッサが再構成可能論理回路を備える、請求項71に記載のシステム。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項72に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの索引を生成するように構成されている、請求項71に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されている、請求項74に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサが、辞書がロードされた完全マッチングモジュールで構成されており、完全マッチングモジュールが、データストリーム内の単語と辞書内の複数の単語との間に存在する任意の完全マッチを検出するように構成されており、コプロセッサがさらに、データストリーム内の単語と辞書内の単語との間で完全マッチを検出したことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の完全マッチであるデータストリーム内のデータ単語を指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、完全マッチングモジュールがさらに、データストリームの単語と、複数の辞書内の複数の単語との間に存在する任意の完全マッチを検出するように構成されており、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項76に記載のシステム。
- コプロセッサがさらに、どの辞書内のどの単語の完全マッチでもないデータストリーム内の単語の総索引を生成するように構成されている、請求項77に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサが、辞書がロードされた近似マッチングモジュールで構成されており、近似マッチングモジュールが、データストリーム内の単語と辞書内の複数の単語との間に存在する任意の近似マッチを検出するように構成されており、コプロセッサがさらに、データストリーム内の単語と辞書内の単語との間で近似マッチを検出したことに応答して、その辞書単語に対応する生成された索引内のエントリを、その辞書単語の近似マッチであるデータストリーム内のデータ単語を指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、近似マッチングモジュールがさらに、データストリームの単語と、複数の辞書内の複数の単語との間に存在する任意の近似マッチを検出するように構成されており、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項79に記載のシステム。
- コプロセッサがさらに、どの辞書内のどの単語の近似マッチでもないデータストリーム内の単語の総索引を生成するように構成されている、請求項80に記載のシステム。
- データストリームが複数のデータ単語を含み、コプロセッサがさらに、生成されたメタデータに基づきデータストリームの複数の索引を同時に生成するように構成されており、コプロセッサが、複数の事前定義されたパターンがロードされた正規表現パターンマッチングモジュールで構成されており、正規表現パターンマッチングモジュールが、データストリーム内の単語と事前定義されたパターンとの間に存在する任意のパターンマッチを検出するように構成されており、コプロセッサがさらに、データストリーム内のデータと事前定義されたパターンとの間のパターンマッチを検出したことに応答して、その事前定義されたパターンに対応する生成された索引内のエントリを、その事前定義されたパターンのパターンマッチであるデータストリーム内のデータを指し示すポインタで更新するように構成されている、請求項74に記載のシステム。
- コプロセッサがさらに、どの事前定義されたパターンのパターンマッチでもないデータストリーム内のデータの総索引を生成するように構成されている、請求項82に記載のシステム。
- コプロセッサがさらに、生成されたメタデータに基づきデータストリームに対して分類操作を実行するように構成されている、請求項71に記載のシステム。
- コプロセッサがさらに、データストリームの各部分が複数の事前定義されたクラスのうちのいずれかに属するかどうか判定するように構成されている、請求項84に記載のシステム。
- コプロセッサがさらに、分類操作に基づきデータストリームの複数のデータクラス索引を生成するように構成されている、請求項85に記載のシステム。
- コプロセッサがさらに、データストリームのヒストグラムを生成するように構成されている、請求項71に記載のシステム。
- プロセッサがさらに、生成されたヒストグラムに基づきデータストリーム内のデータのクラスタ化操作を実行するように構成されている、請求項87に記載のシステム。
- プロセッサがさらに、生成された索引を、関係データベースによって維持されている既存の作動用索引とマージするように構成されている、請求項74に記載のシステム。
- 複数のウェブページに索引付けする方法であって、
コプロセッサに複数のウェブページのデータを流すステップと、
コプロセッサを使って流れるデータのメタデータを生成するステップと、
生成されたメタデータに基づきウェブページの索引を生成するステップと
を含む、方法。 - コプロセッサが再構成可能論理回路を備える、請求項90に記載の方法。
- 再構成可能論理回路に、メタデータを生成するステップを実行するように構成されたファームウェアが展開されている、請求項91に記載の方法。
- ファームウェアがさらに、索引を生成するステップを実行するように構成されている、請求項92に記載の方法。
- 索引を生成するステップが、生成されたメタデータに基づき複数の索引を生成するステップを含む、請求項93に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項95に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含み、それぞれの辞書が生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、複数の生成された索引が複数の辞書に対応し、別の複数の生成された索引が複数の事前定義されたパターンに対応するように、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項97に記載の方法。
- メタデータを生成するステップが、流れるデータに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップをさらに含み、それぞれの事前定義されたパターンが生成された索引のうちの異なる1つに対応している、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対して分類操作を実行するステップを含む、請求項94に記載の方法。
- メタデータを生成するステップが、流れるデータに対してヒストグラム生成操作を実行するステップを含む、請求項94に記載の方法。
- 生成されたヒストグラムに基づき流れるデータに対してクラスタ化操作を実行するステップをさらに含む、請求項101に記載の方法。
- ファームウェアを使って流れるデータに対して特徴ベクトル抽出を実行するステップをさらに含む、請求項94に記載の方法。
- 特徴ベクトル抽出操作が、流れるデータに対して単語解析操作を実行するステップを含む、請求項103に記載の方法。
- 特徴ベクトル抽出操作が、解析された流れるデータに対してストップリストフィルタ操作を実行するステップをさらに含む、請求項104に記載の方法。
- 特徴ベクトル抽出操作が、解析され、フィルタリングされた流れるデータに対して語幹抽出操作を実行するステップをさらに含む、請求項105に記載の方法。
- 生成された索引を、関係データベースによって格納されている複数の作動用索引とマージするステップをさらに含む、請求項94に記載の方法。
- メタデータでビットストリームを豊富化する方法であって、
データオブジェクトに対応するビットストリームを受け取るステップと、
コプロセッサを使ってビットストリームのメタデータを生成するステップと、
コプロセッサを使い生成されたメタデータに基づいてビットストリームを変更するステップと
を含む、方法。 - コプロセッサを使い生成されたメタデータに基づいてデータオブジェクトを分類するステップ
をさらに含み、
変更するステップが、コプロセッサを使った分類するステップに基づいてビットストリームを変更するステップを含む、請求項108に記載の方法。 - 分類するステップが、データオブジェクトに分類を割り当てるステップを含み、変更するステップが、データオブジェクトに割り当てられた分類を示す少なくとも1ビットをビットストリームに加えるステップを含む、請求項109に記載の方法。
- コプロセッサが再構成可能論理回路を備える、請求項110に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の辞書内の複数の単語をキーとする完全マッチング操作を実行するステップを含む、請求項111に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の事前定義されたパターンをキーとする正規表現パターンマッチング操作を実行するステップを含む、請求項111に記載の方法。
- メタデータを生成するステップが、ビットストリームに対して、複数の辞書内の複数の単語をキーとする近似マッチング操作を実行するステップを含む、請求項111に記載の方法。
- 主プロセッサとコプロセッサとを備えるシステム内で、非構造化データのメタデータ索引を構築する方法であって、
コプロセッサに非構造化データを流すステップと、
コプロセッサを使い流れる非構造化データに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するステップと
を含む、方法。 - 非構造化データがコプロセッサを流れた後で非構造化データを非構造化データのデータストアに格納するステップと、
生成されたメタデータを構造化データのデータベースに格納するステップと
をさらに含む、請求項115に記載の方法。 - コプロセッサが再構成可能論理回路を備える、請求項116に記載の方法。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項117に記載の方法。
- メタデータが、非構造化データが非構造化データのデータストア内のどこに格納されているかの識別を含む、請求項118に記載の方法。
- メタデータを格納するステップが、メタデータをRDBMSに格納するステップを含む、請求項119に記載の方法。
- 流すステップが、
ファームウェアに企業体のすべての非構造化データを流してその非構造化データに関するメタデータを生成するステップ
を含む、請求項119に記載の方法。 - 非構造化データのメタデータ索引を構築するシステムであって、
主プロセッサと、
非構造化データストリームを受け取り、非構造化データストリームに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するように構成されたコプロセッサと
を備える、システム。 - コプロセッサが再構成可能論理回路を備える、請求項122に記載のシステム。
- 再構成可能論理回路に、メタデータ生成操作を実行するように構成されたファームウェアが展開されている、請求項123に記載のシステム。
- 非構造化データのメタデータ索引を構築する方法であって、
流される非構造化データに対してメタデータ生成操作を実行して非構造化データに関するメタデータを生成するように構成されている、再構成可能論理回路に展開されたファームウェアに非構造化データを流すステップと、
非構造化データを非構造化データのデータストアに格納するステップと、
非構造化データに関するメタデータを構造化データのデータベースに格納するステップと
を含む、方法。 - データストリームにハードウェア速度で索引付けするように構成されたファームウェアパイプラインを備える、データストリームを受け取るように構成された再構成可能論理回路
を備える、索引付け装置。 - ファームウェアパイプラインがデータストリームを操作する完全マッチングモジュールを備え、完全マッチングモジュールが複数の辞書をキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作する近似マッチングモジュールを備え、近似マッチングモジュールが複数の辞書をキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作する正規表現パターンマッチングモジュールを備え、正規表現パターンモジュールが複数の事前定義されたパターンをキーとして複数の索引の索引付け情報を生成する、請求項126に記載の装置。
- ファームウェアパイプラインがデータストリームを操作するマッチングモジュールをさらに備え、マッチングモジュールが複数の辞書をキーとして別の複数の索引の索引付け情報を生成する、請求項129に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US86562906P | 2006-11-13 | 2006-11-13 | |
PCT/US2007/084464 WO2008063973A2 (en) | 2006-11-13 | 2007-11-12 | Method and system for high performance data metatagging and data indexing using coprocessors |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013172294A Division JP5746286B2 (ja) | 2006-11-13 | 2013-08-22 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010509691A true JP2010509691A (ja) | 2010-03-25 |
JP2010509691A5 JP2010509691A5 (ja) | 2011-01-06 |
Family
ID=39430470
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009536536A Active JP5379693B2 (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2009536535A Pending JP2010509691A (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
JP2013160166A Active JP5814989B2 (ja) | 2006-11-13 | 2013-08-01 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2013172294A Active JP5746286B2 (ja) | 2006-11-13 | 2013-08-22 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009536536A Active JP5379693B2 (ja) | 2006-11-13 | 2007-11-12 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013160166A Active JP5814989B2 (ja) | 2006-11-13 | 2013-08-01 | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
JP2013172294A Active JP5746286B2 (ja) | 2006-11-13 | 2013-08-22 | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム |
Country Status (3)
Country | Link |
---|---|
EP (2) | EP2092419B1 (ja) |
JP (4) | JP5379693B2 (ja) |
WO (2) | WO2008063974A2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010511925A (ja) * | 2006-11-13 | 2010-04-15 | エクセジー・インコーポレイテツド | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
WO2014083608A1 (ja) * | 2012-11-27 | 2014-06-05 | 株式会社日立製作所 | 計算機、計算機システム、及びデータ管理方法 |
WO2015015559A1 (ja) * | 2013-07-30 | 2015-02-05 | 株式会社日立製作所 | 検索システムおよび検索方法 |
JP2016522491A (ja) * | 2013-05-16 | 2016-07-28 | コンヴィーダ ワイヤレス, エルエルシー | Iotシステムのためのサービスとしてのデータ注釈 |
JP2017512338A (ja) * | 2014-02-19 | 2017-05-18 | スノーフレーク コンピューティング インク.Snowflake Computing Inc. | 第一クラスデータベース要素としての半構造データの実装 |
JP2017111672A (ja) * | 2015-12-17 | 2017-06-22 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、及び文書分類プログラム |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326819B2 (en) | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US10229453B2 (en) | 2008-01-11 | 2019-03-12 | Ip Reservoir, Llc | Method and system for low latency basket calculation |
US8374986B2 (en) | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
CA3059606C (en) * | 2008-12-15 | 2023-01-17 | Ip Reservoir, Llc | Method and apparatus for high-speed processing of financial market depth data |
US8659389B2 (en) | 2008-12-17 | 2014-02-25 | The Jewellery Store | Secure inventory control systems and methods for high-value goods |
US8930389B2 (en) * | 2009-10-06 | 2015-01-06 | International Business Machines Corporation | Mutual search and alert between structured and unstructured data stores |
JP5546909B2 (ja) * | 2010-03-09 | 2014-07-09 | 日本電信電話株式会社 | データ処理システム及び方法及びプログラム |
WO2013071305A2 (en) * | 2011-11-10 | 2013-05-16 | Inventime Usa, Inc. | Systems and methods for manipulating data using natural language commands |
US9063974B2 (en) * | 2012-10-02 | 2015-06-23 | Oracle International Corporation | Hardware for table scan acceleration |
US9633097B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for record pivoting to accelerate processing of data fields |
WO2014066416A2 (en) | 2012-10-23 | 2014-05-01 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
GB2541577A (en) | 2014-04-23 | 2017-02-22 | Ip Reservoir Llc | Method and apparatus for accelerated data translation |
FR3021788B1 (fr) * | 2014-05-30 | 2023-07-21 | Amadeus Sas | Procede et systeme d'acces de contenu |
US10346371B2 (en) | 2014-07-11 | 2019-07-09 | Hitachi, Ltd. | Data processing system, database management system, and data processing method |
WO2016092411A1 (en) * | 2014-12-09 | 2016-06-16 | Koninklijke Philips N.V. | System and method for uniformly correlating unstructured entry features to associated therapy features |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
US10437780B2 (en) | 2016-07-14 | 2019-10-08 | Snowflake Inc. | Data pruning based on metadata |
CA3033642A1 (en) | 2016-08-09 | 2018-02-15 | Ripcord Inc. | Systems and methods for electronic records tagging |
JP6849904B2 (ja) * | 2016-10-28 | 2021-03-31 | 富士通株式会社 | 検索プログラム、検索装置および検索方法 |
IT201700082320A1 (it) * | 2017-07-19 | 2019-01-19 | Nuovo Pignone Tecnologie Srl | Sistema di ricerca per banche dati e metodo |
US10880211B2 (en) | 2019-05-06 | 2020-12-29 | Seth Gregory Friedman | Transaction encoding and verification by way of data-link layer fields |
CN110472031A (zh) * | 2019-08-13 | 2019-11-19 | 北京知道创宇信息技术股份有限公司 | 一种正则表达式获得方法、装置、电子设备及存储介质 |
US11935120B2 (en) | 2020-06-08 | 2024-03-19 | Liquid-Markets GmbH | Hardware-based transaction exchange |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285134A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 文書管理方法および文書管理装置および記憶媒体 |
WO2005048134A2 (en) * | 2002-05-21 | 2005-05-26 | Washington University | Intelligent data storage and processing using fpga devices |
JP2006519432A (ja) * | 2003-02-27 | 2006-08-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の処理要素を有するデータ処理システム、複数の処理要素を有するデータ処理システムを制御する方法 |
WO2006096324A2 (en) * | 2005-03-03 | 2006-09-14 | Washington University | Method and apparatus for performing biosequence similarity searching |
JP2006244389A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3220865B2 (ja) * | 1991-02-28 | 2001-10-22 | 株式会社日立製作所 | フルテキストサーチ方法 |
JP2783622B2 (ja) * | 1989-11-15 | 1998-08-06 | 日本電信電話株式会社 | 複合データベースシステム |
JPH05101102A (ja) * | 1991-10-03 | 1993-04-23 | Matsushita Electric Ind Co Ltd | 検索装置 |
JPH05204993A (ja) * | 1992-01-23 | 1993-08-13 | Matsushita Electric Ind Co Ltd | 検索装置 |
JP3613403B2 (ja) * | 1993-08-13 | 2005-01-26 | 富士ゼロックス株式会社 | マルチメディア文書記憶装置 |
JP3445800B2 (ja) * | 1997-05-16 | 2003-09-08 | 株式会社日立製作所 | テキスト検索方法 |
US7139743B2 (en) * | 2000-04-07 | 2006-11-21 | Washington University | Associative database scanning and information retrieval using FPGA devices |
JP2003323432A (ja) * | 2002-05-08 | 2003-11-14 | Ricoh Co Ltd | リレーショナルデータベース管理システム、プログラム及び記録媒体 |
US7093023B2 (en) * | 2002-05-21 | 2006-08-15 | Washington University | Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto |
US7711844B2 (en) * | 2002-08-15 | 2010-05-04 | Washington University Of St. Louis | TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks |
US7685254B2 (en) | 2003-06-10 | 2010-03-23 | Pandya Ashish A | Runtime adaptable search processor |
US8311974B2 (en) * | 2004-02-20 | 2012-11-13 | Oracle International Corporation | Modularized extraction, transformation, and loading for a database |
JP2005309727A (ja) * | 2004-04-21 | 2005-11-04 | Hitachi Ltd | ファイルシステム |
US7693856B2 (en) * | 2004-06-25 | 2010-04-06 | Apple Inc. | Methods and systems for managing data |
US20060047636A1 (en) * | 2004-08-26 | 2006-03-02 | Mohania Mukesh K | Method and system for context-oriented association of unstructured content with the result of a structured database query |
US20070244859A1 (en) * | 2006-04-13 | 2007-10-18 | American Chemical Society | Method and system for displaying relationship between structured data and unstructured data |
EP2092419B1 (en) * | 2006-11-13 | 2020-01-01 | IP Reservoir, LLC | Method and system for high performance data metatagging and data indexing using coprocessors |
-
2007
- 2007-11-12 EP EP07845064.0A patent/EP2092419B1/en active Active
- 2007-11-12 EP EP07845066.5A patent/EP2092440B1/en active Active
- 2007-11-12 WO PCT/US2007/084466 patent/WO2008063974A2/en active Application Filing
- 2007-11-12 WO PCT/US2007/084464 patent/WO2008063973A2/en active Application Filing
- 2007-11-12 JP JP2009536536A patent/JP5379693B2/ja active Active
- 2007-11-12 JP JP2009536535A patent/JP2010509691A/ja active Pending
-
2013
- 2013-08-01 JP JP2013160166A patent/JP5814989B2/ja active Active
- 2013-08-22 JP JP2013172294A patent/JP5746286B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285134A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 文書管理方法および文書管理装置および記憶媒体 |
WO2005048134A2 (en) * | 2002-05-21 | 2005-05-26 | Washington University | Intelligent data storage and processing using fpga devices |
JP2006519432A (ja) * | 2003-02-27 | 2006-08-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の処理要素を有するデータ処理システム、複数の処理要素を有するデータ処理システムを制御する方法 |
WO2006096324A2 (en) * | 2005-03-03 | 2006-09-14 | Washington University | Method and apparatus for performing biosequence similarity searching |
JP2006244389A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010511925A (ja) * | 2006-11-13 | 2010-04-15 | エクセジー・インコーポレイテツド | コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム |
WO2014083608A1 (ja) * | 2012-11-27 | 2014-06-05 | 株式会社日立製作所 | 計算機、計算機システム、及びデータ管理方法 |
JP2016522491A (ja) * | 2013-05-16 | 2016-07-28 | コンヴィーダ ワイヤレス, エルエルシー | Iotシステムのためのサービスとしてのデータ注釈 |
JP2018010699A (ja) * | 2013-05-16 | 2018-01-18 | コンヴィーダ ワイヤレス, エルエルシー | Iotシステムのためのサービスとしてのデータ注釈 |
US11172008B2 (en) | 2013-05-16 | 2021-11-09 | Convida Wireless, Llc | Data annotation as a service for IoT systems |
WO2015015559A1 (ja) * | 2013-07-30 | 2015-02-05 | 株式会社日立製作所 | 検索システムおよび検索方法 |
JP2017512338A (ja) * | 2014-02-19 | 2017-05-18 | スノーフレーク コンピューティング インク.Snowflake Computing Inc. | 第一クラスデータベース要素としての半構造データの実装 |
JP2019194882A (ja) * | 2014-02-19 | 2019-11-07 | スノーフレーク インク. | ファーストクラスデータベース要素としての半構造データの実装 |
JP7130600B2 (ja) | 2014-02-19 | 2022-09-05 | スノーフレーク インク. | ファーストクラスデータベース要素としての半構造データの実装 |
JP2017111672A (ja) * | 2015-12-17 | 2017-06-22 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、及び文書分類プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2010511925A (ja) | 2010-04-15 |
WO2008063973A2 (en) | 2008-05-29 |
JP5379693B2 (ja) | 2013-12-25 |
EP2092440A4 (en) | 2013-06-19 |
WO2008063974A3 (en) | 2008-11-20 |
JP2013242915A (ja) | 2013-12-05 |
JP5746286B2 (ja) | 2015-07-08 |
WO2008063974A2 (en) | 2008-05-29 |
JP2014041615A (ja) | 2014-03-06 |
EP2092419A4 (en) | 2013-06-05 |
EP2092419A2 (en) | 2009-08-26 |
WO2008063973A3 (en) | 2008-12-24 |
EP2092440B1 (en) | 2019-01-09 |
EP2092440A2 (en) | 2009-08-26 |
JP5814989B2 (ja) | 2015-11-17 |
EP2092419B1 (en) | 2020-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5746286B2 (ja) | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム | |
US9323794B2 (en) | Method and system for high performance pattern indexing | |
US11449538B2 (en) | Method and system for high performance integration, processing and searching of structured and unstructured data | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US8965894B2 (en) | Automated web page classification | |
US8577823B1 (en) | Taxonomy system for enterprise data management and analysis | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
US11222013B2 (en) | Custom named entities and tags for natural language search query processing | |
CN102789464B (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
US10706030B2 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
Konchady | Building Search Applications: Lucene, LingPipe, and Gate | |
Maciołek et al. | Cluo: Web-scale text mining system for open source intelligence purposes | |
Rathod | Extractive text summarization of Marathi news articles | |
KR102371224B1 (ko) | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN108733687A (zh) | 一种基于文字识别的信息检索方法和系统 | |
Singh et al. | User specific context construction for personalized multimedia retrieval | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
KR102458989B1 (ko) | 센텐스 티커를 기반으로 뉴스에 대한 뉴스 티커를 결정하는 방법 및 이러한 방법을 수행하는 장치 | |
Jian-Wu | A Chinese web page clustering algorithm based on the suffix tree | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
Палій et al. | Data recognition in documents and classification algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121011 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130221 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130321 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130423 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130819 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130822 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130819 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130925 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20131018 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140207 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140217 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20150123 |