JP7355403B2 - 大規模エンティティ解決のための2段階計算メモイング - Google Patents

大規模エンティティ解決のための2段階計算メモイング Download PDF

Info

Publication number
JP7355403B2
JP7355403B2 JP2021500262A JP2021500262A JP7355403B2 JP 7355403 B2 JP7355403 B2 JP 7355403B2 JP 2021500262 A JP2021500262 A JP 2021500262A JP 2021500262 A JP2021500262 A JP 2021500262A JP 7355403 B2 JP7355403 B2 JP 7355403B2
Authority
JP
Japan
Prior art keywords
cache
feature vector
link feature
vector table
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021500262A
Other languages
English (en)
Other versions
JP2021531562A (ja
Inventor
リー、ミン
ポパ、ルーシャン
セン、プリスビラージュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021531562A publication Critical patent/JP2021531562A/ja
Application granted granted Critical
Publication of JP7355403B2 publication Critical patent/JP7355403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • G06F12/0897Caches characterised by their organisation or structure with two or more cache hierarchy levels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1048Scalability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/15Use in a specific computing environment
    • G06F2212/154Networked environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/28Using a specific disk cache architecture
    • G06F2212/283Plural cache memories
    • G06F2212/284Plural cache memories being distributed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/454Vector or matrix data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Machine Translation (AREA)

Description

エンティティ解決(ER:entity resolution)規則の能動学習(active learning)は、対話性が必須である場合にユーザの負荷を緩和する。現在の解決策は、大きなデータ・セットに対して十分に拡張しない。数百万のレコードを有するデータ・セットの場合、各繰り返しが、6個のノード・クラスタ上で数分~数十分かかることがある。
照合関数(matching function)は、ER規則を構成する基本単位であり、それらは、ユーザによって提供される。能動学習は、閾値を伴って複数の照合関数の構成を学習し、ER規則を生成する。能動学習プロセスの複数の繰り返しは、いくつかのER規則を出力し、それは、全体として、同一の現実世界エンティティに属するエンティティを識別する。
ブロッキング関数(blocking function)は、ER規則に組み込まれる特殊な種類の照合関数である。1つのER規則は、少なくとも1つのブロッキング関数を有するべきである。ブロッキング関数は、2つの入力データ・セットから比較されるべきペアの数を減少させるために使用され、それによって計算コストが減少する。
実施形態は、分散型計算メモイング・キャッシュ(distributed compute memoing cache)を用いて冗長計算を除去することによって大規模エンティティ解決(ER:entity resolution)の能動学習を最適化することに関連する。一実施形態は、プロセッサによって、分散型計算メモイング・キャッシュを用いて冗長計算を除去する大規模エンティティ解決の能動学習を実行することを含む方法を提供する。大規模エンティティ解決の能動学習の中間結果に対して、リンク特徴ベクトル・テーブルが決定される。リンク特徴ベクトル・テーブルは、2段階キャッシュ階層(two-level cache hierarchy)によって管理される。
本発明の、これらのおよび他の特徴、態様および利点については、以下の説明、添付の特許請求の範囲および添付図面を参照して理解されるであろう。
発明の実施形態が、ここで単なる例として添付図面を参照して説明される。
実施形態による、クラウド・コンピューティング環境を示す図である。 実施形態による、抽象モデル・レイヤのセットを示す図である。 実施形態による、2段階分散型計算メモイング・キャッシュ・システムのためのネットワーク・アーキテクチャを示す図である。 実施形態による、図1のサーバまたはクライアントあるいはその両方に関連付けられ得る代表的なハードウェア環境を示す図である。 一実施形態による、2段階分散型計算メモイング・キャッシュ・プロセスを実行するための分散型システムを示すブロック図である。 一実施形態による、2段階分散型計算メモイング・キャッシュ・システムのための例としてのアーキテクチャを示す図である。 一実施形態による、事前計算されたリンク特徴キャッシュに対してキャッシュするプロセスのためのブロック図である。 一実施形態による、リンク特徴ベクトルのキャッシュをオン・ザ・フライで計算するプロセスのためのブロック図である。 一実施形態による、ディスク・キャッシュ管理プロセスのための例としてのブロック図である。 一実施形態による、2段階分散型計算メモイング・キャッシュ・プロセスのための例としてのコーディングを示す図である。 一実施形態による、分散型計算メモイング・キャッシュを用いて冗長計算を除去することによって、大規模エンティティ解決(ER)の能動学習を最適化するプロセスのブロック図である。
多様な実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示される実施形態に限定することを意図するものではない。多くの変更および変形が、説明された実施形態の範囲および思想から逸脱することなく当業者には明らかであろう。本明細書で使用される専門用語は、実施形態の原理、実用的な用途、もしくは市場で見出される技術に対する技術的改善を最もよく説明するため、または本明細書に開示される実施形態を他の当業者が理解可能にするために、選択された。
本開示は、クラウド・コンピューティングの詳細な説明を含むが、本明細書に列挙される教示の実施は、クラウド・コンピューティング環境に限定されないと予め理解されるものとする。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他の種類のコンピューティング環境と併せて実施されることが可能である。
実施形態は、分散型計算メモイング・キャッシュを用いて冗長計算を除去することによって大規模エンティティ解決(ER)の能動学習を最適化することに関連する。一実施形態は、プロセッサによって、分散型計算メモイング・キャッシュを用いて冗長計算を除去する大規模エンティティ解決の能動学習を実行することを含む方法を提供する。計算メモイング・キャッシュは、リンク特徴ベクトル・テーブルを管理することによって、計算された中間結果を記憶する。リンク特徴ベクトル・テーブルは、単一のブロッキング関数全ての集合を用いて事前計算されるか、または照合関数がユーザによって変更されるときにオン・ザ・フライで計算される。
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械(VM)、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの配置モデルを含み得る。
特性は、以下の通りである。
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダとの人との対話を必要とすることなく、必要に応じてかつ自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。
幅広いネットワーク・アクセス:ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通してアクセスされる。
リソースの共用:プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者は、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、抽象度のより高いレベル(例えば、国、州、またはデータ・センタ)において場所を指定することが可能であり得るという点において、位置独立の意味がある。
スピーディな拡張性:ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
サービスが計測可能であること:クラウド・システムは、サービスの種類(例えば、ストレージ、処理、帯域幅、およびアクティブな消費者アカウント)に適した抽象度のあるレベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されてもよく、それによって利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。
サービス・モデルは、以下の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供されるケイパビリティは、クラウド・インフラ上で実行されるプロバイダのアプリケーションを使用する能力である。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定された消費者固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティですら含む、基礎となるクラウド・インフラを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションを、クラウド・インフラ上に配置する能力である。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラを管理または制御しないが、配置されたアプリケーション、および、可能性としてはアプリケーション・ホスティング環境構成に対して制御を行う。
サービスとしてのインフラ(IaaS):消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを配置および実行することが可能な、他の基本コンピューティング・リソースを供給する能力である。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、配置されたアプリケーションに対して制御を行い、かつ可能性としては選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
配置モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理されてもよく、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、組織または第三者によって管理されてもよく、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
ここで図1を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示するように、クラウド・コンピューティング環境50は、クラウド消費者によって使用されるローカル・コンピューティング・デバイス、例えば、携帯情報端末(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組み合わせが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信し得る。それらは、上述のようなプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、1つまたは複数のネットワーク内で物理的または仮想的にグループ化されてもよい(図示せず)。これによって、クラウド・コンピューティング環境50が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。図1に示されるコンピューティング・デバイス54A~Nの種類は、単なる例示であるように意図され、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意の種類のネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て(例えば、ウェブ・ブラウザを用いて)、任意の種類のコンピュータ化デバイスと通信し得ると理解される。
ここで図2を参照すると、クラウド・コンピューティング環境50(図1)によって提供される機能抽象レイヤのセットが示されている。図2に示されるコンポーネント、レイヤ、および機能は、単なる例示であるように意図され、発明の実施形態は、それらに限定されないと、予め理解されるべきである。図示するように、以下のレイヤおよび対応する機能が、提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は、仮想エンティティの以下の例、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る、抽象レイヤを提供する。
1つの例では、管理レイヤ80は、後述する機能を提供し得る。リソース供給81は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定82は、リソースがクラウド・コンピューティング環境内で利用されるときにコスト追跡を提供し、これらのリソースの消費に対する課金または請求を提供する。1つの例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクについての本人確認を提供する。ユーザ・ポータル83は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ解析処理94、トランザクション処理95、ならびに分散型計算メモイング・キャッシュを用いて冗長計算処理を除去することによって大規模ERの能動学習を最適化すること96を含む。上述の通り、図2に関して説明した前述の例の全ては、単なる例示であり、発明は、これらの例に限定されない。
本明細書で説明される1つまたは複数の実施形態の全ての機能が、典型的には、処理システム300(図3)またはクラウド環境410(図4)によって実行されてもよく、それらは、ハードウェア・プロセッサとして、かつプログラム・コードのモジュールを伴って、有形に具現化され得ると理解される。しかしながら、これは非リアルタイム処理のための場合においては、この通りである必要はない。むしろ、非リアルタイム処理については、本明細書で列挙される機能性が、図2に示されるレイヤ60、70、80、および90のうちのいずれかによって実行され/実施され、または可能にされ、あるいはその両方であり得る。
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙される教示の実施は、クラウド・コンピューティング環境に限定されないと再確認する。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の種類のクラスタ化されたコンピューティング環境を用いて実施されてもよい。
図3は、一実施形態による、ネットワーク・アーキテクチャ300を示す。図3に示されるように、第1のリモート・ネットワーク304および第2のリモート・ネットワーク306を含む複数のリモート・ネットワーク302が提供される。ゲートウェイ301は、リモート・ネットワーク302と近接ネットワーク308との間に連結され得る。このネットワーク・アーキテクチャ300の文脈において、ネットワーク304、306は、それぞれLAN、インターネットなどのWAN、公衆交換電話網(PSTN)、内線電話網などを含むがこれらに限定されない任意の形態を取り得る。
使用時に、ゲートウェイ301は、リモート・ネットワーク302から近接ネットワーク308への入口ポイントとしての役割をする。このように、ゲートウェイ301は、ゲートウェイ301に到達する所与のデータ・パケットを方向付けすることが可能なルータ、および所与のパケットのためにゲートウェイ301内外に実際の経路を供給するスイッチとして機能し得る。
近接ネットワーク308に連結される少なくとも1つのデータ・サーバ314がさらに含まれ、データ・サーバ314は、ゲートウェイ301を介してリモート・ネットワーク302からアクセス可能である。データ・サーバ314は、任意の種類のコンピューティング・デバイス/グループウェアを含み得ることに留意すべきである。各データ・サーバ314に連結されるのは、複数のユーザ・デバイス316である。そのようなユーザ・デバイス316は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、手持ち式コンピュータ、プリンタ、または任意の他の種類のロジック包含デバイス、あるいはそれらの組み合わせを含み得る。ユーザ・デバイス316もまた、いくつかの実施形態においてネットワークのうちのいずれかに直接連結され得ることに留意すべきである。
例えば、ファクシミリ機械、プリンタ、スキャナ、ハード・ディスク・ドライブ、ネットワーク化記憶ユニットもしくはシステムまたはローカル記憶ユニットもしくはシステムあるいはその両方などの、周辺装置320または一連の周辺装置320が、ネットワーク304、306、308のうちの1つまたは複数に連結され得る。データベースまたは追加コンポーネントあるいはその両方が、ネットワーク304、306、308に連結される任意の種類のネットワーク素子とともに利用されてもよく、または任意の種類のネットワーク素子に統合されてもよいことに留意すべきである。本説明の文脈において、ネットワーク素子は、ネットワークの任意のコンポーネントを指してもよい。
いくつかの手法によれば、本明細書に説明される方法およびシステムは、IBM(R)z/OS(R)環境をエミュレートするUNIX(R)システム、MICROSOFT(R)WINDOWS(R)環境を仮想的にホストするUNIX(R)システム、IBM(R)z/OS(R)環境をエミュレートするMICROSOFT(R)WINDOWS(R)システムなどの、仮想システムまたは1つもしくは複数の他のシステムをエミュレートするシステムあるいはその両方を、用いてまたはその上であるいはその両方で実施されてもよい。この仮想化またはエミュレーションあるいはその両方は、いくつかの実施形態において、VMWAREソフトウェアの使用を通して実施され得る。
図4は、一実施形態による、図3のユーザ・デバイス316またはサーバ314あるいはその両方に関連付けられた代表的なハードウェア・システム400の環境を示す。一例では、ハードウェア構成は、マイクロプロセッサなどの中央処理装置410、およびシステム・バス412を介して相互接続された、いくつかの他のユニットを有するワークステーションを含む。図4に示されるワークステーションは、ランダム・アクセス・メモリ(RAM)414と、読み取り専用メモリ(ROM)416と、ディスク・ストレージ・ユニット420などの周辺デバイスをバス412に接続するためのI/Oアダプタ418と、キーボード424、マウス426、スピーカ428、マイクロフォン432、またはタッチ・スクリーン、デジタル・カメラ(図示せず)などの他のユーザ・インターフェース・デバイス、あるいはそれらの組み合わせをバス412に接続するためのユーザ・インターフェース・アダプタ422と、ワークステーションを通信ネットワーク435(例えば、データ処理ネットワーク)に接続するための通信アダプタ434と、バス412をディスプレイ・デバイス438に接続するためのディスプレイ・アダプタ436と、を含み得る。
一例では、ワークステーションは、MICROSOFT(R)WINDOWS(R)オペレーティング・システム(OS)、MAC OS、UNIX(R)OSなどのオペレーティング・システムがその上に常駐し得る。一実施形態において、システム400は、POSIX(R)ベース・ファイル・システムを採用する。他の例は、記載されるもの以外のプラットフォームおよびオペレーティング・システム上でも実施され得ると理解されるものとする。そのような他の例は、オブジェクト指向プログラミング方法論とともに、JAVA(R)、XML、C、もしくはC++言語、またはそれらの組み合わせ、あるいは他のプログラミング言語を用いて書かれたオペレーティング・システムを含み得る。複雑なアプリケーションを開発するためにますます使用されるようになっているオブジェクト指向プログラミング(OOP)も使用され得る。
図5は、一実施形態による、分散型計算メモイング・キャッシュを用いて冗長計算を除去することによって、大規模ERの能動学習を最適化するために使用され得るシステム500を示すブロック図である。一実施形態では、システム500は、クライアント・デバイス510(例えば、モバイル・デバイス、スマート・デバイス、コンピューティング・システムなど)、クラウドまたはリソース共有環境520(例えば、パブリック・クラウド・コンピューティング環境、プライベート・クラウド・コンピューティング環境、データセンタなど)、およびサーバ530を含む。一実施形態では、クライアント・デバイスには、クラウドまたはリソース共有環境520を通してサーバ530からクラウド・サービスが提供される。
一実施形態では、システム500は、頻度およびストレージ・コストに基づいて計算をキャッシングするメモリ・レベル分散型キャッシュを含む大きなデータ・セット上での能動ERの冗長計算を除去するために2段階分散型計算メモイング・キャッシュを提供する。システム500は、頻度、ストレージ・コスト、計算費用、およびカバレッジに基づいて計算をキャッシングするディスク・レベル分散型キャッシュを提供する。正規規則(regular rule)についての早期退出(early exit)が、計算されたリンクを類似度スコア(similarity score)によりソートすることによって提供される。システム500は、濃度節(cardinality clause)を含む学習済み規則のための効率的な計算キャッシング・アルゴリズム/プロセスを提供する。
図6は、一実施形態による、2段階分散型計算メモイング・キャッシュ・システム600のための例としてのアーキテクチャを示す。システム600は、メモリから命令を実行するための1つまたは複数のハードウェア・プロセッサ・デバイスを含む。システムは、ラベル付きデータ610、規則学習615プロセス、例選択モジュール/プロセス620、ユーザ対話モジュール/プロセス625、リンク計算スクリプト生成器630、計算キャッシュ・マネージャ635、計算リソース・プロセス640、分散型キャッシュ645、Hadoop分散型ファイル・システム(HDFS)650、および分散型処理クラスタ670のためのストレージを含む。システム600において、処理データは、ラベルなし例660/661、ラベル付き例662、規則616、キャッシング命令671、および入力データ・セット672を含む。計算キャッシュ・マネージャ635は、いくつかのリンク特徴ベクトル・テーブルである中間結果をキャッシングすることを担当する。このキャッシュ・マネージャは、図7、図8、および図9のフローを行う。リンク計算スクリプト生成器630は、HILスクリプトを生成して中間結果を活用するために使用される。
一実施形態において、インメモリ・キャッシュ容量がCmem、ディスク・キャッシュがCdiskとすると、システム600は、キャッシング効率を最大化するように空間を管理する。リンク特徴ベクトルのキャッシュされたテーブルのスキーマは、以下のフォーマット<Id1,Id2,特徴ベクトル,類似度スコア>を含む。一実施形態において、特徴ベクトルを表すビットマップが、ストレージ要件を低減するために使用される。リンク特徴ベクトルのキャッシュされたテーブルは、類似度スコアによってソートされる。表1は、リンク特徴ベクトルの例としてのテーブルを示す。
Figure 0007355403000001
一実施形態において、システム600は、照合関数が不変であるときに事前計算を実行する。この場合、特徴ベクトルは同一のままであり、システム600は、全てのブロッキング関数のリンクおよび特徴ベクトルを事前計算し、インメモリ・キャッシュに移入(populate)する。インメモリ・キャッシュが一杯であるとき、システム600は、他のテーブルをディスク・メモリ・キャッシュ内にキャッシュする。一実施形態では、システム600は、常に最近包含規則(nearest containing rule)を見つける。例えば、T.lastName=C.lastNameおよびT.location.state=C.stateは、T.lastName=C.lastNameおよびT.location.state=C.stateについての包含規則、ならびにfirstNameMatch(T.firstName,C.firstName)である。システム600は、照合関数が変化するときにオン・ザ・フライで計算し、リンクおよび特徴ベクトルを計算し、それらがキャッシュに置かれる。
一実施形態において、正規規則は、述語(predicate)の最大サブセットを有する規則である。例えば、T.lastName=C.lastNameおよびT.location.state=C.stateは、T.lastName=C.lastNameおよびT.location.state=C.stateについての包含規則、ならびにfirstNameMatch(T.firstName,C.firstName)である。複数の候補規則(candidate rule)が存在する場合、システム600は、メモリ内のもの、または最小数のリンクを有するものを選択する。濃度規則(cardinality rule)について、システム600は、濃度を取り除き、正規規則の同一ポリシーを使用する。濃度節のみを取り除く規則もまた考えられることに留意されたい。例えば、T.lastName=C.lastNameおよびT.location.state=C.stateは、T.lastName=C.lastNameおよびT.location.state=C.stateについての包含規則であり、1:1である。一実施形態において、システム600は、学習済み規則が濃度節を含まないときに早期退出を提供する。システム600は、リンクを上から下に最も近い規則から検査し、上位K個のリンクが収集されるときに戻る。Kは、正の整数である。
一実施形態では、システム600は、リンク特徴ベクトルのテーブルのアクセス頻度、カバレッジ、および計算/処理「費用(expense)」(例えば、処理使用量、帯域幅など)、ならびにストレージ使用量に基づいて、2つのキャッシュ(分散型メモリ・キャッシュおよび分散型ディスク・キャッシュ)を管理する。一実施形態において、メモリ・キャッシュについての「コスト」またはメモリ使用量モデルは、以下のように表される。
Figure 0007355403000002
一実施形態において、システム600は、頻繁にアクセスされ、より低いストレージ使用量を必要とするリンク・セットにより高い優先度を与える。一実施形態において、ディスク・キャッシュについての「コスト」またはメモリ使用量モデルは、以下の通りである。
Figure 0007355403000003

さらに、システム600は、計算のための高い処理使用量、および他のリンク済みリストによってカバーされないリンク・セットを考慮する。
図7は、一実施形態による、事前計算されたリンク特徴キャッシュに対してキャッシュするプロセス700のためのブロック図を示す。プロセス700において、入力は、候補規則r705、ならびにキャッシュ735からのリンク、特徴ベクトル、および類似度スコアを含む。ブロック710において、候補規則r705が計算されているか否かが判断される。候補規則r705が計算されていると判断される場合、プロセス700は、ブロック740に進み、候補規則r705についてのリンクを取得し、ブロック770に進んでリンクを返す。そうでない場合、ブロック710において候補規則r705が計算されていないと判断される場合、ブロック720においてプロセス700は、最近包含規則を取得する。ブロック730において、プロセス700は、(キャッシュ735からの情報を用いて)事前計算された規則のリンクについてのデルタ述語(delta predicate)をチェックする。ブロック750において、候補規則r705のリンクについて、プロセス700は、類似度によってリンクをランク付けする。ブロック760において、プロセス700は、特徴ベクトルを有するランク付けされたリンクをキャッシュ735内に置く。プロセス700は、次いで、ブロック770に進んでリンクを返し、その後終了する。
図8は、一実施形態による、リンク特徴ベクトルのキャッシュをオン・ザ・フライで計算するプロセス800のためのブロック図を示す。プロセス800において、入力は、候補規則r705、ならびにキャッシュ735からのリンク、特徴ベクトル、および類似度スコアを含む。ブロック810において、候補規則r705がキャッシュ735内にあるか否かが判断される。候補規則r705がキャッシュ735内にあると判断される場合、プロセス800は、ブロック826に進み、候補規則r705についてのリンクを取得し、ブロック860に進んで特徴ベクトルを有するランク付けされたリンクを返し、終了する。そうでない場合、ブロック810において候補規則r705がキャッシュ735内にないと判断される場合、ブロック820において、プロセス800は、最近計算済み規則(nearest computed rule)r’が見つけられ得るか否かを判断する。最近計算済み規則r’が見つけられると判断される場合、ブロック825において、プロセス800は、規則r’のリンクについてのデルタ述語をチェックし、キャッシュに置く。プロセス800は、次いで、ブロック860に進み、その後終了する。最近計算済み規則r’が見つけられないと判断される場合、ブロック830において、プロセス800は、候補規則r705についてのリンクを計算する。ブロック840において、プロセス800は、キャッシュ735内にない候補規則r705についてのリンクを取得する。ブロック850において、プロセス800は、特徴ベクトル、類似度を計算し、結果をソートしてキャッシュ735に置く。プロセス800は、次いで、ブロック860に進み、その後終了する。
図9は、一実施形態による、ディスク・キャッシュ管理プロセス900のための例としてのブロック図を示す。一実施形態において、ブロック910において、プロセス900は、現在の規則の結果Iがカバーされ(カバーされたQ(CQ)905)かつ正規であるかどうかを判断する。カバーされたとは、Iをカバーするいくつかの他のリンク特徴テーブルが存在し、それによって、Iがこれらのリンク特徴テーブルを通して計算され得ることを意味する。Iを破棄することは、カバーされていないいくつかの中間結果を破棄することよりも費用がかからない。正規とは、濃度節なしの正規規則をいう。Iがカバーされ、かつ正規であると判断される場合、プロセス900はブロック920に進み、ブロック920ではCQが空であるか否かが判断される。CQが空であると判断される場合、プロセス900はブロック935に進み、Iキャッシュを破棄する。そうでない場合、プロセス900はブロック930に進み、ブロック930では、I.scoreがtail.scoreより大きいかどうかが判断される。I.scoreがtail.scoreより大きいと判断される場合、プロセス900はブロック931に進み、CQ.tailを退去(evict)させる。そうでない場合、プロセス900はブロック932に進み、Iキャッシュを破棄する。
一実施形態において、ブロック910においてIがカバーされないか、または正規ではないと判断される場合、プロセス900はブロック940に進み、ブロック940ではCQが空であるか否かが判断される。CQが空ではないと判断される場合、プロセス900はブロック945に進み、CQ.tailを退去させる。そうでない場合、プロセス900はブロック950に進み、ブロック950ではI.scoreがCaQ.tail.scoreより大きいかどうかが判断される。I.scoreがCaQ.tail.scoreより大きいと判断される場合、プロセス900はブロック951に進み、CaQ.tailを退去させる。そうでない場合、プロセス900は、ブロック952に進み、Iを破棄する。
図10は、一実施形態による、2段階分散型計算メモイング・キャッシュ・プロセスのための例としてのコーディング1000を示す。コーディング1000は、getLink、putMemCache、putDiskCache、toEvictMem、およびtoEvictDiskについての例としてのコーディングを含む。特に、getLinkは、メモリ計算キャッシュから現在の規則のリンクを取り出し、結果が返されない場合、ディスク計算キャッシュからリンクを取り出す。結果が返されない場合、getLinkは、次いで、現在の規則についてのリンクを計算し、そのリンクをメモリ・キャッシュに保存する。putMemoryCache関数がいくつかの他のリンクを返す場合、それは、メモリ・キャッシュから退去される。関数getLinkは、次いで、メモリ・キャッシュから退去されたリンクを戻し、それをディスク・キャッシュに記憶する。
図11は、一実施形態による、分散型計算メモイング・キャッシュを用いて冗長計算を除去することによって、大規模エンティティ解決の能動学習を最適化するプロセス1100のブロック図を示す。一実施形態では、ブロック1110において、プロセス1100は、プロセッサ(例えば、図1~6のうちのいずれか1つからのプロセッサ・デバイス)によって、分散型計算メモイング・キャッシュを用いて冗長計算を除去して大規模エンティティ解決の能動学習を実行する。一実施形態では、ブロック1120において、プロセス1100は、大規模エンティティ解決の能動学習の中間結果についてリンク特徴ベクトル・テーブルを決定する。ブロック1130において、プロセス1100は、2段階キャッシュ階層によってリンク特徴ベクトル・テーブルを管理する。一実施形態では、2段階キャッシュ階層は、分散型メモリ・キャッシュおよび分散型ディスク・キャッシュを含む。
一実施形態では、プロセス1100において、リンク特徴ベクトル・テーブルを決定することが、全てのブロッキング関数の集合を用いてリンク特徴ベクトル・テーブルを事前計算すること、または照合関数が(例えばユーザによって)変化するとリンク特徴ベクトル・テーブルを動的に計算することのうちの1つを含み、分散型メモリ・キャッシュは、頻度およびストレージ使用量に基づいてリンク特徴ベクトル・テーブルを管理する。分散型ディスク・キャッシュは、頻度、ストレージ使用量、処理帯域幅、およびカバレッジに基づいてリンク特徴ベクトル・テーブルを管理する。
一実施形態では、プロセス1100について、リンク特徴ベクトル・テーブルを事前計算することが、分散型メモリ・キャッシュのメモリ・キャッシュに移入することと、メモリ・キャッシュが一杯であるとの判断に応じて分散型ディスク・キャッシュの少なくとも1つのディスク・キャッシュ内にリンク特徴ベクトル・テーブルをキャッシュすることと、を含む。
一実施形態では、プロセス1100は、照合関数が変化した、およびリンク特徴ベクトルがもはや有効でないことの判断に応じて、2段階キャッシュ階層のキャッシュを更新することをさらに含み得る。プロセス1100において、リンクのインクリメント計算が、最近包含規則がキャッシュされるとの判断に応じて有効にされて、冗長計算を回避する。
一実施形態では、プロセス1100は、中間結果を取得するために2段階キャッシュ階層のキャッシュを類似度スコアによりソートすることをさらに含み得る。プロセス1100は、中間結果の上位部分または下位部分を検査して、最も類似するペアまたは最も類似しないペアを返すことをさらに含み得る。
当業者によって理解されるように、本発明の態様は、システム、方法、またはコンピュータ・プログラム製品として具現化されてもよい。したがって、本発明の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または本明細書で「回路」、「モジュール」、もしくは「システム」と全て概して呼ばれ得るソフトウェアおよびハードウェア態様を組み合わせる実施形態の形態を取ってもよい。さらに、本発明の態様は、コンピュータ可読プログラム・コードが具現化された1つまたは複数のコンピュータ可読媒体において具現化されるコンピュータ・プログラム製品の形態を取ってもよい。
1つまたは複数のコンピュータ可読媒体の任意の組み合わせが、利用されてもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、もしくはデバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1つまたは複数の配線を有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMもしくはフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または前述したものの任意の適当な組み合わせを含む。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによって、または関連して使用するプログラムを含み、または記憶し得る任意の有形媒体であってもよい。
コンピュータ可読信号媒体は、例えば、ベースバンドにおいて、または搬送波の一部として、そこに具現化されたコンピュータ可読プログラム・コードを有する伝搬データ信号を含んでもよい。そのような伝搬信号は、電磁気、光学、またはそれらの任意の適当な組み合わせを含むが、これらに限定されない、多様な形態のいずれかを取ってもよい。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではない、かつ命令実行システム、装置、もしくはデバイスによって、または関連して使用するプログラムを通信し、伝搬し、または移送することが可能な、任意のコンピュータ可読媒体であってもよい。
コンピュータ可読媒体上に具現化されるプログラム・コードは、無線、有線配線、光ファイバ・ケーブル、RFなどを含むがこれらに限定されない任意の適当な媒体、または前述したものの任意の適当な組み合わせを用いて送信されてもよい。
本発明の態様のための動作を実行するコンピュータ・プログラム・コードは、Java(R)、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および、「C」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。プログラム・コードは、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的におよびリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを通して、ユーザのコンピュータに接続されてもよい。あるいは、接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータに対して行われてもよい。
本発明の態様は、発明の実施形態による、方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、以下で説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせは、コンピュータ・プログラム命令によって実施され得ると理解されるものとする。コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する手段を生成するように、これらのコンピュータ・プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。
コンピュータ可読媒体に記憶される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する命令を含む製品を製造するように、これらのコンピュータ・プログラム命令は、コンピュータ可読媒体に記憶され、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスに特定の様式で機能するように指示することが可能なものであってもよい。
コンピュータまたは他のプログラマブル装置上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するためのプロセスを提供するように、コンピュータ・プログラム命令は、コンピュータ実施プロセスを生成するために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的な実施において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。
特許請求の範囲における単数形の要素への参照は、明示的にそのように述べられない限り、「1つかつただ1つ」ではなく「1つまたは複数」を意味するように意図される。当業者に現在知られている、または後で知られることとなる上述の例示的実施形態の要素の全ての構造的および機能的均等物が、本特許請求の範囲によって包含されるように意図される。要素が、「means for」または「step for」という語句を用いて明示的に列挙されない限り、本明細書におけるいかなる特許請求の要素も、米国特許法第112条第6パラグラフの規定により解釈されるべきではない。
本明細書で使用される専門用語は、特定の実施形態のみを説明する目的のためであり、発明を限定するように意図されない。本明細書で使用される、単数形「a」、「an」、および「the」は、文脈が特段明示していない限り、複数形も同様に含むように意図される。「comprises(備える)」または「comprising(備えている)」という用語、あるいはその両方は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、またはコンポーネント、あるいはそれらの組み合わせの存在を示しているが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、またはそれらの集合、あるいはそれらの組み合わせの存在または追加を排除するものではないと、さらに理解されるものとする。
下記の特許請求の範囲における全てのミーンズ・プラス・ファンクション要素またはステップ・プラス・ファンクション要素の対応する構造、物質、動作、および均等物は、他の請求された要素と組み合わせて機能を実行するための任意の構造、物質、または動作を具体的に請求されるものとして含むように意図される。本発明の説明は、例示および説明の目的で提示されているが、網羅的であるように、または開示された形態に発明を限定されるように意図されない。発明の範囲および思想から逸脱することなく、多くの変更および変形が当業者には明らかであろう。実施形態は、発明の原理および実際の用途を最もよく説明するため、ならびに、考えられる特定の使用に適した多様な変更を伴う多様な実施形態についての発明を他の当業者が理解可能にするために、選択され説明された。

Claims (12)

  1. プロセッサが、大規模エンティティ解決の冗長計算を除去するために、分散型計算メモイング・キャッシュを用いて該大規模エンティティ解決の能動学習を実行することと、
    前記大規模エンティティ解決の前記能動学習の中間結果についてリンク特徴ベクトル・テーブルを決定することと、
    2段階キャッシュ階層によって前記リンク特徴ベクトル・テーブルを管理することと、
    を含む、方法。
  2. 前記中間結果を取得するために前記2段階キャッシュ階層のキャッシュを類似度スコアによってソートすることをさらに含む、請求項1に記載の方法。
  3. 前記リンク特徴ベクトル・テーブルを決定することが、全てのブロッキング関数の集合を用いて前記リンク特徴ベクトル・テーブルを事前計算すること、または照合関数が変化すると前記リンク特徴ベクトル・テーブルを動的に計算することのうちの1つを含み、前記2段階キャッシュ階層が、分散型メモリ・キャッシュおよび分散型ディスク・キャッシュを含む、請求項1または2に記載の方法。
  4. 前記分散型メモリ・キャッシュが、頻度およびストレージ使用量に基づいて前記リンク特徴ベクトル・テーブルを管理する、請求項に記載の方法。
  5. 前記分散型ディスク・キャッシュが、頻度、ストレージ使用量、処理帯域幅、およびカバレッジに基づいて前記リンク特徴ベクトル・テーブルを管理する、請求項に記載の方法。
  6. 前記リンク特徴ベクトル・テーブルを事前計算することが、前記分散型メモリ・キャッシュのメモリ・キャッシュに移入することと、前記メモリ・キャッシュが一杯であるとの判断に応じて前記分散型ディスク・キャッシュの少なくとも1つのディスク・キャッシュ内に前記リンク特徴ベクトル・テーブルをキャッシュすることと、を含む、請求項に記載の方法。
  7. 前記照合関数が変化した、およびリンク特徴ベクトルがもはや有効でない、との判断に応じて、前記2段階キャッシュ階層のキャッシュを更新することをさらに含む、請求項に記載の方法。
  8. リンクのインクリメント計算が、最近包含規則がキャッシュされるとの判断に応じて有効にされて、冗長計算を回避する、請求項1または2に記載の方法。
  9. 前記中間結果の上位部分または下位部分を検査して、最も類似するペアまたは最も類似しないペアを返すことをさらに含む、請求項に記載の方法。
  10. 請求項1から請求項9のいずれか一項に記載の方法をプロセッサに実行させる、コンピュータ・プログラム。
  11. 請求項1から請求項9のいずれか一項に記載の方法をプロセッサに実行させるコンピュータ・プログラムを記憶した、コンピュータ可読記憶媒体。
  12. 命令を記憶するように構成されるメモリと、
    プロセッサと、
    を備え、前記プロセッサが、前記命令を実行することにより請求項1から請求項9のいずれか一項に記載の方法を実行するように構成される、装置。
JP2021500262A 2018-07-24 2019-07-18 大規模エンティティ解決のための2段階計算メモイング Active JP7355403B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/044,050 US10776269B2 (en) 2018-07-24 2018-07-24 Two level compute memoing for large scale entity resolution
US16/044,050 2018-07-24
PCT/IB2019/056146 WO2020021404A1 (en) 2018-07-24 2019-07-18 Two level compute memoing for large scale entity resolution

Publications (2)

Publication Number Publication Date
JP2021531562A JP2021531562A (ja) 2021-11-18
JP7355403B2 true JP7355403B2 (ja) 2023-10-03

Family

ID=69178400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500262A Active JP7355403B2 (ja) 2018-07-24 2019-07-18 大規模エンティティ解決のための2段階計算メモイング

Country Status (6)

Country Link
US (1) US10776269B2 (ja)
JP (1) JP7355403B2 (ja)
CN (1) CN112424757A (ja)
DE (1) DE112019003721T5 (ja)
GB (1) GB2588874A (ja)
WO (1) WO2020021404A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11792303B1 (en) * 2022-09-30 2023-10-17 International Business Machines Corporation Fast clear memory of system memory

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002511616A (ja) 1998-04-15 2002-04-16 インクトミ・コーポレーション 高性能オブジェクト・キャッシュ
US20130282650A1 (en) 2012-04-18 2013-10-24 Renmin University Of China OLAP Query Processing Method Oriented to Database and HADOOP Hybrid Platform

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553394B1 (en) * 2000-01-21 2003-04-22 Mitsubishi Electric Research Laboratories, Inc. Continuous memoization
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
US7406450B2 (en) * 2005-09-28 2008-07-29 Nec Laboratories America, Inc. Spread kernel support vector machine
US8706914B2 (en) 2007-04-23 2014-04-22 David D. Duchesneau Computing infrastructure
US9171097B2 (en) * 2009-03-31 2015-10-27 Qualcomm Incorporated Memoizing web-browsing computation with DOM-based isomorphism
US20100293117A1 (en) * 2009-05-12 2010-11-18 Zuobing Xu Method and system for facilitating batch mode active learning
US20120233199A1 (en) * 2011-03-10 2012-09-13 Jenkins Jeffrey R Intelligent Web Caching
CN102880557B (zh) * 2012-09-13 2015-06-10 浙江金大科技有限公司 一种异构数据源的多级分布式高速缓存的查找方法
US8789030B2 (en) * 2012-09-18 2014-07-22 Concurix Corporation Memoization from offline analysis
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US9390126B2 (en) * 2014-02-03 2016-07-12 International Business Machines Corporation Distributed analytics for entity resolution
US10572817B2 (en) 2014-03-19 2020-02-25 Peopleconnect, Inc. Graph-based organization entity resolution
US9542412B2 (en) * 2014-03-28 2017-01-10 Tamr, Inc. Method and system for large scale data curation
US9483546B2 (en) * 2014-12-15 2016-11-01 Palantir Technologies Inc. System and method for associating related records to common entities across multiple lists
CN104573130B (zh) 2015-02-12 2017-11-03 北京航空航天大学 基于群体计算的实体解析方法及装置
US20160307113A1 (en) * 2015-04-20 2016-10-20 Xerox Corporation Large-scale batch active learning using locality sensitive hashing
US10997134B2 (en) * 2015-06-18 2021-05-04 Aware, Inc. Automatic entity resolution with rules detection and generation system
US10769140B2 (en) 2015-06-29 2020-09-08 Microsoft Technology Licensing, Llc Concept expansion using tables
US11010673B2 (en) 2015-07-30 2021-05-18 Tata Consultancy Limited Services Method and system for entity relationship model generation
US11675824B2 (en) 2015-10-05 2023-06-13 Yahoo Assets Llc Method and system for entity extraction and disambiguation
CA3027756C (en) 2016-06-28 2021-04-13 Solano Labs, Inc. Systems and methods for efficient distribution of stored data objects
US10572822B2 (en) * 2016-07-21 2020-02-25 International Business Machines Corporation Modular memoization, tracking and train-data management of feature extraction
CN107330020B (zh) 2017-06-20 2020-03-24 电子科技大学 一种基于结构和属性相似度的用户实体解析方法
JP7041348B2 (ja) * 2018-04-05 2022-03-24 富士通株式会社 学習プログラム及び学習方法
US10395772B1 (en) * 2018-10-17 2019-08-27 Tempus Labs Mobile supplementation, extraction, and analysis of health records

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002511616A (ja) 1998-04-15 2002-04-16 インクトミ・コーポレーション 高性能オブジェクト・キャッシュ
US20130282650A1 (en) 2012-04-18 2013-10-24 Renmin University Of China OLAP Query Processing Method Oriented to Database and HADOOP Hybrid Platform

Also Published As

Publication number Publication date
JP2021531562A (ja) 2021-11-18
US20200034293A1 (en) 2020-01-30
US10776269B2 (en) 2020-09-15
DE112019003721T5 (de) 2021-04-22
CN112424757A (zh) 2021-02-26
GB2588874A (en) 2021-05-12
WO2020021404A1 (en) 2020-01-30
GB202101742D0 (en) 2021-03-24

Similar Documents

Publication Publication Date Title
US9465644B2 (en) Selection of virtual machines from pools of pre-provisioned virtual machines in a networked computing environment
JP5946468B2 (ja) イメージを実行するのに最適なコンピューティング環境の判断
US20170323200A1 (en) Estimating cardinality selectivity utilizing artificial neural networks
US20130275961A1 (en) Utilizing software component metadata to provision virtual machines in a networked computing environment
US20200034196A1 (en) Optimizing simultaneous startup or modification of inter-dependent machines with specified priorities
US20200125926A1 (en) Dynamic Batch Sizing for Inferencing of Deep Neural Networks in Resource-Constrained Environments
US11076020B2 (en) Dynamically transitioning the file system role of compute nodes for provisioning a storlet
US10768998B2 (en) Workload management with data access awareness in a computing cluster
US11429429B2 (en) Prefetch chaining for optimizing data read-ahead for workflow and analytics
JP7355403B2 (ja) 大規模エンティティ解決のための2段階計算メモイング
US11082520B2 (en) Process broker for executing web services in a system of engagement and system of record environments
US20210208902A1 (en) Cascading Data Configuration
WO2022042603A1 (en) Tensor comparison across distributed machine learning environment
US11645583B2 (en) Automatic rule learning in shared resource solution design
US11204923B2 (en) Performance for query execution
US10680912B1 (en) Infrastructure resource provisioning using trace-based workload temporal analysis for high performance computing
US20230306774A1 (en) Search based on abstracted document structure image
US20230063113A1 (en) Auto discovery protocol and virtual grouping of machine learning models
US11500870B1 (en) Flexible query execution
US20230409575A1 (en) Database query processing with database clients
WO2024032653A1 (en) Reducing network overhead
WO2023116257A1 (en) Federated learning for training machine learning models
US10761891B2 (en) Workload management with data access awareness by aggregating file locality information in a computing cluster
US10902346B2 (en) Efficient semi-supervised concept organization accelerated via an inequality process
JP2024515416A (ja) 並列機械学習モデルの公平な同時比較

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211222

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20230324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230913

R150 Certificate of patent or registration of utility model

Ref document number: 7355403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150