JP2022079430A - 方法、システムおよびコンピュータ・プログラム - Google Patents

方法、システムおよびコンピュータ・プログラム Download PDF

Info

Publication number
JP2022079430A
JP2022079430A JP2021181782A JP2021181782A JP2022079430A JP 2022079430 A JP2022079430 A JP 2022079430A JP 2021181782 A JP2021181782 A JP 2021181782A JP 2021181782 A JP2021181782 A JP 2021181782A JP 2022079430 A JP2022079430 A JP 2022079430A
Authority
JP
Japan
Prior art keywords
entity
relationship
entities
party
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021181782A
Other languages
English (en)
Inventor
スリニバサン・エス・ムシャーミー
S Muthuswamy Srinivasan
ムケシュ・クマール
Kumar Mukesh
スブヘンヅ・ダス
Das Subhendu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022079430A publication Critical patent/JP2022079430A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 方法、システムおよびコンピュータ・プログラムを提供すること。【解決手段】本開示の側面は、エンティティ間の関係性を識別し、定量することに関連する。データソースが照会され、パーティに関するデータを受け取ってもよい。エンティティがデータから抽出され、エンティティのセットを受け取ってもよく、ここで、パーティは、エンティティのセットのうちの第1のエンティティである。エンティティのセット内でエンティティを相互に関連付けるオントロジー構造が構築されてもよい。第1のエンティティおよび第2のエンティティ間の初期関係性強度が、第1のエンティティおよび第2のエンティティ間の共起に基づいて決定されてもよく、ここで、第2のエンティティは、第2のパーティである。第1のエンティティおよび第2のエンティティ間の関係性スコアが、初期関係性強度および少なくとも1つの追加の因子に基づいてを計算されてもよい。【選択図】 図3

Description

本開示は、一般的には、データ分析の分野に関し、より詳細には、データ内のエンティティ間の非自明な関係性を発見することおよび定量することに関する。
そこから価値有る洞察を得るために利用することができる膨大な量の非構造化データが存在する。データ分析技術は、非構造化データから意味のある情報を解釈することを試みる。これは、非構造化データから抽出された情報(例えばパターン)に基づいて将来の決定が行えるように完了される。
本開示は、上記点に鑑みてなされたものであり、エンティティ間の関係性を識別することおよび定量することができる方法、システムおよびコンピュータ・プログラムを提供することを目的とする。
本開示の実施形態は、エンティティ間の関係性を識別し、定量するための方法、コンピュータ・プログラムおよびシステムを含む。データソースが照会され、パーティに関するデータを受け取ることができる。エンティティがデータから抽出され、エンティティのセットを受け取ることができ、ここで、パーティは、エンティティのセットのうちの第1のエンティティである。エンティティのセット内でエンティティを相互に関連付けるオントロジー構造が構築されてもよい。第1のエンティティおよび第2のエンティティ間の初期関係性強度が、第1のエンティティおよび第2のエンティティ間の共起に基づいて決定されてもよく、ここで、第2のエンティティは、第2のパーティである。第1のエンティティおよび第2のエンティティ間の関係性スコアが、初期関係性強度および少なくとも1つの追加の因子に基づいて計算されてもよい。
上述した発明の概要は、本開示の説明される各実施形態またはすべての実装を説明することを意図するものではない。
本開示に含まれる図面は、明細書に組み込まれるか、その一部を構成する。これらは、本開示の実施形態を説明し、記載に沿って、開示の原理を説明するのに役立つ。図面は、典型的な実施形態を説明するのみであり、開示を限定するものではない。
図1は、本開示の説明する実施形態を実装することができる例示のコンピューティング環境を示すブロック図。 図2は、本開示の実施形態に従う、関係性発見システムを示すブロック図。 図3は、本開示の実施形態に従う、パーティ(party,関係者)および少なくとも1つのカウンターパーティ(counterparty,相手方関係者)間の関係性を識別し、定量するための方法を示すフロー図。 図4は、本開示の実施形態に従う、クラウド・コンピューティング環境を示すブ図。 図5は、本開示の実施形態に従う、抽象化モデル・レイヤを示すブロック図。 図6は、本開示の実施形態に従う、本明細書で説明される方法、ツールおよびモジュールおよび任意の関連する機能の1または複数を実装するために用いることができる、例示のコンピュータ・システムを示すハイレベル・ブロック図。
本明細書において説明される実施形態は、種々の変更および代替的な形態を受け入れる余地があるが、これらの詳細は、例として図面に示され、詳細に説明される。しかしながら、説明される特定の実施形態は、限定する意味で取り扱われるべきではない点を理解されたい。むしろ、その意図は、本開示の精神および範囲内に入る全ての変更、等価物および代替物を対象とするものである。
本開示の側面は、一般的には、データ分析の分野に関係し、より具体的には、データ内のエンティティ間の非自明な関係性を発見することおよび定量することに関係する。本開示は、必ずしもそのような用途に限定されるものではないが、本開示の種々の側面は、この文脈を用いた種々の例の議論を通して認識され得る。
そこから価値有る洞察を得るために利用することができる膨大な量の非構造化データが存在する。データ分析技術は、非構造化データから意味のある情報を解釈することを試みる。これは、非構造化データから抽出された情報(例えばパターン)に基づいて将来の決定が行えるように完了される。
データ内のエンティティ間の関係性を理解することが重要になる可能性がある。関係性は、2以上のエンティティ(例えば、人、場所、物など)が接続される仕方を説明する。データ内のエンティティ間の関係性を発見することは、自然言語処理(例えば意味論)、ヘルス(例えば病気、症状、診断および処置などに関する洞察のためにヘルスデータをマイニングすること)、不正検知などの領域において有益である可能性がある。一例として、所与のパーティ(人、または会社)が、他のパーティにどのように関係するかの理解は、パーティが、1以上の他のパーティの助けを借りて不正行為(例えば不正)を行っているかどうかに関する洞察を提供する。
本開示の側面は、エンティティ間の関係性を識別することおよび定量することに関係する。データソースが照会され、パーティに関するデータを受け取られてもよい。データからエンティティが抽出されて、エンティティのセットを受け取ることができ、ここで、パーティは、エンティティのセットのうちの第1のエンティティである。エンティティのセット内でエンティティを相互に関連付けるオントロジー構造が構築されてもよい。第1のエンティティおよび第2のエンティティ間の初期関係性強度が、第1のエンティティおよび第2のエンティティ間の共起に基づいて決定され、ここで、第2のエンティティは、第2のパーティである。第1のエンティティおよび第2のエンティティ間の関係性スコアが、初期関係性強度および少なくとも1つの追加の因子に基づいて計算されてもよい。
以下、図面を参照すると、図1は、本開示の例示の実施形態を実装することができる、例示のコンピューティング環境100を示すブロック図である。コンピューティング環境100は、複数のデバイス105-1,105-2…105-N(包括的にデバイス105と参照する。)と、少なくとも1つのサーバ135と、ネットワーク150と含む。
種々の実施形態と一貫して、サーバ135およびデバイス105は、コンピュータ・システムである。デバイス105およびサーバ135は、それぞれ、1以上のプロセッサ115-1,115-2…115-N(包括的にプロセッサ115と参照する。)および145と、1以上のメモリ120-1,120-2…120-N(包括的にメモリ120と参照する。)および155を含む。デバイス105およびサーバ135は、内部または外部のネットワーク・インタフェース110-1,110-2・・・110-N(包括的にネットワーク・インタフェース110と参照する。)および140を介して互いに通信するように構成されてもよい。ネットワーク・インタフェース110および140は、いくつかの実施形態においては、モデムまたはネットワーク・インタフェース・カードである。デバイス105もしくはサーバ135またはこれらの両方は、ディスプレイまたはモニタを備えてもよい。加えて、デバイス105もしくはサーバ135またはこれらの両方は、任意選択で、入力装置(例えば、キーボード、マウス、スキャナ、ビデオカメラ、または他の入力装置)もしくは、任意の市販されたまたはカスタムのソフトウェア(例えば、ブラウザ・ソフトウェア、コミュニケーション・ソフトウェア、サーバ・ソフトウェア、自然言語処理ソフトウェア、サーチエンジンもしくはウェブ・クローラまたはこれらの両方のソフトウェア、画像処理ソフトウェアなど)、またはこれらの両方を含んでもよい。デバイス105もしくはサーバ135またはこれらの両方は、サーバ、デスクトップ、ラップトップ、またはハンドヘルド・デバイスであってもよい。
デバイス105およびサーバ135は、互いに離れていてもよく、ネットワーク150越しに通信してもよい。いくつかの実施形態では、サーバ135は、そこからデバイス105がクライアント-サーバ・ネットワーキング・モデルなどの通信接続を確立する、中央ハブであってよい。あるいは、サーバ135およびデバイス105は、他の適切なネットワーキング関係で(例えば、ピア・ツー・ピア(P2P)構成において、または、他の任意のネットワーク・トポロジーを用いて)構成されてもよい。
いくつかの実施形態においては、ネットワーク150は、任意の数の適切な通信媒体を用いて実装されてもよい。例えば、ネットワーク150は、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、インターネットまたはイントラネットであってもよい。特定の実施形態においては、デバイス105およびサーバ135は、互いにローカルにあってもよく、適切なローカル通信媒体を介して通信してもよい。例えば、デバイス105およびサーバ135は、ローカル・エリア・ネットワーク(LAN)、1以上のハードワイヤ接続、無線リンクまたはルータ、またはイントラネットを用いて通信することができる。いくつかの実施形態においては、デバイス105およびサーバ135は、1以上のネットワークもしくは1以上のローカル接続またはこれらの組み合わせを用いて通信可能に結合されてもよい。例えば、第1のデバイス105-1は、サーバ135にハードワイヤ接続(例えばイーサネット(登録商標)ケーブルで接続)されてもよく、一方、第2デバイス105-2は、サーバ135と、ネットワーク150を用いて(例えばインターネット越しに)通信してもよい。
いくつかの実施形態においては、ネットワーク150は、クラウド・コンピューティング環境内で、または1以上のクラウド・コンピューティング・サービスを用いて実装される。種々の実施形態と一貫して、クラウド・コンピューティング環境は、1以上のクラウド・コンピューティング・サービスを提供する、ネットワーク・ベースの分散データ処理システムを含んでもよい。さらに、クラウド・コンピューティング環境は、1以上のデータセンタに配置され、ネットワーク150を介してリソースを共有するよう構成された多数のコンピュータ(例えば、数百または数千のコンピュータまたはそれ以上)を含んでもよい。
サーバ135は、関係性発見アプリケーション160を含む。関係性発見アプリケーション160は、データ(例えば非構造化データ)内の所与のパーティと他のエンティティとの間の関係性を識別し、その後に(例えば関係性スコアを計算することによって)データ内でのパーティと他のエンティティとの間の関係性を定量するように構成される。
関係性発見アプリケーション160は、まず、パーティに関連するデータを受け取るように構成されてもよい。実施形態においては、パーティに関連するデータを受け取ることは、1以上のソース(例えばインターネット・ソース、データベースなど)にパーティを含むデータを照会することを含んでもよい。パーティに関連付けられるデータは、次いで、例えば、関連するパーティのあいまいさを無くすため、冗長な文書を削除するため、無関係のデータを削除するためなどのためにフィルタリングされてもよい。エンティティ抽出(例えば、固有表現認識(NER))が、次いで、実行されて、パーティに関連付けられたデータからエンティティ(例えば、名前、組織、場所、量、時間表現など)が抽出されてもよい。ナレッジ・グラフ(例えば、オントロジー構造)が、次いで、抽出されたエンティティに基づいて生成され、ここで、ナレッジ・グラフは、パーティおよびデータから抽出された他のエンティティ(例えば、カウンターパーティ)間の(例えば階層的および非階層的な)関係性を描写する。
実施形態においては、初期関係性強度が、データ内のパーティおよび他のエンティティ間で決定されてもよい。例えば、初期関係性強度は、パーティがカウンターパーティとの間で共起した回数を、パーティが他のパーティと共起した回数で割ったものに基づいて計算されてもよい。所与のパーティおよびカウンターパーティの初期関係性強度は、親交インデックス(togetherness index)と参照される場合がある。
以降、関係性発見アプリケーション160は、(例えばパーティおよびカウンターパーティ間の)関係性スコアに影響する追加の因子を分析してもよい。例えば、パーティおよびカウンターパーティの関係性タイムラインが、受け取ったデータを分析することによって決定されてもよい。これは、パーティおよびカウンターパーティが関係した期間を決定することを含んでもよい。例えば、初期の共起の時間、共起の長さ、共起が行らない時間のギャップ、共起の新近性などが決定されてもよい。
実施形態において、関係性発見アプリケーション160は、共起の理由を決定してもよい。例えば、分類器(例えば、自然言語処理(NLP)ベースの分類器、機械学習(ML)ベースの分類器など)が、受け取ったデータの分析に基づいて各共起インスタンスについて1以上の共起の理由を分類するために使用されてもよい。共起の理由は、共起に対するある理由がパーティおよびカウンターパーティ間に計算された関係性スコアにより大きな影響を有するように、関係性スコアに影響する可能性がある。例えば、分類”スキャンダル”に伴う共起は、分類”ネットワーキング・イベント”に伴う共起と比較して関係性スコアを計算することにより大きな影響を有する可能性がある。
以後、関係性発見アプリケーション160は、パーティおよびカウンターパーティ取り巻くネットワークを決定してもよい。これは、パーティとカウンターパーティとを橋渡しするエンティティに関する示唆を提供する。よって、パーティおよびカウンターパーティが、直接的に関係していない場合でさえ、パーティおよびカウンターパーティに共通するエンティティに基づいて、間接的な関係性が識別される。例えば、ネットワークは、パーティおよびカウンターパーティが、類似の場所もしくは類似のパーティまたはこれらの両方と関連することを示唆する可能性がある。これは、さらに、関係性スコアの計算を強化することができる。
親交インデックス、共起のタイムライン、共起の理由、もしくはパーティおよびカウンターパーティを取り巻くネットワーク、またはこれらの組み合わせは、関係性スコアを計算するために使用してもよい。実施形態において、関係性強度を示す正規化された値は、各因子に対して計算されてもよく、関係性スコアは、それぞれの重みを乗じた各因子を加算することによって計算されてもよい。例えば、関係性スコアRは、計算式R=f×w+f×w+f×w…+f×wに従って計算されてもよく、ここで、fは、各因子を表し、wは、各重みを表し、nは、因子の総数を表す。上述した因子は、ただの例示であり、関係性スコアを計算するために用いられる適切な任意の因子のタイプもしくは数またはこれらの両方が、本開示の精神および範囲を逸脱することなく実装されてもよいことに留意されたい。さらに、関係性スコアが計算されるやり方(例えば、いくつかの重み付けされた因子を加算することによる)は、変更される可能性があり、説明されるものに限定されない。
いくつかの実施形態において、関係性スコアは、パーティおよびカウンターパーティの間のリスクを表してもよい。例えば、関係性スコアの大きさ(絶対値、magnitude)は、パーティおよびカウンターパーティが不正などの不正行為に関わり得るリスクを表す。一例として、所与のパーティ、Party Aおよびカウンターパーティ、Party Bが、保険請求に関与する場合、関係性発見アプリケーション160は、Party AおよびParty Bに関連付けられる非構造化データを解析する。Party AおよびParty Bの関係性が自明でなかったとしても、受け取ったデータ(例えば、ニュース、ソーシャル・メディア、インターネット・リソース、証券取引委員会(SEC)への提出など)を分析すると、関係性発見アプリケーション160は、Party AおよびParty Bが確かに関係することを識別できる可能性がある。例えば、データの分析に基づいて、Party AおよびParty Bが、過去に共起し、共起の理由が、不正行為に関係し、さらにParty AおよびParty Bが、関連するエンティティのネットワークに関わっていることが決定されるかもしれない。結果として、関係性スコアは、上記因子に基づいて計算されてもよく、パーティが保険請求詐欺に関わるリスクを表す。これらの実施形態においては、因子の重み付けは、パーティに関係するリスクをより密接に表すように調整されてもよい。例えば、共起の理由は、他の関係性スコア因子よりも比較的高く重み付けされてもよい。
実施形態においては、1以上のアクションが、関係性スコアに基づいて発行されてもよい。いくつかの実施形態においては、関係性スコアは、パーティおよびそれぞれの関連するエンティティの間のナレッジ・グラフのエッジに追加されてもよい。これは、注目するパーティを含むオントロジー構造のリレーショナル属性を特定することによってドメイン内の知識を増強することができる。さらに、計算された関係性スコアは、(例えば、NLPコンテキストに基づくまたはMLアルゴリズムを用いる)他の手段で計算されたものよりも正確である可能性がある。これは、関係性スコアが、他の関係性強度の量指定子(quantifier)が考慮しない追加の因子(例えば、共起のタイムライン、共起の理由、関係するネットワーク)を考慮するからである。
いくつかの実施形態においては、関係性スコアは、1以上の閾値と比較されてもよく、1以上のアクションは、関係性スコアの1以上の閾値との比較に基づいて発行されてもよい。例えば、関係性スコアがリスクを表す実施形態においては、関係性スコアが閾値を超えた場合、アクションは、例えば、1以上のエンティティをさらに調査すること、1以上のトランザクション(例えば保険請求または預金引き出し)を拒否すること、もしくは不正行為の抑止を担当する当局に連絡を取ること、またはこれらの組み合わせを含んでもよい。
関係性スコアがリスクを表す例について参照したが、関係性スコアは、任意の適切な特徴を表してもよく、説明されたものに限定されないことに留意されたい。
本開示は、個人データのコレクションに関係しているが、実施形態においては、ユーザは、システムにオプト・インしていることに留意されたい。そのようにする際に、彼らは、どのデータが収集され、どのように使用されるか、収集された任意の個人データが、使用中に暗号化される可能性があること、ユーザは、いつでもオプト・アウトすることができ、彼らがオプト・アウトした場合は、ユーザのいかなる個人データも削除されることについて通知を受ける。
図1は、例示のコンピューティング環境100の代表的な主要コンポーネントを説明することを意図することに留意されたい。いくつかの実施形態においては、しかしながら、個々のコンポーネントは、図1に表されるよりも大きなまたはより小さな複雑性を有していてもよく、図1に示されたもの以外のまたは図1に示されたものに加えて他のコンポーネントが存在してもよく、そのようなコンポーネントの数、タイプおよび構成は様々である。
図1は、単一のサーバ135を有するコンピューティング環境100を表すが、本開示の実施形態を実装するための適切なコンピューティング環境は、任意の数のサーバを含んでもよい。図1に示される種々のモデル、モジュール、システムおよびコンポーネントは、仮にそうである場合は、複数のサーバおよびデバイスを横断して存在してもよい。例えば、いくつかの実施形態は、2つのサーバを含んでもよい。2つのサーバは、任意の適切な通信接続を用いて(例えば、WAN、LAN、有線接続、イントラネットまたはインターネットを用いて)通信可能に結合されてもよい。
ここで、図2を参照すると、本開示の例示の実施形態を実装することができる、コンピューティング環境200を示す図が示される。コンピューティング環境200は、ネットワーク(例えば、図1のネットワーク150)を用いて通信可能に結合され得る、データソース205、関係性発見システム210およびデバイス255を含む。単一のデバイス255が示されるが、実施形態においては、デバイス255は、複数のデバイス、サーバもしくはコンピューティング・ノードまたはこれらの組み合わせを代表することに留意されたい。さらに、関係性発見システム210内に示される種々のモデル、モジュール、システムおよびコンポーネントは、仮にそうである場合は、複数のコンピューティング・デバイスを横断して存在してもよい。
関係性発見システム210は、パーティおよび1以上のカウンターパーティ間の関係性を識別および定量するように構成されてもよい。関係性発見システム210の機能性は、図1の関係性発見アプリケーション160と同一であってもよいし、実質的に類似していてもよい。関係性発見システム210は、データ受取およびフィルタリング・モジュール215、エンティティ抽出器220おおび関係性スコア決定器225を含む。データ受取およびフィルタリング・モジュール215、エンティティ抽出器220および関係性スコア決定器225の機能性は、専用または共用のプロセッサによって、受け取った入力を用いて実行することができるプロセッサ実行可能な命令であってよい。
データ受取およびフィルタリング・モジュール215は、1以上のパーティに関連付けられたデータを受け取るように構成されてもよい。実施形態においては、データ受取およびフィルタリング・モジュール215は、(例えば、デバイス255からの)ユーザ・コマンドまたは所定のトリガ(例えば、保険請求の提出、ユーザ・オプト・インなど)に応答してデータソース205からデータを収集するよう構成されてもよい。データ受取およびフィルタリング・モジュール215は、データソース205に照会し、例えば、1以上のパーティの名前を入力クエリとして用いることによって、1以上のパーティについてのデータを収集する。実施形態においては、照会されるパーティは、注目するパーティおよび1以上の潜在的に関連する可能性のあるカウンターパーティである。その後、データソース205は、照会されたパーティに関連する全ての関連データを返す。データ受取およびフィルタリング・モジュール215は、例えば、関連するパーティ(例えば、類似の名前のパーティ)のあいまいさを無くすため、冗長な文書を削除するため、無関係のデータを削除するために、受け取ったデータをフィルタリングするよう構成される。
実施形態においては、データ受取およびフィルタリング・モジュール215は、例えば、(例えばPDFからプレーンテキストに)データ形式を変換することよって、(例えば音声からテキストへのコンバータを用いて)音声データをテキストに変換することによって、(例えば画像認識を用いて画像から用語を抽出することによって)画像データをテキストに変換することによって、もしくは、品詞(POS)タグ付け、構文解析(parsing)、見出し語処理、構文分析(syntactic analysis)および意味解析などの自然言語処理技術をデータに実行することによって、またはこれらの組み合わせによって、データを前処理するように構成されてもよい。
データソース205は、テキスト、画像、音声および映像データを含むデータの任意の適切なタイプを含んでもよい。さらに、データソース205は、インターネット・リソース(例えば、ソーシャル・メディア・データ、GOOGLE(登録商標))およびデータベース(例えば、IBM(登録商標)DB2などのリレーショナル・データベース)を含む任意の適切なソースに由来してもよい。データソース205の例示には、限定されないが、ソーシャル・メディアのページ/ポスト、SEC文書、ウィキペディア(登録商標)エントリおよびニュース記事が含まれる。
1以上のパーティに関連するデータは、それから、エンティティ抽出器220に渡される。エンティティ抽出器220は、データからエンティティを抽出するように構成されてもよい。”エンティティ”は、人、組織、会社、場所、時間表現、金銭的価値、量、または、対応するラベルにマップされる任意の他の適切なエンティティであってよい。実施形態においては、エンティティ抽出器220は、固有表現認識(NER,Named Entity Recognition)を実行するように構成されてもよい。NERは、任意のやり方で完了される。いくつかの実施形態においては、エンティティ抽出器220は、ニューラル・ネットワーク・ベースのNERアルゴリズムを実行するように構成されてもよい。これらの実施形態においては、ニューラル・ネットワークは、入力データに存在するエンティティのエンティティ・タイプを認識するように訓練されてもよい。いくつかの実施形態においては、ルールベースのNER処理が実装されてもよい。そのようなシステムは、IBM(登録商標)SystemTおよびIBM(登録商標) INFOSPHERE(登録商標) データ品質フレームワーク(DQF,Data Quality Framework)を含む。しかしながら、エンティティは、任意の他の適切なやり方でデータから抽出されてもよい。例えば、データから概念抽出するための技術がエンティティを抽出するために適用されてもよい。そのような技術は、限定されないが、C-value/NC-value、対照分析、共起分析、潜在的意味解析、クラスタリング、構文分析、サブカテゴリ化フレームおよびシードワードの使用を含む。
エンティティを抽出すると、エンティティ間の関係性が識別され、定量できるようデータが関係性スコア決定器225に渡される。関係性スコア決定器225のナレッジ・グラフ(KG)構築器230は、照会されたパーティまたはパーティ群を取り巻く概念/関係を含むナレッジ・グラフを構築するように構成されてもよい。ナレッジ・グラフを構築することは、概念を分類すること(例えば、エンティティ抽出器220によって抽出されたエンティティを受け取ること)、(階層クラスタリング手法を用いて)概念階層を導出すること、(例えば、アソシエーション規則マイニング、用語置き換え、依存性解析、レキシコン構文パターン分析などを用いて)非分類学上の関係を学習すること、および、(例えば、帰納論理プログラミングを用いて)規則を発見することを含むオントロジー学習の技術を適用すること含んでもよい。ナレッジ・グラフは、抽出されたエンティティ間の(階層的または非階層的な)関係を視覚的に表す。しかしながら、いくつかの実施形態においては、オントロジー・データ構造は、ナレッジ・グラフの生成を求める必要性なしに、本開示の精神および範囲から逸脱することなく構築されてもよい。
関係性強度決定器235は、ナレッジ・グラフ内の(例えば概念として分類された)パーティ間の初期関係性強度(親交インデックス)を決定するように構成されてもよい。初期関係性強度を決定することは、任意の適切なやり方で完了することができる。いくつかの実施形態においては、初期関係性強度は、第1のパーティおよび第2のパーティが共起した回数を第1および第2のパーティが他のエンティティと共起した回数で割ったものに基づいて決定される。例えば、第1および第2のパーティが10回共起した場合であって、第1および第2のパーティが他のパーティと100回共起した場合は、初期関係性強度は、10/100(例えば、0.10,10%)として計算されてもよい。しかしながら、初期関係性強度は、任意の他の適切なやり方で決定されてもよい。例えば、初期関係性強度は、第1および第2のパーティの共起した回数を第1のパーティが他のエンティティと共起した回数で割ったものに基づいて、または、第1および第2のパーティの共起の回数を第2のパーティが他のエンティティと共起した回数で割ったものに基づいて、決定されてもよい。初期関係性強度を決定すると、関係性スコア決定器225により計算された関係性スコアに影響する追加の因子が決定されてもよい。
関係性タイムライン決定器240は、パーティおよび関連するカウンターパーティ間の共起の期間を決定するように構成されてもよい。これは、共起の開始時点、経時的な共起の頻度、共起が起こっていない時間ギャップおよび最も最近の共起の時点(most recent point in time of co-occurrence)を決定することを含んでもよい。共起タイミングは、共起の新近性(recency)、長さおよび経時的な頻度のすべてが所与の2つのパーティ間の関係性の強度に影響するように、関係性スコア計算を強化するために用いることができる。実施形態においては、関係性タイムライン決定器240は、(例えば、エンティティ抽出器220から)生成された時間表現に基づいて、共起インスタンスと比較して、共起のタイムラインを決定することができる。例えば、”2015年10月21日”に発表されたニュース記事が第1および第2のパーティの間の共起を含む場合、”2015年10月21日”は、共起のタイムライン内に含まれる可能性がある。これは、各共起のインスタンスにおいて完了されてもよい。すなわち、パーティおよびカウンターパーティ間で利用可能なデータに基づく共起のタイムラインが生成されるまで、共起の各インスタンスが、時間表現に直接関連付けられてもよい。
関係性理由決定器245は、パーティおよびカウンターパーティ間の共起の理由を分類するように構成されてもよい。これは、共起の各インスタンスについて、共起の理由を分類することを含んでもよい。実施形態においては、共起の理由を分類することは、パーティ間の共起を取り巻くコンテキストに基づいて完了してもよい。例えば、文”ジョンがトーマスと夕食で会った”があれば、関係性理由決定器245は、このジョンとトーマスとの間の共起インスタンスについて、共起の理由が”夕食”であると指定することができる。実施形態においては、例えばNLPまたはMLベースの分類器などの分類器が、2つのパーティ間の共起の理由を分類するように構成されてもよい。ある共起の理由が、他と比較して関係性スコアにより大きな影響を有するとして、共起の理由が関係性スコアの計算に影響してもよい。
ネットワーク識別器250は、パーティおよびカウンターパーティを取り巻くネットワークを識別するように構成されてもよい。これは、パーティとカウンターパーティとを橋渡しするエンティティに関する示唆を提供する可能性がある。よって、パーティおよびカウンターパーティが直接的に関係していない場合でさえ、パーティおよびカウンターパーティに共通のエンティティに基づいて間接的な関係性が識別される可能性がある。例えば、ネットワークが、パーティおよびカウンターパーティが類似の場所もしくは類似のパーティまたはこれらの両方に関連することを示す可能性がある。実施形態においては、ネットワーク識別器250は、パーティおよびカウンターパーティがそれを通して互いに関連するいくつかのエンティティ(a number of entities)を識別してもよい。これは、関係性スコア計算を強化するために使用してもよい。
関係性スコア決定器225は、それから、初期関係性強度(例えば親交インデックス)、関係性タイムライン、関係性理由およびパーティとカウンターパーティと間のネットワークの各々を、関係性スコアを計算するために使用するべく、規格化された因子値に変換するように構成されてもよい。例えば、関係性スコア因子値は、関係性強度、関係性タイムライン、関係性理由およびネットワークの各々について、0から1の間の値を有して生成されてもよい。その後、因子の各々は、それぞれの重みを乗算し、加算されて、最終的な関係性スコアにたどり着く。例えば、関係性スコアRは、計算式R=f×w+f×w+f×w…+f×wに従って計算されてもよく、ここで、fは、各因子を表し、wは、各重みを表し、nは、因子の総数を表す。上述した因子は、ただの例示であり、関係性スコアを計算するために用いられる因子の適切な任意のタイプもしくは数またはこれらの両方が、本開示の精神および範囲を逸脱することなく、実装されてもよいことに留意されたい。さらに、関係性スコアが計算される仕方(例えば、いくつかの重み付けされた因子を加算する)は、変更される可能性があり、説明されるものに限定されない。
実施形態においては、各因子の正規化された値への変換および関係性スコアを計算するために使用する因子の重み付けは、例えば機械学習アルゴリズムを用いて、微調整され(fine-tuned)てもよい。すなわち、所与のパーティおよびカウンターパーティ間の関係性の強度に関してフィードバックが受信されてもよく、フィードバックは、関係性スコア決定器225により計算された関係性スコアと比較されてもよい。出力の関係性スコアとの比較としてのフィードバックに基づいて、因子を値に正規化するため、もしくは各因子に重み付けを割り当てるためまたはこれらの両方のために用いられる1以上のアルゴリズムが調整されてもよい。
各因子に対して正規化された値を調整し、もしくは各因子に関連付けられる重みを調整し、またはこれらの両方のために用いることができる機械学習アルゴリズムは、限定されるものではないが、決定木学習、アソシエーション規則学習、人工ニューラル・ネットワーク、ディープ・ラーニング、帰納論理プログラミング、サポート・ベクター・マシン、クラスタリング、ベイジアン・ネットワーク、強化学習、表現学習、類似性/メトリック・トレーニング、スパース辞書学習、遺伝的アルゴリズム、ルールベース学習、もしくは他の機械学習技術またはこれらの組み合わせを含む。
例えば、機械学習アルゴリズムは、1以上の以下の例示の技術、K近傍法(KNN,K-Nearest Neighbor)、学習ベクトル量子化(LVQ,Learning Vector Quantization)、自己組織化マップ(SOM,Self-Organizing Map)、ロジスティック回帰、最小二乗回帰(OLSE,Ordinary Least Squares Regression)、線形回帰、段階的回帰、多変量適応回帰スプライン(MARS,Multivariate Adaptive Regression Spline)、リッジ回帰、ラッソ(LASSP,Least Absolute Shrinkage and Selection Operator)、エラスティック・ネット(Elastic Net)、最小角度回帰(LARS,Least-Angle Regression)、確率的分類器、ナイーブ・ベイズ分類器、二値分類器、線形分類器、階層分類器、正準相関分析(CCA,Canonical Correlation Analysis)、因子分析、独立成分分析(ICA,Independent Component Analysis)、線形判別分析(LDA,Linear Discriminant Analysis)、多次元尺度法(MDS,Multidimensional Scaling)、非負値行列因子分解(NMF,Non-Negative Metric Factorization)、カート(CART,Classification and Regression Tree)、カイ二乗自動相互作用検出器(CHAID,CHi-squared Automatic Interaction Detection)、EMアルゴリズム(Expectation-Maximization algorithm)、フィード・フォワード・ニューラル・ネットワーク、論理学習マシン、自己組織化マップ、単連結クラスタリング、ファジー・クラスタリング、階層クラスタリング、ボルツマン・マシン、畳み込みニューラル・ネットワーク、リカレント・ニューラル・ネットワーク、階層時間的メモリ(HTM,Hierarchical Temporal Memory)もしくは他の機械学習技術またはこれらの組み合わせを利用してもよい。
関係性スコアを計算すると、関係性発見システム210は、関係性スコアをデバイス255に送信する。以後、関係性スコアは、任意の適切なやり方で使用することができる。いくつかの実施形態においては、関係性スコアは、それについて関係性スコアが計算された、パーティおよびカウンターパーティ間のオントロジー構造のリレーショナル・エッジに追記されても(例えばリレーショナル・エッジの属性として格納されても)よい。これは、パーティおよびカウンターパーティを含むオントロジー・ドメイン内の知識を増強することができる。
いくつかの実施形態においては、関係性スコアは、パーティおよび1以上のカウンターパーティ間の初動調査(initial inquiry)に関連する特性を表してもよい。例えば、2つのパーティ間の関係性が、不正調査(fraud inquiry)に起因して検査される場合、関係性スコアは、2つのパーティが関係し、そして、不正活動に関わり得るリスクを表してもよい。これらの実施形態においては、関係性スコアが閾値を超える場合、不正活動を軽減するために1以上のアクションが発行されてもよい。例えば、関係性スコアが閾値を超えた場合、アクションは、不正の軽減を担当する当局へアラートを出すこと、パーティによって開始されたトランザクション(例えば保険請求)を拒否すること、もしくはパーティをさらに調査すること、またはこれらの組み合わせを含んでもよい。しかしながら、任意の数のアクションが、パーティの認識されたリスクに基づいて発行されてもよい。
本明細書で説明されるように、”概念”、”エンティティ”および”パーティ”は、同一の思想を参照する可能性がある。異なる用語が同義で用いられるが、これらの用語は、適用される技術の文脈において使用される。パーティは、一般的には、人物、組織または会社など少なくとも一人の個人を参照することができる。エンティティは、NERアルゴリズムにより生成されるパーティのラベルを参照することができる。概念は、オントロジー構造(例えば、ナレッジ・グラフ)において提示されるようなエンティティの名前を参照することができる。
図3を参照すると、本開示の実施形態に従う、パーティおよび少なくとも1つのカウンターパーティの間の関係性を識別し、定量するための例示の方法300を説明するフロー図が示される。方法300の1以上の動作が、1以上のコンピューティング・デバイス(例えば、デバイス105、サーバ135、デバイス255もしくは関係性発見システム210またはこれらの組み合わせ)によって完了されてもよい。
方法300は、動作305で開始し、ここでは、データは、1以上のパーティについて収集される。データは、図1の関係性発見アプリケーション160または図2のデータ受取およびフィルタリング・モジュール215に関して説明したものと同一または実質的に類似するやり方で収集される。例えば、パーティについてのデータが、ユーザ・コマンドまたは所定条件に基づいて収集される。いくつかの実施形態においては、データは、インターネット・リソースもしくはデータベースまたはこれらの両方に対してパーティの名前を照会することによって収集されてもよい。図2に関連して説明されたデータソース205を含む、任意の適切なデータが受け取られてもよい。
データは、次いでフィルタリングされる。これは、動作310で示されている。データをフィルタリングすることは、関連するエンティティの名前のあいまいさを無くすこと、無関係なデータを整理すること、データを編成すること、もしくは、データをサニタイズすること、またはこれらの組み合わせを含んでもよい。
エンティティは、次いで、データから抽出される。これは、動作315で示される。エンティティ抽出は、図2のエンティティ抽出器220に関して説明したものと同一または実質的に類似するやり方で実行されてもよい。例えば、ニューラルベースまたはルールベースのNERアルゴリズムが、データからエンティティを抽出するために適用されてもよい。
オントロジー構造は、次いで、生成され、初期関係性強度が、パーティ(第1のパーティ)と1以上のカウンターパーティ(第2から第nのパーティ)との間で決定される。これは、動作320で示されている。オントロジー構造を生成することは、図2のナレッジ・グラフ(KG)構築器230に関連して説明したものと同一または実質的に類似するやり方で完了させることができる。例えば、オントロジー学習技術が、データ内でパーティと他のパーティ(エンティティ)とを相互に関連付けるナレッジ・グラフを構築するために適用されてもよい。パーティおよびカウンターパーティの間の初期関係性強度を決定することは、図2の関係性強度決定器235に関連して説明したものと同一または実質的に類似するやり方で完了させることができる。例えば、初期関係性強度を決定することは、第1のパーティおよび第2のパーティの共起の回数を、第1および第2のパーティが他のパーティと共起する総数で割ることによって完了されてもよい。
共起のタイムラインは、次いで、パーティおよびカウンターパーティの間で決定される。これは、動作325で示されている。共起のタイムラインを決定することは、図2の関係性タイムライン決定器240に関連して説明したものと同一または実質的に類似するやり方で完了させることができる。例えば、共起の開始時点、経時的な共起の頻度、共起が起こらない時間ギャップおよび最も最近の共起の時点が、動作325で決定されてもよい。共起タイミングは、共起の新近性、長さおよび経時的な頻度すべてが所与の2つのパーティ間の関係性の強度に影響するように関係性スコア計算を強化するために用いてもよい。実施形態において、共起のタイムラインは、共起インスタンスと比較して、導出された時間表現(例えば、エンティティ抽出器220から得る)に基づいて決定されてもよい。
共起の理由は、次いで、パーティおよびカウンターパーティの間で決定される。これは、動作330で示される。共起の理由を決定することは、図2の関係性理由決定器245に関連して説明したものと同一または実質的に類似するやり方で完了されてもよい。例えば、NLPまたはMLベースの分類器が、共起の各インスタンスで共起の理由を決定するように構成されてもよい。
パーティおよびカウンターパーティに関連するエンティティのネットワークが次いで決定される。これは、動作335で示される。パーティおよびカウンターパーティに関連するエンティティのネットワークを決定することは、図2のネットワーク識別器250に関連して説明したものと同一または類似のやり方で完結することができる。例えば、パーティをカウンターパーティに関係付けるいくつかのエンティティが決定され、ネットワークが識別される。
関係性スコアが、次いで、初期関係性強度、共起のタイムライン、共起の理由、およびネットワークに基づいて計算される。これは、動作340で示される。関係性スコアを計算することは、図2の関係性スコア決定器225に関連して説明したものと同一または実質的に類似するやり方で完了させることができる。例えば、各因子(初期関係性強度、共起のタイムライン、共起の理由およびネットワーク)について規格化された値が生成されてもよく、各因子の規格化された値は、重み付けされ、また加算されて、関係性スコアにたどり着く。関係性スコアが計算されると、関係性スコアは、任意のやり方で利用されてもよい。例えば、関係性スコアは、オントロジーのリレーショナル・エッジに適用され、パーティを取り巻く知識を増強してもよい。いくつかの実施形態においては、関係性スコアは、パーティの初期調査に関連する特性を表してもよい。例えば、金融の文脈では、関係性スコアは、パーティ間の不正のリスクを示している可能性があり、トランザクションを承認するかまたは拒否する際に信頼できる可能性がある。
上記動作は、任意の順序で完了されてもよく、説明される順序に限定されない。加えて、本開示の精神および範囲に留まりながら、上述した動作のいくつかまたはすべてが完了されてもよく、あるいは、いずれも完了されなくともよい。
この開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本開示の実施形態は、現時点で知られた、またはこれから開発される他の任意のタイプのコンピューティング環境と併せて実装可能性である。
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能とする、サービス配布のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデルおよび少なくとも4つのデプロイメント・モデルを含む可能性がある。
特性は、以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス:能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、モバイルフォン、ラップトップ、PDA)による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル(例えば国、州、またはデータセンタ)にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性:能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス:クラウドシステムは、サービスのタイプにとって適切なある抽象レベル(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数)での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。
サービス・モデルは、以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えばウェブベースの電子メール)などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント(例えば、ホストファイアウォール)の限定された制御を有する。
デプロイメント・モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念(例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項)を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2以上のクラウド(プライベート、コミュニティまたはパブリック)の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術(例えばクラウド間の負荷分散のためのクラウド・バースティング)によって結合される。
クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性および意味論的な相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの核心は、相互接続された複数のノードのネットワークを含むインフラストラクチャである。
ここで、図4を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示するように、クラウド・コンピューティング環境50は、1以上のクラウド・コンピューティング・ノード10を含み、これと、例えば、PDAまたは携帯電話54A(例えばデバイス105)、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54Cもしくは自動車コンピュータ・システム54Nまたはこれらの組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信してもよい。ノード10は、互いに通信してもよい。これらは、プライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドなど上述したような、またはこれらの組み合わせなどの1以上のネットワークにおいて、物理的にまたは仮想的にグループ化(図示しない)されてもよい。これは、クラウド・コンピューティング環境50が、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせをサービスとして提供することを可能とし、これらについては、クラウド・コンシューマは、リソースをローカル・コンピューティング・デバイス上で維持する必要がない。図4に示されるコンピューティング・デバイス54A~54Nのタイプは、説明する目的のみであり、コンピューティング・ノード10およびクラウド・コンピューティング環境50が、任意のタイプのネットワーク、ネットワークアドレス可能な接続(例えば、ウェブ・ブラウザを使用して)またはこれらの両方を介して、任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。
ここで、図5を参照すると、クラウド。コンピューティング環境50(図4)によって提供される機能抽象レイヤのセットが示される。図5に示すコンポーネント、レイヤおよび機能が、説明する目的のみであり、本開示の実施形態は、これらに限定されないことを事前に理解されるである。示すように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム61、RISC(縮約命令セットコンピュータ)アーキテクチャに基づくサーバ62、サーバ63,ブレードサーバ64、ストレージ・デバイス65およびネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態においては、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は、抽象化レイヤを提供し、そこから仮想化サーバ71、仮想化ストレージ72、バーチャル・プライベート・ネットワークを含む仮想化ネットワーク73、仮想化アプリケーションおよびオペレーティング・システム74、および仮想クライアント75などの仮想化エンティティの例が提供される。
一例においては、管理レイヤ80は、以下に説明する機能を提供してもよい。リソース・プロビショニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。メータリングおよびプライシング82は、リソースがクラウド・コンピューティング環境内で利用されるコストの追跡およびこれらのソースの消費に対する請求またはインボイスの送付を提供する。一例においては、これらのリソースは、アプリケーション・ソフトウェアのライセンスを含んでもよい。セキュリティは、クラウド・コンシューマおよびタスクについての本人確認、並びに、データおよび他のリソースに対する保護を提供する。ユーザポータル83は、コンシューマおよびシステム管理者に対しクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル・マネジメント84は、要求されるサービス・レベルを満たすようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA)の計画と履行85は、SLAに従って、将来の要求が予期されるクラウド・コンピューティグ・リソースの事前配置および調達を提供する。
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用される機能性の例を提供する。ワークロードおよびこのレイヤから提供される機能の例には、マッピングおよびナビゲ―ション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ・アナリティクス処理94、トランザクション処理95、関係性識別および定量化96が含まれる。
ここで、図6を参照すると、本開示の実施形態に従う、(例えば、1または複数のプロセッサ回路またはコンピュータのコンピュータ・プロセッサを用いて)本明細書で説明される方法、ツールおよびモジュールおよび任意の関連する機能の1または複数を実装する際に利用され得る、例示のコンピュータ・システム601(例えば、デバイス105、サーバ135、デバイス255、関係性発見システム210)の上位レベルのブロック図が示される。いくつかの実施形態においては、コンピュータ・システム601の主要なコンポーネントは、1以上のCPU602、メモリ・サブシステム604、ターミナル・インタフェース612、ストレージ・インタフェース614、I/O(入力/出力)デバイス・インタフェース616およびネットワーク・インタフェース618を含んでもよく、これらのすべては、メモリバス603、I/Oバス608およびI/Oバスインタフェース・ユニット610を介したコンポーネント間通信のために、直接的にまたは間接的に、通信可能に結合されている。
コンピュータ・システム601は、1以上の汎用プログラマブルな中央処理ユニット(CPU)602A、602B、602Cおよび602Dを包含し、本明細書において、総称的にCPU602と参照する。いくつかの実施形態においては、コンピュータ・システム601は、比較的大規模なシステムに典型的なマルチ・プロセッサを包含し得るが、しかしながら、他の実施形態においては、コンピュータ・システム601は、あるいはシングルCPUシステムであってもよい。各CPU602は、メモリ・サブシステム604に格納された命令を実行し、1以上のレベルのオンボード・キャッシュを含んでもよい。
システムメモリ604は、ランダム・アクセス・メモリ(RAM)622またはキャッシュ・メモリ624など、揮発性メモリの形態でコンピュータ・システム可読な媒体を含んでもよい。コンピュータ・システム601は、さらに、他のリムーバブル/非リムーバブルの揮発性/不揮発性コンピュータ・システム・ストレージ媒体を含んでもよい。一例として、ストレージ・システム626は、”ハード・ドライブ”などの非ポータブルの不揮発性磁気媒体から読み出すおよび磁気媒体へ書き込むために提供される。図示しないが、リムーバブルの不揮発性磁気ディスク(例えば、”フロッピーディスク”(登録商標))から読み出し、または、磁気ディスクへ書き込むための磁気ディスク・ドライブ、または、CD-ROM、DVD-ROMまたは他の光学メディアなどのリムーバブルの不揮発性光学ディスクから読み出しおよび光学ディスクへ書き込むための光学ディスク・ドライブが提供されてもよい。加えて、メモリ604は、例えば、フラッシュメモリ・スティック・ドライブまたはフラッシュドライブなどのフラッシュメモリを含んでもよい。メモリ装置は、1以上のデータ・メディア・インタフェースによってメモリバス603に接続されてもよい。メモリ604は、種々の実施形態の機能を実現するよう構成されたプログラム・モジュールのセット(少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでいてもよい。
1以上のプログラム/ユーティリティ628は、それぞれ、プログラム・モジュール630の少なくとも1つのセットを有しており、メモリ604に格納されてもよい。プログラム/ユーティリティ628は、ハイパーバイザ(また仮想マシンモニタとも参照される。)、1以上のオペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データを含んでもよい。オペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データの各々またはこれらのいくつかの組み合わせは、ネットワーキング環境の実装を含んでもよい。プログラム628もしくはプログラム・モジュール630またはこれらの両方は、概して、種々の実施形態の機能または方法論を実行する。
メモリバス603が、CPU602間の直接通信経路を提供する単一のバス構造として図6に示されているが、メモリ・サブシステム604、I/Oバスインタフェース610およびメモリバス603は、いくつかの実施形態においては、複数の異なるバスまたは通信経路を含んでもよく、これらは、階層、スターまたはウェブ構成におけるポイント・ツー・ポイント・リンク、マルチ階層バス、パラレルおよび二重化経路、または任意の他の適切なタイプの構成などの任意の種々の形態に配置されてもよい。さらに、I/Oバスインタフェース610およびI/Oバス608が、単一のそれぞれのユニットとして示されているが、コンピュータ・システム601は、いくつかの意実施形態においては、複数のI/Oバス・インタフェース・ユニット610、複数のI/Oバス608、またはこれらの両方を含んでもよい。さらに、I/Oバス806を、種々のI/Oデバイスに達する種々の通信経路から分離する複数のI/Oインタフェース・ユニットが示されるが、他の実施形態においては、I/Oデバイスのいくつかまたは全部が、直接、1以上のシステムI/Oバスに接続されてもよい。
いくつかの実施形態においては、コンピュータ・システム601は、マルチ・ユーザ・メインフレーム・コンピュータ・システム、単一ユーザ・システム、または、サーバ・コンピュータ、またはごく少数のユーザインタフェースを有するか全く有さない類似のデバイスであってもよいが、他のコンピュータ・システム(クライアント)からの要求を受信する。さらに、いくつかの実施形態においては、コンピュータ・システム601は、デスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップまたはノートブック・コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマートフォン、ネットワーク・スイッチまたはルータ、または任意の他の適切なタイプの電子機器として実装されてもよい。
図6は、例示的なコンピュータ・システム601の代表的な主要なコンポーネントを描くことを意図している点に留意されたい。いくつかの実施形態においては、しかしながら、個々のコンポーネントは、図6に表されるよりも多くのまたはより少ない複雑性を有していてもよく、図6に示されたもの以外のまたはこれらに加えて別のコンポーネントがあってもよく、このようなコンポーネントの数、タイプおよび構成は異なる場合がある。
本明細書でより詳細に説明するように、本明細書に記載された方法の実施形態のいくつかの動作の一部または全部は、代替の順序で実行されてもよく、または、全く実行されなくてもよい。さらに、複数の動作は、同時にまたはより大きなプロセスの内部部分として、起こってもよい。
本開示は、システム、方法もしくはコンピュータ・プログラム製品またはこれらの組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本開示の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の例示列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック、フロッピーディスク(登録商標)、パンチカードまたは記録された命令を有する溝内の隆起構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波(たとえば、ファイバ光ケーブルを通過する光パルス)または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはこれらの組み合わせを含んでもよい。各コンピュータ/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、1以上のプログラミング言語の任意の組み合わせで書かれたソース・コードあるいはオブジェクト・コードであってよく、1以上のプログラミング言語は、Smalltalk(登録商標)、C++またはこれらに類するもなどのオブジェクト指向言語、Cプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、スタンド・アローンのソフトウェア・パッケージとして、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本開示の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む。
本開示の側面は、本明細書において、本開示の実施形態に従った方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータおよび特定用途コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能/作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはこれらの組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装する命令を含む製品が含まれるようにする。
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装するように、コンピュータ実装処理を生成することもできる。
図面におけるフローチャートおよびブロック図は、本開示の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための1以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に、実行されてもよく、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。
本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、種々の実施形態を限定することを意図するものではない。本明細書で使用されるように、単数形”a”、”an”および”the”は、文脈が明確に示さない限り、複数形も含むことを意図している。さらに、用語”含む(include)”もしくは”含んでいる(including)”またはこれらの両方は、この明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素もしくはコンポーネントまたはこれらの組み合わせの存在を指定し、1以上の他の特徴、整数、ステップ、動作、要素、コンポーネントもしくはこれらのグループまたはこれらの組み合わせの存在または追加を除外するものではないことを理解されたい。前述した種々の実施形態の例示の実施形態の説明において、添付の図面(ここで、同様の数字は同様の要素を表す。)に参照が行われており、これは、本明細書の一部を形成し、それは、種々の実施形態を実施することができる、特定の例示の実施形態を説明するために示される。これらの実施形態は、当業者が実施形態を実施することができるように充分に詳細に説明されたが、他の実施形態が使用されてもよく、論理的、機械的、電気的および他の変更が、種々の実施形態の範囲を逸脱することなく行える。前述の説明においては、種々の実施形態を完全に理解するべく多くの具体的な詳細が述べられた。しかしながら、種々の実施形態は、これらの特定の詳細なしに実施することができる。いくつかの他の例では、実施形態をあいまいにしないために、周知の回路、構造および技術については、詳細に説明されていない。
この明細書で使用されるような、単語”実施形態(embodiment)”の異なる実例は、同一の実施形態を参照するとは限らないが、しかしながら、そうであってもよい。明細書において図示または説明された任意のデータおよびデータ構造は、単なる例であり、他の実施形態においては、異なる量のデータ、データのタイプ、フィールド、フィールドの数およびタイプ、フィールド名、行の数およびタイプ、レコード、エントリまたはデータの編成を使用してもよい。加えて、任意のデータをロジックと組み合わせて、個別のデータ構造を必要としないようにしてもよい。前述の詳細な説明は、したがって、限定的な意味で解釈されるべきではない。
本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。
本開示が特定の実施形態に関連して説明されたが、その変更および修正は、当業者にとって明らかになるものと予期される。したがって、以下の特許請求の範囲は、本開示の真の精神および範囲内にあるようなすべての変更および修正に及ぶものとして解釈されることが意図される。
100…コンピューティング環境、105…デバイス、110,140…ネットワーク・インタフェース、115,145…プロセッサ、120,155…メモリ、135…サーバ、160…関係性発見アプリケーション、200…コンピューティング環境、205…データソース、210…関係性発見システム、255…デバイス、215…データ受取およびフィルタリング・モジュール、220…エンティティ抽出器、225…関係性スコア決定器、230…ナレッジ・グラフ(KG)構築器、235…関係性強度決定器、240…関係性タイムライン決定器、245…関係性理由決定器、250…ネットワーク識別器、300…方法、60…ハードウェアおよびソフトウェア・レイヤ、61…メインフレーム、62,63…サーバ、64…ブレードサーバ、65…ストレージ・デバイス、66…ネットワークおよびネットワーキング・コンポーネント、67…ネットワーク・アプリケーション・サーバ・ソフトウェア、68‥データベース・ソフトウェア、70…仮想化レイヤ、71…仮想化サーバ、72…仮想化ストレージ、73…仮想化ネットワーク、74…仮想化アプリケーションおよびオペレーティング・システム、75…仮想クライアント、80…管理レイヤ、81…リソース・プロビショニング、82…メータリングおよびプライシング、83…ユーザポータル、84…サービス・レベル・マネジメント、85…サービス・レベル合意(SLA)の計画と履行、90…ワークロード・レイヤ、91…マッピングおよびナビゲ―ション、92…ソフトウェア開発およびライフサイクル管理、93…仮想クラスルーム教育配信、94…データ・アナリティクス処理、95…トランザクション処理、96…関係性識別および定量化、601…コンピュータ・システム、602…CPU、603…メモリバス、604…メモリ・サブシステム、608…I/Oバス、610…I/Oバスインタフェース・ユニット、612…ターミナル・インタフェース、614…ストレージ・インタフェース、616…I/Oデバイス・インタフェース、618…ネットワーク・インタフェース、622…RAM、624…キャッシュ・メモリ、626…ストレージ・システム、628…プログラム/ユーティリティ、630…プログラム・モジュール

Claims (20)

  1. データソースを照会し、パーティに関するデータを受け取ることと、
    前記データからエンティティを抽出し、エンティティのセットを受け取ることであって、前記パーティは、前記エンティティのセットのうちの第1のエンティティである、抽出することと、
    前記エンティティのセット内でエンティティを相互に関連付けるオントロジー構造を構築することと、
    前記第1のエンティティおよび第2のエンティティ間の共起に基づいて前記第1のエンティティおよび前記第2のエンティティ間の初期関係性強度を決定することであって、前記第2のエンティティは、第2のパーティである、決定することと
    前記初期関係性強度および少なくとも1つの追加の因子に基づいて前記第1のエンティティおよび前記第2のエンティティ間の関係性スコアを計算することと
    を含む、方法。
  2. 前記関係性スコアを計算することの前に、前記方法は、
    前記第1のエンティティおよび前記第2のエンティティ間の共起のタイムラインを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記共起のタイムラインに基づいて計算される、請求項1に記載の方法。
  3. 前記関係性スコアを計算することの前に、前記方法は、
    前記第1のエンティティおよび前記第2のエンティティ間の前記共起の理由のセットを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記共起の理由のセットに基づいて計算される、請求項1または2に記載の方法。
  4. 前記関係性スコアを計算することの前に、前記方法は、
    前記第1のエンティティおよび前記第2のエンティティに関係する、前記エンティティのセットのエンティティのネットワークを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記エンティティのネットワークに基づいて計算される、請求項1~3のいずれか1項に記載の方法。
  5. 前記関係性スコアは、前記パーティおよび前記第2のパーティが不正活動に関わるリスクを表す、請求項1~4のいずれか1項に記載の方法。
  6. 前記方法は、さらに、
    前記関係性スコアを閾値と比較することと、
    前記関係性スコアが前記閾値を上回ったことに応答して、前記パーティにより開始されたトランザクションを拒否することと
    を含む、請求項5に記載の方法。
  7. 前記関係性スコアは、前記オントロジー構造に、前記第1のエンティティおよび前記第2のエンティティ間の関係性に対する属性として追記される、請求項1~6のいずれか1項に記載の方法。
  8. 1以上のプロセッサと、
    プログラム命令を格納する1以上のコンピュータ可読ストレージ媒体と
    を含み、前記プログラム命令は、前記1以上のプロセッサにより実行される場合に前記1以上のプロセッサに方法を実行させるよう構成され、前記方法は、
    データソースを照会し、パーティに関するデータを受け取ることと、
    前記データからエンティティを抽出し、エンティティのセットを受け取ることであって、前記パーティは、前記エンティティのセットのうちの第1のエンティティである、抽出することと、
    前記エンティティのセット内でエンティティを相互に関連付けるオントロジー構造を構築することと、
    前記第1のエンティティおよび第2のエンティティ間の共起に基づいて前記第1のエンティティおよび前記第2のエンティティ間の初期関係性強度を決定することであって、前記第2のエンティティは、第2のパーティである、決定することと
    前記初期関係性強度および少なくとも1つの追加の因子に基づいて前記第1のエンティティおよび前記第2のエンティティ間の関係性スコアを計算することと
    を含む、システム。
  9. 前記関係性スコアを計算することの前に、前記1以上のプロセッサにより実行される前記方法は、
    前記第1のエンティティおよび前記第2のエンティティ間の共起のタイムラインを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記共起のタイムラインに基づいて計算される、請求項8に記載のシステム。
  10. 前記関係性スコアを計算することの前に、前記1以上のプロセッサにより実行される前記方法は、
    前記第1のエンティティおよび前記第2のエンティティ間の前記共起の理由のセットを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記共起の理由のセットに基づいて計算される、請求項8または9に記載のシステム。
  11. 前記関係性スコアを計算することの前に、前記1以上のプロセッサにより実行される前記方法は、
    前記第1のエンティティおよび前記第2のエンティティに関係する、前記エンティティのセットのエンティティのネットワークを決定すること
    をさらに含み、前記関係性スコアは、前記初期関係性強度および前記エンティティのネットワークに基づいて計算される、請求項8~10のいずれか1項に記載のシステム。
  12. 前記関係性スコアは、前記パーティおよび前記第2のパーティが不正活動に関わるリスクを表す、請求項8~11のいずれか1項に記載のシステム。
  13. 前記1以上のプロセッサにより実行される前記方法は、さらに、
    前記関係性スコアを閾値と比較することと、
    前記関係性スコアが前記閾値を上回ったことに応答して、前記パーティにより開始されたトランザクションを拒否することと
    を含む、請求項12に記載のシステム。
  14. 前記関係性スコアは、前記オントロジー構造に、前記第1のエンティティおよび前記第2のエンティティ間の関係性に対する属性として追記される、請求項8~13のいずれか1項に記載のシステム。
  15. コンピュータ・プログラムであって、1以上のプロセッサに、
    データソースを照会し、パーティに関するデータを受け取ることと、
    前記データからエンティティを抽出し、エンティティのセットを受け取ることであって、前記パーティは、前記エンティティのセットのうちの第1のエンティティである、抽出することと、
    前記エンティティのセット内でエンティティを相互に関連付けるオントロジー構造を構築することと、
    前記第1のエンティティおよび第2のエンティティ間の共起に基づいて前記第1のエンティティおよび前記第2のエンティティ間の初期関係性強度を決定することであって、前記第2のエンティティは、第2のパーティである、決定することと
    前記初期関係性強度および少なくとも1つの追加の因子に基づいて前記第1のエンティティおよび前記第2のエンティティ間の関係性スコアを計算することと
    を実行させるためのコンピュータ・プログラム。
  16. 前記1以上のプロセッサに、前記関係性スコアを計算することの前に、
    前記第1のエンティティおよび前記第2のエンティティ間の共起のタイムラインを決定すること
    をさらに実行させ、前記関係性スコアは、前記初期関係性強度および前記共起のタイムラインに基づいて計算される、請求項15に記載のコンピュータ・プログラム。
  17. 前記1以上のプロセッサに、前記関係性スコアを計算することの前に、
    前記第1のエンティティおよび前記第2のエンティティ間の前記共起の理由のセットを決定すること
    をさらに実行させ、前記関係性スコアは、前記初期関係性強度および前記共起の理由のセットに基づいて計算される、請求項15または16に記載のコンピュータ・プログラム。
  18. 前記1以上のプロセッサに、前記関係性スコアを計算することの前に、
    前記第1のエンティティおよび前記第2のエンティティに関係する、前記エンティティのセットのエンティティのネットワークを決定すること
    をさら実行させ、前記関係性スコアは、前記初期関係性強度および前記エンティティのネットワークに基づいて計算される、請求項15~17のいずれか1項に記載のコンピュータ・プログラム。
  19. 前記関係性スコアは、前記オントロジー構造に、前記第1のエンティティおよび前記第2のエンティティ間の関係性に対する属性として追記される、請求項15~18のいずれか1項に記載のコンピュータ・プログラム。
  20. 前記コンピュータ・プログラムは、分散データ処理システムからコンピュータ可読ストレージ媒体にダウンロードされる、請求項15~19のいずれか1項に記載のコンピュータ・プログラム。
JP2021181782A 2020-11-16 2021-11-08 方法、システムおよびコンピュータ・プログラム Pending JP2022079430A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/099,078 2020-11-16
US17/099,078 US11762896B2 (en) 2020-11-16 2020-11-16 Relationship discovery and quantification

Publications (1)

Publication Number Publication Date
JP2022079430A true JP2022079430A (ja) 2022-05-26

Family

ID=78806061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021181782A Pending JP2022079430A (ja) 2020-11-16 2021-11-08 方法、システムおよびコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US11762896B2 (ja)
JP (1) JP2022079430A (ja)
CN (1) CN114510575A (ja)
DE (1) DE102021127398A1 (ja)
GB (1) GB2602382A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230237512A1 (en) * 2022-01-07 2023-07-27 Jpmorgan Chase Bank, N.A. Method and system for understanding financial documents

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174167A1 (en) 2005-05-20 2007-07-26 Stefano Natella Derivative relationship news event reporting
US7866542B2 (en) 2006-06-08 2011-01-11 International Business Machines Corporation System and method for resolving identities that are indefinitely resolvable
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
US7962486B2 (en) 2008-01-10 2011-06-14 International Business Machines Corporation Method and system for discovery and modification of data cluster and synonyms
US8498998B2 (en) 2010-10-11 2013-07-30 International Business Machines Corporation Grouping identity records to generate candidate lists to use in an entity and relationship resolution process
US20140046977A1 (en) 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. System and method for mining patterns from relationship sequences extracted from big data
US9535902B1 (en) 2013-06-28 2017-01-03 Digital Reasoning Systems, Inc. Systems and methods for entity resolution using attributes from structured and unstructured data
US10042911B2 (en) 2013-07-30 2018-08-07 International Business Machines Corporations Discovery of related entities in a master data management system
US9396253B2 (en) 2013-09-27 2016-07-19 International Business Machines Corporation Activity based analytics
US10424016B2 (en) 2013-12-19 2019-09-24 International Business Machines Corporation Modeling asset transfer flow relationships discovered in unstructured data
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base
US11244236B2 (en) 2017-03-31 2022-02-08 International Business Machines Corporation Entity resolution for the Internet of Things
US20190095530A1 (en) * 2017-09-22 2019-03-28 Estia, Inc. Tag relationship modeling and prediction
US20190377819A1 (en) * 2018-06-12 2019-12-12 Bank Of America Corporation Machine learning system to detect, label, and spread heat in a graph structure
US11468342B2 (en) 2018-09-14 2022-10-11 Jpmorgan Chase Bank, N.A. Systems and methods for generating and using knowledge graphs
JP7012628B2 (ja) * 2018-09-28 2022-01-28 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
CN110275965B (zh) 2019-06-27 2021-12-21 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
US20210042344A1 (en) * 2019-08-06 2021-02-11 Koninklijke Philips N.V. Generating or modifying an ontology representing relationships within input data

Also Published As

Publication number Publication date
GB2602382A (en) 2022-06-29
GB202115087D0 (en) 2021-12-08
US20220156304A1 (en) 2022-05-19
US11762896B2 (en) 2023-09-19
DE102021127398A1 (de) 2022-05-19
CN114510575A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
US11455473B2 (en) Vector representation based on context
JP7034184B2 (ja) 意味グラフにおけるメタ関係の適応評価のためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラム
CN112100312B (zh) 从数据源中智能提取因果知识
US11263223B2 (en) Using machine learning to determine electronic document similarity
JP2020532012A (ja) ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
JP2017049684A (ja) 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
WO2019053629A1 (en) UPDATE OF LEARNING DATA
US11030402B2 (en) Dictionary expansion using neural language models
US10282411B2 (en) System, method, and recording medium for natural language learning
US20220277031A1 (en) Guided exploration for conversational business intelligence
US10678821B2 (en) Evaluating theses using tree structures
US11030228B2 (en) Contextual interestingness ranking of documents for due diligence in the banking industry with topicality grouping
US20230092274A1 (en) Training example generation to create new intents for chatbots
US20190164061A1 (en) Analyzing product feature requirements using machine-based learning and information retrieval
US11593385B2 (en) Contextual interestingness ranking of documents for due diligence in the banking industry with entity grouping
US11361031B2 (en) Dynamic linguistic assessment and measurement
US20200043019A1 (en) Intelligent identification of white space target entity
US11443384B2 (en) Intelligent policy covery gap discovery and policy coverage optimization
JP2023508599A (ja) 会話型エージェント・システム、方法、プログラム
JP2022079430A (ja) 方法、システムおよびコンピュータ・プログラム
US20210149990A1 (en) Iteratively expanding concepts
US11556558B2 (en) Insight expansion in smart data retention systems
US11989513B2 (en) Quantitative comment summarization
US11947536B2 (en) Identifying and processing poly-process natural language queries
US11748453B2 (en) Converting unstructured computer text to domain-specific groups using graph datastructures

Legal Events

Date Code Title Description
RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20211215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240411