JP2024513293A

JP2024513293A - トランスフォーマベースのモデルナレッジグラフリンク予測

Info

Publication number: JP2024513293A
Application number: JP2023549061A
Authority: JP
Inventors: ロシエロ、ガエタノ; グリオッツォ、アルフィオ; ワン、シュアン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-04-12
Filing date: 2022-03-21
Publication date: 2024-03-25
Also published as: US20220327356A1; WO2022219435A1; CN117136366A

Abstract

トランスフォーマベースの人工ニューラルネットワークを使用してナレッジグラフ（ＫＧ）リンク予測を改善するためのシステム、製品、及び方法が提供される。第１のトピックモデルは、複数の第１のトリプルを含むＫＧから導出された第１のデータセットに対して利用される。第１のトリプルは、第１のエンティティ、及び第１のエンティティを接続して第１の接続されたエンティティ間の関係を表す第１のエッジを含む。第１の類似性関数は、第１のトリプルの第１の接続されたエンティティに適用されて、それぞれの第１の類似性スコアを提供する。１つ又は複数の第１のトリプルの第１のサブセットは、第１の類似性スコアに基づいて複数の第１のトリプルから選択される。人工ニューラルネットワークは、１つ又は複数の第１のトリプルの選択された第１のサブセットを使用してトレーニングされる。

Description

本実施形態は、ナレッジグラフの補足又は完成に関連した予測のための、人工ニューラルネットワークに基づく言語モデル、詳細には、トランスフォーマベースのモデルの性能を改善することに関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩ）は、コンピュータ及び人間に関連するコンピュータの挙動を対象としたコンピュータ科学の分野に関する。ＡＩとは、機械が情報に基づいて判断を行うことが可能である場合の知能を指し、これにより所与のトピックにおける成功の機会を最大化する。より具体的には、ＡＩはデータセットから学習して問題を解決し、関連する推奨事項を提供することができる。例えば、人工知能（ＡＩ）コンピュータシステムの分野では、自然言語システム（ＩＢＭＷａｔｓｏｎ（登録商標）人工知能コンピュータシステム又は他の自然言語の質問応答システムなど）は、システム取得型ナレッジに基づいて自然言語を処理する。自然言語を処理するために、システムは、ナレッジのデータベース又はコーパスから導出されるデータを用いてトレーニングされ得るが、結果の成果が様々な理由に関して不適切又は不正確となり得る。

ＡＩのサブセットである機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＭＬ）は、アルゴリズムを利用してデータから学習し、このデータに基づいて展望を作成する。ＡＩとは、機械が情報に基づいて判断を行うことが可能である場合の知能を指し、これにより所与のトピックにおける成功の機会を最大化する。より具体的には、ＡＩはデータセットから学習して問題を解決し、関連する推奨事項を提供することができる。認知コンピューティングは、コンピュータ科学及び認知科学を混合したものである。認知コンピューティングは、最小データ、視覚認識及び自然言語処理を用いる自己学習アルゴリズムを利用して、問題を解決し、人間の処理を最適化する。

ＡＩ及び関連付けられる論理的思考の中核には、類似性の概念が存在する。自然言語及びオブジェクトを理解するプロセスは、困難であり得る、関係性の視点からの論理的思考を必要とする。静的構造及び動的構造を含む構造が、所与の確定的な入力のために決定された出力又はアクションを規定する。より具体的には、決定された出力又はアクションは、構造内の明示的な関係又は固有の関係に基づいている。これらの構造を構築するために、適切なデータセットが依拠している。そのようなデータセットの例としては、グラフ構造のデータモデル又はトポロジを使用してデータを統合するナレッジグラフ（ＫｎｏｗｌｅｄｇｅＧｒａｐｈ：ＫＧ）がある。

多くのＡＩシステムは、質問応答（ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ：ＱＡ）、セマンティック検索、推奨事項作成などのタスクを実行するための重要なリソースとしてナレッジグラフ（ＫＧ）に依存している。ＫＧは、典型的には、情報のトリプル（トリプレットとも呼ばれる）で構成される相互リンクされたデータの集合又はデータセットを表す。ＫＧには、頂点又はノードによって表され、関係又は述語によって相互にリンク又は接続されたエンティティの記述が含まれ、関係又は述語は、ＫＧ内の頂点又はノードをリンク又は接続するエッジによって表される。トリプルの相互リンクされたエンティティは、トリプルの関係によって表される関係を有するサブジェクト及びオブジェクトと呼ばれることもある。エンティティには、例えば、現実世界のオブジェクト、イベント、状況、又は抽象的な概念が含まれ得る。ＫＧは、異なるエンティティ間の関連を識別することによって構築され得る。ＫＧは進歩し、数百万、さらには数十億のエントリを含むものも知られるほどである。

一部のＫＧはオントロジと組み合わせて使用される。オントロジには、１つ、多数、又はすべての議論領域を実証する概念、データ、エンティティ間のカテゴリ、プロパティ、関係の表現、正式な命名、定義が含まれる。複雑さを制限し、情報をデータ及びナレッジに整理するために、あらゆる分野でオントロジが作成される。新しいオントロジが作成されると、その使用によって、その領域内の問題解決が改善されることが期待される。

ＫＧには、多くの場合、形式的な意味論に乏しい大量の事実情報が含まれている。例えば、ゲノミクス領域内のＫＧには、遺伝子、遺伝子変異体、薬剤、及び疾患などのエンティティが含まれ得、特定の遺伝子変異体と特定の疾患との関連など、エンティティ間の関係を示し得る。ＫＧの構築に対する従来の手法では、エンティティ間の関係を発見するために、内容領域専門家である研究者が新しい出版物を研究する必要がある。ＫＧは研究者にエンティティの相互関係についての洞察を提供するが、ＫＧの手動組み立て及び更新は非常に複雑で時間がかかり得る。ＫＧに関連して生じるもう１つの問題は、多くの場合、ＫＧに含まれるデータが不完全であることである。

一方、オープンＫＧは事前に指定されたオントロジを必要としないため、オープンＫＧは適応性が高くなる。オープンＫＧでは、同じ潜在的なエンティティは、異なる名詞句（ＮｏｕｎＰｈｒａｓｅ：ＮＰ）でラベル付けされた異なるノードによって表され得る。例えば、エンティティ「米国大統領」は、第１のノード「米国大統領」及び第２のノード「大統領」によって表され得る。同様に、オープンＫＧでは、同じ潜在的な関係を異なる関係句（ＲｅｌａｔｉｏｎＰｈｒａｓｅ：ＲＰ）で表すことができる。例えば、ＲＰの「誕生した」及び「生まれた」は、同じ基本的な関係を指す。

リンク予測モデルを使用することによって、内容領域専門家（ＳｕｂｊｅｃｔＭａｔｔｅｒＥｘｐｅｒｔ：ＳＭＥ）をＫＧの準備プロセスから少なくとも部分的に排除できる。リンク予測モデルの目的は、ＫＧ内で欠落しているエンティティ（ノード）又は関係（エッジ）を予測することである。予測モデルは、ＫＧを補完又は完成させるために、ＫＧに存在しないトリプルの妥当性を評価する。例えば、リンク予測には、欠落しているオブジェクトを予測するために、サブジェクト及び関係を識別するクエリに回答することが含まれ得る。特定の例として、リンク予測は、オブジェクトとして「米国大統領」を識別するために、サブジェクトとして「ファーストレディ」及び関係として「配偶者」のクエリをリンク予測モデルに提供し得る。別の実施形態では、ＫＧは、「ファーストレディ」及び「米国大統領」の間のリンクを含んでもよいが、「ファーストレディ」及び「米国」の間の同様のリンクを欠いてもよい。この例の予測モデルは、不完全なＫＧから関係が欠落しているエンティティであるファーストレディ及び米国大統領（又は「大統領」）の間の関係を表すエッジを識別する。

ＬｉａｎｇＹａｏら、ＫＧ－ＢＥＲＴ：ナレッジグラフ補完のためのＢＥＲＴは、参照により本明細書に組み込まれるが、転移によるナレッジグラフ双方向エンコーダ表現（ＫＧ－ＢＥＲＴ）として知られる事前トレーニングされた言語モデルをモデルトリプルに使用することを提案している。Ｙａｏ氏は、ＢＥＲＴを多層双方向トランスフォーマエンコーダ上に構築された事前トレーニング済みの文脈上の言語表現モデルであると説明している。Ｙａｏ氏によると、トリプルのエンティティ及び関係の記述は、ＫＧ－ＢＥＲＴモデルへのテキスト順序入力として受信され、ＫＧ－ＢＥＲＴはトリプルのスコアリング関数を計算する。この方法は、「トリプル分類、関係予測、及びリンク予測タスクにおいて最先端の結果」を達成すると言われている。トリプル分類は、所与のサブジェクト－関係－オブジェクト（ｓ、ｒ、ｏ）のトリプルが正しいかどうかを判断することを目的としている。リンク予測は、他の要素（オブジェクト又はサブジェクト）及び関係、すなわち、（ｓ，ｒ，？）又は（？，ｒ，ｏ）を考慮して、欠落している要素（サブジェクト又はオブジェクト）を予測する。関係予測は、サブジェクト及びオブジェクト、すなわち、（ｓ，？，ｏ）から関係を予測することを目的としている。

しかし、発明者らは、大規模なデータセットに対する予測モデルのトレーニング及び使用に関連して、スケーラビリティに関連する大きな技術的問題を発見した。予測モデルのトレーニング、テスト（又は検証）、及び使用の実行時間は、ＫＧに数百万又は数十億のエントリが含まれるなど、特に関連するＫＧが複雑である場合、長くなる可能性がある。特に大量のＫＧ又はデータセットのトレーニング及びテストの実行時間は、理論的には数日、数か月、さらには数年かかる可能性があり、したがって、大きな技術的問題が発生する。

実施形態は、システム、コンピュータプログラム製品、及び自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：ＮＬＰ）のための方法を含み、ＮＬＰは、ナレッジグラフリンク予測及び／又は関係予測において言語モデル、特にトランスフォーマベースのモデルのパフォーマンスを改善することを対象とするＮＬＰを含む。

１つの態様では、システムには、メモリに動作可能に結合された処理ユニット、処理ユニット及びメモリと通信する人工知能（ＡＩ）プラットフォームが設けられる。ＡＩプラットフォームは、ナレッジグラフの修正をサポートする１つ又は複数のツールで構成され、ツールはトピックモデルマネージャ及び機械学習マネージャ（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＭａｎａｇｅｒ：ＭＬＭ）を含む。トピックマネージャは、複数の第１のトリプルを含むナレッジグラフ（ＫＧ）から導出された第１のデータセットに対して第１のトピックモデルを利用するように構成されている。第１のトリプルは、第１のエンティティ、及び第１のエンティティを接続して第１の接続されたエンティティ間の関係を表す第１のエッジを含む。トピックモデルは、第１の類似性関数を第１のトリプルの第１の接続されたエンティティに適用して、それぞれの第１の類似性スコアを提供し、第１の類似性スコアに基づいて、複数の第１のトリプルから１つ又は複数の第１のトリプルの第１のサブセットを選択するようにさらに構成されている。ＭＬＭは、１つ又は複数の第１のトリプルの選択された第１のサブセットを使用して人工ニューラルネットワークをトレーニングするように構成されている。

別の態様では、コンピュータプログラム製品が提供される。コンピュータプログラム製品は、プロセッサによって実行可能である具現化されたプログラムコードを有するコンピュータ可読記憶デバイスを含む。プログラムコードはプロセッサによって実行可能であり、第１のエンティティ、及び第１のエンティティを接続して第１の接続されたエンティティ間の関係を表す第１のエッジを含む、複数の第１のトリプルを含むナレッジグラフ（ＫＧ）から導出された第１のデータセットに対して第１のトピックモデルを利用する。プログラムコードはさらにプロセッサによって実行可能であり、第１の類似性関数を第１のトリプルの第１の接続されたエンティティに適用して、それぞれの第１の類似性スコアを提供し、第１の類似性スコアに基づいて、複数の第１のトリプルから１つ又は複数の第１のトリプルの第１のサブセットを選択し、１つ又は複数の第１のトリプルの選択された第１のサブセットを使用して人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＡＮＮ）をトレーニングする。

さらに別の態様では、複数の第１のトリプルを含むナレッジグラフ（ＫＧ）から導出された第１のデータセットに対して第１のトピックモデルを利用する方法が提供される。第１のトリプルは、第１のエンティティ、及び第１のエンティティを接続して第１の接続されたエンティティ間の関係を表す第１のエッジを含む。第１の類似性関数は、第１のトリプルの第１の接続されたエンティティに適用されて、それぞれの第１の類似性スコアを提供する。１つ又は複数の第１のトリプルの第１のサブセットは、第１の類似性スコアに基づいて複数の第１のトリプルから選択される。人工ニューラルネットワークは、１つ又は複数の第１のトリプルの選択された第１のサブセットを使用してトレーニングされる。

これら及び他の特徴及び利点は、添付の図面と併せて、以下の例示的な実施形態の詳細な説明から明らかになるであろう。

ここで参照される図面は、明細書の一部を形成する。図面に示す特徴は、特に明記しない限り、一部の実施形態のみの例示を意味するものであり、すべての実施形態の例示を意味するものではない。

一実施形態による、トランスフォーマベースのモデルを含むシステムの概略図を示すシステム図を示す。

一実施形態による、図１に示すツール及びそれらの関連付けられたＡＰＩを示すブロック図を示す。

人工ニューラルネットワーク（ＡＮＮ）をトレーニングするためのトレーニングセットを選択するための第１のトピックモデルの使用を含む方法の一実施形態を示すフローチャートを示す。

トレーニングされたＡＮＮの使用又はテストのための候補セットを選択するための第２のトピックモデルの使用を含む方法の一実施形態を示すフローチャートを示す。

例えば、テスト、検証、又は予測に関連して、トレーニングされたＡＮＮの使用を含む方法の一実施形態を示すフローチャートを示す。

図１～図５に関して上記で説明したシステム及びプロセスを実装するための、クラウドベースのサポートシステムのコンピュータシステム／サーバの一例を示すブロック図を示す。

クラウドコンピュータ環境を示すブロック図を示す。

クラウドコンピューティング環境によって提供される機能抽象化モデル層のセットを示すブロック図を示す。

本実施形態の構成要素は、本明細書で概して説明され、図面に示されているように、多種多様な異なる構成で配置及び設計され得ることが容易に理解されるであろう。したがって、図面に表されるような、本実施形態の装置、システム、方法、及びコンピュータプログラム製品の実施形態の以下の詳細な説明は、特許請求される実施形態の範囲を限定することを意図するものではなく、単に選択された実施形態を表するものである。

本明細書を通して、「選択された実施形態（ａｓｅｌｅｃｔｅｍｂｏｄｉｍｅｎｔ）」、「１つの実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」、又は「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」への言及は、実施形態に関連して説明される特定の特徴、構造又は特性が少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書を通した様々な箇所で、「選択された実施形態（ａｓｅｌｅｃｔｅｍｂｏｄｉｍｅｎｔ）」、「１つの実施形態では（ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ）」、又は「一実施形態では（ｉｎａｎｅｍｂｏｄｉｍｅｎｔ）」という語句が現れても、必ずしも同一の実施形態を指していない。様々な実施形態が互いに組み合わせされ得、任意の１つの実施形態が別の実施形態を修正するために使用され得ることを理解されたい。

例示された実施形態は、図面を参照することにより最もよく理解され、全体を通して、同様の部分は同様の番号により指定されている。以下の説明は、例としてのみ意図されており、本明細書で特許請求されるような実施形態と一致するデバイス、システム及び処理の特定の選択された実施形態を単に示しているだけである。

本明細書に図示及び説明するように、この技術的問題に対する技術的解決策は、本明細書に説明及び／又は例示するシステム、コンピュータプログラム製品、方法、及び他の態様を開発することによって提供される。

図１を参照すると、システム（１００）の概略図が示されている。図示されるように、コンピュータネットワーク（本明細書ではネットワーク接続とも呼ばれる）（１０５）を介して複数のコンピューティングデバイス（１８０）、（１８２）、（１８４）、（１８６）、（１８８）及び（１９０）と通信するサーバ（１１０）が設けられる。サーバ（１１０）は、コンピュータネットワーク（１０５）から入力コンテンツ（１０２）を受信し、出力コンテンツ（１０４）をコンピュータネットワーク（１０５）に送信するように構成されている。サーバ（１１０）には、本明細書では処理ユニットとも呼ばれるプロセッサ（１１２）が設けられ、バス（１１４）を介してメモリ（１１６）に動作可能に結合される。人工知能（ＡＩ）プラットフォーム（本明細書ではナレッジエンジンとも呼ばれる）（１５０）の形態のツールが、サーバ（１１０）に対してローカルに示されており、処理ユニット（１１２）及びメモリ（１１６）に動作可能に結合されている。図示されるように、ＡＩプラットフォーム（１５０）は、１つ又は複数のツール（１５２）及び（１５４）を含む。ツール（１５２）及び（１５４）は、１つ又は複数のコンピューティングデバイス（１８０）、（１８２）、（１８４）、（１８６）、（１８８）及び（１９０）からコンピュータネットワーク（１０５）を介して、ＫＧ－ＢＥＲＴなどのトランスフォーマベースの人工ニューラルネットワーク（ＡＮＮ）モデルを含む、ＡＮＮモデルのトレーニング及び推論処理を可能にするための管理を提供する。

コンピューティングデバイス（１８０）、（１８２）、（１８４）、（１８６）、（１８８）及び（１９０）は、１つ又は複数の有線及び／又は無線データ通信リンクを介して、互いに及び他のデバイス又は構成要素と通信し、各通信リンクは、電線、ルータ、スイッチ、送信機又は受信機、又は同様のもののうちの１つ又は複数を備え得る。このネットワーク化された構成では、サーバ（１１０）及びネットワーク接続（１０５）は、入力コンテンツ（１０２）及び出力コンテンツ（１０４）、例えば、１人又は複数のコンテンツユーザに対するモデルトレーニング及び推論操作の交換を可能にし得る。サーバ（１１０）の他の実施形態は、ここに示されるもの以外の構成要素、システム、サブシステム及び／又はデバイスと共に使用され得る。

本明細書に図示及び説明するように、ＡＩプラットフォーム（１５０）のツールには、トピックモデルマネージャ（１５２）及び機械学習モデル（ＭＬＭ）マネージャ（１５４）が含まれる。ＡＩプラットフォーム（１５０）は、限定されないが、入力コンテンツ（１０２）及び出力コンテンツ（１０４）を介したネットワーク（１０５）、ナレッジベース又はコーパス構造（１６０）からの１つ又は複数のナレッジグラフ（ＫＧ）データセット、トピックモデル（１７２）、及び人工ニューラルネットワーク（ＡＮＮ）（１７４）からの入力を含む、様々なソースからの入力を受信する、及び／又はそれらに送信するように構成され得る。

図示されるように、ナレッジベース（１６０）は、一実施形態では、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）及び第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）を含む、データセットのライブラリを含む。例示的な実施形態では、データセット、Ｄａｔａｓｅｔ_０（１６２_０）及びＤａｔａｓｅｔ_１（１６２_１）は、同じナレッジグラフ（ＫＧ）から導出された異なるデータを表す。例えば、ＫＧからのデータは、そのサブセットがトレーニングに使用されるＤａｔａｓｅｔ_０（１６２_０）、及びそのサブセットがテスト又は推論に使用されるＤａｔａｓｅｔ_１（１６２_１）に分割され得る。例示的な実施形態では、Ｄａｔａｓｅｔ_０（１６２_０）及びＤａｔａｓｅｔ_１（１６２_１）はＫＧとして具現化される。あるいは、Ｄａｔａｓｅｔ_０（１６２_０）及びＤａｔａｓｅｔ_１（１６２_１）のいずれか又は両方は、別の形式、具体的には、例えば、トピックモデル（１７２）によって生成される埋め込みルックアップテーブルなどのＫＧから導出される構造化データとして具現化され得る。本明細書に示すデータセットの量は、限定的であると考えるべきではない。

当技術分野で理解されているように、ＫＧは構造（例えば、オントロジ）であり、単にデータを記憶するだけではない。具体的には、情報抽出（ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ：ＩＥ）モデルは、その例が当技術分野で知られており、非構造化データからデータ及び１つ又は複数のデータ関係を抽出し、抽出されたデータ及びデータ関係のエントリをＫＧに作成し、作成されたＫＧエントリにデータ及びデータ関係を記憶する。ＩＥモデルを利用して、非構造化テキストからトリプルを自動的に抽出し得る。あるいは、データセットは、内容領域専門家（ＳＭＥ）などによって手動でまとめ得る。

一実施形態では、ＫＧ内のデータ要素はノードに記憶又は表現され、２つのデータ要素間の関係は、２つのノードを接続又はリンクするエッジとして表現される。同様に、一実施形態では、各ノードはノードレベルの信頼性又は正確性の値を有し、各関係は関係信頼性又は正確性の値を有し、関係の正確性の値は、相互接続された２つのノードの正確性の値に基づいて計算される。

図１では、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）は、第１の複数のトリプルを含むナレッジグラフ（ＫＧ）から導出されたデータを表す。具体的には、Ｄａｔａｓｅｔ_０（１６２_０）は、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、及びＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）を含み、ここで、ｍは２に等しい又はそれよりも大きい整数である。第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）には３つのトリプルが示されているが、Ｄａｔａｓｅｔ_０（１６２_０）は、数十、数百、数千、数百万、又は数十億のトリプルを含む追加のトリプルを含み得、例えば、「ｍ」は、例えば、１０～１０億に等しくてもよいことを理解されたい。各Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、…、及びＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）には、サブジェクト、関係、及びオブジェクトが含まれる。例として、本明細書に示すように、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）には、Ｓｕｂｊｅｃｔ_０，_０（１６６_０，_０）、Ｒｅｌａｔｉｏｎ_０，_０（１６７_０，_０）、及びＯｂｊｅｃｔ_０，_０（１６８_０，_０）が含まれる。Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）には、Ｓｕｂｊｅｃｔ_０，_１（１６６_０，_１）、Ｒｅｌａｔｉｏｎ_０，_１（１６７_０，_１）、及びＯｂｊｅｃｔ_０，_１（１６８_０，_１）が含まれる。Ｔｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）には、Ｓｕｂｊｅｃｔ_０，_ｍ（１６６_０，_ｍ）、Ｒｅｌａｔｉｏｎ_０，_ｍ（１６７_０，_ｍ）、及びＯｂｊｅｃｔ_０，_ｍ（１６８_０，_ｍ）が含まれる。

トピックモデルマネージャ（１５２）は、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）に対してトピックモデル（１７２）を利用するように構成されている。概して、トピックモデリングは、テキストデータを自動的に分析して、文書のセットのクラスタワードを決定する機械学習技術である。この技術は、事前に人間によって分類されたタグ又はトレーニングデータの予め定められたリストを必要としないため、これは「教師なし」機械学習として知られている。機械学習及び自然言語処理では、トピックモデルは、文書の集合内で発生する抽象的な「トピック」を発見するための統計モデルの一種である。トピックモデルの例には、限定されないが、潜在意味解析（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ：ＬＳＡ）及びＷｏｒｄ２Ｖｅｃが含まれる。トピックモデリングは、テキスト本文内の隠された意味構造を発見するために頻繁に使用されるテキストマイニングツールである。

例示的な実施形態によれば、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）に対するトピックモデル（１７２）を利用することにより、トレーニングのために第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）のサブセットを選択することによって、ＡＮＮ（１７４）をトレーニングするために使用されるデータ量がダウンサンプリングされる。第１のデータセット全体ではなく、第１のデータセットのサブセットである、トレーニングセットとも呼ばれる、ダウンサンプリングされたサブセット、Ｄａｔａｓｅｔ_０（１６２_０）を使用したトレーニングにより、ＡＮＮ（１７４）のトレーニングに関連する計算時間が削減される。例示的な実施形態によれば、第１の類似性関数は、第１の類似性スコアを生成するために各トリプルのサブジェクト及びオブジェクトに適用されるコサイン類似性関数である。例示的な実施形態では、コサイン類似性関数は、トピックモデル、例えば、ＬＳＡ又はＷｏｒｄ２Ｖｅｃによって適用される。例えば、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_０は、Ｓｕｂｊｅｃｔ_０，_０（１６６_０，_０）及びＯｂｊｅｃｔ_０，_０（１６８_０，_０）から計算されたコサイン類似性スコアであり、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_１は、Ｓｕｂｊｅｃｔ_０，_１（１６６_０，_１）及びＯｂｊｅｃｔ_０，_１（１６８_０，_１）に対して計算されたコサイン類似性スコアであり、Ｔｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_ｍは、Ｓｕｂｊｅｃｔ_０，_ｍ（１６６_０，_ｍ）及びＯｂｊｅｃｔ_０，_ｍ（１６８_０，_ｍ）に対して計算されたコサイン類似性スコアである。

類似性スコアＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_０、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_１、…及びＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_０，_ｍに基づいて、トピックモデル（１７２）は、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）のＴｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、…、及びＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）からトリプルのサブセットをトレーニングセットとして選択し、ここで、サブセットには、１個から「ｍマイナス１」（ｍ－１）個のトリプルが含まれる。一実施形態によれば、トリプル、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、…、及びＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）は、トピックモデルマネージャ（１５２）によってランク付けされ、トピックモデルマネージャ（１５２）は、上位にランク付けされたトリプルの予め決められた量を選択する。別の実施形態によれば、トピックモデルマネージャ（１５２）は、トレーニングセットとして第１の閾値を満たす類似性スコアを有する、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）のＴｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、…、及びＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）からトリプルのサブセットを選択する。例えば、トレーニングセットは、第１の閾値を満たすＴｒｉｐｌｅ_０，_０（１６４_０，_０）及びＴｒｉｐｌｅ_０，_１（１６４_０，_１）を含み得るが、第１の閾値を満たさないＴｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ）を省略し得る。類似性スコアがコサイン類似性を反映する実施形態では、コサイン類似性は、主題に関して２つのデータメンバがどの程度類似している可能性が高いかを示す測定値を示す。一般に、コサイン類似性スコアの範囲はマイナス１（－１）から１（１）までで、マイナス１のスコアは反対を表し、１のスコアは同一を表し、０のスコアは無相関を表す。一実施形態では、第１の閾値は０と１の間、０．５などに設定され、この実施形態によれば、０．５から１までのすべてのスコアが第１の閾値を満たす。

ＭＬＭマネージャ（１５４）は、選択されたトレーニングセットの１つ又は複数のトリプル、例えば、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）のサブセット、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）及びＴｒｉｐｌｅ_０，_１（１６４_０，_１）を使用してＡＮＮ（１７４）をトレーニングするように構成されている。例示的な実施形態では、ＡＮＮ（１７４）は、トレーニングトリプルを使用して、トリプル分類、リンク予測、関係予測、それらの組み合わせ、及び／又は１つ又は複数の追加の動作及びタスクについてトレーニングされる。

一実施形態によるトレーニング中に、ＭＬＭマネージャ（１５４）は、ＡＮＮ（１７４）を使用して、トレーニングセットのデータに信頼性又は正確性の値を割り当てるか、そうでない場合は指定する。

ＡＩプラットフォーム（１５０）は、クエリ（１７６）を受信するようにさらに構成されている。ネットワーク（１０５）と通信する様々なコンピューティングデバイス（１８０）、（１８２）、（１８４）、（１８６）、（１８８）、及び（１９０）は、クエリ（１７６）を送信するためのアクセスポイントを示す。あるいは、クエリ（１７６）は、ナレッジベース（１６０）から、又は別のナレッジベース、ユーザ入力、又は別のソースからアクセスされ得る。一実施形態では、クエリ（１７６）は自然言語処理（ＮＬＰ）されて、第１のエンティティ、Ｅｎｔｉｔｙ_１（１７７）、及び関係、Ｒｅｌａｔｉｏｎ（１７８）を抽出する。

図１に示す実施形態では、クエリ、Ｑｕｅｒｙ（１７６）は、既知のエンティティ、Ｅｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）及び関係、Ｒｅｌａｔｉｏｎ（１７８）を含むが、未知のエンティティ、Ｅｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）は含まない。Ｅｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）は、Ｅｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）に関してＲｅｌａｔｉｏｎ（１７８）を有する。一実施形態では、Ｅｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）は、Ｅｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）及びＲｅｌａｔｉｏｎ（１７８）から提起された質問に対する回答である。一実施形態によれば、Ｑｕｅｒｙ（１７６）は、Ｅｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）としてのサブジェクト及びＲｅｌａｔｉｏｎ（１７８）を含み、Ｑｕｅｒｙ（１７６）に対する回答を表すオブジェクトであるＥｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）を求める。別の実施形態では、Ｑｕｅｒｙ（１７６）は、Ｅｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）としてのオブジェクト及びＲｅｌａｔｉｏｎ（１７８）を含み、Ｑｕｅｒｙ（１７６）に対する回答を表すサブジェクトである、Ｅｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）を求める。

トピックモデルマネージャ（１５２）は、推論又はテストの目的で、Ｄａｔａｓｅｔ_１（１６２_１）として図１で表される第２のデータセットに対してトレーニングされたトピックモデル（１７２）を利用するように構成されている。さらに、図１には１つのトピックモデル（１７２）が示されているが、２つ以上のトピックモデル、例えば、ＡＮＮ（１７４）をトレーニングする前にデータセットをダウンサンプリングするための第１のトピックモデル、及びトレーニングされたＡＮＮ（１７４）でテストする前に、別のデータセットを制限するサンプルのための第２のトピックモデルがアクセス可能及び利用可能であり得ることを理解されたい。

例示的な実施形態によれば、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）は、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）と同じＫＧから導出される追加データを表す。一実施形態では、データセット、Ｄａｔａｓｅｔ_０（１６２_０）及びＤａｔａｓｅｔ_１（１６２_１）は異なり、例えば、トピックモデル（１７２）によって生成された埋め込みルックアップテーブルなどの同じＫＧから導出される。別の実施形態では、Ｄａｔａｓｅｔ_０（１６２_０）及びＤａｔａｓｅｔ_１（１６２_１）は相互に排他的である。すなわち、Ｄａｔａｓｅｔ_１（１６２_１）のデータはトレーニングに使用されていない。Ｄａｔａｓｅｔ_１（１６１_１）は、第２のエンティティ、及び第２のエンティティをリンク又は接続する第２のエッジを有する。Ｄａｔａｓｅｔ_１（１６２_１）は、複数のトリプル、具体的には、Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、…、及びＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）を含み、ここで、ｎは２に等しい又はそれよりも大きい整数である。Ｄａｔａｓｅｔ_１（１６２_１）には３つのトリプルが示されているが、Ｄａｔａｓｅｔ_１（１６２_１）は、数十、数百、数千、数百万、又は数十億のトリプルを含む追加のトリプルを含み得ることを理解されたい。Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）には、Ｓｕｂｊｅｃｔ_１，_０（１６６_１，_０）、Ｒｅｌａｔｉｏｎ_１，_０（１６７_１，_０）、及びＯｂｊｅｃｔ_１，_０（１６８_１，_０）が含まれる。Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）には、Ｓｕｂｊｅｃｔ_１，_１（１６６_１，_１）、Ｒｅｌａｔｉｏｎ_１，_１（１６７_１，_１）、及びＯｂｊｅｃｔ_１，_１（１６８_１，_１）が含まれる。Ｔｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）には、Ｓｕｂｊｅｃｔ_１，_ｎ（１６６_１，_ｎ）、Ｒｅｌａｔｉｏｎ_１，_ｎ（１６７_１，_ｎ）、及びＯｂｊｅｃｔ_１，_ｎ（１６８_１，_ｎ）が含まれる。

例示的な実施形態によれば、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）に対するトピックモデル（１７２）を利用することにより、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）のサブセットを候補セットとして選択することによって、例えば、質問応答クエリ解決のために、ＡＮＮ（１７４）をテスト又は使用するために使用されるデータ量がダウンサンプリングされる。第２のデータセット全体、Ｄａｔａｓｅｔ_１（１６２_１）ではなく第２のデータセットのサブセットである候補セットにより、ＡＮＮ（１７４）をテストすること又は使用することに関連する計算時間が削減される。一実施形態によれば、トピックモデル（１７２）は、第２の類似性関数を、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）のトリプル、Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、及びＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）に適用する。

トピックモデル（１７２）によって評価される第２の類似性関数は、第１の類似性関数と同じであっても、異なっていてもよい。例示的な実施形態によれば、第２の類似性関数は、第２の類似性スコアを生成するために各トリプルのサブジェクト及びオブジェクトに適用されるコサイン類似性関数である。例えば、Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_０は、Ｓｕｂｊｅｃｔ_１，_０（１６６_１，_０）及びＯｂｊｅｃｔ_１，_０（１６８_１，_０）から計算されたコサイン類似性スコアであり、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_１は、Ｓｕｂｊｅｃｔ_１，_１（１６６_１，_１）及びＯｂｊｅｃｔ_１，_１（１６８_１，_１）に対して計算されたコサイン類似性スコアであり、Ｔｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）の類似性スコア、例えば、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_ｎは、Ｓｕｂｊｅｃｔ_１，_ｎ（１６６_１，_ｎ）及びＯｂｊｅｃｔ_１，_ｎ（１６８_１，_ｎ）に対して計算されたコサイン類似性スコアである。

類似性スコアＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_０、ＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_１、…及びＳｉｍｉｌａｒｉｔｙＳｃｏｒｅ_１，_ｎに基づいて、トピックモデルマネージャ（１５２）、又は一実施形態ではＭＬＭマネージャ（１５４は、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）のＴｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、…、及びＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）からトリプルのサブセットを候補として選択し、ここで、サブセットには、１個から「ｎマイナス１」（ｎ－１）個のトリプルが含まれる。一実施形態によれば、トリプル、Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、…、及びＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）は、トピックモデルマネージャ（１５２）によってランク付けされ、予め決められた数の、上位にランク付けされたトリプルが候補セットとして選択される。別の実施形態によれば、トピックモデル（１５２）は、第２の閾値を満たす類似性スコアを有する、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）のＴｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、…、及びＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）からトリプルのサブセットを候補セットとして識別及び選択する。例えば、トレーニングセットは、第２の閾値を満たすＴｒｉｐｌｅ_１，_０（１６４_１，_０）及びＴｒｉｐｌｅ_１，_１（１６４_１，_１）を含み得るが、第２の閾値を満たさないＴｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ）を省略し得る。類似性スコアがコサイン類似性を反映する実施形態では、コサイン類似性は、主題に関して２つのデータメンバがどの程度類似している可能性が高いかを示す測定値を示す。一般に、コサイン類似性スコアの範囲はマイナス１（－１）から１（１）までで、マイナス１のスコアは反対を表し、１のスコアは同一を表し、０のスコアは無相関を表す。一実施形態では、第２の閾値は０と１の間、０．５などに設定され、この実施形態によれば、０．５から１までのすべてのスコアが第２の閾値を満たす。

ＭＬＭマネージャ（１５４）は、トレーニングされたＡＮＮ（１７４）を利用して、第２のサブセットの各候補トリプルについて、Ｑｕｅｒｙ（１７６）のＥｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）に対応する候補トリプルのエンティティのそれぞれの信頼スコアを評価するように構成されている。１つ又は複数の例示的な実施形態では、第２のサブセット（又は候補トリプル）に対してトレーニングされたＡＮＮ（１７４）を利用することには、Ｑｕｅｒｙ（１７６）のＥｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）に対応する各候補トリプルのエンティティの信頼値の評価又はスコアリングが含まれる。一実施形態では、Ｑｕｅｒｙ（１７６）のＥｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）がサブジェクトである場合、トレーニングされたＡＮＮ（１７４）による評価により、候補セットの各オブジェクト、例えば、Ｏｂｊｅｃｔ_１，_０（１６８_１，_０）、Ｏｂｊｅｃｔ_１，_１（１６８_１，_１）、...及び／又はＯｂｊｅｃｔ_１，_ｎ（１６８_１，_ｎ）の信頼スコアが決定される。別の実施形態では、Ｑｕｅｒｙ（１７６）のＥｎｔｉｔｙ_{ＫＮＯＷＮ}（１７７）がオブジェクトである場合、評価により、候補セットの各サブジェクト、例えば、Ｓｕｂｊｅｃｔ_１，_０（１６６_１，_０）、Ｓｕｂｊｅｃｔ_１，_１（１６６_１，_１）、...及び／又はＳｕｂｊｅｃｔ_１，_ｎ（１６６_１，_ｎ）の信頼スコアが決定される。第２のサブセットの第２のエンティティの少なくとも１つは、信頼スコアに基づいてクエリ（１７６）のＥｎｔｉｔｙ_{ＵＮＫＮＯＷＮ}（１７９）の候補として出力される。

ネットワーク（１０５）と通信する様々なコンピューティングデバイス（１８０）、（１８２）、（１８４）、（１８６）、（１８８）、及び（１９０）は、Ｑｕｅｒｙ（１７６）を送信するためのアクセスポイントを示す。コンピューティングデバイスの一部は、ナレッジエンジン（１５０）、及び、１つの実施形態では、ツール（１５２）及び（１５４）によって使用される大量の情報としてデータのコーパスを記憶するデータベース用のデバイスを含み得る。コンピュータネットワーク（１０５）は、ナレッジエンジン（１５０）及び埋め込みツール（１５２）及び（１５４）が、ローカル及びグローバル、例えば、インターネットを含む任意の規模の環境で動作し得るように、様々な実施形態で、ローカルネットワーク接続及びリモート接続を含み得る。

サーバ（１１０）は、ニューヨーク州アーモンクのＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎから入手可能なＩＢＭＷａｔｓｏｎ（登録商標）システムであり得、これは、以下に説明する例示的な実施形態の機構で拡張される。ＩＢＭＷａｔｓｏｎ（登録商標）ナレッジマネージャシステムは、複数のトリプル（例えば、Ｔｒｉｐｌｅ_０，_０（１６４_０，_０）、Ｔｒｉｐｌｅ_０，_１（１６４_０，_１）、…Ｔｒｉｐｌｅ_０，_ｍ（１６４_０，_ｍ））を有する第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）をトピックモデル（１７２）にインポートする。具体的には、一実施形態では、第１のデータセット、Ｄａｔａｓｅｔ_０（１６２_０）のトリプルは、本明細書ではトレーニングトリプルとも呼ばれる、トリプルのサブセットにダウンサンプリングされる。トレーニングトリプルは、ＡＮＮ（１７４）のトレーニングに使用される。

さらに、ＩＢＭＷａｔｓｏｎ（登録商標）ナレッジマネージャシステムは、複数のトリプル（例えば、Ｔｒｉｐｌｅ_１，_０（１６４_１，_０）、Ｔｒｉｐｌｅ_１，_１（１６４_１，_１）、…Ｔｒｉｐｌｅ_１，_ｎ（１６４_１，_ｎ））を有する第２のデータセット、Ｄａｔａｓｅｔ_０（１６２_１）をトピックモデル（１７２）にインポートする。具体的には、一実施形態では、第２のデータセット、Ｄａｔａｓｅｔ_１（１６２_１）のトリプルは、本明細書では候補トリプルとも呼ばれる、トリプルのサブセットにダウンサンプリングされる。トレーニングされたＡＮＮ（１７４）は、候補トリプル及びクエリに対して利用される。

サーバ（１１０）は、ＡＩプラットフォーム（１５０）及び関連付けられたツール（１５２）及び（１５４）を利用して、ＡＮＮ（１７４）のトレーニング及びテストをサポートする。ＡＩプラットフォーム（１５０）は、サーバ（１１０）内に具現化されるか、サーバ（１１０）と統合されるように示されているが、コンピュータネットワーク（１０５）を介してサーバ（１１０）に接続される別個のコンピューティングシステム（例えば、１９０）内に実装され得る。サーバ（１１０）に対してローカルに示されているが、ツール（１５２）及び（１５４）は、集合的に又は個別にメモリ（１１４）又は他の場所に埋め込まれ得る。

システム（１１０）を利用できる情報処理システムのタイプは、ハンドヘルドコンピュータ／携帯電話（１８０）などの小型のハンドヘルドデバイスから、メインフレームコンピュータ（１８２）などの大規模なメインフレームシステムまでの範囲にわたる。ハンドヘルドコンピュータ（１８０）の例は、パーソナルデジタルアシスタント（ＰＤＡ（登録商標））、ＭＰ４プレーヤ、ポータブルテレビ及びコンパクトディスクプレーヤなどのパーソナルエンターテインメントデバイスを含む。情報処理システムの他の例は、ペン又はタブレットコンピュータ（１８４）、ラップトップ又はノートブックコンピュータ（１８６）、パーソナルコンピュータシステム（１８８）及びサーバ（１９０）を含む。示すように、様々な情報処理システムは、コンピュータネットワーク（１０５）を使用して、共にネットワーク化され得る。様々な情報処理システムを相互接続するために使用できるコンピュータネットワーク（１０５）のタイプは、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）、インターネット、公衆交換電話ネットワーク（ＰＳＴＮ）、その他のワイヤレスネットワーク、及び情報処理システムを相互接続するために使用できる任意の他のネットワークトポロジを含む。情報処理システムの多くは、ハードドライブ及び／又は不揮発性メモリなどの不揮発性データストアを含む。情報処理システムの一部は、別個の不揮発性データストアを使用し得る（例えば、サーバ（１９０）が不揮発性データストア（１９０Ａ）を利用し、メインフレームコンピュータ（１８２）が不揮発性データストア（１８２ａ）を利用する）。不揮発性データストア（１８２ａ）は、様々な情報処理システムの外部にある構成要素であり得るか、又は、情報処理システムのうちの１つの内部にあり得る。

情報処理システムには様々な形態を取り得るが、その一部を図１に示す。例えば、情報処理システムは、デスクトップ、サーバ、ポータブルラップトップ、ノートブック又は他のフォームファクタコンピュータ、又は、データ処理システムの形態を取り得る。さらに、情報処理システムは、パーソナルデジタルアシスタント（ＰＤＡ）、ゲーミングデバイス、ＡＴＭ機、ポータブル電話デバイス、通信デバイス又はプロセッサ及びメモリを含む他のデバイスなどの他のフォームファクタを取り得る。

アプリケーションプログラムインターフェース（ＡＰＩ）は、当技術分野において、２つ以上のアプリケーション間のソフトウェア仲介者として理解される。図１に図示及び説明したシステムに関して、１つ又は複数のＡＰＩを利用して、１つ又は複数のツール（１５２）及び（１５４）及びそれらの関連付けられた機能をサポートし得る。図２を参照すると、ＮＬ処理ツール及びそれらに関連付けられたＡＰＩを示すブロック図（２００）が提供されている。図示のように、ナレッジエンジン（２０５）内には複数のツールが埋め込まれており、そのツールには、ＡＰＩ_０（２１２）に関連付けられたトピックモデルマネージャ（２５２）、及びＡＰＩ_１（２２２）に関連付けられたＭＬＭマネージャ（２５４）が含まれる。ＡＰＩのそれぞれは、１つ又は複数の言語及びインターフェース仕様で実装され得る。トピックモデルマネージャ（２５２）に関連付けられたＡＰＩ_０（２１２）は、データセットに対する１つ又は複数のトピックモデルの利用及びサブセットの選択を提供し；ＭＬＭマネージャ（２５４）に関連付けられたＡＰＩ_１（２２２）は、選択された第１のサブセットでＡＮＮをトレーニングし、例えば、テストの目的で、選択された第２のサブセットに対してトレーニングされたＡＮＮを利用することを提供する。図示のように、ＡＰＩ（２１２）及び（２２２）のそれぞれは、オーケストレータ層とも呼ばれる、ＡＰＩオーケストレータ（２６０）に動作可能に結合され、これは、当技術分野では、別個のＡＰＩと共に透過的にスレッド化する抽象化層として機能することが理解されている。１つの実施形態では、別個のＡＰＩの機能は、つながれ得るか又は組み合わされ得る。したがって、本明細書で示すＡＰＩの構成は、限定とみなされるべきではない。したがって、本明細書に示すように、ツールの機能は、それらのそれぞれのＡＰＩにより具現化又はサポートされ得る。

本開示の選択された実施形態の理解を深めるための追加の詳細を提供するために、ここで図３を参照すると、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするためにデータセットを、トレーニングデータのサブセットにダウンサンプリングするための第１のトピックモデルの使用方法のフローチャート（３００）が示されている。図３を参照すると、例示的な実施形態では、複数のトリプルを含む１つ又は複数のナレッジグラフを有する、又はそこから導出される第１のデータセットにアクセスする（３０２）。トリプルの総数が定量化され、Ｍ_{ＴＯＴＡＬ}として設定される（３０４）。データセットのトリプルを表す変数Ｍが初期化される（３０６）。第１のトピックモデルを、トリプル、Ｔｒｉｐｌｅ_Ｍに対して利用する（３０８）。（３１０）において、第１の類似性スコア、Ｓｃｏｒｅ_Ｍが、Ｔｒｉｐｌｅ_Ｍについて評価される。例示的な実施形態によれば、第１の類似性スコアは、Ｔｒｉｐｌｅ_Ｍのエンティティ（例えば、サブジェクト及びオブジェクト）間のコサイン類似性に基づく。次いで、変数Ｍが増分され（３１２）、第１のデータセット内のトリプルのそれぞれが評価されたかどうか、例えば、増分されたＭの値がデータセット内のトリプルの総量、Ｍ_{ＴＯＴＡＬ}より大きいかどうかの判定が行われる（３１４）。否定の回答の場合、方法は、増分された変数Ｍを使用してトリプルに対して第１のトピックモデルを利用するためにステップ（３０８）に戻る。ステップ（３１４）で評価が肯定で回答された場合、トリプル、Ｔｒｉｐｌｅ_１から
が、それらに関連付けられた第１の類似性スコアに基づいて並び替えアルゴリズムによってランク付けされるか、又は別の方法で並び替えられる（３１６）。トレーニングトリプルの第１のサブセットが、トリプルのランク付け又は並び替えられたデータセットから識別される（３１８）。一実施形態によれば、第１のサブセットのトレーニングトリプルは、第１の閾値を満たす関連付けられた第１の類似性スコアを有する。第１のサブセットのトレーニングトリプルを使用して、トランスフォーマベースのＡＮＮをトレーニングする（３２０）。

図４は、第２のトピックモデルを使用して第２のデータセットを、トレーニングされたＡＮＮの使用、テスト、又は検証のための候補のサブセットにダウンサンプリングするための方法の一実施形態に関するフローチャート（４００）を示す。図４を参照すると、例示的な実施形態では、複数のトリプルを含む１つ又は複数のナレッジグラフを有する、又はそこから導出される第２のデータセットにアクセスする（４０２）。トリプルの総数が定量化され、Ｎ_{Ｔｏｔａｌ}として設定される（４０４）。第２のデータセットのトリプルを表す計数変数Ｎが初期化される（４０６）。図３に関連して上記で論じた第１のトピックモデルと同じであり得るか、又は異なり得る、第２のトピックモデルを、トリプル、Ｔｒｉｐｌｅ_Ｎに対して利用する（４０８）。（４１０）において、第２の類似性スコア、Ｓｃｏｒｅ_Ｎ、Ｔｒｉｐｌｅ_Ｎについて評価される。例示的な実施形態によれば、第２の類似性スコアは、Ｔｒｉｐｌｅ_Ｎのエンティティ（例えば、サブジェクト及びオブジェクト）間のコサイン類似性に基づく。次いで、変数Ｎが増分され（４１２）、第２のデータセット内のトリプルのそれぞれが評価されたかどうか、例えば、増分されたＮの値がＮ_{ＴＯＴＡＬ}より大きいかどうかの判定が行われる（４１４）。判定ステップ（４１４）における否定応答は、１つ又は複数の追加のトリプルが処理のために残っていることを示し、方法は、増分された変数Ｎを使用してトリプルに対して第２のトピックモデルを利用するために、ステップ（４０８）に戻る。判定ステップ（４１４）における肯定応答は、トリプルのすべてが処理されたことを示し、方法はステップ（４１６）に進む。トリプル、Ｔｒｉｐｌｅ_１から
が、それらに関連付けられた第２の類似性スコアに基づいて、ランク付けされるか、又は別の方法で並び替えアルゴリズムによって並び替えられる（４１６）。トリプルのデータセットから、トリプルの第２のサブセットが識別される（４１８）。一実施形態によれば、トリプルの第２のサブセットのトリプルは、第２の閾値を満たす関連付けられた第２の類似性スコアを有する。

図５を参照すると、例えば、テスト、検証、又は予測に関連してトレーニングされたＡＮＮを使用する実施形態の方法を示すフローチャート（５００）が提供されている。既知のエンティティ及び関係を含むクエリが受信されるが、既知のエンティティに対する関係を有する未知のエンティティは省略される（５０２）。図４のフローチャート（４００）の方法に従って開発された、候補トリプルの第２のセットにアクセスする（５０４）。候補トリプルの総量をＰ_{ＴＯＴＡＬ}として設定され（５０６）、計数変数Ｐが初期化される（５０８）。ＣａｎｄｉｄａｔｅＴｒｉｐｌｅ_Ｐについて、クエリの未知のエンティティに対応するＣａｎｄｉｄａｔｅＴｒｉｐｌｅ_ＰのエンティティがＣａｎｄｉｄａｔｅＥｎｔｉｔｙ_Ｐとして識別される（５１０）。例えば、クエリに未知のエンティティとしてサブジェクトが含まれる場合、ＣａｎｄｉｄａｔｅＴｒｉｐｌｅ_ＰのサブジェクトはＣａｎｄｉｄａｔｅＥｎｔｉｔｙ_Ｐとして識別される。一方、クエリに未知のエンティティとしてオブジェクトが含まれている場合、ＣａｎｄｉｄａｔｅＴｒｉｐｌｅ_Ｐのオブジェクトが、ＣａｎｄｉｄａｔｅＥｎｔｉｔｙ_Ｐとして識別される。

トレーニングされたＡＮＮを利用して、ＣａｎｄｉｄａｔｅＴｒｉｐｌｅ_ＰのＣａｎｄｉｄａｔｅＥｎｔｉｔｙ_Ｐの信頼スコア、Ｓｃｏｒｅ_Ｐが評価される。（５１４）において、計数変数Ｐが増分され、候補トリプルのそれぞれが信頼スコアの評価に関して処理されたかどうか、例えば、増分された計数変数ＰがＰ_{ＴＯＴＡＬ}より大きいかどうかの判定が行われる（５１６）。判定ステップ（５１６）における否定的な決定により、１つ又は複数のさらなる候補トリプルが処理のために残っていることが示されている場合、方法はステップ（５１０）に戻る。一方、判定ステップ（５１６）における肯定的な決定により、トレーニングされたＡＮＮがすべての候補エンティティに対して利用されたことが示される。

ＣａｎｄｉｄａｔｅＥｎｔｉｔｙ_１からＣａｎｄｉｄａｔｅ
は、それらに関連付けられた信頼スコアに基づいて並び替えアルゴリズムによってランク付けされるか、又は別の方法で並び替えられる（５１８）。一実施形態によれば、最も有利な（例えば、最高の）信頼スコアを有する候補エントリが出力として識別される。別の実施形態によれば、第３の閾値を満たす関連付けられた信頼スコアを有する１つ又は複数の候補エンティティが識別される（５２０）。さらに別の実施形態によれば、候補エントリはＳＭＥによって評価される。

一実施形態によれば、１つ又は複数の識別された候補エンティティに関連付けられた１つ又は複数の追加のエッジ及び／又はノードが、ＫＧに選択的に埋め込まれる（５２２）。したがって、本明細書に示すように、トピックモデルを利用して、ＡＮＮによるトレーニング、テスト、及び／又は処理の候補を効果的に制限し、次いで、対応するＫＧに１つ又は複数のエッジを選択的に埋め込むための候補エンティティを識別する。

ＡＮＮのトレーニング、テスト、検証、及び／又は使用にトピックモデルを使用する態様を、図１及び図２に示すツール及びＡＰＩ、及び図３、図４、及び図５に示す処理を使用して示して説明する。機能ツール（１５２）及び（１５４）及びそれらの関連付けられた機能の態様は、単一の場所にあるコンピュータシステム／サーバ内に具現化され得るか、又は、一実施形態では、コンピューティングリソースを共有するクラウドベースのシステム内に構成され得る。図６を参照すると、図３～図５に関して上記で説明したプロセスを実装するための、クラウドベースのサポートシステムと通信する、以下、ホスト（６０２）と呼ぶ、コンピュータシステム／サーバ（６０２）の一例を示すブロック図（６００）が提供される。ホスト（６０２）は、多数の他の汎用又は専用コンピューティングシステム環境又は構成で動作可能である。ホスト（６０２）での使用に適し得る周知のコンピューティングシステム、環境、及び／又は構成の例には、限定されないが、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドデバイス又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、並びに、上記のシステム、デバイス、及びそれらの同等物のいずれかを含むファイルシステム（例えば、分散型ストレージ環境及び分散型クラウドコンピューティング環境）が含まれる。

ホスト（６０２）は、コンピュータシステムによって実行される、プログラムモジュールなどのコンピュータシステム実行可能命令の一般的な文脈で説明され得る。一般に、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データタイプを実施するルーチン、プログラム、オブジェクト、構成要素、ロジック、データ構造などを含み得る。ホスト（６０２）は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウドコンピューティング環境（６１０）で実施され得る。分散型クラウドコンピューティング環境では、プログラムモジュールは、メモリストレージデバイスを含むローカル及びリモートの両方のコンピュータシステムストレージ媒体に配置され得る。

図６に示すように、ホスト（６０２）は、汎用コンピューティングデバイスの形態で示されている。ホスト（６０２）の構成要素は、限定されないが、１つ又は複数のプロセッサ又は処理ユニット（６０４）、例えば、ハードウェアプロセッサ、システムメモリ（６０６）、システムメモリ（６０６）、処理ユニット（６０４）を含む様々なシステム構成要素を結合するバス（６０８）を含み得る。バス（６０８）は、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート、及び様々なバスアーキテクチャのいずれかを使用するプロセッサ又はローカルバスを含む、いくつかのタイプのバス構造のいずれかの１つ又は複数を表す。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラル構成要素インターコネクト（ＰＣＩ）バスが含まれる。ホスト（６０２）は、典型的には、様々なコンピュータシステム可読媒体を含む。そのような媒体は、ホスト（６０２）によってアクセス可能である任意の利用可能な媒体であり得、揮発性及び不揮発性の両方の媒体、取り外し可能及び取り外し不可能な媒体を含む。

メモリ（６０６）は、ランダムアクセスメモリ（ＲＡＭ）（６３０）及び／又はキャッシュメモリ（６３２）などの揮発性メモリの形態のコンピュータシステム可読媒体を含むことができる。単なる例として、ストレージシステム（６３４）は、取り外し不可能な不揮発性磁気媒体（図示せず、一般に「ハードドライブ」と呼ばれる）との間の読み取り及び書き込みのために設けられ得る。図示されていないが、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピディスク」）との間の読み取り及び書き込みのための磁気ディスクドライブ、及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又は他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み取り又は書き込みのための光ディスクドライブが設けられ得る。そのような例では、それぞれが１つ又は複数のデータ媒体インターフェースによってバス（６０８）に接続され得る。

プログラムモジュール（６４２）のセット（少なくとも１つ）を有するプログラム／ユーティリティ（６４０）は、限定ではなく例として、オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータと同様に、メモリ（６０６）に記憶され得る。オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュールのそれぞれ、及びプログラムデータ又はそれらのいくつかの組み合わせは、ネットワーク環境の実装を含み得る。プログラムモジュール（６４２）は、概して、ダウンサンプリング及びＡＮＮのトレーニング及び使用をサポート及び可能にするために、実施形態の機能及び／又は方法論を実行する。例えば、プログラムモジュール（６４２）のセットは、図１で説明したツール（１５２）及び（１５４）を含み得る。

ホスト（６０２）はまた、キーボード、ポインティングデバイスなどのような１つ又は複数の外部デバイス（６１４）；ディスプレイ（６２４）；ユーザがホスト（６０２）と相互作用できるようにする１つ又は複数のデバイス；及び／又はホスト（６０２）が１つ又は複数の他のコンピューティングデバイスと通信できるようにする任意のデバイス（例えば、ネットワークカード、モデムなど）と通信し得る。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース（６２２）を介して行うことができる。さらにまた、ホスト（６０２）は、ネットワークアダプタ（６２０）を介して、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、及び／又はパブリックネットワーク（例えば、インターネット）などの１つ又は複数のネットワークと通信することができる。示されているように、ネットワークアダプタ（６２０）は、バス（６０８）を介してホスト（６０２）の他の構成要素と通信する。一実施形態では、分散ファイルシステム（図示せず）の複数のノードは、Ｉ／Ｏインターフェース（６２２）又はネットワークアダプタ（６２０）を介してホスト（６０２）と通信する。図示されていないが、他のハードウェア及び／又はソフトウェア構成要素を、ホスト（６０２）と併せて使用できることを理解されたい。例としては、限定されないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、データアーカイブストレージシステムなどが含まれる。

本書では、用語「コンピュータプログラム媒体」、「コンピュータ使用可能媒体」及び「コンピュータ可読媒体」は、概して、ＲＡＭ（６３０）、キャッシュ（６３２）、及び、リムーバブルストレージドライブ及びハードディスクドライブにインストールされるハードディスクなどのストレージシステム（６３４）を含むメインメモリ（６０６）などの媒体を指すために使用される。

コンピュータプログラム（コンピュータ制御ロジックとも呼ばれる）は、システムメモリ（６０６）に記憶される。コンピュータプログラムはまた、ネットワークアダプタ（６２０）などの通信インターフェースを介して受信され得る。そのようなコンピュータプログラムは、実行時、コンピュータシステムが、本明細書で論じられるような本実施形態の機能を実行することを可能にする。特に、コンピュータプログラムは、実行時、処理ユニット（６０４）が、コンピュータシステムの機能を実行することを可能にする。したがって、そのようなコンピュータプログラムは、コンピュータシステムのコントローラを表す。

一実施形態では、ホスト（６０２）は、クラウドコンピューティング環境のノードである。当技術分野で知られるように、クラウドコンピューティングは、最小限の管理労力又はサービスプロバイダとの相互作用で、迅速にプロビジョニング及びリリースできる、構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン及びサービス）の共有プールへの便利なオンデマンドネットワークアクセスを可能にするサービス提供のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。そのような特性の例は次の通りである。

オンデマンドセルフサービス：クラウド消費者は、サービスプロバイダとの人間の対話を必要とせずに、必要に応じて自動的に、サーバタイム及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングできる。

幅広いネットワークアクセス：能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォーム又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による使用を促進する標準機構を介してアクセスされる。

リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に関して制御しないか、又は知識がないものの、より高い抽象化層（例えば、国、州、又はデータセンタ）で位置を指定することが可能であり得るという点で、位置独立の感覚が存在する。

迅速な弾力性：能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、迅速にスケールアウトされ、迅速にリリースされて迅速にスケールインされる。消費者には、プロビジョニングに使用できる能力は無制限に見えることが多く、いつでも任意の数量で購入できる。

測定されたサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント）に適したある程度の抽象化層で計測能力を利用することによって、リソースの使用を自動的に制御及び最適化する。リソースの使用状況を監視、制御、及び報告して、利用するサービスのプロバイダ及び消費者の両方に透明性を提供できる。

サービスモデルは次の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）などのシンクライアントインターフェースを通して、様々なクライアントデバイスからアクセス可能である。消費者は、限られたユーザ固有のアプリケーション構成設定を除き得て、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個別のアプリケーション機能を含む基盤となるクラウドインフラストラクチャを管理又は制御しない。

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される能力は、プロバイダがサポートするプログラミング言語及びツールを使用して作成された、消費者が作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む基盤となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び、場合によっては、アプリケーションホスティング環境の構成を制御する。

サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク、及び消費者が、オペレーティングシステム及びアプリケーションを含み得る、任意のソフトウェアを展開及び実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基盤となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択したネットワーク構成要素（例えば、ホストファイアウォール）の制御を制限する。

展開モデルは次の通りである。

プライベートクラウド：クラウドインフラストラクチャは、組織のためだけに運用される。組織又は第三者によって管理され得、オンプレミス又はオフプレミスに存在し得る。

コミュニティクラウド：クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項（例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項）を有する特定のコミュニティをサポートしている。組織又は第三者によって管理され得、オンプレミス又はオフプレミスに存在し得る。

パブリッククラウド：クラウドインフラストラクチャは、一般の人々又は大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：クラウドインフラストラクチャは、一意のエンティティのままであるが、データ及びアプリケーションの移植性を可能にする標準化された技術又は独自の技術（例えば、クラウド間の負荷分散のためのクラウドバースト）によって結合された２つ以上のクラウド（プライベート、コミュニティ、又はパブリック）の構成である。

クラウドコンピューティング環境は、ステートレス性、低結合、モジュール性、及び意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを備えたインフラストラクチャである。

ここで図７を参照すると、クラウドコンピューティングネットワーク（７００）が示されている。図示されるように、クラウドコンピューティングネットワーク（７００）は、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る１つ又は複数のクラウドコンピューティングノード（７１０）を有するクラウドコンピューティング環境（７５０）を含む。これらのローカルコンピューティングデバイスの例には、限定されないが、パーソナルデジタルアシスタント（ＰＤＡ）又は携帯電話（７５４Ａ）、デスクトップコンピュータ（７５４Ｂ）、ラップトップコンピュータ（７５４Ｃ）、及び／又は自動車コンピュータシステム（７５４Ｎ）が含まれる。クラウドコンピューティングノード（７１０）内の個々のノードは、さらに相互に通信し得る。それらは、上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウド、又は、それらの組み合わせなどの１つ又は複数のネットワーク内で、物理的に又は仮想的にグループ分け（図示せず）され得る。これによって、クラウドコンピューティング環境（７００）は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム及び／又はソフトウェアを提供できる。図７に示すコンピューティングデバイス（７５４Ａ～Ｎ）のタイプは、例示のみを意図しており、クラウドコンピューティング環境（７５０）は、任意のタイプのネットワーク及び／又はネットワークアドレス可能な接続（例えば、ウェブブラウザを使用して）を介して、任意のタイプのコンピュータ化されたデバイスと通信できることが理解されよう。

ここで図８を参照すると、図７のクラウドコンピューティングネットワークによって提供される機能的抽象化層（８００）のセットが図示されている。図８で示す構成要素、層、及び機能は、例示のみを意図するものであり、実施形態がそれらに限定されないことを事前に理解されたい。示されているように、ハードウェア層及びソフトウェア層（８１０）、仮想化層（８２０）、管理層（８３０）、及びワークロード層（８４０）の層及び対応する機能が提供される。

ハードウェア及びソフトウェア層（８１０）は、ハードウェア及びソフトウェア構成要素を含む。ハードウェア構成要素の例には、メインフレーム、一例では、ＩＢＭ（登録商標）ｚＳｅｒｉｅｓ（登録商標）システム；ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースのサーバ、一例では、ＩＢＭｐＳｅｒｉｅｓ（登録商標）システム；ＩＢＭｘＳｅｒｉｅｓ（登録商標）システム；ＩＢＭＢｌａｄｅＣｅｎｔｅｒ（登録商標）システム；ストレージデバイス；ネットワーク及びネットワーク構成要素が含まれる。ソフトウェア構成要素の例には、ネットワークアプリケーションサーバソフトウェアが含まれ、一例では、ＩＢＭＷｅｂＳｐｈｅｒｅ（登録商標）アプリケーションサーバソフトウェア；データベースソフトウェア、一例では、ＩＢＭＤＢ２（登録商標）データベースソフトウェアが含まれる。（ＩＢＭ、ｚＳｅｒｉｅｓ、ｐＳｅｒｉｅｓ、ｘＳｅｒｉｅｓ、ＢｌａｄｅＣｅｎｔｅｒ、ＷｅｂＳｐｈｅｒｅ、及びＤＢ２は、世界中の多くの法域で登録されている、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標である）。

仮想化層（８２０）は、仮想エンティティの次の例、仮想サーバ；仮想ストレージ；仮想プライベートネットワークを含む仮想ネットワーク；仮想アプリケーション及びオペレーティングシステム；及び仮想クライアントが提供され得る抽象化層を提供する。

一例では、管理層（８３０）は、次の機能、リソースプロビジョニング、計測及び価格設定、ユーザポータル、サービスレベル管理及びＳＬＡプランニング及び履行を提供し得る。リソースプロビジョニングは、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計測及び価格設定は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及び、これらのリソースの消費に対する課金又は請求を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者及びタスクに対する識別検証、並びにデータ及びその他のリソースに対する保護を提供する。ユーザポータルは、消費者及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理は、要求されるサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を提供する。サービスレベル合意（ＳＬＡ）計画及び履行は、将来の要件がＳＬＡに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。

ワークロード層（８４０）は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例は、限定されないが、マッピング及びナビゲーション；ソフトウェア開発及びライフサイクル管理；仮想教室教育配信；データ分析処理；トランザクション処理；及びトピックモデルのダウンサンプリング及びＡＮＮのトレーニング及び使用を含む。

本実施形態の特定の実施形態が示され、説明されてきたが、本明細書の教示に基づいて、実施形態及びそのより広い態様から逸脱することなく変更及び修正がなされ得ることは当業者には明らかであろう。したがって、添付の特許請求の範囲は、実施形態の真の趣旨及び範囲内にあるようなすべてのそのような変更及び修正をその範囲内に包含するものとする。さらに、実施形態は、添付の特許請求の範囲によってのみ定義されることを理解されたい。導入される請求項要素の特定の数が意図される場合、そのような意図は、特許請求の範囲に明示的に記載され、そのような記載がない場合、そのような限定は存在しないことが、当業者には理解されよう。非限定的な例のために、理解の一助として、以下の添付の特許請求の範囲は、請求項要素を導入するための導入句「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」及び「１つ又は複数（ｏｎｅｏｒｍｏｒｅ）」の使用法を含む。しかし、そのような句の使用は、同じ請求項が、「１つ又は複数」又は「少なくとも１つ」という導入句及び「ａ」又は「ａｎ」などの不定冠詞を含む場合であっても、不定冠詞「ａ」又は「ａｎ」による請求項要素の導入が、そのような導入される請求項要素を含む任意の特定の請求項を、そのような要素を１つだけ含む実施形態に限定することを意味すると解釈されるべきではなく、同じことが定冠詞の請求項での使用にも当てはまる。

本実施形態は、システム、方法及び／又はコンピュータプログラム製品であり得る。さらに、本実施形態の選択された態様は、完全にハードウェアの実施形態、完全にソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）の実施形態又は、本明細書では、すべて、一般に「回路」、「モジュール」、又は「システム」と呼ばれ得る、ソフトウェア及び／又はハードウェアの態様を組み合わせた実施形態の形態を取り得る。さらに、本実施形態の態様は、プロセッサに、本実施形態の態様を実行させるコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（又は複数の媒体）に具現化されるコンピュータプログラム製品の形態を取り得る。したがって、具現化され、開示されるシステム、方法及び／又はコンピュータプログラム製品は、転移学習動作に対する改善を提供するように動作する。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持及び記憶できる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は前述の任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、動的又は静的ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、磁気ストレージデバイス、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、その上に命令が記録されたパンチカード又は溝に浮き彫りされた構造などの機械的にエンコードされたデバイス、及び前述の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータ可読記憶媒体及びコンピュータ可読記憶デバイスは、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を通って伝播する電磁波（例えば、光ファイバーケーブルを通過する光パルス）、又は電線を通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／又は無線ネットワークを介して外部コンピュータ又は外部ストレージデバイスにダウンロードできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを有し得る。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本実施形態の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続型プログラミング言語を含む、１つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、又は全部がリモートコンピュータ上で又はサーバ又はクラスタサーバ上で完全に実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに接続され得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本実施形態の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。

本実施形態の態様は、実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して本明細書に記載されている。フローチャート図及び／又はブロック図の各ブロック、及びフローチャート図及び／又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されたい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータのプロセッサ、又は他のプログラマブルデータ処理装置に提供され、マシンを生成し得て、その結果、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックで指定された機能／動作を実施するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置及び／又は他のデバイスに特定の方法で機能するように指示できるコンピュータ可読記憶媒体内に記憶され得て、その結果、その中に記憶された命令を有するコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の１つ又は複数のブロックで指定された機能／動作の態様を実施する命令を含む製品を備える。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成し得て、その結果、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックで指定された機能／動作を実装する。

図中のフローチャート及びブロック図は、本実施形態の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を有する、モジュール、セグメント、又は命令の一部を表し得る。いくつかの代替的な実装では、ブロックに示される機能は、図に示される順序を外れて生じ得る。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行され得るか、又は、関連する機能に応じてブロックが逆の順序で実行されることもあり得る。図に表されていない、さらなるブロックが、例えば、１つ又は複数の示されているブロックの前、後、又はそれと同時に含まれ得る。また、ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図のブロックの組み合わせは、指定された機能又は行動を実行する、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装できることにも留意されたい。

本明細書では、特定の実施形態が例示の目的で説明されているが、実施形態の趣旨及び範囲を逸脱することなく、様々な修正がなされ得ることを理解されたい。特に、転移学習動作は、異なるコンピューティングプラットフォームにより、又は、複数のデバイスにわたって実行され得る。さらに、データストレージ及び／又はコーパスは、ローカライズされ得るか、リモートされ得るか、又は複数のシステムに跨って広がり得る。したがって、実施形態の保護の範囲は、以下の特許請求の範囲及びその同等物によってのみ限定される。

Claims

メモリに動作可能に結合されたプロセッサ；及び
前記プロセッサ及び前記メモリと通信する人工知能（ＡＩ）プラットフォーム
を備え、前記ＡＩプラットフォームが、
第１のデータセットに対して第１のトピックモデルを利用すること、前記第１のデータセットは、複数の第１のトリプルを含むナレッジグラフ（ＫＧ）から導出され、前記第１のトリプルは、第１のエンティティ、及び前記第１のエンティティを接続して前記第１の接続されたエンティティ間の関係を表す第１のエッジを有し、前記第１のトピックモデルの前記利用は、第１の類似性関数を前記第１のトリプルの前記第１のエンティティに適用して、それぞれの第１の類似性スコアを提供することを有する；及び
前記第１の類似性スコアに基づいて、前記複数の第１のトリプルから１つ又は複数の第１のトリプルの第１のサブセットを選択するために、前記第１のトピックモデルを利用すること
を行うように構成されているトピックモデルマネージャ；及び
前記１つ又は複数の第１のトリプルの選択された第１のサブセットを使用して、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするように構成されている機械学習マネージャ（ＭＬＭ）
を有する
コンピュータシステム。
前記第１の類似性関数が、コサイン類似性関数を有する、請求項１に記載のコンピュータシステム。
前記ＡＩプラットフォームは、既知のエンティティ及び関係を含むクエリを受信するように構成され、前記クエリは、前記既知のエンティティに対する前記関係を有する未知のエンティティを省略する；
前記トピックモデルマネージャは、
複数の第２のトリプルを有する第２のデータセットに対して、前記第１のトピックモデルと同じであり得るか、又は異なり得る、第２のトピックモデルを利用すること、前記第２のトリプルは、第２のエンティティ、及び前記第２のエンティティを接続して前記第２の接続されたエンティティ間の関係を表す第２のエッジを有し、前記第２のトピックモデルの前記利用は、前記第１の類似性関数と同じであり得るか、又は異なり得る、第２の類似性関数を、前記第２のトリプルの前記第２の接続されたエンティティに適用して、それぞれの第２の類似性スコアを提供することを有する；及び
前記第２の類似性スコアに基づいて、前記複数の第２のトリプルから前記１つ又は複数の第２のトリプルの第２のサブセットを選択すること
を行うようにさらに構成されている；及び
前記ＭＬＭは、
前記トレーニングされたＡＮＮを利用して、前記クエリの前記未知のエンティティに対応する前記第２のサブセットの前記第２のエンティティのそれぞれについて、それぞれの信頼スコアを評価すること；及び
前記信頼スコアに基づいて、前記第２のサブセットの前記第２のエンティティの少なくとも１つを出力すること
を行うようにさらに構成されている
請求項１に記載のコンピュータシステム。
前記第２の類似性関数が、コサイン類似性関数を有する、請求項３に記載のコンピュータシステム。
前記第２のデータセットは前記ＫＧから導出され、前記第１のデータセットとは異なる、請求項３に記載のコンピュータシステム。
前記ＡＮＮは、トランスフォーマからのナレッジグラフの双方向エンコーダ表現（ＫＧ－ＢＥＲＴ）モデルを有する、請求項１に記載のコンピュータシステム。
前記コンピュータシステムは、前記ＫＧの前記第１のエンティティの正規化を実行するように構成されておらず、前記コンピュータシステムは教師なしに動作するように構成されている、請求項１に記載のコンピュータシステム。
コンピュータ可読記憶デバイス；及び
前記コンピュータ可読記憶デバイスで具現化されるプログラムコード、前記プログラムコードは、
第１のデータセットに対して第１のトピックモデルを利用すること、前記第１のデータセットは、複数の第１のトリプルを有するナレッジグラフ（ＫＧ）から導出され、前記第１のトリプルは、第１のエンティティ、及び前記第１のエンティティを接続して前記第１の接続されたエンティティ間の関係を表す第１のエッジを有する；
第１の類似性関数を、前記第１のトリプルの前記第１の接続されたエンティティに適用して、それぞれの第１の類似性スコアを提供すること；
前記第１の類似性スコアに基づいて、前記複数の第１のトリプルから１つ又は複数の第１のトリプルの第１のサブセットを選択すること；及び
前記１つ又は複数の第１のトリプルの選択された第１のサブセットを使用して、人工ニューラルネットワーク（ＡＮＮ）をトレーニングすること
を行うために、プロセッサによって実行可能である
を備えるコンピュータプログラム製品。
前記第１の類似性関数が、コサイン類似性関数を有する、請求項８に記載のコンピュータプログラム製品。
前記プログラムコードは、
既知のエンティティ及び関係を含むクエリを受信すること、前記クエリは、前記既知のエンティティに対する前記関係を有する未知のエンティティを省略する；
複数の第２のトリプルを有する第２のデータセットに対して、前記第１のトピックモデルと同じであり得るか、又は異なり得る、第２のトピックモデルを利用すること、前記第２のトリプルは、第２のエンティティ、及び前記第２のエンティティを接続して第２の接続されたエンティティ間の関係を表す第２のエッジを有し、前記第２のトピックモデルを利用することは、前記第２のトピックモデルの前記利用は、前記第１の類似性関数と同じであり得るか、又は異なり得る、第２の類似性関数を、前記第２のトリプルの前記第２の接続されたエンティティに適用して、それぞれの第２の類似性スコアを提供することを有する；及び
前記第２の類似性スコアに基づいて、前記複数の第２のトリプルから前記１つ又は複数の第２のトリプルの第２のサブセットを選択すること；及び
前記トレーニングされたＡＮＮを利用して、前記クエリの前記未知のエンティティに対応する前記第２のサブセットの前記第２のエンティティのそれぞれについて、それぞれの信頼スコアを評価すること；及び
前記信頼スコアに基づいて、前記第２のサブセットの前記第２のエンティティの少なくとも１つを出力することを行うために、前記プロセッサによってさらに実行可能である、請求項８に記載のコンピュータプログラム製品。
前記第２の類似性関数が、コサイン類似性関数を有する、請求項１０に記載のコンピュータプログラム製品。
前記第２のデータセットは前記ＫＧから導出され、前記第１のデータセットとは異なる、請求項１０に記載のコンピュータプログラム製品。
前記ＡＮＮは、トランスフォーマからのナレッジグラフの双方向エンコーダ表現（ＫＧ－ＢＥＲＴ）モデルを有する、請求項８に記載のコンピュータプログラム製品。
前記コンピュータプログラム製品は、前記ＫＧの前記第１のエンティティの正規化を実行するために前記プロセッサによって実行可能なプログラムコードを有さず、前記コンピュータプログラム製品は教師なしを動作するように構成されている、請求項８に記載のコンピュータプログラム製品。
第１のデータセットに対して第１のトピックモデルを利用する段階、前記第１のデータセットは、複数の第１のトリプルを有するナレッジグラフ（ＫＧ）から導出され、前記第１のトリプルは、第１のエンティティ、及び前記第１のエンティティを接続して前記第１の接続されたエンティティ間の関係を表す第１のエッジを有する；
第１の類似性関数を、前記第１のトリプルの前記第１の接続されたエンティティに適用して、それぞれの第１の類似性スコアを提供する段階；
前記第１の類似性スコアに基づいて、前記複数の第１のトリプルから１つ又は複数の第１のトリプルの第１のサブセットを選択する段階；及び
前記１つ又は複数の第１のトリプルの選択された第１のサブセットを使用して、人工ニューラルネットワーク（ＡＮＮ）をトレーニングする段階
を備える方法。
前記第１の類似性関数が、コサイン類似性関数を有する、請求項１５に記載の方法。
既知のエンティティ及び関係を含むクエリを受信する段階、前記クエリは、前記既知のエンティティに対する前記関係を有する未知のエンティティを省略する；
複数の第２のトリプルを有する第２のデータセットに対して、前記第１のトピックモデルと同じであり得るか、又は異なり得る、第２のトピックモデルを利用する段階、前記第２のトリプルは、第２のエンティティ、及び前記第２のエンティティを接続して前記第２の接続されたエンティティ間の関係を表す第２のエッジを有し、前記第２のトピックモデルの前記利用する段階は、前記第１の類似性関数と同じであり得るか、又は異なり得る、第２の類似性関数を、前記第２のトリプルの前記第２の接続されたエンティティに適用して、それぞれの第２の類似性スコアを提供することを有する；及び
前記第２の類似性スコアに基づいて、前記複数の第２のトリプルから前記１つ又は複数の第２のトリプルの第２のサブセットを選択する段階；及び
前記トレーニングされたＡＮＮを利用して、前記クエリの前記未知のエンティティに対応する前記第２のサブセットの前記第２のエンティティのそれぞれについて、それぞれの信頼スコアを評価する段階；及び
前記信頼スコアに基づいて、前記第２のサブセットの前記第２のエンティティの少なくとも１つを出力する段階
をさらに備える、請求項１５に記載の方法。
前記第２の類似性関数が、コサイン類似性関数を有する、請求項１７に記載の方法。
前記第２のデータセットは前記ＫＧから導出され、前記第１のデータセットとは異なる、請求項１７に記載の方法。
前記ＡＮＮは、トランスフォーマからのナレッジグラフの双方向エンコーダ表現（ＫＧ－ＢＥＲＴ）モデルを有する、請求項１５に記載の方法。