JP2022536019A

JP2022536019A - ナレッジ・グラフにおける過剰指定および過少指定の自動的解決

Info

Publication number: JP2022536019A
Application number: JP2021559859A
Authority: JP
Inventors: トリム、クレイグ; ラデン、メアリー; マルツォラティ、マウロ; フォックス、ジェレミー
Original assignee: Kyndryl Inc
Current assignee: Kyndryl Inc
Priority date: 2019-05-29
Filing date: 2020-05-15
Publication date: 2022-08-12
Also published as: CN113767403A; DE112020000873T5; GB2596729A; GB202114479D0; WO2020240327A1; US11475318B2; US11741379B2; US20200380377A1; CN113767403B; US20220414491A1

Abstract

ナレッジ・グラフにおける過剰指定および過少指定の自動的解決のためのシステムおよび方法が開示されている。実施形態において、方法は、コンピュータ・デバイスによって、ナレッジ・グラフのオブジェクト・クラスタのサイズがナレッジ・グラフのナレッジ・ベースの過少指定を示す閾値を満たすと判定することと、コンピュータ・デバイスによって、ナレッジ・グラフのオブジェクトに対するサブクラスを定めることと、コンピュータ・デバイスによって、サブクラスに基づいてナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成することであって、改善されたナレッジ・グラフにおけるオブジェクト・クラスタのサイズは低減する、再初期化することと、コンピュータ・デバイスによって、改善されたナレッジ・グラフから定められた情報に基づいて出力を生成することとを含む。

Description

本発明は一般的にデータ分析に関し、より具体的にはナレッジ・グラフにおける過剰指定および過少指定の自動的解決に関する。

ビッグ・データは、従来のデータ処理アプリケーション・ソフトウェアには複雑すぎる大きなデータ・セットを分析するか、そこから情報を抽出するか、または別様に対処することに関連する分野である。データ・セットを分析してそこから情報を抽出するために、さまざまなコンピューティング・モデリング・ツールおよび技術が利用可能である。特定のドメイン（すなわち、アクティビティまたは知識の範囲）に対してデータ・セットから情報を抽出するために、グラフ・モデルおよびリレーショナル・データベースがしばしば使用される。分析者が使用するツールの１つがナレッジ・グラフである。本明細書において用いられるナレッジ・グラフという用語は、情報を統合してオントロジとし、推論を適用して新たな知識を導き出すグラフを示す。ナレッジ・グラフは、特定のドメインまたは組織に関連するエンティティのネットワークを含む。

本発明の態様において、コンピュータに実装される方法は、コンピュータ・デバイスによって、ナレッジ・グラフのオブジェクト・クラスタのサイズがナレッジ・グラフのナレッジ・ベースの過少指定を示す閾値を満たすと判定することと、コンピュータ・デバイスによって、ナレッジ・グラフのオブジェクトに対するサブクラスを定めることと、コンピュータ・デバイスによって、サブクラスに基づいてナレッジ・グラフを再初期化して改善された（refined）ナレッジ・グラフを生成することであって、改善されたナレッジ・グラフにおける上記オブジェクト・クラスタのサイズは低減する、再初期化することと、コンピュータ・デバイスによって、改善されたナレッジ・グラフから定められた情報に基づいて出力を生成することとを含む。有利なことに、この方法はナレッジ・グラフ・ドメインの専門知識を有する分析者を必要としない過少指定の自動的識別を可能にする。

実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む。こうした方法は、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的な階層構造の識別を有利に使用する。

他の実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ピア・ノードに基づいてナレッジ・グラフに対するサブクラスを定めることを含む。こうした方法は、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的なピアツーピア関係の識別を有利に使用する。

本発明の別の態様においては、自身によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品が存在する。このプログラム命令はコンピュータ・デバイスによって実行可能であることで、ナレッジ・ベースからナレッジ・グラフを生成することと、ナレッジ・グラフのオブジェクト・クラスタのサイズがナレッジ・ベースの過少指定を示す閾値を満たすと判定することと、ナレッジ・グラフのオブジェクトに対するサブクラスを定めることと、サブクラスに基づいてナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成することとをコンピュータ・デバイスに行わせ、改善されたナレッジ・グラフにおけるオブジェクト・クラスタのサイズは低減する。有利なことに、このコンピュータ・プログラム製品はナレッジ・グラフ・ドメインの専門知識を有する分析者を必要としない過少指定の自動的識別を可能にする。

実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む。こうしたコンピュータ・プログラム製品は、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的な階層構造の識別を有利に使用する。

他の実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ピア・ノードに基づいてナレッジ・グラフに対するサブクラスを定めることを含む。こうしたコンピュータ・プログラム製品は、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的なピアツーピア関係の識別を有利に使用する。

本発明の別の態様においては、コンピュータ・デバイスに関連するプロセッサ、コンピュータ可読メモリ、およびコンピュータ可読記憶媒体を含むシステムが存在する。加えてこのシステムは、ナレッジ・ベースからナレッジ・グラフを生成するためのプログラム命令と、ナレッジ・グラフのオブジェクト・クラスタのサイズがナレッジ・ベースの過少指定を示す閾値を満たすかどうかを判定するためのプログラム命令と、ナレッジ・グラフのオブジェクト・クラスタのサイズが閾値を満たすという判定に基づいてナレッジ・グラフのオブジェクトに対するサブクラスを定めるためのプログラム命令と、サブクラスに基づいてナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成するためのプログラム命令であって、改善されたナレッジ・グラフにおけるオブジェクト・クラスタのサイズは低減する、再初期化するためのプログラム命令と、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことによってナレッジ・ベースの過剰指定が存在するかどうかを判定するためのプログラム命令と、更新されたナレッジ・グラフを生成するために過剰指定の判定に基づいてナレッジ・グラフを再初期化するためのプログラム命令とを含み、改善されたナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、更新されたナレッジ・グラフの単一のクラスタに包含される。プログラム命令は、コンピュータ可読メモリを介したプロセッサによる実行のためにコンピュータ可読記憶媒体に記憶される。有利なことに、このシステムはナレッジ・グラフ・ドメインの専門知識を有する分析者を必要としない過剰指定および過少指定の自動的識別を可能にする。

実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む。こうしたシステムは、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的な階層構造の識別を有利に使用する。

実施形態において、ナレッジ・グラフに対するサブクラスを定めることは、ピア・ノードに基づいてナレッジ・グラフに対するサブクラスを定めることを含む。こうしたシステムは、ナレッジ・グラフ・ドメインの過少指定に自動的に対処するために、ナレッジ・ベース内の潜在的なピアツーピア関係の識別を有利に使用する。

本発明の態様において、コンピュータに実装される方法は、コンピュータ・デバイスによって、ナレッジ・ベースに対して生成されたナレッジ・グラフにアクセスすることと、コンピュータ・デバイスによって、閾値量未満のデータ・ポイントを有するナレッジ・グラフの１つ以上のオブジェクト・クラスタに基づいてナレッジ・ベースの過剰指定を判定することと、コンピュータ・デバイスによって、更新されたナレッジ・グラフを生成するために過剰指定の判定に基づいてナレッジ・グラフを再初期化することとを含み、ナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、更新されたナレッジ・グラフの単一のオブジェクト・クラスタに包含される。こうした方法は、分析者がナレッジ・ベースの主題の任意の専門知識を有することを必要としないナレッジ・グラフの過剰指定の判定を可能にする。

実施において、過剰指定を判定することは、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことを含む。

本発明の別の態様においては、自身によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品が存在する。このプログラム命令はコンピュータ・デバイスによって実行可能であることで、ナレッジ・ベースに対して生成されたナレッジ・グラフにアクセスすることと、閾値量未満のデータ・ポイントを有するナレッジ・グラフの１つ以上のオブジェクト・クラスタに基づいてナレッジ・ベースの過剰指定を判定することと、更新されたナレッジ・グラフを生成するために過剰指定の判定に基づいてナレッジ・グラフを再初期化することとをコンピュータ・デバイスに行わせ、ナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、更新されたナレッジ・グラフの単一のオブジェクト・クラスタに包含される。

本発明の例示的実施形態の非限定的な例として示される複数の図面を参照して、以下の詳細な記載において本発明を説明する。

本発明の実施形態によるコンピューティング・インフラストラクチャを示す図である。本発明の態様による例示的環境を示す図である。本発明の態様による例示的方法のステップを示す流れ図である。本発明の態様によるナレッジ・ベースの過少指定を示すドメインに対する注釈付きのグラフを示す図である。本発明の態様によるナレッジ・ベースの十分な指定を示す、図４Ａのナレッジ・ベースに対する改善されたグラフを示す図である。本発明の態様によるナレッジ・ベースの過剰指定を示すドメインに対する注釈付きのグラフを示す図である。本発明の態様によるナレッジ・ベースの十分な指定を示す、図５Ａのナレッジ・ベースに対する改善されたグラフを示す図である。

本発明は一般的にデータ分析に関し、より具体的にはナレッジ・グラフにおける過剰指定および過少指定の自動的解決に関する。本発明の実施形態は、ナレッジ・グラフにおけるオブジェクト・ノード・クラスタリングに基づいてナレッジ・ベースの過剰指定および過少指定を自動的に検出するためのシステムを提供する。

一般的に、グラフ・モデル（グラフ・パラダイム）の使用はユーザ（例、データ分析者）に対して、目的のドメインが完全に理解するには大きすぎ、かつリレーショナル・データベース（リレーショナル・パラダイム）においてモデル化するには動的すぎることを示すことがあり、ここでスキーマの変化（ドメインを確立する条件およびエンティティのセットに対する変化）はグラフ・モデルに依存するソフトウェア・アプリケーションに対して重要な影響を有し得る。グラフ・パラダイムが利用される場合、グラフ（ｇｒａｐｈ）スキーマすなわちｇ－スキーマを構築するための技術はしばしば、自動化されたコンポーネントを特徴とする。多くの場合、ナレッジ・グラフは手動で構築されて、自動化された技術によって補完される。より稀な場合、またはノイズがより容易に許容される状況においては、ｇ－スキーマ全体が自動化アプローチによって展開されてもよい。いずれの方法においても、エンティティ（モデル化されたデータ内のオブジェクトのタイプまたはカテゴリ）が過剰指定（過剰一般化）または過少指定された可能性があるところを示すことが有利である。本明細書において用いられる過少指定された（ｕｎｄｅｒｓｐｅｃｉｆｉｅｄ）および過少指定（ｕｎｄｅｒ－ｓｐｅｃｉｆｉｃａｔｉｏｎ）という用語は、不十分もしくは正確さが不十分な情報、または不完全に指定された情報を示す。反対に、他の状況においてはエンティティが過剰に指定または分解（エンティティのコンポーネント・エレメントに細分）されており、より一般化されるべきであることがある。本明細書において用いられる過剰に指定された（ｏｖｅｒｌｙｓｐｅｃｉｆｉｅｄ）、過剰指定（ｏｖｅｒ－ｓｐｅｃｉｆｉｃａｔｉｏｎ）、および過剰指定された（ｏｖｅｒ－ｓｐｅｃｉｆｉｅｄ）という用語は、過度に指定されたデータを示す。手動または自動化された手段のいずれによってモデルを展開しても、どちらのエラー（過少指定または過剰指定）も起こる可能性があり、より効率的なモデルのため、およびドメインの状態を正確に反映するために修正されるべきである。

多くの情報システムは、発見指向のデータ・サーチと、ワークフロー（ダイアログ・ツリー）トラバーサルと、単一正答クエリとを行うためにリレーショナル・データベースおよびグラフを使用するハイブリッド・アプローチを有する。すべての場合に対して必要な入力を提供できる単一のナレッジ・グラフは極度に複雑であり、通常は利用できない。今日の最先端の情報システムは、複雑なバックエンド統合を伴うさまざまなデータ記憶および検索技術を必要とする。本発明の実施形態は、単一のグラフ・スキーマが真の情報のソースの役割をして、ナレッジ・ソース（すなわち、データの１つ以上のソース）からのグラフの継続的な改善および増強のために不十分なリソースの割り当てを助けることを可能にする。したがって、本発明の実施形態は、グラフィカル・モデリングの実施におけるデータ・セットの過剰指定または過少指定の技術的問題点に対する技術的解決策を提供する。

有利なことに、本発明の実施形態は、データ・モデリング・コンピュータ・デバイスおよびコンピュータ・データ・モデリングの技術分野に、付加的な機能の形の改善を提供する。より具体的には、本発明の態様は、改善されたグラフィカル・モデルを生成するために、グラフ化したオブジェクトのクラスタ分析を使用した過剰指定もしくは過少指定またはその両方の自動的判定を含む従来にないステップを使用する。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数の媒体）を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶できる有形デバイスであり得る。コンピュータ可読記憶媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、リード・オンリ・メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラマブル・リード・オンリ・メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリ・スティック、フレキシブル・ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読記憶媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波（例、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号など、それ自体が一時的信号のものであると解釈されるべきではない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされ得るか、またはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎ－ｓｅｔ－ａｒｃｈｉｔｅｃｔｕｒｅ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または１つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばＳｍａｌｌｔａｌｋ、またはＣ＋＋など、および手続き型プログラミング言語、たとえば「Ｃ」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）または広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、（たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータへの接続が行われてもよい。いくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙｓ）などを含む電子回路は、本発明の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。

本明細書においては、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実現され得ることが理解されるだろう。

これらのコンピュータ可読プログラム命令は、汎用目的コンピュータ、特定目的コンピュータ、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実現するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイス、またはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読記憶媒体にも記憶されることによって、命令が記憶されたコンピュータ可読記憶媒体が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作の態様を実現する命令を含む製造物を含んでもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実現されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実現してもよい。

図面における流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を示すものである。これに関して、流れ図またはブロック図の各ブロックは、指定される論理機能（単数または複数）を実現するための１つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。いくつかの代替的実施において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される２つのブロックは、実際には実質的に同時に実行されてもよいし、関与する機能によってはこれらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方のブロックの組み合わせは、指定された機能または動作を行うか、特定目的のハードウェアおよびコンピュータ命令の組み合わせを実施または実行する特定目的のハードウェア・ベースのシステムによって実現され得ることが注目されるだろう。

ここで図１を参照すると、コンピューティング・インフラストラクチャの例の概略が示されている。コンピューティング・インフラストラクチャ１０は好適なコンピューティング・インフラストラクチャの単なる一例であり、本明細書に記載される本発明の実施形態の使用または機能の範囲に関するいかなる制限を示唆することも意図されていない。それに関わらず、コンピューティング・インフラストラクチャ１０は実施されるか、もしくは上記に示される任意の機能を行うか、またはその両方が可能である。

コンピューティング・インフラストラクチャ１０には、多数の他の汎用目的または特定目的のコンピュータ・システム環境または構成とともに動作可能なコンピュータ・システム（またはサーバ）１２が存在する。コンピュータ・システム１２とともに用いるために好適であり得る周知のコンピュータ・システム、環境、もしくは構成、またはその組み合わせの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境などを含むが、それに限定されない。

コンピュータ・システム１２は、コンピュータ・システムによって実行されるたとえばプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な状況において説明されてもよい。一般的にプログラム・モジュールは、特定のタスクを行うか、または特定の抽象データ・タイプを実施するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、およびデータ構造などを含んでもよい。コンピュータ・システム１２は、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクが行われる分散型クラウド・コンピューティング環境において実施されてもよい。分散型クラウド・コンピューティング環境において、プログラム・モジュールはローカルおよびリモートの両方のメモリ・ストレージ・デバイスを含むコンピュータ・システム記憶媒体に位置してもよい。

図１に示されるとおり、コンピューティング・インフラストラクチャ１０のコンピュータ・システム１２は、汎用目的コンピュータ・デバイスの形で示されている。コンピュータ・システム１２のコンポーネントは、１つ以上のプロセッサまたは処理ユニット（例、ＣＰＵ）１６と、システム・メモリ２８と、システム・メモリ２８を含むさまざまなシステム・コンポーネントをプロセッサ１６に結合するバス１８とを含んでもよいが、それに限定されない。

バス１８は、メモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィクス・ポート、およびさまざまなバス・アーキテクチャのいずれかを用いたプロセッサまたはローカル・バスを含むいくつかのタイプのバス構造のいずれか１つ以上を表す。限定ではなく例として、こうしたアーキテクチャはインダストリ・スタンダード・アーキテクチャ（ＩＳＡ：ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ：ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張ＩＳＡ（ＥＩＳＡ：ＥｎｈａｎｃｅｄＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｓ）バスを含む。

コンピュータ・システム１２は通常、さまざまなコンピュータ・システム可読媒体を含む。こうした媒体はコンピュータ・システム１２によってアクセス可能な任意の利用可能な媒体であってもよく、それは揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体の両方を含む。

システム・メモリ２８は、たとえばランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）３０もしくはキャッシュ・メモリ３２またはその両方などの、揮発性メモリの形のコンピュータ・システム可読媒体を含み得る。コンピュータ・システム１２はさらに、その他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ・システム記憶媒体を含んでもよい。単なる例として、取り外し不可能な不揮発性磁気媒体（図示せず、通常は「ハード・ドライブ」と呼ばれる）からの読取りおよびそこへの書込みのために、ストレージ・システム３４が提供され得る。図示されていないが、取り外し可能な不揮発性磁気ディスク（例、「フレキシブル・ディスク」）からの読取りおよびそこへの書込みのための磁気ディスク・ドライブ、およびたとえばＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、またはその他の光媒体などの取り外し可能な不揮発性光ディスクからの読取りまたはそこへの書込みのための光ディスク・ドライブが提供され得る。こうした場合には、各々が１つ以上のデータ媒体インターフェースによってバス１８に接続され得る。さらに示されて後述されることとなるとおり、メモリ２８は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット（例、少なくとも１つ）を有する少なくとも１つのプログラム製品を含んでもよい。

プログラム・モジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０は、限定ではなく例としてメモリ２８に記憶されてもよく、加えてオペレーティング・システム、１つ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データに記憶されてもよい。オペレーティング・システム、１つ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データの各々、またはその何らかの組み合わせは、ネットワーク化環境の実現を含んでもよい。プログラム・モジュール４２は一般的に、本明細書に記載される本発明の実施形態の機能もしくは方法またはその両方を実行する。

加えて、コンピュータ・システム１２は、たとえばキーボード、ポインティング・デバイス、ディスプレイ２４などの１つ以上の外部デバイス１４か、ユーザがコンピュータ・システム１２と対話することを可能にする１つ以上のデバイスか、もしくはコンピュータ・システム１２が１つ以上の他のコンピュータ・デバイスと通信することを可能にする任意のデバイス（例、ネットワーク・カード、モデムなど）か、またはその組み合わせと通信してもよい。こうした通信は、入力／出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース２２を介して起こり得る。さらに、コンピュータ・システム１２はネットワーク・アダプタ２０を介して、たとえばローカル・エリア・ネットワーク（ＬＡＮ）、一般的な広域ネットワーク（ＷＡＮ）、もしくは公共ネットワーク（例、インターネット）、またはその組み合わせなどの１つ以上のネットワークと通信できる。示されるとおり、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム１２のその他のコンポーネントと通信する。図示されていないが、コンピュータ・システム１２とともに他のハードウェアもしくはソフトウェア・コンポーネントまたはその両方が用いられ得ることが理解されるべきである。その例はマイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどを含むが、それに限定されない。

図２は、本発明の態様による例示的環境を示している。この環境は、サーバ６０を１つ以上のデータ・ソース６２もしくは１つ以上のクライアント・コンピュータ・デバイス６４またはその両方と接続するネットワーク５０を含む。サーバ６０は、図１のコンピュータ・システム１２を含んでもよく、かつ図１のネットワーク・アダプタ２０を介してネットワーク５０に接続されてもよい。サーバ６０は、データ管理および分析システムの一部である特定目的コンピュータ・デバイスとして構成されてもよい。たとえば、サーバ６０は、管理もしくは分析および報告またはその両方のために、クライアントのデータ・ソース６２の１つ以上からデータ（例、ビッグ・データ）を収集するように構成されてもよい。

ネットワーク５０は、たとえばローカル・エリア・ネットワーク（ＬＡＮ）、一般的な広域ネットワーク（ＷＡＮ）、もしくは公共ネットワーク（例、インターネット）、またはその組み合わせなどの任意の好適な通信ネットワークまたはネットワークの組み合わせであってもよい。データ・ソース６２は、たとえばクライアント・データベースまたはサード・パーティ・データ・ソース（例、ソーシャル・メディア・サーバなど）など、データの任意のソースであってもよい。サーバ６０は、６４に表されている１つ以上のクライアント・コンピュータ・デバイスに、データ管理および分析サービスまたは出力を提供するように構成されてもよい。クライアント・コンピュータ・デバイスは、図１のコンピュータ・システム１２のコンポーネントを含んでもよく、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット、スマートフォン、またはその他のタイプのコンピュータ・デバイスであってもよい。

なおも図２を参照すると、サーバ６０は、サーバ６０によって実行され、かつ本明細書に記載される機能の１つ以上を行うように構成された１つ以上のプログラム・モジュール（例、図１のプログラム・モジュール４２）を含んでもよい。実施形態において、サーバ６０は、ナレッジ・ベースの分析のためのモデリング・ツールおよび機能を提供するように構成されたモデリング・モジュール７０と、ナレッジ・グラフにおける過少指定または過剰指定（過剰一般化）の場合を定めるように構成されたクラスタ・モジュール７２と、類似の関係を有するナレッジ・ベース内のオブジェクトを識別するように構成された自然言語処理（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）モジュール７４とを含む。本明細書において用いられるナレッジ・ベースという用語は、複数のソース（例、データ・ソース６２）から集められたデータを含むこともあるデータのセットを示す。本明細書において用いられるナレッジ・グラフという用語は、情報を統合してオントロジとし、推論を適用して新たな知識を導き出すグラフを示す。ナレッジ・グラフは、特定のドメインまたは組織に関連するエンティティのネットワークを含む。態様において、本発明のナレッジ・グラフはエンティティの大きなネットワークと、それらのセマンティック・タイプと、特性と、エンティティ間の関係とを含む。セマンティックという用語は、オントロジの形の、グラフ内のデータとともにコード化されたデータの意味を示す。

実施形態において、サーバ６０は、ユーザが情報（例、命令、データなど）を入力するときに用い得るグラフィカル・ユーザ・インターフェース（ＧＵＩ：ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）７６と、サーバ６０によって使用されるデータ・セットもしくはサーバ６０のデータ出力またはその両方を記憶するためのデータベース７８とを含む。実施形態において、サーバ６０は、ビッグ・データ（すなわち、従来のデータ処理アプリケーション・ソフトウェアで対処するには大きすぎるか、または複雑すぎるデータ・セットを分析するか、そこから系統的に情報を抽出するか、または別様に対処するためのやり方）の分野における使用のために構成される。

実施形態において、サーバ６０は、付加的なコンポーネントまたは図２に示されるものよりも少ないコンポーネントを含んでもよい。実施形態において、別個のコンポーネントが統合されて、単一のコンピューティング・コンポーネントまたはモジュールにされてもよい。付加的または代替的に、単一のコンポーネントが複数のコンピューティング・コンポーネントまたはモジュールとして実現されてもよい。

図３は、本発明の態様による例示的方法の流れ図を示している。図３の方法のステップは、図２に示され、かつ図２に示されるエレメントを参照して説明された環境において行われてもよい。

ステップ３００において、サーバ６０はナレッジ・グラフを生成または取得し、このナレッジ・グラフはナレッジ・ベース（データの１つ以上のセット）に基づくものである。上述のとおり、本明細書において用いられるナレッジ・グラフという用語は、情報を統合してオントロジとし、推論を適用して新たな知識を導き出すグラフを示す。より具体的には、ナレッジ・グラフは、特定のドメインまたは組織に関連するエンティティのネットワークを含む。たとえば、ナレッジ・グラフは医学分野、石油およびガスの分野、またはその他の分野もしくは産業における適用のために生成されてもよい。態様において、本発明のナレッジ・グラフはエンティティの大きなネットワークと、それらのセマンティック・タイプと、特性と、エンティティ間の関係とを含む。ステップ３００によって、ナレッジ・グラフを作成するためのさまざまな方法が使用されてもよい。たとえば、既存の技術もしくはソフトウェアまたはその両方を使用してデータからナレッジ・グラフを生成するために、データ分析者などによってアプリケーション・プログラミング・インターフェース（ＡＰＩ：ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｉｎｇｉｎｔｅｒｆａｃｅ）ツールキットまたは人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）データ・キットが使用されてもよい。実施において、サーバ６０のモデリング・モジュール７０は、ステップ３００によるナレッジ・グラフを生成する。代替的に、ユーザはたとえばクライアント・コンピュータ・デバイス６４などから、すでに生成されたナレッジ・グラフを取得してもよい。ナレッジ・グラフは、複数のソース（例、データ・ソース６２）から集められたデータに基づいて生成されてもよい。態様において、ナレッジ・グラフは、ドメインを確立するスキーマを用いてナレッジ・ベース（データの１つ以上のセット）から生成され、このグラフは１つ以上のオブジェクト・クラスタ（すなわち、グラフ内でともに近くに位置または発生している類似のオブジェクトのグループ）を示す。

ステップ３０１において、サーバ６０は、ステップ３００のナレッジ・グラフのオブジェクト・クラスタのサイズが、ナレッジ・ベースの過少指定を示す閾値を満たすと判定する。上記のとおり、本明細書において用いられる過少指定された（ｕｎｄｅｒｓｐｅｃｉｆｉｅｄ）または過少指定（ｕｎｄｅｒ－ｓｐｅｃｉｆｉｃａｔｉｏｎ）という用語は、不十分もしくは正確さが不十分な情報、または不完全に指定された情報を示す。実施において、サーバ６０のクラスタ・モジュール７２は、ステップ３０１による過少指定を判定する。データのグラフ化においてクラスタリング・ステップが行われる場合、所与のエンティティがグラフ上の周囲のクラスタに対して不均衡な圧倒的に密集したクラスタを有することが示されるとき、こうした不均衡に密集したクラスタは過少指定であり得る場合を示す。よって、本発明の実施形態はクラスタを用いてナレッジ・ベースの過少指定に対する推定原因を見出すものであり、ここで過少指定は絶対的またはヒューリスティックに測定されるのではなく、所与のコーパス（データの本体または集合体）またはそのドメイン内のすべてのコーパスに位置するグループに対して相対的に測定される。

なおも図３のステップ３０１を参照して、実施形態においては、ａｒｇｍａｘ（最大点集合（ａｒｇｕｍｅｎｔｓｏｆｔｈｅｍａｘｉｍａ））関数を使用して、周囲のクラスタ・グループよりも大きいサイズを有するクラスタ内のドメインの臨界点を定める。数学では、ａｒｇｍａｘは何らかの関数のドメインの関数値が極大化する点である。仮想的な過少指定を示すクラスタ・サイズの検出は、各クラスタに対する合計パーセンテージを閾値化し得る式を用いて、もしいずれか１つのグループまたはクラスタの集合データが他のクラスタの組み合わせよりもｎ％大きければ、サーバ６０が過少指定の指示を検出することによって解決され得る。この判定のための式はδ＝χ－ηと表すことができ、ここでχは仮想的分割（すなわち、クラスタ内のエレメントの所望の仮想的平均数）であり、ηは実際の分割（すなわち、クラスタ内のエレメントの実際の数）であり、０≦δ≧閾値は過少指定の程度を示す。態様において、サーバ６０は予め定められた規則を使用して、（規則および閾値によって定められた）高度の過少指定に対して、ステップ３０２による措置を取る必要があるかどうかを判定する。

過少指定されたエンティティを分解する能力は、ナレッジ・グラフにおいて潜在的である。本明細書において用いられる分解という用語は、オブジェクトまたはエンティティをそのオブジェクトまたはエンティティのコンポーネント・エレメントに分けるか、またはそのオブジェクトもしくはエンティティをさらに指定することを示す。有利なことに、本発明の実施形態は、分析者がナレッジ・グラフのドメインに関するいかなる特定の知識またはトレーニングも有する必要なく、サーバ６０のクラスタ・モジュール７２が過少指定であり得る場合を判定することを可能にする。たとえば、医学分野に関するオブジェクトのクラスタを含むナレッジ・グラフを、その特定の医学分野の知識を有するユーザを伴わずにクラスタ・モジュール７２によって過少指定であり得る場合について分析してもよい。つまり、オブジェクトのクラスタをさらに分解するべきかどうかを判定するために、ユーザがナレッジ・グラフの任意の手動分析または知能的分析を適用する必要がない。このことは、分析者がナレッジ・ベースのドメインにおける特定の知識またはスキルを有さないときに特に有益である。ナレッジ・グラフはしばしば、クラスタ化されたオブジェクトに関する付加的な情報を提供するためのサブグラフを生成するために使用される。したがって、本発明の実施形態は、ステップ３０１における過少指定の判定がなければ作成できないクラスタからのサブグラフの作成を可能にする。

ステップ３０２において、サーバ６０はステップ３０１の判定に応答して、（階層構造が存在するときは）ナレッジ・ベースの潜在的な階層構造内の高頻度の親子関係を定める。態様において、サーバ６０のＮＬＰモジュール７４はＮＬＰパターン・マッチング分析（例、Ｉｓ－ａパターン抽出）を行って、予め定められた規則もしくは閾値またはその両方に基づいてナレッジ・ベース内の高頻度の親子関係を定める。たとえば、ＮＬＰモジュール７４は、ナレッジ・ベース内のデータのカテゴリ間の親子関係を示すキーワードを識別してもよい。

ステップ３０３において、サーバ６０はステップ３０２において定められた高頻度の親／子関係に基づいて、ナレッジ・グラフに対するサブクラスを作成する。実施形態においては、サーバ６０のＮＬＰモジュール７４がステップ３０３を実施する。態様において、サーバ６０は用語頻度－逆文書頻度（ＴＦ－ＩＤＦ：ｔｅｒｍｆｒｅｑｕｅｎｃｙ－ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）マッチングを使用して、ステップ３０２において定められた親／子関係に基づいて複数のサブクラスを作成する。一般的に、ＴＦ－ＩＤＦマッチングは、稀でも頻出でもなく中間のどこかにある言葉または用語を見出すものである。よって態様において、ステップ３０１にて過少指定と識別されたクラスタは、ステップ３０２において定められた適用可能な高頻度の親／子関係に基づいてサブクラスに分解される。

ステップ３０４において、ステップ３０２の判定に応答して、かつナレッジ・ベース内に階層構造が存在しないとき、サーバ６０は、類似の関係（例、予め定められた閾値を満たすコンピュータ・ノードの類似性）を有するオブジェクトを識別するために、ＮＬＰ技術を用いてナレッジ・ベース内のピア・ノード（兄弟）を識別する。実施においては、サーバ６０のＮＬＰモジュール７４がステップ３０４を実施する。態様において、（例、予め定められた規則に基づいて）類似の関係を有するオブジェクトを探し、それを用いてノード類似性を計算するＮＬＰ技術によって、パターン・マッチングの複雑さを解決できる。

ステップ３０５において、サーバ６０はステップ３０４において識別されたピア・ノードに基づいて、ナレッジ・グラフに対するサブクラスを作成する。実施においては、ＮＬＰモジュール７４がステップ３０５を行う。態様において、ステップ３０１にて過少指定と識別されたクラスタは、ステップ３０４で識別されたピア・ノードに基づいてサブクラスに分解される。態様において、ステップ３０５の出力は、過少指定を解決するための提案である。

ステップ３０６において、サーバ６０は、改善されたナレッジ・グラフを生成するためにステップ３０３または３０５において生成されたサブクラスに基づいてナレッジ・グラフを再初期化または更新する。改善されたナレッジ・グラフは元のナレッジ・グラフに存在するものよりも多くのクラスタを含み、より多く指定されたナレッジ・グラフを提供する。態様において、サーバ６０はボロノイ・セル・クラスタ初期化式σ∝（ω＋１）を使用し、ステップ３０１にて過少指定と判定されたクラスタは、クラスタ初期化式σ∝（ω＋１）と同等のクラスタ重心によって再初期化される。

ステップ３０７において、サーバ６０は、閾値量未満のデータ・ポイントを有するナレッジ・グラフのオブジェクト・クラスタの１つ以上に基づいて、ナレッジ・ベースの過剰指定を判定する。ステップ３０７は元のナレッジ・グラフに対して行われてもよいし、ステップ３０６において生成された改善されたナレッジ・グラフに対して行われてもよいことが理解されるべきである。実施においては、サーバのクラスタ・モジュール７２がステップ３０７を実施する。実施において、サーバ６０は、ナレッジ・ベースの過剰指定された部分を含むナレッジ・グラフのクラスタ（複数）と、それらのクラスタのオブジェクトとを識別する。

ステップ３０８において、サーバ６０はナレッジ・グラフを再初期化して、ステップ３０７において識別された過剰指定されたクラスタ（複数）のオブジェクトをまとめて別のクラスタにして、更新されたナレッジ・グラフを生成する。言い換えると、オブジェクトを指定除外して更新されたナレッジ・グラフを生成するために、以前は複数のクラスタのグループだったオブジェクトを単一のクラスタに統合する。ステップ３０８は、サーバ６０または手動の監視によって自動的に実施されてもよい。

ステップ３０９において、サーバ６０は、ステップ３０８の更新されたナレッジ・グラフまたはステップ３０６の改善されたナレッジ・グラフに基づいて出力を生成する。サーバ６０によって、本発明のナレッジ・グラフから抽出された情報を含むクライアント報告、または本発明のナレッジ・グラフから抽出された情報に基づくコンピュータ機能を実現するための命令を含むさまざまな出力が生成されてもよい。態様において、サーバは、改善されたナレッジ・グラフもしくは更新されたナレッジ・グラフまたはその両方からの知識に基づいて報告を生成し、その報告をネットワーク５０を介してクライアント・コンピュータ・デバイス６４に送信する。ステップ３０９の実行においては、さまざまな報告実施が分析者によって使用されるか、またはサーバ６０によって自動的に使用されてもよく、本発明は特定の出力実施に限定されることは意図されていないことが理解されるべきである。

図４Ａは、本発明の態様によるナレッジ・ベースの過少指定を示すドメインに対する注釈付きのナレッジ・グラフ４００Ａを示している。より具体的には、図４Ａは、あるモデルに基づいてクラスタ（クラスタ１～３）に組織化されたオブジェクトまたはオブジェクト・ノードを示すナレッジ・グラフ４００Ａを示している。ナレッジ・グラフ４００Ａの生成に使用された特定のモデルについては、この開示の目的のために説明される必要はなく、データ分析者が定めるとおりのナレッジ・グラフ４００Ａを生成するための任意の適切なモデルであり得る。図４は実世界の例を表しており、ここではテキスト・マイニングによって、所与のエンティティが存在している（ナレッジ・グラフがクラスタ化されたエンティティのグループを表している）が、抽出されたオブジェクトは過少指定されており、潜在的な分解能力を有することが明らかにされている。図４に示されるとおり、オブジェクトの第１のクラスタであるクラスタ１と、オブジェクトの第２のクラスタであるクラスタ２と、オブジェクトの第３のクラスタであるクラスタ３との比較によって、クラスタ３は同じドメイン内の他のクラスタ（クラスタ１および２）と比べて密度が高く、不均衡なクラスタ・サイズを有することが示される。この例において、クラスタ３は３つの総エンティティ・タイプ（クラスタ１、２、および３によって表される）全体のデータの８１．５％を与えている。

図４Ｂは、本発明の態様によるナレッジ・ベースの十分な指定を示す、図４Ａのドメインに対する改善されたナレッジ・グラフ４００Ｂを示している。クラスタ３Ａおよび３Ｂは、図４Ａの過少指定されたクラスタ３から正しく分解された指定の子エンティティを表す。クラスタ３Ｃは、図４Ａの元のクラスタ３に属するエンティティのうち、図４Ａの元のクラスタ３からさらに適切に分解され得なかったものを表す。

場合によっては、ナレッジ・グラフはモデルに基づいて付加的な空のクラスタを伴って生じることとなり、これはナレッジ・グラフを生成するために使用されたモデルが十分に改善されていて失われたエンティティが存在しないことを示してもよい。しかし、ほとんどの非自明データ・セットにおいて、すべてのエンティティ（オブジェクト）を完全に改善することは不可能であろう。

場合によっては、エンティティが過剰指定されることとなるようなモデルに基づいてナレッジ・グラフが生成されるだろう。こうしたグラフのクラスタに共通するエンティティ・レベルの各々はドメイン内の共通の指定かもしれないが、分析者の目標は妥当な指定レベルを維持することである。ナレッジ・グラフ上の推論境界を越えてエンティティを分解する理由はない。本明細書において用いられる推論境界という用語は、推論がどこまで行われるかに対して定められた規則を示す。ナレッジ・グラフ内のクラスタは、推論を制限するための境界として用いられ得る。本発明の実施形態は、ナレッジ・グラフに対して行われる推理および推論のタイプに基づく過剰指定のレベルに対する調整を可能にする。一例において、ナレッジ・グラフの小さなクラスタは、ナレッジ・グラフの推論能力にとって必須ではないレベルへの分解を表している。この状況において、必須ではないとは、エンティティにインスタンス・データが投入されないだろうと考えられ、かつエンティティがグラフ内の他のノードに対する有意な数の関係を有さない（凝集性が低い）と考えられることを意味する。

図５Ａは、ナレッジ・ベースの過剰指定を示す注釈付きのナレッジ・グラフ５００Ａを示している。図５Ａは、上記において議論したボロノイ・セル・クラスタ初期化式σ∝（ω＋１）におけるクラスタリング分析を用いたときに、ナレッジ・グラフにおいて過剰指定がどのように見えるかという例を表している。図５Ａの例において、クラスタ４のノードはソース・データ（ナレッジ・ベース）における汎用（指定されていない）エンティティを示す。クラスタ３のノードは、クラスタ４のノードと類似であるが別の分解タイプを有するエンティティを表す。クラスタ２のノードは、別の類似のエンティティ・タイプを表す。クラスタ５のノードは、やはり類似のタイプを有する過剰指定されたエンティティ・タイプを表す。図３のステップ３０７による過剰指定の検出は、エンティティ・タイプに対する任意のデータ・ポイントが不在であることのみに基づくものではない。たとえば、もしあるクラスタが空であれば、これはそのクラスタに対するデータの任意のインスタンスが不在であることを示すだろう。本発明の実施形態によると、過剰指定を示すための閾値が確立される。閾値は予め定められた一般的な閾値であってもよいし、ドメイン・タイプに対して特定的な予め定められた閾値であってもよい。任意のクラスタがｎ％のデータ・ポイントを有する場合（ここでｎはアルゴリズムに対してパラメータ化される）、アルゴリズムはボロノイ・セル・クラスタ初期化式を伴って再開することとなる。

図５Ｂは、クラスタ初期化後の図５Ａの注釈付きナレッジ・グラフの改善されたバージョンを示している。図５Ｂの例において、図５Ａのクラスタ４および５のエンティティは、図５Ｂの汎用エンティティ・クラスタ５に包含されている。空のクラスタ４は、セル初期化において確立されたｎ＋１クラスタであり、これはソース・データ（ナレッジ・ベース）内に失われたエンティティ・タイプがないことを証明するものである。最終ステップとして、過剰指定されたエンティティはナレッジ・グラフから除去され、メタデータの任意の既存のインスタンスは包含エンティティに再割り当てされる。公式のワールド・ワイド・ウェブ・コンソーシアム（Ｗ３Ｃ：ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ）ウェブ・オントロジ言語（ＯＷＬ：ＷｅｂＯｎｔｏｌｏｇｙＬａｎｇｕａｇｅ）グラフが用いられる場合は、推論の目的のために２つのエンティティが同等であると示すために、グラフのｏｗｌ：ｅｑｕｉｖａｌｅｎｔＴｏプロパティが用いられ得る。Ｗ３ＣＯＷＬは、物事、物事のグループ、および物事間の関係に関する豊かで複雑な知識を表すように設計されたセマンティック・ウェブ言語である。

実施形態において、サービス・プロバイダは、本明細書に記載されるプロセスを行うことを提案し得る。この場合、サービス・プロバイダは、１つ以上の顧客に対して本発明のプロセス・ステップを行うコンピュータ・インフラストラクチャの作成、維持、配置、サポートなどを行い得る。これらの顧客は、たとえば技術を用いる任意の事業所などであってもよい。その見返りとして、サービス・プロバイダは定額制もしくは料金契約またはその両方によって顧客（単数または複数）から支払いを受けてもよいし、またはサービス・プロバイダは１つ以上のサード・パーティに対する広告コンテンツの販売によって支払いを受けてもよいし、あるいはその両方であってもよい。

さらに別の実施形態において、本発明は、ナレッジ・グラフの過剰指定または過少指定の自動的解決のためのコンピュータに実装される方法を提供する。この場合、たとえばコンピュータ・システム１２（図１）などのコンピュータ・インフラストラクチャが提供されてもよく、かつ本発明のプロセスを行うための１つ以上のシステムが取得（例、作成、購入、使用、変更など）されて、そのコンピュータ・インフラストラクチャに配置され得る。この範囲において、システムの配置は以下の１つ以上を含み得る。（１）コンピュータ可読媒体から、たとえば（図１に示される）コンピュータ・システム１２などのコンピュータ・デバイスにプログラム・コードをインストールすること、（２）コンピュータ・インフラストラクチャに１つ以上のコンピュータ・デバイスを追加すること、および（３）コンピュータ・インフラストラクチャの１つ以上の既存のシステムの組み込みもしくは変更またはその両方を行って、コンピュータ・インフラストラクチャが本発明のプロセスを行い得るようにすること。

実施形態において、本発明のコンピュータに実装される方法は、機械知能を用いてナレッジ・ベース内の過剰一般化および過少指定を検出することを含む。態様において、この方法は、ナレッジ・グラフのクラスタを受信したことに応答して、仮想的分割からクラスタ内の実際の分割を差し引くことによって値を定めることと、その値が０以上かつ閾値以上であることに応答して過少指定を判定することとをさらに含む。実施において、この方法は、過少指定を判定したことに応答して、ＩＳ－Ａパターン抽出に対する自然言語パターンを用いてナレッジ・ベースにおける潜在的な親／子関係を識別することと、識別された親子関係に対して複数のサブクラスを作成することとをさらに含む。態様において、加えてこの方法は、ナレッジ・ベース内の潜在的な階層構造を識別できないことに応答して、ナレッジ・ベースを分解してナレッジ・ベースのピア・ノードにすることと、自然言語技術を用いてパターン・マッチングを行って、コンピュータ・ノードの類似性に対する類似の関係を有するオブジェクトを識別することとを含む。態様において、この方法は、ボロノイ・セル・クラスタ初期化式におけるクラスタリング分析を用いることを含む。

本発明のさまざまな実施形態の説明は例示の目的のために提供されたものであり、開示される実施形態に対して網羅的または限定的になることは意図されていない。記載される実施形態の範囲および思想から逸脱することなく、当業者には多くの修正および変更が明らかになるだろう。本明細書において用いられる用語は、実施形態の原理、市場に見出される技術に対する実際の適用または技術的改善点を最もよく説明するか、または他の当業者が本明細書に開示される実施形態を理解できるようにするために選択されたものである。

Claims

コンピュータ・デバイスによって、ナレッジ・グラフのオブジェクト・クラスタのサイズが、前記ナレッジ・グラフのナレッジ・ベースの過少指定を示す閾値を満たすと判定することと、
前記コンピュータ・デバイスによって、前記ナレッジ・グラフのオブジェクトに対するサブクラスを定めることと、
前記コンピュータ・デバイスによって、前記サブクラスに基づいて前記ナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成することであって、前記改善されたナレッジ・グラフにおける前記オブジェクト・クラスタの前記サイズは低減する、前記再初期化することと、
前記コンピュータ・デバイスによって、前記改善されたナレッジ・グラフから定められた情報に基づいて出力を生成することと
を含む、コンピュータに実装される方法。
前記ナレッジ・ベースの前記過少指定を前記判定することは、
前記コンピュータ・デバイスによって、前記オブジェクト・クラスタ内の仮想的分割から前記オブジェクト・クラスタ内の実際の分割を差し引くことによって値を定めることと、
前記コンピュータ・デバイスによって、前記値が０以上かつ予め定められた閾値以上であることに基づいて前記ナレッジ・ベースの前記過少指定を判定することとを含む、請求項１に記載のコンピュータに実装される方法。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、前記ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む、請求項１に記載のコンピュータに実装される方法。
前記親子関係を前記定めることは、パターン抽出に対する自然言語処理を用いて前記ナレッジ・ベース内の前記親子関係を識別することを含む、請求項３に記載のコンピュータに実装される方法。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、ピア・ノードに基づいて前記ナレッジ・グラフに対する前記サブクラスを定めることを含む、請求項１に記載のコンピュータに実装される方法。
前記サブクラスを前記定めることは、自然言語処理を用いてパターン・マッチングを行って、閾値を満たす計算されたノード類似性を有するオブジェクトを識別することを含む、請求項５に記載のコンピュータに実装される方法。
前記コンピュータ・デバイスによって、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことによって、前記ナレッジ・ベースの過剰指定を判定することをさらに含む、請求項１に記載のコンピュータに実装される方法。
前記コンピュータ・デバイスによって、更新されたナレッジ・グラフを生成するために前記過剰指定の前記判定に基づいて前記改善されたナレッジ・グラフを再初期化することをさらに含み、前記改善されたナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、前記更新されたナレッジ・グラフの単一のクラスタに包含される、請求項７に記載のコンピュータに実装される方法。
自身によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品であって、コンピュータ・デバイスによって実行可能な前記プログラム命令は前記コンピュータ・デバイスに、
ナレッジ・ベースからナレッジ・グラフを生成することと、
前記ナレッジ・グラフのオブジェクト・クラスタのサイズが前記ナレッジ・ベースの過少指定を示す閾値を満たすと判定することと、
前記ナレッジ・グラフのオブジェクトに対するサブクラスを定めることと、
前記サブクラスに基づいて前記ナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成することとを実行させ、前記改善されたナレッジ・グラフにおける前記オブジェクト・クラスタの前記サイズは低減する、コンピュータ・プログラム製品。
前記ナレッジ・ベースの前記過少指定を前記判定することは、
前記オブジェクト・クラスタ内の仮想的分割から前記オブジェクト・クラスタ内の実際の分割を差し引くことによって値を定めることと、
前記値が０以上かつ予め定められた閾値以上であることに基づいて前記ナレッジ・ベースの前記過少指定を判定することとを含む、請求項９に記載のコンピュータ・プログラム製品。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、前記ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む、請求項９に記載のコンピュータ・プログラム製品。
前記親子関係を前記定めることは、パターン抽出に対する自然言語処理を用いて前記ナレッジ・ベース内の前記親子関係を識別することを含む、請求項１１に記載のコンピュータ・プログラム製品。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、ピア・ノードに基づいて前記ナレッジ・グラフに対する前記サブクラスを定めることを含む、請求項９に記載のコンピュータ・プログラム製品。
前記サブクラスを前記定めることは、自然言語処理を用いてパターン・マッチングを行って、閾値を満たす計算されたノード類似性を有するオブジェクトを識別することを含む、請求項９に記載のコンピュータ・プログラム製品。
前記プログラム命令は、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことによって、前記ナレッジ・ベースの過剰指定を判定することを前記コンピュータ・デバイスにさらに行わせる、請求項９に記載のコンピュータ・プログラム製品。
前記プログラム命令は、更新されたナレッジ・グラフを生成するために前記過剰指定の前記判定に基づいて前記改善されたナレッジ・グラフを再初期化することを前記コンピュータ・デバイスにさらに行わせ、前記改善されたナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、前記更新されたナレッジ・グラフの単一のクラスタに包含される、請求項１５に記載のコンピュータ・プログラム製品。
コンピュータ・デバイスに関連するプロセッサ、コンピュータ可読メモリ、およびコンピュータ可読記憶媒体と、
ナレッジ・ベースからナレッジ・グラフを生成するためのプログラム命令と、
前記ナレッジ・グラフのオブジェクト・クラスタのサイズが前記ナレッジ・ベースの過少指定を示す閾値を満たすかどうかを判定するためのプログラム命令と、
前記ナレッジ・グラフの前記オブジェクト・クラスタの前記サイズが前記閾値を満たすという判定に基づいて、前記ナレッジ・グラフのオブジェクトに対するサブクラスを定めるためのプログラム命令と、
前記サブクラスに基づいて前記ナレッジ・グラフを再初期化して改善されたナレッジ・グラフを生成するためのプログラム命令であって、前記改善されたナレッジ・グラフにおける前記オブジェクト・クラスタの前記サイズは低減する、前記再初期化するためのプログラム命令と、
ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことによって、前記ナレッジ・ベースの過剰指定が存在するかどうかを判定するためのプログラム命令と、
前記過剰指定の前記判定に基づいて前記ナレッジ・グラフを再初期化して更新されたナレッジ・グラフを生成するためのプログラム命令であって、前記改善されたナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、前記更新されたナレッジ・グラフの単一のクラスタに包含される、前記再初期化するためのプログラム命令と
を含み、前記プログラム命令（複数）は、前記コンピュータ可読メモリを介した前記プロセッサによる実行のために前記コンピュータ可読記憶媒体に記憶される、システム。
前記ナレッジ・ベースの前記過少指定を前記判定することは、
前記オブジェクト・クラスタ内の仮想的分割から前記オブジェクト・クラスタ内の実際の分割を差し引くことによって値を定めることと、
前記値が０以上かつ予め定められた閾値以上であることに基づいて前記ナレッジ・ベースの前記過少指定を判定することとを含む、請求項１７に記載のシステム。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、前記ナレッジ・ベースの潜在的な階層構造内の親子関係を定めることを含む、請求項１７に記載のシステム。
前記ナレッジ・グラフに対する前記サブクラスを前記定めることは、ピア・ノードに基づいて前記ナレッジ・グラフに対する前記サブクラスを定めることを含む、請求項１７に記載のシステム。
コンピュータ・デバイスによって、ナレッジ・ベースに対して生成されたナレッジ・グラフにアクセスすることと、
前記コンピュータ・デバイスによって、閾値量未満のデータ・ポイントを有する前記ナレッジ・グラフの１つ以上のオブジェクト・クラスタに基づいて前記ナレッジ・ベースの過剰指定を判定することと、
前記コンピュータ・デバイスによって、前記過剰指定の前記判定に基づいて前記ナレッジ・グラフを再初期化して更新されたナレッジ・グラフを生成することとを含み、前記ナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、前記更新されたナレッジ・グラフの単一のオブジェクト・クラスタに包含される、コンピュータに実装される方法。
前記過剰指定を判定することは、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことを含む、請求項２１に記載のコンピュータに実装される方法。
前記コンピュータ・デバイスによって、前記ナレッジ・ベースから前記ナレッジ・グラフを生成することをさらに含む、請求項２１に記載のコンピュータに実装される方法。
自身によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品であって、コンピュータ・デバイスによって実行可能である前記プログラム命令は前記コンピュータ・デバイスに、
ナレッジ・ベースに対して生成されたナレッジ・グラフにアクセスすることと、
閾値量未満のデータ・ポイントを有する前記ナレッジ・グラフの１つ以上のオブジェクト・クラスタに基づいて前記ナレッジ・ベースの過剰指定を判定することと、
前記過剰指定の前記判定に基づいて前記ナレッジ・グラフを再初期化して更新されたナレッジ・グラフを生成することとを実行させ、前記ナレッジ・グラフの過剰指定されたオブジェクト・クラスタのエンティティは、前記更新されたナレッジ・グラフの単一のオブジェクト・クラスタに包含される、コンピュータ・プログラム製品。
前記過剰指定を判定することは、ボロノイ・セル・クラスタ初期化式を使用したクラスタリング分析を行うことを含む、請求項２４に記載のコンピュータ・プログラム製品。