JP2018198048A

JP2018198048A - モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム

Info

Publication number: JP2018198048A
Application number: JP2018054434A
Authority: JP
Inventors: ムニョス・マヌエルペーニャ; Penia Munioz Manuel; ラトーレ・ビクトールデ; De La Torre Victor
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-22
Filing date: 2018-03-22
Publication date: 2018-12-13
Also published as: EP3407207A1; US20180336221A1; US10901959B2

Abstract

【課題】モデルオントロジにより入力データセットをリコンサイルするシステム、方法及びプログラムを提供する。【解決手段】システムは、モデルオントロジにより入力データセットをリコンサイルし、種々のレベルのノードを有する概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセスを実行する。ユーザインタフェースを介して、下位レベルノードの中から特定プロパティを有するデータセットを入力するために、概念階層の上位レベルからノードのユーザ入力割り当てを受信するプロセスを更に実行する。どの上位レベルノードに新しい入力データセットを割り当てるかを新しい入力データセットの中で表される下位レベルノードに基づき決定するために、概念階層及び過去のユーザ入力割り当てのレコードを用いて入力データセット・リコンシリエーション・プロセスを更に実行する。【選択図】図１

Description

本発明は、データ記憶の分野に関し、特に入力データセットの認識に関する。

データ科学分野における課題は、異なる構造、フォーマット、及び特性を有する異種データソースからの入力データセットの統合である。多くの場合、どのように入力データセットを解釈するか、又はどの情報にデータが関連するかを知ることは、正しいデータ解釈、したがって統合のための重要な要素である。多くの場合、入力データセットを正しく統合するために、入力データセットにより表される知識の分野における背景を知る必要がある。

入力データセットの中で表される情報は、技術的事業の意志決定において益々重要な役割を果たしている。入力データセットに含まれる知識が取り入れられるべきである場合、様々なレベルの抽象化においてデータセットを機械に正確に記述させることが望ましい。

機械の相互運用性は、正確な記述子と共にデータセットを格納することにより強化される。さらに、記憶のアクセス可能性及び効率は、意味のある注釈付きデータにより強化される。

処理オーバヘッドは、装置に渡るトラバース及びアクセス操作によりデータセンタ内で課される。

入力データセットのコンテキスト及び知識分野を認識するよう機械の能力を強化することが望ましい。

実施形態は、モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、該プロセッサ及びメモリは、概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を実行し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記プロセッサ及びメモリは、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に実行する。

前記システムは、処理命令を格納するメモリと、該メモリに結合され且つ処理命令の処理要素を実行するよう較正されたプロセッサと、を備えるコンピューティング装置又は複数の相互接続されたコンピューティング装置を有して良い。

実施形態は、入力データセットに割り当てるべきエンティティタイプ及びドメイン記述子の認識を自動化する。したがって、モデルオントロジにより入力データセットをリコンサイル（reconciling）／整合（aligning）させる。システムは、データセットをコンテキスト化（contextualise）及び解釈可能な機械として動作する。

システムは、低付加価値作業であるＥＴＬ（抽出（extract）、変換（transform）、ロード（load、取り込み））タスクにおける手動関与を大幅に削減する。システムは、特に非標準化データの中で、データの機械可読特長を拡張し実現し、モデルオントロジにより入力データセットをリコンサイルすることにより該データから付加価値を抽出する。システムは、オントロジ及びユーザ選好に基づき、知識ベースに格納されたユーザ選好を表すデータを利用することにより、リコンシリエーション・タスクに対して推理を適用するよう動作する。システムは、ハードウェアに組み込まれた知識に依存しないが、他の情報源及びユーザ選好からの知識に基づきリコンシリエーションに関連する意志決定を動的にカスタマイズするよう較正される。システムは、支援及び知的プラットフォームのためにデータ解釈及び摂取の自動化を実現する。

システムは、エンティティタイプ及びドメイン（つまり上位）レベル記述子の入力データセットへの将来の割り当てを通知するために、値がデータセットに含まれるプロパティのセットにより特徴付けられる入力データセットへの上位レベル記述子の過去のユーザ入力割り当てから学習する。エンティティタイプ認識は、オントロジ及びユーザ選好から取得された両方の知識に基づく。ドメイン認識は、オントロジ及びユーザ選好から取得された両方の知識に基づく。

入力データセットのために選択されたエンティティタイプは、リコンサイルされたデータストアの中の入力データセットを格納すべき物理データ記憶装置を識別するキー又はインデックスとして使用できる。リコンサイルされたデータストアは、複数の入力データセットを、単一のアクセスポイントを介してアクセス可能にし、装置間横断及びアクセス動作を削減する方法でデータを格納する。

どのように自律的方法でデータを取得するか、及びどのように自動的に情報を解釈するかは、知的システム及び支援の新たな生成において関連する役割を果たす。実施形態は、知識及びユーザ選好に基づくエンティティタイプ及び任意的に更にドメイン認識のためのシステムを提供する。該システムは以下の利益を提供する。

・低付加価値作業であるＥＴＬタスクにおける労力を大幅に削減する。

・特に非標準化データの中の、データの機械可読特長を拡張し及び実現して、データから付加価値を抽出する。

・オントロジ及びユーザ選好に基づき知識ベースの中の注釈によりサポートされる推理を拡張する。

・知識及び選好に基づく意志決定を動的にカスタマイズする。

・支援及び知的プラットフォームのためにデータ解釈及び摂取の自動化を実現する。

指名されたエンティティのエンティティタイプ及びドメインが決定できると、機械は会話又はテキスト内での該指名されたエンティティの出現のコンテキスト及び意味を決定できるので、機械による非構造化データの理解が支援される。

実施形態は、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む方法も含む。

実施形態は、コンピューティング機器により実行されると、該コンピューティング機器に上述の方法を実行させるコンピュータプログラムも含む。

本発明の好適な特徴は、単なる例として添付の図面を参照して以下に説明される。
モデルオントロジにより定められる概念階層により入力データセットをリコンサイルするシステムの機能アーキテクチャの概観を示す。モデルオントロジにより定められる概念階層により入力データセットをリコンサイルするシステムを示す。プロパティ・リコンシリエーション・モジュールの動作原理を示す。エンティティタイプ認識モジュールを示す。エンティティタイプ認識プロセスを示す。ドメイン認識モジュールを示す。ドメイン認識プロセスを示す。知識摂取モジュールを示す。知識ベースを示す。概念階層を示す。オントロジを通じて及び共同でユーザから取得された知識を格納するグラフデータを示す。オントロジを通じて及び個別ユーザから取得された知識を格納するグラフデータを示す。一実施形態のハードウェアアーキテクチャを示す。

用語に関する注記：以下の説明及び請求項において、複数の指数が定められ議論される。指数は、「オントロジ」及び「関係」からのラベルに属する。「関係指数」は、ユーザ入力割り当てを表し、特定ユーザのユーザ入力割り当てを表す「ユーザ成分」と、共同でユーザの集団のユーザ入力割り当てを表す「共同成分」とを有して良い。「オントロジ指数」は、モデルオントロジグラフの中の関係を表す。指数は、「第１」、「第２」、及び「第３」からのラベルにも属する。これらのラベルは階層の中のノードの位置を意味する。「第１．．．指数」は、第２レベルノードと第１レベルノードとの間にある。「第２．．．指数」は、第３レベルノードと第２レベルノードとの間にある。「第３．．．指数」は、第３レベルノードと第１レベルノードとの間にある。同様に、「第１．．．成分」は、第２レベルノードと第１レベルノードとの間にある。「第２．．．指数」は、第３レベルノードと第２レベルノードとの間にある。「第３．．．成分」は、第３レベルノードと第１レベルノードとの間にある。

システムは、取得モジュール２１０及びデータプロパティ認識モジュール２２０を備えられ又は備えられなくて良い。

取得モジュール２１０及びデータプロパティ認識モジュール２２０を備えられないシステムでは、入力データセット、つまり概念階層によるリコンシリエーションのためのデータセットは、認識されたプロパティの値により構成され、認識されたプロパティへの値のマッピングが知られていることが想定される。ここで、認識されたプロパティは、概念階層の中のノードにより表されるプロパティである。したがって、入力データセットの中の値は、概念階層の中のプロパティレベル又は第１レベルのノードにより表されるプロパティに属することができる。

取得モジュール２１０及びデータプロパティ認識モジュール２２０を備えられたシステムでは、入力データセット、つまりデータセット固有の記憶から取得モジュール２１０によりシステムに読み込まれたデータセットは、１又は複数の値セットの各々に、概念階層の中のプロパティレベル又は第１レベルのノードにより表されるプロパティを割り当てられる。プロパティの割り当ては、入力データセットの中の値セットにより表されるプロパティと概念階層の中の既存プロパティレベルノードとの間で識別される一致の結果であって良い。代替で、一致が見付からない場合、入力データセットの中の値セットに対応する新しいプロパティレベルノードは、概念階層に追加され、値セットに割り当てられる。ここで、値セットは、例えば、表形式のデータセットの中の値の列、又はデータグラフの中の同じプロパティレベル概念をインスタンス化する値の集合である。

取得モジュール２１０は、異種の且つ分散したデータを収集し、抽出し、及び入力データセットの形式でシステムに統合する。入力データセットは、異なるフォーマットであり、異なる等級の情報複雑性を含んで良い。

データプロパティ認識モジュール２２０は、エンティティタイプ認識モジュール１１０に標準化データプロパティを提供する目的で、データを正規化する。データプロパティ認識モジュール２２０は、概念階層の中のプロパティレベルノードのうちの１つにマッピングされる値を有するデータセットを提供するために、プロセスをサポートする。データプロパティ認識モジュール２２０は、データ入力の記述子／プロパティが与えられると、概念階層からのプロパティレベルノードを、入力データセットの中の値セットにより表されるプロパティに割り当てる。データプロパティ認識モジュール２２０は、記述子（つまり、固有プロパティラベル）を有する生データを受信し、記述子のセマンティクス及びプロパティの値及び知識に基づき、概念階層の中のプロパティレベルノードにより記述子をリコンサイルする。プロセスは、ドイツ特許出願ＤＥ１０２０１６２２０７８１．４及びＤＥ１０２０１６２２０７７１．７に更に詳細に記載され、これらの出願の内容は参照によりここに組み込まれる。データセットの中の値セットにより表されるプロパティについて既存プロパティレベルノードが見付からない場合、新しいプロパティレベルノードが、入力データセットからのプロパティラベルを用いて概念階層に追加される。

プロパティ認識モジュール２２０の動作原理は、図３に示される。図３では、３つのエンティティの各々について３つのプロパティの各々の値を有する生データが生データとして取得されることが分かる。プロパティは、記述子によりラベル付けされる。データプロパティ認識モジュール２２０は、生データの中のプロパティをラベル付けする記述子の意味（semantics、セマンティクス）を概念階層の中のプロパティノードの意味（semantics、セマンティクス）と比較するセマンティクスエンジン２２１を有する。データプロパティ認識モジュール２２０は、生データの中のプロパティの値の統計的特徴を概念階層により定められた概念階層の中のプロパティレベルノードを表す値セットの統計的特徴と比較するデータ値指紋エンジン２２２を有する。これらの比較に基づき、各値セット（つまり、各列）は、概念階層の中の第１レベル又はプロパティレベルのノードにより表されるプロパティを割り当てられる。

取得モジュール２１０及びデータプロパティ認識モジュール２２０がシステムに含まれるか又はデータをシステムに提供する外部モジュールであるかに拘わらず、上述のモジュールは、ドイツ特許出願ＤＥ１０２０１６２２０７８１．４及びＤＥ１０２０１６２２０７７１．７に記載に開示されたようなデータプロパティ認識機器、データプロパティ認識方法、又はデータプロパティ認識プログラムにより提供されて良い。これらの出願の内容は参照によりここに組み込まれる。

エンティティタイプ認識モジュール１１０は、入力データセットに割り当てるために概念階層の中で表されるものの中から１つのエンティティタイプを選択するために、プロパティへのエンティティタイプの過去のユーザ入力割り当て、及びプロパティをエンティティタイプにリンクする概念階層を使用するよう構成される。エンティティタイプ認識モジュール１１０は、リコンシリエーション・プロセスの第１段階を実行し、任意の第２段階はドメイン認識モジュール１２０により実行される。入力データセットは、概念階層の中の第１レベルノードにより表されるプロパティの中からの、データセットの中の値により表されるプロパティの同一性により特徴付けられる。特徴付けは、エンティティタイプ認識モジュール１１０において、リコンサイルされたデータセット記憶の中の入力データセットに割り当てるために、概念階層の中の第２レベルノードにより表されるエンティティタイプを選択するために使用される。

ドメイン認識モジュール１２０は、入力データセットに割り当てるために概念階層の中で表されるものの中から１つのドメインを選択するために、データセットへのドメインの過去のユーザ入力割り当て、及びドメインをエンティティタイプ及びプロパティにリンクする概念階層を使用するよう構成される。ドメイン認識モジュール１２０は、リコンシリエーション・プロセスの任意の第２段階を実行し、第１段階はエンティティタイプ認識モジュール１１０により実行される。入力データセットは、概念階層の中の第１レベルノードにより表されるプロパティの中からの、データセットの中の値により表されるプロパティの同一性により、及びエンティティタイプ認識モジュール１１０によりデータセットに割り当てられたエンティティタイプにより、特徴付けられる。特徴付け（characterisation）は、ドメイン認識モジュール１２０において、リコンサイルされたデータセット記憶の中の入力データセットに割り当てるために、概念階層の中の第３レベルノードにより表されるドメインを選択するために使用される。

ユーザフィードバックは、エンティティタイプ認識モジュール１１０又はドメイン認識モジュール１２０の動作に続いて、ユーザインタフェース１４０を介して提供できる。ユーザフィードバックは、例えば、エンティティタイプ認識モジュール１１０により選択される複数のエンティティタイプからの１つのエンティティタイプのユーザ割り当て、又はドメイン認識モジュール１２０により選択された複数のドメインからの１つのドメインのユーザ割り当てであって良い。

例えば、エンティティタイプ認識モジュール１１０は、入力データセットの中で表されるデータプロパティについて上位にランク付けされたエンティティタイプを決定する。この決定は、知識、ユーザ選好、及び他のユーザの選好に基づく。上位スコアのエンティティタイプは、システムにより決定された上位にランク付けされたエンティティタイプの中から入力データセットに割り当てるためにエンティティタイプを選択する制御をユーザに与えるために、ユーザインタフェースを介してユーザに提供される。

例えば、ドメイン認識モジュール１２０は、入力データセットの中で表されるデータプロパティについてエンティティの最上位ランクのドメインを決定する。この決定は、標準化データプロパティ、エンティティタイプ推奨モジュールにより決定され且つユーザにより選択されたエンティティタイプ、ユーザ選好、及び概念階層に基づく。上位スコアのドメインは、システムにより決定された上位にランク付けされたドメインの中から入力データセットに割り当てるための使用を与えるために、ユーザインタフェースを介してユーザに提供される。

知識ベース１３０は、概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセスを実行する。概念階層は、概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し１又は複数の第２レベルノードにグラフの中でリンクされている、第１レベルノードと、概念階層の第３レベルにある第３レベルノードであって、各第３レベルノードは、個々のドメインを表し、１又は複数の第２レベルノードに及び１又は複数の第３レベルノードにグラフの中でリンクされている、第３レベルノードと、を有する。特定の例では、階層の異なるレベルは、ドメイン、エンティティタイプ、及びプロパティである。１つのドメインは、１又は複数のエンティティタイプを有する（リンクされる）。１つのエンティティタイプは、１又は複数のプロパティを有する（これもリンクされる）。例えば、ハードウェアドメイン（ドメイン、Domain）は、１つの成分（エンティティタイプ、Entity type）を有し、この成分は該成分を定める幾つかの記述子、つまりエンティティタイプにリンクされ及びハードウェアドメイン（ドメイン、Domain）にもリンクされる名称、モデル番号、ｉｄ番号、等（プロパティ、Properties）を有する。モデルオントロジは、所与のプロパティについて、プロパティの関連する対応する（つまり、エンティティタイプのインスタンスの属性／制限を表す）エンティティタイプが存在するように、制約されて良い。モデルオントロジにおけるこの制約は、プロパティノードが対応するエンティティタイプノードに接続されることである。さらに、各エンティティタイプについて、エンティティタイプの属する対応するドメインが存在する。モデルオントロジにおけるこの制約は、エンティティタイプノードと対応するドメインノードとの間の接続である。さらに、各プロパティは対応するドメインに属し、モデルオントロジは、各プロパティノードが対応するドメインノードに接続されるように制約される。

知識摂取モジュールに関連する知識ベース１３０は、第２レベルノードにより表されるエンティティタイプ及び第３レベルノードにより表されるドメインの、値が個々の入力データセットに格納されている第１レベルノードにより表されるプロパティにより特徴付けられる入力データセットへの過去のユーザ入力割り当てのレコードを格納するユーザ入力割り当て記憶プロセスを実行する。ユーザ入力割り当て記憶プロセスは、上記過去のユーザ入力割り当てを表す指数を計算し、該指数を格納することも含む。例えば、第１、第２、及び第３関係指数である。

例えば、知識ベースモジュール１３０は、入力データセットについてエンティティタイプ及びドメインをランク付けする際にシステムにより使用するために、オントロジから抽出した知識をモデルオントロジとして格納し、過去のユーザ入力割り当ての表現を関係指数として格納する。モデルオントロジは、概念階層を定める。

知識摂取モジュール１３２は、ユーザ入力割り当て記憶プロセスを含む知識ベースと共同のプロセスを実行する。知識ベース１３０は、格納されたデータ及び該データを格納するハードウェアであると考えられ、知識摂取モジュール１３２は、ユーザ入力割り当てを表す指数を計算することを含み、どのデータを格納すべきかを決定する処理機構であると考えられる。知識ベース１３０は、信頼値の計算、重み付け、及び指数の更新のための処理能力も有して良い。任意で、知識ベースは、重み、信頼度、及び選好重み、更にノード（プロパティ、エンティティタイプ、及びドメイン）関連性の平衡を保つアルゴリズムを有する。ユーザ入力割り当て記憶プロセスは、第２レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、第２レベルノードにより表されるエンティティタイプを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第１関係指数を計算し格納することを含んで良い。第３レベルノードの対応する情報も、第３レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、第３レベルノードにより表されるドメインを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第３関係指数を、並びに、第３レベルノードのうちの１つと第２レベルノードのうちの１つとを有する複数のノード対について、第３レベルノードにより表されるドメインを第２レベルノードにより表されるエンティティタイプを割り当てられたエンティティに割り当てる受信したユーザ入力割り当ての数を表す第２関係指数を、計算され格納されてよいことに留意する。知識摂取モジュール１３２は、モデルオントロジへの追加のために、ＯＷＬのようなオントロジ１３６により提供される情報をパースし取得し、並びに、エンティティタイプ又はドメイン選択に関するユーザ入力割り当て１３４により提供される情報をパースし取得するメカニズムを提供する。

図２は、図１に示したシステムの特定の例である。図２の例では、エンティティタイプ認識モジュール１１０は、エンティティタイプ認識エンジン１１１、エンティティタイプ・ユーザ選好エンジン１１２、及びエンティティタイプ予測器１１３を有する。ドメイン認識モジュール１２０は、ドメイン認識エンジン１２１、ドメインユーザ選好エンジン１２２、及びドメイン予測器１２３を有する。

図２のエンティティタイプ認識モジュール１１０、及びその知識ベース１３０及び関連するコンポーネントとの相互作用は、図４に更に詳細に示される。

エンティティタイプ認識モジュール１１０は、標準化データ・プロパティラベル（標準化は、概念階層に従うことを意味する）セットとしての入力データセットの特徴付けを、エンティティタイプ選択に変換する。エンティティタイプは、入力データセットの中で表されるエンティティに適用されるグループ化又はカテゴリ化である。

標準化データ・プロパティラベル・セットとしての入力データセットの特徴付けを、リコンサイルされたデータ記憶の中の入力データセットの中で表されるエンティティをカテゴリ化する１又は複数のエンティティタイプの選択に変換する際の、図４に示すコンポーネントの相互作用が以下に説明される。

図５は、エンティティタイプ認識モジュールにより実行されるエンティティタイプ選択への処理ステップを表すフローチャートを示す。

本例では、エンティティタイプ認識モジュール１１０の機能は、第２レベルノードにより概念階層の中で表されたものの中から、エンティティタイプのスコア付きリストを提供することである。これは、標準化プロパティセットとしての入力データセットの特徴付けに基づき、スコア付きエンティティタイプとして入力データセットの中で表されたエンティティのカテゴリ化の提示精度をスコア付けする。エンティティタイプ認識モジュール１１０のコンポーネントは、概念階層及び過去のユーザ入力割り当てから見識（insights）を抽出し、エンティティタイプをスコア付けするために知識ベース相互作用から得た情報を処理し、最後に、リコンサイルされたデータ記憶の中の入力データセットに割り当てるようエンティティタイプを選択するためにユーザインタフェースを利用して最高スコアエンティティタイプ（つまり、概念階層の中で定められるような、それらのエンティティタイプの名称又はラベル）をユーザに提示するために、知識ベースと相互作用する。

ステップＳ５０１で、エンティティタイプ認識モジュール１１０は、標準化データ・プロパティ・セットとしての入力データセットの特徴付け、つまり値が入力データセットの中で提供されるプロパティを表す複数のラベル又はタイトルの識別を受信する。標準化は、ラベル又はタイトルが概念階層の中のプロパティレベルノードと整合している（つまりその中に含まれる）ことの指示である。ステップＳ５０２で、プロパティの数を見積もるために、エンティティタイプ認識モジュール１１０によりプロパティ分析が実行される。プロパティ分析は、フォーマット及び構造を調べるために、データプロパティの分析も含んで良い。

エンティティタイプ認識エンジン１１１により実行される例示的な手順は、以下に説明される。

ステップＳ５０３で、エンティティタイプ認識エンジン１１１は、概念階層の中のエンティティタイプを表す第２レベルノードから、エンティティタイプの第１候補セットを識別する。識別は、第２レベルノードと入力データセットを特徴付けるプロパティセットの中のプロパティを表す第１レベルノードとの間のリンク（つまりエッジ）に基づく。

エンティティタイプ認識エンジン１１１は、入力データセットの特徴付けとして標準化プロパティセットを受信し、第１候補セットとしてエンティティタイプのセットを提供する。エンティティタイプ認識エンジン１１１は、個々のエンティティタイプを表す第２レベルノードと標準化プロパティセットを表す第１レベルノードとの間の概念階層の中の関係強度に基づき、第１候補セットのメンバをスコア付けする。処理は、以下の通りである。

・各標準化プロパティについて、エンジン１１１は、概念階層の中でこのプロパティにリンクされた全てのエンティティタイプについてオントロジモデルにクエリし、エンティティタイプのリストを得る。例えば、Ｓ５０３の処理は、知識ベースの中の受信したデータプロパティをクエリし、得られた結果、つまりエンティティタイプへのリンクを取り出すことを含む。結果は、検索された標準化データプロパティ、データプロパティに関連するエンティティタイプ又は概念、及び概念階層に格納された関係のタイプで構成される。

・第１候補セットの中の識別されたエンティティタイプは、上述のリンクに基づき個別にスコア付けされる。Ｓ５０４で、各プロパティについて知識ベースから読み出された結果は、メトリック、第１オントロジ指数に変換される。エンティティタイプに関連する各プロパティは、確率Ｐ_ｉ及び重みＷ_ｉを有する。確率Ｐ_ｉは、第１オントロジ指数の例であり、次のように計算されて良い。

ここで、

は、プロパティｐｒｏｐと異なるエンティティタイプｅ_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ_ｊ）との間の各関係（つまり、モデルオントロジの中のエッジ）について和１である。

例えば、１つのプロパティが３個の接続を有するが、２個のみがエンティティタイプ（ｅ_ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ_ｊ）との間の確率（Ｐ_ｉ）は０．５（１／２）であり、２個の異なるエンティティタイプだけが接続されるので、ｒ_ｊは３ではなく２である。
・重みＷ_ｉは、第１オントロジ重みの例であり、知識ベース１３０の中で計算されて良く、要素関連性、中心性、及び他のパラメータに基づく、概念階層の中のプロパティレベルノードとエンティティタイプレベルノードとの間のエッジの属性である。この重みは、動的であり、新たに取得された知識及びユーザ選好に従い変更されて良い。
・Ｓ５０５で、全ての受信したデータプロパティがクエリされたことを保証するためにチェックが実行される。
・最後にＳ５０６で、エンジン１１１は、信頼度を有するエンティティタイプの候補セットの各メンバ、第１オントロジ指数のプロパティセットに渡る和、又はそれらの加重和を提供する。例えば、概念階層の中でエンティティタイプと標準化プロパティセットとの間の関係の強さを表す信頼度は、次式により計算される。

Ｗ_ｅは、特定エンティティタイプｅの信頼度である。モデルオントロジの中のエンティティタイプノードについては、特定ノードの関連性重みを参照する。
Ｗ_ｉは、第１オントロジ重みである。プロパティｉとエンティティタイプｅとの間の関係の信頼度の重みである。
Ｐ_ｉは、第１オントロジ指数である。プロパティｉとエンティティタイプｅとの間の関係の信頼度の予測である。
Ｐ_ｃは、エンティティタイプの信頼度である（プロパティに渡り加算される）。

Ｗ_ｅ及びＷ_ｉがどのように計算されるかの一例として、知識ベース１３０は、Ｗ_ｅのエンティティタイプランク及びＷ_ｉの関係の関連性に基づき各コンポーネントの重みを構成するＷ_ｅ及びＷ_ｉの値を較正する人工知能アルゴリズムを利用して良い。

エンティティタイプ・ユーザ選好エンジン１１２は、標準化データプロパティセットにより特徴付けられた入力データセットへのエンティティタイプの割り当てを表す過去のユーザ入力割り当てに基づき、第１候補セットのメンバをスコア付けする。エンジン１１２は、知識ベース１３０の中の所与のプロパティセットについてユーザの選好（つまり、ユーザの過去のユーザ入力割り当て）をクエリし、知識ベースの中で表される過去のユーザ入力割り当てに基づくスコア付きエンティティタイプのセットを例えば関係指数として提供する。エンジン１１２は、目下のリコンシリエーション・プロセスを制御している特定ユーザに基づき、共同で全てのユーザに基づき、又は特定ユーザ及び共同で全てのユーザの両者に基づき、スコアを生成して良い。

エンティティタイプ・ユーザ選好エンジン１１２の機能の前提条件として、知識ベース１３０は、概念階層の中のエンティティタイプ（第２）レベルノードにより表されるエンティティタイプの入力データセットへの過去のユーザ入力割り当てを表すデータをロードされる（loaded with）。特に、知識摂取モジュール１３２は、過去のユーザ入力割り当て１３４をキャプチャし、エンティティタイプの入力データセットへの、特に入力データセットを特徴付ける標準化データプロパティへの割り当て頻度を表す第１関係指数を生成し及び格納する。言い換えると、知識ベース１３０及び知識摂取モジュール１３２は第２レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、第２レベルノードにより表されるエンティティタイプを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第１関係指数を計算し格納することを含むユーザ入力割り当て記憶プロセスを実行する。

エンティティタイプ・ユーザ選好エンジン１１２により実行される例示的な処理は以下の通りである。
・Ｓ５０７で、各標準化プロパティｐｒｏｐについて、該標準化プロパティの値は入力データセットに含まれ（つまり、概念階層の中の第１レベルノードにより表され且つ入力データセットを特徴付ける標準化プロパティセットに含まれる各プロパティについて）、エンティティタイプ・ユーザ選好エンジン１１２は、知識ベースの中で表される、システムにログインし且つデータセットの入力を制御する特定ユーザの過去のユーザ入力割り当てに関する該プロパティに関連する全てのエンティティタイプに関してクエリする。
・エンティティタイプｅ_ｊに関連する各プロパティｐｒｏｐは、第１ユーザ成分の例である確率Ｐ’_ｉ及び第１ユーザ重みの例である重みＷ_’ｉを有する。Ｓ５０８で、確立Ｐ’_ｉは次のように計算される。

ここで、

は、プロパティｐｒｏｐと異なるエンティティタイプｅ_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ_ｊ）との間の各関係（例えば、各々の記録された過去のユーザ割り当て）について和１である。例えば、１つのプロパティが３個の接続を有するが、２個のみがエンティティタイプ（ｅ_ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ_ｊ）との間の確率（Ｐ’_ｉ）は０．５（１／２）であり、２個の異なるエンティティタイプだけが接続されるので、ｒ’_ｊは３ではなく２である。

関係は、システムにログインし且つデータセットの入力を制御する特定ユーザによる、エンティティタイプｅ_ｊを表す第２レベルノードにより表されるエンティティタイプをｐｒｏｐに対応する第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数（又は頻度若しくは割合）を表す第１関係指数により、具体的には第１関係指数の第１ユーザ成分により、定量化される。重みＷ’_ｉは、過去のユーザ入力割り当てに基づき知識ベース１３０において計算され、プロパティ−エンティティタイプ−ユーザのトリプレット（triplet、三重項）の属性である。例えば、重みＷ’_ｉは、関連性に依存して値を増大し得る。例えば、過去にユーザが同じＰ’_ｉで別のプロパティではなく１つのプロパティを選択する場合、Ｐ’_ｉは、第１関係指数の第１ユーザ成分として参照されて良い。代替で、Ｐ’_ｉ及びＷ’_ｉの積は、第１関係指数の第１ユーザ成分として参照されて良い。

本願明細書を通じて、受信したユーザ入力割り当ての数が言及されるとき、この数は、実際には、ユーザからのユーザ入力割り当ての合計数のような他の指数と結合されて、割合として表されて良いことに留意する。したがって、数は、通常、該数を組み込む指数及び統計を表すために使用され、割合又は頻度のようなより限定的な表現を包含する。
・平行して、エンジンは、標準化プロパティｐｒｏｐの同じセットの値を有する入力データセットの中の過去のユーザ入力割り当てをクエリする。Ｓ５０７にも含まれるが、エンティティタイプ・ユーザ選好エンジン１１２は、知識ベースの中で表される、共同で全てのユーザの過去のユーザ入力割り当てに関するこのプロパティに関連する全てのエンティティタイプに関してクエリする。
・エンティティタイプｅ’_ｊに関連する各プロパティｐｒｏｐは、第１共同成分の例である確率Ｐ’’_ｉ及び第１共同重みの例である重みＷ’’_ｉを有する。Ｓ５０８で、確率Ｐ’’_ｉは次のように計算される。

ここで、

は、プロパティｐｒｏｐと異なるエンティティタイプｅ’_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ’_ｊ）との間の各関係（例えば、各々の記録された過去のユーザ割り当て）について和１である。例えば、１つのプロパティが３個の接続を有するが、２個のみがエンティティタイプ（ｅ’_ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ）とエンティティタイプ（ｅ’_ｊ）との間の確率（Ｐ’’_ｉ）は０．５（１／２）であり、２個の異なるエンティティタイプだけが接続されるので、ｒ’’_ｊは３ではなく２である。

関係は、共同で複数のユーザＩＤに関連して格納されたユーザ入力割り当てから、第２レベルノードにより表されるエンティティタイプを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第１関係指数により、具体的には第１関係指数の第１共同成分により、定量化される。重みＷ’’_ｉは、過去のユーザ入力割り当てに基づき知識ベース１３０において計算され、プロパティ−エンティティタイプ対の属性である。重みは、要素関連性、中心性、及び他のパラメータに基づき計算されて良い。この重みは、動的であり、新たに取得された知識及びユーザ選好に従い変化して良い。

Ｓ５０９で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。

エンティティタイプ。ユーザ選好エンジン１１２は、第１関係指数の第１ユーザ成分及び第１共同成分を計算する。第１関係指数は、第２レベルノードを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す。

Ｓ５１０で、エンティティタイプ・ユーザ選好エンジン１１２は、第１候補セットの中の各エンティティタイプについてスコアを生成するために、第１ユーザ成分及び第１共同成分の各々をエンティティタイプ毎に結合する。上述の結合のための例示的な式は、次に示される。

Ｗ_ｐは、特定エンティティタイプｅの選好度である。これは、エンティティタイプの属性であり（つまり、概念階層の中のエンティティタイプを表すエンティティタイプレベルノードに関連して格納され）、知識ベースへのプロパティの関連性に基づいて良いが、ユーザの選好に関する。この値は、関連性及び中心性メトリックに基づきＡＩアルゴリズムにより知識ベースの中に計算されて良い。
Ｗ_ｉは、第１ユーザ重みである。具体的なユーザに従う、プロパティｐｒｏｐとエンティティタイプｅ_ｉとの間の関係の選好度の重みである。
Ｐ’_ｉは、第１ユーザ成分である。具体的なユーザに従う、プロパティｐｒｏｐとエンティティタイプｅ_ｉとの間の関係の選好度の予測である。
Ｗ’’_ｉは、第１共同重みである。全てのユーザ選好に従う、プロパティｐｒｏｐとエンティティタイプｅ’_ｉとの間の関係の選好度の重みである。
Ｐ’’_ｉは、第１共同成分である。全てのユーザ選好に従う、プロパティｐｒｏｐとエンティティタイプｅ’_ｉとの間の関係の選好度の予測である。

記号「Ｐ」は確率を示すが、予測を表すとも考えられる。予測は、メトリックに基づき、機械学習のモデル及び人工知能を使用して、特定エンティティタイプのエンティティを表す入力データセットの確率を計算し予測する。

どのようにＷ_ｐ、Ｗ’_ｉ及びＷ’_ｉｉが計算されるかの一例として、知識ベース１３０は、人工知能アルゴリズムを利用して、Ｗ_ｐのエンティティタイプランクに基づき、並びにそれぞれＷ’_ｉの関連ユーザの過去のユーザ割り当て及びＷ’_ｉｉの共同の過去のユーザ割り当てに基づき、重みを較正する。

Ｓ５１１で、エンティティタイプ予測器１１３は、エンティティタイプ毎に、エンティティタイプ認識モジュール１１０により計算された第１候補セットの中の各エンティティタイプのスコアと、エンティティタイプ・ユーザ選好エンジン１１２により計算された第１候補セットの中の各エンティティタイプのスコアとを結合する。第１候補セットの中の各エンティティタイプの第１候補スコアを計算する際にエンティティタイプ予測器により使用される例示的な式は次に示される。
Entity type predictor＝Ｗ_ｃＰ_ｃ＋Ｗ_ｐＰ_ｐ
どのようにＷ_ｃ及びＷ_ｐが計算されるかの一例として、知識ベース１３０は、人工知能アルゴリズムを利用して、知識ベースの中の各要素の中心度及び他のパラメータに基づき重みを計算し、ユーザ毎にカスタマイズされた応答を取得する。エンティティタイプ予測式において、重みＷ_ｃ及びＷ_ｐは、エンティティタイプ固有重みではなく、信頼度（つまり、オントロジ構造／プロパティ／情報に基づくオントロジ指数）及び選好度（つまり、ユーザ入力割り当てに基づく関係指数）に適用される一般的重みである。

最高スコアのエンティティタイプがシステムにより選択され、入力データセットに割り当てられるか、或いは、ｎ個の最高スコアのエンティティタイプ（ここで、ｎは１より大きい正整数である）がユーザインタフェースを介してユーザに提示され、提示された中から１つのエンティティタイプを選択するユーザ入力割り当てが（再びユーザインタフェースを介して）受信される。

図２のドメイン認識モジュール１２０、及びその知識ベース１３０及び関連するコンポーネントとの相互作用は、図６に更に詳細に示される。

ドメイン認識モジュール１２０は、標準化データ・プロパティ・ラベルのセット（ラベルは、データセットの中の列又は値セットに適用される名称又は記述子を示す）及び入力データセットに割り当てられた選択されたエンティティタイプとしての入力データセットの特徴付けを、ドメイン選択に変換する。ドメインは、概念階層の中のエンティティタイプに適用されるグループ化又はカテゴリ化である。

標準化データ・プロパティラベル・セット及び入力データセットに割り当てられる選択されたエンティティタイプとしての入力データセットの特徴付けを、リコンサイルされたデータ記憶の中の入力データセットが割り当てられるべきドメインの選択に変換する際の、図６に示すコンポーネントの相互作用が以下に説明される。

図７は、ドメイン認識モジュール１２０により実行されるドメイン選択への処理ステップを表すフローチャートを示す。

本例では、ドメイン認識モジュール１２０の機能は、第３レベルノードにより概念階層の中で表されたものの中から、ドメインのスコア付きリストを提供することである。これは、標準化プロパティセットとしての入力データセットの特徴付け及び入力データセットのために選択されたエンティティタイプに基づき、スコア付きドメインに入力データセットの中で表されたエンティティの提示精度をスコア付けする。ドメイン認識モジュール１２０のコンポーネントは、概念階層及び過去のユーザ入力割り当てから見識（insights）を抽出し、ドメインをスコア付けするために知識ベース相互作用から得た情報を処理し、最後に、リコンサイルされたデータ記憶の中の入力データセットに割り当てるようドメインを選択するためにユーザインタフェースを利用して最高スコアドメイン（つまり、概念階層の中で定められるような、それらのドメインの名称又はラベル）をユーザに提示するために、知識ベースと相互作用する。

ステップＳ７０１で、ドメイン認識モジュール１２０は、標準化データ・プロパティ・セットとしての入力データセットの特徴付け、つまり値が入力データセットの中で提供されるプロパティを表す複数のラベル又はタイトルの識別、及び選択されたエンティティタイプ、つまりエンティティタイプのラベル又はタイトルを受信する。標準化は、ラベル又はタイトルが概念階層の中のプロパティレベルノードと整合している（つまりその中に含まれる）ことの指示である。エンティティタイプラベル又はタイトルは、概念階層の中のエンティティタイプレベル（第２レベル）ノードのラベル又はタイトルである。Ｓ７０１で、入力は、プロパティ及びエンティティタイプに分けられる。

ステップＳ７０２で、ドメイン認識エンジン１２１は、概念階層の中のドメインを表す第３レベルノードから、ドメインの第２候補セットを識別する。識別は、第３レベルノードと入力データセットを特徴付けるプロパティセットの中のプロパティを表す第１レベルノードとの間のリンク（つまりエッジ）の経路に基づく。

ドメイン認識エンジン１２１は、個々のドメインを表す第３レベルノードと標準化プロパティセットを表す第１レベルノードとの間の概念階層の中の関係強度に基づき、第２候補セットのメンバをスコア付けする。これを行う例示的な処理は以下の通りである。

各標準化プロパティについて、エンジン１２１は、概念階層の中でこのプロパティへのエッジ経路によりリンクされた全てのドメインについてオントロジモデルにクエリし、ドメインのリストを得る。例えば、Ｓ７０２の処理は、知識ベースの中の受信したデータプロパティをクエリし、得られた結果、つまりドメインにリンクするエッジ経路を取り出すことを含む。結果は、検索された標準化データプロパティ、データプロパティにリンクされたドメイン、及び概念階層に格納された関係のタイプで構成される。

第２候補セットの中で識別されたドメインは、入力データセットを特徴付ける標準化プロパティセットへの取り出された概念階層リンクに基づき個別にスコア付けされる。Ｓ７０３で、各プロパティについて知識ベースから読み出された結果は、メトリック、第３オントロジ指数に変換される。各プロパティｐｒｏｐ’_ｋに関連する各ドメインは、確率Ｐ’_ｉ及び重みＷ’_ｉを有する。確率Ｐ’_ｉは、第３オントロジ指数の例であり、次のように計算されて良い。

ここで、

は、プロパティｐｒｏｐ’_ｋと異なるドメインｄ’_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ’_ｋ）とエンティティタイプ（ｄ’_ｊ）との間の各関係（例えば、モデルオントロジの中のエッジ）について和１である。例えば、１つのプロパティが３個の接続を有するが、２個のみがドメイン（ｄ’_ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ’_ｋ）とドメイン（ｄ’_ｊ）との間の確率（Ｐ’_ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ’_ｊは３ではなく２である。

重みＷ’_ｉは、ドメイン−プロパティ対の属性であり、第３オントロジ重みの例であり、ｐｒｏｐ’_ｋと個々のドメインｄ’_ｊとの間の確立された各関係の関連性を表す。Ｗ’_ｉは、動的であり、知識ベースによる知識の取得に基づき変化して良い。

Ｓ７０４で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。

選択されたエンティティタイプについて、エンジン１２１は、概念階層の中でこのドメインへのエッジによりリンクされた全てのドメインについてオントロジモデルにクエリし、ドメインのリストを得る。第２候補セットに既に含まれない任意のドメインは、該第２候補セットに追加される。例えば、Ｓ７０５の処理は、知識ベースの中の選択されたエンティティタイプをクエリし、得られた結果、つまりドメインにリンクするエッジ経路を取り出すことを含む。結果は、検索されたエンティティタイプ、データプロパティにリンクされたドメイン、及び概念階層に格納された関係のタイプで構成される。

Ｓ７０６で、第２候補セットの中でＳ７０５からの識別されたドメインは、選択されたエンティティタイプへの読み出された概念階層リンクに基づき、個別にスコア付けされる。概念階層から読み出された結果は、メトリック、第２オントロジ指数に変換される。ドメインに関連するエンティティタイプは、確率Ｐ_ｉ及び重みＷ_ｉを有する。確率Ｐ_ｉは、第２オントロジ指数の例であり、次のように計算されて良い。

ここで、

は、ｅｎｔと異なるドメインｄ_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、エンティティタイプ（ｅｎｔ）とドメイン（ｄ_ｊ）との間の各関係（例えば、モデルオントロジの中のエッジ）について和１である。例えば、１つのエンティティタイプが３個の接続を有するが、２個のみがドメイン（ｄ_ｊ）にリンクされる場合、エンティティタイプ（ｅｎｔ）とドメイン（ｄ_ｊ）との間の確率（Ｐ_ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ_ｊは３ではなく２である。

重みＷ_ｉは、第２オントロジ重みの例であり、知識ベース１３０の中で計算されて良く、例えば要素関連性、中心性、及び他のパラメータに基づく、概念階層の中のエンティティタイプレベルノードとドメインレベルノードとの間のエッジの属性である。この重みは、動的であり、新たに取得された知識に従い変更されて良い。各々の特定のノード対について、新しい知識が取得されると、重みＷ_ｉが変更され又は変更されて良い。例えば、これらの変更は、この具体的な例においてはエンティティタイプノードである、各ノードの関連性を計算する人工知能アルゴリズムにより行われる。

最後にＳ７０７で、エンジン１２１は、信頼度を有するエンティティタイプの候補セットの各メンバ、第２オントロジ指数のプロパティセットに渡る和、及び第３オントロジ指数、又はそれらの加重和を提供する。信頼度を計算するための例示的な式は、次に示される。

Ｗ_ｄは、ドメインの信頼度の信頼度である。ｄＷ_ｉは、第２オントロジ重みであり、エンティティタイプｅｎｔとドメインｄ_ｉとの間の関係の信頼度の重みである。
Ｐ_ｉは、第２オントロジ指数であり、エンティティタイプｅｎｔとドメインｄ_ｉとの間の関係の信頼度の予測である。Ｗ’_ｉは、第３オントロジ重みであり、プロパティｐｒｏｐ’_ｉとドメインｄ_ｉとの間の関係の信頼度の重みである。
Ｐ’_ｉは、第３オントロジ指数であり、プロパティｐｒｏｐ’_ｉとドメインｄ_ｉとの間の関係の信頼度の予測である。

Ｗ_ｄ、Ｗ_ｉ及びＷ’_ｉがどのように計算されるかの一例として、知識ベース１３０は、Ｗ_ｄのエンティティタイプランク及びそれぞれＷ_ｉ及びＷ’_ｉの関係の関連性に基づき各コンポーネントの重みを構成するＷ_ｄ、Ｗ_ｉ及びＷ’_ｉの値を較正する人工知能アルゴリズムを利用して良い。

ドメインユーザ選好エンジン１２２は、標準化データプロパティセットにより特徴付けられた入力データセットへのドメインの割り当てを表す過去のユーザ入力割り当て及び入力データセットの中で表されるエンティティに割り当てられた選択されたエンティティタイプに基づき、第２候補セットのメンバをスコア付けする。エンジン１２２は、知識ベース１３０の中の所与のプロパティセット及び個々の割り当てられたエンティティタイプについてユーザの選好（つまり、ユーザの過去のユーザ入力割り当て）をクエリし、知識ベースの中で表される過去のユーザ入力割り当てに基づくスコア付きドメインのセットを提供する。エンジン１２２は、目下のリコンシリエーション・プロセスを制御している特定ユーザに基づき、共同で全てのユーザに基づき、又は特定ユーザ及び共同で全てのユーザの両者に基づき、スコアを生成する。

エンティティタイプ・ユーザ選好エンジン１２２の機能の前提条件として、知識ベース１３０は、概念階層の中のドメイン（第３）レベルノードにより表されるドメインの入力データセットへの過去のユーザ入力割り当てを表すデータをロードされる（loaded with）。特に、知識摂取モジュール１３２は、過去のユーザ入力割り当て１３４をキャプチャし、入力データセットを特徴付ける標準化データプロパティ入力データセットへのドメインの割り当て頻度を表す第３関係指数、及び入力データセットの中のエンティティに割り当てられたエンティティタイプに基づき入力データセットへのドメインの割り当て頻度を表す標第２関係指数を生成し格納する。言い換えると、知識ベース１３０及び知識摂取モジュール１３２は、ユーザ入力割り当て記憶プロセスを実行する。ユーザ入力割り当て記憶プロセスは、第３レベルノードのうちの１つと第２レベルノードのうちの１つとを有する複数のノード対について、個々の第３レベルノードにより表されるドメインを第２レベルノードにより表されるエンティティタイプに割り当てられたエンティティに割り当てる受信した第３レベルユーザ入力割り当ての数を表す第２関係指数を計算し格納し、第３レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、個々の第３レベルノードにより表されるドメインを第１レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信した第３レベルユーザ入力割り当ての数を表す第３関係指数を計算し格納する。

ドメインユーザ選好エンジン１２２により実行される例示的な処理は以下の通りである。

Ｓ７０８で、入力データセットのために選択されたエンティティタイプにリンクされた第２候補セットの中の各ドメインは、第１検索の中で、システムにログインし且つ現在データセットの入力を制御する特定ユーザによる入力である過去のユーザ入力割り当ての範囲を有する知識ベース１３０の中の過去のユーザ入力割り当てにクエリするために使用される。知識ベースは、エンティティタイプの割り当てられた入力データセットのためのドメインの選択を記録する。これらの記録（レコード、record）は、クエリの中で検索される。レコードは、非選択の記録であっても良い。第１の検索と等価であるが共同で全てのシステムユーザについての第２の検索が実行される。つまり、特定ユーザの過去のユーザ入力割り当てに限定されない。

検索結果は、第２ユーザ成分及び第２共同成分を計算するために使用される。第２関係指数は、第２ユーザ成分及び第２共同成分の和又は加重和である。

ステップＳ７０９でエンティティタイプｅｎｔ’’に関連する各ドメインは、第２ユーザ成分の例である確率Ｐ’’_ｉと、第１検索の結果を用いて計算された第２ユーザ重みの例である重みＷ’’_ｉとを有する。例えば、確率Ｐ’’_ｉは次のように設定されて良い。

ここで、

は、関連ユーザのｅｎｔ’’と異なるドメインｄ’’_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、エンティティタイプ（ｅｎｔ’’）とドメイン（ｄ’’_ｊ）との間の各関係（例えば、記録された過去のユーザ割り当て）について和１である。例えば、１つのエンティティタイプが３個の接続を有するが、２個のみがドメイン（ｄ’’_ｊ）にリンクされる場合、エンティティタイプ（ｅｎｔ’’）とドメイン（ｄ’’_ｊ）との間の確率（Ｐ’’_ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ’’_ｊは３ではなく２である。

Ｓ７０９でも、平行して、エンジンは、全てのユーザ選好を考慮して、各ドメインｄ’’’_ｊ及びエンティティタイプｅｎｔ’’’について、第２共同成分の例である確率Ｐ’’’_ｉと、第２共同重みの例である重みＷ’’’ｉと、を計算する。例えば、Ｐ’’’_ｉは次式のように表されて良い。

ここで、

は、共同で全てのユーザの選好に従い、ｅｎｔ’’と異なるドメインｄ’’’_ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、エンティティタイプ（ｅｎｔ’’）とドメイン（ｄ’’’_ｊ）との間の各関係（例えば、記録された過去のユーザ割り当て）について和１である。例えば、１つのエンティティタイプが３個の接続を有するが、２個のみがドメイン（ｄ’’’_ｊ）にリンクされる場合、エンティティタイプ（ｅｎｔ’’）とドメイン（ｄ’’’_ｊ）との間の確率（Ｐ’’_ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ’’’_ｊは３ではなく２である。

Ｓ７１０で、各標準化プロパティｐｒｏｐについて、該標準化プロパティの値は入力データセットに含まれ（つまり、概念階層の中の第１レベルノードにより表され且つ入力データセットを特徴付ける標準化プロパティセットに含まれる各プロパティについて）、第１検索が実行され、その中で、ドメインユーザ選好エンジン１２２は、知識ベースの中で表される、システムにログインし且つデータセットの入力を制御する特定ユーザの過去のユーザ入力割り当てのレコード内のプロパティに関連する全てのドメインに関してクエリする。関係は、プロパティの値を含む入力データセットについてのドメインの選択の記録（record、レコード）である。関係は、非選択の記録であっても良い。第１の検索と等価であるが共同で全てのシステムユーザについての第２の検索が実行される。つまり、特定ユーザの過去のユーザ入力割り当てに限定されない。

ステップＳ７１１で、第１検索結果は、第３ユーザ成分を生成するために使用され、第２検索結果は第３共同成分を生成するために使用される。第３関係指数は、第３ユーザ成分及び第３共同成分の和又は加重和である。

各プロパティｐｒｏｐ^ｉｖ _ｋに関連する各ドメインについて、第３ユーザ成分の例である確率Ｐ^ｉｖ _ｉと、第３ユーザ重みの例である重みＷ^ｉｖ _ｉとは、第１検索の結果に基づき計算される。例えば、確率Ｐ^ｉｖ _ｉは次のように計算されて良い。

ここで、

は、関連ユーザについてのｐｒｏｐ^ｉｖ _ｋと異なるドメインｄ^ｉｖ _ｊとの間の全ての関係の和である。例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ^ｉｖ _ｋ）とドメイン（ｄ^ｉｖ _ｊ）との間の各関係（例えば、過去のユーザ割り当て）について和１である。例えば、１つのプロパティが３個の過去の割り当てを有するが、２個のみがドメイン（ｄ^ｉｖ _ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ^ｉｖ _ｋ）とドメイン（ｄ^ｉｖ _ｊ）との間の確率（Ｐ^ｉｖ _ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ^ｉｖ _ｊは３ではなく２である。

平行して、エンジン１２１は、共同で全てのユーザ選好を考慮して、プロパティｐｒｏｐ^ｖ _ｋに関連する各ドメインｄ^ｖ _ｊについて、第３共同成分の例である確率Ｐ^ｖ _ｉと、第３共同重みの例である重みＷ^ｖ _ｉと、を計算する。例えば、Ｐ^ｖ _ｉは次式のように計算されて良い。

ここで、

は、共同で全てのユーザのユーザ選好に従い、ｐｒｏｐ^ｖ _ｋと異なるドメインｄ^ｖ _ｊとの間の全ての関係の和である。

例えば、関係は、各関係について１として定量化される。つまり、プロパティ（ｐｒｏｐ^ｖ _ｋ）とドメイン（ｄ^ｖ _ｊ）との間の各関係について和１である。例えば、１つのプロパティが３個の過去の割り当てを有するが、２個のみがドメイン（ｄ^ｖ _ｊ）にリンクされる場合、プロパティ（ｐｒｏｐ^ｖ _ｋ）とドメイン（ｄ^ｖ _ｊ）との間の確率（Ｐ^ｖ _ｉ）は０．５（１／２）であり、２個の異なるドメインだけが接続されるので、ｒ^ｖ _ｊは３ではなく２である。

Ｓ７１２で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。

Ｓ７１３で、ドメイン予測器１２３は、過去のユーザ入力割り当てに基づき、入力データセットを特徴付けるプロパティのセットに対する及び入力データセットについて選択されたエンティティタイプに対する各ドメインの関係強度を表す選好度を生成するために、ステップ７０９及びＳ７１１で計算された第２候補セットの中の各ドメインについてスコアを結合する。結合のための例示的な式は、次に示される。

Ｗ’_ｄは、ドメインｄの選好度の重みである。
Ｗ’’_ｉは、第２ユーザ重みである。特定ユーザについての、エンティティｅｎｔとドメインｄとの間の関係の選好の重みである。
Ｐ’’_ｉは、第２ユーザ成分である。特定ユーザについての、エンティティタイプｅｎｔとドメインｄとの間の関係の選好度の予測である。Ｗ’’’_ｉは、第２共同重みである。全てのユーザについての、エンティティタイプｅｎｔとドメインｄとの間の関係の選好度の重みである。
Ｐ’’’_ｉは、第２共同成分である。全てのユーザについての、エンティティタイプｅｎｔとドメインｄとの間の関係の選好度の予測である。
Ｗ^ｉｖ _ｉは、第３ユーザ重みである。特定ユーザについての、プロパティｐｒｏｐ_ｋとドメインｄとの間の関係の選好度の重みである。
Ｐ^ｉｖ _ｉは、第３ユーザ成分である。特定ユーザについての、プロパティｐｒｏｐ_ｋとドメインｄとの間の関係の選好の予測である。
Ｗ^ｖ _ｉは、第３共同重みである。全てのユーザについての、プロパティｐｒｏｐ_ｋとドメインｄとの間の関係の選好度の重みである。
Ｐ^ｖ _ｉは、第３共同成分である。全てのユーザについての、プロパティｐｒｏｐ_ｋとドメインｄとの間の関係の選好の予測である。

どのようにＷ’_ｄ、Ｗ’’_ｉ、Ｗ’’’_ｉ、Ｗ^ｉｖ _ｉ、及びＷ^ｖ _ｉが計算されるかの一例として、重みは、Ｗ’_ｄのドメインランク及びＷ’’_ｉ、Ｗ’’’_ｉ、Ｗ^ｉｖ _ｉ、及びＷ^ｖ _ｉの関係の関連性に基づき各成分の重みを構成する人工知能アルゴリズムに適合されて良い。

Ｓ７１４で、ドメイン予測器１２３は、第２候補セットの中の各ドメインについて第２候補スコアを生成するために、ステップＳ７０７及びＳ７１３で計算された各ドメインのスコアを結合する。各ドメインについて第２候補スコアを計算する際にドメイン予測器１２３により使用される例示的な式は以下に示される。
Domain predictor＝Ｗ_ｃＰ_ｃ＋Ｗ_ｐＰ_ｐ
Ｗ_ｃはドメイン発見エンジンにおける信頼度成分の重みである。
Ｐ_ｃはドメイン発見エンジンにおける信頼度の予測である。
Ｗ_ｐはドメイン発見エンジンにおけるユーザ選好度成分の重みである。
Ｐ_ｐはドメイン発見エンジンにおけるユーザ選好度の予測である。

どのようにＷ_ｃ及びＷ_ｐが計算されるかの一例として、知識ベース１３０は、人工知能アルゴリズムを利用して、知識ベースの中の各要素の中心度及び他のパラメータに基づき重みを計算し、ユーザ毎にカスタマイズされた応答を取得する。ドメイン予測式において、重みＷ_ｃ及びＷ_ｐは、ドメイン固有重みではなく、信頼度（つまり、オントロジ構造／プロパティ／情報に基づくオントロジ指数）及び選好度（つまり、ユーザ入力割り当てに基づく関係指数）に適用される一般的重みである。

最高スコアのドメインがシステムにより選択され、入力データセットに割り当てられるか、或いは、ｎ個の最高スコアのドメイン（ここで、ｎは１より大きい正整数である）がユーザインタフェースを介してユーザに提示され、提示された中から１つのドメインを選択するユーザ入力割り当てが（再びユーザインタフェースを介して）受信される。

図２の知識摂取モジュール１３２、及びその知識ベース１３０及び入力データとの相互作用は、図８に更に詳細に示される。知識摂取モジュール１３２及び知識ベース１３０は、協働してユーザ入力割り当て記憶プロセスを実行する。該ユーザ入力割り当て記憶プロセスは、第２レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、第２レベルノードにより表されるエンティティタイプを第１レベルノードにより表されるプロパティの値により表されるエンティティ（又はエンティティのデータセット）に割り当てる受信したユーザ入力割り当ての数を表す第１関係指数を計算し格納することを含んで良い。ユーザ入力割り当て記憶プロセスは、また、第３レベルノードのうちの１つと第１レベルノードのうちの１つとを有する複数のノード対について、第３レベルノードにより表されるドメインを第１レベルノードにより表されるプロパティの値により表されるエンティティ（又はエンティティのデータセット）に割り当てる受信したユーザ入力割り当ての数を表す第３関係指数を含んで良い。ユーザ入力割り当て記憶プロセスは、また、第３レベルノードのうちの１つと第２レベルノードのうちの１つとを有する複数のノード対について、第３レベルノードにより表されるドメインを第２レベルノードにより表されるエンティティタイプを割り当てられたエンティティ（又はエンティティのデータセット）に割り当てる受信したユーザ入力割り当ての数を表す第２関係指数を含んで良い。

図８の特定の例では、知識摂取モジュール１３２は、ユーザ知識としてユーザから、及びオントロジとして外部データソースから、知識ベース１３０に知識を取り込むことを担う。この知識は、オントロジを通じて又はユーザの専門知識を通じて、提供され得る。両者の場合に、知識摂取モジュール１３２は、ＯＷＬのようなオントロジ又は入力データセットのためにエンティティタイプ又はドメインを選択するユーザ入力割り当てにより提供された情報をパース及びロード可能なメカニズムを提供する。

図２の知識ベース１３０、及び他のコンポーネントとのその相互作用は、図９に更に詳細に示される。知識ベース１３０は、記憶装置又は複数の相互接続された記憶装置及びプロセッサを含む関連する管理装置である。知識ベース１３０は、エンティティタイプ認識モジュール１１０及びドメイン発見モジュール１２０にアクセス可能である。

図９の例示的な知識ベース１３０は、システムにより必要とされる知識を格納し及び供給することを担う。データ、及び該データにより表され知識ベースモジュール１３０に格納された知識は、エンティティタイプ認識モジュール１１０及びドメイン認識モジュール１２０による候補のスコア付け及び選択のために必要である。知識ベースモジュール１３０は、知識ベースレポジトリを有する。追加で、知識ベースモジュール１３０は、第１、第２、及び第３ユーザ重み並びに第１、第２、及び第３成分重みを含む候補をスコア付けする重みのスコア付けを計算するために、ＡＩに基づくモデルを更に格納して良い。

知識ベース１３０は、標準化データプロパティ、エンティティタイプ、及びドメインの各々について、タイトル、ラベル、又は記述子を有するノードを含む概念階層を格納する。概念階層は、図１０に示されるようなノード（親、近隣、関係、等）同士の関係も格納する。さらに、知識ベース１３０は、関連性並びに各要素及び関係のユーザ入力割り当て頻度統計を表す概念階層に注釈を追加して、スコア付け及びランク付けを計算するためにＡＩに基づくモデルをサポートする統計成分を提供して良い。

特定システムユーザ及び共同のシステムユーザの選好は、知識ベース１３０に格納される。特定記憶モードとして、概念階層は、特定プロパティの値を有する入力データセットへのエンティティタイプ及びドメインの過去のユーザ入力割り当てを表す関係と共に格納されて良い。この関係は、個々のエンティティタイプを表すエンティティタイプレベルノード（第２レベルノード）、個々のドメインを表すドメインレベルノード（第３レベルノード）、及び個々のプロパティを表すプロパティレベルノード（第１レベルノード）の間のものである。

例えば、図１１は、オントロジを通じて取得された知識、及び共同でユーザにより導入された知識を格納するグラフデータ、並びにスコア付け及び重みのような統計メトリックにより共同ユーザ選好を格納するユーザ選好の表現を示す。ドメインレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、ドメインレベルノードにより表されるドメインの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの全てのシステムユーザによる過去の割り当てを表す。エンティティタイプレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、エンティティタイプレベルノードにより表されるエンティティタイプの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの全てのシステムユーザによる過去の割り当てを表す。

図１２は、オントロジ及び特定システムユーザの選好（つまり、過去のユーザ入力割り当て）を通じて取得された知識を格納するグラフデータの表現を示す。ドメインレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、ドメインレベルノードにより表されるドメインの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの特定ユーザによる過去の割り当てを表す。エンティティタイプレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、エンティティタイプレベルノードにより表されるエンティティタイプの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの特定システムユーザによる過去の割り当てを表す。

過去のユーザ入力割り当ては、表形式で格納されて良く、又は概念階層の中のグラフデータ内の若しくはユーザ選好を表すグラフデータ内のノード間のエッジに属するスコア及びメトリックにより表されて良い。スコア及びメトリックは、例えばＷ_ｄ又はＷ’_ｄ又はＷ_ｅを計算するために、ノードに属しても良い。知識ベースモジュール１３０は、グラフデータ内の及び概念階層内のノードの対をリンクするエッジについて、特定スコアを計算する統計メトリックを計算するプロセッサを有して良い。メトリックは、新しい知識の取得又はユーザ選好の格納により動的に変化する固有重みを取得するＡＩに基づき決定されて良い。

図２に示したコンポーネントに加えて、実施形態は、入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、複数の入力データセットの各々について、複数の物理記憶装置の中の物理記憶装置に入力データセットを割り当てるインデックス又はキーとして、選択された第２レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、を更に有して良い。

特定の例では、各第３レベルノードは、リコンサイルされたデータセット記憶機器の複数の物理記憶装置の中の個別物理記憶領域に対応し、入力データセットの各々は、個々の入力データセットのために選択された第３レベルノードに対応する個別物理記憶領域に割り当てられ、各個別物理記憶領域は、１又は複数の物理記憶装置を有し、該１又は複数の物理記憶装置の内部で、個々の入力データセットのために選択された第２レベルノードは、入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される。

図１３は、本発明を実現し図５及び７の一実施形態の方法を実施するために使用できるサーバ、例えばデータ記憶サーバのようなコンピューティング装置のブロック図である。コンピューティング装置は、プロセッサ９９３、及びメモリ９９４を有する。任意で、コンピューティング装置は、他のコンピューティング装置、例えば本発明の実施形態の他のコンピューティング装置と通信するためのネットワークインタフェース９９７も有する。

例えば、一実施形態は、このようなコンピューティング装置のネットワークで構成されて良い。任意で、コンピューティング装置は、キーボード及びマウスのような１又は複数の入力メカニズム９９６、及び１又は複数のモニタのようなディスプレイユニット９９５も有する。コンポーネントは、バス９９２を介して互いに接続可能である。

メモリ９９４は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース及び／又は関連するキャッシュ及びサーバ）を表し得るコンピュータ可読媒体を有して良い。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置（例えば、１又は複数のプロセッサ）によりアクセス可能であり及び１又は複数の機能又は工程を実行させる命令及びデータを有して良い。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の１又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read−Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read−Only Memory）、ＣＤ−ＲＯＭ（Compact Disc Read−Only Memory）又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置（例えば、固体メモリ装置）を有し得る。

プロセッサ９９３は、コンピューティング装置を制御し、処理工程を実行し、例えば本願明細書及び請求の範囲に記載されるモジュール、コンポーネント、及びプロセスの様々な異なる機能を実施するためにメモリに格納されたコードを実行するよう構成される。メモリ９９４は、プロセッサ９９３によりリード及びライトされるデータを格納する。本願明細書で参照されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような１又は複数の汎用処理装置を含み得る。プロセッサは、ＣＩＳＣ（complex instruction set computing）マイクロプロセッサ、ＲＩＳＣ（reduced instruction set computing）マイクロプロセッサ、ＶＬＩＷ（very long instruction word）マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ＡＳＩＣ（application specific integrated circuit）、ＦＰＧＡ（field programmable gate array）、ＤＳＰ（digital signal processor）、ネットワークプロセッサ、等のような１又は複数の特定目的処理装置も含み得る。１又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。

ディスプレイユニット９９７は、コンピューティング装置により格納されたデータの提示を表示して良く、ユーザとプログラムとコンピューティング装置に格納されたデータとの間の相互作用を可能にするカーソル及びダイアログボックス及びスクリーンも表示して良い。入力メカニズム９９６は、ユーザがデータ及び命令をコンピューティング装置に入力することを可能にし得る。

ネットワークインタフェース（ネットワークＩ／Ｆ）９９７は、インターネットのようなネットワークに接続され、ネットワークを介して他のコンピューティング装置に接続可能であって良い。ネットワークＩ／Ｆ９９７は、ネットワークを介して他の装置からのデータ入力／へのデータ出力を制御して良い。マイクロフォン、スピーカ、プリンタ、電源ユニット、ファン、筐体、スキャナ、トラックボール等のような他の周辺装置は、コンピューティング装置に含まれても良い。

図１、２、４及び９のエンティティタイプ認識モジュール１１０は、メモリ９９４に格納された処理命令（プログラム）を実行し及びネットワークＩ／Ｆ９９７を介してデータを交換するプロセッサ９９３（又はそれらの複数）であって良い。特に、プロセッサ９９３は、データプロパティ認識モジュール又は幾つかの他の入力メカニズムから入力データセットを特徴付けるデータプロパティのセットを受信し、概念階層及び格納された過去のユーザ入力割り当てに基づきデータプロパティのセットを処理して、ステップＳ５０１〜Ｓ５１１におけるように入力データセットについてエンティティタイプの選択又はユーザインタフェース１４０を介してユーザに提示するための複数の該エンティティタイプを生成する処理命令を実行する。さらに、プロセッサ９９３は、接続された記憶ユニットに入力データセットと共に選択されたエンティティタイプを格納する、及び／又は入力データセットのためにドメインを選択する際に使用するために、ネットワークＩ／Ｆ９９７を介してエンティティタイプ選択をドメイン認識モジュール１２０に送信する処理命令を実行して良い。

図１、２、６及び９のドメイン認識モジュール１２０は、メモリ９９４に格納された処理命令（プログラム）を実行し及びネットワークＩ／Ｆ９９７を介してデータを交換するプロセッサ９９３（又はそれらの複数）であって良い。特に、プロセッサ９９３は、データプロパティ認識モジュール又はエンティティタイプ認識モジュール１１０又は何らかの他の入力メカニズムから入力データセットを特徴付けるデータプロパティのセットを、及びエンティティタイプ認識モジュール１１０から入力データセットのためのエンティティタイプの選択を受信し、概念階層及び格納された過去のユーザ入力割り当てに基づきデータプロパティのセット及びエンティティタイプの選択を処理して、ステップＳ７０１〜Ｓ７１４におけるように、入力データセットのドメインの選択又はユーザインタフェース１４０を介してユーザに提示するための複数の該ドメインを生成する処理命令を実行する。さらに、プロセッサ９９３は、接続された記憶ユニットに入力データセットと共に選択されたドメインを格納する、及び／又は過去のユーザ入力割り当てとして記憶するために知識ベース摂取モジュール１３２を介して知識ベースモジュール１３０へ、エンティティタイプ選択、ドメイン選択、及びデータプロパティのセットを、ネットワークＩ／Ｆ９９７を介して送信する処理命令を実行して良い。

図１、２、４、６及び８のユーザインタフェース１４０は、メモリ９９４に格納された処理命令（プログラム）を実行し及びネットワークＩ／Ｆ９９７及び入力メカニズムを介してシステムユーザとデータを交換するプロセッサ９９３（又はそれらの複数）であって良い。特に、プロセッサ９９３は、複数のエンティティタイプ選択又はドメイン選択を個々の認識モジュールから受信し、該選択をユーザに提示し、及び入力データセットに割り当てるべき１つのエンティティタイプ又は１つのドメインを指定するユーザ入力割り当てを受信する処理命令を実行する。さらに、プロセッサ９９３は、ユーザ入力割り当てを知識ベース１３０に格納する及び／又はネットワークＩ／Ｆ９９７を介してドメイン認識モジュール１２０へ更なる処理のためにエンティティタイプのユーザ入力割り当てを送信する処理命令を実行して良い。

図１、２、４、６、８及び９の知識ベース１３０及び知識ベース摂取モジュール１３２は、メモリ９９４に格納された処理命令（プログラム）を実行するプロセッサ９９３（又はそれらの複数）であって良い。特に、プロセッサ９９３は、ネットワークＩ／Ｆを介してユーザインタフェース１４０からユーザ入力割り当てを受信し、ステップＳ５０３、Ｓ５０７、Ｓ７０２、Ｓ７０８、及びＳ７１０におけるように、エンティティタイプ認識モジュール１１０及びドメイン認識モジュール１２０によるアクセスのために複数の外部データソースからのオントロジ情報を表すモデルオントロジと一緒にユーザ入力割り当てを格納する処理命令を実行する。さらに、プロセッサ９９３は、過去のユーザ入力割り当ての記録及びモデルオントロジを知識ベースモジュール１３０に格納する処理命令を実行して良い。

本発明を実現する方法は、図１３に示されたようなコンピューティング装置で実行されて良い。このようなコンピューティング装置は、図１３に示した全てのコンポーネントを有する必要はなく、これらのコンポーネントのうちの部分集合で構成されて良い。本発明を具現化する方法は、ネットワークを介して１又は複数のデータ記憶サーバと通信する単一のコンピューティング装置により実行されて良い。コンピューティング装置は、リコンサイルされたデータセットを格納するデータ記憶装置自体であって良い。

本発明を実現する方法は、互いに協働して動作する複数のコンピューティング装置により実行されて良い。複数のコンピューティング装置のうちの１又は複数は、リコンサイルされた入力データセットの少なくとも一部を格納するデータ記憶サーバであって良い。

以上の実施形態に加え、更に以下の付記を開示する。
（付記１）モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、前記メモリは命令を格納し、該命令は、前記プロセッサにより実行されると前記プロセッサに、
概念階層を定めるモデルオントロジグラフを格納するステップを有するモデルオントロジ記憶プロセスであって、前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有する、モデルオントロジ記憶プロセスを実行させ、
前記プロセッサは、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から前記第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に実行する、システム。
（付記２）前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザＩＤにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザＩＤと関連して、前記複数のユーザのうちの１又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザＩＤに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザＩＤについて前記複数のノード対の前記第１関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザＩＤについて格納された前記第１関係指数に基づき、前記第２レベルノードを選択することを含む、
付記１に記載のシステム。
（付記３）前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第１関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザについて格納された前記第１関係指数及び前記個々のユーザＩＤについて格納された前記第１関係指数の両方に基づき、前記第２レベルノードを選択することを含む、
付記２に記載のシステム。
（付記４）前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第１レベルノードの各々について、前記モデルオントロジ内の前記個々の第１レベルノードにリンクされた前記の又は各第２レベルノードを第１候補セットに追加し、
前記第１候補セットの中の各第２レベルノードについて、前記モデルオントロジの中の前記第２レベルノードにリンクされた各第１レベルノードについて、
前記モデルオントロジグラフに格納された情報に基づき、前記第１レベルノードと前記第２レベルノードとの間の関係を定量化する第１オントロジ指数と、
前記第１関係指数であって、前記第１関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第１ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第１共同成分と、を有する、前記第１関係指数と、
前記第２レベルノードの第１候補スコアであって、前記第１候補スコアは、個々の第１オントロジ重みにより乗算した各第１オントロジ指数に、個々の第１ユーザ重みにより乗算した各第１ユーザ成分を加算し、個々の第１共同重みにより乗算した各第１共同成分を加算したものである、第１候補スコアと、
前記選択された第２レベルノードであって、第１候補スコアによりランク付けされたとき、前記第１候補セットのうち最大第１候補スコアを有する前記第２レベルノード、又は前記第１候補セットのうち上位ｎ個の第２レベルノードの前記ユーザインタフェース上の提示のうち前記ユーザインタフェースを介して割り当てられた前記第２レベルノードである、前記選択された第２レベルノードと、
を計算する、
ことにより前記第２レベルノードを選択することを含む、付記３に記載のシステム。
（付記５）第１レベルノードから第２レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第１レベルノードは前記モデルオントロジグラフの中で前記第２レベルノードにリンクされる、付記１に記載のシステム。
（付記６）前記概念階層は、
前記概念階層の第３レベルにある第３レベルノードであって、各第３レベルノードは、個々のドメインを表し、前記グラフの中で１又は複数の第２レベルノードに及び１又は複数の第３レベルノードにリンクされる、第３レベルノード、を更に有し、
前記ユーザインタフェース・プロセスは、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値と、前記データセットの中の前記値により表されるエンティティに割り当てられた前記概念階層の第２レベルノードにより表されるエンティティタイプと、をそれぞれ有する複数の入力データセットの各々について、前記ユーザインタフェースを介して、第３レベルユーザ入力割り当てを受信することを含み、前記第３レベルユーザ入力割り当ては、第３レベルノードにより表されるドメインを前記データセットの中の前記値により表される前記エンティティに割り当て、
前記ユーザ入力割り当て記憶プロセスは、
前記第３レベルノードのうちの１つと前記第２レベルノードのうちの１つとを有する複数のノード対について、前記個々の第３レベルノードにより表される前記ドメインを前記第２レベルノードのより表される前記エンティティタイプに割り当てられたエンティティに割り当てる前記受信した第３レベルユーザ入力割り当ての数を表す第２関係指数を計算し格納し、
前記第３レベルノードのうちの１つと前記第１レベルノードのうちの１つとを有する複数のノード対について、前記個々の第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信した第３レベルユーザ入力割り当ての数を表す第３関係指数を計算し格納する、ことを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、
第３レベルノード及び前記選択された第２レベルノードの間の前記概念階層の中のリンクと、前記第３レベルノード及び前記選択された第２レベルノードの間の前記第２関係指数と、前記第３レベルノード及び前記受信した入力データセットの中のプロパティを表す第１レベルノードの間の前記概念階層の中のリンクと、前記第２レベルノード及び前記受信した入力データセットの中のプロパティを表す第１レベルノードの間の前記第３関係指数と、に基づき前記概念階層から第３レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値を有し、前記選択された第３レベルノードにリンクされた前記選択された第２レベルノードを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納し、前記第１レベルノードは前記選択された第２レベルノード及び前記選択された第３レベルノードの両方にリンクされる、ことを更に含む、
付記１に記載のシステム。
（付記７）前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザＩＤにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザＩＤと関連して、前記複数のユーザのうちの１又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザＩＤに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザＩＤについて前記複数のノード対の前記第２及び第３関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザＩＤについて格納された前記第２及び第３関係指数に基づき、前記第３レベルノードを選択することを含む、
付記６に記載のシステム。
（付記８）前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第１関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザ及び前記個々のユーザＩＤの両方について格納された前記第２関係指数に基づき、及び共同で前記複数のユーザ及び前記個々のユーザＩＤの両方について格納された前記第３関係指数に基づき、前記第３レベルノードを選択することを含む、
付記７に記載のシステム。
（付記９）前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第１レベルノードの各々について、前記モデルオントロジの中の前記個々の第１レベルノードにリンクされた前記の又は各第３レベルノードを第２候補セットに追加し、
前記モデルオントロジの中の前記選択された第２レベルノードにリンクされた前記の又は各第３レベルノードを前記第２候補セットに追加し、
前記候補セットの中の各第３レベルノードについて、前記モデルオントロジの中の前記第３レベルノードにリンクされた第１レベルノード毎に、
前記モデルオントロジグラフに格納された情報に基づき、前記第１レベルノードと前記第３レベルノードとの間の関係を定量化する第３オントロジ指数と、
前記モデルオントロジグラフに格納された情報に基づき、前記選択された第２レベルノードと前記第３レベルノードとの間の関係を定量化する第２オントロジ指数と、
前記第３関係指数であって、前記第３関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第３ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第３共同成分と、を有する、前記第３関係指数と、
前記第２関係指数であって、前記第２関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記選択された第２レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第２ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記選択された第２レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第２共同成分と、を有する、前記第２関係指数と、
前記第３レベルノードの第２候補スコアであって、前記第２候補スコアは、第２オントロジ重みにより乗算した前記第２オントロジ指数に、第２オントロジ重みにより乗算した前記第２オントロジ指数を加算し、第３オントロジ重みにより乗算した前記第３オントロジ指数を加算し、第３ユーザ重みにより乗算した前記第３ユーザ成分を加算したものである、第２候補スコアと、
を計算する、
ことにより前記第３レベルノードを選択することを含み、
前記選択された第３レベルノードは、最大第２候補スコアを有する前記第２候補セットのメンバである、付記８に記載のシステム。
（付記１０）第１レベルノードから第３レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第１レベルノードは前記モデルオントロジグラフの中で前記第３レベルノードにリンクされ、
第２レベルノードから第３レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第２レベルノードは前記モデルオントロジグラフの中で前記第３レベルノードにリンクされる、
付記１に記載のシステム。
（付記１１）入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、
複数の入力データセットの各々について、前記複数の物理記憶装置の中の物理記憶装置に前記入力データセットを割り当てるインデックス又はキーとして、前記選択された第２レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、
を更に有する付記１に記載のシステム。
（付記１２）各第３レベルノードは、前記リコンサイルされたデータセット記憶機器の前記複数の物理記憶装置の中の個別物理記憶領域に対応し、前記入力データセットの各々は、前記個々の入力データセットのために選択された前記第３レベルノードに対応する前記個別物理記憶領域に割り当てられ、各個別物理記憶領域は、１又は複数の物理記憶装置を有し、該１又は複数の物理記憶装置の内部で、前記個々の入力データセットのために選択された前記第２レベルノードは、前記入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される、
付記６又は１１に記載のシステム。
（付記１３）モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む方法。
（付記１４）コンピュータプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、コンピュータ機器により実行されると、前記コンピュータ機器に、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法を実行させ、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む、非一時的コンピュータ可読記憶媒体。

１１０エンティティタイプ認識モジュール
１２０ドメイン認識モジュール
１３０知識ベース
１３２知識摂取モジュール
１３４ユーザ知識
１３６オントロジ
１４０ユーザフィードバック
２１０取得モジュール
２２０データプロパティ認識

Claims

モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、前記メモリは命令を格納し、該命令は、前記プロセッサにより実行されると前記プロセッサに、
概念階層を定めるモデルオントロジグラフを格納するステップを有するモデルオントロジ記憶プロセスであって、前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有する、モデルオントロジ記憶プロセスを実行させ、
前記プロセッサは、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から前記第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に実行する、システム。
前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザＩＤにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザＩＤと関連して、前記複数のユーザのうちの１又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザＩＤに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザＩＤについて前記複数のノード対の前記第１関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザＩＤについて格納された前記第１関係指数に基づき、前記第２レベルノードを選択することを含む、
請求項１に記載のシステム。
前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第１関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザについて格納された前記第１関係指数及び前記個々のユーザＩＤについて格納された前記第１関係指数の両方に基づき、前記第２レベルノードを選択することを含む、
請求項２に記載のシステム。
前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第１レベルノードの各々について、前記モデルオントロジ内の前記個々の第１レベルノードにリンクされた前記の又は各第２レベルノードを第１候補セットに追加し、
前記第１候補セットの中の各第２レベルノードについて、前記モデルオントロジの中の前記第２レベルノードにリンクされた各第１レベルノードについて、
前記モデルオントロジグラフに格納された情報に基づき、前記第１レベルノードと前記第２レベルノードとの間の関係を定量化する第１オントロジ指数と、
前記第１関係指数であって、前記第１関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第１ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第１共同成分と、を有する、前記第１関係指数と、
前記第２レベルノードの第１候補スコアであって、前記第１候補スコアは、個々の第１オントロジ重みにより乗算した各第１オントロジ指数に、個々の第１ユーザ重みにより乗算した各第１ユーザ成分を加算し、個々の第１共同重みにより乗算した各第１共同成分を加算したものである、第１候補スコアと、
前記選択された第２レベルノードであって、第１候補スコアによりランク付けされたとき、前記第１候補セットのうち最大第１候補スコアを有する前記第２レベルノード、又は前記第１候補セットのうち上位ｎ個の第２レベルノードの前記ユーザインタフェース上の提示のうち前記ユーザインタフェースを介して割り当てられた前記第２レベルノードである、前記選択された第２レベルノードと、
を計算する、
ことにより前記第２レベルノードを選択することを含む、請求項３に記載のシステム。
第１レベルノードから第２レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第１レベルノードは前記モデルオントロジグラフの中で前記第２レベルノードにリンクされる、請求項１に記載のシステム。
前記概念階層は、
前記概念階層の第３レベルにある第３レベルノードであって、各第３レベルノードは、個々のドメインを表し、前記グラフの中で１又は複数の第２レベルノードに及び１又は複数の第３レベルノードにリンクされる、第３レベルノード、を更に有し、
前記ユーザインタフェース・プロセスは、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値と、前記データセットの中の前記値により表されるエンティティに割り当てられた前記概念階層の第２レベルノードにより表されるエンティティタイプと、をそれぞれ有する複数の入力データセットの各々について、前記ユーザインタフェースを介して、第３レベルユーザ入力割り当てを受信することを含み、前記第３レベルユーザ入力割り当ては、第３レベルノードにより表されるドメインを前記データセットの中の前記値により表される前記エンティティに割り当て、
前記ユーザ入力割り当て記憶プロセスは、
前記第３レベルノードのうちの１つと前記第２レベルノードのうちの１つとを有する複数のノード対について、前記個々の第３レベルノードにより表される前記ドメインを前記第２レベルノードのより表される前記エンティティタイプに割り当てられたエンティティに割り当てる前記受信した第３レベルユーザ入力割り当ての数を表す第２関係指数を計算し格納し、
前記第３レベルノードのうちの１つと前記第１レベルノードのうちの１つとを有する複数のノード対について、前記個々の第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信した第３レベルユーザ入力割り当ての数を表す第３関係指数を計算し格納する、ことを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、
第３レベルノード及び前記選択された第２レベルノードの間の前記概念階層の中のリンクと、前記第３レベルノード及び前記選択された第２レベルノードの間の前記第２関係指数と、前記第３レベルノード及び前記受信した入力データセットの中のプロパティを表す第１レベルノードの間の前記概念階層の中のリンクと、前記第２レベルノード及び前記受信した入力データセットの中のプロパティを表す第１レベルノードの間の前記第３関係指数と、に基づき前記概念階層から第３レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値を有し、前記選択された第３レベルノードにリンクされた前記選択された第２レベルノードを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納し、前記第１レベルノードは前記選択された第２レベルノード及び前記選択された第３レベルノードの両方にリンクされる、ことを更に含む、
請求項１に記載のシステム。
前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザＩＤにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザＩＤと関連して、前記複数のユーザのうちの１又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザＩＤに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザＩＤについて前記複数のノード対の前記第２及び第３関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザＩＤについて格納された前記第２及び第３関係指数に基づき、前記第３レベルノードを選択することを含む、
請求項６に記載のシステム。
前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第１関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザ及び前記個々のユーザＩＤの両方について格納された前記第２関係指数に基づき、及び共同で前記複数のユーザ及び前記個々のユーザＩＤの両方について格納された前記第３関係指数に基づき、前記第３レベルノードを選択することを含む、
請求項７に記載のシステム。
前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第１レベルノードの各々について、前記モデルオントロジの中の前記個々の第１レベルノードにリンクされた前記の又は各第３レベルノードを第２候補セットに追加し、
前記モデルオントロジの中の前記選択された第２レベルノードにリンクされた前記の又は各第３レベルノードを前記第２候補セットに追加し、
前記候補セットの中の各第３レベルノードについて、前記モデルオントロジの中の前記第３レベルノードにリンクされた第１レベルノード毎に、
前記モデルオントロジグラフに格納された情報に基づき、前記第１レベルノードと前記第３レベルノードとの間の関係を定量化する第３オントロジ指数と、
前記モデルオントロジグラフに格納された情報に基づき、前記選択された第２レベルノードと前記第３レベルノードとの間の関係を定量化する第２オントロジ指数と、
前記第３関係指数であって、前記第３関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第３ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第３共同成分と、を有する、前記第３関係指数と、
前記第２関係指数であって、前記第２関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記選択された第２レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第２ユーザ成分と、共同で前記複数のユーザＩＤに関連して格納された前記ユーザ入力割り当てから、前記第３レベルノードにより表される前記ドメインを前記選択された第２レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第２共同成分と、を有する、前記第２関係指数と、
前記第３レベルノードの第２候補スコアであって、前記第２候補スコアは、第２オントロジ重みにより乗算した前記第２オントロジ指数に、第２オントロジ重みにより乗算した前記第２オントロジ指数を加算し、第３オントロジ重みにより乗算した前記第３オントロジ指数を加算し、第３ユーザ重みにより乗算した前記第３ユーザ成分を加算したものである、第２候補スコアと、
を計算する、
ことにより前記第３レベルノードを選択することを含み、
前記選択された第３レベルノードは、最大第２候補スコアを有する前記第２候補セットのメンバである、請求項８に記載のシステム。
第１レベルノードから第３レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第１レベルノードは前記モデルオントロジグラフの中で前記第３レベルノードにリンクされ、
第２レベルノードから第３レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は１つのエッジが存在する場合、前記第２レベルノードは前記モデルオントロジグラフの中で前記第３レベルノードにリンクされる、
請求項１に記載のシステム。
入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、
複数の入力データセットの各々について、前記複数の物理記憶装置の中の物理記憶装置に前記入力データセットを割り当てるインデックス又はキーとして、前記選択された第２レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、
を更に有する請求項１に記載のシステム。
各第３レベルノードは、前記リコンサイルされたデータセット記憶機器の前記複数の物理記憶装置の中の個別物理記憶領域に対応し、前記入力データセットの各々は、前記個々の入力データセットのために選択された前記第３レベルノードに対応する前記個別物理記憶領域に割り当てられ、各個別物理記憶領域は、１又は複数の物理記憶装置を有し、該１又は複数の物理記憶装置の内部で、前記個々の入力データセットのために選択された前記第２レベルノードは、前記入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される、
請求項６又は１１に記載のシステム。
モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む方法。
コンピュータプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、コンピュータ機器により実行されると、前記コンピュータ機器に、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法を実行させ、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第２レベルにある第２レベルノードであって、各第２レベルノードは個々のエンティティタイプを表す、第２レベルノードと、
前記概念階層の第１レベルにある第１レベルノードであって、各第１レベルノードは個々のプロパティを表し、前記グラフ内で１又は複数の第２レベルノードにリンクされている、第１レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第１レベルノードにより表される１又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第２レベルユーザ入力割り当てを受信し、第２レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第２レベルノードのうちの１つ及び前記第１レベルノードのうちの１つを有する複数のノード対について、前記第２レベルノードにより表される前記エンティティタイプを前記第１レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第１関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第１レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記概念階層の中のリンク、及び前記第２レベルノードと前記受信した入力データセットの中のプロパティを表す第１レベルノードとの間の前記第１関係指数に基づき、前記概念階層から第２レベルノードを選択し、
個々の第１レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第２レベルノードにリンクされた前記第１レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む、非一時的コンピュータ可読記憶媒体。