JP2018198048A - モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム - Google Patents

モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム Download PDF

Info

Publication number
JP2018198048A
JP2018198048A JP2018054434A JP2018054434A JP2018198048A JP 2018198048 A JP2018198048 A JP 2018198048A JP 2018054434 A JP2018054434 A JP 2018054434A JP 2018054434 A JP2018054434 A JP 2018054434A JP 2018198048 A JP2018198048 A JP 2018198048A
Authority
JP
Japan
Prior art keywords
level node
level
user
data set
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018054434A
Other languages
English (en)
Inventor
ムニョス・マヌエル ペーニャ
Penia Munioz Manuel
ムニョス・マヌエル ペーニャ
ラ トーレ・ビクトール デ
De La Torre Victor
ラ トーレ・ビクトール デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018198048A publication Critical patent/JP2018198048A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/535Dividing only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】モデルオントロジにより入力データセットをリコンサイルするシステム、方法及びプログラムを提供する。
【解決手段】システムは、モデルオントロジにより入力データセットをリコンサイルし、種々のレベルのノードを有する概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセスを実行する。ユーザインタフェースを介して、下位レベルノードの中から特定プロパティを有するデータセットを入力するために、概念階層の上位レベルからノードのユーザ入力割り当てを受信するプロセスを更に実行する。どの上位レベルノードに新しい入力データセットを割り当てるかを新しい入力データセットの中で表される下位レベルノードに基づき決定するために、概念階層及び過去のユーザ入力割り当てのレコードを用いて入力データセット・リコンシリエーション・プロセスを更に実行する。
【選択図】図1

Description

本発明は、データ記憶の分野に関し、特に入力データセットの認識に関する。
データ科学分野における課題は、異なる構造、フォーマット、及び特性を有する異種データソースからの入力データセットの統合である。多くの場合、どのように入力データセットを解釈するか、又はどの情報にデータが関連するかを知ることは、正しいデータ解釈、したがって統合のための重要な要素である。多くの場合、入力データセットを正しく統合するために、入力データセットにより表される知識の分野における背景を知る必要がある。
入力データセットの中で表される情報は、技術的事業の意志決定において益々重要な役割を果たしている。入力データセットに含まれる知識が取り入れられるべきである場合、様々なレベルの抽象化においてデータセットを機械に正確に記述させることが望ましい。
機械の相互運用性は、正確な記述子と共にデータセットを格納することにより強化される。さらに、記憶のアクセス可能性及び効率は、意味のある注釈付きデータにより強化される。
処理オーバヘッドは、装置に渡るトラバース及びアクセス操作によりデータセンタ内で課される。
入力データセットのコンテキスト及び知識分野を認識するよう機械の能力を強化することが望ましい。
実施形態は、モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、該プロセッサ及びメモリは、概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を実行し、
前記概念階層は、
前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
前記プロセッサ及びメモリは、
ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に実行する。
前記システムは、処理命令を格納するメモリと、該メモリに結合され且つ処理命令の処理要素を実行するよう較正されたプロセッサと、を備えるコンピューティング装置又は複数の相互接続されたコンピューティング装置を有して良い。
実施形態は、入力データセットに割り当てるべきエンティティタイプ及びドメイン記述子の認識を自動化する。したがって、モデルオントロジにより入力データセットをリコンサイル(reconciling)/整合(aligning)させる。システムは、データセットをコンテキスト化(contextualise)及び解釈可能な機械として動作する。
システムは、低付加価値作業であるETL(抽出(extract)、変換(transform)、ロード(load、取り込み))タスクにおける手動関与を大幅に削減する。システムは、特に非標準化データの中で、データの機械可読特長を拡張し実現し、モデルオントロジにより入力データセットをリコンサイルすることにより該データから付加価値を抽出する。システムは、オントロジ及びユーザ選好に基づき、知識ベースに格納されたユーザ選好を表すデータを利用することにより、リコンシリエーション・タスクに対して推理を適用するよう動作する。システムは、ハードウェアに組み込まれた知識に依存しないが、他の情報源及びユーザ選好からの知識に基づきリコンシリエーションに関連する意志決定を動的にカスタマイズするよう較正される。システムは、支援及び知的プラットフォームのためにデータ解釈及び摂取の自動化を実現する。
システムは、エンティティタイプ及びドメイン(つまり上位)レベル記述子の入力データセットへの将来の割り当てを通知するために、値がデータセットに含まれるプロパティのセットにより特徴付けられる入力データセットへの上位レベル記述子の過去のユーザ入力割り当てから学習する。エンティティタイプ認識は、オントロジ及びユーザ選好から取得された両方の知識に基づく。ドメイン認識は、オントロジ及びユーザ選好から取得された両方の知識に基づく。
入力データセットのために選択されたエンティティタイプは、リコンサイルされたデータストアの中の入力データセットを格納すべき物理データ記憶装置を識別するキー又はインデックスとして使用できる。リコンサイルされたデータストアは、複数の入力データセットを、単一のアクセスポイントを介してアクセス可能にし、装置間横断及びアクセス動作を削減する方法でデータを格納する。
どのように自律的方法でデータを取得するか、及びどのように自動的に情報を解釈するかは、知的システム及び支援の新たな生成において関連する役割を果たす。実施形態は、知識及びユーザ選好に基づくエンティティタイプ及び任意的に更にドメイン認識のためのシステムを提供する。該システムは以下の利益を提供する。
・低付加価値作業であるETLタスクにおける労力を大幅に削減する。
・特に非標準化データの中の、データの機械可読特長を拡張し及び実現して、データから付加価値を抽出する。
・オントロジ及びユーザ選好に基づき知識ベースの中の注釈によりサポートされる推理を拡張する。
・知識及び選好に基づく意志決定を動的にカスタマイズする。
・支援及び知的プラットフォームのためにデータ解釈及び摂取の自動化を実現する。
指名されたエンティティのエンティティタイプ及びドメインが決定できると、機械は会話又はテキスト内での該指名されたエンティティの出現のコンテキスト及び意味を決定できるので、機械による非構造化データの理解が支援される。
実施形態は、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む方法も含む。
実施形態は、コンピューティング機器により実行されると、該コンピューティング機器に上述の方法を実行させるコンピュータプログラムも含む。
本発明の好適な特徴は、単なる例として添付の図面を参照して以下に説明される。
モデルオントロジにより定められる概念階層により入力データセットをリコンサイルするシステムの機能アーキテクチャの概観を示す。 モデルオントロジにより定められる概念階層により入力データセットをリコンサイルするシステムを示す。 プロパティ・リコンシリエーション・モジュールの動作原理を示す。 エンティティタイプ認識モジュールを示す。 エンティティタイプ認識プロセスを示す。 ドメイン認識モジュールを示す。 ドメイン認識プロセスを示す。 知識摂取モジュールを示す。 知識ベースを示す。 概念階層を示す。 オントロジを通じて及び共同でユーザから取得された知識を格納するグラフデータを示す。 オントロジを通じて及び個別ユーザから取得された知識を格納するグラフデータを示す。 一実施形態のハードウェアアーキテクチャを示す。
用語に関する注記:以下の説明及び請求項において、複数の指数が定められ議論される。指数は、「オントロジ」及び「関係」からのラベルに属する。「関係指数」は、ユーザ入力割り当てを表し、特定ユーザのユーザ入力割り当てを表す「ユーザ成分」と、共同でユーザの集団のユーザ入力割り当てを表す「共同成分」とを有して良い。「オントロジ指数」は、モデルオントロジグラフの中の関係を表す。指数は、「第1」、「第2」、及び「第3」からのラベルにも属する。これらのラベルは階層の中のノードの位置を意味する。「第1...指数」は、第2レベルノードと第1レベルノードとの間にある。「第2...指数」は、第3レベルノードと第2レベルノードとの間にある。「第3...指数」は、第3レベルノードと第1レベルノードとの間にある。同様に、「第1...成分」は、第2レベルノードと第1レベルノードとの間にある。「第2...指数」は、第3レベルノードと第2レベルノードとの間にある。「第3...成分」は、第3レベルノードと第1レベルノードとの間にある。
システムは、取得モジュール210及びデータプロパティ認識モジュール220を備えられ又は備えられなくて良い。
取得モジュール210及びデータプロパティ認識モジュール220を備えられないシステムでは、入力データセット、つまり概念階層によるリコンシリエーションのためのデータセットは、認識されたプロパティの値により構成され、認識されたプロパティへの値のマッピングが知られていることが想定される。ここで、認識されたプロパティは、概念階層の中のノードにより表されるプロパティである。したがって、入力データセットの中の値は、概念階層の中のプロパティレベル又は第1レベルのノードにより表されるプロパティに属することができる。
取得モジュール210及びデータプロパティ認識モジュール220を備えられたシステムでは、入力データセット、つまりデータセット固有の記憶から取得モジュール210によりシステムに読み込まれたデータセットは、1又は複数の値セットの各々に、概念階層の中のプロパティレベル又は第1レベルのノードにより表されるプロパティを割り当てられる。プロパティの割り当ては、入力データセットの中の値セットにより表されるプロパティと概念階層の中の既存プロパティレベルノードとの間で識別される一致の結果であって良い。代替で、一致が見付からない場合、入力データセットの中の値セットに対応する新しいプロパティレベルノードは、概念階層に追加され、値セットに割り当てられる。ここで、値セットは、例えば、表形式のデータセットの中の値の列、又はデータグラフの中の同じプロパティレベル概念をインスタンス化する値の集合である。
取得モジュール210は、異種の且つ分散したデータを収集し、抽出し、及び入力データセットの形式でシステムに統合する。入力データセットは、異なるフォーマットであり、異なる等級の情報複雑性を含んで良い。
データプロパティ認識モジュール220は、エンティティタイプ認識モジュール110に標準化データプロパティを提供する目的で、データを正規化する。データプロパティ認識モジュール220は、概念階層の中のプロパティレベルノードのうちの1つにマッピングされる値を有するデータセットを提供するために、プロセスをサポートする。データプロパティ認識モジュール220は、データ入力の記述子/プロパティが与えられると、概念階層からのプロパティレベルノードを、入力データセットの中の値セットにより表されるプロパティに割り当てる。データプロパティ認識モジュール220は、記述子(つまり、固有プロパティラベル)を有する生データを受信し、記述子のセマンティクス及びプロパティの値及び知識に基づき、概念階層の中のプロパティレベルノードにより記述子をリコンサイルする。プロセスは、ドイツ特許出願DE102016220781.4及びDE102016220771.7に更に詳細に記載され、これらの出願の内容は参照によりここに組み込まれる。データセットの中の値セットにより表されるプロパティについて既存プロパティレベルノードが見付からない場合、新しいプロパティレベルノードが、入力データセットからのプロパティラベルを用いて概念階層に追加される。
プロパティ認識モジュール220の動作原理は、図3に示される。図3では、3つのエンティティの各々について3つのプロパティの各々の値を有する生データが生データとして取得されることが分かる。プロパティは、記述子によりラベル付けされる。データプロパティ認識モジュール220は、生データの中のプロパティをラベル付けする記述子の意味(semantics、セマンティクス)を概念階層の中のプロパティノードの意味(semantics、セマンティクス)と比較するセマンティクスエンジン221を有する。データプロパティ認識モジュール220は、生データの中のプロパティの値の統計的特徴を概念階層により定められた概念階層の中のプロパティレベルノードを表す値セットの統計的特徴と比較するデータ値指紋エンジン222を有する。これらの比較に基づき、各値セット(つまり、各列)は、概念階層の中の第1レベル又はプロパティレベルのノードにより表されるプロパティを割り当てられる。
取得モジュール210及びデータプロパティ認識モジュール220がシステムに含まれるか又はデータをシステムに提供する外部モジュールであるかに拘わらず、上述のモジュールは、ドイツ特許出願DE102016220781.4及びDE102016220771.7に記載に開示されたようなデータプロパティ認識機器、データプロパティ認識方法、又はデータプロパティ認識プログラムにより提供されて良い。これらの出願の内容は参照によりここに組み込まれる。
エンティティタイプ認識モジュール110は、入力データセットに割り当てるために概念階層の中で表されるものの中から1つのエンティティタイプを選択するために、プロパティへのエンティティタイプの過去のユーザ入力割り当て、及びプロパティをエンティティタイプにリンクする概念階層を使用するよう構成される。エンティティタイプ認識モジュール110は、リコンシリエーション・プロセスの第1段階を実行し、任意の第2段階はドメイン認識モジュール120により実行される。入力データセットは、概念階層の中の第1レベルノードにより表されるプロパティの中からの、データセットの中の値により表されるプロパティの同一性により特徴付けられる。特徴付けは、エンティティタイプ認識モジュール110において、リコンサイルされたデータセット記憶の中の入力データセットに割り当てるために、概念階層の中の第2レベルノードにより表されるエンティティタイプを選択するために使用される。
ドメイン認識モジュール120は、入力データセットに割り当てるために概念階層の中で表されるものの中から1つのドメインを選択するために、データセットへのドメインの過去のユーザ入力割り当て、及びドメインをエンティティタイプ及びプロパティにリンクする概念階層を使用するよう構成される。ドメイン認識モジュール120は、リコンシリエーション・プロセスの任意の第2段階を実行し、第1段階はエンティティタイプ認識モジュール110により実行される。入力データセットは、概念階層の中の第1レベルノードにより表されるプロパティの中からの、データセットの中の値により表されるプロパティの同一性により、及びエンティティタイプ認識モジュール110によりデータセットに割り当てられたエンティティタイプにより、特徴付けられる。特徴付け(characterisation)は、ドメイン認識モジュール120において、リコンサイルされたデータセット記憶の中の入力データセットに割り当てるために、概念階層の中の第3レベルノードにより表されるドメインを選択するために使用される。
ユーザフィードバックは、エンティティタイプ認識モジュール110又はドメイン認識モジュール120の動作に続いて、ユーザインタフェース140を介して提供できる。ユーザフィードバックは、例えば、エンティティタイプ認識モジュール110により選択される複数のエンティティタイプからの1つのエンティティタイプのユーザ割り当て、又はドメイン認識モジュール120により選択された複数のドメインからの1つのドメインのユーザ割り当てであって良い。
例えば、エンティティタイプ認識モジュール110は、入力データセットの中で表されるデータプロパティについて上位にランク付けされたエンティティタイプを決定する。この決定は、知識、ユーザ選好、及び他のユーザの選好に基づく。上位スコアのエンティティタイプは、システムにより決定された上位にランク付けされたエンティティタイプの中から入力データセットに割り当てるためにエンティティタイプを選択する制御をユーザに与えるために、ユーザインタフェースを介してユーザに提供される。
例えば、ドメイン認識モジュール120は、入力データセットの中で表されるデータプロパティについてエンティティの最上位ランクのドメインを決定する。この決定は、標準化データプロパティ、エンティティタイプ推奨モジュールにより決定され且つユーザにより選択されたエンティティタイプ、ユーザ選好、及び概念階層に基づく。上位スコアのドメインは、システムにより決定された上位にランク付けされたドメインの中から入力データセットに割り当てるための使用を与えるために、ユーザインタフェースを介してユーザに提供される。
知識ベース130は、概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセスを実行する。概念階層は、概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し1又は複数の第2レベルノードにグラフの中でリンクされている、第1レベルノードと、概念階層の第3レベルにある第3レベルノードであって、各第3レベルノードは、個々のドメインを表し、1又は複数の第2レベルノードに及び1又は複数の第3レベルノードにグラフの中でリンクされている、第3レベルノードと、を有する。特定の例では、階層の異なるレベルは、ドメイン、エンティティタイプ、及びプロパティである。1つのドメインは、1又は複数のエンティティタイプを有する(リンクされる)。1つのエンティティタイプは、1又は複数のプロパティを有する(これもリンクされる)。例えば、ハードウェアドメイン(ドメイン、Domain)は、1つの成分(エンティティタイプ、Entity type)を有し、この成分は該成分を定める幾つかの記述子、つまりエンティティタイプにリンクされ及びハードウェアドメイン(ドメイン、Domain)にもリンクされる名称、モデル番号、id番号、等(プロパティ、Properties)を有する。モデルオントロジは、所与のプロパティについて、プロパティの関連する対応する(つまり、エンティティタイプのインスタンスの属性/制限を表す)エンティティタイプが存在するように、制約されて良い。モデルオントロジにおけるこの制約は、プロパティノードが対応するエンティティタイプノードに接続されることである。さらに、各エンティティタイプについて、エンティティタイプの属する対応するドメインが存在する。モデルオントロジにおけるこの制約は、エンティティタイプノードと対応するドメインノードとの間の接続である。さらに、各プロパティは対応するドメインに属し、モデルオントロジは、各プロパティノードが対応するドメインノードに接続されるように制約される。
知識摂取モジュールに関連する知識ベース130は、第2レベルノードにより表されるエンティティタイプ及び第3レベルノードにより表されるドメインの、値が個々の入力データセットに格納されている第1レベルノードにより表されるプロパティにより特徴付けられる入力データセットへの過去のユーザ入力割り当てのレコードを格納するユーザ入力割り当て記憶プロセスを実行する。ユーザ入力割り当て記憶プロセスは、上記過去のユーザ入力割り当てを表す指数を計算し、該指数を格納することも含む。例えば、第1、第2、及び第3関係指数である。
例えば、知識ベースモジュール130は、入力データセットについてエンティティタイプ及びドメインをランク付けする際にシステムにより使用するために、オントロジから抽出した知識をモデルオントロジとして格納し、過去のユーザ入力割り当ての表現を関係指数として格納する。モデルオントロジは、概念階層を定める。
知識摂取モジュール132は、ユーザ入力割り当て記憶プロセスを含む知識ベースと共同のプロセスを実行する。知識ベース130は、格納されたデータ及び該データを格納するハードウェアであると考えられ、知識摂取モジュール132は、ユーザ入力割り当てを表す指数を計算することを含み、どのデータを格納すべきかを決定する処理機構であると考えられる。知識ベース130は、信頼値の計算、重み付け、及び指数の更新のための処理能力も有して良い。任意で、知識ベースは、重み、信頼度、及び選好重み、更にノード(プロパティ、エンティティタイプ、及びドメイン)関連性の平衡を保つアルゴリズムを有する。ユーザ入力割り当て記憶プロセスは、第2レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、第2レベルノードにより表されるエンティティタイプを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第1関係指数を計算し格納することを含んで良い。第3レベルノードの対応する情報も、第3レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、第3レベルノードにより表されるドメインを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第3関係指数を、並びに、第3レベルノードのうちの1つと第2レベルノードのうちの1つとを有する複数のノード対について、第3レベルノードにより表されるドメインを第2レベルノードにより表されるエンティティタイプを割り当てられたエンティティに割り当てる受信したユーザ入力割り当ての数を表す第2関係指数を、計算され格納されてよいことに留意する。知識摂取モジュール132は、モデルオントロジへの追加のために、OWLのようなオントロジ136により提供される情報をパースし取得し、並びに、エンティティタイプ又はドメイン選択に関するユーザ入力割り当て134により提供される情報をパースし取得するメカニズムを提供する。
図2は、図1に示したシステムの特定の例である。図2の例では、エンティティタイプ認識モジュール110は、エンティティタイプ認識エンジン111、エンティティタイプ・ユーザ選好エンジン112、及びエンティティタイプ予測器113を有する。ドメイン認識モジュール120は、ドメイン認識エンジン121、ドメインユーザ選好エンジン122、及びドメイン予測器123を有する。
図2のエンティティタイプ認識モジュール110、及びその知識ベース130及び関連するコンポーネントとの相互作用は、図4に更に詳細に示される。
エンティティタイプ認識モジュール110は、標準化データ・プロパティラベル(標準化は、概念階層に従うことを意味する)セットとしての入力データセットの特徴付けを、エンティティタイプ選択に変換する。エンティティタイプは、入力データセットの中で表されるエンティティに適用されるグループ化又はカテゴリ化である。
標準化データ・プロパティラベル・セットとしての入力データセットの特徴付けを、リコンサイルされたデータ記憶の中の入力データセットの中で表されるエンティティをカテゴリ化する1又は複数のエンティティタイプの選択に変換する際の、図4に示すコンポーネントの相互作用が以下に説明される。
図5は、エンティティタイプ認識モジュールにより実行されるエンティティタイプ選択への処理ステップを表すフローチャートを示す。
本例では、エンティティタイプ認識モジュール110の機能は、第2レベルノードにより概念階層の中で表されたものの中から、エンティティタイプのスコア付きリストを提供することである。これは、標準化プロパティセットとしての入力データセットの特徴付けに基づき、スコア付きエンティティタイプとして入力データセットの中で表されたエンティティのカテゴリ化の提示精度をスコア付けする。エンティティタイプ認識モジュール110のコンポーネントは、概念階層及び過去のユーザ入力割り当てから見識(insights)を抽出し、エンティティタイプをスコア付けするために知識ベース相互作用から得た情報を処理し、最後に、リコンサイルされたデータ記憶の中の入力データセットに割り当てるようエンティティタイプを選択するためにユーザインタフェースを利用して最高スコアエンティティタイプ(つまり、概念階層の中で定められるような、それらのエンティティタイプの名称又はラベル)をユーザに提示するために、知識ベースと相互作用する。
ステップS501で、エンティティタイプ認識モジュール110は、標準化データ・プロパティ・セットとしての入力データセットの特徴付け、つまり値が入力データセットの中で提供されるプロパティを表す複数のラベル又はタイトルの識別を受信する。標準化は、ラベル又はタイトルが概念階層の中のプロパティレベルノードと整合している(つまりその中に含まれる)ことの指示である。ステップS502で、プロパティの数を見積もるために、エンティティタイプ認識モジュール110によりプロパティ分析が実行される。プロパティ分析は、フォーマット及び構造を調べるために、データプロパティの分析も含んで良い。
エンティティタイプ認識エンジン111により実行される例示的な手順は、以下に説明される。
ステップS503で、エンティティタイプ認識エンジン111は、概念階層の中のエンティティタイプを表す第2レベルノードから、エンティティタイプの第1候補セットを識別する。識別は、第2レベルノードと入力データセットを特徴付けるプロパティセットの中のプロパティを表す第1レベルノードとの間のリンク(つまりエッジ)に基づく。
エンティティタイプ認識エンジン111は、入力データセットの特徴付けとして標準化プロパティセットを受信し、第1候補セットとしてエンティティタイプのセットを提供する。エンティティタイプ認識エンジン111は、個々のエンティティタイプを表す第2レベルノードと標準化プロパティセットを表す第1レベルノードとの間の概念階層の中の関係強度に基づき、第1候補セットのメンバをスコア付けする。処理は、以下の通りである。
・各標準化プロパティについて、エンジン111は、概念階層の中でこのプロパティにリンクされた全てのエンティティタイプについてオントロジモデルにクエリし、エンティティタイプのリストを得る。例えば、S503の処理は、知識ベースの中の受信したデータプロパティをクエリし、得られた結果、つまりエンティティタイプへのリンクを取り出すことを含む。結果は、検索された標準化データプロパティ、データプロパティに関連するエンティティタイプ又は概念、及び概念階層に格納された関係のタイプで構成される。
・第1候補セットの中の識別されたエンティティタイプは、上述のリンクに基づき個別にスコア付けされる。S504で、各プロパティについて知識ベースから読み出された結果は、メトリック、第1オントロジ指数に変換される。エンティティタイプに関連する各プロパティは、確率P及び重みWを有する。確率Pは、第1オントロジ指数の例であり、次のように計算されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、プロパティpropと異なるエンティティタイプeとの間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、プロパティ(prop)とエンティティタイプ(e)との間の各関係(つまり、モデルオントロジの中のエッジ)について和1である。
例えば、1つのプロパティが3個の接続を有するが、2個のみがエンティティタイプ(e)にリンクされる場合、プロパティ(prop)とエンティティタイプ(e)との間の確率(P)は0.5(1/2)であり、2個の異なるエンティティタイプだけが接続されるので、rは3ではなく2である。
・重みWは、第1オントロジ重みの例であり、知識ベース130の中で計算されて良く、要素関連性、中心性、及び他のパラメータに基づく、概念階層の中のプロパティレベルノードとエンティティタイプレベルノードとの間のエッジの属性である。この重みは、動的であり、新たに取得された知識及びユーザ選好に従い変更されて良い。
・S505で、全ての受信したデータプロパティがクエリされたことを保証するためにチェックが実行される。
・最後にS506で、エンジン111は、信頼度を有するエンティティタイプの候補セットの各メンバ、第1オントロジ指数のプロパティセットに渡る和、又はそれらの加重和を提供する。例えば、概念階層の中でエンティティタイプと標準化プロパティセットとの間の関係の強さを表す信頼度は、次式により計算される。
Figure 2018198048
は、特定エンティティタイプeの信頼度である。モデルオントロジの中のエンティティタイプノードについては、特定ノードの関連性重みを参照する。
は、第1オントロジ重みである。プロパティiとエンティティタイプeとの間の関係の信頼度の重みである。
は、第1オントロジ指数である。プロパティiとエンティティタイプeとの間の関係の信頼度の予測である。
は、エンティティタイプの信頼度である(プロパティに渡り加算される)。
及びWがどのように計算されるかの一例として、知識ベース130は、Wのエンティティタイプランク及びWの関係の関連性に基づき各コンポーネントの重みを構成するW及びWの値を較正する人工知能アルゴリズムを利用して良い。
エンティティタイプ・ユーザ選好エンジン112は、標準化データプロパティセットにより特徴付けられた入力データセットへのエンティティタイプの割り当てを表す過去のユーザ入力割り当てに基づき、第1候補セットのメンバをスコア付けする。エンジン112は、知識ベース130の中の所与のプロパティセットについてユーザの選好(つまり、ユーザの過去のユーザ入力割り当て)をクエリし、知識ベースの中で表される過去のユーザ入力割り当てに基づくスコア付きエンティティタイプのセットを例えば関係指数として提供する。エンジン112は、目下のリコンシリエーション・プロセスを制御している特定ユーザに基づき、共同で全てのユーザに基づき、又は特定ユーザ及び共同で全てのユーザの両者に基づき、スコアを生成して良い。
エンティティタイプ・ユーザ選好エンジン112の機能の前提条件として、知識ベース130は、概念階層の中のエンティティタイプ(第2)レベルノードにより表されるエンティティタイプの入力データセットへの過去のユーザ入力割り当てを表すデータをロードされる(loaded with)。特に、知識摂取モジュール132は、過去のユーザ入力割り当て134をキャプチャし、エンティティタイプの入力データセットへの、特に入力データセットを特徴付ける標準化データプロパティへの割り当て頻度を表す第1関係指数を生成し及び格納する。言い換えると、知識ベース130及び知識摂取モジュール132は第2レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、第2レベルノードにより表されるエンティティタイプを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第1関係指数を計算し格納することを含むユーザ入力割り当て記憶プロセスを実行する。
エンティティタイプ・ユーザ選好エンジン112により実行される例示的な処理は以下の通りである。
・S507で、各標準化プロパティpropについて、該標準化プロパティの値は入力データセットに含まれ(つまり、概念階層の中の第1レベルノードにより表され且つ入力データセットを特徴付ける標準化プロパティセットに含まれる各プロパティについて)、エンティティタイプ・ユーザ選好エンジン112は、知識ベースの中で表される、システムにログインし且つデータセットの入力を制御する特定ユーザの過去のユーザ入力割り当てに関する該プロパティに関連する全てのエンティティタイプに関してクエリする。
・エンティティタイプeに関連する各プロパティpropは、第1ユーザ成分の例である確率P’及び第1ユーザ重みの例である重みW’iを有する。S508で、確立P’は次のように計算される。
Figure 2018198048
ここで、
Figure 2018198048
は、プロパティpropと異なるエンティティタイプeとの間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、プロパティ(prop)とエンティティタイプ(e)との間の各関係(例えば、各々の記録された過去のユーザ割り当て)について和1である。例えば、1つのプロパティが3個の接続を有するが、2個のみがエンティティタイプ(e)にリンクされる場合、プロパティ(prop)とエンティティタイプ(e)との間の確率(P’)は0.5(1/2)であり、2個の異なるエンティティタイプだけが接続されるので、r’は3ではなく2である。
関係は、システムにログインし且つデータセットの入力を制御する特定ユーザによる、エンティティタイプeを表す第2レベルノードにより表されるエンティティタイプをpropに対応する第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数(又は頻度若しくは割合)を表す第1関係指数により、具体的には第1関係指数の第1ユーザ成分により、定量化される。重みW’は、過去のユーザ入力割り当てに基づき知識ベース130において計算され、プロパティ−エンティティタイプ−ユーザのトリプレット(triplet、三重項)の属性である。例えば、重みW’は、関連性に依存して値を増大し得る。例えば、過去にユーザが同じP’で別のプロパティではなく1つのプロパティを選択する場合、P’は、第1関係指数の第1ユーザ成分として参照されて良い。代替で、P’及びW’の積は、第1関係指数の第1ユーザ成分として参照されて良い。
本願明細書を通じて、受信したユーザ入力割り当ての数が言及されるとき、この数は、実際には、ユーザからのユーザ入力割り当ての合計数のような他の指数と結合されて、割合として表されて良いことに留意する。したがって、数は、通常、該数を組み込む指数及び統計を表すために使用され、割合又は頻度のようなより限定的な表現を包含する。
・平行して、エンジンは、標準化プロパティpropの同じセットの値を有する入力データセットの中の過去のユーザ入力割り当てをクエリする。S507にも含まれるが、エンティティタイプ・ユーザ選好エンジン112は、知識ベースの中で表される、共同で全てのユーザの過去のユーザ入力割り当てに関するこのプロパティに関連する全てのエンティティタイプに関してクエリする。
・エンティティタイプe’に関連する各プロパティpropは、第1共同成分の例である確率P’’及び第1共同重みの例である重みW’’を有する。S508で、確率P’’は次のように計算される。
Figure 2018198048
ここで、
Figure 2018198048
は、プロパティpropと異なるエンティティタイプe’との間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、プロパティ(prop)とエンティティタイプ(e’)との間の各関係(例えば、各々の記録された過去のユーザ割り当て)について和1である。例えば、1つのプロパティが3個の接続を有するが、2個のみがエンティティタイプ(e’)にリンクされる場合、プロパティ(prop)とエンティティタイプ(e’)との間の確率(P’’)は0.5(1/2)であり、2個の異なるエンティティタイプだけが接続されるので、r’’は3ではなく2である。
関係は、共同で複数のユーザIDに関連して格納されたユーザ入力割り当てから、第2レベルノードにより表されるエンティティタイプを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す第1関係指数により、具体的には第1関係指数の第1共同成分により、定量化される。重みW’’は、過去のユーザ入力割り当てに基づき知識ベース130において計算され、プロパティ−エンティティタイプ対の属性である。重みは、要素関連性、中心性、及び他のパラメータに基づき計算されて良い。この重みは、動的であり、新たに取得された知識及びユーザ選好に従い変化して良い。
S509で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。
エンティティタイプ。ユーザ選好エンジン112は、第1関係指数の第1ユーザ成分及び第1共同成分を計算する。第1関係指数は、第2レベルノードを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信したユーザ入力割り当ての数を表す。
S510で、エンティティタイプ・ユーザ選好エンジン112は、第1候補セットの中の各エンティティタイプについてスコアを生成するために、第1ユーザ成分及び第1共同成分の各々をエンティティタイプ毎に結合する。上述の結合のための例示的な式は、次に示される。
Figure 2018198048
は、特定エンティティタイプeの選好度である。これは、エンティティタイプの属性であり(つまり、概念階層の中のエンティティタイプを表すエンティティタイプレベルノードに関連して格納され)、知識ベースへのプロパティの関連性に基づいて良いが、ユーザの選好に関する。この値は、関連性及び中心性メトリックに基づきAIアルゴリズムにより知識ベースの中に計算されて良い。
は、第1ユーザ重みである。具体的なユーザに従う、プロパティpropとエンティティタイプeとの間の関係の選好度の重みである。
P’は、第1ユーザ成分である。具体的なユーザに従う、プロパティpropとエンティティタイプeとの間の関係の選好度の予測である。
W’’は、第1共同重みである。全てのユーザ選好に従う、プロパティpropとエンティティタイプe’との間の関係の選好度の重みである。
P’’は、第1共同成分である。全てのユーザ選好に従う、プロパティpropとエンティティタイプe’との間の関係の選好度の予測である。
記号「P」は確率を示すが、予測を表すとも考えられる。予測は、メトリックに基づき、機械学習のモデル及び人工知能を使用して、特定エンティティタイプのエンティティを表す入力データセットの確率を計算し予測する。
どのようにW、W’及びW’iiが計算されるかの一例として、知識ベース130は、人工知能アルゴリズムを利用して、Wのエンティティタイプランクに基づき、並びにそれぞれW’の関連ユーザの過去のユーザ割り当て及びW’iiの共同の過去のユーザ割り当てに基づき、重みを較正する。
S511で、エンティティタイプ予測器113は、エンティティタイプ毎に、エンティティタイプ認識モジュール110により計算された第1候補セットの中の各エンティティタイプのスコアと、エンティティタイプ・ユーザ選好エンジン112により計算された第1候補セットの中の各エンティティタイプのスコアとを結合する。第1候補セットの中の各エンティティタイプの第1候補スコアを計算する際にエンティティタイプ予測器により使用される例示的な式は次に示される。
Entity type predictor=W+W
どのようにW及びWが計算されるかの一例として、知識ベース130は、人工知能アルゴリズムを利用して、知識ベースの中の各要素の中心度及び他のパラメータに基づき重みを計算し、ユーザ毎にカスタマイズされた応答を取得する。エンティティタイプ予測式において、重みW及びWは、エンティティタイプ固有重みではなく、信頼度(つまり、オントロジ構造/プロパティ/情報に基づくオントロジ指数)及び選好度(つまり、ユーザ入力割り当てに基づく関係指数)に適用される一般的重みである。
最高スコアのエンティティタイプがシステムにより選択され、入力データセットに割り当てられるか、或いは、n個の最高スコアのエンティティタイプ(ここで、nは1より大きい正整数である)がユーザインタフェースを介してユーザに提示され、提示された中から1つのエンティティタイプを選択するユーザ入力割り当てが(再びユーザインタフェースを介して)受信される。
図2のドメイン認識モジュール120、及びその知識ベース130及び関連するコンポーネントとの相互作用は、図6に更に詳細に示される。
ドメイン認識モジュール120は、標準化データ・プロパティ・ラベルのセット(ラベルは、データセットの中の列又は値セットに適用される名称又は記述子を示す)及び入力データセットに割り当てられた選択されたエンティティタイプとしての入力データセットの特徴付けを、ドメイン選択に変換する。ドメインは、概念階層の中のエンティティタイプに適用されるグループ化又はカテゴリ化である。
標準化データ・プロパティラベル・セット及び入力データセットに割り当てられる選択されたエンティティタイプとしての入力データセットの特徴付けを、リコンサイルされたデータ記憶の中の入力データセットが割り当てられるべきドメインの選択に変換する際の、図6に示すコンポーネントの相互作用が以下に説明される。
図7は、ドメイン認識モジュール120により実行されるドメイン選択への処理ステップを表すフローチャートを示す。
本例では、ドメイン認識モジュール120の機能は、第3レベルノードにより概念階層の中で表されたものの中から、ドメインのスコア付きリストを提供することである。これは、標準化プロパティセットとしての入力データセットの特徴付け及び入力データセットのために選択されたエンティティタイプに基づき、スコア付きドメインに入力データセットの中で表されたエンティティの提示精度をスコア付けする。ドメイン認識モジュール120のコンポーネントは、概念階層及び過去のユーザ入力割り当てから見識(insights)を抽出し、ドメインをスコア付けするために知識ベース相互作用から得た情報を処理し、最後に、リコンサイルされたデータ記憶の中の入力データセットに割り当てるようドメインを選択するためにユーザインタフェースを利用して最高スコアドメイン(つまり、概念階層の中で定められるような、それらのドメインの名称又はラベル)をユーザに提示するために、知識ベースと相互作用する。
ステップS701で、ドメイン認識モジュール120は、標準化データ・プロパティ・セットとしての入力データセットの特徴付け、つまり値が入力データセットの中で提供されるプロパティを表す複数のラベル又はタイトルの識別、及び選択されたエンティティタイプ、つまりエンティティタイプのラベル又はタイトルを受信する。標準化は、ラベル又はタイトルが概念階層の中のプロパティレベルノードと整合している(つまりその中に含まれる)ことの指示である。エンティティタイプラベル又はタイトルは、概念階層の中のエンティティタイプレベル(第2レベル)ノードのラベル又はタイトルである。S701で、入力は、プロパティ及びエンティティタイプに分けられる。
ステップS702で、ドメイン認識エンジン121は、概念階層の中のドメインを表す第3レベルノードから、ドメインの第2候補セットを識別する。識別は、第3レベルノードと入力データセットを特徴付けるプロパティセットの中のプロパティを表す第1レベルノードとの間のリンク(つまりエッジ)の経路に基づく。
ドメイン認識エンジン121は、個々のドメインを表す第3レベルノードと標準化プロパティセットを表す第1レベルノードとの間の概念階層の中の関係強度に基づき、第2候補セットのメンバをスコア付けする。これを行う例示的な処理は以下の通りである。
各標準化プロパティについて、エンジン121は、概念階層の中でこのプロパティへのエッジ経路によりリンクされた全てのドメインについてオントロジモデルにクエリし、ドメインのリストを得る。例えば、S702の処理は、知識ベースの中の受信したデータプロパティをクエリし、得られた結果、つまりドメインにリンクするエッジ経路を取り出すことを含む。結果は、検索された標準化データプロパティ、データプロパティにリンクされたドメイン、及び概念階層に格納された関係のタイプで構成される。
第2候補セットの中で識別されたドメインは、入力データセットを特徴付ける標準化プロパティセットへの取り出された概念階層リンクに基づき個別にスコア付けされる。S703で、各プロパティについて知識ベースから読み出された結果は、メトリック、第3オントロジ指数に変換される。各プロパティprop’に関連する各ドメインは、確率P’及び重みW’を有する。確率P’は、第3オントロジ指数の例であり、次のように計算されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、プロパティprop’と異なるドメインd’との間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、プロパティ(prop’)とエンティティタイプ(d’)との間の各関係(例えば、モデルオントロジの中のエッジ)について和1である。例えば、1つのプロパティが3個の接続を有するが、2個のみがドメイン(d’)にリンクされる場合、プロパティ(prop’)とドメイン(d’)との間の確率(P’)は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、r’は3ではなく2である。
重みW’は、ドメイン−プロパティ対の属性であり、第3オントロジ重みの例であり、prop’と個々のドメインd’との間の確立された各関係の関連性を表す。W’は、動的であり、知識ベースによる知識の取得に基づき変化して良い。
S704で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。
選択されたエンティティタイプについて、エンジン121は、概念階層の中でこのドメインへのエッジによりリンクされた全てのドメインについてオントロジモデルにクエリし、ドメインのリストを得る。第2候補セットに既に含まれない任意のドメインは、該第2候補セットに追加される。例えば、S705の処理は、知識ベースの中の選択されたエンティティタイプをクエリし、得られた結果、つまりドメインにリンクするエッジ経路を取り出すことを含む。結果は、検索されたエンティティタイプ、データプロパティにリンクされたドメイン、及び概念階層に格納された関係のタイプで構成される。
S706で、第2候補セットの中でS705からの識別されたドメインは、選択されたエンティティタイプへの読み出された概念階層リンクに基づき、個別にスコア付けされる。概念階層から読み出された結果は、メトリック、第2オントロジ指数に変換される。ドメインに関連するエンティティタイプは、確率P及び重みWを有する。確率Pは、第2オントロジ指数の例であり、次のように計算されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、entと異なるドメインdとの間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、エンティティタイプ(ent)とドメイン(d)との間の各関係(例えば、モデルオントロジの中のエッジ)について和1である。例えば、1つのエンティティタイプが3個の接続を有するが、2個のみがドメイン(d)にリンクされる場合、エンティティタイプ(ent)とドメイン(d)との間の確率(P)は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、rは3ではなく2である。
重みWは、第2オントロジ重みの例であり、知識ベース130の中で計算されて良く、例えば要素関連性、中心性、及び他のパラメータに基づく、概念階層の中のエンティティタイプレベルノードとドメインレベルノードとの間のエッジの属性である。この重みは、動的であり、新たに取得された知識に従い変更されて良い。各々の特定のノード対について、新しい知識が取得されると、重みWが変更され又は変更されて良い。例えば、これらの変更は、この具体的な例においてはエンティティタイプノードである、各ノードの関連性を計算する人工知能アルゴリズムにより行われる。
最後にS707で、エンジン121は、信頼度を有するエンティティタイプの候補セットの各メンバ、第2オントロジ指数のプロパティセットに渡る和、及び第3オントロジ指数、又はそれらの加重和を提供する。信頼度を計算するための例示的な式は、次に示される。
Figure 2018198048
は、ドメインの信頼度の信頼度である。dWは、第2オントロジ重みであり、エンティティタイプentとドメインdとの間の関係の信頼度の重みである。
は、第2オントロジ指数であり、エンティティタイプentとドメインdとの間の関係の信頼度の予測である。W’は、第3オントロジ重みであり、プロパティprop’とドメインdとの間の関係の信頼度の重みである。
P’は、第3オントロジ指数であり、プロパティprop’とドメインdとの間の関係の信頼度の予測である。
d、及びW’がどのように計算されるかの一例として、知識ベース130は、Wのエンティティタイプランク及びそれぞれW及びW’の関係の関連性に基づき各コンポーネントの重みを構成するWd、及びW’の値を較正する人工知能アルゴリズムを利用して良い。
ドメインユーザ選好エンジン122は、標準化データプロパティセットにより特徴付けられた入力データセットへのドメインの割り当てを表す過去のユーザ入力割り当て及び入力データセットの中で表されるエンティティに割り当てられた選択されたエンティティタイプに基づき、第2候補セットのメンバをスコア付けする。エンジン122は、知識ベース130の中の所与のプロパティセット及び個々の割り当てられたエンティティタイプについてユーザの選好(つまり、ユーザの過去のユーザ入力割り当て)をクエリし、知識ベースの中で表される過去のユーザ入力割り当てに基づくスコア付きドメインのセットを提供する。エンジン122は、目下のリコンシリエーション・プロセスを制御している特定ユーザに基づき、共同で全てのユーザに基づき、又は特定ユーザ及び共同で全てのユーザの両者に基づき、スコアを生成する。
エンティティタイプ・ユーザ選好エンジン122の機能の前提条件として、知識ベース130は、概念階層の中のドメイン(第3)レベルノードにより表されるドメインの入力データセットへの過去のユーザ入力割り当てを表すデータをロードされる(loaded with)。特に、知識摂取モジュール132は、過去のユーザ入力割り当て134をキャプチャし、入力データセットを特徴付ける標準化データプロパティ入力データセットへのドメインの割り当て頻度を表す第3関係指数、及び入力データセットの中のエンティティに割り当てられたエンティティタイプに基づき入力データセットへのドメインの割り当て頻度を表す標第2関係指数を生成し格納する。言い換えると、知識ベース130及び知識摂取モジュール132は、ユーザ入力割り当て記憶プロセスを実行する。ユーザ入力割り当て記憶プロセスは、第3レベルノードのうちの1つと第2レベルノードのうちの1つとを有する複数のノード対について、個々の第3レベルノードにより表されるドメインを第2レベルノードにより表されるエンティティタイプに割り当てられたエンティティに割り当てる受信した第3レベルユーザ入力割り当ての数を表す第2関係指数を計算し格納し、第3レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、個々の第3レベルノードにより表されるドメインを第1レベルノードにより表されるプロパティの値により表されるエンティティに割り当てる受信した第3レベルユーザ入力割り当ての数を表す第3関係指数を計算し格納する。
ドメインユーザ選好エンジン122により実行される例示的な処理は以下の通りである。
S708で、入力データセットのために選択されたエンティティタイプにリンクされた第2候補セットの中の各ドメインは、第1検索の中で、システムにログインし且つ現在データセットの入力を制御する特定ユーザによる入力である過去のユーザ入力割り当ての範囲を有する知識ベース130の中の過去のユーザ入力割り当てにクエリするために使用される。知識ベースは、エンティティタイプの割り当てられた入力データセットのためのドメインの選択を記録する。これらの記録(レコード、record)は、クエリの中で検索される。レコードは、非選択の記録であっても良い。第1の検索と等価であるが共同で全てのシステムユーザについての第2の検索が実行される。つまり、特定ユーザの過去のユーザ入力割り当てに限定されない。
検索結果は、第2ユーザ成分及び第2共同成分を計算するために使用される。第2関係指数は、第2ユーザ成分及び第2共同成分の和又は加重和である。
ステップS709でエンティティタイプent’’に関連する各ドメインは、第2ユーザ成分の例である確率P’’と、第1検索の結果を用いて計算された第2ユーザ重みの例である重みW’’とを有する。例えば、確率P’’は次のように設定されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、関連ユーザのent’’と異なるドメインd’’との間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、エンティティタイプ(ent’’)とドメイン(d’’)との間の各関係(例えば、記録された過去のユーザ割り当て)について和1である。例えば、1つのエンティティタイプが3個の接続を有するが、2個のみがドメイン(d’’)にリンクされる場合、エンティティタイプ(ent’’)とドメイン(d’’)との間の確率(P’’)は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、r’’は3ではなく2である。
S709でも、平行して、エンジンは、全てのユーザ選好を考慮して、各ドメインd’’’及びエンティティタイプent’’’について、第2共同成分の例である確率P’’’と、第2共同重みの例である重みW’’’iと、を計算する。例えば、P’’’は次式のように表されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、共同で全てのユーザの選好に従い、ent’’と異なるドメインd’’’との間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、エンティティタイプ(ent’’)とドメイン(d’’’)との間の各関係(例えば、記録された過去のユーザ割り当て)について和1である。例えば、1つのエンティティタイプが3個の接続を有するが、2個のみがドメイン(d’’’)にリンクされる場合、エンティティタイプ(ent’’)とドメイン(d’’’)との間の確率(P’’)は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、r’’’は3ではなく2である。
S710で、各標準化プロパティpropについて、該標準化プロパティの値は入力データセットに含まれ(つまり、概念階層の中の第1レベルノードにより表され且つ入力データセットを特徴付ける標準化プロパティセットに含まれる各プロパティについて)、第1検索が実行され、その中で、ドメインユーザ選好エンジン122は、知識ベースの中で表される、システムにログインし且つデータセットの入力を制御する特定ユーザの過去のユーザ入力割り当てのレコード内のプロパティに関連する全てのドメインに関してクエリする。関係は、プロパティの値を含む入力データセットについてのドメインの選択の記録(record、レコード)である。関係は、非選択の記録であっても良い。第1の検索と等価であるが共同で全てのシステムユーザについての第2の検索が実行される。つまり、特定ユーザの過去のユーザ入力割り当てに限定されない。
ステップS711で、第1検索結果は、第3ユーザ成分を生成するために使用され、第2検索結果は第3共同成分を生成するために使用される。第3関係指数は、第3ユーザ成分及び第3共同成分の和又は加重和である。
各プロパティpropiv に関連する各ドメインについて、第3ユーザ成分の例である確率Piv と、第3ユーザ重みの例である重みWiv とは、第1検索の結果に基づき計算される。例えば、確率Piv は次のように計算されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、関連ユーザについてのpropiv と異なるドメインdiv との間の全ての関係の和である。例えば、関係は、各関係について1として定量化される。つまり、プロパティ(propiv )とドメイン(div )との間の各関係(例えば、過去のユーザ割り当て)について和1である。例えば、1つのプロパティが3個の過去の割り当てを有するが、2個のみがドメイン(div )にリンクされる場合、プロパティ(propiv )とドメイン(div )との間の確率(Piv )は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、riv は3ではなく2である。
平行して、エンジン121は、共同で全てのユーザ選好を考慮して、プロパティprop に関連する各ドメインd について、第3共同成分の例である確率P と、第3共同重みの例である重みW と、を計算する。例えば、P は次式のように計算されて良い。
Figure 2018198048
ここで、
Figure 2018198048
は、共同で全てのユーザのユーザ選好に従い、prop と異なるドメインd との間の全ての関係の和である。
例えば、関係は、各関係について1として定量化される。つまり、プロパティ(prop )とドメイン(d )との間の各関係について和1である。例えば、1つのプロパティが3個の過去の割り当てを有するが、2個のみがドメイン(d )にリンクされる場合、プロパティ(prop )とドメイン(d )との間の確率(P )は0.5(1/2)であり、2個の異なるドメインだけが接続されるので、r は3ではなく2である。
S712で、全ての受信したデータプロパティがクエリされることを保証するためにチェックが実行される。
S713で、ドメイン予測器123は、過去のユーザ入力割り当てに基づき、入力データセットを特徴付けるプロパティのセットに対する及び入力データセットについて選択されたエンティティタイプに対する各ドメインの関係強度を表す選好度を生成するために、ステップ709及びS711で計算された第2候補セットの中の各ドメインについてスコアを結合する。結合のための例示的な式は、次に示される。
Figure 2018198048
W’は、ドメインdの選好度の重みである。
W’’は、第2ユーザ重みである。特定ユーザについての、エンティティentとドメインdとの間の関係の選好の重みである。
P’’は、第2ユーザ成分である。特定ユーザについての、エンティティタイプentとドメインdとの間の関係の選好度の予測である。W’’’は、第2共同重みである。全てのユーザについての、エンティティタイプentとドメインdとの間の関係の選好度の重みである。
P’’’は、第2共同成分である。全てのユーザについての、エンティティタイプentとドメインdとの間の関係の選好度の予測である。
iv は、第3ユーザ重みである。特定ユーザについての、プロパティpropとドメインdとの間の関係の選好度の重みである。
iv は、第3ユーザ成分である。特定ユーザについての、プロパティpropとドメインdとの間の関係の選好の予測である。
は、第3共同重みである。全てのユーザについての、プロパティpropとドメインdとの間の関係の選好度の重みである。
は、第3共同成分である。全てのユーザについての、プロパティpropとドメインdとの間の関係の選好の予測である。
どのようにW’、W’’、W’’’、Wiv 、及びW が計算されるかの一例として、重みは、W’のドメインランク及びW’’、W’’’、Wiv 、及びW の関係の関連性に基づき各成分の重みを構成する人工知能アルゴリズムに適合されて良い。
S714で、ドメイン予測器123は、第2候補セットの中の各ドメインについて第2候補スコアを生成するために、ステップS707及びS713で計算された各ドメインのスコアを結合する。各ドメインについて第2候補スコアを計算する際にドメイン予測器123により使用される例示的な式は以下に示される。
Domain predictor=W+W
はドメイン発見エンジンにおける信頼度成分の重みである。
はドメイン発見エンジンにおける信頼度の予測である。
はドメイン発見エンジンにおけるユーザ選好度成分の重みである。
はドメイン発見エンジンにおけるユーザ選好度の予測である。
どのようにW及びWが計算されるかの一例として、知識ベース130は、人工知能アルゴリズムを利用して、知識ベースの中の各要素の中心度及び他のパラメータに基づき重みを計算し、ユーザ毎にカスタマイズされた応答を取得する。ドメイン予測式において、重みW及びWは、ドメイン固有重みではなく、信頼度(つまり、オントロジ構造/プロパティ/情報に基づくオントロジ指数)及び選好度(つまり、ユーザ入力割り当てに基づく関係指数)に適用される一般的重みである。
最高スコアのドメインがシステムにより選択され、入力データセットに割り当てられるか、或いは、n個の最高スコアのドメイン(ここで、nは1より大きい正整数である)がユーザインタフェースを介してユーザに提示され、提示された中から1つのドメインを選択するユーザ入力割り当てが(再びユーザインタフェースを介して)受信される。
図2の知識摂取モジュール132、及びその知識ベース130及び入力データとの相互作用は、図8に更に詳細に示される。知識摂取モジュール132及び知識ベース130は、協働してユーザ入力割り当て記憶プロセスを実行する。該ユーザ入力割り当て記憶プロセスは、第2レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、第2レベルノードにより表されるエンティティタイプを第1レベルノードにより表されるプロパティの値により表されるエンティティ(又はエンティティのデータセット)に割り当てる受信したユーザ入力割り当ての数を表す第1関係指数を計算し格納することを含んで良い。ユーザ入力割り当て記憶プロセスは、また、第3レベルノードのうちの1つと第1レベルノードのうちの1つとを有する複数のノード対について、第3レベルノードにより表されるドメインを第1レベルノードにより表されるプロパティの値により表されるエンティティ(又はエンティティのデータセット)に割り当てる受信したユーザ入力割り当ての数を表す第3関係指数を含んで良い。ユーザ入力割り当て記憶プロセスは、また、第3レベルノードのうちの1つと第2レベルノードのうちの1つとを有する複数のノード対について、第3レベルノードにより表されるドメインを第2レベルノードにより表されるエンティティタイプを割り当てられたエンティティ(又はエンティティのデータセット)に割り当てる受信したユーザ入力割り当ての数を表す第2関係指数を含んで良い。
図8の特定の例では、知識摂取モジュール132は、ユーザ知識としてユーザから、及びオントロジとして外部データソースから、知識ベース130に知識を取り込むことを担う。この知識は、オントロジを通じて又はユーザの専門知識を通じて、提供され得る。両者の場合に、知識摂取モジュール132は、OWLのようなオントロジ又は入力データセットのためにエンティティタイプ又はドメインを選択するユーザ入力割り当てにより提供された情報をパース及びロード可能なメカニズムを提供する。
図2の知識ベース130、及び他のコンポーネントとのその相互作用は、図9に更に詳細に示される。知識ベース130は、記憶装置又は複数の相互接続された記憶装置及びプロセッサを含む関連する管理装置である。知識ベース130は、エンティティタイプ認識モジュール110及びドメイン発見モジュール120にアクセス可能である。
図9の例示的な知識ベース130は、システムにより必要とされる知識を格納し及び供給することを担う。データ、及び該データにより表され知識ベースモジュール130に格納された知識は、エンティティタイプ認識モジュール110及びドメイン認識モジュール120による候補のスコア付け及び選択のために必要である。知識ベースモジュール130は、知識ベースレポジトリを有する。追加で、知識ベースモジュール130は、第1、第2、及び第3ユーザ重み並びに第1、第2、及び第3成分重みを含む候補をスコア付けする重みのスコア付けを計算するために、AIに基づくモデルを更に格納して良い。
知識ベース130は、標準化データプロパティ、エンティティタイプ、及びドメインの各々について、タイトル、ラベル、又は記述子を有するノードを含む概念階層を格納する。概念階層は、図10に示されるようなノード(親、近隣、関係、等)同士の関係も格納する。さらに、知識ベース130は、関連性並びに各要素及び関係のユーザ入力割り当て頻度統計を表す概念階層に注釈を追加して、スコア付け及びランク付けを計算するためにAIに基づくモデルをサポートする統計成分を提供して良い。
特定システムユーザ及び共同のシステムユーザの選好は、知識ベース130に格納される。特定記憶モードとして、概念階層は、特定プロパティの値を有する入力データセットへのエンティティタイプ及びドメインの過去のユーザ入力割り当てを表す関係と共に格納されて良い。この関係は、個々のエンティティタイプを表すエンティティタイプレベルノード(第2レベルノード)、個々のドメインを表すドメインレベルノード(第3レベルノード)、及び個々のプロパティを表すプロパティレベルノード(第1レベルノード)の間のものである。
例えば、図11は、オントロジを通じて取得された知識、及び共同でユーザにより導入された知識を格納するグラフデータ、並びにスコア付け及び重みのような統計メトリックにより共同ユーザ選好を格納するユーザ選好の表現を示す。ドメインレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、ドメインレベルノードにより表されるドメインの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの全てのシステムユーザによる過去の割り当てを表す。エンティティタイプレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、エンティティタイプレベルノードにより表されるエンティティタイプの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの全てのシステムユーザによる過去の割り当てを表す。
図12は、オントロジ及び特定システムユーザの選好(つまり、過去のユーザ入力割り当て)を通じて取得された知識を格納するグラフデータの表現を示す。ドメインレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、ドメインレベルノードにより表されるドメインの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの特定ユーザによる過去の割り当てを表す。エンティティタイプレベルノードとプロパティレベルノードとの間のグラフデータの中の関係は、エンティティタイプレベルノードにより表されるエンティティタイプの、プロパティレベルノードにより表されるプロパティの値を有する入力データセットへの特定システムユーザによる過去の割り当てを表す。
過去のユーザ入力割り当ては、表形式で格納されて良く、又は概念階層の中のグラフデータ内の若しくはユーザ選好を表すグラフデータ内のノード間のエッジに属するスコア及びメトリックにより表されて良い。スコア及びメトリックは、例えばW又はW’又はWを計算するために、ノードに属しても良い。知識ベースモジュール130は、グラフデータ内の及び概念階層内のノードの対をリンクするエッジについて、特定スコアを計算する統計メトリックを計算するプロセッサを有して良い。メトリックは、新しい知識の取得又はユーザ選好の格納により動的に変化する固有重みを取得するAIに基づき決定されて良い。
図2に示したコンポーネントに加えて、実施形態は、入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、複数の入力データセットの各々について、複数の物理記憶装置の中の物理記憶装置に入力データセットを割り当てるインデックス又はキーとして、選択された第2レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、を更に有して良い。
特定の例では、各第3レベルノードは、リコンサイルされたデータセット記憶機器の複数の物理記憶装置の中の個別物理記憶領域に対応し、入力データセットの各々は、個々の入力データセットのために選択された第3レベルノードに対応する個別物理記憶領域に割り当てられ、各個別物理記憶領域は、1又は複数の物理記憶装置を有し、該1又は複数の物理記憶装置の内部で、個々の入力データセットのために選択された第2レベルノードは、入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される。
図13は、本発明を実現し図5及び7の一実施形態の方法を実施するために使用できるサーバ、例えばデータ記憶サーバのようなコンピューティング装置のブロック図である。コンピューティング装置は、プロセッサ993、及びメモリ994を有する。任意で、コンピューティング装置は、他のコンピューティング装置、例えば本発明の実施形態の他のコンピューティング装置と通信するためのネットワークインタフェース997も有する。
例えば、一実施形態は、このようなコンピューティング装置のネットワークで構成されて良い。任意で、コンピューティング装置は、キーボード及びマウスのような1又は複数の入力メカニズム996、及び1又は複数のモニタのようなディスプレイユニット995も有する。コンポーネントは、バス992を介して互いに接続可能である。
メモリ994は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース及び/又は関連するキャッシュ及びサーバ)を表し得るコンピュータ可読媒体を有して良い。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置(例えば、1又は複数のプロセッサ)によりアクセス可能であり及び1又は複数の機能又は工程を実行させる命令及びデータを有して良い。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の1又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、RAM(Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、CD−ROM(Compact Disc Read−Only Memory)又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置(例えば、固体メモリ装置)を有し得る。
プロセッサ993は、コンピューティング装置を制御し、処理工程を実行し、例えば本願明細書及び請求の範囲に記載されるモジュール、コンポーネント、及びプロセスの様々な異なる機能を実施するためにメモリに格納されたコードを実行するよう構成される。メモリ994は、プロセッサ993によりリード及びライトされるデータを格納する。本願明細書で参照されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような1又は複数の汎用処理装置を含み得る。プロセッサは、CISC(complex instruction set computing)マイクロプロセッサ、RISC(reduced instruction set computing)マイクロプロセッサ、VLIW(very long instruction word)マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ASIC(application specific integrated circuit)、FPGA(field programmable gate array)、DSP(digital signal processor)、ネットワークプロセッサ、等のような1又は複数の特定目的処理装置も含み得る。1又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。
ディスプレイユニット997は、コンピューティング装置により格納されたデータの提示を表示して良く、ユーザとプログラムとコンピューティング装置に格納されたデータとの間の相互作用を可能にするカーソル及びダイアログボックス及びスクリーンも表示して良い。入力メカニズム996は、ユーザがデータ及び命令をコンピューティング装置に入力することを可能にし得る。
ネットワークインタフェース(ネットワークI/F)997は、インターネットのようなネットワークに接続され、ネットワークを介して他のコンピューティング装置に接続可能であって良い。ネットワークI/F997は、ネットワークを介して他の装置からのデータ入力/へのデータ出力を制御して良い。マイクロフォン、スピーカ、プリンタ、電源ユニット、ファン、筐体、スキャナ、トラックボール等のような他の周辺装置は、コンピューティング装置に含まれても良い。
図1、2、4及び9のエンティティタイプ認識モジュール110は、メモリ994に格納された処理命令(プログラム)を実行し及びネットワークI/F997を介してデータを交換するプロセッサ993(又はそれらの複数)であって良い。特に、プロセッサ993は、データプロパティ認識モジュール又は幾つかの他の入力メカニズムから入力データセットを特徴付けるデータプロパティのセットを受信し、概念階層及び格納された過去のユーザ入力割り当てに基づきデータプロパティのセットを処理して、ステップS501〜S511におけるように入力データセットについてエンティティタイプの選択又はユーザインタフェース140を介してユーザに提示するための複数の該エンティティタイプを生成する処理命令を実行する。さらに、プロセッサ993は、接続された記憶ユニットに入力データセットと共に選択されたエンティティタイプを格納する、及び/又は入力データセットのためにドメインを選択する際に使用するために、ネットワークI/F997を介してエンティティタイプ選択をドメイン認識モジュール120に送信する処理命令を実行して良い。
図1、2、6及び9のドメイン認識モジュール120は、メモリ994に格納された処理命令(プログラム)を実行し及びネットワークI/F997を介してデータを交換するプロセッサ993(又はそれらの複数)であって良い。特に、プロセッサ993は、データプロパティ認識モジュール又はエンティティタイプ認識モジュール110又は何らかの他の入力メカニズムから入力データセットを特徴付けるデータプロパティのセットを、及びエンティティタイプ認識モジュール110から入力データセットのためのエンティティタイプの選択を受信し、概念階層及び格納された過去のユーザ入力割り当てに基づきデータプロパティのセット及びエンティティタイプの選択を処理して、ステップS701〜S714におけるように、入力データセットのドメインの選択又はユーザインタフェース140を介してユーザに提示するための複数の該ドメインを生成する処理命令を実行する。さらに、プロセッサ993は、接続された記憶ユニットに入力データセットと共に選択されたドメインを格納する、及び/又は過去のユーザ入力割り当てとして記憶するために知識ベース摂取モジュール132を介して知識ベースモジュール130へ、エンティティタイプ選択、ドメイン選択、及びデータプロパティのセットを、ネットワークI/F997を介して送信する処理命令を実行して良い。
図1、2、4、6及び8のユーザインタフェース140は、メモリ994に格納された処理命令(プログラム)を実行し及びネットワークI/F997及び入力メカニズムを介してシステムユーザとデータを交換するプロセッサ993(又はそれらの複数)であって良い。特に、プロセッサ993は、複数のエンティティタイプ選択又はドメイン選択を個々の認識モジュールから受信し、該選択をユーザに提示し、及び入力データセットに割り当てるべき1つのエンティティタイプ又は1つのドメインを指定するユーザ入力割り当てを受信する処理命令を実行する。さらに、プロセッサ993は、ユーザ入力割り当てを知識ベース130に格納する及び/又はネットワークI/F997を介してドメイン認識モジュール120へ更なる処理のためにエンティティタイプのユーザ入力割り当てを送信する処理命令を実行して良い。
図1、2、4、6、8及び9の知識ベース130及び知識ベース摂取モジュール132は、メモリ994に格納された処理命令(プログラム)を実行するプロセッサ993(又はそれらの複数)であって良い。特に、プロセッサ993は、ネットワークI/Fを介してユーザインタフェース140からユーザ入力割り当てを受信し、ステップS503、S507、S702、S708、及びS710におけるように、エンティティタイプ認識モジュール110及びドメイン認識モジュール120によるアクセスのために複数の外部データソースからのオントロジ情報を表すモデルオントロジと一緒にユーザ入力割り当てを格納する処理命令を実行する。さらに、プロセッサ993は、過去のユーザ入力割り当ての記録及びモデルオントロジを知識ベースモジュール130に格納する処理命令を実行して良い。
本発明を実現する方法は、図13に示されたようなコンピューティング装置で実行されて良い。このようなコンピューティング装置は、図13に示した全てのコンポーネントを有する必要はなく、これらのコンポーネントのうちの部分集合で構成されて良い。本発明を具現化する方法は、ネットワークを介して1又は複数のデータ記憶サーバと通信する単一のコンピューティング装置により実行されて良い。コンピューティング装置は、リコンサイルされたデータセットを格納するデータ記憶装置自体であって良い。
本発明を実現する方法は、互いに協働して動作する複数のコンピューティング装置により実行されて良い。複数のコンピューティング装置のうちの1又は複数は、リコンサイルされた入力データセットの少なくとも一部を格納するデータ記憶サーバであって良い。
以上の実施形態に加え、更に以下の付記を開示する。
(付記1) モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、前記メモリは命令を格納し、該命令は、前記プロセッサにより実行されると前記プロセッサに、
概念階層を定めるモデルオントロジグラフを格納するステップを有するモデルオントロジ記憶プロセスであって、前記概念階層は、
前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有する、モデルオントロジ記憶プロセスを実行させ、
前記プロセッサは、
ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から前記第2レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に実行する、システム。
(付記2) 前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザIDにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザIDと関連して、前記複数のユーザのうちの1又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザIDに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザIDについて前記複数のノード対の前記第1関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザIDについて格納された前記第1関係指数に基づき、前記第2レベルノードを選択することを含む、
付記1に記載のシステム。
(付記3) 前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第1関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザについて格納された前記第1関係指数及び前記個々のユーザIDについて格納された前記第1関係指数の両方に基づき、前記第2レベルノードを選択することを含む、
付記2に記載のシステム。
(付記4) 前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第1レベルノードの各々について、前記モデルオントロジ内の前記個々の第1レベルノードにリンクされた前記の又は各第2レベルノードを第1候補セットに追加し、
前記第1候補セットの中の各第2レベルノードについて、前記モデルオントロジの中の前記第2レベルノードにリンクされた各第1レベルノードについて、
前記モデルオントロジグラフに格納された情報に基づき、前記第1レベルノードと前記第2レベルノードとの間の関係を定量化する第1オントロジ指数と、
前記第1関係指数であって、前記第1関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第1ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第1共同成分と、を有する、前記第1関係指数と、
前記第2レベルノードの第1候補スコアであって、前記第1候補スコアは、個々の第1オントロジ重みにより乗算した各第1オントロジ指数に、個々の第1ユーザ重みにより乗算した各第1ユーザ成分を加算し、個々の第1共同重みにより乗算した各第1共同成分を加算したものである、第1候補スコアと、
前記選択された第2レベルノードであって、第1候補スコアによりランク付けされたとき、前記第1候補セットのうち最大第1候補スコアを有する前記第2レベルノード、又は前記第1候補セットのうち上位n個の第2レベルノードの前記ユーザインタフェース上の提示のうち前記ユーザインタフェースを介して割り当てられた前記第2レベルノードである、前記選択された第2レベルノードと、
を計算する、
ことにより前記第2レベルノードを選択することを含む、付記3に記載のシステム。
(付記5) 第1レベルノードから第2レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第1レベルノードは前記モデルオントロジグラフの中で前記第2レベルノードにリンクされる、付記1に記載のシステム。
(付記6) 前記概念階層は、
前記概念階層の第3レベルにある第3レベルノードであって、各第3レベルノードは、個々のドメインを表し、前記グラフの中で1又は複数の第2レベルノードに及び1又は複数の第3レベルノードにリンクされる、第3レベルノード、を更に有し、
前記ユーザインタフェース・プロセスは、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値と、前記データセットの中の前記値により表されるエンティティに割り当てられた前記概念階層の第2レベルノードにより表されるエンティティタイプと、をそれぞれ有する複数の入力データセットの各々について、前記ユーザインタフェースを介して、第3レベルユーザ入力割り当てを受信することを含み、前記第3レベルユーザ入力割り当ては、第3レベルノードにより表されるドメインを前記データセットの中の前記値により表される前記エンティティに割り当て、
前記ユーザ入力割り当て記憶プロセスは、
前記第3レベルノードのうちの1つと前記第2レベルノードのうちの1つとを有する複数のノード対について、前記個々の第3レベルノードにより表される前記ドメインを前記第2レベルノードのより表される前記エンティティタイプに割り当てられたエンティティに割り当てる前記受信した第3レベルユーザ入力割り当ての数を表す第2関係指数を計算し格納し、
前記第3レベルノードのうちの1つと前記第1レベルノードのうちの1つとを有する複数のノード対について、前記個々の第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信した第3レベルユーザ入力割り当ての数を表す第3関係指数を計算し格納する、ことを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、
第3レベルノード及び前記選択された第2レベルノードの間の前記概念階層の中のリンクと、前記第3レベルノード及び前記選択された第2レベルノードの間の前記第2関係指数と、前記第3レベルノード及び前記受信した入力データセットの中のプロパティを表す第1レベルノードの間の前記概念階層の中のリンクと、前記第2レベルノード及び前記受信した入力データセットの中のプロパティを表す第1レベルノードの間の前記第3関係指数と、に基づき前記概念階層から第3レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値を有し、前記選択された第3レベルノードにリンクされた前記選択された第2レベルノードを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納し、前記第1レベルノードは前記選択された第2レベルノード及び前記選択された第3レベルノードの両方にリンクされる、ことを更に含む、
付記1に記載のシステム。
(付記7) 前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザIDにより前記システムに識別可能であり、
前記ユーザインタフェースは、前記個々のユーザIDと関連して、前記複数のユーザのうちの1又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザIDに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザIDについて前記複数のノード対の前記第2及び第3関係指数を計算し格納することを含み、
前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザIDについて格納された前記第2及び第3関係指数に基づき、前記第3レベルノードを選択することを含む、
付記6に記載のシステム。
(付記8) 前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第1関係指数を計算し格納することを更に含み、
前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザ及び前記個々のユーザIDの両方について格納された前記第2関係指数に基づき、及び共同で前記複数のユーザ及び前記個々のユーザIDの両方について格納された前記第3関係指数に基づき、前記第3レベルノードを選択することを含む、
付記7に記載のシステム。
(付記9) 前記入力データセット・リコンシリエーション・プロセスは、
値が前記入力データセットに含まれるプロパティを表す前記第1レベルノードの各々について、前記モデルオントロジの中の前記個々の第1レベルノードにリンクされた前記の又は各第3レベルノードを第2候補セットに追加し、
前記モデルオントロジの中の前記選択された第2レベルノードにリンクされた前記の又は各第3レベルノードを前記第2候補セットに追加し、
前記候補セットの中の各第3レベルノードについて、前記モデルオントロジの中の前記第3レベルノードにリンクされた第1レベルノード毎に、
前記モデルオントロジグラフに格納された情報に基づき、前記第1レベルノードと前記第3レベルノードとの間の関係を定量化する第3オントロジ指数と、
前記モデルオントロジグラフに格納された情報に基づき、前記選択された第2レベルノードと前記第3レベルノードとの間の関係を定量化する第2オントロジ指数と、
前記第3関係指数であって、前記第3関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第3ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第3共同成分と、を有する、前記第3関係指数と、
前記第2関係指数であって、前記第2関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記選択された第2レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第2ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記選択された第2レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第2共同成分と、を有する、前記第2関係指数と、
前記第3レベルノードの第2候補スコアであって、前記第2候補スコアは、第2オントロジ重みにより乗算した前記第2オントロジ指数に、第2オントロジ重みにより乗算した前記第2オントロジ指数を加算し、第3オントロジ重みにより乗算した前記第3オントロジ指数を加算し、第3ユーザ重みにより乗算した前記第3ユーザ成分を加算したものである、第2候補スコアと、
を計算する、
ことにより前記第3レベルノードを選択することを含み、
前記選択された第3レベルノードは、最大第2候補スコアを有する前記第2候補セットのメンバである、付記8に記載のシステム。
(付記10) 第1レベルノードから第3レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第1レベルノードは前記モデルオントロジグラフの中で前記第3レベルノードにリンクされ、
第2レベルノードから第3レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第2レベルノードは前記モデルオントロジグラフの中で前記第3レベルノードにリンクされる、
付記1に記載のシステム。
(付記11) 入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、
複数の入力データセットの各々について、前記複数の物理記憶装置の中の物理記憶装置に前記入力データセットを割り当てるインデックス又はキーとして、前記選択された第2レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、
を更に有する付記1に記載のシステム。
(付記12) 各第3レベルノードは、前記リコンサイルされたデータセット記憶機器の前記複数の物理記憶装置の中の個別物理記憶領域に対応し、前記入力データセットの各々は、前記個々の入力データセットのために選択された前記第3レベルノードに対応する前記個別物理記憶領域に割り当てられ、各個別物理記憶領域は、1又は複数の物理記憶装置を有し、該1又は複数の物理記憶装置の内部で、前記個々の入力データセットのために選択された前記第2レベルノードは、前記入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される、
付記6又は11に記載のシステム。
(付記13) モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む方法。
(付記14) コンピュータプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、コンピュータ機器により実行されると、前記コンピュータ機器に、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法を実行させ、前記コンピュータにより実施される方法は、
概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
前記概念階層は、
前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
前記コンピュータにより実施される方法は、
ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
入力データセット・リコンシリエーション・プロセスであって、
前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
を更に含む、非一時的コンピュータ可読記憶媒体。
110 エンティティタイプ認識モジュール
120 ドメイン認識モジュール
130 知識ベース
132 知識摂取モジュール
134 ユーザ知識
136 オントロジ
140 ユーザフィードバック
210 取得モジュール
220 データプロパティ認識

Claims (14)

  1. モデルオントロジにより入力データセットをリコンサイルするシステムであって、前記システムはメモリに結合されたプロセッサを有し、前記メモリは命令を格納し、該命令は、前記プロセッサにより実行されると前記プロセッサに、
    概念階層を定めるモデルオントロジグラフを格納するステップを有するモデルオントロジ記憶プロセスであって、前記概念階層は、
    前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
    前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有する、モデルオントロジ記憶プロセスを実行させ、
    前記プロセッサは、
    ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
    前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
    入力データセット・リコンシリエーション・プロセスであって、
    前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
    第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から前記第2レベルノードを選択し、
    個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
    を更に実行する、システム。
  2. 前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザIDにより前記システムに識別可能であり、
    前記ユーザインタフェースは、前記個々のユーザIDと関連して、前記複数のユーザのうちの1又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
    前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザIDに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザIDについて前記複数のノード対の前記第1関係指数を計算し格納することを含み、
    前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザIDについて格納された前記第1関係指数に基づき、前記第2レベルノードを選択することを含む、
    請求項1に記載のシステム。
  3. 前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第1関係指数を計算し格納することを更に含み、
    前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザについて格納された前記第1関係指数及び前記個々のユーザIDについて格納された前記第1関係指数の両方に基づき、前記第2レベルノードを選択することを含む、
    請求項2に記載のシステム。
  4. 前記入力データセット・リコンシリエーション・プロセスは、
    値が前記入力データセットに含まれるプロパティを表す前記第1レベルノードの各々について、前記モデルオントロジ内の前記個々の第1レベルノードにリンクされた前記の又は各第2レベルノードを第1候補セットに追加し、
    前記第1候補セットの中の各第2レベルノードについて、前記モデルオントロジの中の前記第2レベルノードにリンクされた各第1レベルノードについて、
    前記モデルオントロジグラフに格納された情報に基づき、前記第1レベルノードと前記第2レベルノードとの間の関係を定量化する第1オントロジ指数と、
    前記第1関係指数であって、前記第1関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第1ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第1共同成分と、を有する、前記第1関係指数と、
    前記第2レベルノードの第1候補スコアであって、前記第1候補スコアは、個々の第1オントロジ重みにより乗算した各第1オントロジ指数に、個々の第1ユーザ重みにより乗算した各第1ユーザ成分を加算し、個々の第1共同重みにより乗算した各第1共同成分を加算したものである、第1候補スコアと、
    前記選択された第2レベルノードであって、第1候補スコアによりランク付けされたとき、前記第1候補セットのうち最大第1候補スコアを有する前記第2レベルノード、又は前記第1候補セットのうち上位n個の第2レベルノードの前記ユーザインタフェース上の提示のうち前記ユーザインタフェースを介して割り当てられた前記第2レベルノードである、前記選択された第2レベルノードと、
    を計算する、
    ことにより前記第2レベルノードを選択することを含む、請求項3に記載のシステム。
  5. 第1レベルノードから第2レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第1レベルノードは前記モデルオントロジグラフの中で前記第2レベルノードにリンクされる、請求項1に記載のシステム。
  6. 前記概念階層は、
    前記概念階層の第3レベルにある第3レベルノードであって、各第3レベルノードは、個々のドメインを表し、前記グラフの中で1又は複数の第2レベルノードに及び1又は複数の第3レベルノードにリンクされる、第3レベルノード、を更に有し、
    前記ユーザインタフェース・プロセスは、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値と、前記データセットの中の前記値により表されるエンティティに割り当てられた前記概念階層の第2レベルノードにより表されるエンティティタイプと、をそれぞれ有する複数の入力データセットの各々について、前記ユーザインタフェースを介して、第3レベルユーザ入力割り当てを受信することを含み、前記第3レベルユーザ入力割り当ては、第3レベルノードにより表されるドメインを前記データセットの中の前記値により表される前記エンティティに割り当て、
    前記ユーザ入力割り当て記憶プロセスは、
    前記第3レベルノードのうちの1つと前記第2レベルノードのうちの1つとを有する複数のノード対について、前記個々の第3レベルノードにより表される前記ドメインを前記第2レベルノードのより表される前記エンティティタイプに割り当てられたエンティティに割り当てる前記受信した第3レベルユーザ入力割り当ての数を表す第2関係指数を計算し格納し、
    前記第3レベルノードのうちの1つと前記第1レベルノードのうちの1つとを有する複数のノード対について、前記個々の第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信した第3レベルユーザ入力割り当ての数を表す第3関係指数を計算し格納する、ことを更に含み、
    前記入力データセット・リコンシリエーション・プロセスは、
    第3レベルノード及び前記選択された第2レベルノードの間の前記概念階層の中のリンクと、前記第3レベルノード及び前記選択された第2レベルノードの間の前記第2関係指数と、前記第3レベルノード及び前記受信した入力データセットの中のプロパティを表す第1レベルノードの間の前記概念階層の中のリンクと、前記第2レベルノード及び前記受信した入力データセットの中のプロパティを表す第1レベルノードの間の前記第3関係指数と、に基づき前記概念階層から第3レベルノードを選択し、
    個々の第1レベルノードにリンクされた前記複数のプロパティの前記値を有し、前記選択された第3レベルノードにリンクされた前記選択された第2レベルノードを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納し、前記第1レベルノードは前記選択された第2レベルノード及び前記選択された第3レベルノードの両方にリンクされる、ことを更に含む、
    請求項1に記載のシステム。
  7. 前記システムは複数のユーザによりアクセス可能であり、各ユーザは個々のユーザIDにより前記システムに識別可能であり、
    前記ユーザインタフェースは、前記個々のユーザIDと関連して、前記複数のユーザのうちの1又は複数から前記複数のデータセットの各々について前記ユーザ入力割り当てを受信し、
    前記ユーザ入力割り当て記憶プロセスは、前記個々のユーザIDに関連するユーザ入力割り当てに基づき、前記複数のユーザから個別ユーザIDについて前記複数のノード対の前記第2及び第3関係指数を計算し格納することを含み、
    前記入力データセット・リコンシリエーション・プロセスは、前記複数のユーザの中のユーザからの命令に従い実行され、前記個々のユーザIDについて格納された前記第2及び第3関係指数に基づき、前記第3レベルノードを選択することを含む、
    請求項6に記載のシステム。
  8. 前記ユーザ入力割り当て記憶プロセスは、共同で前記複数のユーザから受信したユーザ入力割り当てに基づき、前記第1関係指数を計算し格納することを更に含み、
    前記入力データセット・リコンシリエーション・プロセスは、共同で前記複数のユーザ及び前記個々のユーザIDの両方について格納された前記第2関係指数に基づき、及び共同で前記複数のユーザ及び前記個々のユーザIDの両方について格納された前記第3関係指数に基づき、前記第3レベルノードを選択することを含む、
    請求項7に記載のシステム。
  9. 前記入力データセット・リコンシリエーション・プロセスは、
    値が前記入力データセットに含まれるプロパティを表す前記第1レベルノードの各々について、前記モデルオントロジの中の前記個々の第1レベルノードにリンクされた前記の又は各第3レベルノードを第2候補セットに追加し、
    前記モデルオントロジの中の前記選択された第2レベルノードにリンクされた前記の又は各第3レベルノードを前記第2候補セットに追加し、
    前記候補セットの中の各第3レベルノードについて、前記モデルオントロジの中の前記第3レベルノードにリンクされた第1レベルノード毎に、
    前記モデルオントロジグラフに格納された情報に基づき、前記第1レベルノードと前記第3レベルノードとの間の関係を定量化する第3オントロジ指数と、
    前記モデルオントロジグラフに格納された情報に基づき、前記選択された第2レベルノードと前記第3レベルノードとの間の関係を定量化する第2オントロジ指数と、
    前記第3関係指数であって、前記第3関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第3ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第3共同成分と、を有する、前記第3関係指数と、
    前記第2関係指数であって、前記第2関係指数は、前記入力データセット・リコンシリエーション・プロセスを指示する前記ユーザの前記ユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記選択された第2レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第2ユーザ成分と、共同で前記複数のユーザIDに関連して格納された前記ユーザ入力割り当てから、前記第3レベルノードにより表される前記ドメインを前記選択された第2レベルノードにより表される前記エンティティタイプのエンティティに割り当てる前記受信したユーザ入力割り当ての数を定量化する第2共同成分と、を有する、前記第2関係指数と、
    前記第3レベルノードの第2候補スコアであって、前記第2候補スコアは、第2オントロジ重みにより乗算した前記第2オントロジ指数に、第2オントロジ重みにより乗算した前記第2オントロジ指数を加算し、第3オントロジ重みにより乗算した前記第3オントロジ指数を加算し、第3ユーザ重みにより乗算した前記第3ユーザ成分を加算したものである、第2候補スコアと、
    を計算する、
    ことにより前記第3レベルノードを選択することを含み、
    前記選択された第3レベルノードは、最大第2候補スコアを有する前記第2候補セットのメンバである、請求項8に記載のシステム。
  10. 第1レベルノードから第3レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第1レベルノードは前記モデルオントロジグラフの中で前記第3レベルノードにリンクされ、
    第2レベルノードから第3レベルノードまでの前記概念階層の中に単方向連続経路エッジ又は1つのエッジが存在する場合、前記第2レベルノードは前記モデルオントロジグラフの中で前記第3レベルノードにリンクされる、
    請求項1に記載のシステム。
  11. 入力データセットを格納する複数の物理記憶装置を含むリコンサイルされたデータセット記憶機器と、
    複数の入力データセットの各々について、前記複数の物理記憶装置の中の物理記憶装置に前記入力データセットを割り当てるインデックス又はキーとして、前記選択された第2レベルノードを使用することを含むプロセスを実行するよう構成されるリコンサイルされたデータセット記憶制御部と、
    を更に有する請求項1に記載のシステム。
  12. 各第3レベルノードは、前記リコンサイルされたデータセット記憶機器の前記複数の物理記憶装置の中の個別物理記憶領域に対応し、前記入力データセットの各々は、前記個々の入力データセットのために選択された前記第3レベルノードに対応する前記個別物理記憶領域に割り当てられ、各個別物理記憶領域は、1又は複数の物理記憶装置を有し、該1又は複数の物理記憶装置の内部で、前記個々の入力データセットのために選択された前記第2レベルノードは、前記入力データセットを物理記憶装置に割り当てるインデックス又はキーとして使用される、
    請求項6又は11に記載のシステム。
  13. モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法であって、前記コンピュータにより実施される方法は、
    概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
    前記概念階層は、
    前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
    前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
    前記コンピュータにより実施される方法は、
    ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
    前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
    入力データセット・リコンシリエーション・プロセスであって、
    前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
    第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
    個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
    を更に含む方法。
  14. コンピュータプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、コンピュータ機器により実行されると、前記コンピュータ機器に、モデルオントロジにより入力データセットをリコンサイルする、コンピュータにより実施される方法を実行させ、前記コンピュータにより実施される方法は、
    概念階層を定めるモデルオントロジグラフを格納するモデルオントロジ記憶プロセス、を有し、
    前記概念階層は、
    前記概念階層の第2レベルにある第2レベルノードであって、各第2レベルノードは個々のエンティティタイプを表す、第2レベルノードと、
    前記概念階層の第1レベルにある第1レベルノードであって、各第1レベルノードは個々のプロパティを表し、前記グラフ内で1又は複数の第2レベルノードにリンクされている、第1レベルノードと、を有し、
    前記コンピュータにより実施される方法は、
    ユーザインタフェースを介して、前記概念階層の第1レベルノードにより表される1又は複数のプロパティの値をそれぞれ有する複数の入力データセットの各々について、第2レベルユーザ入力割り当てを受信し、第2レベルノードにより表されるエンティティタイプを前記データセットの中の前記値により表されるエンティティに割り当てる、ユーザインタフェース・プロセスと、
    前記第2レベルノードのうちの1つ及び前記第1レベルノードのうちの1つを有する複数のノード対について、前記第2レベルノードにより表される前記エンティティタイプを前記第1レベルノードにより表される前記プロパティの値により表されるエンティティに割り当てる前記受信したユーザ入力割り当ての数を表す第1関係指数を計算し及び格納する、ユーザ入力割り当て記憶プロセスと、
    入力データセット・リコンシリエーション・プロセスであって、
    前記概念階層の第1レベルノードにより表される複数のプロパティの値を有する入力データセットを受信し、
    第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記概念階層の中のリンク、及び前記第2レベルノードと前記受信した入力データセットの中のプロパティを表す第1レベルノードとの間の前記第1関係指数に基づき、前記概念階層から第2レベルノードを選択し、
    個々の第1レベルノードにリンクされた前記複数のプロパティの前記値と前記選択した第2レベルノードにリンクされた前記第1レベルノードとを有するグラフデータとして、リコンサイルされたデータセット記憶に前記入力データセットを格納する、入力データセット・リコンシリエーション・プロセスと、
    を更に含む、非一時的コンピュータ可読記憶媒体。
JP2018054434A 2017-05-22 2018-03-22 モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム Pending JP2018198048A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17172293.7A EP3407207A1 (en) 2017-05-22 2017-05-22 System, method, and program for reconciling input datasets with a model ontology
EP17172293.7 2017-05-22

Publications (1)

Publication Number Publication Date
JP2018198048A true JP2018198048A (ja) 2018-12-13

Family

ID=58765742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018054434A Pending JP2018198048A (ja) 2017-05-22 2018-03-22 モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム

Country Status (3)

Country Link
US (1) US10901959B2 (ja)
EP (1) EP3407207A1 (ja)
JP (1) JP2018198048A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227018B2 (en) * 2019-06-27 2022-01-18 International Business Machines Corporation Auto generating reasoning query on a knowledge graph
US12001441B2 (en) * 2019-09-04 2024-06-04 American Express Travel Related Services Company, Inc. Systems and methods for generating graphical relationship maps
US11379710B2 (en) 2020-02-28 2022-07-05 International Business Machines Corporation Personalized automated machine learning
US11928526B1 (en) * 2023-09-12 2024-03-12 Prodx, Llc Data analytics for digital catalogs
CN117349386B (zh) * 2023-10-12 2024-04-12 吉玖(天津)技术有限责任公司 一种基于数据强弱关联模型的数字人文应用方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066823A1 (en) * 2005-03-30 2013-03-14 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US8849860B2 (en) * 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US9177248B2 (en) * 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US20120166371A1 (en) * 2005-03-30 2012-06-28 Primal Fusion Inc. Knowledge representation systems and methods incorporating data consumer models and preferences
US20130046723A1 (en) * 2005-03-30 2013-02-21 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US9135238B2 (en) 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US9135240B2 (en) * 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system
EP3001329A1 (en) * 2014-09-25 2016-03-30 Fujitsu Limited Method, controller, program and data storage system for performing reconciliation processing
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
JP6787087B2 (ja) 2016-10-21 2020-11-18 富士通株式会社 データプロパティ認識のための装置、方法及びプログラム

Also Published As

Publication number Publication date
US20180336221A1 (en) 2018-11-22
EP3407207A1 (en) 2018-11-28
US10901959B2 (en) 2021-01-26

Similar Documents

Publication Publication Date Title
US11500818B2 (en) Method and system for large scale data curation
JP2018198048A (ja) モデルオントロジにより入力データセットをリコンサイルするシステム、方法、及びプログラム
US11238109B2 (en) Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
JP6787087B2 (ja) データプロパティ認識のための装置、方法及びプログラム
US20190347347A1 (en) Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
US8209407B2 (en) System and method for web service discovery and access
US11593665B2 (en) Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
Chen et al. Label-free node classification on graphs with large language models (llms)
EP3131021A1 (en) Hybrid data storage system and method and program for storing hybrid data
JP2013519138A (ja) アイテム関連付けのための結合埋込
Rallapalli et al. Predicting the risk of diabetes in big data electronic health Records by using scalable random forest classification algorithm
KR101739540B1 (ko) 통합 지식베이스 구축 시스템 및 방법
Chikkamannur Semantic Annotation of IoT Resource with ontology orchestration
JP2021507340A (ja) コンピュータによって実施される方法、システムおよびコンピュータ・プログラム
RU2692048C2 (ru) Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора
US12008050B2 (en) Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
WO2017198087A1 (en) Feature-set augmentation using knowledge engine
US11782918B2 (en) Selecting access flow path in complex queries
JP6942672B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Möller et al. Towards an architecture to support data access in research data spaces
Petrova AI for BIM-based sustainable building design: Integrating knowledge discovery and semantic data modelling for evidence-based design decision support
KR20210017045A (ko) 건물에 대한 voc 데이터를 예측하는 서버, 방법 및 컴퓨터 프로그램
Kehagias et al. An ontology‐based mechanism for automatic categorization of web services
TWI824700B (zh) 自動化機器學習系統、方法及其電腦可讀媒介
KR20140047219A (ko) 콘텐츠를 제공하는 방법 및 콘텐츠 서버