JP6787087B2

JP6787087B2 - データプロパティ認識のための装置、方法及びプログラム

Info

Publication number: JP6787087B2
Application number: JP2016233526A
Authority: JP
Inventors: ムニョス・マヌエルペーニャ; ヤーベス・アレハンドロ; ラトーレ・ビクトールデ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-10-21
Filing date: 2016-11-30
Publication date: 2020-11-18
Anticipated expiration: 2036-11-30
Also published as: US20180113888A1; JP2018067278A; EP3312736A1

Description

本発明は、データサイエンスの分野に属し、特に、複数のデータソースからのデータエントリの認識の自動化に関係がある。

今日、データサイエンスの分野において、最も時間を要するタスクは、抽出／変換／ロード（ＥＴＬ；Extract-Transform-Load）タスクであり、このタスクは、データ科学者の時間のおよそ６０〜７０％を消費し、価値の低いタスクである。時間及び資源を節約するために如何にしてデータを自動的に取り込んで解釈するかは、自動発話認識のような研究分野と並行した技術的課題である。データ取り込みタスクの完全な又は部分的な自動化は、付加価値のあるタスクを実行するためにより多くの時間を費やすことをデータ科学者に可能にする。

データ科学者は、データを体系化しクリーニングするために時間を費やす。この時間は、モデリング又はデータマイニングのようなプロシージャに対してより良く費やされ得る。ワールド・ワイド・ウェブ・コンソーシアム（Ｗ３Ｃ；World Wide Web Consortium）のような標準化団体は、データの公開及び共有を容易にするためのフォーマット及び最良の実施を提案することに長年取り組んできた。しかし、全てのデータプロバイダが、彼らのデータを標準に従って公開するわけではない。更には、ほとんどの標準は、データモデルのシンタックスに焦点を合わせ、データセマンティクスについて忘れている。このことは、異なるソースからのデータが交換されマージされる場合に、例えば、２つのデータセットが異なる名称を用いて同じデータプロパティを参照する場合に、意味的相互運用（semantic interoperability）の問題をしばしば生じさせる。

データサイエンスの分野において、データプロパティを自動的に認識し提言するいくつかの試みは、今までのところは極めて制限されてきた。従来、概括的な言葉でデータを識別し認識する試みのほとんどは、意味的及び統語的技術に焦点を合わせられている。

データセットにおけるデータプロパティの識別は複雑であり、適切なメタデータが利用可能でない場合に時間がかかる。

本発明の実施形態は、データプロパティ認識装置を含む。データプロパティ認識装置は、データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、該クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、該比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャとを有する。

有利なことに、実施形態は、データエントリの組に含まれる個々のデータエントリによって表されるプロパティの意味的表現である記述子を、データソースからのデータエントリのクエリセットについて認識するマシンのためのメカニズムを提供する。データソースからのデータエントリのクエリセットは、データプロパティ認識装置によりインテリジェントにリコンサイルド（reconciled）データ記憶部に取り込まれる。データプロパティ認識装置は、統計的特徴のベクトル（クエリ特徴ベクトル）を統計的特徴のリファレンスベクトル（リファレンス特徴ベクトル）の記憶されている組と比較することによって、取り込まれているデータエントリ（データエントリのクエリセット）を解釈し、そのようにして、リファレンスベクトルの記憶されている組の中のベストマッチと関連する記述子を、解釈されているデータエントリに帰属させる働きをする。

特徴ベクトルは、人間の指紋と同様に、データプロパティの一意の表現である。特徴ベクトルは、データエントリの組についての一意の識別子を提供することから、データプロパティフィンガープリントと呼ばれてよい。データエントリの組にプロパティは、データセット、データベース、又はデータソースの属性である。データプロパティ認識装置は、データエントリのモデルセットと関連付けて記憶されているプロパティ記述子の中からあるプロパティ記述子を認識して、リコンサイルドデータ記憶部に加えられるデータエントリのクエリセットと関連付ける。

データエントリのクエリセットは、関連データベースからのエントリであってよく、データエントリのクエリセットは、データエントリのコラムである。代替的に、又は追加的に、データエントリのクエリセットは、グラフデータベースにおけるオブジェクトとして記憶されている要素であってよく、オブジェクトは、共通のラベルを共有するアークによってサブジェクトエンティティへグラフにおいてリンクされる。

データエントリのモデルセットは、関連データベースにおけるラベルを付されたコラムからのエントリであってよく、それにより、夫々のコラムのデータエントリは、データエントリのモデルセットとして取得され、コラムのラベルは、モデルセットにおける個々のデータエントリによって共通して表されるプロパティの記述子として記憶される。代替的に、又は追加的に、データエントリのモデルセットは、グラフデータベースにおけるオブジェクトとして記憶されている要素であってよく、オブジェクトは、共通のラベルを共有するアークによってサブジェクトエンティティへグラフに置いてリンクされ、共通のラベルは、データエントリが共通して表すプロパティの記述子である。

異種のデータソースにおけるプロパティについてのラベルの意味的解析に依存することよりむしろ、記憶部によって記憶されているリファレンス特徴ベクトルの組は、データエントリの組を比較するために、且つ、それらが同じプロパティを表すデータエントリである（同じプロパティ記述子に帰属されるべき）か否かを判定するために、データ挙動（behaviour）の統計的比較のための手段を提供する。エンティティが同じであることは、不要である。すなわち、データプロパティ認識装置は、同じ、重なり合った、又は重なり合っていないエンティティについてであろうとなかろうと、同じプロパティを表すデータエントリの組が、データエントリのそれらの組のうちの１つが異なるプロパティを表すデータエントリの組と整合することよりも、統計的意味に関してより良く整合するとの仮定を利用する。

データエントリのモデルセットは、データエントリとエントリによって表されるプロパティの記述子との間の関係が、リコンサイルドデータ記憶部に加えられるデータにおいて複製されるべきであることを示すモデルと呼ばれる。すなわち、データエントリの組によって表されるプロパティの意味的表現（記述子）とデータエントリとの間の関係は、他のソースからのデータセットが比較及び／又は適合され得るモデルである。

ベクトル比較は、データエントリのモデルセットの記述子を順位付けし、ベストマッチの記述子を選択する基礎を提供する。実施形態はまた、そのような順位付け及び選択を実施する基礎として意味的比較を利用する。

ベクトル比較は、コサイン距離（cosine distance）比較であってよい。ベクトル比較は、夫々のコンポーネントの比較であってよく（比較されるコンポーネントは、同じ統計的特徴の値を表す。）、コンポーネント比較は、ベクトル比較の計算における重み付けに帰属される。

リコンサイルドスキーマ（reconciled schema）に従って複数のソースからデータを記憶することは、ヘルスケア、エネルギ、輸送及び他を含む技術領域において実装されている。共通の特徴は、モデルスキーマを提供するためのデータプロパティ認識及びリファレンスデータの使用である。

任意に、前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果の両方に基づく。

例えば、ベクトル比較及び意味的比較の両方は、類似スコアを生成してよい。類似スコアは、順位付けにおける位置を定める総類似スコアを生成するように（例えば、乗法又は加重乗法によって）正規化され結合され得る。意味的比較は、例えば、文字列距離比較、又はグラフに基づくオントロジーモデルにおける夫々の記述子の間の最短距離を見つけること、であってよい。

有利なことに、意味的比較は、比較される２つの記述子の類似に関する更なる情報を提供し、従って、順位付けは、更なる情報を含み、ベストマッチの記述子の選択は、更なる情報に基づき、よって、精度が改善する。

実施形態は、前記リコンサイルドデータマネージャが、データプロパティ認識装置のユーザの承認を条件に、ベストマッチの記述子とともにリコンサイルドデータ記憶部にデータエントリのクエリセットを加えるよう構成されるように、構成されてよい。特に：
任意に、前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される。

前記インターフェイスは、クエリデータエントリの表現及び記述子を更に有してよい。クエリデータエントリは、記述子と関連付けてネイティブ・データソースにおいて記憶され、ネイティブ・データソースから、ユーザの選択を知らせるようクエリプロセッサによって取得される。前記インターフェイスは、ユーザにより制御されるクライアントデバイスとデータプロパティ認識装置との間のネットワーク接続にわたって、前記ユーザにより制御されるクライアントデバイスへ出力されてよい。

有利なことに、ユーザは、リコンサイルドデータ記憶部へのデータエントリのクエリセットの取り込みに対して何らかの制御を保持するが、既存のＥＴＬ技術と比較して、必要とされる手動介入の量は最小限である。

更には、前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位ｎ個の記述子を選択可能な記述子として有し、前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの１つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される。

上位ｎ（ｎは正の整数であり、例えば、２又は３である。）個の記述子が出力される実施形態は、データエントリのモデルセットのスキーマに従うように記述子の選択をハード・ワイヤリングする利点を有するが、リコンサイルドデータ記憶部への取り込み時にどの記述子がデータエントリのクエリに帰属されるかを制御する何らかの能力を依然としてユーザに与える。

任意に、夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、前記順位付けは、集計結果数字の順である。

任意に、上位ｎ個の記述子を有する前記ユーザインターフェイスはまた、該ユーザインターフェイスに含まれる前記上位ｎ個の記述子の夫々の集計結果値を示す。

前記モデルは、例えば、加重乗法又は加重平均のような式であってよい。

実施形態のデータプロパティ認識装置は、前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位ｎ個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することとに少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサを更に有してよい。

前記モデルトレーニングプロセッサは、人工知能プログラム又はプロセッサで実行されるアルゴリズムである。

クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスはトレーニングサンプルであり、特にそのために設計されてよい。代替的に、データエントリのクエリセットの複数のインスタンスは、単に、データエントリのモデルセットとリコンサイルされるべきデータソースからのデータエントリのセットであり、前記モデルトレーニングプロセッサは、前記モデルが一番上の記述子をユーザ選択とより良く適合させるよう如何にして適応され得るかを学習するために、上位ｎ個の記述子及び入力選択をモニタする。前記モデルは、デフォルトのパラメータにより開始され、次いで、モニタリング及び再設定のトレーニングフェーズの後に前記モデルトレーニングプロセッサによって更新されてよい。

実施形態は、複数のサポートされているデータタイプに制限されてよい。例えば：前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である。

実行されるベクトル比較は、弁別子としてデータタイプを用いる前処理ステップを有してよい。特に、前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であってよく、前記比較は、前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、前記前処理ステップの前記比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることとを有してよい。

クエリ特徴ベクトルは、データエントリのクエリセットについて生成された特徴ベクトルである。特徴ベクトルの構成、すなわち、それらが含む統計的特徴は、データタイプに特有であってよく、それにより、特徴ベクトルは、データタイプが当該特徴ベクトルから識別可能であるためにデータタイプを明示的に特定しなくてよい。代替的に、データエントリの組についての特徴ベクトルは、データエントリの組のデータタイプを明示的に識別するエントリを含んでよい。

特徴ベクトル内の統計的特徴の比較は、同じデータタイプのデータエントリの組を表す特徴ベクトル間でのみ実行される。従って、データタイプの比較は、ベクトル比較のための前処理ステップであると見なされ得る。

相似値はベクトル比較の結果である。ベクトル比較は、例えば、２つの特徴ベクトルのコサイン距離比較であって、０（最小）から１（最大）までの相似値を生成してよい。

有利なことに、２つの特徴ベクトルのベクトル比較は、ふた組のデータエントリを比較する計算上効率的な方法である。特徴ベクトルを生成する処理オーバーヘッドは、データエントリのクエリセットについての特徴ベクトルと特徴ベクトルのリファレンスセットとの間の比較の容易さにおいて報われる。従って、実施形態は、リファレンスベクトルの非常に大きい組に対して拡張可能である。

統計的特徴に関する特徴ベクトルの構成は、実施に依存し、ユーザインターフェイスを介して実行時にユーザによって、又は設計時に、選択されてよい。特徴ベクトルは、サポートされているデータタイプのどれが、特徴ベクトルが生成されたデータエントリの組であるかを識別するデータを含んでよい。実施形態は、夫々のデータタイプについて、どの統計的特徴が特徴ベクトルにおいてどのような順に記憶されているかの記録を更に記憶してよい。そのような記録は、特徴ベクトルスキーマを形成する。

他の態様の実施形態は、データプロパティ認識方法を含む。データプロパティ認識方法は、データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、データエントリのクエリセットをデータソースから得、前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えることを有する。

他の態様の実施形態は、コンピュータ装置によって実行される場合に、該コンピュータ装置を、本発明の実施形態として先に定義されたコンピュータ装置として機能させるコンピュータプログラムを含む。

他の態様の実施形態は、コンピュータ装置によって実行される場合に、該コンピュータ装置に、本発明の実施形態として本願において先に又は別なところで定義された方法を実行させるコンピュータプログラムを含む。

更には、本発明の実施形態は、複数の相互接続されたコンピュータデバイスによって実行される場合に、該複数の相互接続されたコンピュータデバイスに、本発明を具現する方法を実行させるコンピュータプログラム又はコンピュータプログラムの組を含む。

本発明の実施形態はまた、複数の相互接続されたコンピュータデバイスによって実行される場合に、該複数の相互接続されたコンピュータデバイスを、本発明の実施形態として本願において先に又は別なところで定義されたコンピュータ装置として機能させるコンピュータプログラム又はコンピュータプログラムの組を含む。

実施形態の詳細な説明は、添付の図面を参照して、以下で示される。

装置の実施形態の概略図である。実施形態の方法を表す。他の装置の実施形態の概略図である。特徴ベクトル生成プロセッサを表す。フィールド正規化モジュールの機能を表す。特徴ベクトル生成モジュールの機能を表す。比較プロセッサの機能を表す。意味的比較プロセッサの機能を表す。意味的比較プロセッサによって実行される処理のフローチャートである。装置の実施形態の例となるハードウェア構成を表す。

図１は、実施形態のデータプロパティ認識装置１０を表す。データプロパティ認識装置１０は、次のコンポーネントを有する：リファレンスデータ記憶部１１、リコンサイルドデータ記憶マネージャ１２ａ、リコンサイルドデータ記憶部１２ｂ、クエリプロセッサ１４、特徴ベクトル生成プロセッサ１６、比較プロセッサ１７、及びプロパティ記述子選択プロセッサ１８。プロセッサコンポーネントは、記憶されているプロセッシング命令を実行してそれらの割り当てられている機能を実行し、且つ、プロセッシングの間にデータを記憶するメモリと、データプロパティ認識装置１０の外にあるエンティティとデータを交換するＩ／Ｏハードウェアとを含む他のハードウェアを利用するプログラムされたプロセッサである。

図２は、実施形態のデータプロパティ認識方法を表す。

データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有するステップは、図２のステップＳ２０１によって表されている。ステップＳ２０１を横切る線は、記憶がステップＳ２０２からＳ２０６の実行の間に存続することを示す。ステップＳ２０１におけるデータエントリの複数のモデルセットの記憶は、図１のリファレンスデータ記憶部１１によって実行されてよい。

リファレンスデータ記憶部１１は、データエントリの複数のモデルセットを記憶する。データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶される。リファレンス特徴ベクトルは、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する。

データエントリの組（すなわち、データエントリのモデルセット又はデータエントリのクエリセット）は、同じプロパティの値を表すこと（すなわち、記憶すること）に基づいて組を形成する複数のデータエントリである。関連データベースに関して、データエントリの組は、データエントリのコラムである。グラフデータベースに関して、データエントリの組は、同じラベルを有するラベルを付されたエッジによってそれらの夫々のサブジェクトエンティティへリンクされたオブジェクト値である。データエントリは、単一のデータ値であってよく、あるいは、２つのデータ値（タプル）又は、いくつかの場合に、３つ以上のデータ値を有してよい。

データエントリのモデルセットに共通するプロパティは、値がデータエントリのそのモデルセットにおける各データエントリによって提供されるプロパティである。プロパティの記述子（プロパティ記述子）は、プロパティの意味的表現又は意味的記述である。記述子は、データエントリの組に含まれるエントリによって表されるプロパティが、人間がデータを解析することによってだけでなく、他のマシンがデータにアクセスすることによっても識別されるための手段を提供するので、技術データの重要な部分である。換言すれば、適切な記述子を用いてデータエントリに適切にラベルを付すことによって、データエントリ及びそれらの有意性はマシンによって解釈され得る。

リファレンス特徴ベクトルと関連付けて記憶される記述子は、ユーザにより割り当てられてよい（このとき、ユーザは、データプロパティ認識装置のユーザを指す。）。例えば、ユーザは、他のデータソースがリコンサイルされるべきであるスキーマを有するリファレンスデータソースを（インターフェイスを介して）割り当ててよい。リファレンスデータソースにおけるデータエントリの組は、ユーザによって割り当てられたプロパティ記述子及びリファレンス特徴ベクトルとともに、取得されてデータエントリのモデルセットとして記憶される。リファレンス特徴ベクトルは、例えば、特徴ベクトル生成プロセッサ１６によって生成されてよい。ユーザによって割り当てられたプロパティ記述子は、いずれにしても、関連データベースからのコラムラベル又はグラフデータベースからの述部（predicate）（エッジラベル）であってよい。記述子は、リファレンスデータソースのユーザ選択により、ユーザにより割り当てられると見なされる。さもなければ、ユーザは、データエントリの各モデルセットについてのプロパティ記述子をユーザインターフェイスを介して具体的にプロンプトされてよい。

リファレンスデータ記憶部１１は、管理部、すなわち、リファレンスデータ記憶部１１によって記憶されているデータへのリード（read）及びライト（write）アクセスを制御するソフトウェア、を含んでよい。

データエントリのクエリセットをデータソースから得るステップは、図２のステップＳ２０２によって表されている。図２の得るステップＳ２０２は、図１のクエリプロセッサ１４によって実行されてよい。

クエリプロセッサ１４は、データプロパティ認識装置１０の外にあるデータソース２０からデータエントリのクエリセットを得るよう構成される。データソース２０は、データエントリのモデルセットとリコンサイルされるべきデータエントリを含むデータソース又は１つ以上のデータソースの夫々であってよい。すなわち、データソース（又はそれからのデータエントリの組）は、データエントリのリファレンスセットのスキーマに従って、リコンサイルドデータ記憶部１２ｂにおいて記憶されるべきである。データソース２０は、データプロパティ認識装置１０のユーザによってデータソース２０として割り当てられてよい。そのデータソース２０から、クエリプロセッサ１４は、処理及びリコンサイルドデータ記憶部１２ｂにおける記憶のためにデータエントリの組を得るべきである。加えて、データソース２０からのデータエントリの特定の組は、クエリプロセッサ１４によって得られるべきデータエントリのクエリセットとしてユーザによって識別されてよい。

データエントリのクエリセットについて統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルするステップは、図２のステップＳ２０３によって表されている。値を生成し、特徴ベクトルをコンパイルするステップＳ２０３は、図１の特徴ベクトル生成プロセッサ１６によって実行されてよい。

特徴ベクトル生成プロセッサ１６は、クエリプロセッサからデータエントリのクエリセットを得、データエントリのそのクエリセットについて統計的特徴の組の夫々の値を生成し、生成された統計的特徴の値から成るクエリ特徴ベクトルを出力するよう構成される。

ここで、参照により本願に援用される関連する独国特許出願第１０２０１６２２０７７１．７号が参照される。この特許出願には、特徴ベクトル生成プロセッサの例が開示されている。

特徴ベクトル生成プロセッサ１６は、データエントリの入力された組から統計的特徴の値を生成するプロセッシングロジックを記憶している。値がデータエントリの組についての特徴ベクトルに含まれるべき統計的特徴は、データエントリのデータタイプに依存する。従って、どのプロセッシングロジックが、特徴ベクトル生成プロセッサによって、統計的特徴の選択された組の値を含む特徴ベクトルへとデータエントリの入力された組を変換することにおいて実行されるべきかの選択は、データエントリの組のデータタイプに依存する。

特徴ベクトル生成プロセッサ１６は、サポートされているタイプ（数値、文字列、数時系列）のいずれかに属するデータエントリ（データ値又はデータエントリ値とも呼ばれてよい。）の組をとり、特徴ベクトルを生成する。特徴ベクトルは、識別されたデータプロパティを表すデータエントリの統計的特徴の組の夫々の１つについての値を含む。統計的特徴の個々の組の構成要素は、以下で詳述される。

数値タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から２つ以上を有する：
データエントリの数、
最小値、
最大値、
第１四分位値（first quartile value）、
第３四分位値（third quartile value）、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ。

文字列タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から２つ以上を有する：
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ。

数時系列タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から２つ以上を有する：
データ値の数、
エントリの数、
最小数値、
最大数値、
第１四分位数値、
第３四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日。

データタイプについての統計的特徴の組の構成要素は、実施ごとに夫々固定である。それにより、特定のタスク、プロジェクト、又はデータソースのグループに対して動作する特定のデータプロパティ認識装置では、特徴ベクトル生成プロセッサ１６は、所与のデータタイプの入力されたデータセットについて同じ統計的特徴の値を生成するよう構成される。このようにして、データタイプについての特徴ベクトルは、実施において同程度である。

特定のデータタイプのデータエントリのクエリセットについて特徴ベクトル生成プロセッサ１６によって生成されるクエリ特徴ベクトルにおける統計的特徴の組の構成要素は、同じ特定のデータタイプのデータエントリのモデルセットについての特徴ベクトルのリファレンスセットにおいて値が記憶されている統計的特徴の組の構成要素と同じである。このようにして、クエリ特徴ベクトルは、リファレンス特徴ベクトルと匹敵する。

クエリ特徴ベクトルと複数の記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子を順位付けるステップは、図２のステップＳ２０４によって表されている。ベクトル比較を実行し、記述子を順位付けするステップＳ２０４は、図１の比較プロセッサ１７によって実行されてよい。

比較プロセッサ１７は、特徴ベクトル生成プロセッサ１６によって生成されたクエリ特徴ベクトルを得、クエリ特徴ベクトルと複数の記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子を順位付けるよう構成される。この文脈において順位付けすることは、ベクトル比較に基づきベストマッチの（すなわち、最も近い）リファレンス特徴ベクトルと関連付けて記憶される記述子がそれらの順位付けから識別され得るように、順に位置を割り当てることを意味する。順位付けすることは、必ずしも全ての特徴ベクトルを距離の順に置かない。例えば、順位付けすることは、比較されたリファレンス特徴ベクトルを２つの位置（“最も近い”及び“最も近くはない”）又はｎ＋１個の位置（近さの順に順位付けされた上位ｎ個、及び残り）に分けてよい。比較プロセッサ１７は、夫々のベクトル比較の数値表現を生成してよい。数値表現は、順位付けの基礎を成し、記録されてよい。

ベクトル比較は、例えば、コサイン距離比較であってよい。ベクトル比較はデータタイプに基づき制限されてよく、それにより、データエントリのクエリセットのデータタイプは識別され、ベクトル比較は、識別されたデータタイプのデータエントリのモデルセットと関連付けて記憶されているリファレンス特徴ベクトルについてのみ実行される。

記述子の順位付けに基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子の中からベストマッチの記述子を選択するステップは、図２のステップＳ２０５によって表されている。ベストマッチの記述子を選択するステップＳ２０５は、図１のプロパティ記述子選択プロセッサ１８によって実行されてよい。

記述子が、比較プロセッサ１７によって実行されたベクトル比較に基づき順位付けされると、プロパティ記述子選択プロセッサ１８は、比較プロセッサ１７による記述子の順位付けに基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子の中からベストマッチの記述子を選択するよう構成される。例えば、プロパティ記述子選択プロセッサ１８は、データエントリのクエリセットについての最も高く順位付けされた記述子（すなわち、ベクトル比較に基づきリファレンス特徴ベクトルがクエリ特徴ベクトルと最も近かった、データエントリのリファレンスセットと関連付けて記憶された記述子）を選択するよう構成されてよい。

代替的に、又は追加的に、選択は、ユーザ承認を条件としてよい。それにより、ユーザは、最も高く順位付けされた記述子を提供され、選択を承認するか、あるいは、反対に承認しない機会を与えられる。承認された選択は、リコンサイルドデータ記憶部１２ｂにおける最も高く順位付けされた記述子を持ったデータエントリのクエリセットの記憶を追認する。

ベストマッチの記述子の選択が（手動介入の有無にかかわらず）プロパティ記述子選択プロセッサ１８によって行われると、リコンサイルドデータマネージャ１２ａは、ベストマッチの記述子と関連付けた記憶のために、データエントリのクエリセットをリコンサイルドデータ記憶部１２ｂに加えるよう構成される。データエントリのクエリセットは、それによって、ベストマッチの記述子を介してアクセス可能であり、データエントリのクエリセットは、リコンサイルドデータにアクセスする他のマシンによって、記述子によって意味的に表されているプロパティの値を個々に表すデータエントリとして解釈される。データプロパティ認識装置１０を操作することにおいて必要とされる手動介入は、既知のＥＴＬと比較して大いに低減される。

ベストマッチの記述子と関連付けてデータエントリのクエリセットをリコンサイルドデータ記憶部に加えるステップは、図２のステップＳ２０６によって表されている。クエリセットをリコンサイルドデータ記憶部に加えるステップＳ２０６は、図１のリコンサイルドデータ記憶部１２ｂへ書き込む図１のリコンサイルドデータマネージャ１２ａによって実行されてよい。

リコンサイルドデータ記憶部１２ｂは、リコンサイルドデータマネージャ１２ａを介して他のマシンがアクセス可能である。取り込まれたクエリデータエントリセットを適切なプロパティ記述子と関連付けて記憶することは、クエリデータエントリセットが、それら型のマシンによって解釈され得るように記憶されることを意味する。

図３は、図１に表されている装置の例を表す。図３の特定の例では、クエリプロセッサ１４は、取得モジュール１４１及びフィールド正規化モジュール１４２に分けられている。比較プロセッサ１７は、ベクトル比較モジュール１７１及び意味的比較モジュール１７２に分けられている。

取得モジュール１４１は、分散した異種のデータソースからの情報を、リコンサイルドデータ記憶部１２ｂでの記憶のために、データエントリのクエリセットとして取り出すよう構成される。取得モジュール１４１は、データエントリの組及び、プロパティ記述子とともに記憶されている場合には、その組のプロパティ記述子を取り出すよう構成される。データソースは、異なるフォーマットにあってよく、情報の異なる複雑さの程度を有してよい。データソースは、例えば、装置１０のユーザによって、データエントリのモデルセットに使用されているスキーマ（すなわち、データプロパティ記述子のオントロジー）に従ってリコンサイルドデータ記憶部１２ｂに記憶される対象であると識別される。

取得モジュール１４１は、装置１０の他のプロセッサ及びモジュールによって理解可能な標準フォーマットにおいてデータを供給する。任意の正規化モジュール１４２は、特徴ベクトル生成プロセッサ１６による処理に備えて、データを、予め定義されたデータフォーマット及び表現単位へ変形及び変換するよう構成される。正規化モジュール１４２は、取得モジュール１４１によって得られたデータエントリの組のフォーマット及び単位を標準化する。正規化モジュール１４２はまた、例えば、ヌル値の除外（又はゼロへの設定）及び外れ値の除外（又はモデレーション）によって、データエントリの取得された組のクリーニングに関与してよい。

取得モジュール１４１又は正規化モジュール１４２はまた、データタイプに従って、取得されたデータにフィルタをかけることに関与してよい。共通のデータタイプを有さないデータエントリの組、及び共通のデータタイプが装置１０によってサポートされている複数のデータタイプのうちの１つでないデータエントリの組は、装置１０の更なる処理から除外され（、例えば、捨てられ）る。

図５は、正規化モジュール１４２によって実行される例となる処理を表し、データエントリの３つの取得された組の単位は、装置１０のために予め定義された単位に設定されている。

図３の特徴ベクトル生成プロセッサ１６は、図１の特徴ベクトル生成プロセッサ１６の一例である。特徴ベクトル生成プロセッサ１６は、クエリ特徴ベクトルを生成し、更には、データエントリのモデルセットについてのリファレンス特徴ベクトルを生成することに関与していてよい。特徴ベクトルは、データエントリの組の特徴の統計的パターンを示す統計的特徴の値の合成である。特徴ベクトルの成分は、データエントリの組から生成された統計的特徴の値である。

図４は、例となる特徴ベクトル生成プロセッサを表す。リファレンスデータ記憶部１１は、データエントリの複数のモデルセットを記憶している。図４は、データエントリの夫々のモデルセットについてのリファレンス特徴ベクトルが、例えば、特徴ベクトル生成プロセッサ１６によって生成されてよいことを表す。データエントリの各モデルセットは、データプロパティマッパー１６１によって記述子へマッピングされる。データエントリの夫々のモデルセットについて生成されたリファレンス特徴ベクトル、及び特徴ベクトルの記述子へのマッピングは、リファレンスデータ記憶部１１によって記憶される。

ユーザは、特徴ベクトル生成プロセッサ１６による処理のために、データエントリの複数のモデルセットとして取得すべきデータソース又はデータソース内のデータのサブセットを特定してよい。必要条件は、統計的特徴が特徴ベクトル生成プロセッサ１６による計算されるための十分なデータエントリが夫々の組において存在することである。例えば、データエントリの最少数が課されてよく、取得されるべきデータエントリの組が最少数を下回っている場合には、警告がユーザに発せられ、及び／又は、データエントリの組は取得されない。最少数は、例えば、２、５、１０、５０、１００又は２００であってよい。

更なる必要条件は、データエントリの各モデルセットに含まれるデータエントリが共通のデータタイプを有すること、及びデータタイプが定義されたリストの１つであることである。実施に応じて、特徴ベクトル生成プロセッサ１６は、共通のデータタイプでなく、サポートされているデータタイプの定義されたリストから以外のデータタイプであるデータエントリの如何なる組も拒否することに関与してよい。サポートされているデータタイプの定義されたリストは、数値、文字列、及び数時系列であってよい。具体的なフォーマットは、指定されているタイプ内で変化してよい。それにより、例えば、数値は、単精度浮動小数点フォーマット、倍精度小数点フォーマット、整数、小数、などであってよい。数時系列データエントリは、数値及び時間／日付値を有するタプルである。文字列データエントリは、数値データエントリがそうであるように、単一の値である。

特徴ベクトル生成プロセッサ１６は、共通のデータタイプであり、具体的に、サポートされているデータタイプの定義されたリストからの共通のデータタイプであるデータエントリのモデルセットについてのリファレンス特徴ベクトルとして記憶のために特徴ベクトルを生成することのみを続けてよい。

特徴ベクトル生成プロセッサ１６は、データソース（ユーザ及び然るべく構成された特徴ベクトル生成プロセッサ１６によって識別されてよい。）からデータエントリのモデルセットを取得し、データエントリのモデルセットに共通したデータタイプを複数のサポートされているデータタイプの中から認識し、その認識されたデータタイプに応じて、データエントリのモデルセットを表す統計的特徴の組を選択し、統計的特徴の選択された組の夫々の値を複数のデータエントリから生成し、統計的特徴の生成された値から成るリファレンス特徴ベクトルを記憶部１１へ出力するよう構成される。複数のサポートされているデータタイプは、数値、文字列、数時系列を有する。

リファレンスデータ記憶部１１における記憶のために特徴ベクトル生成プロセッサ１６によって出力された特徴ベクトルは、データプロパティマッパー１６１によって、データエントリの夫々のモデルセットとともに取得された記述子へマッピングされる。

特徴ベクトル生成プロセッサ１６は、統計的特徴の値をデータエントリのモデルセットから生成するプロセッシングロジックを含む。データエントリの組についての特徴ベクトルにおいて値が含まれるべきである統計的特徴は、データエントリのデータタイプに依存する。従って、データエントリの入力された組を、統計的特徴の選択された組の値から成る特徴ベクトルへ変換することにおいて、どのプロセッシングロジックが特徴ベクトル生成プロセッサ１６によって実行されるべきかの選択は、データエントリのデータタイプに依存する。

特徴ベクトル生成プロセッサ１６は、サポートされているデータタイプ（数値、文字列、数時系列）に属するデータエントリ（データ値又はデータエントリ値とも呼ばれてよい。）のリストをとり、リファレンス特徴ベクトルを生成する。リファレンス特徴ベクトルは、識別されたデータプロパティを表すデータエントリの統計的特徴の組の夫々の１つについての値を含む。統計的特徴の個々の組の構成要素は、図１及び２を参照して詳述されている。

特徴ベクトルのリファレンスセットが生成され、記憶部１１に記憶されると、それらは、データエントリのクエリセットに含まれるデータエントリによって表されるデータプロパティ記述子の認識を自動化するために利用される（図２のステップＳ２０２からＳ２０５）。認識時に、クエリセットは、認識されたデータプロパティ記述子と関連付けた記憶のために、リコンサイルドデータ記憶部へサブミットされる。

特徴ベクトル生成プロセッサ１６は、リファレンス特徴ベクトル更新プロセッサを更に有してよい。リファレンス特徴ベクトル更新プロセッサは、リコンサイルドデータ記憶部への記憶されるデータエントリのリコンサイルされた組のサブミット時に、データエントリのリファレンスセットの夫々と、データエントリのサブミットされるリコンサイルされた組と同じ記述子と関連付けて記憶されているデータエントリの他のリコンサイルされた組の夫々とを有するデータエントリの複合セットをコンパイルするよう構成され、データエントリの複合セットを特徴ベクトル生成プロセッサ１６へサブミットし、特徴ベクトル生成プロセッサ１６によって出力された特徴ベクトルを更新されたリファレンス特徴ベクトルとして取得し、識別されたプロパティと関連付けて記憶されている特徴ベクトルのリファレンスセットにおける既存の特徴ベクトルを更新されたリファレンス特徴ベクトルと置換する。

データエントリの複数のモデルセットについて特徴ベクトル生成プロセッサ１６によって生成された特徴ベクトルは、コンポーネントデータエントリによって表されるデータプロパティ記述子のアイデンティティが探し求められるところのデータセットとの比較のための基礎となる。従って、データエントリの複数のモデルセットは、例えば、データエントリの複数のモデルセットのスキーマを未知の又は識別不能のスキーマの他のデータソースにおいて複製したいと望むユーザによって、選択されてよい。

記憶部１１は、サブミットされた特徴ベクトルを、夫々の識別されたプロパティと関連付けて記憶するよう構成される。加えて、特徴ベクトル及び夫々の識別されたプロパティ（明示的に又は知識ベース要素へのリンクを介して識別される。）と関連付けて、記憶部１１は、特徴ベクトルが生成されたデータエントリのモデルセットを、例えば、データエントリがそれらが取得されるデータソースにおいて現れる形において、記憶してよい。データエントリのモデルセット及び夫々のデータプロパティ記述子は、記憶部１１へサブミットされてよい。それにより、リファレンス特徴ベクトルが特徴ベクトル生成プロセッサ１６によって生成され出力される場合に、それは、記憶部１１においてデータエントリの組及び夫々の識別されたプロパティと関連付けられ得る。

このように、記憶部１１は、データエントリの組の統計的表現又はフィンガープリントを、データエントリによって表されるデータプロパティ記述子と関連付けて記憶するリポジトリとして機能する。特徴ベクトルは、個々のデータエントリによって共通して表されるデータプロパティ記述子のアイデンティティが探し求められるデータエントリのクエリセットについて特徴ベクトル生成プロセッサ１６によって出力される特徴ベクトルとの比較のための特徴ベクトルのリファレンスセットとして機能する。データエントリのそのようなクエリセットにおいて個々のデータエントリによって共通して表されるデータプロパティのデータプロパティ記述子は、それが未知であるので、又はデータエントリのクエリが取得されるデータソースのスキーマが装置のユーザにとって望ましくないので、例えば、それが必要とされるデータスキーマ又はモデルデータスキーマと異種であるので、探し求められてよい。

図６は、特徴ベクトル生成プロセッサ１６によるデータエントリの入力された組からの特徴ベクトルの生成を表す。

図３の例では、特徴ベクトル生成プロセッサ１６は、データエントリの入力された組に含まれるデータエントリに共通するデータタイプを解析し、データタイプに応じて、クエリ特徴ベクトルを生成するためのプロセッシング命令の特定の組が実行される。プロセッシングは、データエントリのデータタイプに依存する。

例えば、特徴ベクトル生成プロセッサ１６は、データエントリのクエリセットに共通するデータタイプが数値、文字列、又は数時系列であるかどうかを検出するよう構成される。特徴ベクトル生成プロセッサ１６は、データエントリの組を定義する統計的特徴の値の組を生成するようプロセッシングを実行し、値が計算される統計的特徴の組は、データエントリのクエリセットのデータタイプに依存する。

図３の比較プロセッサ１７は、図１の比較プロセッサの例となる。図３の比較プロセッサ１７は、特徴ベクトル生成プロセッサ１６によって生成されたクエリ特徴ベクトルを入力として受け入れ、順位付けされたプロパティ記述子の組を出力する。プロパティ記述子は、プロパティ記述子によって示されるプロパティの値を個別に表すデータエントリのモデルセットの統計的特徴を定義するリファレンス特徴ベクトルの類似性に基づき、順位付けされる。この類似性は、記憶されているリファレンス特徴ベクトルとクエリ特徴ベクトルとの比較において主に焦点を合わせられ、任意に、意味的コンポーネントを組み込む。比較プロセッサ１７は、クエリ特徴ベクトルと、データエントリのクエリセットと同じデータタイプのデータエントリのモデルセットと関連付けてリファレンスデータ記憶部１１に記憶されている夫々のリファレンス特徴ベクトルとの間のベクトル比較、及びデータエントリが取得されるデータソースにおいてデータエントリのクエリセットに割り当てられているプロパティ記述子と、リファレンスデータ記憶部１１にリファレンス特徴ベクトルと関連付けて記憶されているプロパティ記述子との間の意味的比較を組み合わせるよう、モデルを利用する。そのような組み合わせに基づき、比較プロセッサ１７は、順位付けされたプロパティ記述子の組をプロパティ記述子選択プロセッサ１８へ供給することができる。

モデルは、夫々の特徴ベクトルによる統計的特徴の比較と、夫々と関連付けられたプロパティ記述子の意味的類似の比較とに基づき、データ値のクエリセットの、同じデータタイプのデータ値の各モデルセットに対する類似性を表す集計結果値を生成する。モデルは、以下の式によって記載されるように、重み付き集合（weighted aggregation）であってよい：

Ｗ_Ｒ：集計結果値；
Ｗ_Ｓ：意味的比較の結果に適用される重み；
Ｐ_Ｓ：意味的比較の結果；
Ｗ_Ｆ：ベクトル比較の結果に適用される重み；
Ｗ_ＦＦ：個々の特徴ベクトル成分の比較に適用される重み；
Ｐ_ＦＦ：個々の特徴ベクトル成分の比較の結果。

全ての要素の重みは、コンポーネントの関連性に基づき連続的に適合される。このために、ＡＩアルゴリズムは、モデルを初期化し、式の正確さを評価するトレーニング及びテストフェーズの後に、結果の関連性に基づき、引き続き重みを変更する。

ベクトル比較モジュール１７１は、クエリ特徴ベクトルと、記憶されているリファレンス特徴ベクトルとの間の類似を計算するよう構成される。記憶されているリファレンス特徴ベクトルは、データエントリの組及びプロパティ記述子と関連付けて記憶されており、プロパティ記述子は、データエントリによって記載／定義／表現されているプロパティの意味的表現である。ベクトル比較モジュール１７１は、クエリ特徴ベクトルを入力として有し、それは、データエントリのクエリセットと同じデータタイプのリファレンス特徴ベクトルの夫々に対するクエリ特徴ベクトルの類似を表す値を供給する。図７は、ベクトル比較モジュール１７１の機能を表す。

リファレンスデータ記憶部１１は、データエントリのモデルセットと、データエントリの各モデルセットについてのリファレンス特徴ベクトルと、対応するデータプロパティ記述子とを含む。装置１０は、特定のデータタイプの統計的特徴の組に含まれる夫々の統計的特徴についての重みを計算するモデルトレーニングプロセッサを含んでよい。重みは、特徴ベクトルの結果を生成するために使用される。特徴ベクトルの比較の全体的な結果を計算することにおいて夫々の個々の統計的特徴（特徴ベクトル成分）に適用される重みは、モデルトレーニングプロセッサが人工知能アルゴリズムを実行することによって構成され得る。次の式は、ベクトル比較モジュール１７１によって使用されてよく、“フィンガープリント予測子（Fingerprint predictor）”は、特徴ベクトルの比較の結果である（フィンガープリントは、特徴ベクトルに与えられている名称である。）：

Ｗ_Ｆ：ベクトル比較の結果に適用される重み；
Ｗ_ＦＦ：個々の特徴ベクトル成分の比較に適用される重み；
Ｐ_ＦＦ：個々の特徴ベクトル成分の比較の結果。

意味的比較モジュール１７２は、データプロパティ記述子の意味的部分の関連性を計算するよう構成される。意味的比較モジュール１７２は、記述子を順位付けすることにおいて比較プロセッサ１７によって使用される更なる情報を提供し、それによって、選択される記述子の正確さを改善することによって、ベクトル比較モジュール１７１を支援する。図８で詳述されるように、意味的比較モジュール１７２のための入力は、データエントリのクエリセットから抽出された意味的データ（すなわち、記述子）であり、出力は、意味的類似に基づく正規化データの順位付けされた記述子の組である。図９に表されるように、意味的比較モジュール１７２は、セマンティックエンジンと呼ばれてよい。

最初に、意味的比較モジュール１７２は、解析されるべき、クエリデータエントリによって表されるプロパティの記述子（ラベル又はヘッダ）を抽出する。抽出された記述子は、図９に表されている例となる方法を通じて処理される。方法は、以下のステップを含む：
記述子解析ステップＳ１７２１：このステップは、データエントリのクエリセットから記述子又はラベルを抽出する。

キーワードトークン化（tokenizer）ステップＳ１７２２：このステップは、記述子のキーワードを解析し抽出する。その場合に、記述子は、ただ１つの語（word）であるか、又は１つよりも多い語から成ってよい。

知識ベース検索ステップＳ１７２３：このステップは、記憶されている又は別なふうにアクセス可能な知識ベースを探索し、文字列の類似に基づき、最も類似した要素を取り出す。例えば、知識ベースは、リファレンス特徴ベクトルと関連付けて記憶されているプロパティ記述子を含んでよい。

結果合成ステップＳ１７２４：このステップは、知識ベース検索モジュールの異なる結果を収集し、それらの結果をただ１つの組の結果として構成する。

意味的予測ステップＳ１７２５：このステップは、類似のスコアを計算するとともに、最も高いスコアの結果を含む類似の提言（similarity recommendation）を提供する。類似の提言は、データエントリのクエリセットの記述子と、１つよりも多い語の場合において知識ベース検索ステップＳ１７２３又は結果合成ステップＳ１７２４によって提供される検索可能な記述子とに基づく。それらの要素によれば、意味的予測ステップＳ１７２５は、意味的な類似の結果を提供することができる。

最後に、類似した記述子の組は、意味的コンポーネントによって提供される。この組は、スコアによって順位付けされ、次の式において詳述されるように、重み及び類似の結果によって計算される：

Ｗ_Ｓ：意味的比較の結果に適用される重み；
Ｐ_Ｓ：意味的比較の結果。

プロパティ記述子選択モジュール１８は、意味的比較モジュール１７２及びベクトル比較モジュール１７１の結果を結合し（又は、結合は、比較プロセッサ１７によって実施される。）、１つ以上のプロパティ記述子の最終の提言を、ユーザインターフェイスの選択可能な要素としてユーザに供給する。最終の提言は、ベクトル比較の結果及び意味的比較の結果のためにモデルによって設定された重みを考慮する。その後、モデルトレーニングプロセッサは、ユーザフィードバックから収集された知識を加え、ベクトル比較の結果及び意味的比較の結果のための重みを計算し直す。収集されたそれらのフィードバックは、知識ベースを大きくし、且つ、時間にわたる進化を考慮した正確な提言を提供するよう、重要な影響を有する。

図３のプロパティ記述子選択プロセッサ１８は、図１のプロパティ記述子選択プロセッサの例となる。図３の例では、プロパティ記述子選択プロセッサ１８は、装置１０のユーザに、ユーザインターフェイスを介して、比較プロセッサ１７の出力に基づく上位ｎ個に順位付けされたプロパティ記述子を提示し、上位ｎ個のプロパティ記述子の中の１つを、リコンサイルドデータ記憶部１２ｂでデータエントリのクエリセットと関連付けて記憶するために、ユーザ選択に従って選択する。

リファレンスデータ記憶部１１は、クエリ特徴ベクトルと比較されるリファレンス特徴ベクトルの組と、夫々の関連するリファレンス特徴ベクトルによって表されるデータエントリの関連するモデルセットと、データエントリのモデルセットについての関連するプロパティ記述子とを記憶する。リファレンスデータ記憶部１１は、データエントリの取り込まれた組のデータプロパティをリコンサイルするためにシステムによって必要とされる知識を供給する。

リファレンスデータ記憶部１１の意味的部分は、全ての記述子がデータエントリのモデルセットのデータプロパティと関連付けられており、記述子間の関係（親、近傍、関連、など）及び記述子と解析されるデータプロパティとの間の結びつきの推測を格納しているマップ（又はデータグラフ／オントロジーモデル）を記憶する。それらの特徴によれば、知識ベースは、意味的コンポーネントの専門知識を提供することができる。

この意味的部分は、使用とともに成長してよい。それにより、夫々の場合に、データプロパティ記述子は、ユーザによって手動でデータエントリの組へ割り当てられ、データプロパティ記述子は、意味的部分へ加えられる。意味的部分は、記述子と、記述子が割り当てられているデータエントリの組への関連付けとを記憶し、関連付けは、それらの両方をリンクする、ユーザによって採択された最終決定を表す。このプロセスを通じて、意味的部分は、使用とともに知識に関して成長し、記述子とデータエントリの組との間の結びつきを強める。逐次学習（incremental learning）の重要な利点の１つは、時間における知識の進化を考慮しながらいくつかの結びつきの重みを強化し且つ他を弱化する時間の間の知識の進化である。

リファレンスデータ記憶部１１はまた、クエリ特徴ベクトルとの比較のためにリファレンス特徴ベクトルを記憶する。特徴ベクトルのリファレンスセットは、装置１０のユーザがプロパティ記述子を割り当てるデータエントリの組について特徴ベクトル生成プロセッサによって生成された特徴ベクトルであってよい。リファレンスデータ記憶部１１は、リファレンス特徴ベクトルと関連付けて、割り当てられたプロパティ記述子を記憶する。

クエリ特徴ベクトルとリファレンス特徴ベクトルとの間の比較の結果は、モデルへの入力として使用される。モデルはまた、クエリセット記述子とリファレンス特徴ベクトルの夫々の記述子との間の意味的比較の結果を入力としてとる。モデルは、例えば、集計結果を生成するよう夫々の因子に適用される重み付けを設定することによって、トレーニングされる。リファレンスデータ記憶部１１はまた、ユーザ選択がモデルによって最も高く順位付けされた記述子と適合する場合及びそうでない場合を示すように、知識ベースとしてユーザフィードバックを記憶してよい。機械学習アルゴリズムは、重み付けを調整するようモデルをトレーニングする。それにより、モデルによって最も高く順位付けされた記述子（夫々のリファレンス特徴ベクトルと関連付けて記憶されている。）は、ユーザ選択とより良く適合する。プロパティ記述子選択の最終段階において、ベクトル比較及び意味的比較の組み合わせに基づくｎ個の最も類似した記述子は、ユーザに供給される。そして、ユーザは、最も類似した選択に同意するか、あるいは、ｎ個の最も類似した記述子の中から他を選択すること又は他の記述子をデータエントリの組に手動により割り当てることによって異議を唱える。

ユーザフィードバックは、ユーザによって最終的に選択された又は別なふうに割り当てられたプロパティ記述子とデータエントリのクエリセットをリンクする、ユーザによってなされた決定へ、重みを割り当てるように、記憶されてよい。それらの重みは、モデルトレーニングプロセッサの人工知能アルゴリズムを通じて解析され、ユーザの好みを考慮しながら更に正確な提言を提供するようにバランスをとられる。

図１０は、本発明を具現し、実施形態のデータプロパティ認識装置１０又はデータプロパティ認識方法を実装するために使用され得る、サーバのようなコンピュータデバイスのブロック図である。コンピュータデバイスは、プロセッサ９９３及びメモリ９９４を有する。任意に、コンピュータデバイスは、他のコンピュータデバイスとの、例えば、発明実施形態の他のコンピュータデバイスとの通信のためのネットワークインターフェイス９９７を更に含む。

例えば、実施形態は、そのようなコンピュータデバイスのネットワークから成ってよい。任意に、コンピュータデバイスは、キーボード及びマウス９９６のような１つ以上の入力メカニズムと、１つ以上のモニタ９９５のようなディスプレイユニットとを更に含む。

メモリ９９４は、コンピュータ可読媒体を含んでよい。この語は、コンピュータ実行可能命令を搬送するよう構成された又はデータ構造を記憶している単一の媒体又は複数の媒体（例えば、中央集権型若しくは分散型データベース並びに／又は関連するキャッシュ及びサーバ）を指してよい。コンピュータ実行可能命令は、例えば、汎用のコンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシングデバイス（例えば、１つ以上のプロセッサ）によってアクセス可能であってそれらに１つ以上の関数又は演算を実行させる命令及びデータを含んでよい。このように、語「コンピュータ可読記憶媒体」は、マシンによる実行のために命令の組を記憶、符号化又は搬送することが可能であって、マシンに本開示の方法のいずれか１つ以上を実施させる如何なる媒体も含んでよい。語「コンピュータ可読記憶媒体」は、制限なしに、固体状態メモリ、光学媒体、及び磁気媒体を含むと然るべく考えられてよい。例として、制限なしに、そのようなコンピュータ可読媒体は、ランダムアクセスメモリ（ＲＡＭ；Random Access Memory）、リードオンリーメモリ（ＲＯＭ；Read-Only Memory）、電気的消去可能なプログラム可能リードオンリーメモリ（ＥＥＰＲＯＭ；Electrically Erasable Programmable Read-Only Memory）、コンパクトディスク型リードオンリーメモリ（ＣＤ−ＲＯＭ；Compact Disc Read-Only Memory）若しくは他の光ディスクストレージ、磁気ディスクストレージ又は他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、固体状態メモリデバイス）を含む非一時的なコンピュータ可読記憶媒体を含んでよい。

プロセッサ９９３は、コンピュータデバイスを制御し、プロセッシング動作を実行するよう構成され、例えば、明細書で及び特許請求の範囲で記載されているクエリプロセッサ１４、特徴ベクトル生成プロセッサ１６、比較プロセッサ１７、プロパティ記述子選択プロセッサ１８、リコンサイルドデータマネージャ１２ａ、及びモデルトレーニングプロセッサの様々な異なる機能を実装するように、メモリに記憶されているコードを実行する。メモリ９９４は、プロセッサ９９３によってリード及びライトされるデータを記憶する。ここで言及されるように、プロセッサは、マイクロプロセッサ、中央演算処理装置、又は同様のもののような、１つ以上の汎用のプロセッシングデバイスを含んでよい。プロセッサは、複数命令セット計算（ＣＩＳＣ；complex instruction set computing）マイクロプロセッサ、縮小命令セット計算（ＲＩＳＣ；reduced instruction set computing）マイクロプロセッサ、超長命令語（ＶＬＩＷ；very long instruction word）マイクロプロセッサ、又は他の命令セットを実装するプロセッサ若しくは命令セットの組み合わせを実装するプロセッサを含んでよい。プロセッサは、特定用途向け集積回路（ＡＳＩＣ；application specific integrated circuit）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ；field programmable gate array）、デジタル信号プロセッサ（ＤＳＰ；digital signal processor）、ネットワークプロセッサ、又は同様のものも含んでよい。１つ以上の実施形態において、プロセッサは、本願で説明されている動作及びステップを実施するための命令を実行するよう構成される。

ディスプレイユニット９９５は、コンピュータデバイスによって記憶されているデータの表現を表示してよく、更には、ユーザとコンピュータデバイスに記憶されているプログラム及びデータとの間のインタラクションを可能にするカーソル及びダイアログボックス及び画面を表示してよい。入力メカニズム９９６は、ユーザがデータ及び命令をコンピュータデバイスに入力することを可能にしてよい。

ネットワークインターフェイス（ネットワークＩ／Ｆ）９９７は、インターネットのようなネットワークへ接続されてよく、他のそのようなコンピュータデバイスへネットワークを介して接続可能である。ネットワークＩ／Ｆ９９７は、ネットワークを介して他の装置との間でのデータ入出力を制御してよい。マイクロホン、スピーカ、プリンタ、電源ユニット、ファン、ケース、スキャナ、トラックボールなどのような他の周辺機器が、コンピュータデバイスにおいて含まれてよい。

図１及び３のクエリプロセッサ１４、並びに図２の取得ステップＳ２０２は、メモリ９９４で記憶されているプロセッシング命令（プログラム）を実行し且つネットワークＩ／Ｆ９９７を介してデータを交換するプロセッサ９９３（又は複数のプロセッサ９９３）であってよい。特に、プロセッサ９９３は、外部のデータソースからのデータエントリのクエリセットをネットワークＩ／Ｆ９９７を介して受信し、任意に、データエントリのクエリセットをフォーマット化又は正規化するように、プロセッシング命令を実行する。更には、プロセッサ９９３は、接続されている記憶ユニットでデータエントリのクエリセットを記憶するように、及び／又は、更なる処理のためにデータエントリのクエリセットを特徴ベクトル生成プロセッサ１６へネットワークＩ／Ｆ９９７を介して送信するように、プロセッシング命令を実行してよい。

図１及び３の特徴ベクトル生成プロセッサ１６、並びに図２の生成及びコンパイルステップＳ２０３は、メモリ９９４で記憶されているプロセッシング命令（プログラム）を実行するプロセッサハードウェア９９３（又は複数のプロセッサハードウェア９９３）であってよい。特に、プロセッサハードウェア９９３は、データエントリの入力された組をクエリプロセッサ１４から受信し、データエントリの入力された組を特徴ベクトルへと変換するように、プロセッシング命令を実行する。更には、プロセッサハードウェア９９３は、接続されている記憶ユニットでの記憶のために、及び／又は比較プロセッサ１７による比較処理のような更なる処理のために、生成された特徴ベクトルを出力するよう応答するように、プロセッシング命令を実行してよい。

図１及び３の比較プロセッサ１７、並びに図２のベクトル比較及び順位付けステップＳ２０４は、メモリ９９４で記憶されているプロセッシング命令（プログラム）を実行し且つネットワークＩ／Ｆ９９７を介してデータを交換するプロセッサ９９３（複数のプロセッサ９９３）であってよい。特に、プロセッサ９９３は、特徴ベクトル生成プロセッサ１６からクエリ特徴ベクトルを取得し、クエリ特徴ベクトルとリファレンス特徴ベクトルの組との間のベクトル比較を実行するように、プロセッシング命令を実行する。更には、プロセッサ９９３は、接続されている記憶ユニットで順位付けされたプロパティ記述子を記憶するように、及び／又は、順位付けされたプロパティ記述子を選択プロセスのためにプロパティ記述子選択プロセッサ１８へネットワークＩ／Ｆ９９７を介して送信するように、プロセッシング命令を実行してよい。

図１及び３のプロパティ記述子選択プロセッサ１８、並びに図２のベストマッチ記述子の選択ステップＳ２０５は、メモリ９９４で記憶されているプロセッシング命令（プログラム）を実行し且つネットワークＩ／Ｆ９９７を介してデータを交換するプロセッサ９９３（又は複数のプロセッサ９９３）であってよい。特に、プロセッサ９９３は、順位付けされたプロパティ記述子を比較プロセッサ１７からネットワークＩ／Ｆ９９７を介して又は別な方法で受信し、リコンサイルドデータ記憶部１２ｂにおいてデータエントリのクエリセットと関連付けて記憶される記述子を選択するように、プロセッシング命令を実行する。更には、プロセッサ９９３は、接続されている記憶ユニットにおいてデータエントリのクエリセット及び選択された記述子を記憶するように、及び／又は、図２のリコンサイルドデータ記憶部１２ｂへのクエリセットの付加ステップＳ２０６で見られるように、リコンサイルドデータ記憶部１２ｂでの記憶のためにリコンサイルドデータ記憶マネージャ１２ａへデータエントリのクエリセット及び選択された記述子をネットワークＩ／Ｆ９９７を介して送信するように、プロセッシング命令を実行してよい。

本発明を具現する方法は、図１０に表されているようなコンピュータデバイスで実施されてよい。そのようなコンピュータデバイスは、図１０に表されているあらゆるコンポーネントを有する必要はなく、それらのコンポーネントの一部から成ってよい。本発明を具現する方法は、ネットワークを介して１つ以上のデータ記憶サーバと通信する単一のコンピュータデバイスによって実施されてよい。コンピュータデバイスは、リファレンスデータ記憶部１１及びリコンサイルドデータ記憶部１２ｂを設けるデータ記憶サーバ自体のネットワークであってよい。

本発明を具現する方法は、互いに協働する図１０のコンピュータデバイスの複数台によって実施されてよい。

上記の実施形態に加えて、以下の付記を開示する。
（付記１）
データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
を有するデータプロパティ認識装置。
（付記２）
前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果の両方に基づく、
付記１に記載のデータプロパティ認識装置。
（付記３）
前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
付記１に記載のデータプロパティ認識装置。
（付記４）
前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位ｎ個の記述子を選択可能な記述子として有し、
前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの１つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
付記３に記載のデータプロパティ認識装置。
（付記５）
夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
前記順位付けは、集計結果数字の順である、
付記２に記載のデータプロパティ認識装置。
（付記６）
前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位ｎ個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
を更に有する付記５に記載のデータプロパティ認識装置。
（付記７）
前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、
前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、
値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
付記１に記載のデータプロパティ認識装置。
（付記８）
前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記比較は、
前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
前記前処理ステップの前記比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
を有する、付記７に記載のデータプロパティ認識装置。
（付記９）
数値タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
最小値、
最大値、
第１四分位値、
第３四分位値、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ
の中から２つ以上を有する、
付記７に記載のデータプロパティ認識装置。
（付記１０）
文字列タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ、
文字列距離又は他のメーターに基づく統計的計測
の中から２つ以上を有する、
付記７に記載のデータプロパティ認識装置。
（付記１１）
数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
データ値の数、
エントリの数、
最小数値、
最大数値、
第１四分位数値、
第３四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日
の中から２つ以上を有する、
付記７に記載のデータプロパティ認識装置。
（付記１２）
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有するデータプロパティ認識方法。
（付記１３）
コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有する方法を実行させるコンピュータプログラム。

［関連出願の参照］
本願は、同時係属の独国特許出願第１０２０１６２２０７７１．７号に関係がある。この特許出願の全文は、参照により本願に援用される。

１０データプロパティ認識装置
１１リファレンスデータ記憶部
１２ａリコンサイルドデータ記憶マネージャ
１２ｂリコンサイルドデータ記憶部
１４クエリプロセッサ
１６特徴ベクトル生成プロセッサ
１７比較プロセッサ
１８プロパティ記述子選択プロセッサ
１４１取得モジュール
１４２フィールド正規化モジュール
１７１ベクトル比較モジュール
１７２意味的比較モジュール

Claims

データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
を有し、
前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づく、
データプロパティ認識装置。
前記集計結果値は、

に従って求められ、Ｗ _Ｒは、前記集計結果値であり、Ｗ _Ｓは、前記意味的比較の結果に適用される重みであり、Ｐ _Ｓは、前記意味的比較の結果であり、Ｗ _Ｆは、前記ベクトル比較の結果に適用される重みであり、Ｗ _ＦＦは、個々の特徴ベクトル成分の比較に適用される重みであり、Ｐ _ＦＦは、前記個々の特徴ベクトル成分の比較の結果である、
請求項１に記載のデータプロパティ認識装置。
前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
請求項１に記載のデータプロパティ認識装置。
前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位ｎ個の記述子を選択可能な記述子として有し、
前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの１つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
請求項３に記載のデータプロパティ認識装置。
夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
前記順位付けは、集計結果数字の順である、
請求項２に記載のデータプロパティ認識装置。
前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位ｎ個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
を更に有する請求項５に記載のデータプロパティ認識装置。
前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、
前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの１つである共通データタイプのデータエントリを有するよう強いられ、
値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
請求項１に記載のデータプロパティ認識装置。
前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記ベクトル比較は、
前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
前記前処理ステップの比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
を有する、請求項７に記載のデータプロパティ認識装置。
数値タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
最小値、
最大値、
第１四分位値、
第３四分位値、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ
の中から２つ以上を有する、
請求項７に記載のデータプロパティ認識装置。
文字列タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ、
文字列距離又は他のメーターに基づく統計的計測
の中から２つ以上を有する、
請求項７に記載のデータプロパティ認識装置。
数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
データ値の数、
エントリの数、
最小数値、
最大数値、
第１四分位数値、
第３四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日
の中から２つ以上を有する、
請求項７に記載のデータプロパティ認識装置。
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有するデータプロパティ認識方法。
コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有する方法を実行させるコンピュータプログラム。