JP6787087B2 - データプロパティ認識のための装置、方法及びプログラム - Google Patents

データプロパティ認識のための装置、方法及びプログラム Download PDF

Info

Publication number
JP6787087B2
JP6787087B2 JP2016233526A JP2016233526A JP6787087B2 JP 6787087 B2 JP6787087 B2 JP 6787087B2 JP 2016233526 A JP2016233526 A JP 2016233526A JP 2016233526 A JP2016233526 A JP 2016233526A JP 6787087 B2 JP6787087 B2 JP 6787087B2
Authority
JP
Japan
Prior art keywords
data
feature vector
descriptor
query
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016233526A
Other languages
English (en)
Other versions
JP2018067278A (ja
Inventor
ムニョス・マヌエル ペーニャ
ムニョス・マヌエル ペーニャ
ヤーベス・アレハンドロ
ラ トーレ・ビクトール デ
ラ トーレ・ビクトール デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018067278A publication Critical patent/JP2018067278A/ja
Application granted granted Critical
Publication of JP6787087B2 publication Critical patent/JP6787087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データサイエンスの分野に属し、特に、複数のデータソースからのデータエントリの認識の自動化に関係がある。
今日、データサイエンスの分野において、最も時間を要するタスクは、抽出/変換/ロード(ETL;Extract-Transform-Load)タスクであり、このタスクは、データ科学者の時間のおよそ60〜70%を消費し、価値の低いタスクである。時間及び資源を節約するために如何にしてデータを自動的に取り込んで解釈するかは、自動発話認識のような研究分野と並行した技術的課題である。データ取り込みタスクの完全な又は部分的な自動化は、付加価値のあるタスクを実行するためにより多くの時間を費やすことをデータ科学者に可能にする。
データ科学者は、データを体系化しクリーニングするために時間を費やす。この時間は、モデリング又はデータマイニングのようなプロシージャに対してより良く費やされ得る。ワールド・ワイド・ウェブ・コンソーシアム(W3C;World Wide Web Consortium)のような標準化団体は、データの公開及び共有を容易にするためのフォーマット及び最良の実施を提案することに長年取り組んできた。しかし、全てのデータプロバイダが、彼らのデータを標準に従って公開するわけではない。更には、ほとんどの標準は、データモデルのシンタックスに焦点を合わせ、データセマンティクスについて忘れている。このことは、異なるソースからのデータが交換されマージされる場合に、例えば、2つのデータセットが異なる名称を用いて同じデータプロパティを参照する場合に、意味的相互運用(semantic interoperability)の問題をしばしば生じさせる。
データサイエンスの分野において、データプロパティを自動的に認識し提言するいくつかの試みは、今までのところは極めて制限されてきた。従来、概括的な言葉でデータを識別し認識する試みのほとんどは、意味的及び統語的技術に焦点を合わせられている。
データセットにおけるデータプロパティの識別は複雑であり、適切なメタデータが利用可能でない場合に時間がかかる。
本発明の実施形態は、データプロパティ認識装置を含む。データプロパティ認識装置は、データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、該クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、該比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャとを有する。
有利なことに、実施形態は、データエントリの組に含まれる個々のデータエントリによって表されるプロパティの意味的表現である記述子を、データソースからのデータエントリのクエリセットについて認識するマシンのためのメカニズムを提供する。データソースからのデータエントリのクエリセットは、データプロパティ認識装置によりインテリジェントにリコンサイルド(reconciled)データ記憶部に取り込まれる。データプロパティ認識装置は、統計的特徴のベクトル(クエリ特徴ベクトル)を統計的特徴のリファレンスベクトル(リファレンス特徴ベクトル)の記憶されている組と比較することによって、取り込まれているデータエントリ(データエントリのクエリセット)を解釈し、そのようにして、リファレンスベクトルの記憶されている組の中のベストマッチと関連する記述子を、解釈されているデータエントリに帰属させる働きをする。
特徴ベクトルは、人間の指紋と同様に、データプロパティの一意の表現である。特徴ベクトルは、データエントリの組についての一意の識別子を提供することから、データプロパティフィンガープリントと呼ばれてよい。データエントリの組にプロパティは、データセット、データベース、又はデータソースの属性である。データプロパティ認識装置は、データエントリのモデルセットと関連付けて記憶されているプロパティ記述子の中からあるプロパティ記述子を認識して、リコンサイルドデータ記憶部に加えられるデータエントリのクエリセットと関連付ける。
データエントリのクエリセットは、関連データベースからのエントリであってよく、データエントリのクエリセットは、データエントリのコラムである。代替的に、又は追加的に、データエントリのクエリセットは、グラフデータベースにおけるオブジェクトとして記憶されている要素であってよく、オブジェクトは、共通のラベルを共有するアークによってサブジェクトエンティティへグラフにおいてリンクされる。
データエントリのモデルセットは、関連データベースにおけるラベルを付されたコラムからのエントリであってよく、それにより、夫々のコラムのデータエントリは、データエントリのモデルセットとして取得され、コラムのラベルは、モデルセットにおける個々のデータエントリによって共通して表されるプロパティの記述子として記憶される。代替的に、又は追加的に、データエントリのモデルセットは、グラフデータベースにおけるオブジェクトとして記憶されている要素であってよく、オブジェクトは、共通のラベルを共有するアークによってサブジェクトエンティティへグラフに置いてリンクされ、共通のラベルは、データエントリが共通して表すプロパティの記述子である。
異種のデータソースにおけるプロパティについてのラベルの意味的解析に依存することよりむしろ、記憶部によって記憶されているリファレンス特徴ベクトルの組は、データエントリの組を比較するために、且つ、それらが同じプロパティを表すデータエントリである(同じプロパティ記述子に帰属されるべき)か否かを判定するために、データ挙動(behaviour)の統計的比較のための手段を提供する。エンティティが同じであることは、不要である。すなわち、データプロパティ認識装置は、同じ、重なり合った、又は重なり合っていないエンティティについてであろうとなかろうと、同じプロパティを表すデータエントリの組が、データエントリのそれらの組のうちの1つが異なるプロパティを表すデータエントリの組と整合することよりも、統計的意味に関してより良く整合するとの仮定を利用する。
データエントリのモデルセットは、データエントリとエントリによって表されるプロパティの記述子との間の関係が、リコンサイルドデータ記憶部に加えられるデータにおいて複製されるべきであることを示すモデルと呼ばれる。すなわち、データエントリの組によって表されるプロパティの意味的表現(記述子)とデータエントリとの間の関係は、他のソースからのデータセットが比較及び/又は適合され得るモデルである。
ベクトル比較は、データエントリのモデルセットの記述子を順位付けし、ベストマッチの記述子を選択する基礎を提供する。実施形態はまた、そのような順位付け及び選択を実施する基礎として意味的比較を利用する。
ベクトル比較は、コサイン距離(cosine distance)比較であってよい。ベクトル比較は、夫々のコンポーネントの比較であってよく(比較されるコンポーネントは、同じ統計的特徴の値を表す。)、コンポーネント比較は、ベクトル比較の計算における重み付けに帰属される。
リコンサイルドスキーマ(reconciled schema)に従って複数のソースからデータを記憶することは、ヘルスケア、エネルギ、輸送及び他を含む技術領域において実装されている。共通の特徴は、モデルスキーマを提供するためのデータプロパティ認識及びリファレンスデータの使用である。
任意に、前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果の両方に基づく。
例えば、ベクトル比較及び意味的比較の両方は、類似スコアを生成してよい。類似スコアは、順位付けにおける位置を定める総類似スコアを生成するように(例えば、乗法又は加重乗法によって)正規化され結合され得る。意味的比較は、例えば、文字列距離比較、又はグラフに基づくオントロジーモデルにおける夫々の記述子の間の最短距離を見つけること、であってよい。
有利なことに、意味的比較は、比較される2つの記述子の類似に関する更なる情報を提供し、従って、順位付けは、更なる情報を含み、ベストマッチの記述子の選択は、更なる情報に基づき、よって、精度が改善する。
実施形態は、前記リコンサイルドデータマネージャが、データプロパティ認識装置のユーザの承認を条件に、ベストマッチの記述子とともにリコンサイルドデータ記憶部にデータエントリのクエリセットを加えるよう構成されるように、構成されてよい。特に:
任意に、前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される。
前記インターフェイスは、クエリデータエントリの表現及び記述子を更に有してよい。クエリデータエントリは、記述子と関連付けてネイティブ・データソースにおいて記憶され、ネイティブ・データソースから、ユーザの選択を知らせるようクエリプロセッサによって取得される。前記インターフェイスは、ユーザにより制御されるクライアントデバイスとデータプロパティ認識装置との間のネットワーク接続にわたって、前記ユーザにより制御されるクライアントデバイスへ出力されてよい。
有利なことに、ユーザは、リコンサイルドデータ記憶部へのデータエントリのクエリセットの取り込みに対して何らかの制御を保持するが、既存のETL技術と比較して、必要とされる手動介入の量は最小限である。
更には、前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位n個の記述子を選択可能な記述子として有し、前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの1つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される。
上位n(nは正の整数であり、例えば、2又は3である。)個の記述子が出力される実施形態は、データエントリのモデルセットのスキーマに従うように記述子の選択をハード・ワイヤリングする利点を有するが、リコンサイルドデータ記憶部への取り込み時にどの記述子がデータエントリのクエリに帰属されるかを制御する何らかの能力を依然としてユーザに与える。
任意に、夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、前記順位付けは、集計結果数字の順である。
任意に、上位n個の記述子を有する前記ユーザインターフェイスはまた、該ユーザインターフェイスに含まれる前記上位n個の記述子の夫々の集計結果値を示す。
前記モデルは、例えば、加重乗法又は加重平均のような式であってよい。
実施形態のデータプロパティ認識装置は、前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位n個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することとに少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサを更に有してよい。
前記モデルトレーニングプロセッサは、人工知能プログラム又はプロセッサで実行されるアルゴリズムである。
クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスはトレーニングサンプルであり、特にそのために設計されてよい。代替的に、データエントリのクエリセットの複数のインスタンスは、単に、データエントリのモデルセットとリコンサイルされるべきデータソースからのデータエントリのセットであり、前記モデルトレーニングプロセッサは、前記モデルが一番上の記述子をユーザ選択とより良く適合させるよう如何にして適応され得るかを学習するために、上位n個の記述子及び入力選択をモニタする。前記モデルは、デフォルトのパラメータにより開始され、次いで、モニタリング及び再設定のトレーニングフェーズの後に前記モデルトレーニングプロセッサによって更新されてよい。
実施形態は、複数のサポートされているデータタイプに制限されてよい。例えば:前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である。
実行されるベクトル比較は、弁別子としてデータタイプを用いる前処理ステップを有してよい。特に、前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であってよく、前記比較は、前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、前記前処理ステップの前記比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることとを有してよい。
クエリ特徴ベクトルは、データエントリのクエリセットについて生成された特徴ベクトルである。特徴ベクトルの構成、すなわち、それらが含む統計的特徴は、データタイプに特有であってよく、それにより、特徴ベクトルは、データタイプが当該特徴ベクトルから識別可能であるためにデータタイプを明示的に特定しなくてよい。代替的に、データエントリの組についての特徴ベクトルは、データエントリの組のデータタイプを明示的に識別するエントリを含んでよい。
特徴ベクトル内の統計的特徴の比較は、同じデータタイプのデータエントリの組を表す特徴ベクトル間でのみ実行される。従って、データタイプの比較は、ベクトル比較のための前処理ステップであると見なされ得る。
相似値はベクトル比較の結果である。ベクトル比較は、例えば、2つの特徴ベクトルのコサイン距離比較であって、0(最小)から1(最大)までの相似値を生成してよい。
有利なことに、2つの特徴ベクトルのベクトル比較は、ふた組のデータエントリを比較する計算上効率的な方法である。特徴ベクトルを生成する処理オーバーヘッドは、データエントリのクエリセットについての特徴ベクトルと特徴ベクトルのリファレンスセットとの間の比較の容易さにおいて報われる。従って、実施形態は、リファレンスベクトルの非常に大きい組に対して拡張可能である。
統計的特徴に関する特徴ベクトルの構成は、実施に依存し、ユーザインターフェイスを介して実行時にユーザによって、又は設計時に、選択されてよい。特徴ベクトルは、サポートされているデータタイプのどれが、特徴ベクトルが生成されたデータエントリの組であるかを識別するデータを含んでよい。実施形態は、夫々のデータタイプについて、どの統計的特徴が特徴ベクトルにおいてどのような順に記憶されているかの記録を更に記憶してよい。そのような記録は、特徴ベクトルスキーマを形成する。
他の態様の実施形態は、データプロパティ認識方法を含む。データプロパティ認識方法は、データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、データエントリのクエリセットをデータソースから得、前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えることを有する。
他の態様の実施形態は、コンピュータ装置によって実行される場合に、該コンピュータ装置を、本発明の実施形態として先に定義されたコンピュータ装置として機能させるコンピュータプログラムを含む。
他の態様の実施形態は、コンピュータ装置によって実行される場合に、該コンピュータ装置に、本発明の実施形態として本願において先に又は別なところで定義された方法を実行させるコンピュータプログラムを含む。
更には、本発明の実施形態は、複数の相互接続されたコンピュータデバイスによって実行される場合に、該複数の相互接続されたコンピュータデバイスに、本発明を具現する方法を実行させるコンピュータプログラム又はコンピュータプログラムの組を含む。
本発明の実施形態はまた、複数の相互接続されたコンピュータデバイスによって実行される場合に、該複数の相互接続されたコンピュータデバイスを、本発明の実施形態として本願において先に又は別なところで定義されたコンピュータ装置として機能させるコンピュータプログラム又はコンピュータプログラムの組を含む。
実施形態の詳細な説明は、添付の図面を参照して、以下で示される。
装置の実施形態の概略図である。 実施形態の方法を表す。 他の装置の実施形態の概略図である。 特徴ベクトル生成プロセッサを表す。 フィールド正規化モジュールの機能を表す。 特徴ベクトル生成モジュールの機能を表す。 比較プロセッサの機能を表す。 意味的比較プロセッサの機能を表す。 意味的比較プロセッサによって実行される処理のフローチャートである。 装置の実施形態の例となるハードウェア構成を表す。
図1は、実施形態のデータプロパティ認識装置10を表す。データプロパティ認識装置10は、次のコンポーネントを有する:リファレンスデータ記憶部11、リコンサイルドデータ記憶マネージャ12a、リコンサイルドデータ記憶部12b、クエリプロセッサ14、特徴ベクトル生成プロセッサ16、比較プロセッサ17、及びプロパティ記述子選択プロセッサ18。プロセッサコンポーネントは、記憶されているプロセッシング命令を実行してそれらの割り当てられている機能を実行し、且つ、プロセッシングの間にデータを記憶するメモリと、データプロパティ認識装置10の外にあるエンティティとデータを交換するI/Oハードウェアとを含む他のハードウェアを利用するプログラムされたプロセッサである。
図2は、実施形態のデータプロパティ認識方法を表す。
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有するステップは、図2のステップS201によって表されている。ステップS201を横切る線は、記憶がステップS202からS206の実行の間に存続することを示す。ステップS201におけるデータエントリの複数のモデルセットの記憶は、図1のリファレンスデータ記憶部11によって実行されてよい。
リファレンスデータ記憶部11は、データエントリの複数のモデルセットを記憶する。データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶される。リファレンス特徴ベクトルは、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する。
データエントリの組(すなわち、データエントリのモデルセット又はデータエントリのクエリセット)は、同じプロパティの値を表すこと(すなわち、記憶すること)に基づいて組を形成する複数のデータエントリである。関連データベースに関して、データエントリの組は、データエントリのコラムである。グラフデータベースに関して、データエントリの組は、同じラベルを有するラベルを付されたエッジによってそれらの夫々のサブジェクトエンティティへリンクされたオブジェクト値である。データエントリは、単一のデータ値であってよく、あるいは、2つのデータ値(タプル)又は、いくつかの場合に、3つ以上のデータ値を有してよい。
データエントリのモデルセットに共通するプロパティは、値がデータエントリのそのモデルセットにおける各データエントリによって提供されるプロパティである。プロパティの記述子(プロパティ記述子)は、プロパティの意味的表現又は意味的記述である。記述子は、データエントリの組に含まれるエントリによって表されるプロパティが、人間がデータを解析することによってだけでなく、他のマシンがデータにアクセスすることによっても識別されるための手段を提供するので、技術データの重要な部分である。換言すれば、適切な記述子を用いてデータエントリに適切にラベルを付すことによって、データエントリ及びそれらの有意性はマシンによって解釈され得る。
リファレンス特徴ベクトルと関連付けて記憶される記述子は、ユーザにより割り当てられてよい(このとき、ユーザは、データプロパティ認識装置のユーザを指す。)。例えば、ユーザは、他のデータソースがリコンサイルされるべきであるスキーマを有するリファレンスデータソースを(インターフェイスを介して)割り当ててよい。リファレンスデータソースにおけるデータエントリの組は、ユーザによって割り当てられたプロパティ記述子及びリファレンス特徴ベクトルとともに、取得されてデータエントリのモデルセットとして記憶される。リファレンス特徴ベクトルは、例えば、特徴ベクトル生成プロセッサ16によって生成されてよい。ユーザによって割り当てられたプロパティ記述子は、いずれにしても、関連データベースからのコラムラベル又はグラフデータベースからの述部(predicate)(エッジラベル)であってよい。記述子は、リファレンスデータソースのユーザ選択により、ユーザにより割り当てられると見なされる。さもなければ、ユーザは、データエントリの各モデルセットについてのプロパティ記述子をユーザインターフェイスを介して具体的にプロンプトされてよい。
リファレンスデータ記憶部11は、管理部、すなわち、リファレンスデータ記憶部11によって記憶されているデータへのリード(read)及びライト(write)アクセスを制御するソフトウェア、を含んでよい。
データエントリのクエリセットをデータソースから得るステップは、図2のステップS202によって表されている。図2の得るステップS202は、図1のクエリプロセッサ14によって実行されてよい。
クエリプロセッサ14は、データプロパティ認識装置10の外にあるデータソース20からデータエントリのクエリセットを得るよう構成される。データソース20は、データエントリのモデルセットとリコンサイルされるべきデータエントリを含むデータソース又は1つ以上のデータソースの夫々であってよい。すなわち、データソース(又はそれからのデータエントリの組)は、データエントリのリファレンスセットのスキーマに従って、リコンサイルドデータ記憶部12bにおいて記憶されるべきである。データソース20は、データプロパティ認識装置10のユーザによってデータソース20として割り当てられてよい。そのデータソース20から、クエリプロセッサ14は、処理及びリコンサイルドデータ記憶部12bにおける記憶のためにデータエントリの組を得るべきである。加えて、データソース20からのデータエントリの特定の組は、クエリプロセッサ14によって得られるべきデータエントリのクエリセットとしてユーザによって識別されてよい。
データエントリのクエリセットについて統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルするステップは、図2のステップS203によって表されている。値を生成し、特徴ベクトルをコンパイルするステップS203は、図1の特徴ベクトル生成プロセッサ16によって実行されてよい。
特徴ベクトル生成プロセッサ16は、クエリプロセッサからデータエントリのクエリセットを得、データエントリのそのクエリセットについて統計的特徴の組の夫々の値を生成し、生成された統計的特徴の値から成るクエリ特徴ベクトルを出力するよう構成される。
ここで、参照により本願に援用される関連する独国特許出願第102016220771.7号が参照される。この特許出願には、特徴ベクトル生成プロセッサの例が開示されている。
特徴ベクトル生成プロセッサ16は、データエントリの入力された組から統計的特徴の値を生成するプロセッシングロジックを記憶している。値がデータエントリの組についての特徴ベクトルに含まれるべき統計的特徴は、データエントリのデータタイプに依存する。従って、どのプロセッシングロジックが、特徴ベクトル生成プロセッサによって、統計的特徴の選択された組の値を含む特徴ベクトルへとデータエントリの入力された組を変換することにおいて実行されるべきかの選択は、データエントリの組のデータタイプに依存する。
特徴ベクトル生成プロセッサ16は、サポートされているタイプ(数値、文字列、数時系列)のいずれかに属するデータエントリ(データ値又はデータエントリ値とも呼ばれてよい。)の組をとり、特徴ベクトルを生成する。特徴ベクトルは、識別されたデータプロパティを表すデータエントリの統計的特徴の組の夫々の1つについての値を含む。統計的特徴の個々の組の構成要素は、以下で詳述される。
数値タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から2つ以上を有する:
データエントリの数、
最小値、
最大値、
第1四分位値(first quartile value)、
第3四分位値(third quartile value)、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ。
文字列タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から2つ以上を有する:
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ。
数時系列タイプであると認識されたデータエントリの入力された組についての統計的特徴の組は、次の中から2つ以上を有する:
データ値の数、
エントリの数、
最小数値、
最大数値、
第1四分位数値、
第3四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日。
データタイプについての統計的特徴の組の構成要素は、実施ごとに夫々固定である。それにより、特定のタスク、プロジェクト、又はデータソースのグループに対して動作する特定のデータプロパティ認識装置では、特徴ベクトル生成プロセッサ16は、所与のデータタイプの入力されたデータセットについて同じ統計的特徴の値を生成するよう構成される。このようにして、データタイプについての特徴ベクトルは、実施において同程度である。
特定のデータタイプのデータエントリのクエリセットについて特徴ベクトル生成プロセッサ16によって生成されるクエリ特徴ベクトルにおける統計的特徴の組の構成要素は、同じ特定のデータタイプのデータエントリのモデルセットについての特徴ベクトルのリファレンスセットにおいて値が記憶されている統計的特徴の組の構成要素と同じである。このようにして、クエリ特徴ベクトルは、リファレンス特徴ベクトルと匹敵する。
クエリ特徴ベクトルと複数の記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子を順位付けるステップは、図2のステップS204によって表されている。ベクトル比較を実行し、記述子を順位付けするステップS204は、図1の比較プロセッサ17によって実行されてよい。
比較プロセッサ17は、特徴ベクトル生成プロセッサ16によって生成されたクエリ特徴ベクトルを得、クエリ特徴ベクトルと複数の記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子を順位付けるよう構成される。この文脈において順位付けすることは、ベクトル比較に基づきベストマッチの(すなわち、最も近い)リファレンス特徴ベクトルと関連付けて記憶される記述子がそれらの順位付けから識別され得るように、順に位置を割り当てることを意味する。順位付けすることは、必ずしも全ての特徴ベクトルを距離の順に置かない。例えば、順位付けすることは、比較されたリファレンス特徴ベクトルを2つの位置(“最も近い”及び“最も近くはない”)又はn+1個の位置(近さの順に順位付けされた上位n個、及び残り)に分けてよい。比較プロセッサ17は、夫々のベクトル比較の数値表現を生成してよい。数値表現は、順位付けの基礎を成し、記録されてよい。
ベクトル比較は、例えば、コサイン距離比較であってよい。ベクトル比較はデータタイプに基づき制限されてよく、それにより、データエントリのクエリセットのデータタイプは識別され、ベクトル比較は、識別されたデータタイプのデータエントリのモデルセットと関連付けて記憶されているリファレンス特徴ベクトルについてのみ実行される。
記述子の順位付けに基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子の中からベストマッチの記述子を選択するステップは、図2のステップS205によって表されている。ベストマッチの記述子を選択するステップS205は、図1のプロパティ記述子選択プロセッサ18によって実行されてよい。
記述子が、比較プロセッサ17によって実行されたベクトル比較に基づき順位付けされると、プロパティ記述子選択プロセッサ18は、比較プロセッサ17による記述子の順位付けに基づき、リファレンス特徴ベクトルと関連付けて記憶されている記述子の中からベストマッチの記述子を選択するよう構成される。例えば、プロパティ記述子選択プロセッサ18は、データエントリのクエリセットについての最も高く順位付けされた記述子(すなわち、ベクトル比較に基づきリファレンス特徴ベクトルがクエリ特徴ベクトルと最も近かった、データエントリのリファレンスセットと関連付けて記憶された記述子)を選択するよう構成されてよい。
代替的に、又は追加的に、選択は、ユーザ承認を条件としてよい。それにより、ユーザは、最も高く順位付けされた記述子を提供され、選択を承認するか、あるいは、反対に承認しない機会を与えられる。承認された選択は、リコンサイルドデータ記憶部12bにおける最も高く順位付けされた記述子を持ったデータエントリのクエリセットの記憶を追認する。
ベストマッチの記述子の選択が(手動介入の有無にかかわらず)プロパティ記述子選択プロセッサ18によって行われると、リコンサイルドデータマネージャ12aは、ベストマッチの記述子と関連付けた記憶のために、データエントリのクエリセットをリコンサイルドデータ記憶部12bに加えるよう構成される。データエントリのクエリセットは、それによって、ベストマッチの記述子を介してアクセス可能であり、データエントリのクエリセットは、リコンサイルドデータにアクセスする他のマシンによって、記述子によって意味的に表されているプロパティの値を個々に表すデータエントリとして解釈される。データプロパティ認識装置10を操作することにおいて必要とされる手動介入は、既知のETLと比較して大いに低減される。
ベストマッチの記述子と関連付けてデータエントリのクエリセットをリコンサイルドデータ記憶部に加えるステップは、図2のステップS206によって表されている。クエリセットをリコンサイルドデータ記憶部に加えるステップS206は、図1のリコンサイルドデータ記憶部12bへ書き込む図1のリコンサイルドデータマネージャ12aによって実行されてよい。
リコンサイルドデータ記憶部12bは、リコンサイルドデータマネージャ12aを介して他のマシンがアクセス可能である。取り込まれたクエリデータエントリセットを適切なプロパティ記述子と関連付けて記憶することは、クエリデータエントリセットが、それら型のマシンによって解釈され得るように記憶されることを意味する。
図3は、図1に表されている装置の例を表す。図3の特定の例では、クエリプロセッサ14は、取得モジュール141及びフィールド正規化モジュール142に分けられている。比較プロセッサ17は、ベクトル比較モジュール171及び意味的比較モジュール172に分けられている。
取得モジュール141は、分散した異種のデータソースからの情報を、リコンサイルドデータ記憶部12bでの記憶のために、データエントリのクエリセットとして取り出すよう構成される。取得モジュール141は、データエントリの組及び、プロパティ記述子とともに記憶されている場合には、その組のプロパティ記述子を取り出すよう構成される。データソースは、異なるフォーマットにあってよく、情報の異なる複雑さの程度を有してよい。データソースは、例えば、装置10のユーザによって、データエントリのモデルセットに使用されているスキーマ(すなわち、データプロパティ記述子のオントロジー)に従ってリコンサイルドデータ記憶部12bに記憶される対象であると識別される。
取得モジュール141は、装置10の他のプロセッサ及びモジュールによって理解可能な標準フォーマットにおいてデータを供給する。任意の正規化モジュール142は、特徴ベクトル生成プロセッサ16による処理に備えて、データを、予め定義されたデータフォーマット及び表現単位へ変形及び変換するよう構成される。正規化モジュール142は、取得モジュール141によって得られたデータエントリの組のフォーマット及び単位を標準化する。正規化モジュール142はまた、例えば、ヌル値の除外(又はゼロへの設定)及び外れ値の除外(又はモデレーション)によって、データエントリの取得された組のクリーニングに関与してよい。
取得モジュール141又は正規化モジュール142はまた、データタイプに従って、取得されたデータにフィルタをかけることに関与してよい。共通のデータタイプを有さないデータエントリの組、及び共通のデータタイプが装置10によってサポートされている複数のデータタイプのうちの1つでないデータエントリの組は、装置10の更なる処理から除外され(、例えば、捨てられ)る。
図5は、正規化モジュール142によって実行される例となる処理を表し、データエントリの3つの取得された組の単位は、装置10のために予め定義された単位に設定されている。
図3の特徴ベクトル生成プロセッサ16は、図1の特徴ベクトル生成プロセッサ16の一例である。特徴ベクトル生成プロセッサ16は、クエリ特徴ベクトルを生成し、更には、データエントリのモデルセットについてのリファレンス特徴ベクトルを生成することに関与していてよい。特徴ベクトルは、データエントリの組の特徴の統計的パターンを示す統計的特徴の値の合成である。特徴ベクトルの成分は、データエントリの組から生成された統計的特徴の値である。
図4は、例となる特徴ベクトル生成プロセッサを表す。リファレンスデータ記憶部11は、データエントリの複数のモデルセットを記憶している。図4は、データエントリの夫々のモデルセットについてのリファレンス特徴ベクトルが、例えば、特徴ベクトル生成プロセッサ16によって生成されてよいことを表す。データエントリの各モデルセットは、データプロパティマッパー161によって記述子へマッピングされる。データエントリの夫々のモデルセットについて生成されたリファレンス特徴ベクトル、及び特徴ベクトルの記述子へのマッピングは、リファレンスデータ記憶部11によって記憶される。
ユーザは、特徴ベクトル生成プロセッサ16による処理のために、データエントリの複数のモデルセットとして取得すべきデータソース又はデータソース内のデータのサブセットを特定してよい。必要条件は、統計的特徴が特徴ベクトル生成プロセッサ16による計算されるための十分なデータエントリが夫々の組において存在することである。例えば、データエントリの最少数が課されてよく、取得されるべきデータエントリの組が最少数を下回っている場合には、警告がユーザに発せられ、及び/又は、データエントリの組は取得されない。最少数は、例えば、2、5、10、50、100又は200であってよい。
更なる必要条件は、データエントリの各モデルセットに含まれるデータエントリが共通のデータタイプを有すること、及びデータタイプが定義されたリストの1つであることである。実施に応じて、特徴ベクトル生成プロセッサ16は、共通のデータタイプでなく、サポートされているデータタイプの定義されたリストから以外のデータタイプであるデータエントリの如何なる組も拒否することに関与してよい。サポートされているデータタイプの定義されたリストは、数値、文字列、及び数時系列であってよい。具体的なフォーマットは、指定されているタイプ内で変化してよい。それにより、例えば、数値は、単精度浮動小数点フォーマット、倍精度小数点フォーマット、整数、小数、などであってよい。数時系列データエントリは、数値及び時間/日付値を有するタプルである。文字列データエントリは、数値データエントリがそうであるように、単一の値である。
特徴ベクトル生成プロセッサ16は、共通のデータタイプであり、具体的に、サポートされているデータタイプの定義されたリストからの共通のデータタイプであるデータエントリのモデルセットについてのリファレンス特徴ベクトルとして記憶のために特徴ベクトルを生成することのみを続けてよい。
特徴ベクトル生成プロセッサ16は、データソース(ユーザ及び然るべく構成された特徴ベクトル生成プロセッサ16によって識別されてよい。)からデータエントリのモデルセットを取得し、データエントリのモデルセットに共通したデータタイプを複数のサポートされているデータタイプの中から認識し、その認識されたデータタイプに応じて、データエントリのモデルセットを表す統計的特徴の組を選択し、統計的特徴の選択された組の夫々の値を複数のデータエントリから生成し、統計的特徴の生成された値から成るリファレンス特徴ベクトルを記憶部11へ出力するよう構成される。複数のサポートされているデータタイプは、数値、文字列、数時系列を有する。
リファレンスデータ記憶部11における記憶のために特徴ベクトル生成プロセッサ16によって出力された特徴ベクトルは、データプロパティマッパー161によって、データエントリの夫々のモデルセットとともに取得された記述子へマッピングされる。
特徴ベクトル生成プロセッサ16は、統計的特徴の値をデータエントリのモデルセットから生成するプロセッシングロジックを含む。データエントリの組についての特徴ベクトルにおいて値が含まれるべきである統計的特徴は、データエントリのデータタイプに依存する。従って、データエントリの入力された組を、統計的特徴の選択された組の値から成る特徴ベクトルへ変換することにおいて、どのプロセッシングロジックが特徴ベクトル生成プロセッサ16によって実行されるべきかの選択は、データエントリのデータタイプに依存する。
特徴ベクトル生成プロセッサ16は、サポートされているデータタイプ(数値、文字列、数時系列)に属するデータエントリ(データ値又はデータエントリ値とも呼ばれてよい。)のリストをとり、リファレンス特徴ベクトルを生成する。リファレンス特徴ベクトルは、識別されたデータプロパティを表すデータエントリの統計的特徴の組の夫々の1つについての値を含む。統計的特徴の個々の組の構成要素は、図1及び2を参照して詳述されている。
特徴ベクトルのリファレンスセットが生成され、記憶部11に記憶されると、それらは、データエントリのクエリセットに含まれるデータエントリによって表されるデータプロパティ記述子の認識を自動化するために利用される(図2のステップS202からS205)。認識時に、クエリセットは、認識されたデータプロパティ記述子と関連付けた記憶のために、リコンサイルドデータ記憶部へサブミットされる。
特徴ベクトル生成プロセッサ16は、リファレンス特徴ベクトル更新プロセッサを更に有してよい。リファレンス特徴ベクトル更新プロセッサは、リコンサイルドデータ記憶部への記憶されるデータエントリのリコンサイルされた組のサブミット時に、データエントリのリファレンスセットの夫々と、データエントリのサブミットされるリコンサイルされた組と同じ記述子と関連付けて記憶されているデータエントリの他のリコンサイルされた組の夫々とを有するデータエントリの複合セットをコンパイルするよう構成され、データエントリの複合セットを特徴ベクトル生成プロセッサ16へサブミットし、特徴ベクトル生成プロセッサ16によって出力された特徴ベクトルを更新されたリファレンス特徴ベクトルとして取得し、識別されたプロパティと関連付けて記憶されている特徴ベクトルのリファレンスセットにおける既存の特徴ベクトルを更新されたリファレンス特徴ベクトルと置換する。
データエントリの複数のモデルセットについて特徴ベクトル生成プロセッサ16によって生成された特徴ベクトルは、コンポーネントデータエントリによって表されるデータプロパティ記述子のアイデンティティが探し求められるところのデータセットとの比較のための基礎となる。従って、データエントリの複数のモデルセットは、例えば、データエントリの複数のモデルセットのスキーマを未知の又は識別不能のスキーマの他のデータソースにおいて複製したいと望むユーザによって、選択されてよい。
記憶部11は、サブミットされた特徴ベクトルを、夫々の識別されたプロパティと関連付けて記憶するよう構成される。加えて、特徴ベクトル及び夫々の識別されたプロパティ(明示的に又は知識ベース要素へのリンクを介して識別される。)と関連付けて、記憶部11は、特徴ベクトルが生成されたデータエントリのモデルセットを、例えば、データエントリがそれらが取得されるデータソースにおいて現れる形において、記憶してよい。データエントリのモデルセット及び夫々のデータプロパティ記述子は、記憶部11へサブミットされてよい。それにより、リファレンス特徴ベクトルが特徴ベクトル生成プロセッサ16によって生成され出力される場合に、それは、記憶部11においてデータエントリの組及び夫々の識別されたプロパティと関連付けられ得る。
このように、記憶部11は、データエントリの組の統計的表現又はフィンガープリントを、データエントリによって表されるデータプロパティ記述子と関連付けて記憶するリポジトリとして機能する。特徴ベクトルは、個々のデータエントリによって共通して表されるデータプロパティ記述子のアイデンティティが探し求められるデータエントリのクエリセットについて特徴ベクトル生成プロセッサ16によって出力される特徴ベクトルとの比較のための特徴ベクトルのリファレンスセットとして機能する。データエントリのそのようなクエリセットにおいて個々のデータエントリによって共通して表されるデータプロパティのデータプロパティ記述子は、それが未知であるので、又はデータエントリのクエリが取得されるデータソースのスキーマが装置のユーザにとって望ましくないので、例えば、それが必要とされるデータスキーマ又はモデルデータスキーマと異種であるので、探し求められてよい。
図6は、特徴ベクトル生成プロセッサ16によるデータエントリの入力された組からの特徴ベクトルの生成を表す。
図3の例では、特徴ベクトル生成プロセッサ16は、データエントリの入力された組に含まれるデータエントリに共通するデータタイプを解析し、データタイプに応じて、クエリ特徴ベクトルを生成するためのプロセッシング命令の特定の組が実行される。プロセッシングは、データエントリのデータタイプに依存する。
例えば、特徴ベクトル生成プロセッサ16は、データエントリのクエリセットに共通するデータタイプが数値、文字列、又は数時系列であるかどうかを検出するよう構成される。特徴ベクトル生成プロセッサ16は、データエントリの組を定義する統計的特徴の値の組を生成するようプロセッシングを実行し、値が計算される統計的特徴の組は、データエントリのクエリセットのデータタイプに依存する。
図3の比較プロセッサ17は、図1の比較プロセッサの例となる。図3の比較プロセッサ17は、特徴ベクトル生成プロセッサ16によって生成されたクエリ特徴ベクトルを入力として受け入れ、順位付けされたプロパティ記述子の組を出力する。プロパティ記述子は、プロパティ記述子によって示されるプロパティの値を個別に表すデータエントリのモデルセットの統計的特徴を定義するリファレンス特徴ベクトルの類似性に基づき、順位付けされる。この類似性は、記憶されているリファレンス特徴ベクトルとクエリ特徴ベクトルとの比較において主に焦点を合わせられ、任意に、意味的コンポーネントを組み込む。比較プロセッサ17は、クエリ特徴ベクトルと、データエントリのクエリセットと同じデータタイプのデータエントリのモデルセットと関連付けてリファレンスデータ記憶部11に記憶されている夫々のリファレンス特徴ベクトルとの間のベクトル比較、及びデータエントリが取得されるデータソースにおいてデータエントリのクエリセットに割り当てられているプロパティ記述子と、リファレンスデータ記憶部11にリファレンス特徴ベクトルと関連付けて記憶されているプロパティ記述子との間の意味的比較を組み合わせるよう、モデルを利用する。そのような組み合わせに基づき、比較プロセッサ17は、順位付けされたプロパティ記述子の組をプロパティ記述子選択プロセッサ18へ供給することができる。
モデルは、夫々の特徴ベクトルによる統計的特徴の比較と、夫々と関連付けられたプロパティ記述子の意味的類似の比較とに基づき、データ値のクエリセットの、同じデータタイプのデータ値の各モデルセットに対する類似性を表す集計結果値を生成する。モデルは、以下の式によって記載されるように、重み付き集合(weighted aggregation)であってよい:
Figure 0006787087
:集計結果値;
:意味的比較の結果に適用される重み;
:意味的比較の結果;
:ベクトル比較の結果に適用される重み;
FF:個々の特徴ベクトル成分の比較に適用される重み;
FF:個々の特徴ベクトル成分の比較の結果。
全ての要素の重みは、コンポーネントの関連性に基づき連続的に適合される。このために、AIアルゴリズムは、モデルを初期化し、式の正確さを評価するトレーニング及びテストフェーズの後に、結果の関連性に基づき、引き続き重みを変更する。
ベクトル比較モジュール171は、クエリ特徴ベクトルと、記憶されているリファレンス特徴ベクトルとの間の類似を計算するよう構成される。記憶されているリファレンス特徴ベクトルは、データエントリの組及びプロパティ記述子と関連付けて記憶されており、プロパティ記述子は、データエントリによって記載/定義/表現されているプロパティの意味的表現である。ベクトル比較モジュール171は、クエリ特徴ベクトルを入力として有し、それは、データエントリのクエリセットと同じデータタイプのリファレンス特徴ベクトルの夫々に対するクエリ特徴ベクトルの類似を表す値を供給する。図7は、ベクトル比較モジュール171の機能を表す。
リファレンスデータ記憶部11は、データエントリのモデルセットと、データエントリの各モデルセットについてのリファレンス特徴ベクトルと、対応するデータプロパティ記述子とを含む。装置10は、特定のデータタイプの統計的特徴の組に含まれる夫々の統計的特徴についての重みを計算するモデルトレーニングプロセッサを含んでよい。重みは、特徴ベクトルの結果を生成するために使用される。特徴ベクトルの比較の全体的な結果を計算することにおいて夫々の個々の統計的特徴(特徴ベクトル成分)に適用される重みは、モデルトレーニングプロセッサが人工知能アルゴリズムを実行することによって構成され得る。次の式は、ベクトル比較モジュール171によって使用されてよく、“フィンガープリント予測子(Fingerprint predictor)”は、特徴ベクトルの比較の結果である(フィンガープリントは、特徴ベクトルに与えられている名称である。):
Figure 0006787087
:ベクトル比較の結果に適用される重み;
FF:個々の特徴ベクトル成分の比較に適用される重み;
FF:個々の特徴ベクトル成分の比較の結果。
意味的比較モジュール172は、データプロパティ記述子の意味的部分の関連性を計算するよう構成される。意味的比較モジュール172は、記述子を順位付けすることにおいて比較プロセッサ17によって使用される更なる情報を提供し、それによって、選択される記述子の正確さを改善することによって、ベクトル比較モジュール171を支援する。図8で詳述されるように、意味的比較モジュール172のための入力は、データエントリのクエリセットから抽出された意味的データ(すなわち、記述子)であり、出力は、意味的類似に基づく正規化データの順位付けされた記述子の組である。図9に表されるように、意味的比較モジュール172は、セマンティックエンジンと呼ばれてよい。
最初に、意味的比較モジュール172は、解析されるべき、クエリデータエントリによって表されるプロパティの記述子(ラベル又はヘッダ)を抽出する。抽出された記述子は、図9に表されている例となる方法を通じて処理される。方法は、以下のステップを含む:
記述子解析ステップS1721:このステップは、データエントリのクエリセットから記述子又はラベルを抽出する。
キーワードトークン化(tokenizer)ステップS1722:このステップは、記述子のキーワードを解析し抽出する。その場合に、記述子は、ただ1つの語(word)であるか、又は1つよりも多い語から成ってよい。
知識ベース検索ステップS1723:このステップは、記憶されている又は別なふうにアクセス可能な知識ベースを探索し、文字列の類似に基づき、最も類似した要素を取り出す。例えば、知識ベースは、リファレンス特徴ベクトルと関連付けて記憶されているプロパティ記述子を含んでよい。
結果合成ステップS1724:このステップは、知識ベース検索モジュールの異なる結果を収集し、それらの結果をただ1つの組の結果として構成する。
意味的予測ステップS1725:このステップは、類似のスコアを計算するとともに、最も高いスコアの結果を含む類似の提言(similarity recommendation)を提供する。類似の提言は、データエントリのクエリセットの記述子と、1つよりも多い語の場合において知識ベース検索ステップS1723又は結果合成ステップS1724によって提供される検索可能な記述子とに基づく。それらの要素によれば、意味的予測ステップS1725は、意味的な類似の結果を提供することができる。
最後に、類似した記述子の組は、意味的コンポーネントによって提供される。この組は、スコアによって順位付けされ、次の式において詳述されるように、重み及び類似の結果によって計算される:
Figure 0006787087
:意味的比較の結果に適用される重み;
:意味的比較の結果。
プロパティ記述子選択モジュール18は、意味的比較モジュール172及びベクトル比較モジュール171の結果を結合し(又は、結合は、比較プロセッサ17によって実施される。)、1つ以上のプロパティ記述子の最終の提言を、ユーザインターフェイスの選択可能な要素としてユーザに供給する。最終の提言は、ベクトル比較の結果及び意味的比較の結果のためにモデルによって設定された重みを考慮する。その後、モデルトレーニングプロセッサは、ユーザフィードバックから収集された知識を加え、ベクトル比較の結果及び意味的比較の結果のための重みを計算し直す。収集されたそれらのフィードバックは、知識ベースを大きくし、且つ、時間にわたる進化を考慮した正確な提言を提供するよう、重要な影響を有する。
図3のプロパティ記述子選択プロセッサ18は、図1のプロパティ記述子選択プロセッサの例となる。図3の例では、プロパティ記述子選択プロセッサ18は、装置10のユーザに、ユーザインターフェイスを介して、比較プロセッサ17の出力に基づく上位n個に順位付けされたプロパティ記述子を提示し、上位n個のプロパティ記述子の中の1つを、リコンサイルドデータ記憶部12bでデータエントリのクエリセットと関連付けて記憶するために、ユーザ選択に従って選択する。
リファレンスデータ記憶部11は、クエリ特徴ベクトルと比較されるリファレンス特徴ベクトルの組と、夫々の関連するリファレンス特徴ベクトルによって表されるデータエントリの関連するモデルセットと、データエントリのモデルセットについての関連するプロパティ記述子とを記憶する。リファレンスデータ記憶部11は、データエントリの取り込まれた組のデータプロパティをリコンサイルするためにシステムによって必要とされる知識を供給する。
リファレンスデータ記憶部11の意味的部分は、全ての記述子がデータエントリのモデルセットのデータプロパティと関連付けられており、記述子間の関係(親、近傍、関連、など)及び記述子と解析されるデータプロパティとの間の結びつきの推測を格納しているマップ(又はデータグラフ/オントロジーモデル)を記憶する。それらの特徴によれば、知識ベースは、意味的コンポーネントの専門知識を提供することができる。
この意味的部分は、使用とともに成長してよい。それにより、夫々の場合に、データプロパティ記述子は、ユーザによって手動でデータエントリの組へ割り当てられ、データプロパティ記述子は、意味的部分へ加えられる。意味的部分は、記述子と、記述子が割り当てられているデータエントリの組への関連付けとを記憶し、関連付けは、それらの両方をリンクする、ユーザによって採択された最終決定を表す。このプロセスを通じて、意味的部分は、使用とともに知識に関して成長し、記述子とデータエントリの組との間の結びつきを強める。逐次学習(incremental learning)の重要な利点の1つは、時間における知識の進化を考慮しながらいくつかの結びつきの重みを強化し且つ他を弱化する時間の間の知識の進化である。
リファレンスデータ記憶部11はまた、クエリ特徴ベクトルとの比較のためにリファレンス特徴ベクトルを記憶する。特徴ベクトルのリファレンスセットは、装置10のユーザがプロパティ記述子を割り当てるデータエントリの組について特徴ベクトル生成プロセッサによって生成された特徴ベクトルであってよい。リファレンスデータ記憶部11は、リファレンス特徴ベクトルと関連付けて、割り当てられたプロパティ記述子を記憶する。
クエリ特徴ベクトルとリファレンス特徴ベクトルとの間の比較の結果は、モデルへの入力として使用される。モデルはまた、クエリセット記述子とリファレンス特徴ベクトルの夫々の記述子との間の意味的比較の結果を入力としてとる。モデルは、例えば、集計結果を生成するよう夫々の因子に適用される重み付けを設定することによって、トレーニングされる。リファレンスデータ記憶部11はまた、ユーザ選択がモデルによって最も高く順位付けされた記述子と適合する場合及びそうでない場合を示すように、知識ベースとしてユーザフィードバックを記憶してよい。機械学習アルゴリズムは、重み付けを調整するようモデルをトレーニングする。それにより、モデルによって最も高く順位付けされた記述子(夫々のリファレンス特徴ベクトルと関連付けて記憶されている。)は、ユーザ選択とより良く適合する。プロパティ記述子選択の最終段階において、ベクトル比較及び意味的比較の組み合わせに基づくn個の最も類似した記述子は、ユーザに供給される。そして、ユーザは、最も類似した選択に同意するか、あるいは、n個の最も類似した記述子の中から他を選択すること又は他の記述子をデータエントリの組に手動により割り当てることによって異議を唱える。
ユーザフィードバックは、ユーザによって最終的に選択された又は別なふうに割り当てられたプロパティ記述子とデータエントリのクエリセットをリンクする、ユーザによってなされた決定へ、重みを割り当てるように、記憶されてよい。それらの重みは、モデルトレーニングプロセッサの人工知能アルゴリズムを通じて解析され、ユーザの好みを考慮しながら更に正確な提言を提供するようにバランスをとられる。
図10は、本発明を具現し、実施形態のデータプロパティ認識装置10又はデータプロパティ認識方法を実装するために使用され得る、サーバのようなコンピュータデバイスのブロック図である。コンピュータデバイスは、プロセッサ993及びメモリ994を有する。任意に、コンピュータデバイスは、他のコンピュータデバイスとの、例えば、発明実施形態の他のコンピュータデバイスとの通信のためのネットワークインターフェイス997を更に含む。
例えば、実施形態は、そのようなコンピュータデバイスのネットワークから成ってよい。任意に、コンピュータデバイスは、キーボード及びマウス996のような1つ以上の入力メカニズムと、1つ以上のモニタ995のようなディスプレイユニットとを更に含む。
メモリ994は、コンピュータ可読媒体を含んでよい。この語は、コンピュータ実行可能命令を搬送するよう構成された又はデータ構造を記憶している単一の媒体又は複数の媒体(例えば、中央集権型若しくは分散型データベース並びに/又は関連するキャッシュ及びサーバ)を指してよい。コンピュータ実行可能命令は、例えば、汎用のコンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシングデバイス(例えば、1つ以上のプロセッサ)によってアクセス可能であってそれらに1つ以上の関数又は演算を実行させる命令及びデータを含んでよい。このように、語「コンピュータ可読記憶媒体」は、マシンによる実行のために命令の組を記憶、符号化又は搬送することが可能であって、マシンに本開示の方法のいずれか1つ以上を実施させる如何なる媒体も含んでよい。語「コンピュータ可読記憶媒体」は、制限なしに、固体状態メモリ、光学媒体、及び磁気媒体を含むと然るべく考えられてよい。例として、制限なしに、そのようなコンピュータ可読媒体は、ランダムアクセスメモリ(RAM;Random Access Memory)、リードオンリーメモリ(ROM;Read-Only Memory)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM;Electrically Erasable Programmable Read-Only Memory)、コンパクトディスク型リードオンリーメモリ(CD−ROM;Compact Disc Read-Only Memory)若しくは他の光ディスクストレージ、磁気ディスクストレージ又は他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、固体状態メモリデバイス)を含む非一時的なコンピュータ可読記憶媒体を含んでよい。
プロセッサ993は、コンピュータデバイスを制御し、プロセッシング動作を実行するよう構成され、例えば、明細書で及び特許請求の範囲で記載されているクエリプロセッサ14、特徴ベクトル生成プロセッサ16、比較プロセッサ17、プロパティ記述子選択プロセッサ18、リコンサイルドデータマネージャ12a、及びモデルトレーニングプロセッサの様々な異なる機能を実装するように、メモリに記憶されているコードを実行する。メモリ994は、プロセッサ993によってリード及びライトされるデータを記憶する。ここで言及されるように、プロセッサは、マイクロプロセッサ、中央演算処理装置、又は同様のもののような、1つ以上の汎用のプロセッシングデバイスを含んでよい。プロセッサは、複数命令セット計算(CISC;complex instruction set computing)マイクロプロセッサ、縮小命令セット計算(RISC;reduced instruction set computing)マイクロプロセッサ、超長命令語(VLIW;very long instruction word)マイクロプロセッサ、又は他の命令セットを実装するプロセッサ若しくは命令セットの組み合わせを実装するプロセッサを含んでよい。プロセッサは、特定用途向け集積回路(ASIC;application specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA;field programmable gate array)、デジタル信号プロセッサ(DSP;digital signal processor)、ネットワークプロセッサ、又は同様のものも含んでよい。1つ以上の実施形態において、プロセッサは、本願で説明されている動作及びステップを実施するための命令を実行するよう構成される。
ディスプレイユニット995は、コンピュータデバイスによって記憶されているデータの表現を表示してよく、更には、ユーザとコンピュータデバイスに記憶されているプログラム及びデータとの間のインタラクションを可能にするカーソル及びダイアログボックス及び画面を表示してよい。入力メカニズム996は、ユーザがデータ及び命令をコンピュータデバイスに入力することを可能にしてよい。
ネットワークインターフェイス(ネットワークI/F)997は、インターネットのようなネットワークへ接続されてよく、他のそのようなコンピュータデバイスへネットワークを介して接続可能である。ネットワークI/F997は、ネットワークを介して他の装置との間でのデータ入出力を制御してよい。マイクロホン、スピーカ、プリンタ、電源ユニット、ファン、ケース、スキャナ、トラックボールなどのような他の周辺機器が、コンピュータデバイスにおいて含まれてよい。
図1及び3のクエリプロセッサ14、並びに図2の取得ステップS202は、メモリ994で記憶されているプロセッシング命令(プログラム)を実行し且つネットワークI/F997を介してデータを交換するプロセッサ993(又は複数のプロセッサ993)であってよい。特に、プロセッサ993は、外部のデータソースからのデータエントリのクエリセットをネットワークI/F997を介して受信し、任意に、データエントリのクエリセットをフォーマット化又は正規化するように、プロセッシング命令を実行する。更には、プロセッサ993は、接続されている記憶ユニットでデータエントリのクエリセットを記憶するように、及び/又は、更なる処理のためにデータエントリのクエリセットを特徴ベクトル生成プロセッサ16へネットワークI/F997を介して送信するように、プロセッシング命令を実行してよい。
図1及び3の特徴ベクトル生成プロセッサ16、並びに図2の生成及びコンパイルステップS203は、メモリ994で記憶されているプロセッシング命令(プログラム)を実行するプロセッサハードウェア993(又は複数のプロセッサハードウェア993)であってよい。特に、プロセッサハードウェア993は、データエントリの入力された組をクエリプロセッサ14から受信し、データエントリの入力された組を特徴ベクトルへと変換するように、プロセッシング命令を実行する。更には、プロセッサハードウェア993は、接続されている記憶ユニットでの記憶のために、及び/又は比較プロセッサ17による比較処理のような更なる処理のために、生成された特徴ベクトルを出力するよう応答するように、プロセッシング命令を実行してよい。
図1及び3の比較プロセッサ17、並びに図2のベクトル比較及び順位付けステップS204は、メモリ994で記憶されているプロセッシング命令(プログラム)を実行し且つネットワークI/F997を介してデータを交換するプロセッサ993(複数のプロセッサ993)であってよい。特に、プロセッサ993は、特徴ベクトル生成プロセッサ16からクエリ特徴ベクトルを取得し、クエリ特徴ベクトルとリファレンス特徴ベクトルの組との間のベクトル比較を実行するように、プロセッシング命令を実行する。更には、プロセッサ993は、接続されている記憶ユニットで順位付けされたプロパティ記述子を記憶するように、及び/又は、順位付けされたプロパティ記述子を選択プロセスのためにプロパティ記述子選択プロセッサ18へネットワークI/F997を介して送信するように、プロセッシング命令を実行してよい。
図1及び3のプロパティ記述子選択プロセッサ18、並びに図2のベストマッチ記述子の選択ステップS205は、メモリ994で記憶されているプロセッシング命令(プログラム)を実行し且つネットワークI/F997を介してデータを交換するプロセッサ993(又は複数のプロセッサ993)であってよい。特に、プロセッサ993は、順位付けされたプロパティ記述子を比較プロセッサ17からネットワークI/F997を介して又は別な方法で受信し、リコンサイルドデータ記憶部12bにおいてデータエントリのクエリセットと関連付けて記憶される記述子を選択するように、プロセッシング命令を実行する。更には、プロセッサ993は、接続されている記憶ユニットにおいてデータエントリのクエリセット及び選択された記述子を記憶するように、及び/又は、図2のリコンサイルドデータ記憶部12bへのクエリセットの付加ステップS206で見られるように、リコンサイルドデータ記憶部12bでの記憶のためにリコンサイルドデータ記憶マネージャ12aへデータエントリのクエリセット及び選択された記述子をネットワークI/F997を介して送信するように、プロセッシング命令を実行してよい。
本発明を具現する方法は、図10に表されているようなコンピュータデバイスで実施されてよい。そのようなコンピュータデバイスは、図10に表されているあらゆるコンポーネントを有する必要はなく、それらのコンポーネントの一部から成ってよい。本発明を具現する方法は、ネットワークを介して1つ以上のデータ記憶サーバと通信する単一のコンピュータデバイスによって実施されてよい。コンピュータデバイスは、リファレンスデータ記憶部11及びリコンサイルドデータ記憶部12bを設けるデータ記憶サーバ自体のネットワークであってよい。
本発明を具現する方法は、互いに協働する図10のコンピュータデバイスの複数台によって実施されてよい。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
を有するデータプロパティ認識装置。
(付記2)
前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果の両方に基づく、
付記1に記載のデータプロパティ認識装置。
(付記3)
前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
付記1に記載のデータプロパティ認識装置。
(付記4)
前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位n個の記述子を選択可能な記述子として有し、
前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの1つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
付記3に記載のデータプロパティ認識装置。
(付記5)
夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
前記順位付けは、集計結果数字の順である、
付記2に記載のデータプロパティ認識装置。
(付記6)
前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位n個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
を更に有する付記5に記載のデータプロパティ認識装置。
(付記7)
前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
付記1に記載のデータプロパティ認識装置。
(付記8)
前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記比較は、
前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
前記前処理ステップの前記比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
を有する、付記7に記載のデータプロパティ認識装置。
(付記9)
数値タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
最小値、
最大値、
第1四分位値、
第3四分位値、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記10)
文字列タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ、
文字列距離又は他のメーターに基づく統計的計測
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記11)
数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
データ値の数、
エントリの数、
最小数値、
最大数値、
第1四分位数値、
第3四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記12)
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有するデータプロパティ認識方法。
(付記13)
コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有する方法を実行させるコンピュータプログラム。
[関連出願の参照]
本願は、同時係属の独国特許出願第102016220771.7号に関係がある。この特許出願の全文は、参照により本願に援用される。
10 データプロパティ認識装置
11 リファレンスデータ記憶部
12a リコンサイルドデータ記憶マネージャ
12b リコンサイルドデータ記憶部
14 クエリプロセッサ
16 特徴ベクトル生成プロセッサ
17 比較プロセッサ
18 プロパティ記述子選択プロセッサ
141 取得モジュール
142 フィールド正規化モジュール
171 ベクトル比較モジュール
172 意味的比較モジュール

Claims (13)

  1. データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
    データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
    前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
    前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
    前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
    前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
    を有し、
    前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
    前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
    前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づく、
    データプロパティ認識装置。
  2. 前記集計結果値は、
    Figure 0006787087
    に従って求められ、W は、前記集計結果値であり、W は、前記意味的比較の結果に適用される重みであり、P は、前記意味的比較の結果であり、W は、前記ベクトル比較の結果に適用される重みであり、W FF は、個々の特徴ベクトル成分の比較に適用される重みであり、P FF は、前記個々の特徴ベクトル成分の比較の結果である、
    請求項1に記載のデータプロパティ認識装置。
  3. 前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
    前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
    請求項1に記載のデータプロパティ認識装置。
  4. 前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位n個の記述子を選択可能な記述子として有し、
    前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの1つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
    請求項3に記載のデータプロパティ認識装置。
  5. 夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
    前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
    前記順位付けは、集計結果数字の順である、
    請求項2に記載のデータプロパティ認識装置。
  6. 前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位n個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
    前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
    に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
    を更に有する請求項5に記載のデータプロパティ認識装置。
  7. 前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
    前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
    値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
    値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
    前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
    請求項1に記載のデータプロパティ認識装置。
  8. 前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記ベクトル比較は、
    前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
    前記前処理ステップの比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
    前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
    を有する、請求項7に記載のデータプロパティ認識装置。
  9. 数値タイプのデータエントリの組についての前記統計的特徴の組は、
    データエントリの数、
    最小値、
    最大値、
    第1四分位値、
    第3四分位値、
    メジアン値、
    平均、
    標準偏差、
    分散、
    最も繰り返されるデータエントリ
    の中から2つ以上を有する、
    請求項7に記載のデータプロパティ認識装置。
  10. 文字列タイプのデータエントリの組についての前記統計的特徴の組は、
    データエントリの数、
    データエントリのアルファベット、
    データエントリごとの文字の平均数、
    データエントリごとの余白の平均数、
    データエントリごとの終止符の平均数、
    データエントリごとのコンマの平均数、
    データエントリごとのセミコロンの平均数、
    最も繰り返されるデータエントリ、
    最も長い共通の従属文字列、
    一意のエントリのパーセンテージ、
    文字列距離又は他のメーターに基づく統計的計測
    の中から2つ以上を有する、
    請求項7に記載のデータプロパティ認識装置。
  11. 数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
    データ値の数、
    エントリの数、
    最小数値、
    最大数値、
    第1四分位数値、
    第3四分位数値、
    メジアン数値、
    数値の平均、
    標準偏差、
    分散、
    共分散、
    歪度、
    尖度、
    開始日、
    終了日
    の中から2つ以上を有する、
    請求項7に記載のデータプロパティ認識装置。
  12. データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
    データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
    前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
    前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
    前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
    前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
    前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
    前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
    ことを有するデータプロパティ認識方法。
  13. コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
    データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
    データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
    前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
    前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
    前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
    前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
    前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
    前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
    ことを有する方法を実行させるコンピュータプログラム。
JP2016233526A 2016-10-21 2016-11-30 データプロパティ認識のための装置、方法及びプログラム Active JP6787087B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016220781 2016-10-21
DE102016220781.4 2016-10-21

Publications (2)

Publication Number Publication Date
JP2018067278A JP2018067278A (ja) 2018-04-26
JP6787087B2 true JP6787087B2 (ja) 2020-11-18

Family

ID=57570870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016233526A Active JP6787087B2 (ja) 2016-10-21 2016-11-30 データプロパティ認識のための装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20180113888A1 (ja)
EP (1) EP3312736A1 (ja)
JP (1) JP6787087B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3407207A1 (en) 2017-05-22 2018-11-28 Fujitsu Limited System, method, and program for reconciling input datasets with a model ontology
EP3407206B1 (en) 2017-05-22 2021-08-04 Fujitsu Limited Reconciled data storage system
US20190378094A1 (en) * 2018-06-11 2019-12-12 Wellnecity, LLC Data analytics framework for identifying a savings opportunity for self-funded healthcare payers
EP3667512A1 (en) * 2018-12-11 2020-06-17 Siemens Aktiengesellschaft A cloud platform and method for efficient processing of pooled data
EP3948569A1 (en) * 2019-03-23 2022-02-09 British Telecommunications public limited company Configuring distributed sequential transactional databases
US11526565B2 (en) * 2019-04-05 2022-12-13 Ovh Method of and system for clustering search queries
US11238044B2 (en) * 2019-05-06 2022-02-01 International Business Machines Corporation Candidate data record prioritization for match processing
CN114741381B (zh) * 2022-04-14 2023-04-14 郑州轻工业大学 基于关联依赖的数据清洗方法
US20230350892A1 (en) * 2022-04-30 2023-11-02 Microsoft Technology Licensing, Llc Materialized view generation and provision based on queries having a semantically equivalent or containment relationship

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
US8122045B2 (en) * 2007-02-27 2012-02-21 International Business Machines Corporation Method for mapping a data source to a data target
US10565222B2 (en) * 2016-09-15 2020-02-18 Oracle International Corporation Techniques for facilitating the joining of datasets

Also Published As

Publication number Publication date
US20180113888A1 (en) 2018-04-26
JP2018067278A (ja) 2018-04-26
EP3312736A1 (en) 2018-04-25

Similar Documents

Publication Publication Date Title
JP6787087B2 (ja) データプロパティ認識のための装置、方法及びプログラム
Shvaiko et al. Ontology matching: state of the art and future challenges
US20160180245A1 (en) Method and system for linking heterogeneous data sources
EP3671526B1 (en) Dependency graph based natural language processing
JP2017037648A (ja) ハイブリッドデータを保存するためのハイブリッドデータストレージシステム、方法及びプログラム
JP7100422B2 (ja) データプロパティ認識のための装置、プログラム、及び方法
Sirichanya et al. Semantic data mining in the information age: A systematic review
US20200365239A1 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
US20200311610A1 (en) Rule-based feature engineering, model creation and hosting
US10901959B2 (en) System, method, and program for reconciling input datasets with a model ontology
Yang et al. Semantic inference on clinical documents: combining machine learning algorithms with an inference engine for effective clinical diagnosis and treatment
Dasgupta et al. Analytics-driven data ingestion and derivation in the AWESOME polystore
WO2021114635A1 (zh) 患者分群模型构建方法、患者分群方法及相关设备
Wang et al. Automatic diagnosis with efficient medical case searching based on evolving graphs
Nashipudimath et al. An efficient integration and indexing method based on feature patterns and semantic analysis for big data
Arch-Int et al. Graph‐Based Semantic Web Service Composition for Healthcare Data Integration
Greene et al. An analysis of research themes in the CBR conference literature
Chiranjeevi et al. An text document retrieval system for university support service on a high performance distributed information system
Hussain et al. A methodology to rank the design patterns on the base of text relevancy
Sheng et al. DocKG: a knowledge graph framework for health with doctor-in-the-loop
Abdallah et al. Towards a gml-enabled knowledge graph platform
Sazontev et al. An extensible approach for materialized big data integration in distributed computation environments
Zeman et al. Ontology-driven data preparation for association mining
WO2015140592A1 (en) Repository and recommendation system for computer programs
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6787087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150