JP6787087B2 - データプロパティ認識のための装置、方法及びプログラム - Google Patents
データプロパティ認識のための装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6787087B2 JP6787087B2 JP2016233526A JP2016233526A JP6787087B2 JP 6787087 B2 JP6787087 B2 JP 6787087B2 JP 2016233526 A JP2016233526 A JP 2016233526A JP 2016233526 A JP2016233526 A JP 2016233526A JP 6787087 B2 JP6787087 B2 JP 6787087B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature vector
- descriptor
- query
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
任意に、前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される。
データエントリの数、
最小値、
最大値、
第1四分位値(first quartile value)、
第3四分位値(third quartile value)、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ。
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ。
データ値の数、
エントリの数、
最小数値、
最大数値、
第1四分位数値、
第3四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日。
WS:意味的比較の結果に適用される重み;
PS:意味的比較の結果;
WF:ベクトル比較の結果に適用される重み;
WFF:個々の特徴ベクトル成分の比較に適用される重み;
PFF:個々の特徴ベクトル成分の比較の結果。
WFF:個々の特徴ベクトル成分の比較に適用される重み;
PFF:個々の特徴ベクトル成分の比較の結果。
記述子解析ステップS1721:このステップは、データエントリのクエリセットから記述子又はラベルを抽出する。
PS:意味的比較の結果。
(付記1)
データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
を有するデータプロパティ認識装置。
(付記2)
前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果の両方に基づく、
付記1に記載のデータプロパティ認識装置。
(付記3)
前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
付記1に記載のデータプロパティ認識装置。
(付記4)
前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位n個の記述子を選択可能な記述子として有し、
前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの1つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
付記3に記載のデータプロパティ認識装置。
(付記5)
夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
前記順位付けは、集計結果数字の順である、
付記2に記載のデータプロパティ認識装置。
(付記6)
前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位n個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
を更に有する付記5に記載のデータプロパティ認識装置。
(付記7)
前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
付記1に記載のデータプロパティ認識装置。
(付記8)
前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記比較は、
前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
前記前処理ステップの前記比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
を有する、付記7に記載のデータプロパティ認識装置。
(付記9)
数値タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
最小値、
最大値、
第1四分位値、
第3四分位値、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記10)
文字列タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ、
文字列距離又は他のメーターに基づく統計的計測
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記11)
数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
データ値の数、
エントリの数、
最小数値、
最大数値、
第1四分位数値、
第3四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日
の中から2つ以上を有する、
付記7に記載のデータプロパティ認識装置。
(付記12)
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有するデータプロパティ認識方法。
(付記13)
コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有する方法を実行させるコンピュータプログラム。
本願は、同時係属の独国特許出願第102016220771.7号に関係がある。この特許出願の全文は、参照により本願に援用される。
11 リファレンスデータ記憶部
12a リコンサイルドデータ記憶マネージャ
12b リコンサイルドデータ記憶部
14 クエリプロセッサ
16 特徴ベクトル生成プロセッサ
17 比較プロセッサ
18 プロパティ記述子選択プロセッサ
141 取得モジュール
142 フィールド正規化モジュール
171 ベクトル比較モジュール
172 意味的比較モジュール
Claims (13)
- データエントリの複数のモデルセットを記憶するリファレンスデータ記憶部であり、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有する、前記リファレンスデータ記憶部と、
データエントリのクエリセットをデータソースから得るよう構成されるクエリプロセッサと、
前記クエリプロセッサから前記データエントリのクエリセットを得、該データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルを出力するよう構成される特徴ベクトル生成プロセッサと、
前記クエリ特徴ベクトルを得、該クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付けするよう構成される比較プロセッサと、
前記比較プロセッサによる前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択するよう構成されるプロパティ記述子選択プロセッサと、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加えるよう構成されるリコンサイルドデータマネージャと
を有し、
前記クエリプロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子を前記データソースから得るよう構成され、
前記比較プロセッサは、前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行するよう構成され、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子の前記順位付けは、当該記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間の前記ベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づく、
データプロパティ認識装置。 - 前記プロパティ記述子選択プロセッサは、前記比較プロセッサによる前記順位付けに従って最も高く順位付けされた記述子を選択可能な記述子として有するユーザインターフェイスを出力し、前記選択可能な記述子の入力選択を前記ベストマッチの記述子として前記ユーザインターフェイスを介して受け取るよう構成され、
前記リコンサイルドデータマネージャは、前記ユーザインターフェイスでの前記選択可能な記述子の前記入力選択に応答して、前記データエントリのクエリセットを、前記選択されたベストマッチの記述子と関連付けて前記リコンサイルドデータ記憶部に加えるよう構成される、
請求項1に記載のデータプロパティ認識装置。 - 前記ユーザインターフェイスは、前記比較プロセッサによる前記順位付けに従って上位n個の記述子を選択可能な記述子として有し、
前記プロパティ記述子選択プロセッサは、前記選択可能な記述子のうちの1つの入力選択を前記選択されたベストマッチの記述子として受け取るよう構成される、
請求項3に記載のデータプロパティ認識装置。 - 夫々の実行されたベクトル比較の結果は、数字であり、夫々の実行された意味的比較の結果は、数字であり、
前記比較プロセッサは、前記ベクトル比較の結果の数字及び前記意味的比較の結果の数字を、前記データエントリのクエリセットに対する夫々の記述子の関連性の程度を表す集計結果数字に変換するモデルを有し、
前記順位付けは、集計結果数字の順である、
請求項2に記載のデータプロパティ認識装置。 - 前記クエリプロセッサによって得られたデータエントリのクエリセットの複数のインスタンスの夫々について、ユーザインターフェイスにおいて選択可能な記述子として含まれている上位n個の記述子、及び前記選択可能な記述子の中からの入力選択をモニタすることと、
前記モニタされたインスタンスについて、集計結果数字の順に最初に順位付けされる記述子が前記入力選択と一致するインスタンスの数を最大とするように、前記モデルを再構成することと
に少なくともよって、前記モデルをトレーニングするよう構成されるモデルトレーニングプロセッサ
を更に有する請求項5に記載のデータプロパティ認識装置。 - 前記データエントリのモデルセットの中のデータエントリの夫々の個々のモデルセットは、複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
前記データエントリのクエリセットは、前記複数のサポートされているデータタイプのうちの1つである共通データタイプのデータエントリを有するよう強いられ、
値が前記リファレンス特徴ベクトルの夫々に含まれる前記統計的特徴の組は、データエントリの夫々のモデルセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
値が前記クエリ特徴ベクトルに含まれる前記統計的特徴の組は、前記データエントリのクエリセットを有する前記データエントリの前記複数のサポートされているデータタイプの中のデータタイプに依存し、
前記複数のサポートされているデータタイプは、文字列、数値、及び数時系列である、
請求項1に記載のデータプロパティ認識装置。 - 前記実行されるベクトル比較は、前記クエリ特徴ベクトルと特徴ベクトルの記憶されているリファレンスセットの夫々との間であり、前記ベクトル比較は、
前記リファレンス特徴ベクトルによって表されるデータエントリの組のデータタイプを、前記クエリ特徴ベクトルによって表されるデータエントリのクエリセットのデータタイプと比較する前処理ステップと、
前記前処理ステップの比較に基づき前記データタイプが異なる場合に、前記リファレンス特徴ベクトルをベクトル比較から除くことと、
前記データタイプが同じである場合に、前記クエリ特徴ベクトルと前記リファレンス特徴ベクトルとの間のベクトル比較を実行して、該比較された特徴ベクトル間の類似を表す数字を得ることと
を有する、請求項7に記載のデータプロパティ認識装置。 - 数値タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
最小値、
最大値、
第1四分位値、
第3四分位値、
メジアン値、
平均、
標準偏差、
分散、
最も繰り返されるデータエントリ
の中から2つ以上を有する、
請求項7に記載のデータプロパティ認識装置。 - 文字列タイプのデータエントリの組についての前記統計的特徴の組は、
データエントリの数、
データエントリのアルファベット、
データエントリごとの文字の平均数、
データエントリごとの余白の平均数、
データエントリごとの終止符の平均数、
データエントリごとのコンマの平均数、
データエントリごとのセミコロンの平均数、
最も繰り返されるデータエントリ、
最も長い共通の従属文字列、
一意のエントリのパーセンテージ、
文字列距離又は他のメーターに基づく統計的計測
の中から2つ以上を有する、
請求項7に記載のデータプロパティ認識装置。 - 数時系列タイプであるデータエントリの組についての前記統計的特徴の組は、
データ値の数、
エントリの数、
最小数値、
最大数値、
第1四分位数値、
第3四分位数値、
メジアン数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日
の中から2つ以上を有する、
請求項7に記載のデータプロパティ認識装置。 - データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有するデータプロパティ認識方法。 - コンピュータデバイスによって実行される場合に、該コンピュータデバイスに、
データエントリの複数のモデルセットを記憶し、データエントリの各モデルセットは、当該データエントリのモデルセットに共通するプロパティを個々に表す複数のデータエントリであり、前記プロパティの記述子及びリファレンス特徴ベクトルと関連付けて記憶され、前記リファレンス特徴ベクトルが、当該データエントリのモデルセットを表す統計的特徴の組の夫々についての値を有し、
データエントリのクエリセットと、前記データエントリのクエリセットによって表されるプロパティを識別する記述子とをデータソースから得、
前記データエントリのクエリセットについて前記統計的特徴の組の夫々の値を生成し、該生成された統計的特徴の値を含むクエリ特徴ベクトルをコンパイルし、
前記クエリ特徴ベクトルと複数の前記記憶されているリファレンス特徴ベクトルとの間のベクトル比較を実行し、
前記データエントリのクエリセットによって表されるプロパティを識別する記述子をクエリセット記述子として得、該クエリセット記述子と前記リファレンス特徴ベクトルと関連付けて記憶されている記述子との間の意味的比較を夫々実行し、
前記リファレンス特徴ベクトルと関連付けて記憶されている記述子と前記クエリセット記述子との間の前記実行された意味的比較の結果、及び前記クエリ特徴ベクトルと夫々の関連するリファレンス特徴ベクトルとの間のベクトル比較の結果を夫々重み付けして足し合わせた集計結果値に基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子を順位付け、
前記記述子の順位付けに基づき、前記リファレンス特徴ベクトルと関連付けて記憶されている前記記述子の中からベストマッチの記述子を選択し、
前記ベストマッチの記述子と関連付けて前記データエントリのクエリセットをリコンサイルドデータ記憶部に加える
ことを有する方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102016220781 | 2016-10-21 | ||
DE102016220781.4 | 2016-10-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018067278A JP2018067278A (ja) | 2018-04-26 |
JP6787087B2 true JP6787087B2 (ja) | 2020-11-18 |
Family
ID=57570870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016233526A Active JP6787087B2 (ja) | 2016-10-21 | 2016-11-30 | データプロパティ認識のための装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180113888A1 (ja) |
EP (1) | EP3312736A1 (ja) |
JP (1) | JP6787087B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3407207A1 (en) | 2017-05-22 | 2018-11-28 | Fujitsu Limited | System, method, and program for reconciling input datasets with a model ontology |
EP3407206B1 (en) | 2017-05-22 | 2021-08-04 | Fujitsu Limited | Reconciled data storage system |
US20190378094A1 (en) * | 2018-06-11 | 2019-12-12 | Wellnecity, LLC | Data analytics framework for identifying a savings opportunity for self-funded healthcare payers |
EP3667512A1 (en) * | 2018-12-11 | 2020-06-17 | Siemens Aktiengesellschaft | A cloud platform and method for efficient processing of pooled data |
EP3948569A1 (en) * | 2019-03-23 | 2022-02-09 | British Telecommunications public limited company | Configuring distributed sequential transactional databases |
US11526565B2 (en) * | 2019-04-05 | 2022-12-13 | Ovh | Method of and system for clustering search queries |
US11238044B2 (en) * | 2019-05-06 | 2022-02-01 | International Business Machines Corporation | Candidate data record prioritization for match processing |
CN114741381B (zh) * | 2022-04-14 | 2023-04-14 | 郑州轻工业大学 | 基于关联依赖的数据清洗方法 |
US20230350892A1 (en) * | 2022-04-30 | 2023-11-02 | Microsoft Technology Licensing, Llc | Materialized view generation and provision based on queries having a semantically equivalent or containment relationship |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
US8122045B2 (en) * | 2007-02-27 | 2012-02-21 | International Business Machines Corporation | Method for mapping a data source to a data target |
US10565222B2 (en) * | 2016-09-15 | 2020-02-18 | Oracle International Corporation | Techniques for facilitating the joining of datasets |
-
2016
- 2016-11-30 JP JP2016233526A patent/JP6787087B2/ja active Active
- 2016-12-20 EP EP16205543.8A patent/EP3312736A1/en not_active Withdrawn
-
2017
- 2017-08-17 US US15/679,406 patent/US20180113888A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20180113888A1 (en) | 2018-04-26 |
JP2018067278A (ja) | 2018-04-26 |
EP3312736A1 (en) | 2018-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6787087B2 (ja) | データプロパティ認識のための装置、方法及びプログラム | |
Shvaiko et al. | Ontology matching: state of the art and future challenges | |
US20160180245A1 (en) | Method and system for linking heterogeneous data sources | |
EP3671526B1 (en) | Dependency graph based natural language processing | |
JP2017037648A (ja) | ハイブリッドデータを保存するためのハイブリッドデータストレージシステム、方法及びプログラム | |
JP7100422B2 (ja) | データプロパティ認識のための装置、プログラム、及び方法 | |
Sirichanya et al. | Semantic data mining in the information age: A systematic review | |
US20200365239A1 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
US20200311610A1 (en) | Rule-based feature engineering, model creation and hosting | |
US10901959B2 (en) | System, method, and program for reconciling input datasets with a model ontology | |
Yang et al. | Semantic inference on clinical documents: combining machine learning algorithms with an inference engine for effective clinical diagnosis and treatment | |
Dasgupta et al. | Analytics-driven data ingestion and derivation in the AWESOME polystore | |
WO2021114635A1 (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
Wang et al. | Automatic diagnosis with efficient medical case searching based on evolving graphs | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
Arch-Int et al. | Graph‐Based Semantic Web Service Composition for Healthcare Data Integration | |
Greene et al. | An analysis of research themes in the CBR conference literature | |
Chiranjeevi et al. | An text document retrieval system for university support service on a high performance distributed information system | |
Hussain et al. | A methodology to rank the design patterns on the base of text relevancy | |
Sheng et al. | DocKG: a knowledge graph framework for health with doctor-in-the-loop | |
Abdallah et al. | Towards a gml-enabled knowledge graph platform | |
Sazontev et al. | An extensible approach for materialized big data integration in distributed computation environments | |
Zeman et al. | Ontology-driven data preparation for association mining | |
WO2015140592A1 (en) | Repository and recommendation system for computer programs | |
Wei et al. | A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170804 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6787087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |