JP2018067279A - データプロパティ認識のための装置、プログラム、及び方法 - Google Patents

データプロパティ認識のための装置、プログラム、及び方法 Download PDF

Info

Publication number
JP2018067279A
JP2018067279A JP2016233527A JP2016233527A JP2018067279A JP 2018067279 A JP2018067279 A JP 2018067279A JP 2016233527 A JP2016233527 A JP 2016233527A JP 2016233527 A JP2016233527 A JP 2016233527A JP 2018067279 A JP2018067279 A JP 2018067279A
Authority
JP
Japan
Prior art keywords
data
data entry
feature vector
property
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016233527A
Other languages
English (en)
Other versions
JP7100422B2 (ja
Inventor
ヤーベス・アレハンドロ
Llaves Alejandro
ムニョス・マヌエル ペーニャ
Penia Munioz Manuel
ムニョス・マヌエル ペーニャ
ラ トーレ・ビクトール デ
De La Torre Victor
ラ トーレ・ビクトール デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018067279A publication Critical patent/JP2018067279A/ja
Application granted granted Critical
Publication of JP7100422B2 publication Critical patent/JP7100422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30192Instruction operation extension or modification according to data descriptor, e.g. dynamic data typing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus

Abstract

【課題】データプロパティ認識のための装置、プログラム、及び方法を提供する。【解決手段】データプロパティ認識装置10は、記憶ユニット16と、モデルデータ取得プロセッサ12と、特徴ベクトル生成プロセッサ14と、を有する。モデルデータ取得プロセッサ12は、複数のデータエントリモデルセットを取得するよう構成される。各々のデータエントリモデルセットは、データエントリモデルセットに共通に識別された、データ要素モデルセットに共通するデータ型を持つプロパティを個々に表す、データエントリである。特徴ベクトル生成プロセッサ14は、データエントリ入力セットを受信し、複数のサポートされるデータ型の中からデータエントリ入力セットに共通のデータ型を認識し、認識したデータ型に依存してデータエントリ入力セットを表す統計的特徴セットの各々の値を生成し、生成した統計的特徴の値から成る特徴ベクトルを出力する。【選択図】図1

Description

本発明は、データ科学の分野であり、特に、複数のデータソースからのデータエントリのリコンシレーションの自動化に関する。
データ科学者は、データの組織化及び削除に時間を費やす。この時間は、モデル化又はデータマイニングのような手順に良好に使用されることができたものである。W3C(World Wide Web Consortium)のような標準化団体は、何年もの間、データ公開及び共有を実現するためにフォーマット及び成功事例の提案に取り組んでいる。しかしながら、全てのデータプロバイダが標準に従い彼らのデータを公開しているとは限らない。さらに、殆どの標準は、データモデルのシンタックスに焦点を当てており、データ意味論を忘れている。これは、異なる情報源からのデータが交換され統合されるとき、例えば2つのデータセットが異なる名称を用いて同じデータプロパティを参照するとき、意味的な相互運用性問題を生じる場合が多い。
データセットの中のデータプロパティの識別は、適正なメタデータが利用可能でないとき、複雑であり時間がかかる。
本発明は、以下に記載する独立請求項に定められる。有利な実施形態は、従属請求項に定められる。
実施形態は、データプロパティ認識装置であって、記憶ユニットと、モデルデータ取得プロセッサであって、複数のデータエントリモデルセットを取得するよう構成され、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、モデルデータ取得プロセッサと、特徴ベクトル生成プロセッサであって、データエントリ入力セットを受信し、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記の認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記データエントリ入力セットから前記の選択した統計的特徴セットの各々の値を生成し、前記の生成した統計的特徴の値から成る特徴ベクトルを出力するよう構成される、特徴ベクトル生成プロセッサと、を有し、前記モデルデータ取得プロセッサは、前記取得した複数のデータエントリモデルセットの各々について、データエントリ入力セットとして、前記特徴ベクトル生成プロセッサに前記データエントリモデルセットを提出し、前記特徴ベクトル生成プロセッサにより出力される前記特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別したプロパティに関連する前記特徴ベクトルを前記記憶ユニットに提出するよう構成され、前記記憶ユニットは、前記個々の識別されたプロパティに関連する前記提出された特徴ベクトルを、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットについて、前記特徴ベクトル生成プロセッサにより出力される特徴ベクトルと比較するための特徴ベクトル基準セットとして、格納するよう構成される、データプロパティ認識装置を含む。
有利なことに、データプロパティ認識装置は、データセットの中のデータプロパティ同一性認識を自動化するために使用できる特徴ベクトルレポジトリを提供する。したがって、複数の異種データソース(つまり、異なるスキーマを有する)からのデータエントリの結合は、低減されたレベルの手動の相互作用により実行され得る。特徴ベクトルは、人間の指紋に類似する、データプロパティのユニークな表現である。特徴ベクトルは、識別されるデータプロパティのユニークな識別子を提供するので、データプロパティフィンガープリントとして表されても良い。識別されたデータプロパティは、データセット、データベース、又はデータソースの属性である。特徴ベクトルレポジトリの目的は、人間からの最小限の入力しか伴わず、データエントリ値に基づきデータプロパティ認識を自動化することである。
データエントリセットは、関係型データベースの中のラベル付けされた列からのエントリであっても良い。したがって、各々の列エントリは、データエントリセットとして取得され、ラベルは、データエントリが共通に個々に表すプロパティを識別する。代替又は追加で、データエントリセットは、グラフデータベースの中の目的語として格納される要素であっても良い。ここで、目的語は、グラフの中で、共通ラベルを共有するアークにより、主語エンティティにリンクされている。共通ラベルは、データエントリが共通に表すプロパティを識別する。
異種データソースの中のプロパティのラベルの意味分析に頼るのではなく、記憶ユニットにより格納される特徴ベクトル基準セットは、2つのデータエントリセットを比較するために、及びそれらが同じプロパティを表すデータエントリであるか否かを決定するために、data behaviourの統計的比較のための手段を提供する。必ずしもエンティティが同じ必要はない。データプロパティ認識装置は、同じプロパティを表すデータエントリセットのうちの1つが異なるプロパティを表すデータエントリセットと一致するより、該同じプロパティを表すデータエントリセットが、同じ、重なり合う、又は重なり合わないエンティティかどうかに拘わらず、統計的特徴の観点で良好に一致するという想定を利用する。
データエントリモデルセットは、データエントリとエントリにより表されるプロパティとの間の関係が他のソースからのデータの中で複製されるべきであることを示すために、モデルとして参照される。つまり、識別されたプロパティの意味内容とデータエントリとの間の関係は、他のソースからのデータセットが比較され及び/又は適合し得るモデルである。
任意で、データプロパティ認識装置は、クエリプロセッサであって、前記クエリプロセッサは、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、前記データエントリクエリセットを前記特徴ベクトル生成プロセッサに提出し、前記出力された特徴ベクトルと前記格納された特徴ベクトル基準セットとの間の比較を実行して、前記出力された特徴ベクトルについて前記格納された特徴ベクトル基準セットの間で最良一致特徴ベクトルを識別し、前記最良一致特徴ベクトルに関連して格納された前記識別されたプロパティを、前記データエントリクエリセットの中の前記個々のデータエントリにより表されるデータプロパティとして認識し、前記認識したデータプロパティを出力するよう構成される、クエリプロセッサ、を更に有する。
有利なことに、クエリプロセッサは、データエントリクエリセットを、特徴ベクトルが基準セットの中に現れるデータエントリセットとリコンサイル(reconcile)するために、特徴ベクトル基準セットを利用するメカニズムである。この文脈におけるリコンシレーション(reconciliation)は、データエントリクエリセットについて生成された特徴ベクトルと基準セットの中の特徴ベクトルとの間の最良一致を見付けることによる、スキーマの整合として考えられる。特徴ベクトル基準セットに関連付けられて格納されたものの中から識別されたプロパティは、データエントリクエリセットに割り当てる又は属する識別されたプロパティとして認識される。
出力される認識されたデータプロパティは、特徴ベクトルクエリセットに関連付けられる記憶のために、記憶ユニット(例えば、特徴ベクトル基準セットが格納される記憶ユニット)に出力されても良い。
クエリプロセッサを含む実施形態は、どのデータプロパティがデータエントリセットの中のデータエントリにより表されるかを認識する処理を自動化する。
特に、前記クエリプロセッサは、前記データエントリクエリセット及び前記認識されたデータプロパティを前記記憶ユニットに提出するよう構成され、前記記憶ユニットは、前記データエントリクエリセットを、認識されたデータエントリセットとして、前記認識されたデータプロパティに関連付けて格納するよう構成されても良い。さらに、前記記憶ユニットは、前記個々の識別されたプロパティに関連付けて及び前記特徴ベクトルが生成された前記個々のデータエントリモデルセットに関連付けて、前記特徴ベクトル基準セットを格納するよう構成される。
有利なことに、記憶ユニットは、データエントリクエリセットと、データエントリモデルセットのうちの1つ(又は複数)の両方を、同じ識別されたプロパティと関連付けて格納する。データエントリモデルセットが取得されたデータソースからのデータエントリ、及びデータエントリクエリセットが取得されたデータソースからのデータエントリは、したがって、記憶ユニットにリコンサイルされた方法で格納される。
実施形態は、基準特徴ベクトル更新プロセッサであって、前記記憶ユニットに格納された前記認識されたデータエントリセットの提出により、提出された認識されたデータエントリセットと同じ識別されたプロパティに関連して格納された前記データエントリ基準セットの各々と前記他の認識されたデータエントリセットの各々とを有するデータエントリ合成セットを編成し、前記特徴ベクトル生成プロセッサに前記データエントリ合成セットを提出し、更新基準特徴ベクトルとして前記特徴ベクトル生成プロセッサにより出力された前記特徴ベクトルを得て、前記識別されたプロパティと関連して格納された前記特徴ベクトル基準セットの中に存在する特徴ベクトルを、前記更新基準特徴ベクトルで置き換えるよう構成される、基準特徴ベクトル更新プロセッサ、を更に有しても良い。
有利なことに、特徴ベクトルの更新は、認識のための特徴ベクトル基準セットの使用により認識の質を向上する。
任意で、前記の実行される比較は、前記出力される特徴ベクトルと前記格納された特徴ベクトル基準セットの各々の間であり、前記比較は、前記基準セットからの前記特徴ベクトルにより表される前記データエントリセットのデータ型を、前記出力される特徴ベクトルにより表される前記データエントリクエリセットのデータ型と比較するステップと、前記データ型が異なる場合、数学的比較により前記基準セットから前記特徴ベクトルを除外するステップと、前記データ型が同じ場合、前記出力される特徴ベクトルと前記基準セットからの前記特徴ベクトルとの間の数学的比較を実行して、類似性値を得るステップと、を有し、最大類似性値が得られた特徴ベクトルは、前記最良一致特徴ベクトルである。
出力される特徴ベクトルは、データエントリクエリセットについて生成された特徴ベクトルである。特徴ベクトルの構成、つまり、それらが含む統計的特徴は、データ型に特有であっても良い。したがって、特徴ベクトルは、データ型について特徴ベクトルから識別可能なように、データ型を明示的に指定しなくても良い。代替で、データエントリセットの特徴ベクトルは、データエントリセットのデータ型を明確に識別するエントリを含んでも良い。
特徴ベクトルの中の統計的特徴の比較は、同じデータ型のデータエントリセットを表す特徴ベクトルの間で実行されるだけである。したがって、データ型の比較は、数学的比較の事前処理ステップであると考えられる。
類似度値は、数学的比較の結果である。数学的比較は、例えば、0(最小)と1(最大)との間の類似度値を生成する、2つの特徴ベクトルのコサイン距離であっても良い。
有利なことに、2つのベクトルの数学的比較は、2つのデータエントリセットを比較するための計算的に効率の良い方法である。特徴ベクトルを生成する処理オーバヘッドは、データエントリのクエリセットの特徴ベクトルと特徴ベクトル基準セットとの間の比較の容易さにより償還される。したがって、実施形態は、非常に大きな基準ベクトルセットに渡り拡張可能である。
統計的特徴の観点での特徴ベクトルの比較は、実装に依存し、設計時に、又は実行時にユーザインタフェースを介してユーザにより、選択されても良い。特徴ベクトルは、サポートされるデータ型のどれが、特徴ベクトルが生成されたデータエントリセットであるかを識別するデータを有しても良い。実施形態は、データ型の各々について、特徴ベクトルの中にどの統計的特徴がどの順序で記録されるかのレコードも格納しても良い。このようなレコードは、特徴ベクトルスキーマを形成する。
別の態様の実施形態は、第1のデータソースからの複数のデータエントリモデルセットの指定と更なるデータソースからの複数のデータエントリクエリセットの指定とを、ユーザから受け付けるユーザインタフェースと、請求項に定められるデータプロパティ認識装置であって、前記複数のデータエントリモデルセットは前記ユーザにより指定される、データプロパティ認識装置と、データプロパティリコンシレーションプロセッサであって、前記記憶ユニットに、前記第1のデータソースのコピー及び前記更なるデータソースの各々のコピーを提出するよう構成され、認識されたデータプロパティが前記クエリプロセッサにより出力された前記データエントリクエリセットは、前記個々の認識されたデータプロパティと関連して格納される、データプロパティリコンシレーションプロセッサと、を有するデータセットリコンシレーション装置を含む。
データプロパティリコンシレーション装置は、単一のリコンサイルスキーマの下で、本質的に異なる異種データソースのリコンサイルを自動化するメカニズムを提供する。記憶ユニットは、単一のアクセスポイントを経由してアクセス可能な、記憶ユニットにDBMSを介して提供される、データストアになり、本質的に異なるデータソースからのデータエントリセットについて単一のリコンサイルスキーマを利用して格納されたデータに対するアクセスクエリを処理する。
別の態様の実施形態は、コンピューティング装置により実行されると、該コンピューティング装置に本発明の実施形態として上述したコンピューティング装置として機能させるコンピュータプログラムを有する。
別の態様の実施形態は、複数のデータエントリモデルセットを取得するステップであって、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、ステップと、データエントリ入力セットとして前記取得された複数のデータエントリモデルセットの各々について、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記複数のデータエントリから前記選択された統計的特徴セットの各々の値を生成し、前記生成した統計的特徴の値から成る特徴ベクトルを出力するステップと、前記取得した複数のデータエントリモデルセットの各々について、前記出力された特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別されたプロパティと関連する前記出力された特徴ベクトルを前記記憶ユニットに提出するステップと、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットのために生成された特徴ベクトルと比較するための特徴ベクトル基準セットとして、前記個々の識別されたプロパティと関連する前記提出された特徴ベクトルを格納するステップと、を有する方法を含む。
別の態様の実施形態は、コンピューティング装置により実行されると、該コンピューティング装置に本発明の実施形態として本願明細書に上述した又は他の箇所に定めた方法を実行させるコンピュータプログラムを有する。
さらに、本発明の実施形態は、複数の相互接続されたコンピューティング装置により実行されると、前記複数の相互接続されたコンピューティング装置に、本発明を具現化する方法を実行させるコンピュータプログラム又はコンピュータプログラムスーツを有する。
本発明の実施形態は、複数の相互接続されたコンピューティング装置により実行されると、前記複数の相互接続されたコンピューティング装置に、本発明の実施形態として本願明細書に上述した又は他の箇所に定めたコンピューティング装置として機能させるコンピュータプログラム又はコンピュータプログラムスーツを有する。
本発明の好適な特徴は、単なる例として添付の図面を参照して以下に説明される。
データプロパティ認識装置を示す。 データプロパティ認識装置を示す。 特徴ベクトル生成処理を示す。 データプロパティ認識装置の部分を示す。 特徴ベクトルと識別されたデータプロパティとの間のマッピングを示す。 特徴ベクトル生成処理の一例を示す。 実施形態のハードウェア構成を示す。
図1は、一実施形態のデータプロパティ認識装置10を示す。データプロパティ認識装置10は、モデルデータ取得プロセッサ12、特徴ベクトル生成プロセッサ14、及び記憶ユニット16を有する。
モデルデータ取得プロセッサは、複数のデータエントリモデルセットを取得するよう構成される。各々の個々のデータエントリモデルセットは、データエントリモデルセットに共通の及びデータエントリモデルセットに共通のデータ型である識別されるプロパティを個々に表す複数のデータエントリである。複数のデータエントリモデルセットは、単一のデータソースからであっても良く、各々のセットの中の個々のデータ値により表されるプロパティを識別する単一のデータソースのスキーマを有する。図1に示す、データプロパティ認識装置10の外側からモデルデータ取得プロセッサ12への線は、モデルデータ取得プロセッサ12によるデータソースからのデータエントリモデルセットのインポート(取得)を表す。
モデルデータ取得プロセッサ12は、複数のデータエントリモデルセットがそれぞれ格納されるデータソースにアクセスし、複数のデータエントリセットと各々のセットの中の個々のデータ値により表されるプロパティを識別するスキーマを読み出し、読み出したデータを特徴ベクトル生成プロセッサ14及び/又は記憶ユニット16に処理のために提出するよう構成される。モデルデータ取得プロセッサ12と特徴ベクトル認識プロセッサ14とをリンクする図示の線は、データエントリモデルセットの特徴ベクトル生成プロセッサ14への提出を表す。
データエントリモデルセットに共通の識別されたプロパティは、関係型データベースの中のデータエントリ列のラベル、又はグラフデータベースの中の共通にラベル付けされたエッジのラベルであっても良い。いずれの場合にも、ラベルは、それ自体が、識別されるプロパティを定める意味的データ(つまり、文字列)を含んでも良く、又は識別されたプロパティを定める意味的データが見付かる知識モデルの要素へのリンクを提供しても良い。いずれの場合にも、直接的か(意味的データによる)、間接的か(意味的データを含む知識モデル要素へのリンクを介して)に拘わらず、プロパティは識別される。リンク又は明示的ラベルのいずれかが、モデルデータ取得プロセッサ12により識別されるプロパティとして取得されても良い。
ユーザは、モデルデータ取得プロセッサに、複数のデータエントリモデルセットとして取得するために、データソース又はデータソースの中のデータの部分集合を指定しても良い。特徴ベクトル生成プロセッサ14により計算されるべき統計的特徴の各々のセットの中に充分なデータエントリが存在することが、必要条件である。例えば、データエントリの最小数が、モデルデータ取得プロセッサ12により課されても良い。ここで、取得されるべきデータエントリセットが最小数より少ない場合、警告がユーザに発行され、及び/又はデータエントリセットは取得されない。最小数は、例えば、2、5、10、50、100、又は200であっても良い。
更なる必要条件は、各々のデータエントリモデルセットの中のデータエントリが、共通のデータ型であること、及びデータ型が所定のリストのうちの1つであることである。実装に依存して、モデルデータ取得プロセッサ12又は特徴ベクトル生成プロセッサ14のいずれかは、共通のデータ型ではない、サポートされるデータ型の所定のリストからのもの以外のデータ型である、任意のデータエントリセットを拒否する責任があっても良い(つまり、更なる処理から除外し、記憶ユニット16から削除する)。サポートされるデータ型の所定のリストは、数値型、文字列(ストリング)型、数値時系列型である。特定のフォーマットは、指定された型の中で変化し得る。したがって、例えば、数値型は、単精度浮動小数点フォーマット、2倍精度浮動小数点フォーマット、整数、小数、等であっても良い。数値時系列型データエントリは、数値と時間/日付値を有するタプルである。文字列型データエントリは、数値型データエントリのように、単一値である。
特徴ベクトル生成プロセッサ14は、共通データ型であり、特にサポートされるデータ型の所定のリストからの共通データ型である、データエントリ入力セットについて特徴ベクトルを生成することに進むだけである。
特徴ベクトル生成プロセッサ14は、データエントリ入力セットを受信し、複数のサポートされるデータ型の中からデータエントリセットに共通のデータ型を認識し、認識されたデータ型に依存してデータエントリ入力セットを表す統計的特徴セットを選択し、複数のデータエントリから選択された統計的特徴セットの各々の値を生成し、統計的特徴の生成された値から成る特徴ベクトルを出力するよう構成される。複数のサポートされるデータ型は、数値型、文字列型、数値時系列型を有する。
モデルデータ取得プロセッサ12は、取得された複数のデータエントリモデルセットの各々について、データエントリモデルセットを特徴ベクトル生成プロセッサ14にデータエントリ入力セットとして提出し、特徴ベクトル生成プロセッサ14により出力される特徴ベクトルを得て、記憶ユニット16に、データエントリモデルセットに共通の識別されたプロパティに関連する特徴ベクトルを提出するよう更に構成される。特徴ベクトル生成プロセッサ14と記憶ユニット16とを結ぶ図示の線は、記憶ユニットへの特徴ベクトルの提出を表す。
特徴ベクトル生成プロセッサ14は、データエントリ入力セットからの統計的特徴の値を生成する処理ロジックを含む。値がデータエントリセットの特徴ベクトルに含まれている統計的特徴は、データエントリのデータ型に依存する。したがって、どの処理ロジックが、データエントリ入力セットを選択された統計的特徴セットの値から成る特徴ベクトルに変換する際に特徴ベクトル生成プロセッサにより実行されるべきかの選択は、データエントリのデータ型に依存する。
特徴ベクトル生成プロセッサ14は、サポートされる型(数値型、文字列型、数値時系列型)のいずれかに属するデータエントリリスト(データ値又はデータエントリ値としても参照されても良い)を取り入れ、特徴ベクトルを生成する。特徴ベクトルは、識別されたデータプロパティを表すデータエントリの統計的特徴セットのうちの各々の値を含む。個々の統計的特徴セットの構成要素は、以下に詳述される。
数値型であるとして認識されたデータエントリ入力セットの統計的特徴セットは、以下の中から2以上を有する。
データエントリの数、
最小値、
最大値、
第1の四分位値(first quartile value)、
第3の四分位値(third quartile value)、
中央値、
平均値、
標準偏差、
分散、
最も繰り返されるデータエントリ。
文字列型であるとして認識されたデータエントリ入力セットの統計的特徴セットは、以下の中から2以上を有する。
データエントリの数、
データエントリのアルファベット、
データエントリ当たりの平均文字数、
データエントリ当たりの平均空白文字数、
データエントリ当たりの平均ピリオド数、
データエントリ当たりの平均コンマ数、
データエントリ当たりの平均セミコロン数、
最も繰り返されるデータエントリ、
最長共通サブストリング、
ユニークなエントリの割合。
文字列型であるとして認識されたデータ値入力セットの統計的特徴セットは、以下の中から2以上を有する。
データ値の数、
エントリの数、
最小数値、
最大数値、
第1の四分位数値(first quartile numerical value)、
第3の四分位数値(third quartile numerical value)、
中央数値、
数値の平均、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日。
データ型の統計的特徴セットの構成要素は、それぞれ実装毎に固定される。したがって、特定のタスク、プロジェクト、又はデータソース群に作用する特定のデータプロパティ認識装置では、特徴ベクトル生成プロセッサ14は、所与のデータ型の入力データセットについて同じ統計的特徴の値を生成するよう構成される。このように、データ型の特徴ベクトルは、実装に見合っている。
図3は、特徴ベクトル生成プロセッサの機能の概略表現である。特徴ベクトル生成プロセッサ14の従う手順の最初のステップは、特徴ベクトル生成器に入力されるデータエントリセットの中の値のデータ型を識別することである。アルゴリズムが、この初期ステップのために利用可能である。複数のサポートされるデータ型の中のデータ型が識別されると、識別されたデータ型の統計的特徴セットに属する統計的特徴を計算する処理ロジックが実行され、出力は、入力データセットの中のエントリにより表されるプロパティの識別情報と関連して記憶のために特徴ベクトルの中に格納される。
特徴ベクトル基準セットが生成され、記憶ユニット16に格納されると、それらは、データエントリクエリセットの中のデータエントリにより表されるデータプロパティの認識を自動化するために利用される。認識により、クエリセットは、認識されたデータプロパティの識別情報と関連して、認識されたデータエントリセットとして格納するために、データ記憶装置に提出される。
特徴ベクトル生成プロセッサは、基準特徴ベクトル更新プロセッサを更に有しても良い。基準特徴ベクトル更新プロセッサは、記憶ユニットに格納された認識されたデータエントリセットの提出により、提出された認識されたデータエントリセットと同じ識別されたプロパティに関連して格納されたデータエントリ基準セットの各々と他の認識されたデータエントリセットの各々とを有するデータエントリ合成セットを編成し、データエントリ入力セットとして特徴ベクトル生成プロセッサにデータエントリ合成セットを提出し、更新基準特徴ベクトルとして特徴ベクトル生成プロセッサにより出力された特徴ベクトルを得て、識別されたプロパティと関連して格納された特徴ベクトル基準セットの中に存在する特徴ベクトルを、更新基準特徴ベクトルで置き換えるよう構成される。
複数のデータエントリモデルセットについて特徴ベクトル生成プロセッサ14により生成される特徴ベクトルは、成分データエントリにより表されるデータプロパティの同一性を捜し出すデータセットとの比較の基準として機能する。したがって、複数のデータエントリモデルセットは、例えば未知の又は同一性を確認できないスキーマの他のデータソースの中の複数のデータエントリモデルセットのスキーマを複製したいと望むユーザにより選択されても良い。
記憶ユニット16は、提出された特徴ベクトルを個々の識別されたプロパティと関連付けて格納するよう構成される。さらに、特徴ベクトル及び(明示的に又は知識ベース要素へのリンクを介して識別された)個々の識別されたプロパティと関連して、記憶ユニット16は、例えば特徴ベクトルが取得されたデータソースの中にそれらが現れる形式で、特徴ベクトルが生成されたデータエントリセットを格納しても良い。データエントリセット及び個々の識別されたプロパティは、モデルデータ取得プロセッサにより記憶装置に提出されても良い。したがって、特徴ベクトルは、特徴ベクトル生成プロセッサ14により生成され出力されるとき、データエントリセット及び記憶ユニット16の中の個々の識別されるプロパティと関連付けられ得る。
したがって、記憶ユニット16は、データエントリにより表される識別されたプロパティと関連して、データエントリセットの統計的表現又はフィンガープリントを格納する特徴ベクトルを格納するレポジトリとして機能する。特徴ベクトルは、個々のデータエントリにより共通に表されるプロパティの同一性が捜し出されるデータエントリクエリセットについて、特徴ベクトル生成プロセッサにより出力される特徴ベクトルとの比較のための、特徴ベクトル基準セットとして機能する。データエントリクエリセットの中にあるような個々のデータエントリにより共通に表されるプロパティは、未知であるため、又はデータエントリクエリセットが取得されるデータソースのスキーマが、例えば要求される若しくはモデルデータスキーマと異なるために装置ユーザにとって望ましくないため、捜し出されても良い。本質的に異なるデータソースからのデータエントリセットの間の意味的表現の不一致は、データエントリにより表されるプロパティの意味的表現ではなく、統計的特徴に基づくデータセットの比較により、克服される。
図4に示すように、専用データプロパティマッパ161は、特徴ベクトルと識別されたプロパティとの間の関連を格納する。
モデルデータ取得プロセッサ12は、取得したデータセットを特徴ベクトル生成プロセッサ14に提出するのを待機する間、取得したデータセットの一時的記憶のために記憶ユニット16を利用しても良い。
図2は、一実施形態を示す。図2において、データプロパティ認識装置10は図1と関連して記載された通りであり、クエリプロセッサ18を更に有する。クエリプロセッサ18は、個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、データエントリクエリセットを特徴ベクトル生成プロセッサに提出し、出力された特徴ベクトルと格納された特徴ベクトル基準セットとの間の比較を実行して、出力された特徴ベクトルについて格納された特徴ベクトル基準セットの間で最良一致特徴ベクトルを識別し、最良一致特徴ベクトルに関連して格納された識別されたプロパティを、データエントリクエリセットの中の個々のデータエントリにより表されるデータプロパティとして認識し、認識したデータプロパティを出力するよう構成される。
クエリプロセッサ18は、データエントリクエリセットにより表されるデータプロパティを認識する自動化された処理を提供するために、記憶ユニット16により格納される特徴ベクトル基準セットを利用するメカニズムである。認識のための範囲は、クエリセットと同じデータ型のデータエントリ基準セットに関連するデータプロパティ同一性に限られる。したがって、データプロパティ認識装置10は、クエリセットの中のエントリにより表されるプロパティがデータエントリモデルセットからのエントリにより表されるプロパティである場合に、有効性が向上される。
装置のユーザは、クエリプロセッサにより得られ及び処理されるべき、1又は複数のデータソースを、及び任意でそれらのデータソースの中のデータエントリの部分集合を、指定しても良い。例えば、ユーザは、幾つかの本質的に異なるデータソースをリコンサイルしたいと望んでも良く、これらのデータソースのうちの1つを、リコンサイルデータが格納されるスキーマを有するとして識別することができる。データソースのうちの識別された1つのデータは、モデルデータ取得プロセッサにより取得され処理される。スキーマは、記憶ユニット16の中の特徴ベクトル基準セットの個々の構成要素と関連する識別されたプロパティとして格納される。残りのデータソースは、表されるプロパティ(関係型DBの中の列)及びエンティティ(関係型DBの中の行)の一方又は両方の観点で、データソースのうちの識別された1つと部分的に又は完全に重なり合っていても良く、次に、クエリプロセッサにより得られ処理される。クエリデータセットは、リコンサイルデータセットの中の認識されたデータプロパティと関連付けられて格納される。
図2の装置は、データエントリモデルセットのスキーマの下で記憶ユニットに格納されるべきデータエントリセットを得るためにクエリプロセッサが使用されるデータセットリコンシレーション装置の部分として含まれても良い。例えば、互いに同じ又は重なり合うエンティティの同じ又は重なり合うプロパティを記述する複数のデータソースが存在しても良い。クエリプロセッサは、データエントリクエリセット及び個々の認識されたデータプロパティを記憶ユニットに提出するよう構成される。記憶ユニットは、認識されたデータプロパティに関連するデータエントリクエリセットを、認識されたデータエントリセットとして格納するよう構成される。同じ識別されたプロパティに関連付けられて格納された認識されたデータエントリセット及びデータエントリモデルセットは、同じ識別されたプロパティとのそれらの個々の関連のお陰で、記憶ユニットの中でリコンサイルされる。
図3は、実施形態におけるデータ記憶装置構成を示す。図3に示す実施形態は、図1及び図2の実施形態の拡張である。データ取得プロセッサ12は、図3の説明から省略されるが、本実施形態に含まれる。任意で、クエリプロセッサも含まれても良い。
図4は、専用データプロパティマッパ161が記憶ユニット16の中の特徴ベクトルと識別されたデータプロパティとの間の関連を格納する特定のデータ記憶装置構成を示す。データプロパティマッパ161は、各々の特徴ベクトルを、特徴ベクトルが生成されたデータエントリセットの中のデータエントリにより表されるデータプロパティの識別情報にリンクする。識別情報は、記憶ユニット16の中の明示的定義であっても良く、又は外部知識表現であっても良い。外部知識表現は、データグラフの中で表される概念であっても良い。
データプロパティマッパ161は、特徴ベクトルと、特徴ベクトルが生成されたデータエントリにより表されるプロパティの識別情報との間の関係を扱う。プロパティは、図5に例示したように、データコンテンツを意味的に表す命名された概念である。データプロパティマッパ161により格納される関係は、特徴ベクトルの意味注釈を表す。関係は、ユーザインタフェースを介してユーザによりマッピングされても良い。代替で、プロパティの識別情報は、個々のデータ値モデルセットがモデルデータ取得プロセッサ12により取得されたデータソースから読み出されるラベルであっても良い。
図5は、外部知識モデル、データプロパティマッパ161の中のマッピング、及び記憶ユニット16の中の特徴ベクトルとの間の関係を示す。外部知識モデルは、データプロパティを意味的に記述する知識モデルの中の概念を指すURL(uniform resource locator)又はURI(uniform resource identifier)を介してリンクされても良い。知識モデルがオンラインで利用可能でない場合、記憶ユニット16は、モデル全体を、RDFシリアライゼーションとして、例えばTurtleフォーマットで格納しても良い。したがって、データプロパティマッパにより格納されるリンクは、外部知識モデルへ又は記憶ユニット16により格納される知識モデルへのものであっても良い。
図6は、データエントリセットがそれらが取得されたデータソースの中に現れるときの3個の例示的なデータエントリセット、及び各々の場合に生成される特徴ベクトルを示す。表は、1つは「Earnings per share」とラベル付けされた列に、1つは「Name」とラベル付けされた列に、1つは「Closing price」とラベル付けされた列に、3個の異なるデータエントリセットを示す。特徴ベクトル生成プロセッサ14は、「Earnings per share」列のデータ型を数値型として識別し、相応して、統計的特徴セットの値を計算する(データエントリの数、最小値、最大値、第1の四分位値、第3の四分位値、中央値、平均値、標準偏差、分散、最も繰り返されるデータエントリ)。特徴ベクトル生成プロセッサ14は、「Name」列のデータ型を文字列型であるとして識別し、相応して、統計的特徴セットの値を計算する(データエントリの数、データエントリのアルファベット、データエントリ当たりの平均文字数、データエントリ当たりの平均空白数、データエントリ当たりの平均ピリオド数、データエントリ当たりの平均コンマ数、データエントリ当たりの平均セミコロン数、最も繰り返されるデータエントリ、最長共通サブストリング、ユニークなエントリの割合)。特徴ベクトル生成プロセッサ14は、「Closing price」列のデータ型を数値時系列型として識別し、相応して、統計的特徴セットの値を計算する(エントリの数、最小数値、最大数値、第1の四分位数値、第3の四分位数値、中央数値、平均数値、標準偏差、分散、共分散、歪度、尖度、開始日、終了日)。各々の場合に、知識モデルへのリンクは、列の見出しに基づく検索の自動処理により、又はユーザインタフェースを介してユーザからの知識モデルへのリンクの入力を要求することにより、決定される。例示的なリンクが図示される。
図7は、一実施形態のハードウェア構成を示す。図7の例では、ハードウェアはコンピューティング装置である。本発明を実現する方法は、図7に示されたようなコンピューティング装置で実行されても良い。このようなコンピューティング装置は、図7に示した全てのコンポーネントを有する必要はなく、これらのコンポーネントのうちの部分集合で構成されても良い。本発明を具現化する方法は、ネットワークを介して1又は複数のデータ記憶サーバと通信する単一のコンピューティング装置により実行されても良い。データ記憶サーバは、記憶ユニット16として動作する。コンピューティング装置は、基準特徴ベクトル及び記憶ユニット16により格納される他のデータを格納するデータ記憶装置自体であっても良い。つまり、コンピューティング装置は記憶ユニット16を含んでも良い。
本発明を実現する方法は、互いに協働して動作する複数のコンピューティング装置により実行されても良い。複数のコンピューティング装置のうちの1又は複数は、基準特徴ベクトルの少なくとも一部及び個々の関連する識別されたデータプロパティ及びデータエントリセットを格納するデータ記憶サーバであっても良い。
図7は、本発明を実現し一実施形態の方法を実施するために使用できる、データ記憶サーバのようなコンピューティング装置のブロック図である。コンピューティング装置は、プロセッサハードウェア993、及びメモリ994を有する。任意で、コンピューティング装置は、他のコンピューティング装置、例えば本発明の実施形態の他のコンピューティング装置と通信するためのネットワークインタフェース997も有する。
例えば、一実施形態は、このようなコンピューティング装置のネットワークで構成されても良い。任意で、コンピューティング装置は、キーボード及びマウスのような1又は複数の入力メカニズム996、及び1又は複数のモニタ995のようなディスプレイユニットも有する。コンポーネントは、バス992を介して互いに接続可能である。
メモリ994は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース及び/又は関連するキャッシュ及びサーバ)を表し得るコンピュータ可読媒体を有しても良い。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置(例えば、1又は複数のプロセッサ)によりアクセス可能であり及び1又は複数の機能又は工程を実行させる命令及びデータを有しても良い。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の1又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、RAM(Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、CD−ROM(Compact Disc Read−Only Memory)又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置(例えば、固体メモリ装置)を有し得る。
プロセッサハードウェア993は、コンピューティング装置を制御し、処理工程を実行し、例えば本願明細書及び請求の範囲に記載される機能プロセッサの様々な異なる機能を実施するためにメモリに格納されたコードを実行するよう構成される。メモリ994は、プロセッサハードウェア993によりリード及びライトされるデータを格納する。本願明細書で参照されるとき、プロセッサハードウェアは、マイクロプロセッサ、中央処理ユニット、等のような1又は複数の汎用処理装置を含み得る。プロセッサハードウェアは、CISC(complex instruction set computing)マイクロプロセッサ、RISC(reduced instruction set computing)マイクロプロセッサ、VLIW(very long instruction word)マイクロプロセッサ、又は他の命令セットを実施するプロセッサハードウェア、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサハードウェアは、ASIC(application specific integrated circuit)、FPGA(field programmable gate array)、DSP(digital signal processor)、ネットワークプロセッサ、等のような1又は複数の特定目的処理装置も含み得る。1又は複数の実施形態では、プロセッサハードウェアは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。
ディスプレイユニット997は、コンピューティング装置により格納されたデータの提示を表示しても良く、ユーザとプログラムとコンピューティング装置に格納されたデータとの間の相互作用を可能にするカーソル及びダイアログボックス及びスクリーンも表示しても良い。入力メカニズム996は、ユーザがデータ及び命令をコンピューティング装置に入力することを可能にし得る。
ネットワークインタフェース(ネットワークI/F)997は、インターネットのようなネットワークに接続され、ネットワークを介して他のコンピューティング装置に接続可能であっても良い。ネットワークI/F997は、ネットワークを介して他の装置からのデータ入力/へのデータ出力を制御しても良い。マイクロフォン、スピーカ、プリンタ、電源ユニット、ファン、筐体、スキャナ、トラックボール等のような他の周辺装置は、コンピューティング装置に含まれても良い。
図1〜4のモデルデータ取得プロセッサ12は、メモリ994に格納された処理命令(プログラム)を実行し及びネットワークI/F997を介してデータを交換するプロセッサハードウェア993(又はそれらの複数)であっても良い。特に、プロセッサハードウェア993は、処理命令を実行して、ネットワークI/Fを介して複数のデータエントリモデルセットをデータプロパティ認識装置の外部にあるデータソースから受信し、個々のデータエントリモデルセットを特徴ベクトル生成プロセッサに提出し結果として生じた特徴ベクトルを受信することにより取得したデータを処理する。さらに、プロセッサハードウェア993は、処理命令を実行して、データエントリモデルセットについて生成された受信した特徴ベクトルを、特徴ベクトル基準セットとして、接続された記憶ユニット16に格納しても良い。
図1〜4の特徴ベクトル生成プロセッサ14は、メモリ994に格納された処理命令(プログラム)を実行するプロセッサハードウェア993(又はそれらの複数)であっても良い。特に、例えば図3に示したように、プロセッサハードウェア993は、モデルデータ取得プロセッサ、基準特徴ベクトル更新プロセッサ、又はクエリプロセッサから、データエントリ入力セットを受信し、データエントリ入力セットを特徴ベクトルに変換する。さらに、プロセッサハードウェア993は、処理命令を実行して、接続された記憶ユニット16に格納するため及び/又はクエリプロセッサによる認識処理のような更なる処理のために、生成した特徴ベクトルを出力することにより、データエントリ入力セットが受信された機能プロセッサに応答しても良い。
図1〜4の記憶ユニット16は、単一のデータ記憶装置又は複数の協働するデータ記憶装置であり、リード/ライトアクセス動作を制御するDBMSを含む。記憶ユニット16は、特徴ベクトル、関連する識別されたプロパティ、及び特徴ベクトルが生成されたデータエントリを格納するよう構成される。
図2〜4のクエリプロセッサ18は、メモリ994に格納された処理命令(プログラム)を実行し及びネットワークI/F997を介してデータを交換するプロセッサハードウェア993(又はそれらの複数)であっても良い。特に、プロセッサハードウェア993は、処理命令を実行して、ネットワークI/Fを介してデータソースから、データエントリモデルセットが取得されたデータソースとリコンサイルされるべきデータエントリクエリセットを受信し、クエリセットの特徴ベクトルを得て、得られた特徴ベクトルを特徴ベクトル基準セットと比較して最良一致を見付ける。さらに、プロセッサ993は、処理命令を実行して、データエントリクエリセットを接続された記憶ユニット16に、特徴ベクトル基準セットの中からの最良一致と関連付けて格納された識別されたデータプロパティと関連付けて、格納しても良い。
以上の実施形態に加えて、更に以下の付記を開示する。
(付記1) データプロパティ認識装置であって、
記憶ユニットと、
モデルデータ取得プロセッサであって、複数のデータエントリモデルセットを取得するよう構成され、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、モデルデータ取得プロセッサと、
特徴ベクトル生成プロセッサであって、データエントリ入力セットを受信し、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記の認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記データエントリ入力セットから前記の選択した統計的特徴セットの各々の値を生成し、前記の生成した統計的特徴の値から成る特徴ベクトルを出力するよう構成される、特徴ベクトル生成プロセッサと、
を有し、
前記モデルデータ取得プロセッサは、前記取得した複数のデータエントリモデルセットの各々について、データエントリ入力セットとして、前記特徴ベクトル生成プロセッサに前記データエントリモデルセットを提出し、前記特徴ベクトル生成プロセッサにより出力される前記特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別したプロパティに関連付けて前記特徴ベクトルを前記記憶ユニットに提出するよう構成され、
前記記憶ユニットは、前記個々の識別されたプロパティに関連付けて前記提出された特徴ベクトルを、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットについて、前記特徴ベクトル生成プロセッサにより出力される特徴ベクトルと比較するための特徴ベクトル基準セットとして、格納するよう構成される、
データプロパティ認識装置。
(付記2) クエリプロセッサであって、前記クエリプロセッサは、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、前記データエントリクエリセットを前記特徴ベクトル生成プロセッサに提出し、前記出力された特徴ベクトルと前記格納された特徴ベクトル基準セットとの間の比較を実行して、前記出力された特徴ベクトルについて前記格納された特徴ベクトル基準セットの間で最良一致特徴ベクトルを識別し、前記最良一致特徴ベクトルに関連付けて格納された前記識別されたプロパティを、前記データエントリクエリセットの中の前記個々のデータエントリにより表されるデータプロパティとして認識し、前記認識したデータプロパティを出力するよう構成される、クエリプロセッサ、
を更に有する付記1に記載のデータプロパティ認識装置。
(付記3) 前記クエリプロセッサは、前記データエントリクエリセット及び前記認識されたデータプロパティを前記記憶ユニットに提出するよう構成され、
前記記憶ユニットは、前記データエントリクエリセットを、認識されたデータエントリセットとして、前記認識されたデータプロパティに関連付けて格納するよう構成される、
付記2に記載のデータプロパティ認識装置。
(付記4) 前記記憶ユニットは、前記個々の識別されたプロパティに関連付けて及び前記特徴ベクトルが生成された前記個々のデータエントリモデルセットに関連付けて、前記特徴ベクトル基準セットを格納するよう構成される、
付記1に記載のデータプロパティ認識装置。
(付記5) 基準特徴ベクトル更新プロセッサであって、前記記憶ユニットに格納された前記認識されたデータエントリセットの提出により、前記提出された認識されたデータエントリセットと同じ識別されたプロパティに関連付けて格納されたデータエントリ基準セットの各々と他の認識されたデータエントリセットの各々とを有するデータエントリ合成セットを編成し、前記特徴ベクトル生成プロセッサに前記データエントリ合成セットを提出し、更新基準特徴ベクトルとして前記特徴ベクトル生成プロセッサにより出力された前記特徴ベクトルを得て、前記識別されたプロパティと関連付けて格納された前記特徴ベクトル基準セットの中に存在する特徴ベクトルを、前記更新基準特徴ベクトルで置き換えるよう構成される、基準特徴ベクトル更新プロセッサ、
を更に有する付記3又は4に記載のデータプロパティ認識装置。
(付記6) 前記の実行される比較は、前記出力される特徴ベクトルと前記格納された特徴ベクトル基準セットの各々との間であり、前記比較は、
前記基準セットからの前記特徴ベクトルにより表される前記データエントリセットのデータ型を、前記出力される特徴ベクトルにより表される前記データエントリクエリセットのデータ型と比較するステップと、
前記データ型が異なる場合、数学的比較により前記基準セットから前記特徴ベクトルを除外するステップと、
前記データ型が同じ場合、前記出力される特徴ベクトルと前記基準セットからの前記特徴ベクトルとの間の数学的比較を実行して、類似性値を得るステップと、
を有し、
最大類似性値が得られた特徴ベクトルは、前記最良一致特徴ベクトルである、
付記3に記載のデータプロパティ認識装置。
(付記7) 数値型であるとして認識されたデータエントリ入力セットの前記統計的特徴セットは、
データエントリの数、
最小値、
最大値、
第1の四分位値、
第3の四分位値、
中央値、
平均値、
標準偏差、
分散、
最も繰り返されるデータエントリ、
の中からの2以上を有する、付記1に記載のデータプロパティ認識装置。
(付記8) 文字列型であるとして認識されたデータエントリ入力セットの前記統計的特徴セットは、
データエントリの数、
データエントリのアルファベット、
データエントリ当たりの平均文字数、
データエントリ当たりの平均空白数、
データエントリ当たりの平均ピリオド数、
データエントリ当たりの平均コンマ数、
データエントリ当たりの平均セミコロン数、
最も繰り返されるデータエントリ、
最長共通サブストリング、
ユニークなエントリの割合、
の中からの2以上を有する、付記1に記載のデータプロパティ認識装置。
(付記9) 数値時系列型であるとして認識されたデータ値入力セットの前記統計的特徴セットは、
データ値の数、
エントリの数、
最小数値、
最大数値、
第1の四分位数値、
第3の四分位数値、
中央数値、
数値の平均値、
標準偏差、
分散、
共分散、
歪度、
尖度、
開始日、
終了日、
の中からの2以上を有する、付記1に記載のデータプロパティ認識装置。
(付記10) 前記複数のサポートされるデータ型は、数値、文字列、及び数値時系列型を有する、付記1に記載のデータプロパティ認識装置。
(付記11) 第1のデータソースからの複数のデータエントリモデルセットの指定と更なるデータソースからの複数のデータエントリクエリセットの指定とを、ユーザから受け付けるユーザインタフェースと、
付記3に記載のデータプロパティ認識装置であって、前記複数のデータエントリモデルセットは前記ユーザにより指定される、データプロパティ認識装置と、
データプロパティリコンシレーションプロセッサであって、前記記憶ユニットに、前記第1のデータソースのコピー及び前記更なるデータソースの各々のコピーを提出するよう構成され、認識されたデータプロパティが前記クエリプロセッサにより出力された前記データエントリクエリセットは、前記個々の認識されたデータプロパティと関連付けて格納される、データプロパティリコンシレーションプロセッサと、
を有するデータセットリコンシレーション装置。
(付記12) 複数のデータエントリモデルセットを取得するステップであって、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、ステップと、
データエントリ入力セットとして前記取得された複数のデータエントリモデルセットの各々について、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記複数のデータエントリから前記選択された統計的特徴セットの各々の値を生成し、前記生成した統計的特徴の値から成る特徴ベクトルを出力するステップと、
前記取得した複数のデータエントリモデルセットの各々について、前記出力された特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別されたプロパティと関連付けて前記出力された特徴ベクトルを記憶ユニットに提出するステップと、
前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットのために生成された特徴ベクトルと比較するための特徴ベクトル基準セットとして、前記個々の識別されたプロパティと関連付けて前記提出された特徴ベクトルを格納するステップと、
を有する方法。
(付記13) 前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、複数のサポートされるデータ型の中から前記データエントリクエリセットに共通のデータ型を認識し、前記データエントリクエリセットの前記認識されたデータ型に依存して、データエントリ入力セットを表す統計的特徴セットのうちの1つを選択し、前記データエントリクエリセットから前記選択された統計的特徴セットの各々の値を生成し、前記生成された統計的特徴の値から成る特徴ベクトルを出力するステップであって、前記複数のサポートされるデータ型は、数値型、文字列型、及び数値時系列型を有する、ステップと、
前記データエントリクエリセットについて出力された前記特徴ベクトルと前記格納された特徴ベクトル基準セットとの間の比較を実行して、前記データエントリクエリセットについて出力された前記特徴ベクトルに対して、前記格納された特徴ベクトル基準セットの中で最良一致特徴ベクトルを識別し、前記最良一致特徴ベクトルに関連付けて格納された前記識別されたプロパティを、前記データエントリクエリセットの中の前記個々のデータエントリにより表される認識されたデータプロパティとして認識し、前記認識されたデータプロパティを出力するステップと、
を更に有する付記12に記載の方法。
(付記14) コンピュータプログラムであって、コンピューティング装置により実行されると、前記コンピューティング装置に方法を実行させ、前記方法は、
複数のデータエントリモデルセットを取得するステップであって、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、ステップと、
データエントリ入力セットとして前記取得された複数のデータエントリモデルセットの各々について、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記複数のデータエントリセットから前記選択された統計的特徴セットの各々の値を生成し、前記生成した統計的特徴の値から成る特徴ベクトルを出力するステップと、
前記取得した複数のデータエントリモデルセットの各々について、前記出力された特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別されたプロパティと関連付けて前記出力された特徴ベクトルを記憶ユニットに提出するステップと、
前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットのために生成された特徴ベクトルと比較するための特徴ベクトル基準セットとして、前記個々の識別されたプロパティと関連付けて前記提出された特徴ベクトルを格納するステップと、
を有する、コンピュータプログラム。
10 データプロパティ認識装置
12 モデルデータ取得プロセッサ
18 クエリプロセッサ
14 特徴ベクトル生成プロセッサ
16 記憶ユニット

Claims (14)

  1. データプロパティ認識装置であって、
    記憶ユニットと、
    モデルデータ取得プロセッサであって、複数のデータエントリモデルセットを取得するよう構成され、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、モデルデータ取得プロセッサと、
    特徴ベクトル生成プロセッサであって、データエントリ入力セットを受信し、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記の認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記データエントリ入力セットから前記の選択した統計的特徴セットの各々の値を生成し、前記の生成した統計的特徴の値から成る特徴ベクトルを出力するよう構成される、特徴ベクトル生成プロセッサと、
    を有し、
    前記モデルデータ取得プロセッサは、前記取得した複数のデータエントリモデルセットの各々について、データエントリ入力セットとして、前記特徴ベクトル生成プロセッサに前記データエントリモデルセットを提出し、前記特徴ベクトル生成プロセッサにより出力される前記特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別したプロパティに関連付けて前記特徴ベクトルを前記記憶ユニットに提出するよう構成され、
    前記記憶ユニットは、前記個々の識別されたプロパティに関連付けて前記提出された特徴ベクトルを、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットについて、前記特徴ベクトル生成プロセッサにより出力される特徴ベクトルと比較するための特徴ベクトル基準セットとして、格納するよう構成される、
    データプロパティ認識装置。
  2. クエリプロセッサであって、前記クエリプロセッサは、前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、前記データエントリクエリセットを前記特徴ベクトル生成プロセッサに提出し、前記出力された特徴ベクトルと前記格納された特徴ベクトル基準セットとの間の比較を実行して、前記出力された特徴ベクトルについて前記格納された特徴ベクトル基準セットの間で最良一致特徴ベクトルを識別し、前記最良一致特徴ベクトルに関連付けて格納された前記識別されたプロパティを、前記データエントリクエリセットの中の前記個々のデータエントリにより表されるデータプロパティとして認識し、前記認識したデータプロパティを出力するよう構成される、クエリプロセッサ、
    を更に有する請求項1に記載のデータプロパティ認識装置。
  3. 前記クエリプロセッサは、前記データエントリクエリセット及び前記認識されたデータプロパティを前記記憶ユニットに提出するよう構成され、
    前記記憶ユニットは、前記データエントリクエリセットを、認識されたデータエントリセットとして、前記認識されたデータプロパティに関連付けて格納するよう構成される、
    請求項2に記載のデータプロパティ認識装置。
  4. 前記記憶ユニットは、前記個々の識別されたプロパティに関連付けて及び前記特徴ベクトルが生成された前記個々のデータエントリモデルセットに関連付けて、前記特徴ベクトル基準セットを格納するよう構成される、
    請求項1に記載のデータプロパティ認識装置。
  5. 基準特徴ベクトル更新プロセッサであって、前記記憶ユニットに格納された前記認識されたデータエントリセットの提出により、前記提出された認識されたデータエントリセットと同じ識別されたプロパティに関連付けて格納されたデータエントリ基準セットの各々と他の認識されたデータエントリセットの各々とを有するデータエントリ合成セットを編成し、前記特徴ベクトル生成プロセッサに前記データエントリ合成セットを提出し、更新基準特徴ベクトルとして前記特徴ベクトル生成プロセッサにより出力された前記特徴ベクトルを得て、前記識別されたプロパティと関連付けて格納された前記特徴ベクトル基準セットの中に存在する特徴ベクトルを、前記更新基準特徴ベクトルで置き換えるよう構成される、基準特徴ベクトル更新プロセッサ、
    を更に有する請求項3又は4に記載のデータプロパティ認識装置。
  6. 前記の実行される比較は、前記出力される特徴ベクトルと前記格納された特徴ベクトル基準セットの各々との間であり、前記比較は、
    前記基準セットからの前記特徴ベクトルにより表される前記データエントリセットのデータ型を、前記出力される特徴ベクトルにより表される前記データエントリクエリセットのデータ型と比較するステップと、
    前記データ型が異なる場合、数学的比較により前記基準セットから前記特徴ベクトルを除外するステップと、
    前記データ型が同じ場合、前記出力される特徴ベクトルと前記基準セットからの前記特徴ベクトルとの間の数学的比較を実行して、類似性値を得るステップと、
    を有し、
    最大類似性値が得られた特徴ベクトルは、前記最良一致特徴ベクトルである、
    請求項3に記載のデータプロパティ認識装置。
  7. 数値型であるとして認識されたデータエントリ入力セットの前記統計的特徴セットは、
    データエントリの数、
    最小値、
    最大値、
    第1の四分位値、
    第3の四分位値、
    中央値、
    平均値、
    標準偏差、
    分散、
    最も繰り返されるデータエントリ、
    の中からの2以上を有する、請求項1に記載のデータプロパティ認識装置。
  8. 文字列型であるとして認識されたデータエントリ入力セットの前記統計的特徴セットは、
    データエントリの数、
    データエントリのアルファベット、
    データエントリ当たりの平均文字数、
    データエントリ当たりの平均空白数、
    データエントリ当たりの平均ピリオド数、
    データエントリ当たりの平均コンマ数、
    データエントリ当たりの平均セミコロン数、
    最も繰り返されるデータエントリ、
    最長共通サブストリング、
    ユニークなエントリの割合、
    の中からの2以上を有する、請求項1に記載のデータプロパティ認識装置。
  9. 数値時系列型であるとして認識されたデータ値入力セットの前記統計的特徴セットは、
    データ値の数、
    エントリの数、
    最小数値、
    最大数値、
    第1の四分位数値、
    第3の四分位数値、
    中央数値、
    数値の平均値、
    標準偏差、
    分散、
    共分散、
    歪度、
    尖度、
    開始日、
    終了日、
    の中からの2以上を有する、請求項1に記載のデータプロパティ認識装置。
  10. 前記複数のサポートされるデータ型は、数値、文字列、及び数値時系列型を有する、請求項1に記載のデータプロパティ認識装置。
  11. 第1のデータソースからの複数のデータエントリモデルセットの指定と更なるデータソースからの複数のデータエントリクエリセットの指定とを、ユーザから受け付けるユーザインタフェースと、
    請求項3に記載のデータプロパティ認識装置であって、前記複数のデータエントリモデルセットは前記ユーザにより指定される、データプロパティ認識装置と、
    データプロパティリコンシレーションプロセッサであって、前記記憶ユニットに、前記第1のデータソースのコピー及び前記更なるデータソースの各々のコピーを提出するよう構成され、認識されたデータプロパティが前記クエリプロセッサにより出力された前記データエントリクエリセットは、前記個々の認識されたデータプロパティと関連付けて格納される、データプロパティリコンシレーションプロセッサと、
    を有するデータセットリコンシレーション装置。
  12. 複数のデータエントリモデルセットを取得するステップであって、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、ステップと、
    データエントリ入力セットとして前記取得された複数のデータエントリモデルセットの各々について、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記複数のデータエントリから前記選択された統計的特徴セットの各々の値を生成し、前記生成した統計的特徴の値から成る特徴ベクトルを出力するステップと、
    前記取得した複数のデータエントリモデルセットの各々について、前記出力された特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別されたプロパティと関連付けて前記出力された特徴ベクトルを記憶ユニットに提出するステップと、
    前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットのために生成された特徴ベクトルと比較するための特徴ベクトル基準セットとして、前記個々の識別されたプロパティと関連付けて前記提出された特徴ベクトルを格納するステップと、
    を有する方法。
  13. 前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットを得て、複数のサポートされるデータ型の中から前記データエントリクエリセットに共通のデータ型を認識し、前記データエントリクエリセットの前記認識されたデータ型に依存して、データエントリ入力セットを表す統計的特徴セットのうちの1つを選択し、前記データエントリクエリセットから前記選択された統計的特徴セットの各々の値を生成し、前記生成された統計的特徴の値から成る特徴ベクトルを出力するステップであって、前記複数のサポートされるデータ型は、数値型、文字列型、及び数値時系列型を有する、ステップと、
    前記データエントリクエリセットについて出力された前記特徴ベクトルと前記格納された特徴ベクトル基準セットとの間の比較を実行して、前記データエントリクエリセットについて出力された前記特徴ベクトルに対して、前記格納された特徴ベクトル基準セットの中で最良一致特徴ベクトルを識別し、前記最良一致特徴ベクトルに関連付けて格納された前記識別されたプロパティを、前記データエントリクエリセットの中の前記個々のデータエントリにより表される認識されたデータプロパティとして認識し、前記認識されたデータプロパティを出力するステップと、
    を更に有する請求項12に記載の方法。
  14. コンピュータプログラムであって、コンピューティング装置により実行されると、前記コンピューティング装置に方法を実行させ、前記方法は、
    複数のデータエントリモデルセットを取得するステップであって、各々の個々のデータエントリモデルセットは、前記データエントリモデルセットに共通の識別されたプロパティを個々に表す複数のデータエントリであり、及び前記データ要素モデルセットに共通のデータ型である、ステップと、
    データエントリ入力セットとして前記取得された複数のデータエントリモデルセットの各々について、複数のサポートされるデータ型の中から前記データエントリ入力セットに共通のデータ型を認識し、前記認識したデータ型に依存して前記データエントリ入力セットを表す統計的特徴セットを選択し、前記複数のデータエントリセットから前記選択された統計的特徴セットの各々の値を生成し、前記生成した統計的特徴の値から成る特徴ベクトルを出力するステップと、
    前記取得した複数のデータエントリモデルセットの各々について、前記出力された特徴ベクトルを得て、前記データエントリモデルセットに共通の前記識別されたプロパティと関連付けて前記出力された特徴ベクトルを記憶ユニットに提出するステップと、
    前記個々のデータエントリにより共通に表されるプロパティの識別情報が捜し出されるデータエントリクエリセットのために生成された特徴ベクトルと比較するための特徴ベクトル基準セットとして、前記個々の識別されたプロパティと関連付けて前記提出された特徴ベクトルを格納するステップと、
    を有する、コンピュータプログラム。
JP2016233527A 2016-10-21 2016-11-30 データプロパティ認識のための装置、プログラム、及び方法 Active JP7100422B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016220771 2016-10-21
DE102016220771.7 2016-10-21

Publications (2)

Publication Number Publication Date
JP2018067279A true JP2018067279A (ja) 2018-04-26
JP7100422B2 JP7100422B2 (ja) 2022-07-13

Family

ID=57708417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016233527A Active JP7100422B2 (ja) 2016-10-21 2016-11-30 データプロパティ認識のための装置、プログラム、及び方法

Country Status (3)

Country Link
US (1) US10430440B2 (ja)
EP (1) EP3312778A1 (ja)
JP (1) JP7100422B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803034B2 (en) * 2016-11-23 2020-10-13 Amazon Technologies, Inc. Global column indexing in a graph database
EP3407206B1 (en) 2017-05-22 2021-08-04 Fujitsu Limited Reconciled data storage system
EP3407207A1 (en) 2017-05-22 2018-11-28 Fujitsu Limited System, method, and program for reconciling input datasets with a model ontology
US11474978B2 (en) * 2018-07-06 2022-10-18 Capital One Services, Llc Systems and methods for a data search engine based on data profiles
US10983767B2 (en) * 2019-01-04 2021-04-20 T-Mobile Usa, Inc. Microservice-based software development
US11068259B2 (en) 2019-01-04 2021-07-20 T-Mobile Usa, Inc. Microservice-based dynamic content rendering
CN110298743A (zh) * 2019-06-21 2019-10-01 深圳前海微众银行股份有限公司 车辆质押物状态预警方法、装置、设备及存储介质
CN111580890A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 用于处理特征的方法、装置、电子设备和计算机可读介质
CN114741381B (zh) * 2022-04-14 2023-04-14 郑州轻工业大学 基于关联依赖的数据清洗方法
CN116029571B (zh) * 2023-03-29 2023-06-16 肯特智能技术(深圳)股份有限公司 基于元宇宙的数据处理方法及相关装置

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR111574A (ja) 1973-12-13 1900-01-01
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
AU2003230993A1 (en) 2002-04-25 2003-11-10 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US20040006559A1 (en) 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
US6961736B1 (en) 2002-05-31 2005-11-01 Adobe Systems Incorporated Compact color feature vector representation
US7081579B2 (en) 2002-10-03 2006-07-25 Polyphonic Human Media Interface, S.L. Method and system for music recommendation
CN1708758A (zh) 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
US8005919B2 (en) 2002-11-18 2011-08-23 Aol Inc. Host-based intelligent results related to a character stream
US20050060350A1 (en) 2003-09-15 2005-03-17 Baum Zachariah Journey System and method for recommendation of media segments
TW594510B (en) 2003-11-05 2004-06-21 Ind Tech Res Inst Method and system of automatic service composition
US7797198B1 (en) 2004-01-27 2010-09-14 Amazon Technologies, Inc. Providing an invocable composite network service based on multiple other invocable constituent network services
US7433835B2 (en) 2004-01-27 2008-10-07 Amazon Technologies, Inc. Providing a marketplace for web services
US7558822B2 (en) 2004-06-30 2009-07-07 Google Inc. Accelerating user interfaces by predicting user actions
US7823123B2 (en) 2004-07-13 2010-10-26 The Mitre Corporation Semantic system for integrating software components
US7324976B2 (en) 2004-07-19 2008-01-29 Amazon Technologies, Inc. Automatic authorization of programmatic transactions
JP4476786B2 (ja) 2004-11-10 2010-06-09 株式会社東芝 検索装置
US8195693B2 (en) 2004-12-16 2012-06-05 International Business Machines Corporation Automatic composition of services through semantic attribute matching
US7734515B1 (en) 2005-08-17 2010-06-08 Amazon Technologies, Inc. Generating new invocable composite network services based on multiple other invocable constituent network services
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2008015417A1 (en) 2006-07-31 2008-02-07 British Telecommunications Public Limited Company Automatic composition of web services based on syntactiv and semantic rules
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8122045B2 (en) 2007-02-27 2012-02-21 International Business Machines Corporation Method for mapping a data source to a data target
US8312426B2 (en) 2008-01-07 2012-11-13 International Business Machines Corporation Method and system for simplified service composition in web environment
CN101262374A (zh) 2008-04-22 2008-09-10 北京邮电大学 一种服务注册的方法和装置
US8344233B2 (en) 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
US8660924B2 (en) 2009-04-30 2014-02-25 Navera, Inc. Configurable interactive assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
ES2606544T3 (es) 2010-02-03 2017-03-24 Samsung Life Public Welfare Foundation Método para provocar la proliferación de células madre mediante la activación de la señalización de Notch
US8391590B2 (en) 2010-03-04 2013-03-05 Flashscan3D, Llc System and method for three-dimensional biometric data feature detection and recognition
US8386929B2 (en) 2010-06-22 2013-02-26 Microsoft Corporation Personal assistant for task utilization
CN102385858B (zh) 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
US8666998B2 (en) 2010-09-14 2014-03-04 International Business Machines Corporation Handling data sets
KR20120052610A (ko) 2010-11-16 2012-05-24 삼성전자주식회사 신경망 학습을 통한 동작 인식 방법 및 장치
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9146917B2 (en) 2011-07-15 2015-09-29 International Business Machines Corporation Validating that a user is human
KR101683083B1 (ko) 2011-09-30 2016-12-07 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
US8655989B2 (en) 2011-10-14 2014-02-18 Sap Ag Business network access protocol for the business network
KR101910576B1 (ko) 2011-11-08 2018-12-31 삼성전자주식회사 인공신경망을 이용하여 신속하게 입력 패턴을 분류하는 방법 및 장치
KR101912165B1 (ko) 2011-12-09 2018-10-29 삼성전자주식회사 스파이킹 뉴런 기반 작업 기억 장치
US8788269B2 (en) 2011-12-15 2014-07-22 Microsoft Corporation Satisfying specified intent(s) based on multimodal request(s)
US9177168B2 (en) 2012-03-19 2015-11-03 Alcatel Lucent Method of modifying access control for web services using query languages
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP2704029A1 (en) 2012-09-03 2014-03-05 Agfa Healthcare Semantic data warehouse
KR20140066640A (ko) 2012-11-23 2014-06-02 삼성전자주식회사 다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
EP2736042A1 (en) 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US20140201629A1 (en) 2013-01-17 2014-07-17 Microsoft Corporation Collaborative learning through user generated knowledge
IN2013CH00359A (ja) 2013-01-28 2015-08-07 Samsung R & D Inst India Bangalore Private Ltd
US9268617B1 (en) 2013-03-11 2016-02-23 Ca, Inc. Bus-based dynamic evaluation with dynamic data lookups
US11470036B2 (en) 2013-03-14 2022-10-11 Microsoft Technology Licensing, Llc Email assistant for efficiently managing emails
US9031933B2 (en) 2013-04-03 2015-05-12 International Business Machines Corporation Method and apparatus for optimizing the evaluation of semantic web queries
US9501503B2 (en) 2013-05-09 2016-11-22 Microsoft Technology Licensing, Llc Inferring entity attribute values
US9081411B2 (en) 2013-05-10 2015-07-14 Sri International Rapid development of virtual personal assistant applications
US9491063B2 (en) 2013-05-15 2016-11-08 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for providing network services orchestration
CN109584868B (zh) 2013-05-20 2022-12-13 英特尔公司 用于虚拟个人助理系统的自然人-计算机交互
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US9299331B1 (en) 2013-12-11 2016-03-29 Amazon Technologies, Inc. Techniques for selecting musical content for playback
EP2894587B1 (en) 2014-01-09 2019-01-09 Fujitsu Limited Stored data access controller
CN105934916B (zh) 2014-02-23 2021-01-08 英特尔公司 向所部署装置编制和管理服务
US9473944B2 (en) 2014-02-24 2016-10-18 Microsoft Technology Licensing, Llc Local personal daemon
US9705995B2 (en) 2014-03-18 2017-07-11 Axis Ab Capability monitoring in a service oriented architecture
US9984158B2 (en) 2014-03-18 2018-05-29 Axis Ab Finding services in a service-oriented architecture (SOA) network
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US20160044380A1 (en) 2014-06-12 2016-02-11 Bertrand Barrett Personal helper bot system
WO2015191965A2 (en) 2014-06-13 2015-12-17 Convida Wireless, Llc Automated service profiling and orchestration
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR102239714B1 (ko) 2014-07-24 2021-04-13 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
EP2977918A1 (en) 2014-07-24 2016-01-27 Tata Consultancy Services Limited A system and method for executing a sparql query
US9836701B2 (en) 2014-08-13 2017-12-05 Microsoft Technology Licensing, Llc Distributed stage-wise parallel machine learning
US20160063874A1 (en) 2014-08-28 2016-03-03 Microsoft Corporation Emotionally intelligent systems
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10698585B2 (en) 2014-08-29 2020-06-30 Nuance Communications, Inc. Virtual assistant development system
US20160070580A1 (en) 2014-09-09 2016-03-10 Microsoft Technology Licensing, Llc Digital personal assistant remote invocation
CN104202416A (zh) 2014-09-16 2014-12-10 浪潮(北京)电子信息产业有限公司 一种云操作系统下的服务编排系统及方法
US10210246B2 (en) 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US10152558B2 (en) 2014-12-23 2018-12-11 Intel Corporation Graph operations
CN105357143B (zh) 2015-11-27 2019-10-01 华为技术有限公司 一种转发方法及服务路由中继节点

Also Published As

Publication number Publication date
US20180113926A1 (en) 2018-04-26
JP7100422B2 (ja) 2022-07-13
US10430440B2 (en) 2019-10-01
EP3312778A1 (en) 2018-04-25

Similar Documents

Publication Publication Date Title
JP7100422B2 (ja) データプロパティ認識のための装置、プログラム、及び方法
Hartig et al. Publishing and consuming provenance metadata on the web of linked data
Dimou et al. Assessing and refining mappingsto rdf to improve dataset quality
CN112037920A (zh) 医疗知识图谱构建方法、装置、设备及存储介质
US20180113888A1 (en) Apparatus program & method for data property recognition
US20060235899A1 (en) Method of migrating legacy database systems
EP3671526B1 (en) Dependency graph based natural language processing
CN110263317B (zh) 一种生成文档模板的方法及装置
Gawriljuk et al. A scalable approach to incrementally building knowledge graphs
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
US9053207B2 (en) Adaptive query expression builder for an on-demand data service
Bryl et al. Interlinking and knowledge fusion
WO2020139446A1 (en) Cataloging database metadata using a signature matching process
Niu et al. Interoperability for Provenance-aware Databases using {PROV} and {JSON}
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
US10896227B2 (en) Data processing system, data processing method, and data structure
US20210294813A1 (en) Automated extract, transform, and load process
Arasu et al. Towards a domain independent platform for data cleaning
US11327994B2 (en) Arranging converted operation history information
Sazontev et al. An extensible approach for materialized big data integration in distributed computation environments
Unbehauen et al. SPARQL Update queries over R2RML mapped data sources
Paneva-Marinova et al. Intelligent Data Curation in Virtual Museum for Ancient History and Civilization
Alian et al. Unsupervised learning blocking keys technique for indexing Arabic entity resolution
Wang et al. Research on Web Query Translation based on Ontology.
Ramulu et al. A Read and Write Enhanced Platform-R2R Ingression for RDF-to-RDB

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201027

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210127

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210803

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220412

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220510

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220517

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220614

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220701

R150 Certificate of patent or registration of utility model

Ref document number: 7100422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150