JP2017208015A - 更新装置、更新方法、及び更新プログラム - Google Patents

更新装置、更新方法、及び更新プログラム Download PDF

Info

Publication number
JP2017208015A
JP2017208015A JP2016101407A JP2016101407A JP2017208015A JP 2017208015 A JP2017208015 A JP 2017208015A JP 2016101407 A JP2016101407 A JP 2016101407A JP 2016101407 A JP2016101407 A JP 2016101407A JP 2017208015 A JP2017208015 A JP 2017208015A
Authority
JP
Japan
Prior art keywords
entity
update
unit
data
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016101407A
Other languages
English (en)
Other versions
JP6088091B1 (ja
Inventor
賢太郎 西
Kentaro Nishi
賢太郎 西
拓也 真壁
Takuya Makabe
拓也 真壁
亮太 桜田
Ryota Sakurada
亮太 桜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016101407A priority Critical patent/JP6088091B1/ja
Application granted granted Critical
Publication of JP6088091B1 publication Critical patent/JP6088091B1/ja
Publication of JP2017208015A publication Critical patent/JP2017208015A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】エンティティ間の関係性を適切に示すデータベースを構築すること。【解決手段】実施形態に係る更新装置は、変換部と、分類部と、更新部とを有する。変換部は、変換における所定のルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素と当該要素に対応する値とを含む所定のフォーマットに変換する。分類部は、変換部によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する。更新部は、分類部によってクラスタに分類された複数のエンティティにおける、各エンティティが含む要素と値の組合せの共通性に基づいて、異なるデータベース間における所定のルールの対応関係が定義されたマッピングデータを更新する。【選択図】図4

Description

本発明は、更新装置、更新方法、及び更新プログラムに関する。
従来、ネットワーク上のリソースを記述する枠組みとして、RDF(Resource Description Framework)が知られている。また、近年では、処理対象となるエンティティ(entity)を表現するモデルであって、RDFで定義しているメタデータのモデルの1つであるトリプル(triple)を、グラフ理論におけるグラフで表現することで、データソース群をグラフ構造化すること等が行われている。
さらに、RDFに関する技術として、ネットワーク上のオブジェクトのURI(Uniform Resource Identifier)と、マッピングデータ(RDF変換の依存関係や階層などのルールを規定するデータ)とに基づいて、当該オブジェクトをRDFに変換する技術が知られている。
特開2014−21869号公報
しかしながら、上記の従来技術では、エンティティ間の関係性を適切に示すデータベースを構築することが困難である。グラフ構造化されたデータベース群を構築するためには、マッピングデータが、各エンティティに関する種々のデータフォーマットやスキーマ(schema)、オントロジ(Ontology)等の相違を吸収できることが望ましい。さらに、マッピングデータは、種々のエンティティ間の関係性の学習を経て、増強されることが望ましい。しかし、上記の従来技術では、このようなマッピングデータを生成することは難しい。また、マッピングデータを人手で生成するには、膨大な量のエンティティの関係性を解析することが必要となるため、現実的ではない。
本願は、上記に鑑みてなされたものであって、エンティティ間の関係性を適切に示すデータベースを構築することができる更新装置、更新方法、及び更新プログラムを提供することを目的とする。
本願に係る更新装置は、変換における所定のルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素と当該要素に対応する値とを含む所定のフォーマットに変換する変換部と、前記変換部によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する分類部と、前記分類部によってクラスタに分類された複数のエンティティにおける、各エンティティが含む要素と値の組合せの共通性に基づいて、異なるデータベース間における前記所定のルールの対応関係が定義されたマッピングデータを更新する更新部と、を備えたことを特徴とする。
実施形態の一態様によれば、エンティティ間の関係性を適切に示すデータベースを構築することができるという効果を奏する。
図1は、実施形態に係る更新処理の一例を示す図である。 図2は、実施形態に係るナレッジベースの一例を示す図である。 図3は、実施形態に係る更新システムの構成例を示す図である。 図4は、実施形態に係る更新装置の構成例を示す図である。 図5は、実施形態に係るソースデータ記憶部の一例を示す図である。 図6は、実施形態に係るマッピングデータ記憶部の一例を示す図である。 図7は、実施形態に係るクラスタ情報記憶部の一例を示す図である。 図8は、実施形態に係るエンティティ記憶部の一例を示す図である。 図9は、実施形態に係る分類処理の一例を説明するための図である。 図10は、実施形態に係る更新処理の一例を説明するための図である。 図11は、実施形態に係る処理手順を示すフローチャートである。 図12は、更新装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る更新装置、更新方法及び更新プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る更新装置、更新方法及び更新プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.更新処理の一例〕
まず、図1を用いて、実施形態に係る更新処理の一例について説明する。図1は、実施形態に係る更新処理の一例を示す図である。図1に示す例では、本願に係る更新装置に対応する更新装置100が、所定のデータベースにおいて、エンティティ(entity)間の関係を示すマッピングデータを更新することにより、エンティティ間の関係性を増強する情報処理を行う一例について説明する。
更新装置100は、世の中の事象や概念を示すエンティティと、エンティティ間の関係を構造化した形式で格納するデータベースを有する。ここで、エンティティ間の関係は、例えばRDFなどの有向グラフの形式で示される。すなわち、更新装置100は、エンティティの関係を主語(subject)、述語(predicate)、目的語(object)といった3つの項目を用いて示した、トリプルという形式を用いてデータベース化する。
このようにエンティティ間の関係性を有向グラフで示すデータベースは、一般にナレッジベース(Knowledge Base)等と呼ばれる。ここで、図2を用いて、更新装置100が構築するナレッジベースの一例について説明する。図2は、実施形態に係るナレッジベースの一例を示す図である。図2では、ナレッジベースに格納されているデータの概念を示しており、一例として、所定の建築家に関連するエンティティ間の関係性を概念として示している。
図2に示すエンティティE01は、所定の建築家という事象又は概念を示すエンティティである。そして、図2に示す例では、エンティティE01は、「氏名」が「AAA」であることを示している。このことは、上述したトリプルにおいて、当該建築家を説明する要素である述語が「氏名」であり、述語に対応する値である目的語が「AAA」である組の情報(以下、「組合せ情報」と表記する場合がある)を有していることから、読み取ることが可能である。同様に、図2に示す例では、エンティティE01は、「生年月日」が「19XX/XX/XX」であることを示している。この場合、当該建築家を説明する情報は、述語が「生年月日」であり、目的語が「19XX/XX/XX」である組合せ情報が対応する。また、エンティティE01には、画像データ「P01」が紐づけられている。この場合、当該建築家を説明する情報は、述語が「画像」であり、目的語が「P01」である組合せ情報が対応する。
さらに、図2に示すように、エンティティE01は、他のエンティティE02や、エンティティE03や、エンティティE04とのつながりを有する。例えば、エンティティE01で示す建築家がエンティティE02を設計したとする情報が、更新装置100が保持するデータベースに記憶された場合に、図2で示すエンティティ間の関係性が構築される。言い換えれば、更新装置100は、「エンティティE01(建築家AAA)は、エンティティE02(作品BBB)を設計した」とする情報を示すトリプルを記憶する。この場合、かかるトリプルは、述語が「設計」であり、目的語が「エンティティE02」である組合せ情報により示される。
また、図2に示すように、更新装置100が構築するナレッジベースでは、エンティティE01とエンティティE04がつながるとともに、エンティティE04がエンティティE05につながるといった関係性が構築される。例えば、エンティティE01(建築家AAA)は、エンティティE04の審査に関わっており、かつ、エンティティE04は、エンティティE05(例えば、特定のイベントなど)の会場施設の1つであったとする。この場合、更新装置100は、かかる情報を取得した場合に、図2に示すような、エンティティE01とエンティティE04がつながり、かつ、エンティティE04とエンティティE05がつながるといった情報を有するナレッジベースを構築することができる。
このようにして、更新装置100は、種々のデータに基づいて、エンティティ間の関係性を構築することにより、ナレッジベースを生成する。そして、更新装置100は、所定の処理においてナレッジベースを参照したり、外部装置や一般ユーザにナレッジベースを提供したりすることで、エンティティの周辺知識を活用することができる。
ところで、図2で示したような構造を有するデータベースの構築に関しては、エンティティや、エンティティ間の関係を示したソースデータ(source data)を数多く取得することが望ましい。更新装置100は、元となる情報を多く取得することにより、エンティティそのものの情報を強化したり、エンティティ間の関係性を的確に表現したりするといった補強をすることができるようになるからである。
しかしながら、データベースのソースとなるデータの形式は、必ずしもRDFフォーマットに統一されているとは限らない。このため、データベースでの利用においては、ソースデータを適切なフォーマットに変換することを要する。
また、各データソースから取得されるデータにおいて、同じエンティティを示すはずの情報であっても、それらが同じエンティティを示すものと認識されないおそれがある。例えば、図2で示すエンティティE01は、氏名が「AAA」であっても、それが同姓同名の人物を示すエンティティと混同されたり、氏名の表記(日本語においては、漢字仮名表記の相違など)が異なるために、各データソース間のデータが同じエンティティを示すものと認識されなかったりするおそれがある。このため、ソースデータを取得できたとしても、望ましい形にデータベースを拡張することや、情報の信頼性を強化することができない場合がある。
そこで、実施形態に係る更新装置100は、以下に説明する処理を用いてエンティティ間の関係性を示す情報(マッピングデータ)を増強することで、エンティティ間の関係性が適切に示されたデータベースを構築する。なお、マッピングデータは、例えば、異なるデータベースで使われる述語の種類と、変換先のナレッジベース(実施形態では、更新装置100が構築するナレッジベース)で使われる同等の意味を持つ述語との対応関係を示すデータである。すなわち、更新装置100は、異なるデータベースから取得したデータの共通性に基づいてマッピングデータを更新することで、より適切にエンティティ間の関係性が示されるナレッジベースを構築することができる。以下、図1を用いて、更新装置100が行う更新処理の一例を、流れに沿って説明する。
図1に示す例において、更新装置100は、まず、外部に備えられた各データベースから、処理対象となるソースデータを取得する(ステップS01)。具体的には、更新装置100は、通信ネットワーク(例えば、インターネット等)を介してアクセス可能なデータベース20や、データベース30や、データベース40や、データベース50にアクセスする。そして、更新装置100は、各データベースから、ソースデータとなるデータを取得する。なお、図1に示したデータベースの数は一例に過ぎず、更新装置100は、さらに多くのデータベースからソースデータを取得するようにしてもよい。
なお、データベース20等の外部データベースは、例えば、ネットワーク上で一般ユーザが利用可能なサービスとして提供されているデータベースであってもよい。また、更新装置100は、データベース20等の外部データベースとして、上記したサービスを、RDFや、RDFに準拠するような形式(N-Triples、Notation3、Turtle等)に変換されたデータを有するデータベース(すなわち、構造化モデルとして定義されたデータを有するデータベース)を選択するようにしてもよい。このようなデータベースの一例としては、DBpedia等が存在する。
続いて、更新装置100は、取得したデータの依存性を解消する処理を行う(ステップS02)。かかる処理は、後述するフォーマット変換処理に先立って、ソース(各データベース)に保持されていたデータについて、各ソースにおける独自のデータ形式などを解消する処理となる。なお、かかる処理については、データ形式の依存を解消するための既知の処理が種々に組み合わされてもよい。例えば、更新装置100は、ソースに保持されているソースデータのファイルのデータフォーマットを、更新装置100が扱うことのできるデータフォーマットに変更するといった処理を行う。
また、更新装置100は、かかる処理において、ソースとなったデータベースの信頼度をデータに付与する処理を行ってもよい。例えば、更新装置100は、比較的古くから存在するような規模の大きなデータベースがソースである場合には、当該データベースから取得したデータの信頼度を高く設定する等の処理を行ってもよい。また、更新装置100は、解析処理によって、RDF等のデータ形式においてプロパティの単位が異なること等を検出した場合には、単位を統一する処理などを適宜行ってもよい。
そして、更新装置100は、変換における所定のルールに基づいて、ソースデータのフォーマットを変換する(ステップS03)。所定のルールは、異なるデータベース間において取得されたソースデータを、更新装置100が扱うデータベースに対応する形式に変換する際のルールである。例えば、所定のルールは、上述したようなRDFに準拠するような形式のファイルを、更新装置100が処理対象とする形式に変換するプログラムであってもよく、また、既知のRDF変換プログラム等であってもよい。すなわち、更新装置100は、データベース20等から取得したソースデータを、自装置のデータベースに反映することのできる適切なフォーマットに変換する。この場合の変換とは、データ形式のみならず、更新装置100が構築するナレッジベースで取り扱う形式へのフォーマットの変換処理の意味を含む。すなわち、更新装置100は、かかるフォーマットについて、RDFに統一するようにしてもよいし、RDFに準拠する所定のフォーマット(エンティティを述語と目的語の組合せ情報で表現する任意のフォーマット)を採用するようにしてもよい。
更新装置100は、フォーマット変換処理において、マッピングデータ記憶部122に記憶されたマッピングデータを用いる。マッピングデータには、変換における所定のルールに関する適用が記述される。すなわち、マッピングデータには、異なるデータベース間における所定のルールの対応関係が定義される。そして、マッピングデータは、更新装置100が処理対象とするフォーマットにおいて、各データにおけるエンティティを定義付ける情報が含まれる。より具体的には、マッピングデータは、データベース20等で使われる述語の種類と、更新装置100が保持するデータベースで使われる同等の意味を持つ述語との対応関係を示すデータである。なお、マッピングデータは、更新装置100が保持する独自のオントロジに則って記述される。オントロジには、例えば、エンティティに定義付けられるクラスやサブクラス等の階層情報や、各クラスが有する述語の種類や、各述語が目的語としてとりうる値(value)の定義や値域等の情報が含まれる。すなわち、ステップS03におけるフォーマットの変換とは、更新装置100が保持するマッピングデータに基づいて、データベース20等において定義付けられていた述語を、更新装置100が保持するデータベースに対応する述語に変換する処理を含む。
続いて、更新装置100は、各ソースにおいて、同じエンティティを示すと想定されるデータをクラスタ化する(ステップS04)。詳細は後述するが、更新装置100は、エンティティに付与されている述語と目的語の組合せ情報に基づいて、あるエンティティ同士が、同じ事象又は概念を示すエンティティであると推定し、推定したエンティティをクラスタに分類する。言い換えれば、更新装置100は、同じ対象を示すと考えられるソースデータごとにクラスタを生成する。
なお、更新装置100は、同じ対象を示すと想定されるエンティティであっても、複数のクラスタを生成する場合がある。例えば、図1に示すように、更新装置100は、クラスタCL01、クラスタCL02、及びクラスタCL03のような複数のクラスタを生成する場合がある。このような状況は、例えば、基準となる一つの組合せ情報に基づいて同じエンティティと想定したものの、他の組合せ情報を参照したときに、同じエンティティとしてクラスタに結合するには信頼性が足りない場合に起こり得る。具体的には、このような状況は、「氏名(名称)」に係る組合せ情報に基づいてエンティティを結合しようとした場合に、同姓同名のエンティティ間で起こり得る。
例えば、データベース20から取得したデータが、エンティティE01の人物を示すものであったとする。この場合、かかるデータは、「氏名がAAAである」といった情報を有している。一方、データベース30から取得したデータについても、「氏名がAAAである」といった情報を有していたとする。この場合、これらの情報だけを参照した場合、これらは同じエンティティを示すものと推定される。しかし、これらのデータにおける他の組合せ情報を参照した場合、更新装置100は、両者が異なるエンティティ(すなわち、異なる人物)を示していると判定する場合もある。例えば、更新装置100は、組合せ情報の一致の度合いをスコアリングすること等によってクラスタすることによって、同じエンティティと想定されるデータを、一つのクラスタに分類したり、異なるクラスタに分類したりすることができる。
続けて、更新装置100は、クラスタ化したエンティティにおいて、述語と目的語の組合せ情報の共通性に基づいて、マッピングデータを更新する(ステップS05)。具体的には、更新装置100は、クラスタ化したエンティティ間において、共通する目的語を有する述語であるにもかかわらず、異なる表記のされた述語を抽出する。このように、クラスタ内において、目的語が共通しているのにもかかわらず述語が異なる状況とは、例えば、ソースとなったデータベースにおいて、ある目的語を表現するために用いられた述語が互いに異なっていたこと等により起こり得る。そして、このような状況は、これらの相違が、ステップS02やステップS03の処理で取り除くことができなかった場合(例えば、ステップS03の時点においては、当該述語に関する情報がマッピングデータに存在していなかった場合等)に起こり得る。
この場合、更新装置100は、クラスタにおいて、共通する目的語を有する述語との組合せ情報が、例えば所定の閾値以上観測された場合に、当該述語を抽出する。そして、更新装置100は、抽出した述語を、互いに同様の意味を有する述語であると判定し、それらの述語を統合する。そして、更新装置100は、統合した述語と目的語の組合せ情報を、当該クラスタに対応するエンティティを説明する情報の1つとして、マッピングデータに追加する処理を行う。すなわち、更新装置100は、クラスタにおいて観測される組合せ情報の共通性に基づいて、マッピングデータを更新し、更新したマッピングデータをマッピングデータ記憶部122に記憶する。これにより、更新装置100は、もともとソースデータに付与されていた述語の記載を、更新装置100独自の述語の記載に修正することができる。
例えば、データベース20から取得されたソースデータであって、エンティティE01を示すと想定されるソースデータにおいて、述語が「database20:work」であり、目的語が「architect」であったとする。また、データベース40から取得されたソースデータであって、エンティティE01を示すと想定されるソースデータにおいて、述語が「database40:career」であり、目的語が「architect」であったとする。また、他のデータベースから取得された組合せ情報においても、述語の表記内容や形式が異なるものの、目的語が「architect」である組合せ情報が、所定の閾値以上に観測されたとする。この場合、更新装置100は、これらの述語が同じ目的語をとることから、エンティティE01を説明する内容としては同じ述語を示しているものとして、これらの情報を統合する。そして、更新装置100は、エンティティE01に関する統合した情報として、「職業が建築家である」といった組合せ情報が対応付けられるよう、マッピングデータを更新する。具体的には、更新装置100は、「database20:work」や「database40:career」といった各データベースの述語が、更新装置100が保持するマッピングデータにおける述語「職業」と同じ目的語をとりうる述語であるものとして、これらを統合することで、マッピングデータを更新する。
なお、更新装置100は、更新したマッピングデータを用いて、ステップS03からステップS05の処理を繰り返す(ループする)ようにしてもよい。これは、更新前のマッピングデータを用いてエンティティが処理された場合と、更新後のマッピングデータを用いてエンティティが処理された場合とでは、生成されるクラスタや、抽出される組合せ情報が異なる可能性があることによる。例えば、更新装置100は、取得したソースデータに含まれている述語の数のうち、所定の数(割合)だけ更新装置100が更新する処理を行うまで、かかるループ処理を続けるようにしてもよい。
なお、更新装置100は、ループ処理によってマッピングデータを更新した後に、フォーマットに沿わない情報が含まれている場合には、かかる情報を除去してもよい(ステップS06)。例えば、更新装置100は、自装置が規定するオントロジに矛盾するトリプルや、自装置が対応するスキーマに変換できなかったトリプルを除去する処理を行う。そして、更新装置100は、不要な情報を除去した後に、クラスタが含むエンティティに付与される組合せ情報を更新し、かかるエンティティに関する処理を終了する。なお、最終的にエンティティに付与される組合せ情報については、人手による確認処理が行われてもよい。これにより、更新装置100は、瑕疵のない情報をエンティティに設定することができる。これらの処理により、更新装置100は、自身のデータベースにおけるエンティティの関係性を強化し、より信頼のおけるデータベースを構築することができる。
上述してきたように、更新装置100は、変換における所定のルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素である述語と当該述語に対応する目的語とを含む所定のフォーマットに変換する。そして、更新装置100は、フォーマットが変換されたエンティティを所定のクラスタに分類する。さらに、更新装置100は、クラスタに分類された複数のエンティティについて、各エンティティが含む述語と目的語の組合せの共通性に基づいて、異なるデータベース間における所定のルールの対応関係が定義されたマッピングデータを更新する。
このように、実施形態に係る更新装置100は、複数のソース(例えば、異なる複数のデータベース)から取得されたデータについて、各ソースによって異なる形式を吸収しつつ、異なるデータベース間における述語の対応性を示したマッピングデータの増強を行うことができる。これにより、更新装置100は、各エンティティの関係性の幅を拡張させることや、エンティティ間のつながりを示す情報の信頼度を高めることができるため、エンティティ間の関係性を適切に示すデータベースを構築することができる。
〔2.更新システムの構成〕
次に、図3を用いて、実施形態に係る更新装置100が含まれる更新システム1の構成について説明する。図3は、実施形態に係る更新システム1の構成例を示す図である。図3に例示するように、実施形態に係る更新システム1には、更新装置100と、データサーバ21、31、41及び51とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図3に示した更新システム1に含まれる各装置の台数は、図示した数に限られない。
データサーバ21、31、41及び51は、それぞれデータベース20、30、40、及び50を有するサーバ装置である。例えば、データサーバ21等は、ネットワークNを介して、利用者に所定のデータを提供する。また、データサーバ21等は、各々の管理者または利用者によって、データベース20等で保持するデータの追加や更新を受け付けてもよい。また、データサーバ21等は、保持するデータを提供するサービスを行うウェブサーバとしての処理を兼ねてもよい。
更新装置100は、データサーバ21等からソースデータを取得し、マッピングデータの更新処理を行うことによって、適切なデータベースを構築するサーバ装置である。上述のように、更新装置100は、データサーバ21等が保持するデータベース20等から、ソースデータを取得する。そして、更新装置100は、各ソースから取得したデータをクラスタ化することにより、各々のクラスタにおいて観測される情報の共通性に基づいて、マッピングデータを更新する。
なお、図3における図示は省略したが、更新システム1には、例えば、データサーバ21等が保持するデータを更新する利用者によって利用される端末装置や、更新装置100やデータサーバ21等を管理する各管理者の端末装置等が含まれてもよい。
〔3.更新装置の構成〕
次に、図4を用いて、実施形態に係る更新装置100の構成について説明する。図4は、実施形態に係る更新装置100の構成例を示す図である。図4に示すように、更新装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、更新装置100は、更新装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、通信ネットワークと有線又は無線で接続され、通信ネットワークを介して、データサーバ21等との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、ソースデータ記憶部121と、マッピングデータ記憶部122と、クラスタ情報記憶部123と、エンティティ記憶部124とを有する。以下、各記憶部について順に説明する。
(ソースデータ記憶部121について)
ソースデータ記憶部121は、更新装置100によって取得されるソースデータに関する情報を記憶する。ここで、図5に、実施形態に係るソースデータ記憶部121の一例を示す。図5は、実施形態に係るソースデータ記憶部121の一例を示す図である。図5に示した例では、ソースデータ記憶部121は、「データID」、「エンティティID」、「データソース」、「データ形式」、「述語」、「目的語」といった項目を有する。
「データID」は、ソースデータを識別する識別情報を示す。なお、実施形態では、各ソースデータは、一つのエンティティを示すデータであるものとする。
「エンティティID」は、所定の事象又は概念であるエンティティを識別する情報を示す。エンティティは、例えば、所定のURIで特定される主語(subject)であり、ネット上のリソースと言い換えてもよい。なお、以下の説明では、識別情報を参照符号として用いる場合がある。例えば、エンティティID「E11」で識別されるエンティティは、「エンティティE11」を表記する場合がある。
「データソース」は、取得先となったデータベースを識別する情報を示す。「データ形式」は、取得先となった各データベースで保持されていたデータの形式(フォーマット)を示す。なお、図5では、データ形式の項目には、「フォーマットF02」や「フォーマットF03」等のような概念的な情報が記憶される例を示しているが、具体的には、RDFや、RDFに準拠する所定のフォーマットなどが記憶される。
「述語」は、データを説明するための要素であり、当該データのプロパティの種別を示す。すなわち、図5に示す例において、データID「D21」で示されるリソースが、ある特定の人物を示すURIで特定される場合、述語は、その人物を説明するプロパティに対応する。図5に示すように、述語は、人物であるリソースのプロパティを説明するための「氏名」や、「職業」や、「出生地」等が該当する。なお、図5では、各データベースにおける述語には、接頭語(prefix)が付与されている例を示している。かかる表現は、「氏名」や「職業」など同様の意味を含む述語であっても、各データベースによって、述語の記載そのものは異なる記載が用いられていることを概念的に示している。
また、述語は、「DB ID」のように、ある特定のDB(データベース)におけるIDを示すものでもよい。「DB ID」とは、ソースデータを保持するデータサーバにおいて、構造化モデルを作成する際に利用した元データを識別する情報である。例えば、データサーバ21が、データID「D21」で識別される構造化モデルを作成する際に、あるデータベース(例えば、人物等の紹介が掲載された辞書データベース)のリソースを利用したとする。この場合、「DB ID」には、当該辞書データベースにおけるデータID「D21」に対応する人物を紹介するページを識別する情報が記憶される。すなわち、同一人物に関して、異なるデータサーバが構造化モデルを作成した場合、作成される構造化モデルはデータサーバごとに異なるが、元となったデータの識別情報である「DB ID」は共通することになる。
「目的語」は、述語に対応する値を示す。例えば、述語が「氏名」である場合には、目的語は、実際の氏名を示す情報となる。すなわち、エンティティを説明するためのプロパティの項目が述語に対応する場合、目的語は、当該プロパティの値(value)となる。なお、目的語は、一つの述語に対して複数が存在する場合がある。例えば、ある女優を示すデータにおいて、述語が「出演作」である場合には、目的語は、当該女優が出演した複数の作品名が該当する。
すなわち、図5では、ソースデータ記憶部121に記憶される情報として、データID「E21」で識別されるソースデータは、エンティティID「D21」で識別されるエンティティを示すデータであり、「データベース20」から取得されたものであり、データ形式は「フォーマットF02」であることを示している。また、データID「D21」で識別されるソースデータは、述語として、「db20_氏名」や、「db20_職業」や、「db20_出生地」や、「db20_DB ID」や、「db20_生年月日」や、「db20_活動拠点」等を有する。また、データID「D21」で識別されるソースデータは、それぞれの述語に対応する目的語として、「ABC・DEF」や、「女優」や、「ニューヨーク」や、「111111」や、「19YY/YY/YY」や、「ロサンゼルス、サンフランシスコ」といった値を有する。
なお、図5に示すように、ソースデータは、取得されたデータベース毎にデータの表現や記載が異なる場合がある。例えば、データID「D21」と、データID「D31」とは、「DB ID」が共通していることから、同じ人物を示したデータと想定される。しかし、図5に示すように、目的語の「ABC・DEF」や、「ABC=DEF」などのように、記載が異なっている場合がある。また、図5に示すように、氏名が「ABC・DEF」という大文字で示されていたり、「abc・def」といった小文字で示されていたりする場合がある。また、表記によっては、同じ情報を示すと想定されるものでも、言語の相違や、仮名表記とローマ字表記の相違等が生じる場合がある。
(マッピングデータ記憶部122について)
マッピングデータ記憶部122は、マッピングデータに関する情報を記憶する。ここで、図6に、実施形態に係るマッピングデータ記憶部122の一例を示す。図6は、実施形態に係るマッピングデータ記憶部122の一例を示す図である。図6に示した例では、マッピングデータ記憶部122は、「定義ID」、「データ形式」、「クラス」、「述語対応」といった項目を有する。
「定義ID」は、データベース化にあたり、更新装置100における所定の述語と、各データベースにおける述語との対応関係のデータを識別する情報を示す。「データ形式」は、データベースにおいて採用されるフォーマットを示す。
「エンティティID」は、図5に示した同様の項目に対応する。「クラス」は、エンティティに与えられる分類を示す。例えば、クラスは、「person」といった値をとる。例えば、クラスが「person」であるエンティティは、述語として「氏名」や「職業」を有するといった規定の下で、定義付けがなされる。
「述語対応」は、異なるデータベースで使われる述語と、更新装置100におけるデータベースで使われる同等の意味を持つ述語との対応関係を示す。なお、図6に示す述語は、フォーマットF01に対応するという点において、図5に示す述語と相違する。すなわち、図5に示すようなソースデータも述語を有するが、そのデータ形式は様々であり、同様の内容を示す述語であっても、異なるものと認識される場合がある。これに対して、図6に示す述語は、更新装置100によって生成されたマッピングデータに係るものであり、更新装置100が扱うフォーマットF01に準拠していることを示している。
すなわち、図6では、マッピングデータ記憶部122に記憶される情報として、定義ID「M11」で識別される定義は、データ形式が「フォーマットF01」であり、また、クラスが「person」に分類されていることを示している。そして、定義される述語は、「氏名」であり、この「氏名」に対応する述語は、「db20_氏名」や、「db30_氏名」や、「db40_氏名」や、「db50_氏名」であることを示している。
なお、図6で示したマッピングデータの例は、後述する更新処理が行われていない状態を示すものであり、例えば、図5で示したようなソースデータに対して後述する更新処理が行われた場合には、当該処理に応じて、マッピングデータ記憶部122に記憶されたマッピングデータは更新される。また、後述する変換部133によるソースデータの変換は、変換処理が行われる時点でのマッピングデータを利用して行われる。このため、ソースデータに含まれている述語(又は、述語に対応する要素)であっても、更新装置100が扱うフォーマットに変換されない場合がある。このような述語は、後述する分類処理、更新処理を経て、マッピングデータに追加され、マッピングデータが更新されたのちに、変換処理が可能になる。
(クラスタ情報記憶部123について)
クラスタ情報記憶部123は、クラスタに分類されたエンティティに関する情報を記憶する。ここで、図7に、実施形態に係るクラスタ情報記憶部123の一例を示す。図7は、実施形態に係るクラスタ情報記憶部123の一例を示す図である。図7に示した例では、クラスタ情報記憶部123は、「クラスタID」、「エンティティID」、「データソース」、「組合せ情報」、「述語」、「目的語」といった項目を有する。
「クラスタID」は、クラスタを識別する情報を示す。なお、クラスタは、同じエンティティを示すと想定されるデータが分類されることにより、生成される。「エンティティID」、図5に示した同様の項目に対応する。「組合せ情報」は、述語と目的語の組からなる情報を示している。
なお、図7に示すクラスタは、例えば、エンティティを一意に特定することができると想定される組合せ情報や、エンティティ間で共通する組合せ情報の数に基づいて生成される。例えば、図7に示す例では、エンティティE21と、エンティティE31とが、共通するエンティティを示すデータであるものとして、クラスタリングされたことを示している。また、エンティティE41や、エンティティE51は、エンティティE21や、エンティティE31とは異なるエンティティを示すデータと推定され、別のクラスタとして生成されたことを示している。
(エンティティ記憶部124について)
エンティティ記憶部124は、更新されたマッピングデータに基づいた情報であって、更新装置100で扱われるデータベースにおけるエンティティに関する情報を記憶する。ここで、図8に、実施形態に係るエンティティ記憶部124の一例を示す。図8は、実施形態に係るエンティティ記憶部124の一例を示す図である。図8に示した例では、エンティティ記憶部124は、「エンティティID」、「マージデータID」、「クラス」、「述語」、「目的語」といった項目を有する。
「エンティティID」は、図5に示した同様の項目に対応する。「マージデータID」は、マージ(結合)されたデータに関して各々のデータにおける識別情報を示す。なお、マージデータとは、更新装置100の処理によって、ソースデータの取得先となった各データベースにおいて共通するエンティティを示していたと推定されたデータがマージされたものをいう。図8に示す例では、データID「D21、D31、D51、・・・」等で識別されるデータは、共通するエンティティを示すものと推定され、マージされたことを示している。一方で、データID「D41、・・・」等で識別されるデータは、データID「D21、D31、D51、・・・」等で識別されるデータとは、異なるエンティティを示していたデータとして推定されたことを示している。「クラス」、「述語」、「目的語」の各々は、図6で示した同様の項目に対応する。
すなわち、図8では、エンティティ記憶部124に記憶される情報として、更新されたマッピングデータによって定義付けられたエンティティが記憶されることを示している。例えば、エンティティID「E11」で識別されるエンティティは、データID「D21、D31、D51、・・・」等で識別されるデータがマージされたものであり、クラスは「person」であることを示している。また、エンティティE11は、述語と目的語として、図8に示す各情報によって構造化されるデータであることを示している。
(制御部130について)
図4に戻って説明を続ける。制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、更新装置100内部の記憶装置に記憶されている各種プログラム(更新プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
実施形態に係る制御部130は、図4に示すように、取得部131と、整形部132と、変換部133と、分類部134と、更新部135と、判定部136と、統合部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。例えば、取得部131は、データサーバ21等にアクセスすることにより、処理のソースとなるソースデータを取得する。具体的には、取得部131は、ネットワーク上において一般ユーザが利用可能なサービスとして提供されているデータベースであって、所定のエンティティをRDFやRDFに準拠するような形式で構造化したデータを有するデータベースから、構造化されたソースデータを取得する。
取得部131は、取得した情報をソースデータ記憶部121に適宜記憶する。なお、取得部131は、後述する更新部135等が行う処理によって得られるマッピングデータの他に、例えば、利用可能なマッピングデータ等(例えば、更新装置100の管理者によって与えられる初期設定のマッピングデータ)を取得してもよい。
(整形部132について)
整形部132は、後述する処理部がデータを処理することが可能となるよう、ソースデータを整形する。例えば、整形部132は、取得部131によって取得されたソースデータの依存性を解消する処理を行う。
すなわち、整形部132は、ソースデータが保持されていた各データベースにおける独自のデータ形式などを解消する処理を行う。具体的には、整形部132は、各データベースにおいて構造化されたデータフォーマットにおける、データのプロパティが有する単位の相違等について、単位を統一する処理等を行う。
また、整形部132は、ソースデータを整形するにあたり、ソースとなったデータベースの信頼度をデータに付与する処理を行ってもよい。例えば、整形部132は、比較的古くから存在する、規模の大きなデータベースがソースである場合には、当該データベースから取得したデータの信頼度を高く設定する等の処理を行ってもよい。
(変換部133について)
変換部133は、変換における所定のルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素である述語と当該述語に対応する目的語とを含む所定のフォーマットに変換する。
例えば、変換部133は、整形部132によって整形されたデータについて、URI等に基づいてエンティティを特定する。そして、変換部133は、マッピングデータ記憶部122に記憶されている既存のマッピングデータを参照する。上述のように、マッピングデータには、更新装置100が扱うフォーマット(例えば、RDFトリプル)に関する情報や、ソースデータであるエンティティが有する、各エンティティを説明するための要素(例えば、各データベースにおける述語)に対応する述語(更新装置100が保持するデータベースにおける述語)の情報等が含まれる。また、変換部133は、更新装置100が保持するオントロジを適宜参照する。
以下、図5乃至図6に示したデータの例を用いて、変換部133による変換処理を説明する。例えば、変換部133は、ソースデータD21について、例えば、「db20_氏名」と、更新装置100のマッピングデータにおける「氏名」とが対応すると特定する。さらに、変換部133は、ソースデータD21が含む他の述語について、マッピングデータに含まれる「職業」や「生年月日」や「DB ID」で定義されている述語であると解析する。このように、マッピングデータに定義されている述語については、更新装置100が保持するデータベースにおいて利用可能である。一方、変換部133は、「出生地」や「活動拠点」といった述語については、現時点におけるマッピングデータで定義されていないものと解析する。この場合、変換部133は、この時点では、「出生地」や「活動拠点」といった述語について、更新装置100が保持するデータベースにおいて利用可能とせず、データとして保持し、後述する分類処理及び更新処理に送る。
(分類部134について)
分類部134は、変換部133によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する。例えば、分類部134は、述語と目的語の組合せである組合せ情報の共通性に基づいて、複数のエンティティの中から、クラスタに分類するエンティティを抽出する。
この点について、図9を用いて説明する。図9は、実施形態に係る分類処理の一例を説明するための図である。図9では、図5に示したソースデータに対応するエンティティE21、E31、E41、E51がクラスタに分類される処理の流れについて示している。
図9において、分類部134は、エンティティE21等における述語と目的語の組合せ情報の共通性を参照する。このとき、分類部134は、まず特定の組合せ情報を参照するようにしてもよい。例えば、分類部134は、組合せ情報のうち、エンティティを一意に特定することのできる組合せ情報を参照する。
なお、分類部134は、複数の組合せ情報を総合的に参照し、分類するエンティティを抽出するようにしてもよい。この場合、分類部134は、複数の組合せ情報のうち、例えば、エンティティを一意に特定することのできる組合せ情報の重み値を重くして、クラスタに分類するエンティティを抽出するようにしてもよい。
また、分類部134は、組合せ情報の共通性として、組合せ情報が同一又は類似であるか否かに基づいて、クラスタに分類するエンティティを抽出するようにしてもよい。分類部134は、述語や目的語が類似するか否かの判定としては、例えば、それらの語が同義語であるか、もしくは、互いの語の編集距離が所定の値よりも少ない語同士を、類似する語として取り扱うようにしてもよい。また、分類部134は、氏名等に含まれる文字のうち、記号を無視して語の同一性を判定する等の処理を行ってもよい。例えば、上記したように、ソースデータによっては、人名「ABC・DEF」が、「ABC=DEF」と表記されている場合がある。分類部134は、このような場合、両者は類似するものであり、同じ意味を示す語と推定して、分類処理を行うようにしてもよい。
図9に示す例では、分類部134は、エンティティを一意に特定することのできる組合せ情報として、氏名と目的語との組合せ情報を参照したものとする(ステップS11)。これは、クラスが「person」であるエンティティにおいて、氏名が共通するということは共通するエンティティを示す可能性が高いこと、言い換えれば、エンティティを一意に特定することのできる可能性が高いためである。
ステップS11において、分類部134は、氏名を基準として、氏名が共通すると想定されるエンティティ同士をブロック(Block)にまとめる。図9に示す例では、分類部134は、エンティティE21、E31及びE41を同じブロックBL11にまとめ、エンティティE51をブロックBL12にまとめたものとする。これは、分類部134が、氏名「ABC・DEF」と「ABC=DEF」を同じ氏名と推定したが、「ABC・DEF」や「ABC=DEF」と、「abc・def」とは、氏名が異なる可能性があると推定したことを示している。なお、このような分類処理における類似判定の基準は、例えば学習処理を経て、任意に調整されるようにしてもよい。
続けて、分類部134は、ブロックにまとめたエンティティにおいて、氏名以外の組合せ情報の共通性を検証する。例えば、分類部134は、全体の組合せ情報のうち、所定の割合よりも組合せ情報が共通するエンティティについて、クラスタに分類する(ステップS12)。
図9に示す例では、分類部134が、エンティティE21とエンティティE31とに共通する組合せ情報が比較的多いと判定し、同じクラスタであるクラスタCL11にまとめたことを示している。一方、分類部134は、エンティティE41は、エンティティE21とエンティティE31とは異なるクラスタとしてクラスタCL12を生成する。また、分類部134は、エンティティE51についても、エンティティE21及びエンティティE31や、エンティティE41とは異なるクラスタとしてクラスタCL13を生成する。このようなクラスタリングを経て、分類部134は、共通するエンティティを示していると想定されるエンティティを処理対象としてまとめることができる。
そして、分類部134は、生成したクラスタに関する情報をクラスタ情報記憶部123に記憶するとともに、クラスタに関する情報を更新部135に送る。
(更新部135について)
更新部135は、分類部134によってクラスタに分類された複数のエンティティにおける、各エンティティが含む述語と目的語の組合せの共通性に基づいて、変換における異なるデータベース間における所定のルールの対応関係が定義されたマッピングデータを更新する。
例えば、更新部135は、クラスタに分類された複数のエンティティが含む述語と目的語のうち、異なる2以上の述語が同一又は類似する目的語に対応する場合に、異なる2以上の述語を同一の述語と推定して所定のフォーマットに変換する処理が行われるように、マッピングデータを更新する。すなわち、更新部135は、ソースデータとして取得された述語について、同一又は類似する目的語(値)をとっているにもかかわらず、異なる表記のされた述語を抽出する。そして、更新部135は、抽出された述語について、ある共通する一つの述語に置き換えるとともに、当該述語と目的語を対応付けて、マッピングデータを更新する。かかる処理により、更新部135は、エンティティを説明するための述語及び目的語を、追加又は更新することができる。
なお、更新部135は、更新処理において、分類部134と同様、語の類似性を判定するようにしてもよい。例えば、更新部135は、述語に対応する目的語として、同義語と推定される目的語同士、もしくは、編集距離が所定の値よりも少ない目的語同士を、類似する目的語として取り扱うようにしてもよい。
なお、更新部135は、組合せ情報の判定において、一つのクラスタのみを判定するのではなく、共通するもの想定されていたエンティティにより生成されたクラスタを含めて、更新処理を行うようにしてもよい。すなわち、更新部135は、所定数のクラスタにおいて、複数のエンティティが含む述語と目的語の組合せのうち、異なる2以上の述語が同一又は類似する目的語に対応する組合せの数が所定の閾値を超える場合に、異なる2以上の述語を同一の述語と推定して所定のフォーマットに変換する処理が行われるように、マッピングデータを更新してもよい。
かかる処理において、更新部135は、クラスタに分類された複数のエンティティが含む述語について、述語同士の組を作成し、組に含まれる述語に対して同一又は類似する目的語が対応している数と、組に含まれる述語に対して同一又は類似する目的語が対応してない数とを比較することによって、組に含まれる述語は同一の述語と推定して所定のフォーマットに変換する処理が行われるように、マッピングデータを更新してもよい。この点について、図10を用いて説明する。
図10は、実施形態に係る更新処理の一例を説明するための図である。図10では、説明のため、エンティティや述語や目的語を概念化した記載を用いる。図10に示す例では、更新部135は、クラスタCL21に含まれるエンティティE61、E62、E63に含まれる組合せ情報に基づいて、マッピングデータを更新する処理を行う。なお、図10において、「P」は述語を、「V」は目的語(値)を、それぞれ示している。すなわち、図10では、エンティティE61は、(P01:V01)の組合せ情報を含み、エンティティE62は、(P03:V02)の組合せ情報を含み、エンティティE63は、(P02:V01)及び(P02:V03)の組合せ情報を含んでいることを示している。
まず、更新部135は、各クラスタ内に存在する述語(P)で組合せを生成する(ステップS21)。すなわち、更新部135は、{(P01,P02),(P02,P03),(P03,P01),・・・}といったように、述語同士をペアとした組合せを生成する。
続いて、更新部135は、組に含まれる述語が、同一又は類似する目的語の値(V)を取った回数と、類似しない値を取った回数を計数する(ステップS22)。例えば、図10では、エンティティE61に係る「P01」は「V01」を取るとともに、エンティティE63に係る「P02」も「V01」を取る。また、エンティティE63に係る「P02」は「V03」という値も取る。この場合、(P01,P02)は、(同一又は類似する値を取った回数,同一又は類似する値を取らない回数)という表記をする場合、(P01,P02):(1,1)が成立する。同様に、(P02,P03):(0,2)が成立し、(P03,P01):(0,1)が成立する。
更新部135は、かかる処理を全クラスタに渡って行い、加算した値を算出する(ステップS23)。そして、更新部135は、例えば、(P01,P02):(8,2)や、(P02,P03):(2,4)といった結果を得たとする。
そして、更新部135は、所定の閾値を用いて、マッピングを更新する処理を行う(ステップS24)。例えば、更新部135は、ステップS23において得られた結果について、処理数のうち7割(0.7)が「同一又は類似する値を取った」とする場合に、ペアとなった述語を同じものと推定するよう、マッピングデータを更新する。(P01,P02):(8,2)の例で説明すると、全体の処理数は「8+2=10」であり、「同一又は類似する値を取った」数は、「8」である。この場合、更新部135は、8/8+2=0.8を閾値(threshold)である「0.7」と比較する。そして、更新部135は、結果の値が閾値を超える場合に、組となったP01とP02とを同一の述語と推定する。
すなわち、更新部135は、P01やP02を含むソースデータとして得た場合には、両者が同一のものとして、また、同一の目的語をとるよう変換されるように、既存のマッピングデータを更新する。
このように、更新部135は、複数のソースから取得されたデータについて、各ソースによって異なる形式を吸収しつつ、述語の対応関係を定義するマッピングデータの増強を行うことができる。これによって、更新部135は、各エンティティの関係性の幅を拡張させることや、エンティティ間のつながりを示す情報の信頼度を高めることができる。
なお、更新部135は、マッピングデータを更新する処理において、処理対象とされたエンティティに関する情報の変化量が所定の閾値を超えていない場合には、マッピングデータを更新したのちに、処理対象とされたエンティティを再び変換部133に戻すようにしてもよい。この場合、変換部133は、更新部135によって更新されたマッピングデータを用いて、処理対象としたエンティティを再び所定のフォーマットに変換する。これにより、変換部133は、新たに定義された述語と目的語を有するエンティティを得ることができる。そして、分類部134及び更新部135は、上述した処理を繰り返す。すなわち、更新部135は、更新処理をループさせることによって、処理対象について、より正確な関係性を抽出するようにしてもよい。具体的には、更新部135は、ソースデータに含まれていた述語のうち所定の割合に対して変換処理が行われた場合に、ループ処理をやめて、処理を進めるなどの調整を行うようにしてもよい。
(判定部136について)
判定部136は、変換部133によって変換されたマッピングデータや、変換後のソースデータに関する判定を行う。例えば、判定部136は、上記変換処理において、ソースデータに含まれる述語であって、更新装置100が保持するオントロジのスキーマに変換できなかった述語か否かを判定する。そして、判定部136は、変換できなかった述語に関して除外する処理を行う。
また、判定部136は、後述する統合部137によって、各クラスタにおいて目的語が統合された場合に、これらのトリプルが更新装置100の保持するオントロジに適合するか否かを判定する。そして、判定部136は、オントロジの規定に矛盾するトリプルを排除する処理を行う。なお、これらの判定部136による処理については、人手による確認が行われてもよい。
(統合部137について)
統合部137は、更新されたマッピングデータに基づいて、各クラスタにおける情報を統合する。具体的には、統合部137は、更新部135及び判定部136の処理後の各クラスタについて、各クラスタに識別情報(URI)を与える。そして、統合部137は、更新されたマッピングデータに基づいて、URIに対応する述語を特定する。そして、統合部137は、各クラスタが持つ目的語の値を統合する。統合部137は、クラスタが統一された結果として、統合されたエンティティに関する情報をエンティティ記憶部124に記憶する。
例えば、図8に示した例では、統合部137は、ソースデータIDがD21、D31、D51であったデータについてマージして、エンティティE11として統合している。この場合、統合部137は、エンティティE11に対して一つのURIを付与していることになる。図10に示すように、統合部137は、ソースデータD21やD31やD51に対応していた述語や目的語をマージしている。なお、統合部137は、ソースデータID41は、異なるエンティティとして統合している。これは、上述した変換、分類、更新処理において、ソースデータD41が示すエンティティと、ソースデータD21、D31及びD51が示すエンティティとが、異なるエンティティであったと判定されたことを示す。このことは、上述した処理では「氏名」を基準としてデータを抽出したことから、ソースデータD21、D31、D41及びD51が抽出されたものの、ソースデータD41が示すエンティティは、ソースデータD21、D31及びD51が示すエンティティとは異なる人物(例えば、同姓同名の他人)であったことを意味する。
このように、データベース20等から得られたソースデータが統合部137によって統合されることで、更新装置100が保持するデータベース(ナレッジベース)におけるエンティティ間の関係性が強化される。また、当該データベースを構成するデータの情報量が増強される。
〔4.処理手順〕
次に、図11を用いて、実施形態に係る更新装置100による処理の手順について説明する。図11は、実施形態に係る処理手順を示すフローチャートである。
図11に示すように、更新装置100に係る取得部131は、各データベース(例えば、データベース20)からソースデータを取得する(ステップS101)。取得部131によって取得されたソースデータについて、整形部132は、ソースごとの依存性を解消する(ステップS102)。
そして、変換部133は、既存のマッピングデータを用いてフォーマットを変換する(ステップS103)。具体的には、変換部133は、既存のマッピングデータを用いて変換可能な述語を特定し、対応する述語を変換する。続いて、分類部134は、所定の基準を用いてエンティティをクラスタに分類する(ステップS104)。
そして、更新部135は、エンティティに関する述語と目的語による組合せ情報の共通性を検証する(ステップS105)。そして、更新部135は、検証した情報に基づいて、マッピングデータを更新する(ステップS106)。
さらに、更新部135は、処理対象とするデータについて、所定量のデータが更新されたか否かを判定する(ステップS107)。所定量のデータが変換されていないと判定する場合には(ステップS107;No)、更新部135は、マッピングデータを更新したのち、処理を変換部133に戻す(ステップS103)。
一方、更新部135は、所定量のデータが変換されたと判定する場合には(ステップS107;Yes)、マッピングデータを更新したのち、処理対象とするデータを判定部136に渡す。判定部136は、更新装置100の保持するオントロジのルールに則って変換できなかったデータを判定する(ステップS108)。そして、判定部136は、変換できなかったデータを除外する(ステップS109)。
続いて、統合部137は、判定部136による処理ののちのマッピングデータを用いて、各クラスタが持つ目的語の値を統合する(ステップS110)。そして、判定部136は、統合部137が統合した結果のデータ(すなわち、トリプルの形式で表現されるデータ)について、更新装置100が保持するオントロジの規定に矛盾するトリプルを排除する(ステップS111)。これにより、更新装置100が有するデータベースにおけるデータが、更新装置100が保持するオントロジの規定に則ったデータに統一される。これにより、更新装置100による処理は終了する。
〔5.変形例〕
上述した更新装置100による処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、更新装置100の他の実施形態(変形例)について説明する。
〔5−1.クラスの設定〕
上記実施形態では、あるデータに対応するエンティティについて、クラスが設定されている例を示した。クラスの設定については、ソースデータにおいて予め設定されているクラスを用いてもよいし、更新装置100側の規定に則って、変換されてもよい。かかる処理については、例えば、エンティティが持つ述語や目的語の内容を判定し、例えば学習処理等によって、最適化されたクラスが設定されるようにしてもよい。また、更新装置100は、自身が設定するクラスと他のデータサーバが設定するクラスとに関して、対応表のようなデータを保持していてもよい。
〔5−2.情報の連結〕
上記実施形態では、エンティティを説明する要素として、述語と目的語との組合せ情報が存在する例を示した。ここで、エンティティを説明する要素として、当該エンティティに関する組合せ情報のみならず、エンティティとつながりを有するエンティティの組合せ情報を処理対象としてもよい。
例えば、エンティティには、述語と目的語の関係を有して連結されるエンティティがありうる。例えば、図2では、エンティティE01と、エンティティE04とは連結されている。すなわち、上述する処理において、エンティティE01と連結するエンティティE04に関する情報は利用される。ここで、エンティティE01を処理するに際して、エンティティE04を介して連結しているエンティティE05に関する情報を用いるようにしてもよい。このように、更新装置100は、ナレッジベースにおいて更なる連結を有するエンティティの情報を用いることにより、よりエンティティ同士の関係性を強化するためのマッピングデータを生成することができる。
〔5−3.処理する情報の限度〕
上記実施形態では、ある人物のエンティティに関して、述語と目的語の共通性を検証する処理を行う例を示した。ここで、例えば、処理対象とするエンティティが本や音楽等の作品であるときには、作品を説明する要素(作成者、編集者、出版会社、出版日、出版国など)が比較的多くなり、非常に多くの組合せ情報が発生する場合がある。さらに、上述したような述語同士のペアを作成すると、ペアの数が非常に多くなるため、処理に負担が生じる場合がある。
このような場合、更新装置100は、処理対象とするエンティティの述語の数の上限を予め設定しておき、それ以上の述語については処理対象から除外するなどの処理を行ってもよい。
〔5−4.フォーマット〕
上記実施形態では、エンティティを説明するための要素としてRDFにおける述語を例示し、述語に対応する値としてRDFにおける目的語を例示した。しかし、述語や目的語といった用語は、RDFやRDF準拠のフォーマットにおいてエンティティを説明するために用いられるものであり、上記実施形態が説明した処理は、これらの用語を用いるフォーマットに限られるものではない。すなわち、上記実施形態で説明してきたような、エンティティを有向グラフとして表現する手法において、エンティティを説明する要素(述語)をまとめる処理は、RDFやRDF準拠のフォーマットに限らず適用可能である。
〔6.ハードウェア構成〕
また、上述してきた実施形態に対応する更新装置100は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、更新装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(ネットワークNに対応する)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が作成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して作成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る更新装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図4に示した整形部132と変換部133とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた記憶装置に記憶されてもよい。
また、例えば、上記実施形態では、更新装置100が、ソースデータを取得する取得部131と、マッピングデータを更新する更新部135とを備える例を示した。しかし、更新装置100は、ソースデータを取得する等、情報の送受信を行うフロントサーバと、マッピングデータを更新する等の処理を行うバックエンドサーバとに分離されてもよい。この場合、説明してきた更新装置100による処理は、例えば、フロントエンドサーバとバックエンドサーバとを有する更新システム1によって実現される。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.効果〕
上述してきたように、実施形態に係る更新装置100は、変換部133と、分類部134と、更新部135とを有する。変換部133は、変換における所定のルールに基づいて、処理対象となるエンティティを、エンティティを説明するための要素(述語)と当該要素に対応する値(目的語)とを含む所定のフォーマットに変換する。分類部134は、変換部133によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する。更新部135は、分類部134によってクラスタに分類された複数のエンティティにおける、各エンティティが含む述語と目的語の組合せの共通性に基づいて、異なるデータベース間における所定のルールの対応関係が定義されたマッピングデータを更新する。
このように、実施形態に係る更新装置100は、複数のソースから取得されたデータについて、各ソースによって異なる形式を吸収しつつ、エンティティの関係性を定義するマッピングデータの増強を行うことができる。具体的には、更新装置100は、異なるデータベースである複数のソースから取得されたデータに基づいて、述語の変換に用いられるルールの対応関係を示したマッピングデータを更新する。これにより、更新装置100は、各エンティティの関係性の幅を拡張させることや、エンティティ間のつながりを示す情報の信頼度を高めることができるため、エンティティ間の関係性を適切に示すデータベースを構築することができる。
また、分類部134は、述語と目的語の組合せである組合せ情報の共通性に基づいて、複数のエンティティの中から、クラスタに分類するエンティティを抽出する。
このように、実施形態に係る更新装置100は、組合せ情報の共通性に基づいてエンティティをクラスタに分類することで、同一のエンティティを示していると想定されるデータを正確にクラスタに分類することができる。
また、分類部134は、組合せ情報のうち、エンティティを一意に特定することのできる組合せ情報の重み値を重くして、クラスタに分類するエンティティを抽出する。
このように、実施形態に係る更新装置100は、一意に特定することのできる組合せ情報の重みを重くすることで、同一のエンティティを示していると想定されるデータを正確に分類することができる。
また、分類部134は、組合せ情報の共通性として、組合せ情報が同一又は類似であるか否かに基づいて、クラスタに分類するエンティティを抽出する。
このように、実施形態に係る更新装置100は、同一な情報のみならず、類似性も含めて組合せ情報を判定する。これにより、更新装置100は、データベース間で生じる表記ゆれの問題等を吸収して、共通するエンティティを示すデータを的確に分類することができる。
また、更新部135は、クラスタに分類された複数のエンティティが含む述語と目的語のうち、異なる2以上の述語が同一又は類似する目的語に対応する場合に、異なる2以上の述語を同一の述語と推定して所定のフォーマットに変換する処理を行うように、マッピングデータを更新する。
このように、実施形態に係る更新装置100は、同様の目的語を有する述語に関して、それらの述語が同じものを示しているものと推定することで、述語をまとめる処理を行う。これによって、更新装置100は、種々のデータベースから取得された種々の形式を有するソースデータであっても、同じエンティティを示すデータとして的確に表しうるマッピングデータに更新することができる。
また、更新部135は、所定数のクラスタにおいて、複数のエンティティが含む述語と目的語の組合せのうち、異なる2以上の述語が同一又は類似する目的語に対応する組合せの数が所定の閾値を超える場合に、異なる2以上の述語を同一の述語と推定して所定のフォーマットに変換する処理が行われるように、マッピングデータを更新する。
このように、実施形態に係る更新装置100は、同一のエンティティと想定されていたデータから生成されたクラスタにおいて、所定の閾値を超える組合せが抽出される場合に、述語をまとめる処理を行う。例えば、あるクラスタにおいて述語と目的語との組合せが同じ値を有していたとしても、他のクラスタにおいて、同様の傾向が観測されるかは不明である。このため、更新装置100は、複数のクラスタに渡って処理対象を抽出することにより、述語をまとめる処理、すなわち、マッピングデータの更新処理の精度を向上させることができる。
また、更新部135は、同義語と推定される目的語同士、もしくは、編集距離が所定の値よりも少ない目的語同士を、類似する目的語として取り扱う。
このように、実施形態に係る更新装置100は、辞書的に類似するか、もしくは、語同士の相違量から導出される値である編集距離が所定の値よりも少ないか、といった判定基準によって、語の類似性を判定する。これにより、更新装置100は、同一の意味を示しているが、データベース間で異なって表記されている語を的確に抽出することができるため、マッピングデータの更新処理の精度を向上させることができる。
また、更新部135は、クラスタに分類された複数のエンティティが含む述語について、述語同士の組を作成し、組に含まれる述語に対して同一又は類似する目的語が対応している数と、組に含まれる述語に対して同一又は類似する目的語が対応してない数とを比較することによって、組に含まれる述語は同一の述語と推定して所定のフォーマットに変換する処理が行われるように、マッピングデータを更新する。
このように、実施形態に係る更新装置100は、述語の組を作成し、かかる組において類似する目的語を取るか否かを判定する。これにより、更新装置100は、共通する意図を有した述語を的確に抽出できるため、マッピングデータの更新処理の精度を向上させることができる。
また、更新部135は、マッピングデータを更新する処理において、処理対象とされたエンティティに関する情報の変化量が所定の閾値を超えていない場合には、マッピングデータを更新したのちに、処理対象とされたエンティティを再び変換部133に戻す。変換部133は、更新部135によって更新されたマッピングデータを用いて、処理対象としたエンティティを再び所定のフォーマットに変換する。
このように、実施形態に係る更新装置100は、変換から更新に至るまでの処理をループさせることができる。この過程により、更新装置100は、同一のエンティティを説明する述語や目的語の抽出を、より正確に行うことができる。これにより、更新装置100は、マッピングデータの更新処理の精度を向上させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 更新システム
100 更新装置
110 通信部
120 記憶部
121 ソースデータ記憶部
122 マッピングデータ記憶部
123 クラスタ情報記憶部
124 エンティティ記憶部
130 制御部
131 取得部
132 整形部
133 変換部
134 分類部
135 更新部
136 判定部
137 統合部

Claims (12)

  1. 変換における所定のルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素と当該要素に対応する値とを含む所定のフォーマットに変換する変換部と、
    前記変換部によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する分類部と、
    前記分類部によってクラスタに分類された複数のエンティティにおける、各エンティティが含む要素と値の組合せの共通性に基づいて、異なるデータベース間における前記所定のルールの対応関係が定義されたマッピングデータを更新する更新部と、
    を備えたことを特徴とする更新装置。
  2. 前記分類部は、
    前記要素と値の組合せである組合せ情報の共通性に基づいて、複数のエンティティの中から、クラスタに分類するエンティティを抽出する、
    ことを特徴とする請求項1に記載の更新装置。
  3. 前記分類部は、
    前記組合せ情報のうち、前記エンティティを一意に特定することのできる組合せ情報の重み値を重くして、クラスタに分類するエンティティを抽出する、
    ことを特徴とする請求項2に記載の更新装置。
  4. 前記分類部は、
    前記組合せ情報の共通性として、組合せ情報が同一又は類似であるか否かに基づいて、クラスタに分類するエンティティを抽出する、
    ことを特徴とする請求項2又は3に記載の更新装置。
  5. 前記更新部は、
    前記クラスタに分類された複数のエンティティが含む要素と値のうち、異なる2以上の要素が同一又は類似する値に対応する場合に、当該異なる2以上の要素を同一の要素と推定して前記所定のフォーマットに変換する処理が行われるように、前記マッピングデータを更新する、
    ことを特徴とする請求項1〜4のいずれか一つに記載の更新装置。
  6. 前記更新部は、
    所定数の前記クラスタにおいて、前記複数のエンティティが含む要素と値の組合せのうち、異なる2以上の要素が同一又は類似する値に対応する組合せの数が所定の閾値を超える場合に、当該異なる2以上の要素を同一の要素と推定して前記所定のフォーマットに変換する処理が行われるように、前記マッピングデータを更新する、
    ことを特徴とする請求項1〜5のいずれか一つに記載の更新装置。
  7. 前記更新部は、
    同義と推定される値同士、もしくは、編集距離が所定の値よりも少ない値同士を、前記類似する値として取り扱う、
    ことを特徴とする請求項5又は6に記載の更新装置。
  8. 前記更新部は、
    前記クラスタに分類された複数のエンティティが含む要素について、要素同士の組を作成し、当該組に含まれる要素に対して同一又は類似する値が対応している数と、当該組に含まれる要素に対して同一又は類似する値が対応してない数とを比較することによって、前記組に含まれる要素は同一の要素と推定して前記所定のフォーマットに変換する処理が行われるように、前記マッピングデータを更新する、
    ことを特徴とする請求項5〜7のいずれか一つに記載の更新装置。
  9. 前記更新部は、
    前記マッピングデータを更新する処理において、処理対象とされたエンティティに関する情報の変化量が所定の閾値を超えていない場合には、当該マッピングデータを更新したのちに、当該処理対象とされたエンティティを再び変換部に戻し、
    前記変換部は、
    前記更新部によって更新されたマッピングデータに基づいて、前記処理対象としたエンティティを再び前記所定のフォーマットに変換する、
    ことを特徴とする請求項1〜8のいずれか一つに記載の更新装置。
  10. 前記変換部は、
    前記処理対象となるエンティティを、当該エンティティを説明するための要素である述語と、当該述語に対応する目的語とを含む所定のフォーマットに変換し、
    前記更新部は、
    前記分類部によってクラスタに分類された複数のエンティティにおける、各エンティティが含む述語と目的語の組合せの共通性に基づいて、前記マッピングデータを更新する、
    ことを特徴とする請求項1〜9のいずれか一つに記載の更新装置。
  11. コンピュータが実行する変換方法であって、
    変換におけるルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素と当該要素に対応する値とを含む所定のフォーマットに変換する変換工程と、
    前記変換工程によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する分類工程と、
    前記分類工程によってクラスタに分類された複数のエンティティにおける、各エンティティが含む要素と値の組合せの共通性に基づいて、異なるデータベース間における前記所定のルールの対応関係が定義されたマッピングデータを更新する更新工程と、
    を含んだことを特徴とする更新方法。
  12. 変換におけるルールに基づいて、処理対象となるエンティティを、当該エンティティを説明するための要素と当該要素に対応する値とを含む所定のフォーマットに変換する変換手順と、
    前記変換手順によって変換されたエンティティを、所定の基準に基づいてクラスタに分類する分類手順と、
    前記分類手順によってクラスタに分類された複数のエンティティにおける、各エンティティが含む要素と値の組合せの共通性に基づいて、異なるデータベース間における前記所定のルールの対応関係が定義されたマッピングデータを更新する更新手順と、
    をコンピュータに実行させることを特徴とする更新プログラム。
JP2016101407A 2016-05-20 2016-05-20 更新装置、更新方法、及び更新プログラム Active JP6088091B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016101407A JP6088091B1 (ja) 2016-05-20 2016-05-20 更新装置、更新方法、及び更新プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016101407A JP6088091B1 (ja) 2016-05-20 2016-05-20 更新装置、更新方法、及び更新プログラム

Publications (2)

Publication Number Publication Date
JP6088091B1 JP6088091B1 (ja) 2017-03-01
JP2017208015A true JP2017208015A (ja) 2017-11-24

Family

ID=58186071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016101407A Active JP6088091B1 (ja) 2016-05-20 2016-05-20 更新装置、更新方法、及び更新プログラム

Country Status (1)

Country Link
JP (1) JP6088091B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018085116A (ja) * 2016-11-23 2018-05-31 富士通株式会社 知識グラフを完成させるための方法および装置
KR20200096133A (ko) * 2019-02-01 2020-08-11 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
JP2020187738A (ja) * 2019-05-09 2020-11-19 富士通株式会社 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体
JP7090574B2 (ja) 2019-03-18 2022-06-24 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163241A1 (ja) * 2017-03-06 2018-09-13 三菱電機株式会社 オントロジー構築支援装置
JP6541737B2 (ja) 2017-09-20 2019-07-10 ヤフー株式会社 選択装置、選択方法、選択プログラム、モデルおよび学習データ
JP6856498B2 (ja) 2017-11-15 2021-04-07 株式会社東芝 支援システム、支援方法、プログラム、及び記憶媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
JP2006503351A (ja) * 2002-09-20 2006-01-26 ボード オブ リージェンツ ユニバーシティ オブ テキサス システム 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法
US20130006968A1 (en) * 2010-03-11 2013-01-03 Alex Gusmini Data integration system
JP2013145508A (ja) * 2012-01-16 2013-07-25 Nippon Telegr & Teleph Corp <Ntt> グラフパターンマッチングシステムおよびグラフパターン代表元抽出方法
JP2015099586A (ja) * 2013-11-18 2015-05-28 富士通株式会社 データ集約のためのシステム、装置、プログラム、及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503351A (ja) * 2002-09-20 2006-01-26 ボード オブ リージェンツ ユニバーシティ オブ テキサス システム 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法
JP2005063332A (ja) * 2003-08-19 2005-03-10 Fujitsu Ltd 情報体系対応付け装置および対応付け方法。
US20130006968A1 (en) * 2010-03-11 2013-01-03 Alex Gusmini Data integration system
JP2013145508A (ja) * 2012-01-16 2013-07-25 Nippon Telegr & Teleph Corp <Ntt> グラフパターンマッチングシステムおよびグラフパターン代表元抽出方法
JP2015099586A (ja) * 2013-11-18 2015-05-28 富士通株式会社 データ集約のためのシステム、装置、プログラム、及び方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018085116A (ja) * 2016-11-23 2018-05-31 富士通株式会社 知識グラフを完成させるための方法および装置
KR20200096133A (ko) * 2019-02-01 2020-08-11 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
JP2020126604A (ja) * 2019-02-01 2020-08-20 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データモデルを構築する方法、装置、デバイス及び媒体
KR102354127B1 (ko) 2019-02-01 2022-01-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
JP7076483B2 (ja) 2019-02-01 2022-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データモデルを構築する方法、装置、デバイス及び媒体
JP7090574B2 (ja) 2019-03-18 2022-06-24 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2020187738A (ja) * 2019-05-09 2020-11-19 富士通株式会社 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体

Also Published As

Publication number Publication date
JP6088091B1 (ja) 2017-03-01

Similar Documents

Publication Publication Date Title
JP6088091B1 (ja) 更新装置、更新方法、及び更新プログラム
WO2020135048A1 (zh) 知识图谱的数据融合方法和装置
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
CN105706078B (zh) 实体集合的自动定义
US9218427B1 (en) Dynamic semantic models having multiple indices
AU2018264012B1 (en) Identification of domain information for use in machine learning models
JP2016532942A (ja) イベント知識データベースの構築方法および装置
Prudhomme et al. Interpretation and automatic integration of geospatial data into the Semantic Web: Towards a process of automatic geospatial data interpretation, classification and integration using semantic technologies
KR101987915B1 (ko) 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템
KR101739540B1 (ko) 통합 지식베이스 구축 시스템 및 방법
WO2019080910A1 (zh) 一种信息处理系统及其实现信息处理的方法
Zhao et al. Mid-ontology learning from linked data
JP2014048741A (ja) データ検索プログラム、データベース装置および情報処理システム
KR101684579B1 (ko) 지식 생성 시스템 및 방법
Benny et al. Hadoop framework for entity resolution within high velocity streams
Drăgan et al. Linking semantic desktop data to the web of data
CN106933844B (zh) 面向大规模rdf数据的可达性查询索引的构建方法
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
Matuszka et al. Geodint: towards semantic web-based geographic data integration
Maté et al. An integrated multidimensional modeling approach to access big data in business intelligence platforms
Li et al. Research on hot news discovery model based on user interest and topic discovery
JP2012512455A (ja) 自動的なデータストアアーキテクチャの検出
KR102314068B1 (ko) 동물병원 통합 데이터베이스 구축 시스템 및 방법
JP7273888B2 (ja) 決定装置、決定方法、および決定プログラム
KR102639880B1 (ko) 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170202

R150 Certificate of patent or registration of utility model

Ref document number: 6088091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250