JP6268435B2 - データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置 - Google Patents

データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置 Download PDF

Info

Publication number
JP6268435B2
JP6268435B2 JP2014040291A JP2014040291A JP6268435B2 JP 6268435 B2 JP6268435 B2 JP 6268435B2 JP 2014040291 A JP2014040291 A JP 2014040291A JP 2014040291 A JP2014040291 A JP 2014040291A JP 6268435 B2 JP6268435 B2 JP 6268435B2
Authority
JP
Japan
Prior art keywords
entity
candidates
attribute name
attribute
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014040291A
Other languages
English (en)
Other versions
JP2015165366A (ja
Inventor
高山 訓治
訓治 高山
聡 宗像
聡 宗像
高橋 直人
直人 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014040291A priority Critical patent/JP6268435B2/ja
Priority to US14/612,749 priority patent/US9881073B2/en
Publication of JP2015165366A publication Critical patent/JP2015165366A/ja
Application granted granted Critical
Publication of JP6268435B2 publication Critical patent/JP6268435B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置に関する。
大規模基幹系システム(例えば、顧客管理システム)のような業務システムでは、ビジネスの変化に追従するために、保守や改修が繰り返し行われる。保守や改修が繰り返し行われることによって、業務システムは肥大化、複雑化し、再構築が必要となることがある。
業務システムは、エンティティとイベントによって構成される。エンティティは、例えば顧客や商品といった名詞的な要素を示し、作成、更新、参照、削除処理の対象となる。また、エンティティは、業務システムが扱うデータとしてデータベース(DB;database)に格納される。さらに、エンティティは、例えば、「顧客」のようなエンティティ名と、(顧客の)「氏名」や、(商品の)「単価」のような情報を、属性として有する。属性は、例えば、「氏名」のような属性名と、「富士 通子」のような属性値を有す。
DBが有するエンティティ及び属性は、スキーマと呼ばれる定義情報によって規定される。スキーマは、エンティティと属性の関係、エンティティ名、および、属性名を含むが、属性値は含まない。一方、イベントは、例えば、登録や発注といった動詞的な要素を示し、エンティティの状態を遷移させる振る舞いを示す。
業務システムの再構築の大きな作業の1つは、保守や改修によって準直交化の状態が崩れたエンティティ群(データ体系)を準直交化しDBを再構成することである(例えば、特許文献1)。準直交化とは、例えば、互いに同一の属性名を持たず、かつ、独立した概念を有するエンティティの組み合わせを選択することを意味する。なお、エンティティが有する1つまたは複数の属性名が具体的な属性値を有する場合、エンティティのインスタンスと呼ぶ。
これに対し、異なるエンティティが同一の属性名を持つ場合、複数のエンティティそれぞれの具体例を示す複数のインスタンス間で、同一の意味を有するデータが複数、存在することになる。エンティティに対応するインスタンス間で同一の意味を有する複数のデータが存在する場合、特定の属性名を持つデータが複数のインスタンスに存在し、システム全体におけるデータの唯一性が損なわれた状態である。このようなシステムでは、データの更新を行う際、更新対象のデータに対応する属性名それぞれに対して更新を行う必要があることから、更新処理を行うプログラムの肥大化、複雑化を招く。また、エンティティが持つ属性名が、独立した概念ではなく複数の概念を持つ場合も、データ更新処理が煩雑化し、データの更新を行うプログラムの肥大化、複雑化を招く。
特開2006−164246号公報
しかしながら、エンティティ群の準直交化は手作業で行われる必要があるため、膨大なエンティティ群を有する大規模基幹系システムの準直交化には、膨大な工数を要する。また、準直交化には実データ(属性値)の利用が有用であるものの、個人情報保護やセキュリティの観点から実データを使用できないことが多い。また、準直交化は、エンティティと属性名との関係に基づくため、クラスター分析等による属性名間の関連だけでは適切に行うことが難しい。
1つの側面は、本発明は、データベースを効率的に再構成するデータベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置を提供することを目的とする。
第1の側面は、それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成方法であって、複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出し、前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定し、前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定し、前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかと対応関係を有するように割り当てることを特徴とする。
第1の側面によれば、各属性名についてエンティティ候補を抽出し、全ての属性名と対応関係を有し関連度が最大となるエンティティ候補の組を特定し、属性名それぞれを、エンティティ候補のいずれかと対応関係を有するように割り当てることで、データベースを効率的に再構成可能になる。
業務とシステムとの関係の一例を示す図である。 AsIsスキーマの一例とスキーマの準直交化状態とを示す図である。 図2のAsIsスキーマに対応するToBeスキーマの一例と、スキーマの準直交化状態とを示す図である。 AsIsスキーマの別の一例とスキーマの準直交化状態とを示す図である。 図4のAsIsスキーマに対応するToBeスキーマの一例と、スキーマの準直交化状態とを示す図である。 データ体系の準直交化処理を説明する図である。 本実施の形態例におけるDB再構成装置の構成の一例を説明する図である。 図7で示したDB再構成装置のブロック図である。 本実施の形態例におけるDB再構成装置の処理を説明するフローチャート図である。 図9の工程S11によって生成されるエンティティ-属性名関係表の一例を示す図である。 図9の工程S12によって生成される属性名の一覧の一例を示す図である。 図11に示す属性名の一覧を関連図に基づいて説明する図である。 本実施の形態例における属性名-エンティティ候補関連度表の一例を示す図である。 図9の工程S13によって更新されるエンティティ-属性名関係表の一例を示す図である。 図9の工程S14によって抽出される2つのエンティティ候補群の例をそれぞれ示すエンティティ-属性名関係表を示す図である。 図15に示すエンティティ候補群を関連図に基づいて説明する図である。 本実施の形態例におけるエンティティ候補間関連度表の一例を示す図である。 属性名とエンティティ候補との対応関係の選択処理(図9のS16)を説明する図である。 属性名とエンティティ候補との対応関係の選択処理を関連図に基づいて説明する図である。 図9の工程S17によって出力されたToBeスキーマのデータ体系を説明する図である。 ユーザによってエンティティ間の参照関係が補われたToBeスキーマのデータ体系の例を示す図である。 エンティティ間の参照関係が補われたToBeスキーマのデータ体系を、関連図に基づいて説明する図である。 エンティティ間で属性が循環するAsIsスキーマのデータ体系のエンティティ-属性関係表の一例を示す図である。
以下、図面にしたがって本発明の実施の形態を説明する。ただし、本発明の技術的範囲はこれらの実施の形態に限定されず、特許請求の範囲に記載された事項とその均等物まで及ぶものである。
図1は、業務とシステムとの関係の一例を示す図である。図1の(A)と図1の(B)は同一の教材販売システムを示し、図1の(A)は教材販売システムの業務を、図1の(B)は教材販売システムのアーキテクチャを示す。教材販売システムとは、例えば、学区に所属する顧客に対する教材の販売状況を管理するシステムである。
図1の(A)に示す教材販売業務は、エンティティとして「顧客」Em1、「注文」Em2、「商品」Em3、「学校」Em4を有し、イベントとして、「顧客登録」Ev1、「住所変更」Ev2、「氏名変更」Ev3、「注文追加」Ev4、「商品変更」Ev5を有する。エンティティは、作成処理、更新処理、参照処理、削除処理の対象となる名詞的な要素である。なお、図1には図示していないが、エンティティ各々は、複数の属性名を有する。例えば、エンティティ「顧客」Em1は、属性名「氏名」「住所」等を有する。一方、イベントは、エンティティの状態を遷移させる振る舞いを示す動詞的な要素である。例えば、イベント「顧客登録」Ev1に対応したイベントが発生すると、エンティティ「顧客」Em1に対応したインスタンスに新しいデータが作成される。同様にして、例えば、イベント「商品変更」Ev5が発生すると、エンティティ「商品」Em3のデータが更新される。
図1の(B)に示す教材販売システムのアーキテクチャは、View層とModel層とControl層とを有する。Model層は、教材販売システムが扱うデータを示す要素である。データは、図1の(A)のエンティティに相当し、例えば、データベース(DB;database)d1〜d4に記憶される。図1の(B)の例では、例えば、データはエンティティ毎に、各DBd1〜d4に記憶される。データはDBd1〜d4から読み出されメモリ上で更新され、再び、DBd1〜d4に記憶される。View層は、model層のデータを取り出し、閲覧に適した形で表示する要素である。つまり、View層は、画面等のユーザインタフェースへの出力を行う。Control層は、イベントに応答し、イベントに応じた処理を行う要素である。つまり、Control層は、ユーザインタフェースからの入力に応答して処理を行う。
図1の(B)の教材販売システムにおける処理の流れを説明する。まず、例えば、ユーザがボタン等を押下することによって、画面等のユーザインタフェースを通してView層に指示を入力すると、Control層は、View層からのイベント(例えば、イベント「顧客登録」Ev1)を処理する。その結果、model層のエンティティ「顧客」Em1に関連するデータが更新される。そして、View層は、更新されたエンティティ「顧客」Em1に関連するデータをModel層から取得し、画面等の表示内容を更新する。
なお、DBが有するエンティティ及び属性名は、スキーマと呼ばれる定義情報によって規定される。現状の業務システムを示すスキーマをAsIsスキーマ、あるべき状態の業務システムを示すスキーマをToBeスキーマと称する。本実施の形態例におけるDB再構成装置は、AsIsスキーマを入力として、準直交化処理によってDBの再構成を行い、ToBeスキーマを生成する。
[スキーマの例]
図2は、AsIsスキーマSa1の一例とスキーマの準直交化状態とを示す図である。図1において前述したとおり、本実施の形態例におけるAsIsスキーマSa1は、現状の業務システムを示す、準直交化処理の対象のスキーマである。なお、図2のAsIsスキーマSa1における括弧で囲まれた属性名は、他のエンティティを参照する識別番号である。具体的に、図2のAsIsスキーマSa1の属性名「(商品番号)」は、エンティティ「商品」のデータを参照可能にする識別情報である。
図2のAsIsスキーマSa1のデータ体系は、例えば、注文、商品、顧客という3つの概念を有する。ただし、図2のAsIsスキーマSa1のデータ体系において、顧客に関する属性名「氏名」「住所」「電話番号」は、エンティティ「注文」とエンティティ「店舗顧客情報」との間で重複する。属性名が複数のエンティティの間で重複する場合、運用や保守に工数を要する。
図2の関係図Pa1は、AsIsスキーマSa1のエンティティと属性名との関連を示す図である。関係図Pa1における実線は、エンティティEmと、当該エンティティEmに属する属性名Esとの対応関係を表す。また、点線は、エンティティEmと、他のエンティティを参照可能にする括弧付きの属性名との対応関係を表す。また、関連図Pa1における円Ema、Emb、Emcは、それぞれ、エンティティEmと、当該エンティティEmに属する属性名Esとを包含する。例えば、関連図Pa1の円Emaは、エンティティ「注文」Emとその属性名「注文年月日」「氏名」「年齢」「住所」「学区」「電話番号」「FAX」Esとを包含する。他の円Emb、Emcも同様である。
準直交化されたスキーマのエンティティは、独立した概念を有することから、互いに同一の属性名を有しない。言い換えると、準直交化されていないスキーマは、複数のエンティティと対応関係を有する属性名を有する。関係図Pa1によると、属性名「住所」「氏名」「電話番号」Esは、複数のエンティティ「注文」「店舗顧客情報」の円Emb、Emcに属する。したがって、関連図Pa1によると、AsIsスキーマSa1が準直交化されていないことを示す。
ここで、運用や保守に工数を要する例として、運用時に、例えば、顧客の住所を変更する例を挙げる。顧客の住所を変更する場合、教材販売システムは、エンティティ「注文」の属性名「住所」と、エンティティ「店舗顧客情報」の属性名「住所」の両方の値を更新する。ただし、エンティティ「注文」の属性名「住所」と、エンティティ「店舗顧客情報」の属性名「住所」は、それぞれ別に実データを有する。したがって、エンティティ「注文」の属性名「住所」の実データと、エンティティ「店舗顧客情報」の属性名「住所」の実データとは異なっていることがある。
具体的に、例えば、同じ住所を示していても、エンティティ「注文」の属性名「住所」には漢数字表記の番地が、エンティティ「店舗顧客情報」の属性名「住所」には数字表記の番地が記憶される場合がある。また、対象とする顧客の住所が途中で変更された場合、例えば、エンティティ「注文」の属性名「住所」には変更後の住所が、エンティティ「店舗顧客情報」の属性名「住所」には変更前の住所が記憶されている場合がある。
教材販売システムは、属性名「住所」がエンティティ「注文」及びエンティティ「店舗顧客情報」に属する場合、各属性名「住所」が同一の住所を指すことを判定した後、住所データの更新処理を行う。したがって、教材販売システムに同一の住所であるか否かを判定する処理が増加し、工数が発生する。また、住所を更新する対象の顧客が複数の注文を実施する場合、エンティティ「注文」のデータの属性名「住所」に加えて、複数のエンティティ「店舗顧客情報」のデータそれぞれの属性名「住所」が更新の対象となるため、更新ミスが生じ易い。
図3は、図2のAsIsスキーマに対応するToBeスキーマSt1の一例と、スキーマの準直交化状態とを示す図である。図3のToBeスキーマSt1は、図2のAsIsスキーマSa1を準直交化することによって生成されるスキーマである。また、前述したとおり、図3のToBeスキーマSt1における括弧で囲まれた属性名は、他のエンティティを参照する識別番号である。前述したとおり、図3のToBeスキーマStの属性名「(商品番号)」は、エンティティ「商品」のデータを参照可能にする識別情報である。
具体的に、図3のToBeスキーマSt1のデータ体系において、顧客に関する属性名「氏名」「住所」「電話番号」は、エンティティ「顧客」にだけ属する。即ち、エンティティが互いに同一の属性名を有していない。
図3の関係図Pt1は、ToBeスキーマSt1のエンティティと属性名との関連を示す図である。図2と同様にして、関係図Pt1における実線は、エンティティEmと、当該エンティティEmに属する属性名Esとの対応関係を表す。また、点線は、エンティティEmと、他のエンティティを参照可能にする括弧付きの属性名との対応関係を表す。また、関連図Pt1における円Emd〜Emgは、それぞれ、エンティティEmと、当該エンティティEmに属する属性名Esとを包含する。
図3のToBeスキーマSt1は準直交化されていることから、属性名は1つのエンティティにのみ所属する。例えば、図2のAsIsスキーマSa1において複数のエンティティ「注文」「店舗顧客情報」に所属する属性名「住所」「氏名」「電話番号」Esは、関係図Pt1において、1つのエンティティ「顧客」の円Emfにのみ属する。また、図3の関係図Pt1は、図2の関係図Pa1に対して、エンティティの数が増加していると共に、1つのエンティティEmに対する属性名Esの数が少ない。これは、図3のToBeスキーマSt1の各エンティティが独立した概念を有することを示す。
準直交化されたスキーマに基づいて顧客の住所を変更する場合、教材販売システムは、エンティティ「顧客」の属性名「住所」の実データのみを更新すればよく、更新ミスが生じ難い。図3のToBeスキーマSt1のデータ体系によると、属性名が複数のエンティティ間で重複しないため、運用や保守が容易である。
図4は、AsIsスキーマSaの別の一例とスキーマの準直交化状態とを示す図である。図4のスキーマは、運用の途中で、複数の注文を一括して請求可能にする要件が追加されたスキーマである。図2、図3と同様にして、図4のAsIsスキーマSa2における括弧で囲まれた属性名は、他のエンティティを参照する識別番号である。図4のAsIsスキーマSa2は、図2のAsIsスキーマSa1に対して、エンティティ「注文」に、さらに、属性名「請求先番号」「親請求先番号」を有する。エンティティ「注文」に属性名「請求先番号」「親請求先番号」を追加することにより、複数の注文を一括して請求可能になる。
例えば、複数の注文において、1つの注文が親の注文であって、それ以外の注文が子の注文である場合を例示する。具体的に、教材販売システムは、子の注文の属性名「親請求先番号」に、親の注文の属性名「請求先番号」のデータを付与する。そして、教材販売システムは、属性名「親請求先番号」にデータを有する注文を、子の注文であると認識することによって、親の注文と子の注文の請求先を、親の注文の請求先に統一することができる。
ただし、エンティティ「注文」が属性名「請求先番号」「親請求先番号」を有する場合、注文の親子関係が循環してしまう場合がある。注文の親子関係が循環する場合とは、例えば、親の注文の属性名「親請求先番号」が、子の注文の属性名「請求先番号」のデータを有する場合である。この場合、親の注文と子の注文とが循環し、親の注文が特定できない。そこで、教材販売システムは、データの更新時に、注文の親子関係が循環していないかを確認する必要がある。注文の親子関係が循環しているか否かの確認処理の追加は、既存の教材販売システムの複雑化を招き、教材販売システムに大きな影響が生じる。つまり、教材販売システムの開発、保守の効率及び品質の低下が生じる。
図4の関係図Pa2は、AsIsスキーマSa1のエンティティと属性名との関連を示す。図4の関連図Pa2における実線及び点線は、図2、図3と同様である。また、関連図Pa1における円Emh〜Emjは、それぞれ、エンティティEmと、当該エンティティEmに属する属性名Esとを包含する。図4のAsIsスキーマSa2は準直交化されていないことから、関係図Pa2によると、属性名「住所」「氏名」「電話番号」Esは、複数のエンティティ「注文」「店舗顧客情報」の円Emh、Emjに属する。
図5は、図4のAsIsスキーマに対応するToBeスキーマSt2の一例と、スキーマの準直交化状態とを示す図である。図5のToBeスキーマSt2のデータ体系は、図4のAsIsスキーマSa2を準直交化することによって生成されるスキーマである。また、前述したとおり、図5のToBeスキーマSt2における括弧で囲まれた属性名は、他のエンティティを参照する識別番号である。
図5のToBeスキーマSt2のデータ体系は、図4のAsIsスキーマSa2に対して、エンティティ「請求先」を有する。また、図5のToBeスキーマSt2のデータ体系におけるエンティティ「注文」は、エンティティ「請求先」のデータを参照可能にする属性名「請求先番号」を有する。教材販売システムは、請求先を統一したい複数の注文の属性名「請求先番号」に、請求先とするエンティティ「請求先」の属性名「請求先番号」のデータを付与することによって、複数の注文の一括請求を可能にする。
図5の関係図Pt2は、ToBeスキーマSt2のエンティティと属性名との関連を示す図である。図5の関連図Pt2における実線及び点線は、図2〜図4と同様である。また、関連図Pt2における円Emk〜Emoは、それぞれ、エンティティEmと、当該エンティティEmに属する属性名Esとを包含する。図5のToBeスキーマSt2は準直交化されていることから、属性名は1つのエンティティにのみ所属する。例えば、図4のAsIsスキーマSa2において複数のエンティティ「注文」「店舗顧客情報」に所属する属性名「住所」「氏名」「電話番号」Esは、図5の関係図Pt2において、1つのエンティティ「顧客」「請求先」の円Emm、Emoにそれぞれ属する。
また、図5の関係図Pt2は、図4の関係図Pa2に対して、エンティティの数が増加していると共に、1つのエンティティEmに対する属性名Esの数が少ない。これは、図5のToBeスキーマSt2の各エンティティが独立した概念を有することを示す。
したがって、図5のToBeスキーマSt2のデータ体系を有する場合、教材販売システムは、注文の親子関係が循環しているか否かを確認する必要がなく、既存の教材販売システムに対する影響が小さい。また、運用時、教材販売システムは、請求先を同一とする複数の注文の属性名「請求先番号」に同一のデータを付与するだけでよい。したがって、ToBeスキーマSt2のデータ体系によると、要件の追加による教材販売システムの運用、保守の複雑化が回避される。
[データ体系の準直交化]
図6は、データ体系の準直交化処理を説明する図である。図6の(A)(B)において、黒丸は属性名Esに対応し、白四角はエンティティEmに対応する。図6の(A)は、属性名Es間の関連を表す図であって、図6の(B)は、属性名EsとエンティティEmとの関連を表す図である。図6の(B)における線及び点線は、図2〜図5と同様である。
データ体系の準直交化とは、例えば、互いに同一の属性名Esを有しないエンティティEmの組み合わせであって、かつ、独立した概念を有するエンティティEmの組み合わせを選択することを示す。独立した概念を有するエンティティEmの組み合わせとは、例えば、類似度の小さいエンティティEmの組み合わせである。各属性名Esは、実データに対応するため、属性名Esを削除することは想定し難い。したがって、本実施の形態例におけるデータ体系の準直交化は、例えば、既存の複数の属性名Esを、新規または既存のいずれかのエンティティEmに対応させる処理を示す。
図6の(A)に示すような複数の要素(属性名)Esをグルーピングする技術として、クラスタリング技術がある。しかしながら、クラスタリング技術は、要素(属性名)Es間の距離に基づいて、距離が近い要素(属性名)Es同士をグルーピングする技術である。これに対し、データ体系の準直交化は、図6の(B)に示すように、属性名EsとエンティティEmとの間の関連度(距離)に基づいて、属性名EsとエンティティEmの対応関係を生成する。また、現状のAsIsスキーマのデータ体系は、不要なエンティティEmを有すると共に、不足しているエンティティEmを有する。したがって、属性名EsとエンティティEmとの間の関連度(距離)の判定は容易ではなく、データ体系の準直交化処理にはクラスタリング技術が適用できない。
本実施の形態例におけるDB再構成装置10は、複数のDBのいずれかに含まれる属性名、及び、属性名とエンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出する。そして、DB再構成装置10は、抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、エンティティ候補の組を構成するエンティティ候補がいずれかの属性名と対応関係を有することによってすべての属性名と対応関係を有し、構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する。次に、DB再構成装置10は、特定された複数のエンティティ候補の組のうち、エンティティ間の関連度に関する第2の情報に基づいて、エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する。そして、DB再構成装置10は、複数の属性名それぞれを、第1の情報に基づいて、エンティティ候補の組を構成するエンティティ候補のいずれかと対応関係を有するように割り当てる。
つまり、DB再構成装置10は、属性名に基づいてエンティティ候補群を抽出し、属性名とエンティティ候補との対応関係を選択する。これにより、エンティティに過不足がある場合であっても、実データを要することなく、属性名に基づいてデータ体系を準直交化し、DBを再構成することができる。なお、本実施の形態例において、DBは、例えば、1つのエンティティと複数の属性名とを有する。ただし、この例に限定されるものではなく、DBは、複数のエンティティを有していてもよい。
[DB再構成装置の構成]
図7は、本実施の形態例におけるDB再構成装置10の構成の一例を説明する図である。図7のDB再構成装置10は、例えば、入力装置11、表示装置12、通信インタフェース13、プロセッサ14、記憶媒体15、メモリ16を有する。各部は、バス17を介して互いに接続される。入力装置11は、例えば、キーボードやマウス等を示し、表示装置12は、例えば、ディスプレイ等の表示画面を示す。
また、記憶媒体15は、DB再構成プログラムPRを記憶する。プロセッサ14は、実行時にDB再構成プログラムPRをメモリ16にロードし、DB再構成プログラムPRと協働して、記憶媒体15から読み出したAsIsスキーマSaを入力としてデータ体系の準直交化処理を行う。そして、DB再構成プログラムPRは、メモリ16上にToBeスキーマStを生成し、記憶媒体15に出力する。また、記憶媒体15は、DB再構成プログラムPRによって参照される属性名-エンティティ候補関連度表H1と、エンティティ候補間関連度表H2とを有する。
[DB再構成装置のブロック図]
図8は、図7で示したDB再構成装置10のブロック図である。図8のDB再構成装置10のDB再構成プログラムPRは、例えば、エンティティ-属性名関係表生成部21、属性名抽出部22、エンティティ候補抽出部23、エンティティ候補群抽出部24、エンティティ候補群選択部25、対応関係選択部26、ToBeスキーマ出力部27を有する。
エンティティ-属性名関係表生成部21は、AsIsスキーマSaに基づいて、エンティティ-属性名関係表を生成する。属性名抽出部22は、エンティティ-属性名関係表に基づいて、複数のDBが有する複数の属性名の一覧を抽出する。エンティティ候補抽出部23は、属性名-エンティティ候補関連度表H1を参照して、抽出した属性名の一覧に基づいて、属性名各々に対応する1つまたは複数のエンティティの候補との対応関係を抽出する。エンティティ候補群抽出部24は、抽出したエンティティ候補から、対応関係を有する属性名の集合が、エンティティ-属性名関係表の属性名の一覧と一致する最少数のエンティティ候補の組み合わせを抽出する。
また、エンティティ候補群選択部25は、エンティティ候補間関連度表H2を参照して、複数のエンティティ候補の組み合わせから、1つのエンティティ候補の組み合わせを選択する。対応関係選択部26は、1つの属性名に対応するエンティティ候補が複数ある場合、即ち、属性名とエンティティ候補との対応関係が重複する場合、属性名-エンティティ候補関連度表H1を参照して、1つの対応関係を選択する。ToBeスキーマ出力部27は、エンティティ候補と属性名とを、その対応関係と共に、ToBeスキーマStに出力する。
[フローチャート]
図9は、本実施の形態例におけるDB再構成装置10の処理を説明するフローチャート図である。各工程の処理の詳細については、具体例に対応して後述する。エンティティ-属性名関係表生成部21は、AsIsスキーマからエンティティ及び属性名を抽出し、エンティティ-属性名関係表を生成する(S11)。次に、属性名抽出部22は、工程S11で生成したエンティティ-属性名関係表からエンティティをすべて消去する(S12)。属性名は、実データを有するのに対し、エンティティは、不足しているエンティティや不要なエンティティを含む。したがって、属性名抽出部22は、属性名を残存させると共に、エンティティを消去する。即ち、属性名抽出部22は、属性名を残存させると共に、エンティティを消去することによって、重複のない属性名の一覧を取得する。
次に、エンティティ候補抽出部23は、属性名とエンティティ候補の間の関連度を用いて、属性名の一覧に基づいて、属性名に対応するエンティティ候補を推察し追加する(S13)。つまり、エンティティ候補抽出部23は、現状の属性名の一覧に基づいて、エンティティ候補を網羅的に抽出する。具体的に、エンティティ候補抽出部23は、予め用意された属性名-エンティティ候補関連度表H1を参照して、各属性名について、所定以上の関連度を有する、当該属性名に対応する1つまたは複数のエンティティ候補との対応関係を抽出する。エンティティ候補は任意の候補である。エンティティ候補抽出部23は、工程S13の処理によって、エンティティの不足を補う。
属性名の一覧に対応して、膨大なエンティティ候補が列挙される。したがって、次に、エンティティ候補群抽出部24は、対応関係を有する属性名の集合が全ての属性名を含むエンティティ候補群のうち、エンティティ候補の数が最少となるエンティティ候補群を抽出する(S14)。具体的に、エンティティ候補群抽出部24は、対応関係を有する属性名の集合が、エンティティ-属性名関係表の属性名の一覧と一致する最少数のエンティティ候補の組み合わせを抽出する。エンティティ候補の数が少ない程、エンティティ候補間の類似度の総和が小さいため、エンティティ候補が互いに独立した概念を有することが想定される。したがって、エンティティ候補群抽出部24は、最少数のエンティティ候補の組み合わせを抽出することにより、互いに独立した概念を有するエンティティ候補群を抽出することができる。
エンティティ候補の組み合わせは、複数パターン抽出され得る。したがって、次に、エンティティ候補群選択部25は、工程S14によって抽出したエンティティ候補群から、エンティティ候補とエンティティ候補との間の関連度を用いて、エンティティ候補群におけるエンティティ候補間の関連度の総和が最大になるエンティティ候補群を選択する(S15)。即ち、エンティティ候補群選択部25は、エンティティ候補群の冗長性を解消する。具体的に、エンティティ候補群選択部25は、エンティティ候補間関連度表H2を参照して、複数のエンティティ候補の組み合わせから、エンティティ候補間の関連度がより高いエンティティ候補の組み合わせを選択する。エンティティ候補群の各エンティティ候補は、同一の特定の業務内で使用され、同一の特定の業務内で使用されるエンティティ候補間の関連度は高いことが想定される。したがって、エンティティ候補群選択部25は、エンティティ候補間の関連度が最も高いエンティティ候補群を選択し、その他のエンティティ候補を除去する。
また、選択されたエンティティ候補群が有するエンティティ候補は、互いに同一の属性名と対応関係を有することがある。次に、対応関係選択部26は、複数のエンティティ候補と重複して対応関係を有する属性名について、重複した前記対応関係を減少させる(S16)。具体的に、対応関係選択部26は、複数のエンティティ候補と対応関係を有する属性名各々について、属性名-エンティティ候補関連度表H1を参照し、対応するエンティティ候補との間の関連度が最大となる対応関係を選択する。同一の特定の業務内で使用される属性名とエンティティ候補との間の関連度は高いことが想定される。したがって、対応関係選択部26は、属性名と対応関係を有するエンティティ候補との関連度が最大となる対応関係を選択し、その他の対応関係を除去する。
工程S16の結果、それぞれのエンティティ候補は、互いに異なる属性名の組み合わせと対応関係を有し、同一の属性名を有しない。また、エンティティ候補の数が最少に収められているため、エンティティ候補が互いに独立した概念を有することを示す。したがって、DB再構成装置10は、工程S11〜S16によって、互いに同一の属性名と対応関係を有しないエンティティ候補群であって、互いに独立した概念を有するエンティティ候補群を取得できる。即ち、DB再構成装置10は、工程S11〜S16によって、準直交化された、エンティティ候補と属性名との対応関係を取得できる。
次に、ToBeスキーマ出力部27は、工程S11〜S16によって取得したエンティティ候補と属性名との対応関係をToBeスキーマに出力する(S17)。次に、ユーザは、例えば、人手でエンティティ間の参照関係等を補う(S18)。詳細については、後述する。
続いて、図9のフローチャート図で説明した各処理を具体例に対応させて説明する。
[具体例:図9の工程S11]
図10は、図9の工程S11によって生成されるエンティティ-属性名関係表T1の一例を示す図である。図10のエンティティ-属性名関係表T1は、エンティティの列と属性名の行とを有する。また、エンティティ-属性名関係表T1における白丸は、エンティティと属性名とが対応関係を有することを示す。図9のフローチャート図で説明したとおり、初めに、エンティティ-属性名関係表生成部21は、図2に例示したAsIsスキーマからエンティティ及び属性名を抽出し、エンティティ-属性名関係表T1を生成する(図9のS11)。
図2のAsIsスキーマSa1は、エンティティとして、「注文」「商品」「店舗顧客情報」を有する。また、図2のAsIsスキーマSa1は、エンティティ「注文」の属性名として、「注文年月日」「氏名」「年齢」「住所」「学区」「電話番号」「FAX」、エンティティ「商品」の属性名として、「商品番号」「数量」「商品名」「単価」、エンティティ「店舗顧客情報」の属性名として「氏名」「住所」「電話番号」を有する。エンティティ-属性名関係表生成部21は、図2のAsIsスキーマSa1におけるエンティティ及び属性名をそれぞれ、エンティティ-属性名関係表T1のエンティティ及び属性名に記載する。
また、エンティティ-属性名関係表生成部21は、複数のエンティティの間で重複する属性名がある場合、1つの属性名のみ記載する。図2のAsIsスキーマSa1では、「氏名」「住所」「電話番号」が、エンティティ「注文」とエンティティ「店舗顧客情報」との間で重複する。そこで、エンティティ-属性名関係表生成部21は、属性名「氏名」「住所」「電話番号」を1つに集約した、エンティティ-属性名関係表T1を生成する。
そして、エンティティ-属性名関係表生成部21は、AsIsスキーマSa1におけるエンティティと属性名との間の対応関係を、エンティティ-属性名関係表T1に白丸で記載する。属性名「氏名」「住所」「電話番号」は、1つに集約されている。したがって、属性名「氏名」「住所」「電話番号」は、エンティティ「注文」及びエンティティ「店舗顧客情報」とそれぞれ対応関係を有する。
[具体例:図9の工程S12]
図9のフローチャート図で説明したとおり、続いて、属性名抽出部22は、工程S11で生成したエンティティ-属性名関係表T1からエンティティをすべて消去する(S12)。具体的に、属性名抽出部22は、図10のエンティティ-属性名関係表T1のエンティティを消去すると共に、エンティティ-属性名関係表T1におけるエンティティと属性名との対応関係を消去することによって、重複のない属性名の一覧を取得する。
図11は、図9の工程S12によって生成される属性名の一覧の一例を示す図である。図11の属性名の一覧は、図10のエンティティ-属性名関係表T2が有する重複のない属性名群を示す。既存の教材販売システムのデータ体系を準直交化の対象とする場合、AsIsスキーマが有する各属性名はそれぞれ、実データを有する。したがって、属性名抽出部22は、準直交化に当たり、属性名を減少させない。一方、AsIsスキーマが有するエンティティは、不足しているエンティティや不要なエンティティを含む。したがって、属性名抽出部22は、属性名を残存させると共に、エンティティ-属性名関係表T2から、エンティティ、及び、属性名とエンティティとの対応関係を消去する。
図12は、図11に示す属性名の一覧を関連図に基づいて説明する図である。図12に示す属性名群は、図2に示す関連図Pa1からエンティティEmを取り除いた属性名Esの一覧である。それぞれの属性名Esは、エンティティEmとの対応関係を有していない。そして、次に、エンティティ候補抽出部23は、図12の属性名Esに基づいて、新たなエンティティ候補を抽出する。
[具体例:図9の工程S13]
図9のフローチャート図で説明したとおり、次に、エンティティ候補抽出部23は、属性名とエンティティ候補の間の関連度を用いて、属性名の一覧に基づいて、属性名に対応するエンティティ候補を推察し追加する(S13)。具体的に、エンティティ候補抽出部23は、予め用意された属性名-エンティティ候補関連度表H1を参照して、各属性名について、所定以上の関連度を有する、当該属性名に対応する1つまたは複数のエンティティの候補との対応関係を抽出する。前述したとおり、属性名-エンティティ候補関連度表H1におけるエンティティ候補は任意の候補である。また、本実施の形態例において、関連度は、例えば、属性名とエンティティ候補との共起使用頻度、属性名とエンティティ候補の類似度のいずれかまたは両方に基づいて取得される。
図13は、本実施の形態例における属性名-エンティティ候補関連度表H1の一例を示す図である。具体的に、図13の属性名-エンティティ候補関連度表H1は、属性名とエンティティ候補との共起使用頻度に基づいて生成された関連度表の一例である。図13の属性名-エンティティ候補関連度表H1は、例えば、「*の‘属性名’」を検索キーワードとしてWeb上の検索エンジンを用いて検索したときのヒット数に基づいて生成される。「*の‘属性名’」の*(アスタリスク)は、エンティティ候補を示すワイルドカードである。例えば、属性名が注文年月日である場合、検索キーワードは「*の注文年月日」となる。Web上の検索エンジンによって、検索キーワード「*の注文年月日」を検索したときの検索ヒット数に基づいて、任意のエンティティ候補が抽出されると共に、抽出された各エンティティ候補と属性名「注文年月日」とが関連を持って使用されるWebページ数、即ち、使用頻度が検出可能になる。
なお、図13の属性名-エンティティ候補関連度表H1の共起使用頻度は、Web上の検索エンジンを用いて検索した場合のヒット数に基づいて取得されるが、共起使用頻度は、市販の共起頻度辞書に基づいて取得されてもよい。また、属性名-エンティティ候補関連度表H1における関連度は、属性名とエンティティ候補との類似度に基づいていてもよい。属性名とエンティティ候補との類似度は、例えば、市販のシソーラス辞典等に基づいて取得される。
図14は、図9の工程S13によって更新されるエンティティ-属性名関係表T3の一例を示す図である。図14に示すエンティティ-属性名関係表T3における属性名は、工程S12によって取得された属性名に対応する。また、図14に示すエンティティ-属性名関係表T3は、エンティティ候補として例えば、「注文」「商品」「顧客」「購入者」「学校」を例示しているが、実際には、エンティティ候補は膨大な数となる。
エンティティ候補抽出部23は、属性名各々について、図13に例示した属性名-エンティティ候補関連度表H1を参照し、エンティティ-属性名関係表T3における属性名が一致する行を検索する。そして、エンティティ候補抽出部23は、属性名と関連度(図13の例では共起使用頻度)が高いエンティティをエンティティ候補として、エンティティ-属性名関係表T3に追記し、属性名とエンティティ候補とが対応関係を有することを示す白丸をエンティティ-属性名関係表T3に記載する。エンティティ候補抽出部23は、例えば、関連度が所定の基準値以上であるといった絶対的な指標や、全てのエンティティ候補の関連度における平均値以上や最大関連度における所定の割合といった相対的な指標等に基づいて、エンティティ候補を抽出する。または、エンティティ候補抽出部23は、各属性名について、関連度が上位から所定個のエンティティ候補を抽出してもよい。
図14の例において、エンティティ候補抽出部23は、属性名「注文年月日」について、図13に例示した属性名-エンティティ候補関連度表H1に基づいて、エンティティ候補「注文」「商品」等の多量のエンティティ候補からエンティティ候補「注文」を取得する。そして、エンティティ候補抽出部23は、図14のエンティティ-属性名関係表T3の属性名「注文年月日」とエンティティ候補「注文」との対応関係に白丸を付与する。同様にして、エンティティ候補抽出部23は、例えば、属性名「住所」について、図13に例示した属性名-エンティティ候補関連度表H1に基づいて、エンティティ候補「顧客」「購入者」「学校」等の多量のエンティティ候補から、エンティティ候補「顧客」「購入者」「学校」を取得する。そして、エンティティ候補抽出部23は、図14のエンティティ-属性名関係表T3の属性名「住所」とエンティティ候補「顧客」「購入者」「学校」との各対応関係に白丸を付与する。他の属性名についても同様である。
図13及び図14で説明したように、関連度が共起使用頻度または類似度のいずれか両方に基づいて取得されることにより、客観的な情報に基づいた関連度が取得可能になる。また、エンティティ候補抽出部23は、属性名と所定以上の関連度を有するエンティティ候補を抽出することによって、ユーザがエンティティ候補を提示する場合に対して、客観的な情報である関連度に基づいて、より適切なエンティティ候補を網羅的に抽出することができる。したがって、エンティティ候補抽出部23は、エンティティの不足を補うことができる。
図9の工程S13によって、エンティティ候補抽出部23は、属性名各々について、当該属性名と関連度が高い1つまたは複数のエンティティ候補との対応関係を抽出する。抽出したエンティティ候補は、ToBeスキーマStのデータ体系におけるエンティティの候補である。
[具体例:図9の工程S14]
次に、エンティティ候補群抽出部24は、対応関係を有する属性名の集合が全ての属性名を含むエンティティ候補群のうち、エンティティ候補の数が最少となるエンティティ候補群(エンティティ候補の組み合わせ)を抽出する(S14)。具体的に、エンティティ候補群抽出部24は、対応関係を有する属性名の集合が、エンティティ-属性名関係表T3の属性名の一覧(注文年月日、氏名、年齢、住所、学区、電話番号、FAX、商品番号、数量、商品名、単価)と一致する最少数のエンティティ候補の組み合わせを抽出する。エンティティ候補の数が小さい程、エンティティ候補間の類似度の総和が小さくなり、互いに独立な概念を有することが想定される。なお、抽出されるエンティティ候補群の各エンティティ候補は、互いに、対応関係を有する属性名が重複してもよい。
図15は、図9の工程S14によって抽出される2つのエンティティ候補群の例をそれぞれ示すエンティティ-属性名関係表T4−1、T4−2を示す図である。図15は、第1のエンティティ候補群(A)を有するエンティティ-属性名関係表T4−1と第2のエンティティ候補群(B)を有するエンティティ-属性名関係表T4−2を有する。
エンティティ-属性名関係表T4−1に示す第1のエンティティ候補群(A)は、エンティティ候補「a:注文」「b:商品」「c:顧客」「e:学校」を有する。また、第1のエンティティ候補群(A)のエンティティ候補「a:注文」「b:商品」「c:顧客」「e:学校」が対応関係を有する属性名の集合(注文年月日、氏名、年齢、住所、学区、電話番号、FAX、商品番号、数量、商品名、単価)は、図9の工程S13によって生成されたエンティティ-属性名関係表T3が有する属性名の一覧と一致する。即ち、第1のエンティティ候補群(A)は、対応関係を有する属性名の集合が全ての属性名を含み、エンティティ候補の数が最少となるエンティティ候補群に該当する。
また、エンティティ-属性名関係表T4−2に示す第2のエンティティ候補群(B)は、エンティティ候補「a:注文」「b:商品」「d:購入者」「e:学校」を有する。また、第2のエンティティ候補群(B)のエンティティ候補「a:注文」「b:商品」「d:購入者」「e:学校」が対応関係を有する属性名の集合(注文年月日、氏名、年齢、住所、学区、電話番号、FAX、商品番号、数量、商品名、単価)は、図9の工程S13によって生成されたエンティティ-属性名関係表が有する属性名の一覧と一致する。即ち、第2のエンティティ候補群(B)は、対応関係を有する属性名の集合が全ての属性名を含み、エンティティ候補の数が最少となるエンティティ候補群に該当する。
エンティティ候補群抽出部24は、最少のエンティティ候補を有するエンティティ候補群を選択することによって、再構成後のデータ体系が膨大になることを回避すると共に、互いに独立した概念を有するエンティティ候補群を取得する。エンティティ候補群抽出部24は、エンティティ候補群を複数(この例では、エンティティ候補群(A)(B))抽出し得る。
図16は、図15に示すエンティティ候補群を関連図に基づいて説明する図である。図16は、図15で説明したエンティティ-属性名関係表T4−1、T4−2に対応する関連図P4−1、P4−2を示す。関連図P4−1、P4−2は、それぞれ、属性名Esとエンティティ候補群の各エンティティ候補と対応関係を有する。図16によると、工程S14の過程において、属性名Esの一部は、複数のエンティティ候補Emと対応関係を有する。
[具体例:図9の工程S15]
次に、エンティティ候補群選択部25は、工程S14によって抽出したエンティティ候補群(A)(B)から、各エンティティ候補群におけるエンティティ候補間の関連度を用いて、エンティティ候補群のエンティティ候補間の関連度の総和が最大になるエンティティ候補群を選択する(S15)。具体的に、エンティティ候補群選択部25は、エンティティ候補間関連度表H2を参照して、エンティティ候補群(A)(B)のうち、エンティティ候補間の関連度がより高いエンティティ候補群を選択する。
本実施の形態例において、エンティティ候補間の関連度は、例えば、エンティティ候補間の共起使用頻度、エンティティ候補間の類似度のいずれかまたは両方に基づいて取得される。エンティティ候補間の関連度が共起使用頻度または類似度のいずれか両方に基づいて取得されることにより、客観的な情報に基づいたエンティティ候補間の関連度が取得可能になる。
同一の特定の業務内で使用されるエンティティ候補群の各エンティティ候補は、それぞれ独立した概念を有するものの、関連度は高いことが想定される。したがって、エンティティ候補群選択部25は、エンティティ候補間の関連度がより高いエンティティ候補群を選択することによって、客観的な情報である関連度に基づいて、より適切なエンティティ候補群を選択することができる。
図17は、本実施の形態例におけるエンティティ候補間関連度表H2の一例を示す図である。具体的に、図17のエンティティ候補間関連度表H2は、エンティティ候補間の共起使用頻度に基づいて生成された関連度表の一例である。図17のエンティティ候補間関連度表H2は、例えば、「‘第1のエンティティ候補’ ‘第2のエンティティ候補’」を検索キーワードとしてWeb上の検索エンジンを用いて検索したときのヒット数に基づいて生成される。例えば、第1のエンティティ候補が「注文」であって、第2のエンティティ候補が「商品」である場合、検索キーワードは「注文 商品」となる。Web上の検索エンジンによって、検索キーワード「注文 商品」を検索したときの検索ヒット数に基づいて、エンティティ候補「注文」とエンティティ候補「商品」とが同時に使用されるWebページの数、即ち、使用頻度が検出可能になる。
なお、図17のエンティティ候補間関連度表H2の共起使用頻度は、Web上の検索エンジンを用いて検索した場合のヒット数に基づいて取得されるが、共起使用頻度は、市販の共起頻度辞書に基づいて取得されてもよい。また、エンティティ候補間関連度表H2における関連度は、エンティティ候補間の類似度に基づいていてもよい。エンティティ候補間の類似度は、例えば、市販のシソーラス辞典等に基づいて取得される。
エンティティ候補群選択部25は、図17に例示したエンティティ候補間関連度表H2を参照して、エンティティ候補群(A)(B)それぞれについて、エンティティ候補群が有するエンティティ候補間の相互の関係における各関連度(図17の例では使用頻度)を取得する。そして、エンティティ候補群選択部25は、エンティティ候補群(A)(B)それぞれについて、エンティティ候補群が有するエンティティ候補相互の関係の各関連度の合計を算出する。図17のエンティティ候補間関連度表H2に基づく場合、エンティティ候補群(A)における関連度の合計は、エンティティ候補群(B)における関連度の合計よりも大きい。したがって、エンティティ候補群選択部25は、工程S15によって、エンティティ候補群(A)を選択する。
[具体例:図9の工程S16]
次に、対応関係選択部26は、複数のエンティティ候補と重複して対応関係を有する属性名について、重複した前記対応関係を減少させる(S16)。具体的に、対応関係選択部26は、複数のエンティティ候補と対応関係を有する属性名各々について、図13に示した属性名-エンティティ候補関連度表H1を参照し、対応するエンティティ候補との間の関連度が高い、即ち、同一の特定の業務内で使用される度合いがより高い対応関係を選択する。同一の特定の業務内で使用されるエンティティ候補と属性名との関連度は高いことが想定される。
図18は、属性名とエンティティ候補との対応関係の選択処理(図9のS16)を説明する図である。図18のエンティティ-属性名関係表T4−1は、図15のエンティティ-属性名関係表T4−1と同一である。エンティティ-属性名関係表T4−1において、例えば、属性名「住所」は、エンティティ候補「顧客」及びエンティティ候補「学校」と対応関係を有する。即ち、属性名「住所」は、複数のエンティティ候補と重複して対応関係を有する。図13に示す属性名-エンティティ候補関連度表H1によると、属性名「住所」とエンティティ候補「顧客」の使用頻度は、属性名「住所」とエンティティ候補「学校」の使用頻度より大きい。したがって、対応関係選択部26は、属性名「住所」とエンティティ候補「顧客」との対応関係と、属性名「住所」とエンティティ候補「学校」との対応関係のうち、属性名「住所」とエンティティ候補「顧客」との対応関係を選択する。対応関係選択部26は、エンティティ-属性名関係表T5における、属性名「住所」とエンティティ候補「学校」との対応関係を示す白丸x1を除去する。
また、図18のエンティティ-属性名関係表T4−1において、例えば、属性名「商品番号」も、エンティティ候補「注文」及びエンティティ候補「商品」と対応関係を有し、複数のエンティティ候補と重複して対応関係を有する。図13に示す属性名-エンティティ候補関連度表H1によると、属性名「商品番号」とエンティティ候補「注文」の使用頻度は、属性名「商品番号」とエンティティ候補「商品」の使用頻度より小さい。したがって、対応関係選択部26は、属性名「商品番号」とエンティティ候補「商品」を選択し、エンティティ-属性名関係表T5における、属性名「商品番号」とエンティティ候補「注文」との対応関係を示す白丸x2を除去する。対応関係選択部26は、エンティティ-属性名関係表T4−1において重複した対応関係を有する他の属性名(例えば、電話番号、FAX、数量)の対応関係についても同様に処理する。
図18に示すように、対応関係選択部26は、エンティティ候補間における、属性名との対応関係の重複を除去する(S16)。対応関係選択部26は、属性名とエンティティ候補との関連度が最大の対応関係を選択することによって、客観的な情報である関連度に基づいて、より適切な属性名とエンティティ候補との対応関係を選択することができる。また、対応関係選択部26は、工程S16の処理の結果、それぞれ異なる属性名群と対応関係を有するエンティティ候補群、即ち、互いに同一の属性名と対応関係を有しないエンティティ候補群を取得する。
図19は、属性名とエンティティ候補との対応関係の選択処理を関連図に基づいて説明する図である。図19は、図16に示す関連図P4−1に対して、属性名「商品番号」「数量」「電話番号」「FAX」「住所」Esそれぞれが、最も関連度の大きい1つのエンティティ候補Emとのみ対応関係を有する。図19において、破線は、除去された対応関係を示す。
[具体例:図9の工程S17]
次に、ToBeスキーマ出力部27は、工程S11〜S16によって取得したエンティティ候補と属性名との対応関係をToBeスキーマに出力する(S17)。具体的に、ToBeスキーマ出力部27は、図14のエンティティ-属性名関係表T5のエンティティ候補及び属性名を、ToBeスキーマのエンティティ及び属性名にそれぞれに記載する。
図20は、図9の工程S17によって出力されたToBeスキーマStxのデータ体系を説明する図である。図18のエンティティ-属性名関係表T5は、エンティティ候補「注文」として、属性名「注文年月日」「数量」と対応関係を有する。また、エンティティ候補「商品」は、属性名「商品番号」「商品名」「単価」と対応関係を有する。また、エンティティ候補「顧客」は、属性名「氏名」「年齢」「住所」「電話番号」「FAX」と対応関係を有する。また、エンティティ候補「学校」は、属性名「学区」と対応関係を有する。したがって、図20のToBeスキーマStxのデータ体系も、図18のエンティティ-属性名関係表T5と同様のエンティティと属性名、及び、エンティティと属性名との対応関係を有する。
図20に示すように、ToBeスキーマStxは、互いに同一の属性名と対応関係を有しておらず、互いに独立した概念を有するエンティティ「注文」「商品」「顧客」を有する。したがって、DB再構成装置10は、工程S11〜S16によって、図2に示すAsIsスキーマSt1のデータ体系を準直交化したToBeスキーマStxを生成することができる。続く、工程S18の処理は、DBの再構成における補足的な工程を示す。
[具体例:図9の工程S18]
続いて、ユーザは、例えば、人手によってエンティティ間の参照関係等を補う(S18)。具体的に、ToBeスキーマの各エンティティが、当該エンティティのデータを一意に特定可能な識別情報を有しない場合、ユーザは、エンティティに「○○ID」や「○○番号」等の識別情報の属性名を追加する。また、ユーザは、エンティティの識別情報を用いてエンティティの間の参照関係を補足する。
図21は、ユーザによってエンティティ間の参照関係が補われたToBeスキーマSt2のデータ体系の例を示す図である。図21のToBeスキーマSt1は、図2のToBeスキーマSt1に対応する。なお、図21のToBeスキーマSt1のデータ体系において、中括弧([])で囲む属性名は、エンティティのデータを一意に特定する識別情報を示す属性名である。具体的に、エンティティ「注文」の属性名[注文番号]は、エンティティ「注文」の複数のデータを識別可能にする情報である。同様にして、エンティティ「顧客」の属性名[顧客番号]は、エンティティ「顧客」の複数のデータを識別可能にする識別情報である。
また、図21の例において、エンティティ「注文」は、エンティティ「商品」「顧客」のデータを参照する。したがって、エンティティ「注文」は、関連するエンティティ「商品」「顧客」のデータを一意に特定する属性名「商品番号」「顧客番号」を有する。同様にして、エンティティ「顧客」は、エンティティ「学校」のデータを参照するため、関連するエンティティ「学校」のデータを一意に特定する属性名「学校番号」を有する。
工程S18によって、スキーマに基づいて準直交化されたデータ体系が調整される。なお、本実施の形態例におけるDBの再構成処理(図9のS11〜S18)は、エンティティ間で属性名が循環しているデータ体系に対しても有効である。
図22は、エンティティ間の参照関係が補われたToBeスキーマSt2のデータ体系を関連図に基づいて説明する図である。図22に示す関連図は、図19に示す関連図に加えて、エンティティのデータを一意に特定する属性名「商品番号」「顧客番号」「学校番号」Esを有する。また、図22の関連図における点線は、他のエンティティからの参照関係を表す。
図23は、エンティティ間で属性名が循環するAsIsスキーマSaのデータ体系のエンティティ-属性名関係表T11、T12の一例を示す図である。図23は、AsIsスキーマSaに基づくエンティティ-属性名関係表T11と、エンティティを削除したエンティティ-属性名関係表T12の例を有する。
具体的に、図23のエンティティ-属性名関係表T11によると、エンティティ「注文」「商品」「顧客」を有する。また、エンティティ-属性名関係表T11によると、エンティティ「注文」は属性名「注文番号」に加えて、属性名「商品番号」「顧客番号」を有する。また、エンティティ「商品」は、属性名「商品番号」に加えて、属性名「注文番号」を有する。即ち、エンティティ「注文」「商品」は、相互に識別番号を有する。したがって、例えば、ある注文Aにおける、エンティティ「注文」が参照するエンティティ「商品」の属性名「注文番号」が、別の注文Bの注文番号を示す場合、エンティティの間で属性名が循環する。
本実施の形態例におけるDBの再構成方法によると、まず、エンティティ-属性名関係表生成部21は、AsIsスキーマSaからエンティティ及び属性名を抽出し、複数のエンティティの間で重複する属性名がある場合、1つの属性名のみを、図23に示すエンティティ-属性名関係表T12に記載する(図9のS11)。したがって、図23のエンティティ-属性名関係表T12は、重複のない属性名の一覧を有する。つまり、エンティティ-属性名関係表T生成部21は、エンティティ間で属性名が循環する場合であっても、エンティティ-属性名関係表T11からエンティティを削除し、属性名の重複を除外するため、重複のない属性名の一覧(エンティティ-属性名関係表T12)を取得することができる。そして、本実施の形態例におけるDBの再構成方法によると、属性名に基づいてエンティティの過不足を補うことが可能になる。したがって、本実施の形態例におけるDBの再構成方法は、エンティティ間で属性名が循環しているデータ体系に対しても適用可能である。
以上のように、本実施の形態例におけるDBの再構成方法では、複数のDBのいずれかに含まれる属性名、及び、属性名とエンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出し、抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、エンティティ候補の組を構成するエンティティ候補がいずれかの属性名と対応関係を有することによってすべての属性名と対応関係を有し、構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する。また、DBの再構成方法では、特定された複数のエンティティ候補の組のうち、エンティティ間の関連度に関する第2の情報に基づいて、エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する。そして、DBの再構成方法では、複数の属性名それぞれを、第1の情報に基づいて、エンティティ候補の組を構成するエンティティ候補のいずれかと対応関係を有するように割り当てる。
本実施の形態例におけるDBの再構成方法によると、DBが有する複数の属性名の情報に基づいて、互いに同一の属性名を持たず、かつ、独立した概念を有するエンティティの組み合わせを選択することが可能になる。つまり、本実施の形態例におけるDBの再構成方法によると、業務システムのスキーマのデータ体系に基づいた準直交化によるDBの再構成を自動化することが可能になる。したがって、業務システムの運用及び保守の工数の削減や品質の向上を図ることが可能になる。
また、本実施の形態例におけるDBの再構成方法によると、スキーマのデータ体系のみに基づくことにより、DBの実データ(属性値)やシステムの画面及び帳票の構成情報を要することなく、DBの再構成が可能となる。即ち、実データや画面等が使用できない場合であっても、スキーマのデータ体系に基づく自動的な準直交化が可能になると共に、既存のシステムの実データや画面等に関する機密性が保持される。また、本実施の形態例におけるDBの再構成方法によると、属性名の一覧を維持することにより、既存の実データに影響を与えることなくDBの再構成が可能になる。
また、本実施の形態例におけるDBの再構成方法によると、各属性名とエンティティ候補の間の関連度を用いて、現状の属性名に基づいてあるべきエンティティ候補を抽出することによって、エンティティの過不足を補足することが可能になる。また、関連度が最大となるエンティティ候補群を選択することにより、1つの特定の業務に関するエンティティ候補群の関連度は高いという想定のもと、同一の業務内で使用される度合いがより高いエンティティ候補群が選択可能になる。これにより、エンティティ候補群の冗長性がより適切に改善可能になる。
また、本実施の形態例におけるDBの再構成方法によると、最少のエンティティ候補を有するエンティティ候補群が選択されることによって、再構成後のデータ体系が膨大になることが回避される。また、エンティティ候補が少ない程、エンティティ候補間の類似度の総和が小さくなり、互いに独立な概念を有することが想定される。したがって、本実施の形態例におけるDBの再構成方法によると、互いに独立した概念を有するエンティティ候補群が選択可能になる。
また、本実施の形態例におけるDBの再構成方法には、入力となるデータ体系の仕様に制限がない。即ち、本実施の形態例におけるDBの再構成方法は、複数のDBに跨るデータ体系に対して有効であると共に、複数のDBをそれぞれ有する複数のシステムに跨るデータ体系に対しても有効である。
また、本実施の形態例におけるDBの再構成方法によると、複数のエンティティ候補を抽出した後、抽出した複数のエンティティ候補それぞれと、複数の属性名それぞれとの対応関係を有する対応関係情報を生成し、対応関係情報に基づいて、複数のエンティティ候補のうち複数のエンティティ候補の組を特定する。これにより、すべての属性名との対応関係を有するエンティティ候補の組が効率的に特定可能になる。
また、本実施の形態例におけるDBの再構成方法によると、エンティティ候補の組を特定した後、複数の属性名それぞれを、エンティティ候補の組に属するエンティティ候補のうち、第1の情報に基づく関連度が最大のエンティティ候補に割り当てる。したがって、1つの特定の業務に関する属性名とエンティティ候補との関連度は高いという想定のもと、関連度が最大となる属性名とエンティティ候補との対応関係を選択することによって、同一の業務内で使用される度合いがより高い対応関係が選択可能になる。これにより、より適切な対応関係が選択可能になる。
また、本実施の形態例におけるDBの再構成方法によると、属性名とエンティティとの関連度は、属性名とエンティティとの共起頻度、属性名とエンティティとの類似度のいずれかまたは両方に基づいて取得される。したがって、本実施の形態例におけるDBの再構成方法によると、関連度が共起使用頻度または類似度のいずれか両方に基づいて取得されることにより、客観的な情報に基づいた関連度が取得可能になる。また、属性名と所定以上の関連度を有するエンティティ候補を抽出することによって、ユーザがエンティティ候補を提示する場合に対して、客観的な情報に基づいたより適切なエンティティ候補が抽出可能になる。さらに、属性名とエンティティ候補との関連度が最大の対応関係を選択することによって、客観的な情報に基づいたより適切な属性名とエンティティ候補との対応関係が選択可能になる。
また、本実施の形態例におけるDBの再構成方法によると、エンティティ間の関連度は、エンティティと別のエンティティとの共起頻度、エンティティと別のエンティティとの類似度のいずれかまたは両方に基づいて取得される。したがって、関連度が共起使用頻度または類似度のいずれか両方に基づいて取得されることにより、客観的な情報に基づいたエンティティ候補間の関連度が取得可能になる。また、最大の関連度を有するエンティティ候補群を選択することによって、客観的な情報に基づいたより適切なエンティティ候補群の選択が可能になる。
以上の実施の形態をまとめると、次の付記のとおりである。
(付記1)
それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成方法であって、
複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出し、
前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定し、
前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定し、
前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかと対応関係を有するように割り当てることを特徴とするデータベースの再構成方法。
(付記2)
付記1において、
前記複数のエンティティ候補を抽出した後、前記抽出した前記複数のエンティティ候補それぞれと、前記複数の属性名それぞれとの対応関係を有する対応関係情報を生成し、前記対応関係情報に基づいて、前記複数のエンティティ候補の組を特定するデータベースの再構成方法。
(付記3)
付記1または2において、
前記エンティティ候補の組を特定した後、前記複数の属性名それぞれを、前記エンティティ候補の組に属する前記エンティティ候補のうち、前記第1の情報に基づく関連度が最大の前記エンティティ候補に割り当てるデータベースの再構成方法。
(付記4)
付記1乃至3のいずれかにおいて、
前記属性名と前記エンティティとの関連度は、前記属性名と前記エンティティとの共起頻度、前記属性名と前記エンティティとの類似度のいずれかまたは両方に基づいて取得されるデータベースの再構成方法。
(付記5)
付記1乃至4のいずれかにおいて、
前記エンティティ間の関連度は、前記エンティティと別の前記エンティティとの共起頻度、前記エンティティと前記別のエンティティとの類似度のいずれかまたは両方に基づいて取得されるデータベースの再構成方法。
(付記6)
それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成処理をコンピュータに実行させるコンピュータ読み取り可能なデータベースの再構成プログラムであって、
複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出する抽出工程と、
前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する第1の特定工程と、
前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する第2の特定工程と、
を前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかに割り当てる割り当て工程と、有することを特徴とするデータベースの再構成プログラム。
(付記7)
付記6において、
前記第1の特定工程は、前記抽出した前記複数のエンティティ候補それぞれと、前記複数の属性名それぞれとの対応関係を有する対応関係情報を生成し、前記対応関係情報に基づいて、前記複数のエンティティ候補の組を特定するデータベースの再構成プログラム。
(付記8)
付記6または7において、
前記第2の特定工程は、前記複数の属性名それぞれを、前記エンティティ候補の組に属する前記エンティティ候補のうち、前記第1の情報に基づく関連度が最大の前記エンティティ候補に割り当てるデータベースの再構成プログラム。
(付記9)
それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成装置であって、
複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出する抽出手段と、
前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する第1の特定手段と、
前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する第2の特定手段と、
を前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかに割り当てる割り当て手段と、有することを特徴とするデータベースの再構成装置。
(付記10)
付記9において、
前記第1の特定手段は、前記抽出した前記複数のエンティティ候補それぞれと、前記複数の属性名それぞれとの対応関係を有する対応関係情報を生成し、前記対応関係情報に基づいて、前記複数のエンティティ候補の組を特定するデータベースの再構成装置。
(付記11)
付記9または10において、
前記第2の特定手段は、前記複数の属性名それぞれを、前記エンティティ候補の組に属する前記エンティティ候補のうち、前記第1の情報に基づく関連度が最大の前記エンティティ候補に割り当てるデータベースの再構成装置。
10:DB再構成装置、11:入力装置、12:表示装置、13:通信インタフェース、14:プロセッサ、15:記憶媒体、16:メモリ、PR:DB再構成プログラム、Sa:AsIsスキーマ、St:ToBeスキーマ、H1:属性-エンティティ候補関連度表、H2:エンティティ候補間関連度表、21:エンティティ-属性関係表生成部、22:属性抽出部、23:エンティティ候補抽出部、24:エンティティ候補群抽出部、25:エンティティ候補群選択部、26:対応関係選択部、27:ToBeスキーマ出力部

Claims (7)

  1. それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成処理をコンピュータに実行させるコンピュータ読み取り可能なデータベースの再構成プログラムであって、
    複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出する抽出工程と
    前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する第1の特定工程と
    前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する第2の特定工程と
    前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかと対応関係を有するように割り当てる割り当て工程とを有することを特徴とするデータベースの再構成プログラム
  2. 請求項1において、
    前記複数のエンティティ候補を抽出した後、前記抽出した前記複数のエンティティ候補それぞれと、前記複数の属性名それぞれとの対応関係を有する対応関係情報を生成し、前記対応関係情報に基づいて、前記複数のエンティティ候補の組を特定するデータベースの再構成プログラム
  3. 請求項1または2において、
    前記エンティティ候補の組を特定した後、前記複数の属性名それぞれを、前記エンティティ候補の組に属する前記エンティティ候補のうち、前記第1の情報に基づく関連度が最大の前記エンティティ候補に割り当てるデータベースの再構成プログラム
  4. 請求項1乃至3のいずれかにおいて、
    前記属性名と前記エンティティとの関連度は、前記属性名と前記エンティティとの共起頻度、前記属性名と前記エンティティとの類似度のいずれかまたは両方に基づいて取得するデータベースの再構成プログラム
  5. 請求項1乃至4のいずれかにおいて、
    前記エンティティ間の関連度は、前記エンティティと別の前記エンティティとの共起頻度、前記エンティティと前記別のエンティティとの類似度のいずれかまたは両方に基づいて取得するデータベースの再構成プログラム
  6. それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成方法であって、
    プロセッサが、複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出
    前記プロセッサが、前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定
    前記プロセッサが、前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定
    前記プロセッサが、前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかに割り当てことを特徴とするデータベースの再構成方法
  7. それぞれが、複数の属性名と対応関係を有するエンティティを有する複数のデータベースの再構成装置であって、
    複数のデータベースのいずれかに含まれる前記属性名、及び、前記属性名と前記エンティティとの関連度に関する第1の情報に基づいて、複数のエンティティ候補を抽出する抽出手段と、
    前記抽出した複数のエンティティ候補によって構成されるエンティティ候補の組であって、前記エンティティ候補の組を構成する前記エンティティ候補がいずれかの前記属性名と対応関係を有することによってすべての前記属性名と対応関係を有し、前記構成するエンティティ候補の数が最少となるエンティティ候補の組を複数、特定する第1の特定手段と、
    前記特定された複数のエンティティ候補の組のうち、前記エンティティ間の関連度に関する第2の情報に基づいて、前記エンティティ候補の組に含まれるエンティティ候補間の関連度の総和が最大となるエンティティ候補の組を特定する第2の特定手段と、
    前記複数の属性名それぞれを、前記第1の情報に基づいて、前記エンティティ候補の組を構成する前記エンティティ候補のいずれかに割り当てる割り当て手段と、有することを特徴とするデータベースの再構成装置。
JP2014040291A 2014-03-03 2014-03-03 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置 Active JP6268435B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014040291A JP6268435B2 (ja) 2014-03-03 2014-03-03 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置
US14/612,749 US9881073B2 (en) 2014-03-03 2015-02-03 Method for reconfiguration of database, recording medium, and reconfiguration device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014040291A JP6268435B2 (ja) 2014-03-03 2014-03-03 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置

Publications (2)

Publication Number Publication Date
JP2015165366A JP2015165366A (ja) 2015-09-17
JP6268435B2 true JP6268435B2 (ja) 2018-01-31

Family

ID=54006865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014040291A Active JP6268435B2 (ja) 2014-03-03 2014-03-03 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置

Country Status (2)

Country Link
US (1) US9881073B2 (ja)
JP (1) JP6268435B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10585893B2 (en) * 2016-03-30 2020-03-10 International Business Machines Corporation Data processing
US11397715B2 (en) * 2019-07-31 2022-07-26 International Business Machines Corporation Defining indexing fields for matching data entities
CN110991183B (zh) * 2019-12-06 2023-07-04 北京百度网讯科技有限公司 问题的谓词确定方法、装置、设备及存储介质
US11531811B2 (en) * 2020-07-23 2022-12-20 Hitachi, Ltd. Method and system for extracting keywords from text
CN114399145B (zh) * 2021-12-02 2022-09-06 广州市城市规划勘测设计研究院 一种学区地块的调整方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249338A (ja) * 1995-03-08 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> データベース概念スキーマ統合支援装置
JPH09292981A (ja) 1996-04-26 1997-11-11 Mitsubishi Electric Corp オブジェクト指向システム分析設計支援装置およびオブジェクト指向システム分析設計支援方法
US5778375A (en) 1996-06-27 1998-07-07 Microsoft Corporation Database normalizing system
JP4580518B2 (ja) 1999-08-12 2010-11-17 慶和 白石 データベース設計システム
US7739270B2 (en) 2004-12-07 2010-06-15 Microsoft Corporation Entity-specific tuned searching
JP4859456B2 (ja) * 2005-12-27 2012-01-25 株式会社日立製作所 データスキーマのマッピングプログラム及び計算機システム
JP4855080B2 (ja) * 2006-01-13 2012-01-18 三菱電機株式会社 スキーマ統合支援装置、スキーマ統合支援装置のスキーマ統合支援方法およびスキーマ統合支援プログラム
US8150813B2 (en) * 2008-12-18 2012-04-03 International Business Machines Corporation Using relationships in candidate discovery
US8352460B2 (en) * 2010-03-29 2013-01-08 International Business Machines Corporation Multiple candidate selection in an entity resolution system
US8965848B2 (en) * 2011-08-24 2015-02-24 International Business Machines Corporation Entity resolution based on relationships to a common entity

Also Published As

Publication number Publication date
US20150248440A1 (en) 2015-09-03
US9881073B2 (en) 2018-01-30
JP2015165366A (ja) 2015-09-17

Similar Documents

Publication Publication Date Title
US11372935B2 (en) Automatically generating a website specific to an industry
CN110088749B (zh) 自动本体生成的方法、系统和介质
CN106796578B (zh) 知识自动化系统和方法以及存储器
CN109074383B (zh) 文档背景内可视化的文档搜索
US10579678B2 (en) Dynamic hierarchy generation based on graph data
JP6268435B2 (ja) データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置
JP2019512816A (ja) ページリソースの配置方法及び装置
CN107533453A (zh) 用于生成数据可视化应用的系统和方法
CN108027818A (zh) 基于图的查询
JP4911438B2 (ja) 操作監視装置
US11841836B2 (en) Target environment data seeding
US20110307243A1 (en) Multilingual runtime rendering of metadata
JP2015184723A (ja) 文書作成支援システム
CN109800147B (zh) 一种测试案例生成方法及终端设备
KR102153259B1 (ko) 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법
JP6280270B1 (ja) 内部取引判定装置、内部取引判定方法および内部取引判定プログラム
JP6974953B2 (ja) 集約データ作成装置、集約データ作成方法、及び、集約データ作成プログラム
CN111191057A (zh) 一种自定义检索方法、装置、电子设备及其存储介质
JP2018190383A (ja) 内部取引判定装置、内部取引判定方法および内部取引判定プログラム
US20240061824A1 (en) Target environment data seeding
JP6600368B2 (ja) データ変換装置、データ変換方法およびデータ変換プログラム
JP2009251769A (ja) クラス構造生成方法、クラス構造生成プログラムおよびクラス構造生成装置
JP6280268B1 (ja) データ集計装置、データ集計方法およびデータ集計プログラム
JP6280271B1 (ja) データ変換装置、データ変換方法およびデータ変換プログラム
JP5926672B2 (ja) 開発資産管理装置、開発支援方法及び開発支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171211

R150 Certificate of patent or registration of utility model

Ref document number: 6268435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150