JPH08249338A - Data base concept schemer integration support device - Google Patents

Data base concept schemer integration support device

Info

Publication number
JPH08249338A
JPH08249338A JP7048114A JP4811495A JPH08249338A JP H08249338 A JPH08249338 A JP H08249338A JP 7048114 A JP7048114 A JP 7048114A JP 4811495 A JP4811495 A JP 4811495A JP H08249338 A JPH08249338 A JP H08249338A
Authority
JP
Japan
Prior art keywords
schema
similarity
schemer
concept
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7048114A
Other languages
Japanese (ja)
Inventor
Gengo Suzuki
源吾 鈴木
Masashi Yamamuro
雅司 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7048114A priority Critical patent/JPH08249338A/en
Publication of JPH08249338A publication Critical patent/JPH08249338A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To provide a device which supports schemer integration that enables an integrated schemer designer to easily find a corresponding schemer element between object schemers and is troubled by neither classifications of a compli cated different variety nor respective coping methods. CONSTITUTION: Schemer information to be integrated is inputted and the attribute name of the inputted schemer is standardized according to a data item naming rule. It is converted into a concept graph and a term dictionary 107 which holds classification information on terms is used to find the similarity between both schemer elements of the schemer to be integrated. A user interface part 105 shows the calculated similarity between the schemer elements to the operator, and on the basis of the relation between the determined schemer elements, a schemer integration part 104 merges two concept graphs.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は,企業などの組織体で,
既存のデータベースに蓄積されたデータを横断的に利用
する際に必要となる複数のデータベースにまたがる統合
スキーマを作成する作業を支援する装置に関するもので
ある。
The present invention relates to an organization such as a company,
The present invention relates to an apparatus that supports the work of creating an integrated schema across a plurality of databases, which is required when using data accumulated in an existing database in a crosswise manner.

【0002】[0002]

【従来の技術】データベースの概念スキーマを統合する
場合,統合対象のスキーマを同一のデータモデルで表現
して(これを共通データモデルという),そのデータモ
デル上で統合作業を行う。
2. Description of the Related Art When integrating conceptual schemas of databases, the schemas to be integrated are represented by the same data model (this is called a common data model), and the integration work is performed on the data model.

【0003】従来,概念スキーマを表わすために一般的
に用いられている実体関連モデルを,そのまま共通デー
タモデルとして利用していた。実体関連モデルによるス
キーマ統合の場合には,同一の概念が異なるスキーマ表
現で表わされることがあるので,統合対象のスキーマ間
で対応する概念を見付け出す手続きが繁雑であることも
あり,スキーマ統合支援装置は開発されていなかった。
また,従来は,統合対象のスキーマ間の異種性(同一の
概念が異なる形で表現されている)の分類や,その各々
の場合の対処法の研究がなされるにとどまっていた。
Conventionally, the entity-relationship model generally used to represent the conceptual schema has been used as it is as a common data model. In the case of schema integration using the entity-relationship model, the same concept may be represented by different schema expressions, so the procedure of finding the corresponding concept between the integration target schemas may be complicated, and schema integration support The device has not been developed.
In the past, research on how to classify the heterogeneity (the same concept is expressed in different forms) between the schemas to be integrated and how to deal with each case has been done.

【0004】[0004]

【発明が解決しようとする課題】従来の実体関連モデル
によるスキーマ統合の場合には,同一の概念が,片方で
は実体型として,他方では属性として,といった具合
に,異なるスキーマ表現で表わされることがある。
In the conventional schema integration by the entity-relationship model, the same concept may be represented by different schema expressions, such as the entity type on the one hand and the attribute on the other hand. is there.

【0005】図2はこのことを示したものであり,入力
する実体関連モデルのスキーマの例を示したものであ
る。図2の201,202はそれぞれ統合対象となって
いるスキーマ(実体関連モデルで表わしてある)を表わ
す。通信回線の終端であるビルを表現するのに,図2の
スキーマ201では実体型「回線」の属性として(「起
点ビル」,「終点ビル」),図2のスキーマ202では
「サーキット」とは別の実体型として表現されている。
FIG. 2 shows this, and shows an example of the schema of the entity relation model to be input. Reference numerals 201 and 202 in FIG. 2 denote schemas (represented by entity-relationship models) to be integrated. To represent the building that is the end of the communication line, in the schema 201 of FIG. 2 the attributes of the actual type “line” (“starting building”, “end building”) are used, and in the schema 202 of FIG. It is expressed as another entity type.

【0006】従来の技術では,このような状況がスキー
マ間で存在する場合の対処法が用意されていただけで,
スキーマ201側の属性としての「起点ビル」と「終点
ビル」と,スキーマ202側の実体型としての「ビル」
が対応するスキーマ要素であることを,膨大なスキーマ
情報の中から探し出す具体的な方法がなかった。
[0006] In the conventional technology, only a method for coping with the case where such a situation exists between schemas is prepared.
"Starting building" and "end building" as attributes on the schema 201 side, and "building" as the entity type on the schema 202 side
There was no specific way to find out from the enormous amount of schema information that is a corresponding schema element.

【0007】スキーマ統合作業では,対象スキーマの間
で対応するスキーマ要素を探し出すのは,統合スキーマ
の設計者の総合的判断によって行われていた。スキーマ
の規模が大きくなると,このための手間は膨大であっ
た。
In the schema integration work, finding the corresponding schema element among the target schemas is performed by a comprehensive judgment of the designer of the integrated schema. As the scale of the schema became larger, the effort for this became enormous.

【0008】本発明の目的は,このような従来の課題を
解決し,統合スキーマ設計者が,容易に対応するスキー
マ要素を対象スキーマ間で見つけることができ,かつ,
繁雑な異種性の分類とそれぞれの対処法に煩わされるこ
となく,スキーマ統合を支援する装置を提供することで
ある。
An object of the present invention is to solve such a conventional problem so that an integrated schema designer can easily find a corresponding schema element between target schemas, and
It is to provide a device that supports schema integration without being bothered by complicated classification of heterogeneity and countermeasures for each.

【0009】[0009]

【課題を解決するための手段】本発明の上記目的は,以
下に説明するような装置によって達成される。すなわ
ち,統合対象のスキーマを共通データモデルとして概念
グラフに変換し,概念グラフの概念間の類似度を計算す
ることによって,対応スキーマ要素の候補を絞り込み,
統合スキーマ設計者に提示してやることで,作業の効率
を上げる装置である。
The above objects of the present invention are achieved by an apparatus as described below. That is, by converting the schema to be integrated into a concept graph as a common data model and calculating the similarity between concepts in the concept graph, candidates for corresponding schema elements are narrowed down,
It is a device that increases the efficiency of work by presenting it to the integrated schema designer.

【0010】図1は,本発明を実現する装置の構成例を
示す図である。この装置は,例えば図1に示すように,
統合対象のスキーマ情報を取り込むためのスキーマ情報
取り込み部100と,取り込んだスキーマの属性名をデ
ータ項目命名規則に従って,基本単語表106を用いて
標準化するデータ標準化部101と,スキーマを概念グ
ラフに変換するモデル変換部102と,統合対象スキー
マ双方のスキーマ要素間の類似度を求める類似度計算部
103と,計算したスキーマ要素の類似度を操作者に提
示し,操作者がそのスキーマ要素の関係を判断して確定
するためのユーザインタフェース部105と,二つの概
念グラフのマージを行うスキーマ統合部104とを備え
る。基本単語表106は,標準化を行う際に用いられ,
用語辞書107は,スキーマ要素の名称に使用される用
語の分類情報を保持し,類似度計算を行う際に用られ
る。
FIG. 1 is a diagram showing a configuration example of an apparatus for realizing the present invention. This device is, for example, as shown in FIG.
A schema information importing unit 100 for importing schema information to be integrated, a data standardizing unit 101 for standardizing attribute names of the imported schema according to a data item naming rule, and a schema to concept graph. The model conversion unit 102, the similarity calculation unit 103 that obtains the similarity between the schema elements of both the integration target schemas, and the calculated similarity of the schema elements are presented to the operator, and the operator shows the relationship between the schema elements. A user interface unit 105 for judging and confirming, and a schema integrating unit 104 for merging two concept graphs are provided. The basic word table 106 is used for standardization,
The term dictionary 107 holds classification information of terms used in the names of schema elements, and is used when calculating the degree of similarity.

【0011】[0011]

【作用】本発明により解決しようとする課題は,以下の
ように解決される。図3は本発明のスキーマ統合支援装
置を用いてスキーマ統合を行う手順の概略を示したもの
である。
The problem to be solved by the present invention is solved as follows. FIG. 3 shows an outline of a procedure for performing schema integration using the schema integration support device of the present invention.

【0012】データ標準化部101は,スキーマ情報取
り込み部100で取り込まれたスキーマ情報について,
属性名が標準化されているかどうかを判定し,標準化さ
れていればそのまま,標準化されていなければ名称の標
準化を行う。
The data standardization unit 101 uses the schema information acquired by the schema information acquisition unit 100 as follows.
Whether or not the attribute name is standardized is determined, and if standardized, the name is standardized. If not standardized, the standardized name is standardized.

【0013】図4は図2の実体関連図で表わされるスキ
ーマ情報について,属性名についてのデータ標準化を行
ったものである。例えば図2のスキーマ201について
「起点ビル」は「起点_ビル_名」に変更されている。
次に,この実体関連図を概念グラフに変換する。変換の
ための規則は図5および図6による。
FIG. 4 is a data standardization of the attribute name of the schema information represented in the entity relation diagram of FIG. For example, in the schema 201 of FIG. 2, “starting point building” is changed to “starting point_building_name”.
Next, this entity relationship diagram is converted into a conceptual graph. The rules for conversion are according to FIGS. 5 and 6.

【0014】図7のスキーマ701は,図2のスキーマ
201の実体関連図を概念グラフに変換した結果を示
す。同様に,図7のスキーマ702は,図2のスキーマ
202の実体関連図をデータ標準化し,概念グラフに変
換した結果を示す。
A schema 701 of FIG. 7 shows a result of converting the entity relation diagram of the schema 201 of FIG. 2 into a concept graph. Similarly, the schema 702 of FIG. 7 shows the result of data standardization of the entity relation diagram of the schema 202 of FIG. 2 and conversion into a concept graph.

【0015】次に,スキーマ要素間の類似度を類似度計
算部103で計算する。まず,図3に示す名称類似度計
算322で「概念」間の類似度計算を,名称の類似度に
従って行う。この際,用語辞書107を用いて類似度を
計算する。
Next, the similarity calculation unit 103 calculates the similarity between the schema elements. First, the name similarity calculation 322 shown in FIG. 3 calculates the similarity between “concepts” according to the name similarity. At this time, the term dictionary 107 is used to calculate the degree of similarity.

【0016】名称の類似度のみで,完全に同一であると
は限らないので,次に各「概念」の周辺情報を加味した
類似度を,図3に示す周辺類似度計算323で計算す
る。この周辺類似度計算323の計算を,図7のスキー
マ701と図7のスキーマ702の二つの概念グラフで
表わされたスキーマについて行う場合,このように概念
グラフに変換してスキーマを比較することで,従来の方
式では,「起点ビル」「終点ビル」と「ビル」といった
違いを考慮して計算しなければならなかったのに対し,
本方式においては単純な総当たり計算で,スキーマ要素
間の類似度を計算することができる。
Since the names are not the same in terms of similarity only, the similarity is calculated by the peripheral similarity calculation 323 shown in FIG. 3 with the peripheral information of each "concept" taken into consideration. When the calculation of the peripheral similarity calculation 323 is performed for the schemas represented by the two conceptual graphs of the schema 701 of FIG. 7 and the schema 702 of FIG. 7, the schemas are converted in this way and the schemas are compared. So, in the conventional method, the calculation had to be performed in consideration of the difference such as "starting building", "end building" and "building".
In this method, the similarity between schema elements can be calculated by a simple brute force calculation.

【0017】以上で計算したスキーマ要素間の類似度を
利用して,類似度の高いスキーマ要素の組を順にユーザ
インタフェース部105を通してスキーマ統合者に提示
する。これにより,スキーマ統合者は,容易に類似スキ
ーマ要素の候補を得ることができる。
Utilizing the similarity between the schema elements calculated above, a set of schema elements having a high similarity is sequentially presented to the schema integrator through the user interface unit 105. As a result, the schema integrator can easily obtain candidates for similar schema elements.

【0018】類似度の結果を元に,もし,スキーマに修
正が必要であれば修正し(スキーマ調整と呼ぶ。図3の
処理330),スキーマ統合部104を用いて概念グラ
フのマージを行う。後処理350として,必要に応じ
て,モデル変換部102を用いて,マージされた概念グ
ラフを実体関連モデルなどのモデルに変換する。
Based on the result of the degree of similarity, if the schema needs to be modified, it is modified (referred to as schema adjustment. Process 330 in FIG. 3), and the schema integration unit 104 is used to merge the concept graphs. As post-processing 350, the model conversion unit 102 is used to convert the merged concept graph into a model such as an entity-relationship model, if necessary.

【0019】以上により,本発明の課題が解決される。The problems of the present invention are solved by the above.

【0020】[0020]

【実施例】図3に本発明の装置を用いたスキーマ統合作
業のフローを示す。図3において,300はデータ標準
化の前処理,310はモデル変換の処理,320はスキ
ーマ比較の処理を表わす。スキーマ比較の処理320
は,名称類似度計算322,周辺類似度計算323およ
びそれらからトータルな類似度計算を行う処理324を
含む比較対象スキーマ要素の発見のための処理321と
一致性の確定処理325からなる。330はスキーマ調
整の処理,340はスキーママージの処理,350はモ
デルの変換等の後処理を表わす。
FIG. 3 shows a flow of schema integration work using the apparatus of the present invention. In FIG. 3, reference numeral 300 represents preprocessing for data standardization, 310 represents model conversion processing, and 320 represents schema comparison processing. Schema comparison process 320
Includes a name similarity calculation 322, a marginal similarity calculation 323, and a process 321 for finding a comparison target schema element including a process 324 for performing a total similarity calculation from them and a matching determination process 325. Reference numeral 330 represents schema adjustment processing, 340 represents schema merge processing, and 350 represents post-processing such as model conversion.

【0021】データ標準化部101がデータの標準化を
行う。データ標準化部101は,特開平4−21518
2号公報の「データ名付与登録装置」に示されているよ
うな「基本単語表」(基本単語表106)を用い,デー
タ項目名に含まれる基本単語のマッチングを行い,含ま
れる修飾語,主要語,区分語を発見し,修飾語+主要語
+区分語の標準形にする。もし,区分語が欠けている場
合には,そのデータ項目のデータ型や値の例から,区分
語を推定し付加する。主要語・区分語両方とも欠けてい
る場合には,それ全体を主要語とみなし,区分語が欠け
ている場合と同様の方法で,区分語の付加を行う。
The data standardization unit 101 standardizes data. The data standardization unit 101 is described in JP-A-4-21518.
Using the "basic word table" (basic word table 106) as shown in "Data name assignment registration device" of Japanese Patent Publication No. 2), the basic words included in the data item name are matched, the modifiers included, Discover the main word and the demarcation word and make them the standard form of modifier + main word + demarcation word. If the classifier is missing, the classifier is estimated and added from the data type and value example of the data item. If both the main word and the segment word are missing, the entire word is regarded as the main word, and the segment word is added in the same manner as when the segment word is missing.

【0022】モデル変換部102は,名称が標準化され
た実体関連モデル(ERモデル)を図5,図6に示すル
ールを用いて,概念グラフに変換する。図5および図6
において,Eは実体型,Rは関連,Mは修飾語,Pは主
要語,Cは区分語を表わしている。変換された結果を図
7に示す。
The model conversion unit 102 converts an entity-relationship model (ER model) whose name is standardized into a concept graph using the rules shown in FIGS. 5 and 6
In E, E is an entity type, R is a relation, M is a modifier, P is a main word, and C is a classifier. The converted result is shown in FIG.

【0023】次に,類似度の計算を行う。図6によると
概念名のパターンとしては,「E」「P」「P_C」の
3つの場合がある。よって,概念名の名称類似度を求め
る場合,以下の3通りがある。
Next, the similarity is calculated. According to FIG. 6, there are three patterns of concept names, "E", "P", and "P_C". Therefore, when obtaining the name similarity of the concept name, there are the following three ways.

【0024】(1)概念名が両方とも分解していない場
合(つまり,「E」対「E」,「P」対「P」,「E」
対「P」の場合)。 (2)概念名が両方とも分解している場合(つまり,
「P_C」対「P_C」の場合)。
(1) When both concept names are not decomposed (that is, "E" vs. "E", "P" vs. "P", "E")
Pair "P"). (2) When both concept names are decomposed (that is,
"P_C" vs. "P_C").

【0025】(3)概念名の一方が分解してなく,もう
一方が分解している場合(つまり,「P」対「P_
C」,「E」対「P_C」の場合)。 ここで,(3)の場合には,図6により「P_C」と常
にペアで,必ず「P」という概念が存在する(図6(b)
の場合には,Pが存在しないように一見見えるが,P=
EであるからPは存在する)。よって,「P」対「P_
C」,「E」対「P_C」は類似しているとみなす必要
はない。よってこの組み合わせに対しては,類似度を0
とする。以下に(1)と(2)の場合について名称類似
度の計算法を述べる。
(3) When one of the concept names is not decomposed and the other is decomposed (that is, "P" vs. "P_"
C "," E "vs." P_C "). Here, in the case of (3), there is always a concept of "P" always in pair with "P_C" according to Fig. 6 (Fig. 6 (b)).
, It seems that P does not exist, but P =
Since it is E, there exists P). Therefore, "P" vs. "P_
"C", "E" vs. "P_C" need not be considered similar. Therefore, the similarity is 0 for this combination.
And The calculation method of the name similarity will be described below for the cases (1) and (2).

【0026】(1)概念名が分解していない場合 その語について,類似か否かを,特開平4−21518
2号公報の「データ名付与登録装置」にある「標準語対
応表」で同じ標準語に対応する語になっているか否かで
点数をつける。
(1) When the concept name is not decomposed Whether the words are similar or not is disclosed in Japanese Patent Laid-Open No. 21518/1992.
A score is given depending on whether or not the words correspond to the same standard word in the "standard word correspondence table" in the "data name assignment registration device" of the publication No. 2.

【0027】具体的には,図8のアルゴリズムを用い
る。比較する二つの概念名を入力し(S10),それら
に対応する標準名を検索する(S11,S14)。二つ
の概念名の両方に対応する標準名があって,かつそれら
が等しければ,名称類似度は1(最大値)に設定される
(S18)。それらが等しくなければ,それらは全く別
のものであるので,0(最小値)に設定される(S1
9)。一方しか標準名が存在しない場合,および,どち
らも標準名が存在しない場合には,部分列マッチングな
どの手法を用いて,類似度を求める(S20)。
Specifically, the algorithm shown in FIG. 8 is used. Two concept names to be compared are input (S10), and standard names corresponding to them are searched (S11, S14). If there is a standard name corresponding to both two concept names and they are equal, the name similarity is set to 1 (maximum value) (S18). If they are not equal, they are completely different and are set to 0 (minimum value) (S1
9). If only one standard name does not exist, or if neither standard name exists, the degree of similarity is obtained using a technique such as subsequence matching (S20).

【0028】このアルゴリズムを適用した例を図9に示
す。概念名「ビル」と「ビルディング」は,標準語対応
表から標準名として両方「ビル」が見つかるので類似度
が1となる。これに対し,「回線」と「サーキット」
は,標準名が片方しか見つからず,部分列マッチングも
ないので,類似度は0となる。
An example of applying this algorithm is shown in FIG. The concept names “building” and “building” are both found as standard names in the standard word correspondence table, so the similarity is 1. On the other hand, "line" and "circuit"
Has a similarity of 0 because only one standard name is found and there is no substring matching.

【0029】(2)概念名が分解している場合 文献“関根,川下,町原,中川:体系的なDB構築のた
めの用語辞書を用いたデータ標準化手法,情報処理学会
論文誌第34巻第3号(1993)”にある「類似デー
タ項目分類機能」を用いて,同じ分類になるか否かで点
数をつける。
(2) When concept names are decomposed Reference "Sekine, Kawashita, Machihara, Nakagawa: Data standardization method using terminology dictionary for systematic DB construction, IPSJ Transactions Vol. 34" The "similar data item classification function" in "No. 3 (1993)" is used to give a score depending on whether or not they are in the same classification.

【0030】具体的には図10のように行う。比較する
二つの概念名を入力し(S30),区分語が等しいかど
うか(S31,S32),主要語が等しいかどうか(S
33,S34,S37,S38)を判定し,両方等しい
ものには,類似度として1を設定する(S35)。区分
語のみが等しい場合には,類似度として中間の類似度N
2を設定する(S36)。一方,主要語のみが等しい場
合には,区分語のみが等しい場合に比べて,高い類似度
N1を設定する(S39)。両方等しくない場合には,
最も低い類似度N3を設定する。完全に等しくない語の
類似度は,部分列マッチングなどの手法を用いて,計算
される。
Specifically, this is performed as shown in FIG. Two concept names to be compared are input (S30), whether the section words are the same (S31, S32), and whether the main words are the same (S
33, S34, S37, S38), and if both are equal, 1 is set as the similarity (S35). If only the classifiers are equal, the intermediate similarity N is calculated as the similarity.
2 is set (S36). On the other hand, when only the main words are equal, a higher degree of similarity N1 is set as compared with the case where only the segment words are equal (S39). If both are not equal,
The lowest similarity N3 is set. The degree of similarity between words that are not completely equal is calculated using a technique such as subsequence matching.

【0031】このアルゴリズムを適用した例を図11に
示す。概念名「回線_コード」と「回線_番号」は,区
分語が等しくなく,主要語が等しいので,類似度N1が
設定される。これに対し,例えば概念名「回線_コー
ド」と「サーキット_コード」は,主要語の分類が等し
くなく,区分語が等しいので,N1より小さい中間の類
似度N2が設定される。
An example of applying this algorithm is shown in FIG. The concept names “line_code” and “line_number” do not have the same divisional word but the same main word, so the similarity N1 is set. On the other hand, for example, in the concept names “line_code” and “circuit_code”, the classification of the main words is not the same and the segment words are the same, so an intermediate similarity N2 smaller than N1 is set.

【0032】次に,このように計算された名称類似度を
用いて,周辺の類似度を計算する。概念A,Bに対し
て,それぞれに隣接している概念の集合をSA,SBと
する。周辺の類似度は,以下の式によって計算される。
Next, using the name similarity calculated in this way, peripheral similarity is calculated. For concepts A and B, sets of concepts adjacent to each other are defined as SA and SB. The peripheral similarity is calculated by the following formula.

【0033】(AとBの周辺の類似度)= sum( max
(SA,SB内要素間の名称類似度))/ min(SAの
個数,SBの個数) ここで,(SAの個数)≦(SBの個数)で,max はS
Bにおける最大,sumはAについての総和(逆の場合も
同様)を表わす。
(Similarity around A and B) = sum (max
(Name similarity between elements in SA and SB) / min (number of SAs, number of SBs) where (number of SAs) ≤ (number of SBs), max is S
The maximum and sum in B represent the total sum for A (and vice versa).

【0034】図7の例の「回線」(=Aとする)と「サ
ーキット」(=Bとする)の場合を考える。これらは標
準の用語辞書107に登録されていないとする。この二
つは名称の類似度は低い。
Consider the cases of "line" (= A) and "circuit" (= B) in the example of FIG. It is assumed that these are not registered in the standard term dictionary 107. The two have low similarity in name.

【0035】これらの隣接する概念は, SA={回線_コード,回線_速度,ビル} SB={サーキット_コード,サーキット_速度,ビ
ル} である。そして, min(SAの個数,SBの個数)=3
である。
These adjacent concepts are: SA = {line_code, line_speed, building} SB = {Circuit_code, circuit_speed, building} And min (number of SAs, number of SBs) = 3
Is.

【0036】SBの概念とSAの概念の名称類似度を求
めると,「サーキット_コード」に対しては,「回線_
コード」が最大になり(類似度はN2となる。N2=
0.3とする),「サーキット_速度」に対しては,
「回線_速度」が最大になり(同様に0.3である),
「ビル」に対しては,「ビル」が最大になる(値は1で
ある)。
When the name similarity between the concept of SB and the concept of SA is calculated, “circuit_code” is calculated as “line_code”.
“Code” is maximized (similarity is N2. N2 =
0.3), and for "Circuit_speed",
"Line_speed" is maximum (also 0.3),
For "Building", "Building" is the maximum (the value is 1).

【0037】よって, sum( max(SA,SB内要素間
の名称類似度))=0.3+0.3+1.0=1.6と
なる。従って,(「回線」と「サーキット」の周辺の類
似度)=1.6/3≒0.53となる。単独の名称類似
度のみでは,類似とみなされなかった概念が,周辺の類
似度を考慮することにより,その値は高くないものの類
似とみなされるようになる。
Therefore, sum (max (name similarity between elements in SA and SB)) = 0.3 + 0.3 + 1.0 = 1.6. Therefore, (similarity around “line” and “circuit”) = 1.6 / 3≈0.53. A concept that is not considered to be similar only by a single name similarity is considered to be similar although its value is not high by considering peripheral similarities.

【0038】最終的には,名称の類似度と周辺の類似度
の加重平均を類似度とする。上記の「回線」と「サーキ
ット」の例の場合,名称の類似度が0であり,周辺の類
似度が0.53であるから,名称の重み:周辺の重みを
1:1とすると,最終的な類似度は,(02 +0.53
2 1/2 /21/2 ≒0.37となる。
Finally, the weighted average of the similarity of the name and the similarity of the surroundings is set as the similarity. In the case of the above “line” and “circuit”, the name similarity is 0 and the peripheral similarity is 0.53. Therefore, if the name weight: peripheral weight is 1: 1, the final The similarity is (0 2 +0.53
2) the 1/2 / 2 1/2 ≒ 0.37.

【0039】次に,ユーザはユーザインタフェース部1
05を用いて,概念が一致しているかどうかを確定す
る。類似度がしきい値よりも高い概念の組が,類似度が
高い順にユーザに提示される。それを見て,また,必要
な時にはその周辺を参照して,一致性を確定する。
Next, the user operates the user interface section 1
Use 05 to determine if the concepts match. A set of concepts whose similarity is higher than the threshold is presented to the user in descending order of similarity. Look at it and, if necessary, refer to its surroundings to establish agreement.

【0040】また,概念間の関係の一致性も確定する。
そして,二つの概念グラフのマージを行う。マージのア
ルゴリズムは,例えば文献“Sowa,J.F. Conceptual Str
uctures: Information Processing in Mind and Machin
e. Addison-Wesely.(1984)”に記載の方法による。マー
ジした概念グラフは,必要であれば,実体関連モデルに
変換する。
Further, the agreement of the relation between the concepts is also determined.
Then, the two concept graphs are merged. The merging algorithm is, for example, the document “Sowa, JF Conceptual Str.
uctures: Information Processing in Mind and Machin
e. Addison-Wesely. (1984) ”. The merged concept graph is converted into an entity-relationship model if necessary.

【0041】この変換のアルゴリズムを図12,図13
に示す。org(C)は概念Cの由来を表わす。Eは実
体型,Rは関連,Pは主要語,Cは区分語を表わす。下
付の文字は,由来を表わすことにする。例えば,CE
実体型を由来に持つ概念である。由来の*は任意の由来
を表わしている。C≫Eは,概念Cが実体型Eに変換さ
れたことを表わす。この変換ルールの基本的な考え方
は,もと実体型だったものは,実体型に変換し,実体型
に変換される概念と実体型に変換される概念との間の関
係は,関連型に変換するというルールである。[C1
−(R)−>[C 2 ]などの表記は,前述のSowaの
文献に従っている。
This conversion algorithm is shown in FIGS.
Shown in. org (C) represents the origin of the concept C. E is real
Body type, R is related, P is a main word, and C is a section word. under
The letters attached indicate the origin. For example, CEIs
It is a concept that has a substantive type as its origin. Origin * is any origin
Is represented. C >> E means that the concept C is converted to the substantive type E.
It means that it was done. Basic idea of this conversion rule
Converts what was originally a substantive type to a substantive type,
The relationship between the concept converted to
The clerk is the rule to convert to the related type. [C1]
-(R)-> [C 2], Etc.
Follows the literature.

【0042】このルールを用いて概念グラフを実体関連
モデルに変換した例を図14〜図16に示す。図14の
(a) ,(b) は二つの入力のスキーマの例を示す。それ
を,概念グラフに変換した結果が,図15に示す(a) ,
(b) である。それをマージした結果を,図16の(a) に
示す。それを実体関連モデルに変換した結果を,図16
の(b) に示す。
14 to 16 show examples in which the concept graph is converted into the entity relation model using this rule. Of FIG.
(a) and (b) show examples of two input schemas. The result of converting it into a concept graph is shown in Fig. 15 (a),
It is (b). The result of merging them is shown in (a) of FIG. The result of converting it into an entity-relationship model is shown in FIG.
(B) of.

【0043】[0043]

【発明の効果】以上説明したように,本発明のデータベ
ース概念スキーマ統合支援装置によれば,データベース
の概念スキーマを統合する作業の効率が向上する。
As described above, according to the database conceptual schema integration support device of the present invention, the efficiency of the work of integrating the conceptual schemas of the databases is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を実現する装置の構成例を示した図であ
る。
FIG. 1 is a diagram showing a configuration example of an apparatus that realizes the present invention.

【図2】入力する実体関連モデルのスキーマの例を示し
た図である。
FIG. 2 is a diagram showing an example of a schema of an entity relation model to be input.

【図3】本発明の処理の概要を示した図である。FIG. 3 is a diagram showing an outline of processing of the present invention.

【図4】図2の例からデータ項目名の標準化を施した結
果を示した図である。
FIG. 4 is a diagram showing a result of standardizing data item names from the example of FIG.

【図5】実体関連モデルから概念グラフへの変換ルール
を示した図である。
FIG. 5 is a diagram showing a conversion rule from an entity relation model to a concept graph.

【図6】実体関連モデルから概念グラフへの変換ルール
を示した図である。
FIG. 6 is a diagram showing a conversion rule from an entity relation model to a concept graph.

【図7】図2の例から変換された概念グラフを示した図
である。
FIG. 7 is a diagram showing a conceptual graph converted from the example of FIG.

【図8】概念名が分解されていない場合の名称類似度の
計算処理を示した図である。
FIG. 8 is a diagram showing a calculation process of a name similarity when the concept name is not decomposed.

【図9】概念名が分解されていない場合の名称類似度の
計算例を示した図である。
FIG. 9 is a diagram showing an example of calculation of name similarity when concept names are not decomposed.

【図10】概念名が分解されている場合の名称類似度の
計算処理を示した図である。
FIG. 10 is a diagram showing a name similarity calculation process when concept names are decomposed.

【図11】概念名が分解されている場合の名称類似度の
計算例を示した図である。
FIG. 11 is a diagram showing an example of calculation of a name similarity when concept names are decomposed.

【図12】モデル変換のアルゴリズムを示した図であ
る。
FIG. 12 is a diagram showing an algorithm of model conversion.

【図13】モデル変換のアルゴリズムを示した図であ
る。
FIG. 13 is a diagram showing an algorithm of model conversion.

【図14】モデル変換の例を示した図である。FIG. 14 is a diagram showing an example of model conversion.

【図15】モデル変換の例を示した図である。FIG. 15 is a diagram showing an example of model conversion.

【図16】モデル変換の例を示した図である。FIG. 16 is a diagram showing an example of model conversion.

【符号の説明】[Explanation of symbols]

100 スキーマ情報取り込み部 101 データ標準化部 102 モデル変換部 103 スキーマ要素間の類似度計算部 104 スキーマ統合部 105 ユーザインタフェース部 106 基本単語表 107 用語辞書 100 Schema Information Importing Part 101 Data Standardizing Part 102 Model Converting Part 103 Similarity Calculation Part between Schema Elements 104 Schema Integration Part 105 User Interface Part 106 Basic Word Table 107 Term Dictionary

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 複数のデータベースの概念スキーマ情報
を入力して,それらの統合スキーマを生成することを支
援するデータベース概念スキーマ統合支援装置におい
て,統合対象のスキーマ情報を取り込むためのスキーマ
情報取り込み部と,取り込んだスキーマの属性名を所定
のデータ項目命名規則に従って標準化するデータ標準化
部と,取り込んだスキーマを概念グラフに変換するモデ
ル変換部と,スキーマ要素の名称に用いられる用語の分
類情報を保持する用語辞書と,前記用語辞書を用いて統
合対象スキーマ双方のスキーマ要素間の類似度を求める
類似度計算部と,計算したスキーマ要素の類似度を操作
者に提示し,操作者がそのスキーマ要素の関係を判断し
て確定するためのユーザインタフェース部と,複数の概
念グラフのマージを行うスキーマ統合部とを具備するこ
とを特徴とするデータベース概念スキーマ統合支援装
置。
1. A schema information importing unit for importing schema information to be integrated in a database conceptual schema integration support device which supports inputting conceptual schema information of a plurality of databases and generating integrated schemas thereof. , Holds the data standardization part that standardizes the attribute names of the imported schema according to the specified data item naming rules, the model conversion part that converts the imported schema into a concept graph, and the classification information of the terms used in the names of schema elements The term dictionary, a similarity calculation unit that obtains the degree of similarity between schema elements of both integration target schemas by using the term dictionary, and the operator are presented with the calculated degree of similarity of the schema elements. A user interface part for judging and confirming relationships and merging of multiple concept graphs A database conceptual schema integration support apparatus comprising: a schema integration unit.
JP7048114A 1995-03-08 1995-03-08 Data base concept schemer integration support device Pending JPH08249338A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7048114A JPH08249338A (en) 1995-03-08 1995-03-08 Data base concept schemer integration support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7048114A JPH08249338A (en) 1995-03-08 1995-03-08 Data base concept schemer integration support device

Publications (1)

Publication Number Publication Date
JPH08249338A true JPH08249338A (en) 1996-09-27

Family

ID=12794298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7048114A Pending JPH08249338A (en) 1995-03-08 1995-03-08 Data base concept schemer integration support device

Country Status (1)

Country Link
JP (1) JPH08249338A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157249A (en) * 2001-11-21 2003-05-30 Degital Works Kk Document compressing and storing method
JP2007179146A (en) * 2005-12-27 2007-07-12 Hitachi Ltd Program for mapping data schema, and computer system
WO2008111424A1 (en) * 2007-03-09 2008-09-18 Nec Corporation Field correlation method and system, and program thereof
JP2011028379A (en) * 2009-07-22 2011-02-10 Toshiba Corp Program and device for converting data structure
JP5187308B2 (en) * 2007-08-01 2013-04-24 日本電気株式会社 Conversion program search system and conversion program search method
JP2013077218A (en) * 2011-09-30 2013-04-25 Toshiba Corp Setting information input support device and program
US8868583B2 (en) 2010-01-27 2014-10-21 Fujitsu Limited Similarity calculation apparatus
JP2015165366A (en) * 2014-03-03 2015-09-17 富士通株式会社 Database reconstruction method, database reconstruction program, and database reconstruction apparatus
JP2021119463A (en) * 2020-03-30 2021-08-12 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Method for generating knowledge graph, method for mining relation, device, apparatus, and medium

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157249A (en) * 2001-11-21 2003-05-30 Degital Works Kk Document compressing and storing method
JP2007179146A (en) * 2005-12-27 2007-07-12 Hitachi Ltd Program for mapping data schema, and computer system
US7996437B2 (en) 2005-12-27 2011-08-09 Hitachi, Ltd. Program for mapping of data schema
WO2008111424A1 (en) * 2007-03-09 2008-09-18 Nec Corporation Field correlation method and system, and program thereof
JP5170466B2 (en) * 2007-03-09 2013-03-27 日本電気株式会社 Field collation method and system, and program thereof
US8843818B2 (en) 2007-03-09 2014-09-23 Nec Corporation Field correlation method and system, and program thereof
JP5187308B2 (en) * 2007-08-01 2013-04-24 日本電気株式会社 Conversion program search system and conversion program search method
JP2011028379A (en) * 2009-07-22 2011-02-10 Toshiba Corp Program and device for converting data structure
US8868583B2 (en) 2010-01-27 2014-10-21 Fujitsu Limited Similarity calculation apparatus
JP2013077218A (en) * 2011-09-30 2013-04-25 Toshiba Corp Setting information input support device and program
JP2015165366A (en) * 2014-03-03 2015-09-17 富士通株式会社 Database reconstruction method, database reconstruction program, and database reconstruction apparatus
JP2021119463A (en) * 2020-03-30 2021-08-12 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Method for generating knowledge graph, method for mining relation, device, apparatus, and medium

Similar Documents

Publication Publication Date Title
US7167858B2 (en) Identification mapping and translation method
CN111414393B (en) Semantic similar case retrieval method and equipment based on medical knowledge graph
US11816078B2 (en) Automatic entity resolution with rules detection and generation system
US9336296B2 (en) Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
US7734645B2 (en) Computerized method, system and program product for generating a data mining model
CN109783639B (en) Mediated case intelligent dispatching method and system based on feature extraction
CN110189831B (en) Medical record knowledge graph construction method and system based on dynamic graph sequence
CN110929125B (en) Search recall method, device, equipment and storage medium thereof
CN113360671B (en) Medical insurance medical document auditing method and system based on knowledge graph
Amazona et al. Modelling student performance using data mining techniques: Inputs for academic program development
CN110246572B (en) Word vector-based medical triage method and system
CN113934868A (en) Government affair big data management method and system
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN110600092A (en) Method and system for generating personnel main index applied to medical field
US20140379761A1 (en) Method and system for aggregate content modeling
CN110019410A (en) For the big data digging system of tcm clinical case information
JPH08249338A (en) Data base concept schemer integration support device
Wang et al. Multiple valued logic approach for matching patient records in multiple databases
JP2001117947A (en) Method for sorting high dimensional data, sort tree formed by the method and computer system
US20040260521A1 (en) Method and apparatus for classifying time series data using wavelet based approach
Jung et al. Hierarchical business process clustering
CN116150690A (en) DRGs decision tree construction method and device, electronic equipment and storage medium
JPH08190578A (en) Design support device
Christen et al. A probabilistic deduplication, record linkage and geocoding system