JP4859456B2 - Data schema mapping program and computer system - Google Patents
Data schema mapping program and computer system Download PDFInfo
- Publication number
- JP4859456B2 JP4859456B2 JP2005374359A JP2005374359A JP4859456B2 JP 4859456 B2 JP4859456 B2 JP 4859456B2 JP 2005374359 A JP2005374359 A JP 2005374359A JP 2005374359 A JP2005374359 A JP 2005374359A JP 4859456 B2 JP4859456 B2 JP 4859456B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- data item
- relationship
- schema
- item names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
Description
本発明は、複数のデータスキーマ間でデータ項目名を対応付ける技術に関する。 The present invention relates to a technique for associating data item names among a plurality of data schemas.
近年、インターネットを基盤としたBtoB(企業間)サービスへのニーズが高まり、企業間の情報・サービスの相互運用性を向上させるための国際標準化、業界標準化が進んでいる。例えばEDI(電子データ交換)についてはebXML(electronic business XML) 仕様の業界標準XML/EDIが主流になっており、また、財務情報についてはXBRL(eXtensible Business Reporting Language)が主流となっており、各企業独自の仕様で記述されたデータの項目を標準仕様の項目に対応付ける必要がある。対応付けのためのツールとしては、各種独自フォーマットファイルとEDI標準フォーマットファイルの相互変換を行うツールがいくつか存在するが、いずれも複数のデータベースのフォーマット間のデータ項目の対応関係の定義はGUIを使って人手で行う必要がある。そのため、データベースシステムや情報検索システムの新規導入や業界標準へのバージョンアップなどの変化への対応に手間がかかり、さらに、項目名をマッピングするノウハウが属人的に蓄積されるなどの問題が生じている。 In recent years, the need for Internet-based BtoB (business-to-business) services has increased, and international standardization and industry standardization to improve the interoperability of information and services between businesses has been progressing. For example, for EDI (electronic data exchange), the industry standard XML / EDI of the ebXML (electronic business XML) specification has become mainstream, and for financial information, XBRL (eXtensible Business Reporting Language) has become mainstream. It is necessary to associate data items described in company-specific specifications with standard specification items. There are several tools for mapping between various original format files and EDI standard format files as mapping tools, but all use GUI to define the correspondence of data items between multiple database formats. It is necessary to use it manually. As a result, it takes time to deal with changes such as the introduction of new database systems and information retrieval systems and version upgrades to industry standards, and problems such as the accumulation of know-how for mapping item names have occurred personally. ing.
上記データ項目名の対応付けに関する従来技術としては、あらかじめ用意した辞書やオントロジ(仕様記述に使用される語彙の関係)を用いる方法が知られている。例えば、特許文献1には、辞書を用いてデータ項目名を「修飾語+主要語+区分語」に分解し、各要素が辞書に一致するかどうかに基づいてデータ項目名の類似度を計算する方法が開示されている。
As a conventional technique related to the association of the data item names, there is known a method using a dictionary or ontology (relationship of vocabulary used for specification description) prepared in advance. For example, in
また、特許文献2には、情報検索の手段として、オントロジに概念間の階層関係や類義関係を記述し、オントロジを使って近似的な検索条件を生成する方法が開示されている。
また、特許文献3には、電子文書を取り込んで、2個の形態素間の概念関係を示すデータを出力する技術が開示されている。
上記従来技術では、データ項目名の対応付けのためにあらかじめ辞書やオントロジに概念間の階層関係や類義関係を記述しておく必要がある。また、データ項目名の対応付けでは、同じような構成要素語からなるデータ項目名の中から対応するものを選ぶ必要があるため、従来の「類似度」を計算する方法では候補を絞りきれないという問題がある。例えば、あるデータスキーマにおける「注文日付」というデータ項目名が別のデータスキーマにおけるどのデータ項目名に対応するかという対応付けをする際に、類似度だけでは「注文年月日」、「注文番号」などの候補が得られるが、絞りこみが難しい。 In the above prior art, it is necessary to describe hierarchical relationships and synonymous relationships between concepts in advance in a dictionary or ontology for associating data item names. In addition, in the association of data item names, it is necessary to select corresponding ones from data item names composed of similar component words, and thus the conventional method of calculating “similarity” cannot narrow down candidates. There is a problem. For example, when associating which data item name “order date” in one data schema corresponds to which data item name in another data schema, the “order date” and “order number” are based only on the similarity. Can be obtained, but it is difficult to narrow down.
そこで本発明は、上記問題点に鑑みてなされたもので、異なるデータスキーマ間で項目名の対応付けを行う際に、関係はあるが区別すべき語彙を抽出し、意味のある弁別関係を構築することでデータ項目名の対応付けの候補を高精度で絞りこむことを目的とする。 Therefore, the present invention has been made in view of the above problems, and when linking item names between different data schemas, vocabularies that are related but should be distinguished are extracted, and a meaningful discrimination relationship is established. This is intended to narrow down the candidates for data item name association with high accuracy.
本発明は、データ構造を記述した第1のデータスキーマと第2のデータスキーマを参照して、前記第1のデータスキーマを構成するデータ項目名と第2のデータスキーマを構成するデータ項目名の対応付けを行うプログラムであって、前記第1のデータスキーマを構成するデータ項目名を抽出し、前記第2のデータスキーマを構成するデータ項目名を抽出し、前記抽出した第1のデータスキーマと第2のデータスキーマのそれぞれのデータ項目名に含まれる要素概念を抽出し、前記抽出した要素概念からデータ項目名間の弁別関係を設定し、前記第1のデータスキーマのデータ項目名と第2のデータスキーマからデータ項目名をそれぞれ読み込んで、前記弁別関係に基づいて前記読み込んだ2つのデータ項目名について対応関係を設定し、前記データ項目名の対応関係を蓄積する。 The present invention refers to the first data schema describing the data structure and the second data schema, and the names of the data items constituting the first data schema and the data item names constituting the second data schema. A program for associating, extracting data item names constituting the first data schema, extracting data item names constituting the second data schema, and extracting the first data schema and An element concept included in each data item name of the second data schema is extracted, a discrimination relationship between the data item names is set from the extracted element concept, and the data item name of the first data schema and the second Each data item name is read from each data schema, and a correspondence relation is set for the two read data item names based on the discrimination relationship. To store the correspondence between the data item name.
また、前記要素概念の抽出は、前記第1のデータスキーマまたは第2のデータスキーマについて、それぞれ2つのデータ項目名を読み込み、前記2つのデータ項目名の文字列を比較して同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する1組の文字列を第1の要素概念として抽出し、前記2つのデータ項目名の文字列を比較して同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する文字列を除いた1組の文字列を第2の要素概念として抽出する。 The element concept is extracted by reading two data item names for each of the first data schema and the second data schema and comparing the character strings of the two data item names to obtain synonymous character strings. When included, a common set of character strings out of character strings constituting the two data item names is extracted as a first element concept, and the character strings having the same meaning are compared by comparing the character strings of the two data item names. When a column is included, a set of character strings excluding a common character string from among character strings constituting the two data item names is extracted as a second element concept.
したがって、本発明は、データ項目名を構成する語彙の概念間の弁別関係および時間的順序関係を利用することにより、データ項目名の対応付け候補を絞ることができる。例えば、「『番号』と『日付』は弁別性のある概念(区別すべき概念)である」という知識に基づいて、「『注文日付』に対応するデータ項目名候補のうち、『注文番号』は『注文日付』とは弁別性のある概念なので候補から除外する」と判断することができる。換言すれば、複合語にしたときに意味の異なる項目として扱うことができる概念を弁別関係とし、この弁別関係を付加することで、項目名の絞り込みを高精度で行うことが可能となる。 Therefore, according to the present invention, by using the discrimination relationship and temporal order relationship between the vocabulary concepts constituting the data item name, the data item name correspondence candidates can be narrowed down. For example, based on the knowledge that ““ number ”and“ date ”are distinguishable concepts (concepts to be distinguished),” “order number” among the candidate data item names corresponding to “order date” Can be determined to be excluded from the candidates because “order date” is a distinctive concept. In other words, it is possible to narrow down item names with high accuracy by adding a discrimination relationship to a concept that can be treated as an item having a different meaning when a compound word is used.
また、項目名の時間的順序関係を利用することにより、データ項目名の対応関係の候補選択をより高精度で行うことができる。 In addition, by using the temporal order relationship of the item names, it is possible to select a candidate for the correspondence relationship of the data item names with higher accuracy.
以下、本発明の一実施形態を添付図面に基づいて説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.
第1の実施形態では、ターゲットとなるデータベースの項目名をソースとなるデータベースの項目名に対応付けるため、2つのデータベースのデータスキーマ定義およびインスタンス文書から概念間の弁別関係(区別すべき概念で同義または類義にはなり得ない関係)および時間的順序関係を抽出してオントロジに格納する機能と、オントロジを用いてデータ項目名の対応関係の絞込みを行う機能とを備えたデータスキーママッピング定義支援システムの一例を示す。 In the first embodiment, in order to associate an item name of a target database with an item name of a source database, a discriminating relationship between concepts (synonymous with a concept to be distinguished or Data schema mapping definition support system that has a function to extract the relations that cannot be similar) and temporal order relations and store them in the ontology, and a function to narrow down the correspondence of the data item names using the ontology An example is shown.
図1は、第1の実施形態を示し、企業内や企業間でのデータ連携のために、異なるデータスキーマ間でのデータ項目の対応関係を示す「データスキーママッピング定義ファイル」の作成を支援する計算機システムのブロック図を示す。 FIG. 1 shows the first embodiment, and supports the creation of a “data schema mapping definition file” indicating the correspondence of data items between different data schemas for data linkage within a company or between companies. The block diagram of a computer system is shown.
計算機システムは、演算処理を行うCPU101と、キーボードやマウス等で構成される入力装置102と、演算結果等を表示する表示装置103と、各データやプログラムを格納するストレージ装置110と、一時的にデータ(テーブル等)を格納するメモリ108とから構成される。
The computer system includes a
ストレージ装置110には、入力されたデータを格納する入力データ格納部104と、後述するオントロジ構築用データ格納部105と、仕様記述に使用される語彙の関係を定義したオントロジを格納するオントロジ格納部106と、生成したデータスキーママッピング定義を格納するデータスキーママッピング定義ファイル格納部107とが含まれる。
The
入力データ格納部104は、ソースデータスキーマ定義文書格納部1041、ソースインスタンス文書格納部1042、ターゲットデータスキーマ定義文書格納部1043、ターゲットインスタンス文書格納部1044によって構成されている。
The input
ソースデータスキーマ定義文書格納部1041には、ソースとなるデータベースのスキーマを定義した文書が格納される。ソースインスタンス文書格納部1042には、基準となるデータベースの実際のデータが格納される。
The source data schema definition document storage unit 1041 stores a document that defines a schema of a source database. The source instance
ターゲットデータスキーマ定義文書格納部1043には、ソースとなるデータベースに項目名を対応付けるターゲットのデータベースのスキーマを定義した文書が格納される。ターゲットインスタンス文書格納部1044には、ターゲットとなるデータベースの実際のデータが格納される。なお、
図2(a)〜(d)は、入力データ格納部104のソースデータスキーマ定義文書格納部1041、ソースインスタンス文書格納部1042、ターゲットデータスキーマ定義文書格納部1043、およびターゲットインスタンス文書格納部1044に格納された文書の記述例を示す。なお、これらの文書は、上述のebXML(electronic business XML) 仕様のXML/EDIや、財務情報の場合にはXBRL(eXtensible Business Reporting Language)等で記述されるものである。
The target data schema definition
2A to 2D show the source data schema definition document storage unit 1041, the source instance
図2(a)は、ソースデータスキーマ定義文書10411の一例を示し、データ項目名(element name)として「注文日付」が、日付のデータタイプで定義され、データ項目名として「取引番号」が整数のデータタイプで定義された例を示す。
FIG. 2A shows an example of the source data
図2(b)は、ソースデータインスタンス文書10421の一例を示し、「注文日付」のデータとして「20050923」が格納され、「取引番号」のデータとして「00020033」が格納された例を示す。
FIG. 2B shows an example of the source
図2(c)は、ターゲットデータスキーマ定義文書10431の一例を示し、データ項目名(element name)として「注文年月日」が、日付のデータタイプで定義され、データ項目名として「注文番号」が整数のデータタイプで定義された例を示す。
FIG. 2C shows an example of the target data
図2(d)は、ターゲットデータインスタンス文書10441の一例を示し、「注文年月日」のデータとして「20040512」が格納され、「注文番号」のデータとして「000101123」が格納された例を示す。
FIG. 2D shows an example of the target
次に、オントロジ構築用データ格納部105は、ソースデータスキーマデータ項目情報格納部1051、ターゲットデータスキーマデータ項目情報格納部1052、および概念情報格納部1053によって構成されている。オントロジ格納部106には、オントロジ1061が格納されている。
Next, the ontology construction
図3(a)、(b)に、ソースデータスキーマデータ項目関係格納部1051およびターゲットデータスキーマデータ項目関係格納部1052のデータ構造を示す。
3A and 3B show the data structures of the source data schema data item
図3(a)のソースデータスキーマデータ項目情報格納部1051は、図2(a)、(b)に示したソースデータスキーマ定義文書10411とソースデータインスタンス文書10421から後述するように抽出したデータを格納する。ソースデータスキーマデータ項目情報格納部1051は、一つのエントリに、ソースデータスキーマ定義文書の項目名を格納するデータ項目名10511と、ソースデータスキーマ定義文書に付与されたスキーマ名10512と、データ項目名10511の親(上位概念)となるデータ項目名を格納する親項目名10513と、データ項目名10511に定義されたデータタイプを格納するデータ属性10514と、データ項目名10511に対応するインスタンスを頻度順に格納するインスタンスリスト10515から構成される。
The source data schema data item
図3(b)のターゲットデータスキーマデータ項目情報格納部1052は、図2(c)、(d)に示したターゲットデータスキーマ定義文書10431とターゲットデータインスタンス文書10441から後述するように抽出したデータを格納する。ターゲットデータスキーマデータ項目情報格納部1052は、一つのエントリに、ターゲットデータスキーマ定義文書の項目名を格納するデータ項目名10521と、ターゲットデータスキーマ定義文書に付与されたスキーマ名10522と、データ項目名10521の親(上位概念)となるデータ項目名を格納する親項目名10523と、データ項目名10521に定義されたデータタイプを格納するデータ属性10524と、データ項目名10521に対応するインスタンスを格納するインスタンスリスト10525から構成される。
The target data schema data item
また、概念情報格納部1053は、ソースデータスキーマ定義文書格納部1041およびターゲットデータスキーマ定義文書格納部1043のデータ項目名を構成する概念が後述するように格納される。また、オントロジ1061には、項目名間の概念関係が後述するように格納される。
The concept
データスキーママッピング定義ファイル格納部107には、ソースデータスキーマ定義文書とターゲットデータスキーマ定義文書におけるデータ項目の対応付けの結果がデータスキーママッピング定義ファイル1071が格納されている。
The data schema mapping definition
メモリ108には、語彙の概念間の弁別関係および時間的順序関係を記述したオントロジ1061を利用してデータ項目名の対応付けを行うプログラムとして、データ項目情報取り込み手段1081、概念抽出手段1082、弁別関係抽出手段1083、同義関係抽出手段1084、順序関係抽出手段1085、オントロジ構築支援手段1086、データ項目マッピング定義支援手段1087がロードされ、CPU101により実行される。
In the
(データ項目情報の取り込み)
以下、メモリ108にロードされたオントロジ構築支援とデータマッピング(データ項目名の対応関係の絞り込み)を行う各プログラムの動作について、以下に説明する。
(Import data item information)
The operation of each program that performs ontology construction support and data mapping (narrowing down the correspondence between data item names) loaded in the
まず、データ項目情報取り込み手段1081は、入力データ格納部104のソースデータスキーマ定義文書格納部1041からデータスキーマ定義文書を読み込んで、ソースデータスキーマデータ項目関係格納部1051にデータ項目情報を取り込み、ターゲットデータスキーマ定義文書格納部1043からデータスキーマ定義文書を読み込んで、ターゲットデータスキーマデータ項目関係格納部1052にデータ項目情報を取り込む。
First, the data item
このデータ項目情報取り込み手段1081の処理手順を図6のフローチャートに沿って説明する。
The processing procedure of the data item
データ項目情報取り込み手段1081は、ソースデータスキーマ定義文書格納部1041からデータ項目情報を取り込み、ソースデータスキーマデータ項目情報格納部1051のデータ項目名10511、データスキーマ名10512、親項目名10513、データ属性10514に格納する(S601)。
The data item
さらにデータ項目情報取り込み手段1081は、ソースインスタンス文書格納部1042から各データ項目のインスタンスを抽出してインスタンスの頻度を集計し、ソースデータスキーマデータ項目情報格納部1051のインスタンスリスト10515に頻度順に格納する(S602)。
Further, the data item
同様に、ターゲットデータスキーマ定義文書格納部1043からデータ項目情報を取り込み、ターゲットデータスキーマデータ項目情報格納部1052のデータ項目名10521、データスキーマ名10522、親項目名10523、データ属性10524に格納する(S603)。さらにデータ項目情報取り込み手段1081はターゲットインスタンス文書格納部1044から各データ項目のインスタンスを抽出してインスタンスの頻度を集計し、ターゲットデータスキーマデータ項目情報格納部1052のインスタンスリスト10525に頻度順にインスタンスを格納する(S604)。
Similarly, data item information is fetched from the target data schema definition
上記処理により、基準となるソースデータスキーマ定義文書格納部1041に格納されたデータベースのデータスキーマ定義文書(以下、単にソースデータスキーマとする)と、このソースデータスキーマと相互変換を行いたいターゲットデータスキーマ定義文書格納部1043に格納されたデータベースのデータスキーマ定義文書(以下、単にターゲットデータスキーマとする)の項目名と頻度順のインスタンスがソースデータスキーマデータ項目情報格納部1051とターゲットデータスキーマデータ項目情報格納部1052にそれぞれ格納される。
Through the above processing, a database data schema definition document (hereinafter simply referred to as a source data schema) stored in the reference source data schema definition document storage unit 1041 and a target data schema to be interconverted with the source data schema Item names and frequency order instances of the database data schema definition document (hereinafter simply referred to as target data schema) stored in the definition
(要素概念および概念関係の抽出)
相互変換を行う2つのデータスキーマ(ソースデータスキーマとターゲットデータスキーマ)の項目名の概念情報抽出の処理は、概念抽出手段1082により実行される。概念抽出手段1082は、上記図6の処理により、項目名と頻度順のインスタンスがソースデータスキーマデータ項目情報格納部1051とターゲットデータスキーマデータ項目情報格納部1052に格納された後に実行される。
(Extraction of element concepts and concept relationships)
The
概念抽出手段1082は、ソースデータスキーマおよびターゲットデータスキーマのデータ項目名を構成する概念を抽出し、概念情報格納部1053に格納する。概念情報格納部1053のデータ構造を図4に示す。
The
概念情報格納部1053は、一つのエントリにデータ項目名に含まれる概念を示す概念名10531と、概念名が存在するデータ項目名内の位置10532と、概念名10531に対応付けられたデータ項目名のうち名称が異なるデータ項目名の数10533と、概念名10531に対応付けられたデータ項目名の一覧を格納するデータ項目名リスト10534から構成される。
The concept
概念抽出手段1082の処理手順を図7のフローチャートに従って説明する。
The processing procedure of the
概念抽出手段1082は、ソースデータスキーマデータ項目情報格納部1051からデータ項目名10511を2つ取り出してデータ項目名10511の文字列を比較する(S701〜S704)。
The
S704の比較の結果、2つのデータ項目名10511が異なるときには、2つのデータ項目名A、データ項目名Bとしたとき、項目名A、項目名Bを構成する要素概念を以下のように切り出す(S705)。
(1)概念1=項目名A、項目名Bの先頭からの共通文字列
(2)概念2=項目名A、項目名Bの末尾からの共通文字列
(3)概念3=項目名Aから上記共通文字列を除いたもの
(4)概念4=項目名Bから上記共通文字列を除いたもの
次に、データ項目名Aおよびデータ項目名Bにおける概念1〜4の使われ方に関する情報を概念情報格納部1053に登録する(S706)。例えば、データ項目名Aが「要求番号」、データ項目名Bが「要求年月日」のとき、概念1〜概念4は以下のようになる。
(1)概念1=「要求」
(2)概念2=nil(無し)
(3)概念3=「番号」
(4)概念4=「年月日」
そこで、概念1、概念3、概念4の概念名とデータ項目名における使われ方に関する情報を概念情報格納部1053の概念名10531、データ項目名における位置10532、データ項目名異なり数10533、データ項目名リスト10534に格納する。
As a result of the comparison in S704, when the two
(1)
(1)
(2)
(3)
(4)
Therefore, information on how the
最後に、概念3と概念4(すなわち、データ項目名Aとデータ項目名Bの差異)の概念関係を抽出しオントロジ1061に登録する(S707)。以上の処理をデータ項目名10511のすべての組み合わせについて行う(S708〜S711)。
Finally, the conceptual relationship between
また、概念抽出手段1082は、上記図7の処理をターゲットデータスキーマデータ項目情報格納部1052についても実行する。
The
以上の処理により、ソースデータスキーマおよびターゲットデータスキーマのデータ項目名を構成する要素概念が抽出されて概念情報格納部1053に格納される。加えて、ソースデータスキーマおよびターゲットデータスキーマのそれぞれのデータ項目名Aとデータ項目名Bの差異がオントロジ1061に格納されることになる。
Through the above processing, element concepts constituting the data item names of the source data schema and the target data schema are extracted and stored in the concept
また、上記要素概念は、項目名A、項目名Bが共通文字列を含む第1の要素概念と、項目名A、項目名Bから共通文字列を除いた差分で構成される第2の要素概念とから構成されることになる。 In addition, the above element concept includes a first element concept in which item name A and item name B include a common character string, and a second element composed of differences obtained by removing the common character string from item name A and item name B. It is composed of concepts.
(概念関係抽出手順の詳細)
上記図7の概念関係抽出のステップ(S707)では、弁別関係抽出手段1083および順序関係抽出手段1085により、上述の概念3と概念4(すなわち、データ項目名Aとデータ項目名Bの差異)の関係を抽出し、オントロジ1061に格納する。オントロジ1061のデータ構造を図5に示す。
(Details of conceptual relationship extraction procedure)
In the conceptual relationship extraction step (S707) in FIG. 7 above, the above-described
図5において、オントロジ1061は、一つのエントリに概念3(項目名Aから共通文字列を除いた文字列)を格納する概念名10541と、概念4(項目名Bから共通文字列を除いた文字列)を格納する概念名10542と、2つの概念名10541、10542の概念の関係を格納する概念関係10543と、データ項目名Aまたはデータ項目名Bにおける概念名10541、10542の位置10544と、抽出されたデータ項目名A及びBの一覧を格納する例10545と、オペレータや管理者などが当該エントリを確認したことを示す確認フラグ10546とを含む。
In FIG. 5,
次に、概念関係抽出手段1085と弁別関係抽出手段1083の処理手順を図8のフローチャートに従って以下に説明する。
Next, processing procedures of the conceptual
(1)順序関係の抽出
上記概念2(すなわち、データ項目名Aとデータ項目名Bの末尾からの共通文字列)が「年月日」のとき(S801)、概念3と概念4(すなわち、データ項目名Aとデータ項目名Bの差異)の時間的な順序関係を抽出する。まず、インスタンス文書格納部1042または1044からデータ項目名Aとデータ項目名Bの時系列的な順序関係を抽出する(S802)。
(1) Extraction of Order Relationship When the concept 2 (that is, the common character string from the end of the data item name A and the data item name B) is “year / month / day” (S801), the
データ項目名Aが常に順序が先であれば(S803)、概念3は概念4よりも順序が先であると判定する(S804)。例えば、「見積年月日」が「出荷年月日」よりも常に先であれば、「見積」は「出荷」よりも順序が「先」であると判定する。逆にデータ項目名Bが常に順序が先であれば(S805)、概念4は概念3よりも順序が「先」であると判定する(S806)。
If the order of the data item name A is always ahead (S803), it is determined that the
順序関係抽出手段1085は、時間軸上の位置を示すようなデータ項目名を対象に行う。したがって、データ項目末尾の文字列の条件としては、「年月日」の他に、「日付」「年月」「月・年・時刻」などが考えられる。
The order
例えば、「納品番号」のマッピング先候補として「見積番号」「出荷番号」「着荷番号」があるとき、時間的な順序関係に関して以下の情報が得られたとする。
(1)「見積 - 出荷 - 着荷」という順序関係
(2)「出荷 - 納品」という順序関係
この例では、「納品」は「出荷」より後であるという情報を利用することにより、「見積」「出荷」を「納品」の同義語候補からはずすことができる。これにより、「納品番号」のマッピング先の候補から「見積番号」と「出荷番号」をはずし、「着荷番号」に絞ることができる。
For example, when there are “estimate number”, “shipment number”, and “arrival number” as mapping destination candidates for “delivery number”, it is assumed that the following information is obtained regarding the temporal order relationship.
(1) Order relationship “estimate-shipment-arrival” (2) Order relationship “shipment-delivery” In this example, “estimation” is obtained by using information that “delivery” is later than “shipment”. “Shipment” can be removed from the synonym candidate “delivery”. As a result, the “estimate number” and the “shipment number” can be removed from the “delivery number” mapping destination candidates and can be narrowed down to the “arrival number”.
また、データ項目名のデータ属性10514、10524が「時間」や「年月日」であることを条件にして上記と同様の処理を実施してもよい。 Further, the same processing as described above may be performed on condition that the data attributes 10514 and 10524 of the data item name are “time” and “year / month / day”.
(2)弁別関係の抽出
概念3と概念4(すなわち、項目名Aと項目名Bの差異)に順序関係がないとき、弁別関係抽出手段1083が、概念3と概念4は弁別関係にあると判定する(S807)。例えば、データ項目名Aが「要求番号」、データ項目名Bが「要求年月日」の時、概念3は「番号」、概念4は「年月日」となり、これらの概念は「弁別関係」にあると判定する。なお、上記S801で概念2が「年月日」でないときにもこのS807に進んで弁別関係を設定する。
(2) Extraction of discrimination relationship When there is no order relationship between
ここで、「弁別関係」関係は、同義語にはなり得ない語彙の関係であって、特に、データベースの項目名としたときに違う項目としてあげられ得る関係や、複合語にしたときに意味の異なる項目として扱うことができる概念関係を示す。 Here, the “discrimination relationship” relationship is a vocabulary relationship that cannot be a synonym, and in particular, a relationship that can be raised as a different item when it is used as a database item name, or a compound word. The conceptual relationship that can be treated as different items.
以上の手順で抽出した概念間の順序関係および弁別関係の情報を、オントロジ1061の概念名10541、概念名10542、概念関係10543、データ項目名における位置10544、例10545に格納する(S808)。
Information on the order relationship and the discrimination relationship between concepts extracted by the above procedure is stored in the
(データ項目マッピング定義支援)
データ項目マッピング定義支援手段1087は、オントロジ1061に格納された概念間の弁別関係および順序関係を利用することにより、ソースデータスキーマとターゲットデータスキーマにおけるデータ項目名の対応付けを支援する。対応付けの結果は図12に示すデータスキーママッピング定義ファイル1071に格納される。
(Data item mapping definition support)
The data item mapping definition support means 1087 supports the correspondence between the data item names in the source data schema and the target data schema by using the discrimination relationship and the order relationship between the concepts stored in the
図12において、データスキーママッピング定義ファイル1071は、ソースデータスキーマデータ項目情報格納部1051におけるデータ項目名の位置を示すポインタを格納するソースポインタ107111と、ターゲットデータスキーマデータ項目情報格納部1052におけるデータ項目名の位置を示すポインタを格納するターゲットポインタ107112が一対となって構成される。
In FIG. 12, a data schema
上記データスキーママッピング定義ファイル1071を構築するデータ項目マッピング定義支援手段1087の処理について、図9のフローチャートを用いて以下に説明する。
The processing of the data item mapping definition support means 1087 for constructing the data schema
ソースデータスキーマとターゲットデータスキーマの2つのデータスキーマ間でのデータ項目名の対応付けの方法としては、「注文日付」と「注文年月日」のように共通文字列を含むデータ項目を候補として抽出することが考えられる。 As a method of associating data item names between the two data schemas of the source data schema and the target data schema, data items including common character strings such as “order date” and “order date” are candidates. It is possible to extract.
そこで、データ項目マッピング定義支援手段1087は、ソースデータスキーマデータ項目情報格納部1051およびターゲットデータスキーマデータ項目情報格納部1052からデータ項目を1つずつ取り出してデータ項目名10511,10521の文字列を比較する(S901〜S904)。ソースデータスキーマのデータ項目名10511をデータ項目名A、ターゲットデータスキーマのデータ項目名10521をデータ項目名Bとした時、データ項目名A、データ項目名Bを構成する要素概念を以下のように切り出す(S905)。
(1)概念1=項目名A、項目名Bの先頭からの共通文字列
(2)概念2=項目名A、項目名Bの末尾からの共通文字列
(3)概念3=項目名Aから上記の共通文字列を除いたもの
(4)概念4=項目名Bから上記の共通文字列を除いたもの
本システムの特徴は、データ項目名A、Bを構成する概念の弁別関係および時間的な順序関係に関する情報を利用して対応付け候補を絞る点にある。すなわち、データ項目名Aとデータ項目名Bに共通文字列がある場合、オントロジ1061を参照し、概念3と概念4(すなわち、項目名Aと項目名Bの差異)が“弁別関係”にないことを条件に(S906)、 概念3と概念4を同義語候補とする(S907)。そして、概念間の同義関係をオントロジ1061の概念名10611、概念名10612、概念関係10613、データ項目名における位置10614、例10615に格納する(S908)。このS908の処理が、図1に示した同義関係抽出手段1084に相当する。
Therefore, the data item mapping definition support means 1087 takes out the data items one by one from the source data schema data item
(1)
次に、データ項目マッピング定義支援手段1087は、データスキーママッピング定義ファイル1071のデータ項目名Aのマッピング先候補にデータ項目名Bを追加する(S909)。以上の処理をデータ項目名のすべての組み合わせについて行う(S910〜S913)。
Next, the data item mapping
同様に、データ項目マッピング定義支援手段1087は、概念3と概念4(すなわち、項目名Aと項目名Bの差異)の時間的な順序関係の情報を利用してマッピング先候補の絞り混みを行う。例えば、「納品番号」のマッピング先候補として「見積番号」「出荷番号」「着荷番号」があるとき、図5に示すように、オントロジ1061から以下の順序関係に関する情報が得られたとする。
(1)「出荷」は「納品」より先という順序関係
(2)「見積」は「出荷」より先という順序関係
この場合、「見積」「出荷」を「納品」の同義語候補からはずすことができる。これにより、「納品番号」のマッピング先の候補から「見積番号」と「出荷番号」をはずすことができる。
Similarly, the data item mapping definition support means 1087 performs constriction of mapping destination candidates using information on the temporal order relationship between the
(1) Order relationship that “shipment” comes before “delivery” (2) Order relationship that “estimate” precedes “shipment” In this case, “estimate” and “shipment” are excluded from synonym candidates for “delivery” Can do. Thereby, the “estimate number” and the “shipment number” can be removed from the “delivery number” mapping destination candidates.
このように、本システムのデータ項目マッピング定義支援手段1087は、以上の手順で2つのデータベース(データスキーマ)の項目名に関するマッピング先候補を絞った上で、マッピング先候補を表示装置103の画面に表示する。データ項目マッピング定義支援画面の表示例を図10に示す。
As described above, the data item mapping
図10において、データ項目マッピング定義支援画面1001は、対応付けを行うターゲットデータスキーマのデータ項目名を表示するターゲットスキーマ表示部10011と、基準となるソースデータスキーマのデータ項目名を表示するソーススキーマ表示部10012と、2つのデータスキーマで同義となるデータ項目名の構成要素の候補を表示する同義概念候補表示部10013と、2つのデータスキーマで弁別関係となるデータ項目名の構成要素の候補を表示する弁別概念候補表示部10014と、オペレータの操作を受け付ける登録ボタン10015からなる。同義概念候補表示部10013および弁別概念候補表示部10014には、当該データ項目名に含まれる概念の同義概念候補および弁別概念候補が表示される。
In FIG. 10, a data item mapping
ソーススキーマ表示部10012に表示されたデータ項目名に対して、ターゲットスキーマ表示部10011には関連付け(マッピング)を行う候補がマッピング先候補として表示される。そして、このマッピング先候補の中からユーザが適切な候補を選択して登録ボタン10015を入力装置102により選択(クリック)すると、選択されたマッピング先候補がデータスキーママッピング定義ファイル1071に格納される。
For the data item name displayed in the source
例えば、図10において、画面右側の表示領域に設定されたソーススキーマ表示部10012に「注文日付」というソースデータスキーマのデータ項目名が表示されると、左側の表示領域に設定されたターゲットスキーマ表示部10011には、「注文日付」に関連付けられる候補として「注文年月日」が表示される。オペレータは、データ項目マッピング定義支援手段1087が絞り込んだ結果について、承認するため登録ボタン10015を操作すればよい。また、画面1001の下部左側の同義概念候補表示部10013には、ターゲットスキーマ表示部10011に表示されたデータ項目名「注文年月日」に対する同義語が表示される。また、画面1001の下部右側の弁別概念候補表示部10014には、ソースデータスキーマとターゲットデータスキーマのマッピング先候補の語彙から区別すべき弁別関係となる語句が表示される。
For example, in FIG. 10, when the data item name of the source data schema “Order Date” is displayed in the source
同様に、同義概念候補、弁別概念候補の中からユーザが適切な候補を選択して登録ボタン10015をクリックすると、選択内容に従ってオントロジ1061の同義概念および弁別概念の情報を更新し、図5に示した確認フラグ10546に確認済みであることを示す値「1」が設定される。
Similarly, when the user selects an appropriate candidate from the synonym concept candidate and the discrimination concept candidate and clicks the
なお、上記ではオペレータの操作により2つのデータスキーマのデータ項目名の対応付け(マッピング)を承認する例を示したが、データ項目マッピング定義支援手段1087が絞り込んだマッピング先候補を、データスキーママッピング定義ファイル1071へ自動的に登録するようにしても良い。
In the above, an example in which the association (mapping) of the data item names of the two data schemas is approved by the operator's operation is shown. However, the mapping destination candidates narrowed down by the data item mapping
(オントロジ構築支援手段)
最後に、オントロジ構築支援手段1086について述べる。本実施形態では、前述のデータ項目マッピング定義支援手段1087の処理過程で部分的にオントロジ1061を構築していくが、オントロジ構築支援手段1086は、概念ごとに弁別概念および同義概念を確認する手段を提供する。オントロジ構築支援画面の一例を図11に示す。オントロジ構築支援画面901は、選択された概念に対応する語句を表示する概念表示部9011と、概念表示部9011に表示された語句に対して弁別関係となる概念と同義関係となる概念とを表示する概念関係表示部9012と、概念関係表示部9012に表示された概念に対して弁別関係となる語句と、同義関係となる語句とを表示する概念関係候補表示部9013と、オペレータの操作を受け付ける登録ボタン9014からなる。概念関係表示部9012には同義概念、弁別概念、および時間的順序関係が表示される。概念関係候補表示部9013には、概念関係格納部1054に格納されている同義概念候補、弁別概念候補、および順序関係候補が表示される。ユーザが概念関係候補の中から適切なものを選択して登録ボタン1094をクリックすると、選択された同義概念候補、弁別概念候補、および順序関係候補がオントロジ1061に格納され、確認フラグ10616に確認済みであることを示す値「1」が設定される。
(Ontology construction support means)
Finally, the ontology construction support means 1086 will be described. In this embodiment, the
なお、オントロジ1061の構築も、優先度の高い弁別概念候補と同義概念候補を自動的に選択して登録するようにしても良い。
The
(データスキーママッピング定義ファイル)
上記データスキーママッピング定義支援システムにより作成されたデータスキーママッピング定義ファイル1071は、ターゲットデータスキーマで定義されるデータベースと、ソースデータスキーマで定義されるデータベースの統合を行うことができる。
(Data schema mapping definition file)
The data schema
例えば、ターゲットデータスキーマで定義されるデータベースで「注文年月日」で検索を行う場合、データベースシステム(図示省略)がデータスキーママッピング定義ファイル1071を参照して、ターゲットデータスキーマのデータ項目名が「注文年月日」に対応するソースデータスキーマのデータ項目名を参照する。図12に示したデータスキーママッピング定義ファイル1071からソースデータスキーマのデータ項目名のポインタを取得し、ソースデータスキーマデータ項目情報格納部1051から「注文日付」を得る。これによりデータベースシステムは、ソースデータスキーマで定義されるデータベースに対して、「注文日付」で同様の検索を行うことで、2つのデータベースを仮想的に統合して運用することが可能となる。
For example, when searching for “order date” in a database defined in the target data schema, the database system (not shown) refers to the data schema
また、ソースデータスキーマで定義されるデータベースを、ターゲットデータスキーマで定義されるデータベースに統合する場合では、データスキーママッピング定義ファイル1071で対応付けられたデータ項目名間でデータの転送を行えばよい。例えば、図10で示したように、ソースデータスキーマで定義されるデータベースのデータ項目名「注文日付」のデータ(インスタンス)を、ターゲットデータスキーマデータ項目名定義されるデータベースのデータ項目名「注文年月日」のデータ(インスタンス)として書き込めばよい。
Further, when the database defined in the source data schema is integrated into the database defined in the target data schema, data may be transferred between the data item names associated in the data schema
(まとめ)
以上のように、本発明では、複数のデータスキーマ間で、データ項目名の対応付け候補を絞るために、概念間の弁別関係をオントロジに記述する。また、オントロジ構築を自動化するため、データスキーマにおけるデータ項目名間の関係から概念の弁別関係を抽出する。すなわち、「同じ親を持つデータ項目には、違う項目として区別できるような弁別性のある名前がつけられる」という性質を利用して、同じ親を持つデータ項目の語句から概念間の弁別関係を抽出する。例えば、「要求番号」と「要求日付」というデータ項目名が兄弟関係にある場合には、「『要求番号』と『要求日付』は弁別性のある概念(区別すべき概念)である」という知識を抽出する。さらに、「『要求番号』と『要求日付』の違いを表す『番号』と『日付』は弁別性のある概念(区別すべき概念)である」という知識を抽出する。
(Summary)
As described above, in the present invention, the discrimination relationship between concepts is described in an ontology in order to narrow down data item name association candidates among a plurality of data schemas. Moreover, in order to automate ontology construction, a concept discrimination relationship is extracted from the relationship between data item names in the data schema. In other words, using the property that “a data item with the same parent is given a distinguishable name that can be distinguished as a different item”, the discrimination relationship between concepts can be determined from the terms of data items with the same parent. Extract. For example, when the data item names “request number” and “request date” are in a sibling relationship, ““ request number ”and“ request date ”are distinct concepts (concepts to be distinguished)”. Extract knowledge. Furthermore, knowledge that “the“ number ”and the“ date ”representing the difference between the“ request number ”and the“ request date ”are distinguishable concepts” ”is extracted.
そして、本発明では、データ項目名の対応付け候補を絞るために、概念間の時間的順序関係をオントロジに記述する。また、オントロジ構築を自動化するため、インスタンス文書から時間的順序関係を抽出する。例えば、インスタンス文書において、「出荷日付」が「着荷日付」よりも常に早いことから、「『出荷』は『着荷』よりも早い」という時間的順序関係を抽出する。 And in this invention, in order to narrow down the correspondence candidate of a data item name, the temporal order relationship between concepts is described ontology. Also, in order to automate ontology construction, temporal order relations are extracted from the instance document. For example, in the instance document, since the “shipment date” is always earlier than the “arrival date”, the temporal order relationship ““ shipment ”is earlier than“ arrival ”” is extracted.
以上のように、本発明によれば、概念間の弁別関係および時間的順序関係を記述したオントロジを利用して複数のデータスキーマ間のデータ項目名を対応付けることにより、データ項目名の対応付け候補を正確かつ容易に絞ることができる。特に、前記従来例のように、手作業に頼っていたデータ項目名の対応付けを、自動化することが可能となるのである。これにより、異なるデータベース間の統合(仮想統合や物理的な統合)や、データベースの新規導入や更新、または業界標準に対応したデータベースのバージョンアップなどの変化に迅速に対応することが可能となる。 As described above, according to the present invention, by associating data item names between a plurality of data schemas using an ontology that describes the discrimination relationship and temporal order relationship between concepts, data item name association candidates Can be accurately and easily squeezed. In particular, as in the prior art, it is possible to automate the association of data item names that relied on manual work. As a result, it is possible to quickly respond to changes such as integration between different databases (virtual integration or physical integration), new introduction or update of databases, or database upgrades corresponding to industry standards.
<第2実施形態>
(弁別関係を利用した情報検索システム)
前記第1実施例形態では、データスキーマから「弁別関係」という概念関係を抽出し、データスキーマ間のデータ項目名の対応付けに利用する方法について述べた。「弁別関係」は2つのデータスキーマのデータ項目名の対応関係を絞り込む際に有効であるため、複数の情報サーバから適切な情報を検索するための検索条件の変換にも適用しうる。情報検索において、検索漏れを少なくする手段として、質問拡張という手法が知られている。
<Second Embodiment>
(Information retrieval system using discrimination)
In the first embodiment, the method of extracting the conceptual relationship “discrimination relationship” from the data schema and using it for associating the data item names between the data schemas has been described. Since the “discrimination relationship” is effective when narrowing down the correspondence between the data item names of the two data schemas, it can also be applied to conversion of search conditions for searching for appropriate information from a plurality of information servers. In information retrieval, a technique called question expansion is known as means for reducing search omissions.
質問拡張とは、検索質問中の単語と関連のある単語を検索質問に自動的に追加することである。例えば、検索質問が「自動車」であるとき、「車」「乗用車」「自家用車」などを追加する。質問拡張で追加する単語は、異表記(コンピュータ→コンピューター)・同義語(コンピュータ→計算機)・上位語(パソコン→コンピュータ)・下位語(コンピュータ→パソコン)などである。 Question expansion is to automatically add a word related to a word in the search question to the search question. For example, when the search question is “automobile”, “car”, “passenger car”, “private car”, and the like are added. The words to be added in the question expansion are different expressions (computer → computer), synonyms (computer → computer), broader terms (computer → computer), narrower terms (computer → computer), and the like.
追加すべき単語を見つける方法としては、辞書やシソーラスをあらかじめ作っておく方法が一般的である。例えば、特許文献2では、オントロジを用いて近似的な検索条件に変換する方法が開示されている。「類似度」という尺度で検索条件を拡張すると検索漏れは少なくなるが、ノイズが生じやすい。そこで、本第2実施形態では、「弁別関係」の知識を使って候補を条件に絞ることにより、より適切な検索条件に変換することが可能となる。例えば、「自家用車」という検索質問に対して、「乗用車」「車」などの上位語を付加するだけでなく、「自家用」と「商用」が弁別関係にあるという知識を用いて「商用車」を除外することにより、ノイズを減らすことができる。
As a method of finding a word to be added, a method of creating a dictionary or a thesaurus in advance is common. For example,
以下、図13のフローチャートに従って、オントロジに記述された階層関係および弁別関係の情報を用いた情報検索システムの検索の手順を示す。なお、図13のフローチャートは、図1と同様の計算機で実行されるものである。この検索システムは、複数の会社の製品体系を参照して、ユーザが探したい製品の情報を検索するシステムである。本システムは単語間の概念関係を記録する辞書と、本発明による単語間の弁別関係を記録する辞書とを保持することを前提とする。まず、ユーザが探したい製品カテゴリ名として「福祉車両」と入力すると(S1301)、システムは参考情報として、「福祉車両」に関する製品部品体系の例、たとえば図14(a)に示すようなA社の製品分類体系を画面に表示する(S1302)。表示の形式は図14に限らず、入力単語に関連している単語が明示されれば良い。ユーザが製品分類名として「昇降シート車」を選択すると、システムは「昇降シート車」を検索キーワードとして認識する(S1303)。さらに、「昇降シート車」の上位概念、すなわち「介護式福祉車両」と「福祉車両」を検索キーワードに追加する(S1304)。 Hereinafter, according to the flowchart of FIG. 13, a search procedure of the information search system using the information on the hierarchical relationship and the discrimination relationship described in the ontology will be described. The flowchart in FIG. 13 is executed by the same computer as in FIG. This search system refers to a product system of a plurality of companies, and is a system for searching for product information that the user wants to search for. The system is premised on maintaining a dictionary that records conceptual relationships between words and a dictionary that records discrimination relationships between words according to the present invention. First, when the user inputs “welfare vehicle” as a product category name to be searched for (S1301), the system uses, as reference information, an example of a product part system related to “welfare vehicle”, for example, Company A as shown in FIG. The product classification system is displayed on the screen (S1302). The display format is not limited to that shown in FIG. 14, and a word related to the input word may be specified. When the user selects “elevating seat car” as the product classification name, the system recognizes “elevating seat car” as a search keyword (S1303). Further, the superordinate concept of “elevating seat car”, that is, “nursing care vehicle” and “welfare vehicle” are added to the search keyword (S1304).
次に、図14(b)に示すような弁別関係に関する情報を参照し、検索キーワードの構成語の弁別概念を除外キーワードとして設定する(S1305)。例えば、「昇降シート車」の弁別概念「車いす移動車」、「ストレッチャー移動車」、「昇降」の弁別概念「回転」、および「介護式」の弁別概念「自操式」、「公共交通」を除外キーワードとして設定する。このように検索キーワードの拡張と除外キーワードの設定を行った上で、複数の会社の製品体系を対象に、「昇降シート車」に対応しうる製品の情報を検索する(S1306)。例えば、「『昇降シート車』あるいは『介護式福祉車両』あるいは『福祉車両』に分類されるものであって、かつ、『車いす移動車』『ストレッチャー移動車』『回転』『自操式』『公共交通』のいずれも含まない」というものを検索する。この方法により、図15(a)、(b)に示すように、B社には「昇降シート車」という製品分類名がない場合でも、「福祉車両」のうち「自操式仕様車」と「回転シート仕様車」を「車いす移動車」除外し、「リフトアップシート仕様車」だけを検索結果として表示する(S1307)。本発明における弁別関係を用いなければ、検索キーワードを上位概念である「福祉車両」に拡張することはできるが、「自操式仕様車」と「回転シート仕様車」「車いす移動車」を候補から除外することができない。 Next, with reference to information regarding the discrimination relationship as shown in FIG. 14B, the discrimination concept of the constituent words of the search keyword is set as an excluded keyword (S1305). For example, the discriminating concept of “lifting seat car” “wheelchair moving vehicle”, “stretcher moving vehicle”, the discriminating concept of “elevating” “rotation”, and the discriminating concept of “care type” “self-operated”, “public transportation "As a negative keyword. After the search keyword is expanded and the exclusion keyword is set in this way, product information that can be used for the “lifting seat car” is searched for the product systems of a plurality of companies (S1306). For example, “classified as“ lifting seat car ”or“ nursing care vehicle ”or“ welfare vehicle ”, and“ wheelchair moving vehicle ”“ stretcher moving vehicle ”“ rotation ”“ self-operated ” “None of public transportation” is searched. With this method, as shown in FIGS. 15 (a) and 15 (b), even if company B does not have a product classification name “elevating seat vehicle”, “self-operated specification vehicle” among “welfare vehicles” “Rotating seat specification vehicle” is excluded from “wheelchair moving vehicle”, and only “lift-up seat specification vehicle” is displayed as a search result (S1307). If the discrimination relationship in the present invention is not used, the search keyword can be expanded to the upper concept “welfare vehicle”, but “self-operated specification vehicle”, “rotating seat specification vehicle” and “wheelchair moving vehicle” are candidates. Cannot be excluded.
このように、本発明によれば弁別関係の知識を使って検索条件を絞ることにより、より適切な検索条件に変換でき、検索漏れを防ぎながらノイズの少ない検索結果を得ることができる。 As described above, according to the present invention, by narrowing down the search condition using the knowledge of the discrimination relationship, it is possible to convert to a more appropriate search condition, and it is possible to obtain a search result with less noise while preventing a search omission.
本発明は、異なるデータベースの統合に適用することができ、特に、データベースの新規企業内/企業間での情報連携やサービス連携を実現するためのデータベースの仮想統合に適用することができる。また、本発明は、語句の概念を判定する情報検索システムなどに適用することもできる。 The present invention can be applied to integration of different databases, and in particular, can be applied to virtual integration of databases for realizing information cooperation and service cooperation within a new company / between companies. The present invention can also be applied to an information search system that determines the concept of a phrase.
101 CPU
102 入力装置
103 表示装置
104 入力データ格納部
105 オントロジ構築用データ格納部
106 オントロジ格納部
107 データスキーママッピング定義格納部
108 メモリ108
1041 ソースデータスキーマ定義文書格納部
1042 ソースインスタンス文書格納部
1043 ターゲットデータスキーマ定義文書格納部
1044 ターゲットインスタンス文書格納部
1051 ソースデータスキーマデータ項目情報格納部
1052 ターゲットデータスキーマデータ項目情報格納部
1053 概念情報格納部
1061 オントロジ
1071 データスキーママッピング定義ファイル
1081 データ項目情報取り込み手段
1082 概念抽出手段
1083 弁別関係抽出手段
1084 順序関係抽出手段
1085 同義関係抽出手段
1086 オントロジ構築支援手段
1087 データ項目マッピング定義支援手段
101 CPU
102
1041 Source data schema definition
Claims (11)
前記第1のデータスキーマを構成するデータ項目名を抽出する手順と、
前記第2のデータスキーマを構成するデータ項目名を抽出する手順と、
前記抽出した第1のデータスキーマと第2のデータスキーマのそれぞれのデータ項目名に含まれる要素概念を抽出する手順と、
前記抽出した要素概念からデータ項目名間の弁別関係を設定する手順と、
前記第1のデータスキーマのデータ項目名と第2のデータスキーマからデータ項目名をそれぞれ読み込んで、前記弁別関係に基づいて前記読み込んだ2つのデータ項目名について対応関係を設定する手順と、
前記データ項目名の対応関係を蓄積する手順と、
を計算機に実行させることを特徴とするプログラム。 Referring to the first data schema and the second data schema describing the data structure, the data item names constituting the first data schema are associated with the data item names constituting the second data schema. A program,
A procedure of extracting data item names constituting the first data schema;
A procedure for extracting data item names constituting the second data schema;
A procedure for extracting an element concept included in each data item name of the extracted first data schema and second data schema;
A procedure for setting a discrimination relationship between data item names from the extracted element concept;
A procedure for reading data item names from the data item name of the first data schema and a second data schema, respectively, and setting a correspondence relationship for the two read data item names based on the discrimination relationship;
A procedure for storing the correspondence of the data item names;
A program characterized by causing a computer to execute.
前記第1のデータスキーマまたは第2のデータスキーマについて、それぞれ2つのデータ項目名を読み込む手順と、
前記2つのデータ項目名の文字列を比較して同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する1組の文字列を第1の要素概念として抽出する手順と、
前記2つのデータ項目名の文字列を比較して同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する文字列を除いた1組の文字列を第2の要素概念として抽出する手順と、
を含むことを特徴とする請求項1に記載のプログラム。 The procedure for extracting the element concept is as follows:
A procedure for reading two data item names for each of the first data schema and the second data schema;
When the character strings of the two data item names are compared to include a synonymous character string, a common set of character strings is extracted as a first element concept among the character strings constituting the two data item names And the steps to
When the character strings of the two data item names are compared and the synonymous character strings are included, a set of character strings excluding a common character string from among the character strings constituting the two data item names is a second character string. To extract as an element concept of
The program according to claim 1, comprising:
前記第2の要素概念に対応する2つの項目名について、時系列的な順序関係を判定する手順と、
前記第2の要素概念に時系列的な順序関係が含まれない場合には、当該第2の要素概念を構成する1組の文字列が弁別関係であることを設定する手順と、
を含むことを特徴とする請求項2に記載のプログラム。 The procedure for setting the discrimination relationship is as follows:
A procedure for determining a time-series order relationship for two item names corresponding to the second element concept;
When the second element concept does not include a time-series order relationship, a procedure for setting that a set of character strings constituting the second element concept is a discrimination relationship;
The program according to claim 2, comprising:
前記読み込んだ2つのデータ項目名の文字列を比較して、同義の文字列を含みかつ弁別関係にない場合に、これら2つのデータ項目名が対応関係にあることを設定することを特徴とする請求項1に記載のプログラム。 The procedure for the association is as follows:
A comparison is made between the character strings of the two read data item names, and the two data item names are set in correspondence when they contain synonymous character strings and are not in a discrimination relationship. The program according to claim 1.
前記第1のデータスキーマを構成するデータ項目名を抽出する手順と、
前記第2のデータスキーマを構成するデータ項目名を抽出する手順と、
前記第1のデータスキーマまたは第2のデータスキーマについて、それぞれ2つのデータ項目名を読み込む手順と、
前記2つのデータ項目名の文字列を比較して同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する文字列を除いた1組の文字列を第2の要素概念として抽出する手順と、
前記第2の要素概念に対応する2つの項目名について、時系列的な順序関係を判定する手順と、
前記第2の要素概念に時系列的な順序関係が含まれない場合には、当該第2の要素概念を構成する1組の文字列が弁別関係であることを設定する手順と、
を含むことを特徴とするプログラム。 Referring to the first data schema and the second data schema describing the data structure, generating a discrimination relationship between the data item names constituting the first data schema and the data item names constituting the second data schema A program to
A procedure of extracting data item names constituting the first data schema;
A procedure for extracting data item names constituting the second data schema;
A procedure for reading two data item names for each of the first data schema and the second data schema;
When the character strings of the two data item names are compared and the synonymous character strings are included, a set of character strings excluding a common character string from among the character strings constituting the two data item names is a second character string. To extract as an element concept of
A procedure for determining a time-series order relationship for two item names corresponding to the second element concept;
When the second element concept does not include a time-series order relationship, a procedure for setting that a set of character strings constituting the second element concept is a discrimination relationship;
The program characterized by including.
前記1組の文字列と、これら1組の文字列の概念関係が弁別関係であることを示す値をオントロジに格納する手順を含むことを特徴とする請求項5に記載のプログラム。 The procedure for setting the discrimination relationship is as follows:
6. The program according to claim 5, further comprising a procedure for storing in the ontology a value indicating that the set of character strings and a conceptual relationship between the set of character strings is a discrimination relationship.
前記1組の文字列と、これら1組の文字列の概念関係が同義関係であることを示す値をオントロジに格納する手順と、
をさらに含むことを特徴とする請求項6に記載のプログラム。 When the character strings of the two data item names are compared to include a synonymous character string, a common set of character strings is extracted as a first element concept among the character strings constituting the two data item names And the steps to
A procedure for storing in the ontology a value indicating that the set of character strings and the conceptual relationship of the one set of character strings are synonymous;
The program according to claim 6, further comprising:
入力された第2のデータスキーマを格納する第2データスキーマ格納部と、
前記第1データスキーマ格納部から第1のデータスキーマを構成するデータ項目名を抽出して第1データ項目格納部へ格納し、前記第2データスキーマ格納部から第2のデータスキーマを構成するデータ項目名を抽出して第2データ項目格納部へ格納するデータ項目名取り込み部と、
前記第1データ項目格納部と第2データ項目格納部のそれぞれのデータ項目名に含まれる要素概念を抽出する概念抽出部と、
前記抽出した要素概念からデータ項目名間の弁別関係を抽出してオントロジに格納する弁別関係抽出部と、
前記抽出した要素概念からデータ項目名間の同義関係を抽出してオントロジに格納する同義関係抽出部と、
前記第1データ項目格納部と、前記第2データ項目格納部からデータ項目名をそれぞれ読み込んで、前記オントロジに基づいて前記読み込んだ2つのデータ項目名について対応関係を判定し、この対応関係をマッピングファイルに格納するマッピング定義部と、
を備えたことを特徴とする計算機システム。 A first data schema storage unit for storing the input first data schema;
A second data schema storage unit for storing the input second data schema;
Data item names constituting the first data schema are extracted from the first data schema storage unit and stored in the first data item storage unit, and data constituting the second data schema is obtained from the second data schema storage unit A data item name capturing unit for extracting the item name and storing it in the second data item storage unit;
A concept extraction unit for extracting an element concept included in each data item name of the first data item storage unit and the second data item storage unit;
A discrimination relationship extracting unit that extracts a discrimination relationship between data item names from the extracted element concept and stores it in an ontology; and
A synonym relation extracting unit that extracts a synonym relation between data item names from the extracted element concept and stores it in an ontology; and
Data item names are respectively read from the first data item storage unit and the second data item storage unit, and correspondences between the two data item names read are determined based on the ontology, and the correspondences are mapped. Mapping definition part to be stored in the file,
A computer system characterized by comprising:
前記第1データ項目格納部または第2データ項目格納部から、それぞれ2つのデータ項目名を読み込んで当該2つのデータ項目名の文字列を比較する比較部と、
前記2つのデータ項目名が同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する1組の文字列を第1の要素概念として抽出し、前記2つのデータ項目名が同義の文字列を含むときに、前記2つのデータ項目名を構成する文字列のうち共通する文字列を除いた1組の文字列を第2の要素概念として抽出する要素概念抽出部と、
を有することを特徴とする請求項8に記載の計算機システム。 The concept extraction unit
A comparison unit that reads two data item names from the first data item storage unit or the second data item storage unit and compares character strings of the two data item names;
When the two data item names include synonymous character strings, a common set of character strings is extracted as a first element concept among the character strings constituting the two data item names, and the two data An element concept extraction unit that extracts, as a second element concept, a set of character strings excluding a common character string from character strings constituting the two data item names when the item name includes a synonymous character string When,
The computer system according to claim 8, comprising:
前記第2の要素概念に対応する2つの項目名について、時系列的な順序関係を抽出する手順順序関係抽出部と、
前記第2の要素概念に時系列的な順序関係が含まれない場合には、当該第2の要素概念を構成する1組の文字列が弁別関係であると判定する弁別関係判定部と、
を有することを特徴とする請求項9に記載の計算機システム。 The discrimination relationship extraction unit
A procedure order relation extraction unit that extracts a time-series order relation for two item names corresponding to the second element concept;
When the second element concept does not include a time-series order relationship, a discrimination relationship determination unit that determines that a set of character strings constituting the second element concept is a discrimination relationship;
The computer system according to claim 9, comprising:
検索キーとなる単語の入力を受け付ける手順と、
単語間の概念関係を記録する辞書に基いて、前記入力された単語の上位概念である単語を上記検索キーとして追加する手順と、
単語間の弁別関係を記録する辞書に基いて、前記検索キーの各単語および該単語の構成要素と弁別関係にある単語を除外キーとして設定する手順と、
前記検索キーを用いて検索を行う手順と、
該検索結果から前記除外キーを含むものを除外して検索結果を出力する手順と、
を計算機に実行させることを特徴とする検索プログラム。 A search program that performs a search for an input word,
A procedure to accept input of a word as a search key,
A procedure for adding a word that is a superordinate concept of the input word as a search key based on a dictionary that records a conceptual relationship between words;
A procedure for setting each word of the search key and a word having a discrimination relationship with a component of the word as an exclusion key based on a dictionary that records a discrimination relationship between words;
Performing a search using the search key;
A procedure for outputting a search result by excluding those including the exclusion key from the search result;
A search program characterized by causing a computer to execute.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374359A JP4859456B2 (en) | 2005-12-27 | 2005-12-27 | Data schema mapping program and computer system |
US11/642,828 US7996437B2 (en) | 2005-12-27 | 2006-12-21 | Program for mapping of data schema |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374359A JP4859456B2 (en) | 2005-12-27 | 2005-12-27 | Data schema mapping program and computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007179146A JP2007179146A (en) | 2007-07-12 |
JP4859456B2 true JP4859456B2 (en) | 2012-01-25 |
Family
ID=38195184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005374359A Expired - Fee Related JP4859456B2 (en) | 2005-12-27 | 2005-12-27 | Data schema mapping program and computer system |
Country Status (2)
Country | Link |
---|---|
US (1) | US7996437B2 (en) |
JP (1) | JP4859456B2 (en) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7865519B2 (en) * | 2004-11-17 | 2011-01-04 | Sap Aktiengesellschaft | Using a controlled vocabulary library to generate business data component names |
CA2593233A1 (en) * | 2007-07-06 | 2009-01-06 | Cognos Incorporated | System and method for federated member-based data integration and reporting |
US8041746B2 (en) * | 2007-10-30 | 2011-10-18 | Sap Ag | Mapping schemas using a naming rule |
JP5327230B2 (en) * | 2008-12-05 | 2013-10-30 | 富士通株式会社 | Operation management support program, recording medium recording the program, operation management support device, and operation management support method |
WO2010067295A1 (en) | 2008-12-12 | 2010-06-17 | Koninklijke Philips Electronics N.V. | A method and module for linking data of a data source to a target database |
JP5250463B2 (en) * | 2009-03-23 | 2013-07-31 | エヌ・ティ・ティ・コムウェア株式会社 | Semantic association apparatus, processing method thereof, and program |
EP2246810A1 (en) | 2009-04-30 | 2010-11-03 | Collibra NV/SA | Method for ontology evolution |
FR2946208B1 (en) * | 2009-05-26 | 2012-02-10 | Thales Sa | METHOD FOR ADAPTING DATA IN A DATA TRANSMISSION SYSTEM AND ASSOCIATED SYSTEM |
JP2011028379A (en) * | 2009-07-22 | 2011-02-10 | Toshiba Corp | Program and device for converting data structure |
JP5423489B2 (en) * | 2010-03-08 | 2014-02-19 | 富士通株式会社 | Configuration information management apparatus, configuration information management apparatus dictionary generation method, and configuration information management apparatus dictionary generation program |
EP2365447A1 (en) * | 2010-03-11 | 2011-09-14 | British Telecommunications | Data integration system |
US9037615B2 (en) | 2010-05-14 | 2015-05-19 | International Business Machines Corporation | Querying and integrating structured and unstructured data |
US8355905B2 (en) * | 2010-05-14 | 2013-01-15 | International Business Machines Corporation | Mapping of relationship entities between ontologies |
US8489639B2 (en) * | 2011-03-04 | 2013-07-16 | Accenture Global Services Limited | Information source alignment |
JP5851962B2 (en) * | 2011-09-19 | 2016-02-03 | 株式会社東芝 | Relay server |
WO2013128611A1 (en) * | 2012-03-01 | 2013-09-06 | 株式会社日立製作所 | Data management system, data management method, and computer-readable storage medium |
US20130325867A1 (en) * | 2012-06-04 | 2013-12-05 | Sap Ag | Ide integrated catalog and ddic-bridge for in-memory database views |
US9870152B2 (en) | 2012-06-07 | 2018-01-16 | Hitachi, Ltd. | Management system and management method for managing data units constituting schemas of a database |
US9659042B2 (en) * | 2012-06-12 | 2017-05-23 | Accenture Global Services Limited | Data lineage tracking |
JP6079780B2 (en) | 2012-07-10 | 2017-02-15 | 富士通株式会社 | Program, mapping apparatus and mapping method |
JP6012120B2 (en) * | 2013-03-22 | 2016-10-25 | 京セラドキュメントソリューションズ株式会社 | Sales support system and sales support program |
JP6268435B2 (en) * | 2014-03-03 | 2018-01-31 | 富士通株式会社 | Database reconstruction method, database reconstruction program, and database reconstruction device |
US10545955B2 (en) | 2016-01-15 | 2020-01-28 | Seven Bridges Genomics Inc. | Methods and systems for generating, by a visual query builder, a query of a genomic data store |
US10454497B1 (en) | 2018-10-22 | 2019-10-22 | Dell Products L. P. | Reducing a size of multiple data sets |
US11675752B2 (en) * | 2019-09-27 | 2023-06-13 | Atlassian Pty Ltd. | Systems and methods for generating schema notifications |
US20220147568A1 (en) * | 2020-11-10 | 2022-05-12 | Sap Se | Mapping expression generator |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214865A (en) * | 1993-01-12 | 1994-08-05 | Fujitsu Ltd | Object base data processor |
US5510978A (en) * | 1994-01-26 | 1996-04-23 | Vera Institute Of Justice | Electronic apparatus for implementing community policing program and method therefor |
JPH08249338A (en) * | 1995-03-08 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Data base concept schemer integration support device |
US5778373A (en) * | 1996-07-15 | 1998-07-07 | At&T Corp | Integration of an information server database schema by generating a translation map from exemplary files |
JP3779935B2 (en) * | 2002-04-23 | 2006-05-31 | 株式会社ジャストシステム | Document search apparatus, document search method, and program causing computer to execute the method |
JP3908090B2 (en) | 2002-05-30 | 2007-04-25 | 日本電信電話株式会社 | INFORMATION SEARCH SYSTEM, INFORMATION SEARCH METHOD, INFORMATION SEARCH PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM |
US7254581B2 (en) * | 2002-11-13 | 2007-08-07 | Jerry Johnson | System and method for creation and maintenance of a rich content or content-centric electronic catalog |
US7739223B2 (en) * | 2003-08-29 | 2010-06-15 | Microsoft Corporation | Mapping architecture for arbitrary data models |
JP2005157823A (en) | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | Knowledge base system, inter-word meaning relation determination method in the same system and computer program |
-
2005
- 2005-12-27 JP JP2005374359A patent/JP4859456B2/en not_active Expired - Fee Related
-
2006
- 2006-12-21 US US11/642,828 patent/US7996437B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20070150495A1 (en) | 2007-06-28 |
US7996437B2 (en) | 2011-08-09 |
JP2007179146A (en) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4859456B2 (en) | Data schema mapping program and computer system | |
US9031895B2 (en) | Matching metadata sources using rules for characterizing matches | |
JP5367947B2 (en) | Method and system for terminology database expansion | |
US20090306963A1 (en) | Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data | |
KR101976220B1 (en) | Recommending data enrichments | |
US20050149538A1 (en) | Systems and methods for creating and publishing relational data bases | |
US20150100542A1 (en) | Automatic generation of an extract, transform, load (etl) job | |
EP1536326A2 (en) | Multi-language support at runtime and design | |
US8161061B2 (en) | Module and method for searching named entity of terms from the named entity database using named entity database and mining rule merged ontology schema | |
US8209346B2 (en) | Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema | |
US20210042589A1 (en) | System and method for content-based data visualization using a universal knowledge graph | |
US10127292B2 (en) | Knowledge catalysts | |
US11194798B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data | |
JP2000076109A (en) | Data display device and data display method | |
US20090228794A1 (en) | Business specification comprehension assistance system and method | |
Pan et al. | Natural language aided visual query building for complex data access | |
CN112560418A (en) | Creating row item information from freeform tabular data | |
US10896227B2 (en) | Data processing system, data processing method, and data structure | |
US20060294050A1 (en) | Retrieving server-based help content | |
JP5400688B2 (en) | Proposed specification creation support method, program, and proposed specification creation support device | |
JP2785317B2 (en) | Software standardization method | |
JP2002007177A (en) | Method for defining multi-database | |
JP2019164557A (en) | Retrieval system | |
Lawrence et al. | Integrating data sources using a standardized global dictionary | |
US20210141773A1 (en) | Configurable Hyper-Referenced Associative Object Schema |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111101 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |