JP6723893B2 - データ統合装置およびデータ統合方法 - Google Patents

データ統合装置およびデータ統合方法 Download PDF

Info

Publication number
JP6723893B2
JP6723893B2 JP2016198655A JP2016198655A JP6723893B2 JP 6723893 B2 JP6723893 B2 JP 6723893B2 JP 2016198655 A JP2016198655 A JP 2016198655A JP 2016198655 A JP2016198655 A JP 2016198655A JP 6723893 B2 JP6723893 B2 JP 6723893B2
Authority
JP
Japan
Prior art keywords
data
predetermined
data format
similarity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016198655A
Other languages
English (en)
Other versions
JP2018060430A (ja
JP2018060430A5 (ja
Inventor
岳志 半田
岳志 半田
祐子 山下
祐子 山下
山本 秀典
秀典 山本
川崎 健治
健治 川崎
修一郎 崎川
修一郎 崎川
高志 津野
高志 津野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016198655A priority Critical patent/JP6723893B2/ja
Priority to KR1020197003935A priority patent/KR102243794B1/ko
Priority to PCT/JP2017/011163 priority patent/WO2018066152A1/ja
Priority to US16/330,397 priority patent/US20200193343A1/en
Publication of JP2018060430A publication Critical patent/JP2018060430A/ja
Publication of JP2018060430A5 publication Critical patent/JP2018060430A5/ja
Application granted granted Critical
Publication of JP6723893B2 publication Critical patent/JP6723893B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2205/00Indexing scheme relating to group G06F5/00; Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F2205/003Reformatting, i.e. changing the format of data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0661Format or protocol conversion arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Human Computer Interaction (AREA)

Description

本発明は、データ統合装置およびデータ統合方法に関するものであり、具体的には、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する技術に関する。
多種多様なシステムを跨いだデータの横断的利活用促進を目的に、データ統合装置が開発されてきた。こうしたデータ統合装置では、データソースとなる様々な業務システムの多種多様なデータを一元的に収集・蓄積する一方で、当該蓄積されたデータの形式や構造を、利用者の要求に応じて変換する処理を行う。
上述のような変換処理に際しては、変換元データのデータ構造と変換先データのデータ構造との間で互いのデータ項目同士の対応関係付けを行う処理が予め必要となる。処理対象となるデータがRDBデータであれば、そうした処理のロジックをテーブル毎に設計する必要がある。
この変換処理において多種多様なシステムのデータを処理対象とした場合、変換対象となるテーブル数が膨大となるケースが想定される。その場合、各テーブルのデータ項目同士の対応関係付けに要する手間や時間も増大し、上述の変換処理のロジック設計に要する設計開発者の作業工数・コストが増大することが懸念される。
こうしたデータ統合に伴う設計者の作業工数低減を課題とする従来技術として、以下のものが提案されている。すなわち、情報源から抽出したデータを変換して格納先に登録するための情報統合プログラムであって、前記情報源から取得した第1のスキーマ情報と、当該第1のスキーマ情報の変更前に前記情報源から取得した第2のスキーマ情報とを比較し、前記情報源のスキーマの変更を検出するステップと、前記スキーマの変更に関連する項目の属性値で、スキーマ情報に含まれる属性値とデータモデルにおける項目情報とを対応付けて格納する対応表格納部を探索するステップと、前記対応表格納部において前記スキーマの変更に関連する項目の属性値が検出された場合には、当該スキーマの変更に関連する項目の属性値に対応する項目情報を用いて、前記第2のスキーマ情報に対応するデータモデルである変更前データモデルを格納するメタ情報格納部に格納されている前記変更前データモデルを改修して変更後データモデルを生成し、記憶装置に格納するステップと、前記記憶装置に格納された前記変更後データモデルを、前記格納先に対応するデータモデルに変換するための変更後統合ロジックを生成し、前記メタ情報格納部に格納するロジック改修ステップとをコンピュータに実行させるための情報統合装置(特許文献1参照)などが提案されている。
特開2012−27690号公報
しかしながら従来技術においては、上述の変換処理を要求する所定システムやアプリケーションにとって必要なデータ形式が、統合されたデータ形式とは異なる場合がある。ここで、統合されたデータ形式とは、例えば、多種多様なシステムにおける所定データの各間で最も共通的に用いられているデータ項目からなるデータ形式であり、各システムにお
けるデータとの間で、上述したデータ項目同士の対応関係付けが定義済みのものである。従って、上述の所定システム等が必要とするデータ形式が、統合されたデータ形式と異なることは、上述の変換処理のために必要な定義等が未知の状態であることを意味する。
この場合、統合されたデータ形式を、所定システム等が必要なデータ形式へと変換するための、変換処理ロジックの設計開発作業が生じる。また、上述の統合されたデータ形式においては(各システムのデータ間で共通的に用いられないため)変換対象外とされたデータについて要求があった場合、例えば、情報源のシステムの所定データに関してデータ統合装置にて上述の統合をするための対応表や変換処理ロジック設計が必要となってしまう。
そこで本発明の目的は、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する技術を提供することにある。
上記課題を解決する本発明のデータ統合装置は、所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置と、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記所定システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行する演算装置と、を備えることを特徴する。
また、本発明のデータ統合方法は、所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置を備える情報処理装置が、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記所定システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行することを特徴する。
本発明によれば、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援可能となる。
本実施形態におけるデータ統合装置を含むネットワーク構成例を示す図である。 本実施形態のデータ構造定義テーブルのデータフォーマット例を示す図である。 本実施形態の再利用可能部品抽出結果格納テーブルのデータフォーマット例を示す図である。 本実施形態の類似度算出パラメータテーブルのデータフォーマット例を示す図である。 本実施形態におけるマスタデータ形式のテーブルと、配信先システムが要求するデータ形式のテーブル間の類似度を算出した結果を格納するデータフォーマットの例を示す図である。 本実施形態におけるマスタデータ形式のテーブルと、データ構造定義テーブルに定義されるデータ形式のテーブル間の類似度を算出した結果を格納するデータフォーマットの例を示す図である。 本実施形態のデータ変換処理部品定義テーブルのデータフォーマット例を示す図である。 本実施形態のデータ統合装置におけるデータ変換・配信処理の概念を示す図である。 本実施形態におけるデータ統合装置のハードウェア構成例を示す図である。 本実施形態におけるデータ統合方法のフロー例1を示す図である。 本実施形態の配信先システムが要求するデータ形式のデータ構造のデータフォーマット例を示す図である。 本実施形態におけるデータ統合方法のフロー例2を示す図である。 本実施形態におけるデータ統合方法のフロー例3を示す図である。 本実施形態の配信先システムが要求するデータ形式のデータ構造とマスタデータ形式のデータ構造との類似度算出処理を説明する図である。 本実施形態におけるデータ統合方法のフロー例4を示す図である。 本実施形態の配信先システムが要求するデータ形式へデータ変換を行う再利用可能なデータ変換処理部品候補を抽出する処理の説明する図(その1)である。 本実施形態の配信先システムが要求するデータ形式へデータ変換を行う再利用可能なデータ変換処理部品候補を抽出する処理の説明する図(その2)である。 本実施形態における画面例1を示す図である。 本実施形態における画面例2を示す図である。
−−−ネットワーク構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態のデータ統合装置100を含むネットワーク構成図である。図1にて示すように、本実施形態のデータ統合装置100は、入力端末120、配信元システム130、および配信先システム140と、専用回線150を介して通信可能に接続されている。
このうち、配信元システム130は、例えば鉄道事業者が管理・運用する列車ダイヤデータを保持するシステムである。この配信元システム130からデータ統合装置100に配信されるデータが、データ統合装置100における所定のデータ変換プログラム(変換処理定義)によって、配信先システム140におけるデータ形式に変換され、当該配信先システム140に配信されることとなる。
また、配信先システム140は、上述の配信元システム130由来の所定データに基づき、適宜な業務やサービスを実行する鉄道事業者が管理・運用するシステムである。具体
的には、列車運行状況の観測データと上述の列車ダイヤデータとを利用して、列車運行管理を行うシステム等を想定出来る。
また、入力端末120は、上述の配信元システム130から得られるデータを、配信先システム140の望むデータ形式に変換するためのデータ変換プログラム、の設計開発者が操作する端末となる。
こうしたネットワーク構成に含まれる本実施形態のデータ統合装置100は、適宜なハードウェアおよびソフトウェアにより実装される機能部品として、ユーザインターフェース部111、データ構造類似度算出部112、再利用可能データ変換部品抽出部113、および通信部114、を備える。またデータ統合装置100は、こうした機能部が取り扱うデータの格納先として、データ格納部101を備える。
上述の機能部のうち、データ構造類似度算出部112は、配信先システム140が要求するデータ形式のテーブルにおけるデータ構造と、データ統合装置100が予め保持するマスタデータ形式のテーブルにおけるデータ構造との、類似度を算出するものである。上述のマスタデータ形式(統合されたデータ形式)とは、例えば、所定業務のデータに関して複数の配信先システム140を跨がって共通的に用いられているデータ項目、からなる所定テーブルのデータ形式を想定する。
なお、こうしたマスタデータ形式と配信先システム140におけるデータ形式(データ統合装置100が既知のもの)との関係において、各データ項目同士の対応関係付けが定義済み、すなわち、該当テーブルのデータ項目間でデータ変換処理を行うためのデータ変換プログラムがデータ統合装置100に既に保持されているとする。上述のデータ構造類似度算出部112で行う処理手順の詳細は、図12aに示すフローチャートにて後述する。
また、再利用可能データ変換部品抽出部113は、配信元システム130から配信されたデータを、マスタデータ形式を介することで配信先システム140が要求するデータ形式に変換する、データ変換プログラムの候補、すなわち「再利用可能なデータ変換処理部品候補」を抽出するものである。再利用可能データ変換部品抽出部113で行う処理手順の詳細は図14に示すフローチャートにて後述する。
また、通信部114は、専用回線150を介して配信元システム130と通信し、所定の配信データ及びこの配信データに関するデータ構造定義情報131の送受信を行うものである。上述の配信データ(例:列車ダイヤデータ)は、データ構造定義テーブル107(図2)で定義されるデータ構造を有した表形式データを想定する。データ統合装置100は、こうした表形式データを配信元システム130から得て配信元データ格納部110(図8)に格納することとなる。
一方、上述のデータ構造定義情報131は、配信データのデータ形式、テーブル名、当該テーブルにおけるカラム、そのデータ型、の各情報から構成された情報である。データ統合装置100は、このデータ構造定義情報131を、データ構造定義テーブル107に格納する。
上述のデータ構造定義テーブル107は、図2に示すデータフォーマットを有しており、そのデータ項目として、データ形式1101、テーブル1012、カラム1103、および、データ型1104を含んでいる。図2に示す例では、「マスタデータ」、「データ形式X」、「データ形式Y」の計3種類のデータ形式に関する構造定義の情報が格納されている。
続いて、ユーザインターフェース部111は、データ変換プログラムの設計開発者に向けて、配信先システム140のデータ形式にデータ変換処理を行うために再利用可能なデータ変換プログラム(データ変換部品)の候補を示す、再利用候補変換部品提示画面1110(図16)を生成する。
この再利用候補変換部品提示画面1110は、配信先システム140のデータ形式を入力するための配信先システムデータ形式入力領域11101と、再利用可能部品抽出ボタン11102と、再利用候補変換部品一覧表示領域11103と、により構成される。
データ変換プログラムの設計開発者が、上述の再利用候補変換部品提示画面1110を入力端末120にて閲覧し、配信先システムデータ形式入力領域11101に配信先システム140で必要とされるデータ形式を入力し、再利用可能部品抽出ボタン11102を押下したとする。この場合、データ統合装置100は、配信先システムデータ形式入力領域11101で入力されたデータ形式に応じて、データ構造類似度算出処理、及び、再利用可能データ変換部品抽出処理を実行する。
なお、上述の再利用候補変換部品一覧表示領域11103には、データ統合装置100が、再利用可能部品抽出結果格納テーブル106(図3)より読み出した再利用候補変換部品(既知のデータ変換プログラム)を一覧表示する。
この再利用可能部品抽出結果格納テーブル106は、図3に示すデータフォーマットを有しており、そのデータ項目として、配信先システム140におけるデータ形式1081、テーブル1062、およびカラム1083と、データ変換の基点となるマスタデータ形式の該当テーブルおよびカラムを示す変換元カラム1084と、(マスタデータ形式の所定テーブルの所定カラムの値を、所定の配信先システムにおけるデータ形式の所定テーブルの所定カラムの値に対応付けする、すなわちデータ変換処理を行うデータ変換プログラムが既知の)変換先カラム1085と、を含んでいる。
図3に示す例では、配信先データ「データ形式Z」のデータテーブル「列車・駅」のカラム「列車番号」に関しては、「マスタデータ形式の駅時刻テーブルの列車番号カラム」を、「データ形式Xの列車情報テーブルの列車番号カラム」へと変換するデータ変換プログラムが再利用可能候補であるとして、該当情報が格納されている。
また、データ格納部101における類似度算出パラメータテーブル102は、図4に示すデータフォーマットを有しており、データ構造類似度算出処理において利用する重み値の情報を定義している。そのデータ項目としては、項目名1031と、類似度算出重み1032を含む。
このうち項目名1031は、テーブルにおけるカラム名を示しており、図4の例では、「列車」や「出発時刻」という値が格納されている。また、類似度算出重み1032は、データ構造間の類似度算出において、該当カラムの一致判定の結果に適用すべき重み値を示しており、図4の例では類似度算出重みとして「2」や「3」という値が格納されている。こうした類似度算出パラメータテーブル102の各データは、予め有識者が登録しておくものとする。
また、データ格納部101における類似度算出結果一時格納部103は、マスタデータ形式のテーブルと配信先システム140が要求するデータ形式のテーブルとの間の類似度を算出した結果を、図5に示すように表形式で格納する格納先となる。
そのデータ項目としては、テーブル1041と、カラム1042と、テーブル1043と、カラム1044と、データ型1045と、テーブル間類似度1046とを含む。
このうちテーブル1041は、マスタデータ形式のテーブル名を示しており、カラム1042は、当該テーブル1041に格納されるテーブルのカラム名を示している。また、テーブル1043は、配信先システム140が要求するデータ形式のテーブル名を示しており、カラム1044は、当該テーブル1043に格納されるテーブルのカラム名を示している。
また、データ型1045は、上述のカラム1042とカラム1044のデータ型を示している。また、テーブル間類似度1046は、上述のテーブル1041とテーブル1043に格納されるテーブル間の類似度の算出結果を示す。なお、カラム間の一致度に関する算出結果は、一致度格納領域1047に格納される。
ここで、カラムの名称の一致度を算出した結果がN、データ型の一致度を算出した結果がMのとき、(N,M)のようにそれぞれの一致度算出結果の組として結果を格納することとする。
なお、図5で例示する表における縦方向の長さは、テーブル1041に格納されるテーブルのカラム数分、また、当該表における横方向の長さは、テーブル1043に格納されるテーブルのカラム数分となる。
また、図5の例では、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「」列車・駅」テーブルの類似度を算出した場合の結果が示されている。マスタデータ形式の「列車」テーブルの「列車番号」カラムと「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムは、カラム名がいずれも「列車番号」であることからカラム名の一致度は1×類似度算出重み(3)=3と算出される。また、データ型はいずれのカラムも「Integer(整数型)」であることから、データ型の一致度は1である。
また、データ格納部101における類似度算出結果格納部105は、マスタデータ形式のテーブルとデータ構造定義テーブルに定義されるデータ形式のテーブルとの間の類似度を算出した結果を、図6に示す表形式で格納するものである。そのデータ項目としては、テーブル1071と、カラム1072と、データ形式1073と、テーブル1074と、カラム1075と、データ型1076と、テーブル間類似度1077とを含む。
このうちテーブル1071と、カラム1072と、テーブル1074と、カラム1075と、データ型1076と、テーブル間類似度1077は、上述の図5で例示した類似度算出結果一時格納部103のデータフォーマット例と同様の構成である。また、データ形式1073は、データ構造定義テーブル107のデータ形式のデータ項目と同様の構成である。また、一致度格納領域1078に格納される値は、上述の図5で例示した類似度算出結果一時格納部103のデータフォーマット例と同様の構成である。図6に示す例では、マスタデータ形式の「列車」テーブルと、「データ形式X」及び「データ形式Y」の全テーブルとのそれぞれの類似度を算出した場合の結果が示されている。
また、データ格納部101におけるデータ変換処理部品定義テーブル104は、データ形式を変換するためのデータ変換プログラムの情報を定義するデータテーブルであり、図7に示すデータフォーマットを有する。
そのデータ項目としては、変換元データ形式1061と、変換元テーブル1062と、変換元カラム1063と、変換先データ形式1064と、変換先テーブル1065と、変換先カラム1066と、プログラムファイル名1067とを含む。
このうち変換元データ形式1061は、変換元データのデータ形式を示し、変換元テーブル1062は、当該変換元データのデータテーブル名を示し、変換元カラム1063は、変換元データテーブルのカラム名を示す。
また、変換先データ形式1064は、変換先データのデータ形式を示し、変換先テーブル1065は、変換先データのデータテーブル名を示し、変換先カラム1066は、変換先データテーブルのカラム名を示し、プログラムファイル名1067は、変換元カラム1063を変換先カラム1066へデータを変換するためのプログラムのファイル名を示す。
図7に示すデータ変換処理部品定義テーブル104の例では、マスタデータ形式のテーブル「駅時刻」のカラム「列車番号」を、「データ形式X」のテーブル「列車情報」のカラム「列車番号」へデータ変換するためのプログラム「prg00001.dat」の名が格納されている。
−−−データ変換処理の概念−−−
ここで、本実施形態のデータ統合装置100におけるデータ変換処理の原理について、その概念を説明する。図8は、データ統合装置100におけるデータ変換処理の原理を示す説明図である。
本実施形態におけるデータ統合装置100は、配信元データ格納部110に格納する配信元データを、マスタデータ形式へ変換しマスタデータ格納部109に格納する。また、データ統合装置100は、マスタデータ格納部109に格納した上述のデータを、配信先システム140が要求するデータ形式へ変換する。このデータ形式の変換処理に際し、データ統合装置100は、変換元のテーブルにおけるカラムと変換先のテーブルにおけるカラムとの対応付け、型変換、演算処理を行い、その結果を、データ変換部品ライブラリ108に格納するデータ変換プログラムとして格納する。図8に示す例では、マスタデータ格納部109に格納されるマスタデータ形式のデータを、データ変換部品ライブラリ108における配信先システム140が要求するデータ形式へのデータ変換部品群(データ変換プログラム群)のうち、「データ形式X」の全テーブルの全カラム毎のデータ変換プログラムを用いることで、「配信先システムX」が要求する「データ形式X」への変換を実現する。配信先システム140が要求するデータ形式へのデータ変換プログラムは、予め開発され、データ変換部品ライブラリ108に登録されているものとする。
これら機能部による処理の詳細は、以降の図10、図12a、図12b、図14に示すフローチャートを用いて後述する。
−−−ハードウェア構成−−−
本実施形態におけるデータ統合装置100のハードウェア構成は以下の如くとなる。図9は、データ統合装置100のハードウェア構成例を示す図である。
本実施形態のデータ統合装置100は、CPU201、HDD202、メモリ203、入力装置204、表示装置205、および通信装置206を備える。このうちCPU201は、データの入出力、読み込み、格納および各種処理を実行する演算装置である。また、HDD202は、データを記憶する不揮発性の記憶手段である。また、メモリ203は、プログラムおよびデータを一時的に記憶する揮発性の記憶手段である。
また、入力装置204は、ユーザからの操作入力を受け付ける、キーボードやマウス、
マイク等の装置である。また、表示装置205は、利用者にデータを表示する、ディスプレイ等の装置である。また、通信装置206は、配信元システム130や配信先システム140と専用回線150を介して通信し、データを送受信するネットワークカード等の装置である。
こうしたデータ統合装置100は、例えば上述のHDD202またはメモリ203に保持するプログラム207をCPU201が実行することで、上述の各機能部を実装する。−−−メインフロー例−−−
以下、本実施形態におけるデータ統合方法の実際手順について図に基づき説明する。以下で説明するデータ統合方法に対応する各種動作は、データ統合装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図10は、本実施形態におけるデータ統合方法のフロー例1を示す図であり、具体的には、データ統合装置100においてデータ構造類似度を算出し、(配信元システム130のデータを、配信先システム140が望むデータ形式に変換するため)再利用可能なデータ変換プログラムを既存のデータ変換プログラム中から抽出する一連の手順を示すフローチャートである。
ここで、データ変換プログラムの設計開発者が、入力端末120に表示される図16の再利用候補変換部品提示画面1110において、配信先システム140が要求するデータ形式と、データ構造と、データ構造類似度算出処理要求とを入力したとする。
この場合、データ統合装置100は、上述のデータ変換プログラムの設計開発者が入力した、配信先システム140が要求するデータ形式およびデータ構造の各情報と、データ構造類似度算出処理要求とを、入力端末120から受信する(301)。勿論、データ統合装置100が、こうした情報を別の手段、経路で予め取得済みである場合、本ステップは不要である。
図11に、配信先システム140が要求するデータ形式「データ形式Z」の「列車・駅」テーブルに関するデータ構造を示すデータフォーマット例を示す。例示するデータ構造におけるデータ項目としては、データ形式1401と、テーブル1402と、カラム1403と、データ型1404を含んでいる。このデータ項目の構成は、上述のデータ構造定義テーブル107のデータ項目と同様の構成である。
続いて、データ統合装置100のデータ構造類似度算出部112は、配信先システム140が要求するデータ形式のテーブルにおけるデータ構造と、マスタデータ形式の各テーブルにおけるデータ構造との類似度を算出する(302)。
また、データ統合装置100の再利用可能データ変換部品抽出部113は、配信先システム140が要求するデータ形式へデータ変換を行うための、再利用可能なデータ変換処理プログラムの候補を抽出する(303)。
次に、データ統合装置100のユーザインターフェース部111は、図3に示した再利用可能部品抽出結果格納テーブル106を参照し、上述の配信先システム140が要求するデータ形式へデータ変換を行うデータ変換プログラムとして再利用可能なプログラム一覧を表示する画面を生成し、当該画面(図16)を表示端末に返し(304)、処理を終了する。
なお、上述のデータ構造類似度算出部112で行う処理手順の詳細は図12aに示すフローチャートにて後述する。また、再利用可能データ変換部品抽出部113で行う処理手順の詳細は図14に示すフローチャートにて後述する。
−−−詳細フロー例1−−−
図12aは、データ構造類似度算出部112が、配信先システム140の要求するデータ形式のテーブルにおけるデータ構造と、マスタデータ形式の各テーブルにおけるデータ構造との類似度を算出する手順の詳細を示すフローチャートである。
まず、データ統合装置100のデータ構造類似度算出部112は、データ構造定義テーブル107において、データ形式が「マスタデータ形式」である各テーブルのデータレコードを取得する(3021)。
次に、データ統合装置100のデータ構造類似度算出部112は、ステップ3021でデータレコードを取得したマスタデータ形式のテーブル全てに対して、ループを行う(3022)。
続いて、データ統合装置100のデータ構造類似度算出部112は、データ構造定義テーブル107に登録済みの、「マスタデータ形式」以外のデータ形式、すなわち既知の配信先システム140の各データ形式のテーブル全てに対してループを行う(3023)。
次に、データ統合装置100のデータ構造類似度算出部112は、ステップ3021で得たマスタデータ形式のテーブルであって、ループ対象テーブルのカラムと、ステップ3023でループ対象とした配信先システム140のデータ形式のテーブルであって、ループ対象テーブルのカラムとの一致度と、当該テーブル間の類似度とをそれぞれ算出する(30231)。このテーブル間の類似度を算出する処理手順の詳細は、図12bに示すフローチャートにて説明する。
図12bは、データ構造類似度算出部112が、上述したマスタデータ形式のループ対象テーブルのカラムと、配信先システム140のデータ形式のループ対象のカラムとの一致度と、当該テーブル間の類似度とをそれぞれ算出する手順の詳細を示すフローチャートである。
このフローにおいて、まず、データ統合装置100のデータ構造類似度算出部112は、上述のステップ3022でループ対象テーブルとした、マスタデータ形式のテーブルの全カラムに対してループを行う(3024)。
データ統合装置100のデータ構造類似度算出部112は、当該ループ内で、上述のステップ3023でループ対象テーブルとした、配信先システム140のデータ形式のテーブルの全カラムに対してループを行う(3025)。
続いて、データ統合装置100のデータ構造類似度算出部112は、ループ対象であるマスタデータ形式のテーブルにおけるループ対象カラムのカラム名と、ループ対象である配信先システム140のデータ形式のテーブルのループ対象カラムのカラム名とが一致しているか判定する(3026)。
上述の判定の結果、両カラム名が一致していなければ(3026:NO)、データ統合装置100のデータ構造類似度算出部112は、「0」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30211)。
一方、上述の判定の結果、両カラム名が一致しているならば(3026:YES)、データ統合装置100のデータ構造類似度算出部112は、類似度算出パラメータテーブル102を参照し、当該テーブルにおける全ての項目名と類似度算出重みの各値を取得する(3027)。
データ統合装置100のデータ構造類似度算出部112は、ステップ3027で得た項目名の中に、ステップ3026で判定結果が「一致」となった対象カラム名が定義されているか判定する(3028)。
上述の判定の結果、上述の対象カラム名が定義されていなければ(3028:NO)、データ統合装置100のデータ構造類似度算出部112は、「1」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30210)。
一方、上述の判定の結果、上述の対象カラム名が定義されていれば(3028:YES)、データ統合装置100のデータ構造類似度算出部112は、「1×類似度算出重み」の算出結果を、類似度算出結果一時格納部103の一致度格納領域1047に格納する(3029)。
続いて、データ統合装置100のデータ構造類似度算出部112は、ループ対象であるマスタデータ形式のテーブルにおけるループ対象カラムのデータ型と、ループ対象である配信先システム140のデータ形式のテーブルにおけるループ対象カラムのデータ型とが一致しているか判定する(30212)。
上述の判定の結果、両データ型が一致しているならば(30212:YES)、データ統合装置100のデータ構造類似度算出部112は、「1」を、類似度算出結果一時格納部103の一致度格納領域1047に格納する(30213)。
一方、上述の判定の結果、両データ型が一致していなければ(30212:NO)、データ統合装置100のデータ構造類似度算出部112は、「0」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30214)。
次に、データ統合装置100のデータ構造類似度算出部112は、上述でループ対象とした、マスタデータ形式のテーブルと配信先システム140のデータ形式のテーブルとの間の類似度を、(一致度の総和)/{2×(マスタデータテーブルのカラム数×比較するテーブルのカラム数)}、の式で算出し、当該算出結果を類似度算出結果一時格納部103のテーブル間類似度1046に格納し(30215)、処理を終了する。
ここで、上述の図12aおよび図12bの各フローで示した処理の、具体的な例について、図13を踏まえて説明する。図13は、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルを対象に、類似度算出の処理を行う概念を示す説明図である。
この場合、データ統合装置100は、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムは、カラム名が一致していると判定する。この一致するカラム名「列車番号」は、類似度算出パラメータテーブル102の項目名に定義されている。よって、データ統合装置100は、この「列車番号」に対応する類似度算出重み「3」を取得する。
そこでデータ統合装置100は、一致度格納領域1047のうち「列車番号」カラムに対応した領域10471に、カラム名の一致度算出結果である「3」を格納する。
続いて、データ統合装置100は、この「列車番号」カラムのデータ型はいずれも「Integer」で一致していることから、一致度格納領域1047のうち「列車番号」カラムに対応した領域10471に、データ型の一致度算出結果として「1」を格納する。
データ統合装置100は、上述の処理を、マスタデータ形式の「列車」テーブルの各カラムと、「データ形式Z」の「列車・駅」テーブルの各カラムとの、全組合せに対して行う。
最後に、データ統合装置100は、上述のマスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルとに関して、テーブル間類似度を算出する。ここで、図7に例示する一致度格納領域1047で格納している各カラムの一致度の総和は、3+1+1+1=6、また、マスタデータ形式の「列車」テーブルにおけるカラム数は3、また、「データ形式Z」の「列車・駅」テーブルにおけるカラム数は4である。
このことから、データ統合装置100は、当該テーブル間の類似度を、(一致度の総和)/{2×(マスタデータテーブルのカラム数×比較するテーブルのカラム数)}=6/(2×3×4)=0.25と算出する。
−−−詳細フロー例2−−−
図14は、配信元システム130の所定データを配信先システム140が要求するデータ形式へデータ変換する際に再利用可能な、データ変換処理プログラムの候補を、データ統合装置100の再利用可能データ変換部品抽出部113が抽出する手順(メインフローにおけるステップ303)の詳細を示すフローチャートである。なお、この「再利用可能なデータ変換プログラム」とは、マスタデータ形式の所定テーブルとの関係において、配信元システム130の所定テーブルのデータを、所定配信先システム140のデータ形式向けにデータ変換を行うべく定義済みの、すなわち既知のデータ変換プログラムである。
つまり、本実施形態のデータ統合装置100は、既知のデータ変換プログラムを、未だデータ変換プログラムが定義されていない配信先システム140のデータ形式向けに再利用すべく、その情報を提供するのである。
このフローにおいて、データ統合装置100の再利用可能データ変換部品抽出部113は、配信先システム140が要求するデータ形式の該当テーブル(ステップ301で情報を得ている)全てに対して、ループを行う(3031)。
続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、当該ループ内で、ループ対象であるテーブルのカラム全てに対してループを行う(3032)。
ここでデータ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の各テーブルと上述のループ対象である配信先システム140のデータ形式のテーブルと、の関係について、類似度算出結果格納部105(図6)を参照し、ループ対象テーブルのカラムと、カラム名またはデータ型が一致するマスタデータ形式のカラムとそのテーブルの情報を取得する(3033)。
続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、上述のステップ3033の結果、カラム名またはデータ型が一致する、すなわち、一致度が(a,b)(a>0またはb>0)であるカラムが存在するか判定する(3034)。
この判定の結果、該当カラムが存在しなければ(3034:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、再利用可能部品抽出結果格納テーブル
106の変換元カラム1084と変換先カラム1085に、「再利用可能候補無し」の値を格納する(3036)。
一方、上述の判定の結果、該当カラムが存在するならば(3034:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムのカラム名とデータ型の各一致度を合計した値が、該当カラム間で最大となるカラムを特定する(3035)。
次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のステップ3035で特定したカラムが複数存在するか判定する(3037)。
上述の判定の結果、該当カラムが複数存在しない場合(3037:NO)、すなわち1つのみであった場合、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の該当テーブルにおける該当カラムのカラム名と、当該カラムを有する、マスタデータ形式のテーブルのテーブル名を取得する(3039)。
一方、上述の判定の結果、該当カラムが複数存在する場合(3037:YES)、再利用可能データ変換部品抽出部113は、該当する各カラムを有する各テーブルの類似度を取得し、その類似度がテーブル間で最大となる、マスタデータ形式のテーブルを特定する(3038)。また、このステップ3038において、データ統合装置100の再利用可能データ変換部品抽出部113は、特定したマスタデータ形式のテーブルにおける、該当カラムのカラム名と当該テーブル名を取得する。
続いて、データ統合装置100の再利用可能データ変換部品抽出部113は、ステップ3038またはステップ3039のいずれかでカラム名およびテーブル名を取得した該当カラムと該当テーブルの組数分だけループを行う(30310)。
ここでデータ統合装置100の再利用可能データ変換部品抽出部113は、類似度算出結果格納部105を参照し、上述のループにて対象とするマスタデータ形式のテーブルと、当該テーブルとの類似度を算出済みの、配信先システム140における全データ形式の各テーブルとに関して、ループ対象のカラムに関する一致度算出結果を取得する(30311)。
ここで得た情報に基づき、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式のテーブルと、配信先システム140における全データ形式の各テーブルのいずれかとの間で、カラム名あるいはデータ型が一致する、すなわち、一致度が(a,b)(a>0またはb>0)であるカラムが存在するか判定する(30312)。 上述の判定の結果、該当カラムが存在しなければ(30312:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、再利用可能部品抽出結果格納テーブル106の変換元カラム1084と変換先カラム1085に「再利用可能候補無し」の値を格納する(30314)。
一方、上述の判定の結果、該当カラムが存在するならば(30312:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムのカラム名とデータ型の一致度を合計した値が最大となる、配信先システム140のデータ形式、該当テーブル、およびカラム名の各情報を取得する(30313)。
続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、ステップ30313で取得したカラムが複数存在するか判定する(30315)。
上述の判定の結果、該当カラムが複数存在するならば(30315:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムを含む各テーブルの、対応するマスタデータ形式のテーブルとの類似度を参照し、類似度が該当テーブル間で最大となるテーブルを特定する(30316)。
一方、該当カラムが複数存在しなければ(30315:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、処理をS30317へ進める。
次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のマスタデータ形式の所定テーブルにおけるカラムのデータを、上述のステップ3016で特定した(配信先システム140の)データ形式の該当テーブルのカラムのデータとする、データ変換プログラムが、ステップ3031およびステップ3032でループ対象とするテーブルのカラムへ変換する再利用可能候補部品と判断し、再利用可能部品抽出結果格納テーブル106の変換元カラム1084に「ステップ3038またはステップ3039で取得したマスタデータ形式のテーブルのカラム」を、変換先カラム1085に「取得した配信先システム140のデータ形式のテーブルのカラム」を格納する(30317)。
ここで、図15aと図15bは、配信先システム140が要求するデータ形式「データ形式Z」の「列車・駅」テーブルのカラム「列車番号」にデータ変換を行うデータ変換プログラムとして、再利用可能なデータ変換処理部品候補を抽出する、具体的な処理概念を示す。
まず、図15aに示す通り、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルとを対象に、類似度を算出する処理について説明する。この場合、データ統合装置100の再利用可能データ変換部品抽出部113は、両テーブルの間でカラム名あるいはデータ型が一致するカラムとして、マスタデータ形式の「列車」テーブルの「列車番号」カラムと、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムと、の各情報を取得する。
次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述で取得したカラムのカラム名とデータ型の一致度算出結果を合計した値を、マスタデータ形式の「列車」テーブルの「列車番号」カラムと、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラム、のそれぞれについて、3+1=4と算定する。従って、一致度の合計値が同じカラムが2つ特定されることになる。
なお、この2つのカラムをもつマスタデータ形式の各テーブル(「列車」テーブルと「駅時刻」テーブル)と「データ形式Z」の「列車・駅」テーブルとの間における、テーブル間類似度は、それぞれ「0.25」と「0.47」である。
従って、データ統合装置100の再利用可能データ変換部品抽出部113は、テーブル間類似度が「0.47」で最大の、マスタデータ形式の「駅時刻」テーブルを特定し、このマスタデータ形式の「駅時刻」テーブルの名と「列車番号」カラムの名を取得する。
続いて、図15bに示すとおり、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムと、類似度算出済みである「データ形式X」と「データ形式Y」の全テーブルの全カラムとの一致度算出結果を取得する。
また、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のように取得した一致度算出結果に対し、カラム名とデータ型の一致度を合計した値を算出し、
最大値をとるカラムを抽出する。この場合、最大になるのは3+1=4で、「データ形式X」の「列車情報」テーブルの「列車番号」カラムと特定される。
よって、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムを、「データ形式X」の「列車情報」テーブルの「列車番号」カラムへ変換する処理部品が、「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムへデータ変換を行う再利用可能部品候補として、再利用可能部品抽出結果格納テーブル106に格納する。
−−−画面表示例−−−
続いて、データ統合装置100のユーザインターフェース部111が生成し、入力端末120に表示させる画面の例について説明する。図16は、ユーザインターフェース部111が生成する画面の例であって、入力端末120を介してデータ変換プログラムの設計開発者に提示する、再利用候補変換部品提示画面1110の例を示す図である。
この再利用候補変換部品提示画面1110は、配信先システムデータ形式入力領域11101と、再利用可能部品抽出ボタン11102と、再利用候補変換部品一覧表示領域11103から構成される。
このうち再利用候補変換部品一覧表示領域11103には、配信先システムデータ形式入力領域11101に入力された値をキーとして、再利用可能部品抽出結果格納テーブル106の配信先データ形式のデータ項目が一致するレコードの情報と、このレコードのうち変換元カラム1084から変換先カラム1085に変換するデータ変換プログラムのファイル名が表示される。また、データ変換プログラムのファイル名は、上述のレコードの変換元カラム1084と変換先カラム1085の値をキーにして、データ変換処理部品定義テーブル104より抽出したレコードのプログラムファイル名1067の値である。
図16に示す例では、配信先データ形式「データ形式Z」の「列車・駅」テーブルのカラムである、「列車番号」、「駅名」、「到着時刻」、および「出発時刻」のそれぞれに対して、マスタデータ形式のデータを変換するデータ変換プログラムの再利用可能候補を抽出した結果が示されている。
また、上述のカラムのうち「列車番号」と「駅名」に関して、それぞれ、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムから、「データ形式X」の「列車情報」テーブルの「列車番号」カラムへ変換する、データ変換プログラム「prg00001.dat」と、マスタデータ形式の「駅時刻」テーブルの「駅名」カラムから、「データ形式X」の「列車情報」テーブルの「駅名」カラムへ変換する、データ変換プログラム「prg00005.dat」とが、再利用可能候補として表示されている。
上述した再利用可能なデータ変換プログラムの候補を抽出する手段には、既に述べた各フロー等の方法の他に、その他の公知の機械学習技術に基づく方法、例えばニューラルネットワークやサポートベクターマシン等の分類器を用いるとしてもよい。
なお、上述の再利用候補変換部品提示画面1110における、変換元カラムおよび変換先カラムにて表示する内容とその形態として、ユーザインターフェース部111は、該当カラムの記載の表示形態を下線部付きの太文字など、クリッカブルな強調表示とするとしてもよい。図17にこの場合の表示例を示す。
このように、クリッカブルな強調表示とするのは、カラム間の一致判定(ステップ3028〜3029、ステップ30210)にて一致が特定され、類似度算出パラメータテー
ブル102の類似度算出重みの値の適用対象となったカラムに関する記載とする。
図17の例であれば、データ統合装置100のユーザインターフェース部111は、例えば、マスタデータ形式の「駅時刻」テーブルのカラム「列車番号」の文字を太文字の下線部付きとし、また、「データ形式X」の「列車情報」テーブルのカラム「列車番号」の文字を太文字の下線部付きとする。
この場合、データ統合装置100のユーザインターフェース部111は、上述の設計開発者が入力端末120を操作し、この下線部をクリックしたイベントに応じて、例えば下線部下方にプルダウンメニュー111031を表示させる。このプルダウンメニュー111031は、該当カラムに関して上述の一致判定で用いた類似度算出パラメータテーブル102の類似度算出重みの値を、設計開発者が変更可能とするインターフェースである。図17の例では、「列車番号」カラムに関して適用していた類似度算出重みの値を、「3」から「1」の間で選択しうるメニューとなっている。
データ統合装置100のユーザインタフェース部111は、このプルダウンメニュー111031にて設計開発者から受け付けた類似度算出重みの値の選択に応じて、選択された類似度算出重みの値を用いた上述の各類似度の算出を、データ構造類似度算出部112に指示する。
一方、データ構造類似度算出部112は、この指示に応じて類似度算出(ステップ302)に必要な各処理を再実行する。また、この再実行の結果を受けた再利用可能データ変換部品抽出部113は、類似度算出の結果等に基づく、再利用可能なデータ変換プログラムの抽出処理(ステップ303)に必要な各処理を再実行する。
ユーザインタフェース部111は、こうした再実行の結果を取得し、画面1110を更新し、入力端末120に表示させる。従って、上述の設計開発者は、類似度算出の重みの値を変更した場合の結果について確認可能となっている。
なお、上述では、プルダウンメニュー111031を、類似度算出重みの値の変更を受け付けるユーザインタフェースの例として示したが、これに限定せず、所定事象の変更指示を受ける既存の各種インタフェース(例:スライダーバーや複数のラジオボタンなど)を適宜に採用してよい。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、配信先のシステムやアプリケーションが要求するデータ形式とマスタデータのデータ形式との、データ項目間の対応付けといった作業を省き、既に設計・開発されたデータ変換処理部品のうちで再利用可能な部品を、データ統合装置の利用者等に提示可能となる。
すなわち、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ統合装置において、前記演算装置は、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所
定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力するものである、としてもよい。
これによれば、上述の類似度を好適な精度で効率的に算出し、また、こうした類似度に基づき特定されたテーブル間の該当カラムに関して再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、精度よく更に効率的なデータ変換処理の実現を支援可能となる。
また、本実施形態のデータ統合装置において、前記演算装置は、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行うものである、としてもよい。
これによれば、上述の類似度を更に好適な精度で効率的に算出し、また、こうした類似度に基づき特定されたテーブル間の該当カラムに関して再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、更に精度よく効率的なデータ変換処理の実現を支援可能となる。
また、本実施形態のデータ統合装置において、前記演算装置は、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行するものである、としてもよい。
これによれば、類似度の算出に影響を与えたカラムの重要度すなわち上述の重み付け値の大きさに関して、所定担当者等による変更を受け付けることで、例えば高スキルの担当者等の知見に応じた好適な精度での類似度の算出が可能となる。また、こうした重み付け値の変更に伴って変化しうる類似度に基づき、あらためて特定されるテーブル、および該当テーブル間の該当カラムに関する再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、更に精度よく更に効率的かつ柔軟なデータ変換処理の実現を支援可能となる。
また、本実施形態のデータ統合方法において、前記情報処理装置が、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する、としてもよい。
また、本実施形態のデータ統合方法において、前記情報処理装置が、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行う、としてもよい。
また、本実施形態のデータ統合方法において、前記情報処理装置が、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行する、としてもよい。
100 データ統合装置
101 データ格納部
102 類似度算出パラメータテーブル
103 類似度算出結果一時格納部
104 データ変換処理部品定義テーブル
105 類似度算出結果格納部
106 再利用可能部品抽出結果格納テーブル
107 データ構造定義テーブル
108 データ変換部品ライブラリ
109 マスタデータ格納部
110 配信元データ格納部
111 ユーザインターフェース部
112 データ構造類似度算出部
113 再利用可能データ変換部品抽出部
114 通信部
120 入力端末
130 配信元システム
131 データ構造定義情報
140 配信先システム
150 専用回線
201 CPU(演算装置)
202 HDD(記憶装置)
203 メモリ
204 入力装置
205 表示装置
206 通信装置
207 プログラム

Claims (8)

  1. 所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置と、
    前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記所定システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行する演算装置と、
    を備えることを特徴するデータ統合装置。
  2. 前記演算装置は、
    前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、
    前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力するものである、
    ことを特徴とする請求項1に記載のデータ統合装置。
  3. 前記演算装置は、
    前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行うものである、
    ことを特徴とする請求項2に記載のデータ統合装置。
  4. 前記演算装置は、
    前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行するものである、
    ことを特徴とする請求項3に記載のデータ統合装置。
  5. 所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置を備える情報処理装置が、
    前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、
    前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記所定システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、
    前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、
    を実行することを特徴するデータ統合方法。
  6. 前記情報処理装置が、
    前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、
    前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する、
    ことを特徴とする請求項5に記載のデータ統合方法。
  7. 前記情報処理装置が、
    前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行う、
    ことを特徴とする請求項6に記載のデータ統合方法。
  8. 前記情報処理装置が、
    前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行する、
    ことを特徴とする請求項7に記載のデータ統合方法。
JP2016198655A 2016-10-07 2016-10-07 データ統合装置およびデータ統合方法 Active JP6723893B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016198655A JP6723893B2 (ja) 2016-10-07 2016-10-07 データ統合装置およびデータ統合方法
KR1020197003935A KR102243794B1 (ko) 2016-10-07 2017-03-21 데이터 통합 장치 및 데이터 통합 방법
PCT/JP2017/011163 WO2018066152A1 (ja) 2016-10-07 2017-03-21 データ統合装置およびデータ統合方法
US16/330,397 US20200193343A1 (en) 2016-10-07 2017-03-21 Data integration apparatus and data integration method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016198655A JP6723893B2 (ja) 2016-10-07 2016-10-07 データ統合装置およびデータ統合方法

Publications (3)

Publication Number Publication Date
JP2018060430A JP2018060430A (ja) 2018-04-12
JP2018060430A5 JP2018060430A5 (ja) 2019-04-25
JP6723893B2 true JP6723893B2 (ja) 2020-07-15

Family

ID=61831657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016198655A Active JP6723893B2 (ja) 2016-10-07 2016-10-07 データ統合装置およびデータ統合方法

Country Status (4)

Country Link
US (1) US20200193343A1 (ja)
JP (1) JP6723893B2 (ja)
KR (1) KR102243794B1 (ja)
WO (1) WO2018066152A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494688B2 (en) * 2018-04-16 2022-11-08 Oracle International Corporation Learning ETL rules by example
JP2022059247A (ja) * 2020-10-01 2022-04-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN116724316A (zh) * 2020-12-31 2023-09-08 华为技术有限公司 模型处理方法和装置
US20240296173A1 (en) * 2021-01-25 2024-09-05 Nec Corporation Information processing device, control method, and storage medium
KR102685789B1 (ko) * 2023-11-02 2024-07-17 예스넷 주식회사 데이터 코드의 변환을 수행하는 시스템, 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007083371A1 (ja) * 2006-01-18 2009-06-11 富士通株式会社 データ統合装置、データ統合方法およびデータ統合プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4778500B2 (ja) 2007-12-11 2011-09-21 株式会社日立情報システムズ データべースシステム及びデータべースシステムの制御方法
JP5601066B2 (ja) 2010-07-23 2014-10-08 富士通株式会社 情報統合プログラム、装置及び方法
JP6194575B2 (ja) 2012-03-19 2017-09-13 株式会社リコー 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
WO2018066152A1 (ja) 2018-04-12
KR20190028485A (ko) 2019-03-18
US20200193343A1 (en) 2020-06-18
KR102243794B1 (ko) 2021-04-23
JP2018060430A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
JP6723893B2 (ja) データ統合装置およびデータ統合方法
US20190251471A1 (en) Machine learning device
JP2017091329A (ja) データベース分析装置およびデータベース分析方法
JP7015319B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
JP2017041171A (ja) テストシナリオ生成支援装置およびテストシナリオ生成支援方法
CN102214091A (zh) 一种定位软件开发中需求变更影响范围的方法和系统
JP2018092344A (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP7015320B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
JP6900265B2 (ja) データ分析システム、及びデータ分析方法
JP5447054B2 (ja) データ生成方法,データ生成装置,およびデータ生成プログラム
JP2019175236A (ja) 情報処理装置及び情報処理方法
JP5449438B2 (ja) ソフトウェア資産再利用支援装置およびソフトウェア資産再利用支援プログラム
US20180293285A1 (en) Information providing method, information providing device, and computer-readable recording medium
JP6320901B2 (ja) データ連携支援システムおよびデータ連携支援方法
JP6157166B2 (ja) 部品生成システムおよび方法ならびにプログラム
JP5081889B2 (ja) 入力支援装置、入力支援方法及び入力支援プログラム
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム
JP2009205297A (ja) 開発予算管理装置
JP6431246B2 (ja) サービス提供システム、サービス提供方法、及びサービス提供プログラム
JP2018092466A (ja) 変更影響調査支援装置、変更影響調査支援方法および変更影響調査支援プログラム
WO2024047997A1 (ja) 文書分析装置、及び文書分析用プログラム
EP4365730A1 (en) Software component update system, and software component update method
JP6664306B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2009104562A (ja) 業務支援システム及びそれに用いられるプログラム
JP6498588B2 (ja) 情報配信システムおよび情報配信方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200624

R150 Certificate of patent or registration of utility model

Ref document number: 6723893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150