JP2018151805A - データ項目名推定装置、データ項目名推定方法、及びプログラム - Google Patents

データ項目名推定装置、データ項目名推定方法、及びプログラム Download PDF

Info

Publication number
JP2018151805A
JP2018151805A JP2017046895A JP2017046895A JP2018151805A JP 2018151805 A JP2018151805 A JP 2018151805A JP 2017046895 A JP2017046895 A JP 2017046895A JP 2017046895 A JP2017046895 A JP 2017046895A JP 2018151805 A JP2018151805 A JP 2018151805A
Authority
JP
Japan
Prior art keywords
data item
attribute
item name
learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017046895A
Other languages
English (en)
Other versions
JP2018151805A5 (ja
JP7235269B2 (ja
Inventor
要 松村
Kaname Matsumura
要 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017046895A priority Critical patent/JP7235269B2/ja
Publication of JP2018151805A publication Critical patent/JP2018151805A/ja
Publication of JP2018151805A5 publication Critical patent/JP2018151805A5/ja
Application granted granted Critical
Publication of JP7235269B2 publication Critical patent/JP7235269B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データベースに登録されているデータに関する知識を必要とすることなく、データ項目に付与される項目名を推定し得る、データ項目名推定装置、データ項目名推定方法、及びプログラムを提供する。【解決手段】データ項目名推定装置100は、学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、学習処理部10と、対象となるテーブルのデータ項目毎の特徴値を、学習処理部10による定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、推定処理部20と、を備えている。【選択図】図1

Description

本発明は、データ項目名が未知のテーブルのデータ項目名を推定するための、データ項目名推定装置、及びデータ項目名推定方法に関し、更には、これらを実現するためのプログラムに関する。
近年、ICT(Information and Communication Technology)の発展により、多種多量の情報をリアルタイムに取得することが可能及び容易となっており、大量の情報が収集及び蓄積されている。そして、これらの情報を活用して、各種の分析及び予測を行う際には、これらの情報が格納されている複数のデータベースを統合し、共通のスキーマを持つデータベースを作成する必要がある。
データベースの統合には、共通化する分類又は属性を定義する必要がある。このため、従来ではデータベース又はデータモデリングのスペシャリストが、各データベース管理者にスキーマ構成を確認し、人手によって、共通するデータの識別、抽出、統合を行なっている。従って、データベースの統合には非常に多くの作業時間がかかってしまう。
また、データ統合を行う際、統合対象となるそれぞれのデータについて、作業を行なう者が、スキーマ構造までを理解してていれば、どの項目を統合すればよいか判断することは容易である。しかし、作業を行なう者が、統合対象のデータについて十分な知識を有しておらず、データ項目名が「t1」などの無意味な項目名が定義されている場合、どの項目を統合すればよいかを判断することは非常に困難である。従って、このような点からも、データベースの統合は、時間がかかる作業である。
このような問題を解決するため、例えば、特許文献1は、分類構築支援システムを開示している。特許文献1に開示された分類構築支援システムは、まず、データ項目に関して、そのデータ項目のレコードデータを使って、データ項目の特徴値を抽出する。次いで、分類構築支援システムは、抽出した特徴値について、あらかじめ定義しておいた属性との類似度を求めることで、複数のデータ項目それぞれを適切な分類又は属性に分類する。
特開2006−99236号公報
しかしながら、上記特許文献1に開示された分類構築支援システムでは、同じ特徴値を持つデータ項目を1つの属性に纏める事はできるが、その属性を持つデータ項目の名称を判断することは不可能である。
例えば、あるデータ項目について、それを分類する属性として「温度」が判断されたとする。この場合において、データ統合を行なうためには、その「温度」の属性を持つデータ項目が、「平均気温」、「最高気温」、「最低気温」のいずれの項目名を定義することが適切であるか、ということは識別が困難であった。
本発明の目的の一例は、上記問題を解消し、データベースに登録されているデータに関する知識を必要とすることなく、データ項目に付与される項目名を推定し得る、データ項目名推定装置、データ項目名推定方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるデータ項目名推定装置は、
学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、学習処理部と、
対象となるテーブルのデータ項目毎の特徴値を、前記学習処理部による定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、推定処理部と、
を備えている、ことを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるデータ項目名推定方法は、
(a)学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、ステップと、
(b)対象となるテーブルのデータ項目毎の特徴値を、前記(a)のステップで得られた定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、ステップと、
(b)対象となるテーブルのデータ項目毎の特徴値を、前記(a)のステップで得られた定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、ステップと、
を実行させることを特徴とする。
以上のように、本発明によれば、データベースに登録されているデータに関する知識を必要とすることなく、データ項目に付与される項目名を推定することができる。
図1は、本発明の実施の形態におけるデータ項目推定装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態におけるデータ項目推定装置の具体的構成を示すブロック図である。 図3は、本発明の実施の形態で用いられる学習用のテーブルの一例を示す図である。 図4は、本発明の実施の形態において、データ項目名の推定処理の対象となる対象テーブルの一例を示す図である。 図5は、本発明の実施の形態におけるデータ項目名推定装置の学習処理時における動作を示すフロー図である。 図6は、本発明の実施の形態において作成される属性情報の一例を示す図である。 図7は、本発明の実施の形態において作成される属性個物情報の一例を示す図である。 図8は、本発明の実施の形態において作成される属性組合せ情報の一例を示す図である。 図9は、本発明の実施の形態におけるデータ項目名推定装置の推定処理時における動作を示すフロー図である。 図10(a)は、本発明の実施の形態で用いられる対象テーブルから抽出された特徴値の一例を示す図である。図10(b)は、図10(a)に示された特徴値から算出された類似度の一例を示す図である。 図11(a)は、本発明の実施の形態で用いられる属性組合せ情報の一例を示す図である。図11(b)は、本発明の実施の形態で算出されたデータ項目名の出現頻度の一例を示す図である。 図12は、本発明の実施の形態におけるデータ項目推定装置を実現するコンピュータの一例を示すブロック図である。
(発明の概要)
本発明では、データ項目名の推定対象となるテーブルのデータ項目から、特徴値を抽出し、抽出した特徴値と属性との類似度を算出して、類似度の高い属性にそれぞれのデータ項目を分類する。そして、推定対象となるテーブルを構成するデータ項目の属性の組み合わせを、事前に学習しておいたデータ項目の属性の組み合わせとデータ項目名との対応関係に適用することで、データ項目にどのようなデータ項目名が付与されるかを推定する。つまり、本発明では、主に、学習処理と推定処理とが行なわれる。以下に具体的説明する。
(実施の形態)
以下、本発明の実施の形態における、データ項目推定装置、データ項目推定方法、及びプログラムについて、図1〜図12を参照しながら説明する。
[装置構成]
最初に、本実施の形態におけるデータ項目推定装置の構成について説明する。図1は、本発明の実施の形態におけるデータ項目推定装置の概略構成を示すブロック図である。
図1に示す、本実施の形態におけるデータ項目推定装置100は、処理の対象となるテーブル(以下、「対象テーブル」と表記する。)のデータ項目名を推定する装置である。図1に示すように、データ項目推定装置100は、学習処理部10と、推定処理部20とを備えている。
学習処理部10は、まず、学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義する。次いで、学習処理部10は、属性毎に、対応するデータ項目名を特定し、学習用のテーブルにおける属性とデータ項目名との出現の頻度を学習して、学習モデルを作成する。
推定処理部20は、まず、対象テーブルのデータ項目毎の特徴値を、学習処理部10による定義に照合して、各データ項目の属性を推定する。次いで、推定処理部20は、推定したデータ項目毎の属性を、学習モデルに適用して、対象テーブルのデータ項目のデータ項目名を推定する。
このように、本実施の形態では、データ項目名が既知の学習用のテーブルを用いて、データ項目名を推定するための学習モデルが生成され、この学習モデルを用いることで、データ項目名が既知でないテーブルにおけるデータ項目名が推定される。このため、本実施の形態によれば、データベースに登録されているデータに関する知識を必要とすることなく、データ項目に付与される項目名を推定することができる。
続いて、図2〜図4を用いて、本実施の形態におけるデータ項目推定装置100の構成についてより具体的に説明する。図2は、本発明の実施の形態におけるデータ項目推定装置の具体的構成を示すブロック図である。図3は、本発明の実施の形態で用いられる学習用のテーブルの一例を示す図である。図4は、本発明の実施の形態において、データ項目名の推定処理の対象となる対象テーブルの一例を示す図である。
図2に示すように、本実施の形態では、データ項目推定装置100は、学習処理部10及び推定処理部20に加えて、記憶部30を備えている。記憶部30は、後述する属性情報31、属性個物情報32、及び属性組合せ情報33を格納している。
また、図2に示すように、学習処理部10は、学習テーブル受付部11と、特徴抽出部12と、属性情報作成部13と、属性個物情報作成部14と、属性組合せ情報作成部15とを備えている。
学習テーブル受付部11は、外部から入力される学習用のテーブル(図3参照)を受け付け、受け付けた学習用のテーブルを特徴抽出部12に渡す。学習用のテーブルは、図3に示すようにテーブル形式のデータであるが、各レコードデータの形式は、XML(Extensible markup language)、CSV(Common Separated Value)、HTML(Hypertext markup language)等のいずれの形式であってもよい。
特徴抽出部12は、学習用のテーブルにおけるデータ項目名毎に、そのデータ項目名が付与されているレコードのデータから特徴値を抽出する。抽出される特徴値としては、データ型(文字型、数値型)、統計情報(平均値、分散値)、同じレコードの出現頻度等が挙げられる(後述の図6参照)。また、テーブルから特徴値を抽出する方法としては、上述した特許文献1に開示されている方法が挙げられる。
属性情報作成部13は、特徴抽出部12が抽出した特徴値と、抽出元のデータのデータ項目名に対応する属性との関係を定義した属性情報31(後述の図6参照)を作成し、作成した属性情報を記憶部30に格納する。
具体的には、属性情報作成部13は、特徴抽出部12が抽出した特徴値について、外部から、抽出元のデータのデータ項目名に対応する属性が設定されると、この特徴値と設定された属性とを対応付ける属性情報31を作成する。また、属性の設定は、人手によって行なわれていても良い。
属性個物情報作成部14は、属性情報作成部13が作成した属性情報に含まれる属性毎に、対応するデータ項目名が付与された属性個物情報(図7参照)を作成する。
具体的には、属性個物情報作成部14は、属性情報に含まれる属性それぞれに対して、対応するデータ項目名が設定されると、属性と、入力されたデータ項目名が付与された個物とを用いて、属性個物情報を作成する。属性個物情報は、属性と個物との対応関係を示している。なお、ここでいう個物とは、データ項目名が付与されたオブジェクトを意味している。また、データ項目名の設定は、人手によって行なわれていても良い。
属性組合せ情報作成部15は、属性個物情報を用いて、学習モデルとして、学習用のテーブルにおける属性の組合わせとそれに対応するデータ項目名とを示す属性組合せ情報(図8参照)を作成する。
また、図2に示すように、推定処理部20は、対象テーブル受付部21と、特徴抽出部22と、属性推定部23と、項目名推定部24と、推定結果表示部25と、結果編集部26とを備えている。
対象テーブル受付部21は、外部から入力される対象テーブル(図4参照)を受付、受け付けた対象テーブルを特徴抽出部22に渡す。対象テーブルも、図4に示すように学習用のテーブルと同様に、テーブル形式のデータである。また、対象テーブルにおける各レコードデータの形式も、XML(Extensible markup language)、CSV(Common Separated Value)、HTML(Hypertext markup language)等のいずれの形式であってもよい。
特徴抽出部22は、対象テーブルのレコードから、データ項目毎に、データの特徴値を抽出する。抽出される特徴値としては、データ型(文字型、数値型)、統計情報(平均値、分散値)、同じレコードの出現頻度等が挙げられる。また、テーブルから特徴値を抽出する方法としては、上述した特許文献1に開示されている方法が挙げられる。
属性推定部23は、特徴抽出部22が抽出した特徴値を、属性情報31に照合して、各データ項目の属性を推定する。具体的には、属性推定部23は、まず、各データ項目の特徴値と、属性情報31に含まれる各属性の特徴値とを比較して、類似度を算出する。そして、属性推定部23は、推定対象となっているデータ項目の特徴値との類似度が最も高い属性を特定し、特定した属性を、推定対象となっているデータ項目の属性として推定する(後述の図10(a)及び(b)参照)。
項目名推定部24は、まず、属性推定部23が推定した属性を用いて、属性の組合せを設定する。次いで、項目名推定部24は、設定した属性の組合せ毎に、属性組合せ情報33及び属性個物情報32を用いて、特定のデータ項目名が出現する頻度を算出する。そして、項目名推定部24は、算出結果に基づいて、対象テーブルのデータ項目それぞれのデータ項目名を推定する。
具体的には、項目名推定部24は、属性個物情報32を用いて、組合せが設定された各属性について、対応する可能性がある1又は2以上のデータ項目名を特定する。そして、項目名推定部24は、属性組合せ情報33を用いて、設定した属性の組合せ毎に、対応する可能性があるデータ項目名それぞれについて出現頻度(出現確率)を計算する。そして、項目名推定部24は、推定された属性のデータ項目名として、対応する可能性があるデータ項目名のうち、出現頻度が最も高いデータ項目名を特定する。
推定結果表示部25は、項目名推定部24が推定したデータ項目名を、データ項目名推定装置100に接続された表示装置、又は外部の端末装置の表示装置の画面に表示する。結果編集部26は、推定されたデータ項目名に誤りがあると判断され、外部から、修正されたデータ項目名が入力された場合に、項目名推定部24による推定結果を修正する。また、結果編集部26は、修正内容を、学習処理部10に伝えることができる。この場合、学習処理部10に、修正内容を、属性情報31、属性個物情報32、及び属性組合せ情報33に反映させる。
[装置動作]
次に、本実施の形態におけるデータ項目推定装置100の動作について図3〜図10を用いて説明する。また、本実施の形態では、データ項目推定装置100を動作させることによって、データ項目推定方法が実施される。よって、本実施の形態におけるデータ項目推定方法の説明は、以下のデータ項目推定装置100の動作説明に代える。
まず、図5〜図8を用いて、学習フェーズ(学習処理)について説明する。図5は、本発明の実施の形態におけるデータ項目名推定装置の学習処理時における動作を示すフロー図である。
図5に示すように、最初に、学習テーブル受付部11は、外部から入力される学習用のテーブル(図3参照)を受け付ける(ステップA1)。また、学習テーブル受付部11は、受け付けた学習用のテーブルを特徴抽出部12に渡す。
次に、特徴抽出部12は、受け付けた学習用のテーブルのデータ項目の1つを選択し、選択したデータ項目のレコードのデータから、特徴値を抽出する(ステップA2)。
次に、特徴抽出部12は、全てのデータ項目から特徴値を抽出したかどうかを判定する(ステップA3)。判定の結果、全てのデータ項目から特徴値を抽出していない場合は、特徴抽出部12は、再度ステップA2を実行し、全てのデータ項目から特徴値を抽出している場合は、属性情報作成部13に、ステップA4を実行するように指示する。
属性情報作成部13は、ステップA3でYesと判定されると、データ項目毎に、設定された属性を対応付けて、属性情報31を作成する(ステップA4)。また、ステップA4において、属性の設定は、外部において、人手によって、抽出元のデータのデータ項目名に基づいて行なわれている。図6は、本発明の実施の形態において作成される属性情報の一例を示す図である。
次に、属性個物情報作成部14は、ステップA4で作成された属性情報に含まれる属性毎に、対応するデータ項目名が付与された属性個物情報32を作成する(ステップA5)。また、ステップA5において、データ項目名の設定は、外部において、人手によって行なわれている。図7は、本発明の実施の形態において作成される属性個物情報の一例を示す図である。
次に、属性組合せ情報作成部15は、ステップA5で作成された属性個物情報を用いて、学習モデルとして、学習用のテーブルにおける属性の組合せとそれに対応するデータ項目名とを示す属性組合せ情報33を作成する(ステップA6)。図8は、本発明の実施の形態において作成される属性組合せ情報の一例を示す図である。
続いて、図9〜図10を用いて、推定フェーズ(推定処理)について説明する。図9は、本発明の実施の形態におけるデータ項目名推定装置の推定処理時における動作を示すフロー図である。
図9に示すように、最初に、対象テーブル受付部21は、外部から入力される対象テーブル(図4参照)を受け付ける(ステップB1)。また、対象テーブル受付部21は、受け付けた対象テーブルを特徴抽出部22に渡す。
次に、特徴抽出部22は、図10(a)に示すように、受け付けた対象テーブルのデータ項目の1つを選択し、選択したデータ項目のレコードのデータから、特徴値を抽出する(ステップB2)。
図10(a)は、本発明の実施の形態で用いられる対象テーブルから抽出された特徴値の一例を示す図である。図10(b)は、図10(a)に示された特徴値から算出された類似度の一例を示す図である。
次に、特徴抽出部22は、全てのデータ項目から特徴値を抽出したかどうかを判定する(ステップB3)。判定の結果、全てのデータ項目から特徴値を抽出していない場合は、特徴抽出部22は、再度ステップB2を実行し、全てのデータ項目から特徴値を抽出している場合は、属性推定部23に、ステップB4を実行するように指示する。
属性推定部23は、ステップB3でYesと判定されると、対象テーブルのデータ項目を1つ選択する。そして、属性推定部23は、図10(b)に示すように、選択したデータ項目特徴値と、属性情報31に含まれる各属性の特徴値とを比較して、類似度を算出し、類似度が最も高い属性をそのデータ項目の属性として推定する(ステップB4)。
次に、属性推定部23は、全てのデータ項目について属性を推定したかどうかを判定する(ステップB5)。判定の結果、全てのデータ項目について属性を推定していない場合は、属性推定部23は、再度ステップB4を実行し、全てのデータ項目について属性を推定している場合は、項目名推定部24に、ステップB6を実行するように指示する。
次に、ステップB5でYesと判定された場合、属性推定部23は、まず、ステップB4で推定された属性を用いて、同時に出現する複数の属性の組合せを設定する。次いで、項目名推定部24は、図11(a)及び(b)に示すように、設定した属性の組合せ毎に、属性組合せ情報33及び属性個物情報32を用いて、特定のデータ項目名が出現する頻度(出現確率)を算出する(ステップB6)。
図11(a)は、本発明の実施の形態で用いられる属性組合せ情報の一例を示す図である。図11(b)は、本発明の実施の形態で算出されたデータ項目名の出現頻度の一例を示す図である。図11(b)において、「推定対象属性:[属性組合せ]」は、ある属性組合せにおける、データ項目名の推定対象となる属性を意味している。例えば、「日付:[地名、日付]」は、属性の組合せが「地名、日付」である場合において、データ項目名の推定対象は「日付」であることを意味している。
また、本実施の形態では、項目名推定部24は、例えば、属性の組み合わせから、ある属性を持つデータ項目のデータ項目名を推定する相関ルールを作成する。更に、項目名推定部24は、属性個物情報32を参照して、推定属性と同じ属性を持つ個物(データ項目名)を特定し、特定した個物について、相関ルールを用いて、データ項目名として選ばれる確率を算出する。
更に、相関ルールの作成は、例えば、下記の参照文献1または参照文献2に開示されている相関関係を利用したアルゴリズムを用いることによって行なうことができる。
(参照文献1)G. Piatetsky-Shapiro(1991). Discovery, analysis, and presentation of strong rules. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases. AAAI/MIT Press, Cambridge, MA.
(参照文献2)R. Agrawal, T. Imielinski, and A. Swami(1993). Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pages 207-216.
次に、項目名推定部24は、対象テーブルのデータ項目を1つ選択する。そして、項目名推定部24は、選択したデータ項目の推定された属性と、それと同時に出現している他の属性との組合せを、ステップB6で得られた算出結果に照合し、最も出現確率が高いデータ項目名を、選択したデータ項目のデータ項目名と推定する(ステップB7)。
次に、項目名推定部24は、全てのデータ項目についてデータ項目名を推定したかどうかを判定する(ステップB8)。判定の結果、全てのデータ項目についてデータ項目名を推定していない場合は、項目名推定部24は、再度ステップB7を実行する。
一方、判定の結果、全てのデータ項目についてデータ項目名を推定している場合は、項目名推定部24は、推定結果表示部25に結果を表示させる。これにより、データ項目名推定装置100における処理は終了する。
また、本実施の形態では、項目名推定部24は、属性組合せ情報33を入力として、データ項目名を出力するニューラルネットワークを形成し、形成したニューラルネットワークを用いて、データ項目名を推定しても良い。更に、項目名推定部24は、属性組合せ情報33を入力として、データ項目の属性の組み合わせから出現率が最も高いデータ項目名を推定するためのベイズ推定を構築し、構築したベイス推定を用いて、データ項目名を推定しても良い。
以上のように、本実施の形態では、データベースに登録されているデータに関する知識を必要とすることなく、データ項目に付与される項目名を推定することができる。このため、本実施の形態を用いれば、データ分析又はデータ統合をする場合において、データの知識を有していなくても、同一の意味を持ち、統合可能なデータ項目を容易に特定できる。
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図5に示すステップA1〜A6、図9に示すステップB1〜B8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるデータ項目推定装置100とデータ項目推定方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、学習処理部10及び推定処理部20として機能し、処理を行なう。
また、本実施の形態では、記憶部30は、コンピュータに備えられたハードディスク等の記憶装置に、属性情報31、属性個物情報32、及び属性組合せ情報33を構成するデータファイルを格納することによって実現できる。
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、学習処理部10及び推定処理部20のいずれかとして機能しても良い。また、記憶部30は、本実施の形態におけるプログラムを実行するコンピュータとは別のコンピュータ上に構築されていても良い。
ここで、本実施の形態におけるプログラムを実行することによって、データ項目推定装置100を実現するコンピュータについて図12を用いて説明する。図12は、本発明の実施の形態におけるデータ項目推定装置を実現するコンピュータの一例を示すブロック図である。
図12に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
なお、本実施の形態におけるデータ項目推定装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、データ項目推定装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
データ統合を行う際、統合対象のデータに関して、データ構造とデータ項目の意味の知識を有していなくても、推定により同じデータ項目を持つデータ構造の推定が可能となる。
10 学習処理部
11 学習テーブル受付部
12 特徴抽出部
13 属性情報作成部
14 属性個物情報作成部
15 属性組合せ情報作成部
20 推定処理部
21 対象テーブル受付部
22 特徴抽出部
23 属性推定部
24 項目名推定部
25 推定結果表示部
26 結果編集部
30 記憶部
31 属性情報
32 属性個物情報
33 属性組合せ情報
100 データ項目名推定装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (9)

  1. 学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、学習処理部と、
    対象となるテーブルのデータ項目毎の特徴値を、前記学習処理部による定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、推定処理部と、
    を備えている、ことを特徴とするデータ項目名推定装置。
  2. 前記学習処理部が、
    抽出した特徴値と当該データ項目名に対応する属性との関係を定義した属性情報を作成し、
    更に、作成した前記属性情報に含まれる属性毎に、対応するデータ項目名が付与された属性個物情報を作成し、
    そして、前記属性個物情報を用いて、前記学習モデルとして、前記学習用のテーブルにおける前記属性の組合わせと前記属性それぞれに対応するデータ項目名とを示す属性組合せ情報を作成する、
    請求項1に記載のデータ項目名推定装置。
  3. 前記推定処理部が、
    対象となるテーブルのレコードから、データ項目毎に、特徴値を抽出し、
    抽出した特徴値を前記属性情報に照合して、各データ項目の属性を推定し、
    そして、推定した属性を用いて、属性の組合せを設定し、設定した属性の組合せ毎に、前記属性組合せ情報及び前記属性個物情報を用いて、特定のデータ項目名が出現する頻度を算出し、
    算出結果に基づいて、前記対象となるテーブルのデータ項目それぞれのデータ項目名を推定する、
    請求項2に記載のデータ項目名推定装置。
  4. (a)学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、ステップと、
    (b)対象となるテーブルのデータ項目毎の特徴値を、前記(a)のステップで得られた定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、ステップと、
    を有する、ことを特徴とするデータ項目名推定方法。
  5. 前記(a)のステップにおいて、
    抽出した特徴値と当該データ項目名に対応する属性との関係を定義した属性情報を作成し、
    更に、作成した前記属性情報に含まれる属性毎に、対応するデータ項目名が付与された属性個物情報を作成し、
    そして、前記属性個物情報を用いて、前記学習モデルとして、前記学習用のテーブルにおける前記属性の組合わせと前記属性それぞれに対応するデータ項目名とを示す属性組合せ情報を作成する、
    請求項4に記載のデータ項目名推定方法。
  6. 前記(b)のステップにおいて、
    対象となるテーブルのレコードから、データ項目毎に、特徴値を抽出し、
    抽出した特徴値を前記属性情報に照合して、各データ項目の属性を推定し、
    そして、推定した属性を用いて、属性の組合せを設定し、設定した属性の組合せ毎に、前記属性組合せ情報及び前記属性個物情報を用いて、特定のデータ項目名が出現する頻度を算出し、
    算出結果に基づいて、前記対象となるテーブルのデータ項目それぞれのデータ項目名を推定する、
    請求項5に記載のデータ項目名推定方法。
  7. コンピュータに、
    (a)学習用のテーブルにおけるデータ項目名毎に、当該データ項目名が付与されているデータの特徴値を抽出し、抽出した特徴値と当該データ項目名に対応する属性との関係を定義し、前記属性毎に、対応するデータ項目名を特定し、前記学習用のテーブルにおける前記属性と前記データ項目名との組合せを学習して、学習モデルを作成する、ステップと、
    (b)対象となるテーブルのデータ項目毎の特徴値を、前記(a)のステップで得られた定義に照合して、各データ項目の属性を推定し、推定したデータ項目毎の属性を、前記学習モデルに適用して、前記対象となるテーブルのデータ項目のデータ項目名を推定する、ステップと、
    を実行させる、プログラム。
  8. 前記(a)のステップにおいて、
    抽出した特徴値と当該データ項目名に対応する属性との関係を定義した属性情報を作成し、
    更に、作成した前記属性情報に含まれる属性毎に、対応するデータ項目名が付与された属性個物情報を作成し、
    そして、前記属性個物情報を用いて、前記学習モデルとして、前記学習用のテーブルにおける前記属性の組合わせと前記属性それぞれに対応するデータ項目名とを示す属性組合せ情報を作成する、
    請求項7に記載のプログラム。
  9. 前記(b)のステップにおいて、
    対象となるテーブルのレコードから、データ項目毎に、特徴値を抽出し、
    抽出した特徴値を前記属性情報に照合して、各データ項目の属性を推定し、
    そして、推定した属性を用いて、属性の組合せを設定し、設定した属性の組合せ毎に、前記属性組合せ情報及び前記属性個物情報を用いて、特定のデータ項目名が出現する頻度を算出し、
    算出結果に基づいて、前記対象となるテーブルのデータ項目それぞれのデータ項目名を推定する、
    請求項8に記載のプログラム。
JP2017046895A 2017-03-13 2017-03-13 データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法 Active JP7235269B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017046895A JP7235269B2 (ja) 2017-03-13 2017-03-13 データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017046895A JP7235269B2 (ja) 2017-03-13 2017-03-13 データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法

Publications (3)

Publication Number Publication Date
JP2018151805A true JP2018151805A (ja) 2018-09-27
JP2018151805A5 JP2018151805A5 (ja) 2020-04-16
JP7235269B2 JP7235269B2 (ja) 2023-03-08

Family

ID=63680451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017046895A Active JP7235269B2 (ja) 2017-03-13 2017-03-13 データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法

Country Status (1)

Country Link
JP (1) JP7235269B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144469A (ja) * 2019-03-04 2020-09-10 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100570224B1 (ko) * 2003-02-24 2006-04-11 가부시키가이샤 히타치세이사쿠쇼 전표정의데이터 작성방법 및 전표처리장치
JP2008071052A (ja) * 2006-09-13 2008-03-27 Softbank Mobile Corp メディア変換メッセージシステム
JP2013522733A (ja) * 2010-03-12 2013-06-13 マイクロソフト コーポレーション サービスとしての情報に関連するセマンティックスの更新および適応性のあるインタフェース
JP2013232025A (ja) * 2012-04-27 2013-11-14 Ntt Docomo Inc データ移行支援装置及びデータ移行支援方法
WO2016194248A1 (ja) * 2015-06-03 2016-12-08 三菱電機株式会社 推論装置及び推論方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100570224B1 (ko) * 2003-02-24 2006-04-11 가부시키가이샤 히타치세이사쿠쇼 전표정의데이터 작성방법 및 전표처리장치
JP2008071052A (ja) * 2006-09-13 2008-03-27 Softbank Mobile Corp メディア変換メッセージシステム
JP2013522733A (ja) * 2010-03-12 2013-06-13 マイクロソフト コーポレーション サービスとしての情報に関連するセマンティックスの更新および適応性のあるインタフェース
JP2013232025A (ja) * 2012-04-27 2013-11-14 Ntt Docomo Inc データ移行支援装置及びデータ移行支援方法
WO2016194248A1 (ja) * 2015-06-03 2016-12-08 三菱電機株式会社 推論装置及び推論方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144469A (ja) * 2019-03-04 2020-09-10 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7383885B2 (ja) 2019-03-04 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP7235269B2 (ja) 2023-03-08

Similar Documents

Publication Publication Date Title
US20190251471A1 (en) Machine learning device
US9223815B2 (en) Method, apparatus, and program for supporting creation and management of metadata for correcting problem in dynamic web application
CN111625161B (zh) 标签的处理方法、装置及电子设备
US9104709B2 (en) Cleansing a database system to improve data quality
US20180246958A1 (en) Analysis server device, data analysis system, and data analysis method
US11379466B2 (en) Data accuracy using natural language processing
US9026643B2 (en) Contents' relationship visualizing apparatus, contents' relationship visualizing method and its program
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
CN109165119B (zh) 一种电子商务数据处理方法和系统
US10586169B2 (en) Common feature protocol for collaborative machine learning
JP2007188343A (ja) スキーマ統合支援装置、スキーマ統合支援方法およびスキーマ統合支援プログラム
US20220004885A1 (en) Computer system and contribution calculation method
CN110618926A (zh) 源代码分析方法和源代码分析装置
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
JP7235269B2 (ja) データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法
JP5890340B2 (ja) 画像分類装置及び画像分類プログラム
CN112241262A (zh) 一种面向软件定义卫星的可复用代码提取、分析与检索方法与装置
JP4630691B2 (ja) データベース装置とその処理方法
US20150134660A1 (en) Data clustering system and method
Pahwa et al. An efficient algorithm for data cleaning
WO2018206819A1 (en) Data storage method and apparatus
JPWO2023037399A5 (ja)
US8775873B2 (en) Data processing apparatus that performs test validation and computer-readable storage medium
KR100567813B1 (ko) 텐덤 시스템의 트랜잭션 분석 시스템
JP7442430B2 (ja) 審査支援システム、及び審査支援方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220111

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220121

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220125

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220401

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220405

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220517

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20221011

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20221220

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230124

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230216

R151 Written notification of patent or utility model registration

Ref document number: 7235269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151