JP7010364B2 - Data creation device, data classification device, data processing system, data creation method, data classification method and program - Google Patents
Data creation device, data classification device, data processing system, data creation method, data classification method and program Download PDFInfo
- Publication number
- JP7010364B2 JP7010364B2 JP2020506495A JP2020506495A JP7010364B2 JP 7010364 B2 JP7010364 B2 JP 7010364B2 JP 2020506495 A JP2020506495 A JP 2020506495A JP 2020506495 A JP2020506495 A JP 2020506495A JP 7010364 B2 JP7010364 B2 JP 7010364B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- database
- item
- metadata
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
Description
本発明は、データ作成装置、データ分類装置、データ取得システム、データ作成方法、データ分類方法及びプログラムに関する。 The present invention relates to a data creation device, a data classification device, a data acquisition system, a data creation method, a data classification method and a program.
ICT(Information and Communication Technology)の発展に伴い、多種多様な大量の情報をリアルタイムに取得することが容易になっている。これらの情報を活用することによって、人間の勘や経験によって判断されていた作業において、取得したデータを根拠とした判断に基づく作業を行うことが可能になりつつある。そのため、データの取得に関する様々な技術が開発されている。 With the development of ICT (Information and Communication Technology), it has become easy to acquire a large amount of various kinds of information in real time. By utilizing this information, it is becoming possible to perform work based on judgment based on acquired data in work that was judged by human intuition and experience. Therefore, various technologies related to data acquisition have been developed.
特許文献1には、ヘテロ性を持つ入力データを変換し、計算機で自動処理しやすくすることができるデータ変換装置等が記載されている。
取得した大量のデータの活用に際しては、データの多様性への対処が必要となる場合がある。例えば、取得した様々な形式のデータを、特定の形式のデータベースへ格納する必要が生じる場合がある。つまり、特許文献1等に記載の技術に対して、多様な形式のデータを効率的に変換するための技術が求められている。
When utilizing the large amount of acquired data, it may be necessary to deal with the diversity of the data. For example, it may be necessary to store the acquired data in various formats in a database of a specific format. That is, there is a demand for a technique for efficiently converting data in various formats with respect to the technique described in
本発明は、上記課題を解決するためになされたものであって、多様な形式のデータを効率的に変換するデータ取得システム等を提供することを主たる目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to provide a data acquisition system or the like that efficiently converts data in various formats.
本発明の一態様におけるデータ作成装置は、データベースを構成する項目の各々に関して、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成するメタデータ構成手段と、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出する特徴値算出手段と、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する教師データ生成手段と、を備える。 The data creation apparatus according to one aspect of the present invention comprises metadata constituting extended metadata including a metadata indicating the characteristics of the items and a conversion function indicating a conversion procedure of the items into a data format for each of the items constituting the database. Based on the feature value calculation means that calculates the feature value representing the feature of the record data corresponding to each of the items, and the extended metadata and the feature value by using the configuration means and the record data corresponding to each of the items in the database. , A teacher data generation means for generating teacher data for a learner that generates an estimation model for classifying data registered in the database.
また、本発明の一態様におけるデータ分類装置は、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルを用いて推定された結果に基づいて、データに対応するデータベースの項目を特定するメタデータ解析手段と、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データのデータ形式を変換するデータ変換手段と、変換されたデータをデータベースの特定された項目へ登録するデータ登録手段と、を備える。 Further, the data classification device according to one aspect of the present invention corresponds to the data based on the result estimated by using the estimation model for classifying the data registered in the database, which is generated by the learning by the learner. A data analysis means that identifies the items in the database, a data conversion means that transforms the data format of the data using the conversion function contained in the extended metadata that represents the characteristics of the identified item, and the converted data in the database. It is provided with a data registration means for registering to the specified item of.
また、本発明の一態様におけるデータ取得システムは、上述のデータ作成装置と、上述のデータ分類装置と、教師データ生成手段により生成された教師データを学習することにより、データベースに登録されるデータを分類するための推定モデルを生成する学習器とを備え、メタデータ解析手段は、学習器によって生成された推定モデルを用いて推定された結果に基づいて、データに対応するデータベースの項目を特定する。 Further, the data acquisition system according to one aspect of the present invention collects data registered in the database by learning the above-mentioned data creation device, the above-mentioned data classification device, and the teacher data generated by the teacher data generation means. Equipped with a learner that generates an estimation model for classification, the metadata analysis means identifies the items in the database that correspond to the data based on the results estimated using the estimation model generated by the learner. ..
また、本発明の一態様におけるデータ作成方法は、データベースを構成する項目の各々について、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成し、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出し、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する。 Further, the data creation method in one aspect of the present invention constitutes extended metadata including a metadata indicating the characteristics of the items and a conversion function indicating the conversion procedure of the items into the data format for each of the items constituting the database. , The feature value representing the feature of the record data corresponding to each of the items is calculated by using the record data corresponding to each of the items in the database, and the data registered in the database is calculated based on the extended metadata and the feature value. Generate teacher data for the learner to generate an estimation model for classification.
また、本発明の一態様におけるデータ分類方法は、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、データに対応するデータベースの項目を特定し、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データの形式を変換し、変換されたデータをデータベースの特定された項目へ登録する。 Further, the data classification method in one aspect of the present invention is a database corresponding to the data based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner. The item is specified, the format of the data is converted using the conversion function included in the extended metadata that represents the characteristics of the specified item, and the converted data is registered in the specified item in the database.
また、本発明の一態様におけるプログラムは、コンピュータに、データベースを構成する項目の各々について、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する処理と、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出する処理と、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する処理と、を実行させる。 Further, the program according to one aspect of the present invention configures a computer with extended metadata including metadata indicating the characteristics of the items and conversion functions indicating the conversion procedure of the items into the data format for each of the items constituting the database. Processing to calculate the feature value representing the feature of the record data corresponding to each item using the record data corresponding to each item in the database, and to the database based on the extended metadata and the feature value. The process of generating teacher data for the learner, which generates an estimation model for classifying the registered data, is executed.
また、本発明の一態様におけるプログラムは、コンピュータに、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、データに対応するデータベースの項目を特定する処理と、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データの形式を変換する処理と、変換されたデータをデータベースの特定された項目へ登録する処理と、を実行させる。 In addition, the program in one aspect of the present invention corresponds to the data based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learning device in the computer. The process of specifying the item of the item, the process of converting the format of the data using the conversion function included in the extended metadata that represents the characteristics of the specified item, and the process of registering the converted data in the specified item of the database. And to execute.
本発明によると、多様な形式のデータを効率的に変換するデータ取得システム等を提供することができる。 According to the present invention, it is possible to provide a data acquisition system or the like that efficiently converts data in various formats.
本発明の実施形態について、添付の図面を参照して説明する。本発明の実施形態において、各装置又はシステムの各構成要素は、機能単位のブロックを示している。各装置又はシステムの各構成要素の一部又は全部は、例えば図8に示すような情報処理装置1000とプログラムとの任意の組み合わせにより実現される。情報処理装置1000は、一例として、以下のような構成を含む。
An embodiment of the present invention will be described with reference to the accompanying drawings. In embodiments of the invention, each component of each device or system represents a block of functional units. A part or all of each component of each device or system is realized by an arbitrary combination of the
・CPU(Central Processing Unit)1001
・ROM(Read Only Memory)1002
・RAM(Random Access Memory)1003
・RAM1003にロードされるプログラム1004
・プログラム1004を格納する記憶装置1005
・記録媒体1006の読み書きを行うドライブ装置1007
・通信ネットワーク1009と接続する通信インターフェース1008
・データの入出力を行う入出力インターフェース1010
・各構成要素を接続するバス1011
各実施形態における各装置又はシステムの各構成要素は、これらの機能を実現するプログラム1004をCPU1001が取得して実行することで実現される。各装置の各構成要素の機能を実現するプログラム1004は、例えば、予め記憶装置1005やRAM1003に格納されており、必要に応じてCPU1001が読み出す。なお、プログラム1004は、通信ネットワーク1009を介してCPU1001に供給されてもよいし、予め記録媒体1006に格納されており、ドライブ装置1007が当該プログラムを読み出してCPU1001に供給してもよい。-CPU (Central Processing Unit) 1001
-ROM (Read Only Memory) 1002
・ RAM (Random Access Memory) 1003
-
A
-
Input /
-
Each component of each device or system in each embodiment is realized by the
各装置の実現方法には、様々な変形例がある。例えば、各装置又はシステムは、構成要素毎にそれぞれ別個の情報処理装置1000とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置1000とプログラムとの任意の組み合わせにより実現されてもよい。
There are various modifications in the method of realizing each device. For example, each device or system may be realized by any combination of the
また、各装置又はシステムの各構成要素の一部又は全部は、プロセッサ等を含む汎用または専用の回路(circuitry)や、これらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 Further, a part or all of each component of each device or system is realized by a general-purpose or dedicated circuit including a processor or the like, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by the combination of the circuit or the like and the program described above.
各装置又はシステムの各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。 When a part or all of each component of each device or system is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributed. May be done. For example, the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client-and-server system and a cloud computing system.
本発明の実施形態におけるシステム及び装置の各々について説明する。図1は、本発明の実施形態におけるデータ作成装置を示す図である。図2は、本発明の実施形態におけるデータ分類装置を示す図である。図3は、本発明の実施形態におけるデータ処理システムを示す図である。 Each of the system and the apparatus in the embodiment of the present invention will be described. FIG. 1 is a diagram showing a data creation device according to an embodiment of the present invention. FIG. 2 is a diagram showing a data classification device according to an embodiment of the present invention. FIG. 3 is a diagram showing a data processing system according to an embodiment of the present invention.
図1に示すとおり、本発明の実施形態におけるデータ作成装置100は、メタデータ構成部110と、特徴値算出部120と、教師データ生成部130とを備える。メタデータ構成部110は、データベースを構成する項目の各々に関して、各々の項目の特徴を示すメタデータ及び各々の項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する。特徴値算出部120は、データベースの項目の各々に対応するレコードデータを用いて、データベースの項目の各々に対応するレコードデータの特徴を表す特徴値を算出する。教師データ生成部130は、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する。
As shown in FIG. 1, the
また、図2に示すとおり、本発明の実施形態におけるデータ分類装置200は、メタデータ解析部210と、データ変換部220と、データ登録部230とを備える。メタデータ解析部210は、データベースに登録されるデータを分類するための推定モデルを用いて推定された結果に基づいて、データベースに登録されるデータに対応するデータベースの項目を特定する。推定モデルは、学習器による学習によって生成される。データ変換部220は、特定されたデータベースの項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データベースに登録されるデータの型であるデータ形式を変換する。データ登録部230は、変換されたデータを、データベースの特定された項目へ登録する。
Further, as shown in FIG. 2, the
また、図3に示すとおり、本発明の実施形態におけるデータ処理システム10は、データ作成装置100と、データ分類装置200と、学習器11とを備える。データ作成装置100及びデータ分類装置200は、それぞれ上述した装置と同じ装置である。学習器11は、教師データ生成部130により生成された教師データを学習することにより、新規にデータベース20に登録されるデータを分類するための推定モデルを生成する。また、データ処理システム10において、データ分類装置200のメタデータ解析部210は、学習器によって生成された推定モデルを用いて推定された結果に基づいて、登録されるデータに対応するデータベースの項目を特定する。
Further, as shown in FIG. 3, the
データ処理システム10は、データベース20に新たにデータを登録するために用いられるシステムである。
The
本実施形態において、データベース20に新たに登録されるデータの形式や種類は、特に限定されない。そのため、データベース20に新たにデータが格納される場合には、データの正規化や変換といった、データの形式の変換が必要となる場合がある。しかしながら、任意の様々な形式のデータを変換する場合には、人手による作業が必要となる等、変換のための作業が困難な場合があった。
In the present embodiment, the format and type of data newly registered in the
そこで、データ処理システム10は、データベース20に登録されるデータのデータ形式を、データベース20を構成する各項目に登録可能な形式に自動的に変換して登録する。データベース20に登録されるデータのデータ形式に対応するデータベースの項目は、学習器11において機械学習によって生成された推定モデルにより推定される。
Therefore, the
また、データ処理システム10を構成する要素のうち、データ作成装置100は、学習器11において学習に用いられる教師データを生成する。また、データ分類装置200は、推定モデルによる推定結果に応じて、データベース20に登録されるデータのデータ形式を、データベース20の項目に応じた形式に変換する。
Further, among the elements constituting the
なお、図3に示す例では、データ処理システム10は、データベース20と別個のシステムとして記載されているが、データ処理システム10は、データベース20と一体のシステムとして用いられてもよい。
In the example shown in FIG. 3, the
続いて、データ作成装置100及びデータ分類装置200の各々における構成要素について説明する。まずは、データ作成装置100の各要素について説明する。
Subsequently, the components in each of the
メタデータ構成部110は、データベース20を構成する項目の各々に関して、拡張メタデータを構成する。拡張メタデータは、データベース20の項目の各々についてのメタデータ及び変換関数を含む。メタデータは、データベース20の項目の各々についての特徴を示すデータである。変換関数は、任意のデータを、データベース20の項目の各々のデータ形式へ変換する場合における変換手順を示す関数である。変換関数は、図3に示す変換関数30のように、データベース20に応じて予め用意される。
The
すなわち、メタデータ構成部110によって構成される拡張メタデータは、任意の形式である新規のデータがデータベース20に格納される際に、当該データが該当しうるデータベース20の項目を判断するために用いられるデータである。
That is, the extended metadata configured by the
図4及び図5の例を用いて、メタデータ構成部110によって構成される拡張メタデータと、拡張メタデータに含まれるメタデータ及び変換関数について説明する。
The extended metadata configured by the
図4は、データベース20の一例を示す図である。データベース20の列の各々は、データベースの項目を表す。図4に示す例では、データベース20には、“id”、“price”、“weight”、“rank”、“area”の5つの項目が含まれる。この例では、5つの項目は、それぞれ、データの識別番号、価格、値の重み、ランク及び場所を表す項目である。なお、データベース20の項目はこれには限られず、データベース20に格納されるデータに応じて適宜定められればよい。
FIG. 4 is a diagram showing an example of the
また、データベース20の行の各々は、データベースの各項目に対する具体的なデータであるレコードデータを表す。すなわち、図4では、データベース20に4つのレコードデータが含まれる例が示されている。
Further, each row of the
図5は、図4に示すデータベース20に対して、データ作成装置100が生成する教師データの例を示す。図5に示す教師データのうち、メタデータ構成部110は、「拡張メタデータ」の欄に示す内容を構成する。
FIG. 5 shows an example of teacher data generated by the
メタデータは、データベース20の項目の各々についての特徴を示すデータである。メタデータは、データベース20の項目の各々に関連し、項目の各々についての特徴を示すデータであればよく、その種類は特に限定されない。図5に示す例では、データベース20の項目の各々に対して、メタデータとして、項目名及びデータ型が示されている。データ型には、数値型及び文字型の2つの型が示されている。メタデータ構成部110は、例えば、データベース20の図示しないデータディクショナリに格納された、データベース20の項目に関する任意の種類のデータを、メタデータとして抽出する。
The metadata is data showing the characteristics of each of the items in the
変換関数は、任意のデータを、データベース20の項目の各々に対応するレコードデータの形式へ変換する関数である。変換関数は、データ形式の変換に利用可能であれば種類は限られず、任意の関数やその逆関数が変換関数として適宜用いられる。また、変換関数には、データの形式を変更しないことも含まれる。図5に示す例では、データベース20の項目の各々に対して、変換関数として、無変換、標準化、正規化、文字列の階級化、文字列の2値化の変換関数が示されている。
The conversion function is a function that converts arbitrary data into a record data format corresponding to each of the items in the
変換関数は予め、任意の記憶手段等に格納される。メタデータ構成部110は、当該記憶手段を適宜参照して、データベース20の項目の各々に対応する変換関数を取得する。
The conversion function is stored in advance in any storage means or the like. The
メタデータ構成部110は、データベース20のデータディクショナリから抽出したメタデータと、取得した変換関数とを組み合わせて、データベース20の一つの項目に対する拡張メタデータを構成する。そして、メタデータ構成部110は、データベース20の全ての項目に対して、同様に拡張メタデータを構成する。
The
特徴値算出部120は、データベース20の項目の各々のレコードデータの特徴を表す特徴値を算出する。特徴値は、データベース20の項目の各々に対するレコードデータを用いて算出される。特徴値算出部120は、図5に示す教師データのうち、「特徴値」の欄に示す内容を構成する。
The feature
特徴値は、データベース20の項目の各々のレコードデータの特徴を表す値である。特徴値には、例えば、レコードデータの平均、分散、歪度、レコードデータに含まれる各値の出現頻度といった、各々のレコードデータの特徴を要約して特徴を表す統計量が含まれる。ただし、特徴値は上述した例に限られず、データベース20の項目の各々のレコードデータの特徴を表す任意の種類の値が、特徴値として用いられる。
The feature value is a value representing the feature of each record data of the item of the
教師データ生成部130は、メタデータ構成部110によって構成された拡張メタデータ及び特徴値算出部120によって算出された特徴値に基づいて、教師データを生成する。教師データ生成部130によって生成される教師データは、学習器11に対する教師データである。上述した図5に示す教師データは、教師データ生成部130によって生成される教師データの一例である。
The teacher
上述のように、学習器11は、教師データ生成部130により生成された教師データを学習することにより、新規にデータベース20に登録されるデータを分類するための推定モデルを生成する。すなわち、学習器11においては、拡張メタデータに含まれるデータベース20の項目毎の特徴や、特徴値によって表される、データベース20の項目毎のレコードデータに関しても学習が行われる。
As described above, the
学習器11においては、拡張メタデータ及び特徴値の内容やその他のデータベース20に関する条件に応じて、公知の学習の手法が適宜用いられる。学習器11は、教師データ生成部130により生成された教師データを取得して学習を行い、学習済の推定モデルを生成する。
In the
また、学習済の推定モデルは、データベース20に登録されるデータに対応する拡張メタデータや変換関数の候補を推定する。例えば、学習済の推定モデルは、データベース20に登録されるデータに最もよく対応する拡張メタデータ又は変換関数を推定する。又は、学習済の推定モデルは、データベース20に登録されるデータに対応する可能性がある、一つ以上の拡張メタデータや変換関数の候補を推定してもよい。データベース20に登録されるデータに対応する拡張メタデータや変換関数の候補が推定されることで、当該データが格納されるべきデータベース20の項目の特定が可能となる。
Further, the trained estimation model estimates the candidates of the extended metadata and the conversion function corresponding to the data registered in the
次に、データ分類装置200の各要素について説明する。
Next, each element of the
メタデータ解析部210は、推定モデルを用いて推定された結果に基づいて、データベース20に登録されるデータに対応するデータベース20の項目を特定する。推定モデルは、学習器11による学習によって生成された、新規にデータベース20に登録されるデータを分類するための学習済モデルである。メタデータ解析部210は、一動作例として、学習器11の推定モデルに当該データを入力して推定結果を取得し、取得した推定結果に基づいて、当該データに対応するデータベース20の項目を特定する。
The
上述のように、データベース20に新たに格納されるデータのデータ形式や種類は特に限定されない。また、データの形式や種類と同様に、データベース20に新たに格納されるデータの入手方法は特に限定されず、任意の方法で得られたデータが、データベース20に新たに格納され得る。
As described above, the data format and type of data newly stored in the
メタデータ解析部210は、例えば、データベース20に登録されるデータに対して推定モデルによって推定された拡張メタデータが対応するデータベース20の項目を解析し、当該データに対応するデータベース20の項目を特定する。
For example, the
この場合の解析には、例えば、推定された拡張メタデータに含まれるメタデータによって規定されるデータ型とデータベース20に登録されるデータのデータ型が合致するかの解析が含まれる。また、この場合の解析には、推定された拡張メタデータに含まれる変換関数によって、データベース20に登録されるデータのデータ形式を、当該メタデータによって規定されるデータ型へ変換可能であるかの解析が含まれてもよい。
The analysis in this case includes, for example, an analysis of whether the data type defined by the metadata included in the estimated extended metadata matches the data type of the data registered in the
また、学習器11によって生成された推定モデルが、データベース20に登録されるデータの値と合致する特徴値を推定した場合が想定される。この場合には、メタデータ解析部210は、当該データの値が、特徴値の範囲と矛盾しないことを解析して、当該のデータに対応するデータベース20の項目を特定してもよい。このような解析は、上述した解析と併せて行われてもよいし、上述した解析とは別に行われてもよい。
Further, it is assumed that the estimation model generated by the
更に、推定モデルによって、データベース20に登録されるデータに対して複数の拡張メタデータが推定されている場合が想定される。この場合には、メタデータ解析部210は、例えば上記のいずれかの方法を用いて、当該データに対して最も適した拡張メタデータに対応する項目を、当該データに対応するデータベース20の項目として特定してもよい。
Further, it is assumed that a plurality of extended metadata are estimated for the data registered in the
データ変換部220は、変換関数を用いて、データベース20に登録されるデータのデータ形式を変換する。この場合に用いられる変換関数は、メタデータ解析部210によって特定されたデータベース20の項目についての変換関数である。すなわち、データ変換部220によって、データベース20に登録されるデータのデータ形式が、データベース20の対応する項目のデータ形式となるように変換される。
The
データ登録部230は、データ変換部220によってデータベース20の各項目のデータ形式に変換された、データベース20に登録されるデータを、データベース20へ格納する。
The
なお、データ作成装置100の特徴値算出部120は、データ登録部230によってデータベース20へ格納される新規のデータを取得し、特徴値を再計算してもよい。そして、データ作成装置100の教師データ生成部130は、新たな教師データを生成してもよい。更に、学習器11は、新たに生成された教師データを学習してもよい。
The feature
このようにすることで、学習器11によって生成される推定モデルを用いて行われる、データベース20に登録されるデータに対するデータベース20の項目の推定精度が向上する。そして、推定モデルによる推定の精度が向上することによって、データ分類装置200によって行われる、データベース20に登録されるデータについてのデータベース20の項目の各々に対する分類の精度が同様に向上する。
By doing so, the estimation accuracy of the items of the
続いて、図6及び図7に示すフローチャートを用いて、本実施形態におけるデータ作成装置100及びデータ分類装置200の動作の一例を説明する。
Subsequently, an example of the operation of the
まず、図6に示すフローチャートを用いて、本実施形態におけるデータ作成装置100の動作を説明する。
First, the operation of the
最初に、メタデータ構成部110及び特徴値算出部120は、データが新たに格納される対象となるデータベース20を読み込む(ステップS101)。この場合に、メタデータ構成部110は、変換関数30やその他の教師データの作成に必要となる情報を読み込む。
First, the
次に、メタデータ構成部110及び特徴値算出部120は、ステップS101において読み込まれたデータベース20を構成する項目の一つを選択する(ステップS102)。
Next, the
次に、メタデータ構成部110は、データベース20の図示しないデータディクショナリ等から、ステップS102で選択されたデータベース20の項目に関するメタデータを抽出する(ステップS103)。そして、メタデータ構成部110は、抽出したメタデータと変換関数とを組み合わせて、拡張メタデータを構成する(ステップS104)。
Next, the
また、ステップS103及びステップS104の処理と並行して、特徴値算出部120は、ステップS102で選択されたデータベース20の項目のレコードデータを抽出する(ステップS105)。そして、特徴値算出部120は、ステップS105において抽出したレコードデータに関する特徴値を算出する(ステップS106)。
Further, in parallel with the processing of step S103 and step S104, the feature
なお、図6に示すフローチャートでは、ステップS103及びS104の処理と、ステップS105及びステップS106の処理とが並行に行われることが示されている。ただし、ステップS103及びS104の処理と、ステップS105及びステップS106の処理との順番は、この例に限られず、逐次的に実行されてもよい。 In the flowchart shown in FIG. 6, it is shown that the processes of steps S103 and S104 and the processes of steps S105 and S106 are performed in parallel. However, the order of the processes of steps S103 and S104 and the processes of steps S105 and S106 is not limited to this example, and may be executed sequentially.
ステップS104及びステップS106の処理が行われると、教師データ生成部130は、ステップS102において選択されたデータベース20の項目に対する教師データを生成する(ステップS107)。
When the processes of step S104 and step S106 are performed, the teacher
ステップS107において教師データが作成されると、メタデータ構成部110及び特徴値算出部120は、データベース20の全ての項目に対して教師データを作成したか否かを判断する(ステップS108)。
When the teacher data is created in step S107, the
全ての項目に対して教師データが作成されていると判断された場合(ステップS108:Yes)には、教師データ生成部130は、例えば教師データを学習器11へ送信する(ステップS109)。学習器11に教師データが送信されると、学習器11は、送信された教師データの学習を行い、上述した推定モデルを生成する。なお、ステップS109においては、教師データ生成部130は、学習器11に教師データを直接送信せず、学習器11が参照可能な記憶手段等に教師データを格納してもよい。
When it is determined that the teacher data has been created for all the items (step S108: Yes), the teacher
全ての項目に対する教師データの作成が終了していないと判断された場合(ステップS108:No)には、ステップS102に戻り、ステップS102以降の処理が繰り返し行われる。すなわち、メタデータ構成部110及び特徴値算出部120は、データベース20を構成する項目のうち、未選択の項目の一つを選択して、以降の処理を実行する。
If it is determined that the creation of teacher data for all items has not been completed (step S108: No), the process returns to step S102, and the processes after step S102 are repeated. That is, the
次に、図7に示すフローチャートを用いて、本実施形態におけるデータ分類装置200の動作を説明する。
Next, the operation of the
最初に、メタデータ解析部210は、新たにデータベース20へ登録されるデータを取得する(ステップS201)。
First, the
続いて、メタデータ解析部210は、ステップS201にて取得したデータを、学習器11の推定モデルに入力する。学習器11の推定モデルは、一例として入力されたデータに対する拡張メタデータを推定する(ステップS202)。推定モデルは、入力されたデータに対する変換関数やその他の情報を推定してもよい。
Subsequently, the
次に、メタデータ解析部210は、ステップS202において学習器11の推定モデルを用いて推定された結果に基づいて、新規のデータに対応するデータベース20の項目を特定する(ステップS203)。
Next, the
次に、データ変換部220は、ステップS203において特定されたデータベース20の項目についての変換関数を用いて、データベース20へ登録されるデータのデータ形式を変換する(ステップS204)。
Next, the
そして、データ登録部230は、ステップS205においてデータ形式が変換されたデータを、データベース20へ格納する(ステップS205)。
Then, the
以上のとおり、本実施形態におけるデータ処理システム10では、データ作成装置100が、データベース20を構成する各々についての拡張メタデータ及び特徴値を用いて、データベース20に登録される新規のデータを分類するための推定モデルを生成する学習器11に対する教師データを作成する。そして、データ分類装置200が、データ作成装置100によって生成された教師データを用いた学習によって得られた推定モデルを用いて、任意の種類のデータに対応するデータベース20の項目を特定する。
As described above, in the
すなわち、本実施形態におけるデータ処理システム10では、データ作成装置100が、データベース20のメタデータやレコードデータ、変換関数等を用いて教師データを作成することで、適切な推定が可能なモデルの生成が可能となる。また、データ分類装置200が、データ作成装置100によって作成された教師データを用いて生成された学習済モデルを用いることで、新たなデータをデータベース20の適切な項目へ格納することが可能となる。
That is, in the
したがって、本実施形態におけるデータ処理システム10は、多様な形式のデータを効率的に変換することを可能にする。
Therefore, the
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本発明のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various modifications that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention. In addition, the configurations in each embodiment can be combined with each other as long as they do not deviate from the scope of the present invention.
この出願は2018年3月14日に出願された日本出願特願2018-046137を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority on the basis of Japanese application Japanese Patent Application No. 2018-046137 filed on March 14, 2018 and incorporates all of its disclosures herein.
10 データ処理システム
11 学習器
20 データベース
30 変換関数
100 データ作成装置
110 メタデータ構成部
120 特徴値算出部
130 教師データ生成部
200 データ分類装置
210 メタデータ解析部
220 データ変換部
230 データ登録部10
Claims (10)
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出する特徴値算出手段と、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する教師データ生成手段と、
を備えるデータ作成装置。 For each of the items constituting the database, a metadata constructing means for constructing extended metadata including metadata indicating the characteristics of the item and a conversion function indicating a conversion procedure of the item into a data format, and
A feature value calculation means for calculating a feature value representing a feature of the record data corresponding to each of the items by using the record data corresponding to each of the items in the database.
A teacher data generation means for generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
A data creation device equipped with.
請求項1に記載のデータ作成装置。 The feature value calculation means calculates a statistic indicating the feature of the record data as the feature value.
The data creation device according to claim 1.
請求項1又は2に記載のデータ作成装置。 The metadata includes the data type of the item.
The data creation device according to claim 1 or 2.
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換するデータ変換手段と、
変換された前記データを前記データベースの特定された前記項目へ登録するデータ登録手段と、
を備えるデータ分類装置。 A metadata analysis means that identifies the item in the database corresponding to the data based on the result estimated using the estimation model for classifying the data registered in the database generated by the learning by the learner. ,
A data conversion means for converting the data format of the data using a conversion function included in the extended metadata representing the characteristics of the identified item.
A data registration means for registering the converted data in the specified item in the database, and
A data classification device equipped with.
請求項4に記載のデータ分類装置。 The metadata analysis means identifies an item in the database corresponding to the data by analyzing the item in the database corresponding to the extended metadata estimated by the estimation model for the data.
The data classification device according to claim 4.
請求項4又は5に記載のデータ分類装置と、
前記教師データ生成手段により生成された前記教師データを学習することにより、前記データベースに登録される前記データを分類するための前記推定モデルを生成する前記学習器とを備え、
前記メタデータ解析手段は、前記学習器によって生成された前記推定モデルを用いて推定された結果に基づいて、前記データに対応する前記データベースの前記項目を特定する、
データ処理システム。 The data creation device according to any one of claims 1 to 3.
The data classification device according to claim 4 or 5,
A learning device for generating the estimation model for classifying the data registered in the database by learning the teacher data generated by the teacher data generation means is provided.
The metadata analysis means identifies the item in the database corresponding to the data based on the results estimated using the estimation model generated by the learner.
Data processing system.
データベースを構成する項目の各々について、前記項目の特徴を示すメタデータ及び前記項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成し、
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出し、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する
データ作成方法。 The computer
For each of the items constituting the database, the extended metadata including the metadata indicating the characteristics of the item and the conversion function indicating the conversion procedure of the item to the data format is configured.
Using the record data corresponding to each of the items in the database, a feature value representing the feature of the record data corresponding to each of the items is calculated.
A data creation method for generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、前記データに対応する前記データベースの項目を特定し、
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換し、
変換された前記データを前記データベースの特定された前記項目へ登録する
データ分類方法。 The computer
Based on the results estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner, the item of the database corresponding to the data is identified.
Using the conversion function contained in the extended metadata that represents the characteristics of the identified item, the data format of the data is converted.
A data classification method for registering the converted data in the specified item in the database.
データベースを構成する項目の各々について、前記項目の特徴を示すメタデータ及び前記項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する処理と、
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出する処理と、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する処理と、
を実行させるプログラム。 On the computer
For each of the items that make up the database, the process of forming extended metadata that includes metadata that shows the characteristics of the item and conversion functions that show the conversion procedure of the item to the data format.
Using the record data corresponding to each of the items in the database, a process of calculating a feature value representing the feature of the record data corresponding to each of the items, and
A process of generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
A program to execute.
学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、前記データに対応する前記データベースの項目を特定する処理と、
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換する処理と、
変換された前記データを前記データベースの特定された前記項目へ登録する処理と、
を実行させるプログラム。 On the computer
Based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner, the process of identifying the item of the database corresponding to the data, and the process of identifying the item of the database corresponding to the data.
Processing to convert the data format of the data using the conversion function included in the extended metadata that represents the characteristics of the identified item.
The process of registering the converted data in the specified item of the database, and
A program to execute.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046137 | 2018-03-14 | ||
JP2018046137 | 2018-03-14 | ||
PCT/JP2019/009574 WO2019176824A1 (en) | 2018-03-14 | 2019-03-11 | Data creator, data classifier, data acquisition system, data creation method, data classification method, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019176824A1 JPWO2019176824A1 (en) | 2021-03-11 |
JP7010364B2 true JP7010364B2 (en) | 2022-01-26 |
Family
ID=67906674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506495A Active JP7010364B2 (en) | 2018-03-14 | 2019-03-11 | Data creation device, data classification device, data processing system, data creation method, data classification method and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7010364B2 (en) |
WO (1) | WO2019176824A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027690A (en) | 2010-07-23 | 2012-02-09 | Fujitsu Ltd | Information integration program, apparatus and method |
WO2017208922A1 (en) | 2016-05-31 | 2017-12-07 | 株式会社東新システム | Data exchange system, data exchange method, and data exchange program |
US20180018579A1 (en) | 2016-07-15 | 2018-01-18 | ROKITT Inc. | Primary Key-Foriegn Key Relationship Determination Through Machine Learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63100547A (en) * | 1986-10-17 | 1988-05-02 | Mitsubishi Electric Corp | Data base controlling system |
-
2019
- 2019-03-11 JP JP2020506495A patent/JP7010364B2/en active Active
- 2019-03-11 WO PCT/JP2019/009574 patent/WO2019176824A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027690A (en) | 2010-07-23 | 2012-02-09 | Fujitsu Ltd | Information integration program, apparatus and method |
WO2017208922A1 (en) | 2016-05-31 | 2017-12-07 | 株式会社東新システム | Data exchange system, data exchange method, and data exchange program |
US20180018579A1 (en) | 2016-07-15 | 2018-01-18 | ROKITT Inc. | Primary Key-Foriegn Key Relationship Determination Through Machine Learning |
Also Published As
Publication number | Publication date |
---|---|
WO2019176824A1 (en) | 2019-09-19 |
JPWO2019176824A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070006128A1 (en) | Method for evaluating dynamic expressions | |
CN109783785B (en) | Method and device for generating experiment detection report and computer equipment | |
CN111611797B (en) | Method, device and equipment for marking prediction data based on Albert model | |
CN114861836B (en) | Model deployment method based on artificial intelligence platform and related equipment | |
US20200151506A1 (en) | Training method for tag identification network, tag identification apparatus/method and device | |
CN112597062B (en) | Military software structured quality data extraction method and device and software testing device | |
CN110249312A (en) | Data integration operation changing | |
CN111325200A (en) | Image annotation method, device, equipment and computer readable storage medium | |
CN110968664A (en) | Document retrieval method, device, equipment and medium | |
CN110490237B (en) | Data processing method and device, storage medium and electronic equipment | |
JP7010364B2 (en) | Data creation device, data classification device, data processing system, data creation method, data classification method and program | |
WO2020179378A1 (en) | Information processing system, information processing method, and recording medium | |
CN116610304A (en) | Page code generation method, device, equipment and storage medium | |
CN113033178B (en) | Text evaluation method, device and computer for business planning | |
CN113010687B (en) | Exercise label prediction method and device, storage medium and computer equipment | |
CN114880590A (en) | Multi-language website currency automatic conversion system and method thereof | |
JPWO2019123642A1 (en) | Image recognition systems, methods and programs, and parameter learning systems, methods and programs | |
US9940319B2 (en) | Information analysis system, information analysis method, and information analysis program | |
CN111176624B (en) | Method and device for generating stream type calculation index | |
CN110110280B (en) | Curve integral calculation method, device and equipment for coordinates and storage medium | |
CN113435168A (en) | Method, system, terminal and medium for automatically editing rubber picture | |
JP5824429B2 (en) | Spam account score calculation apparatus, spam account score calculation method, and program | |
CN115017872B (en) | Method and device for intelligently labeling table in PDF file and electronic equipment | |
TWI787651B (en) | Method and system for labeling text segment | |
CN115841677B (en) | Text layout analysis method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200813 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211227 |