JP7010364B2 - Data creation device, data classification device, data processing system, data creation method, data classification method and program - Google Patents

Data creation device, data classification device, data processing system, data creation method, data classification method and program Download PDF

Info

Publication number
JP7010364B2
JP7010364B2 JP2020506495A JP2020506495A JP7010364B2 JP 7010364 B2 JP7010364 B2 JP 7010364B2 JP 2020506495 A JP2020506495 A JP 2020506495A JP 2020506495 A JP2020506495 A JP 2020506495A JP 7010364 B2 JP7010364 B2 JP 7010364B2
Authority
JP
Japan
Prior art keywords
data
database
item
metadata
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020506495A
Other languages
Japanese (ja)
Other versions
JPWO2019176824A1 (en
Inventor
要 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019176824A1 publication Critical patent/JPWO2019176824A1/en
Application granted granted Critical
Publication of JP7010364B2 publication Critical patent/JP7010364B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Description

本発明は、データ作成装置、データ分類装置、データ取得システム、データ作成方法、データ分類方法及びプログラムに関する。 The present invention relates to a data creation device, a data classification device, a data acquisition system, a data creation method, a data classification method and a program.

ICT(Information and Communication Technology)の発展に伴い、多種多様な大量の情報をリアルタイムに取得することが容易になっている。これらの情報を活用することによって、人間の勘や経験によって判断されていた作業において、取得したデータを根拠とした判断に基づく作業を行うことが可能になりつつある。そのため、データの取得に関する様々な技術が開発されている。 With the development of ICT (Information and Communication Technology), it has become easy to acquire a large amount of various kinds of information in real time. By utilizing this information, it is becoming possible to perform work based on judgment based on acquired data in work that was judged by human intuition and experience. Therefore, various technologies related to data acquisition have been developed.

特許文献1には、ヘテロ性を持つ入力データを変換し、計算機で自動処理しやすくすることができるデータ変換装置等が記載されている。 Patent Document 1 describes a data conversion device and the like that can convert input data having heterogeneity and facilitate automatic processing by a computer.

国際公開第2015/029158号International Publication No. 2015/029158

取得した大量のデータの活用に際しては、データの多様性への対処が必要となる場合がある。例えば、取得した様々な形式のデータを、特定の形式のデータベースへ格納する必要が生じる場合がある。つまり、特許文献1等に記載の技術に対して、多様な形式のデータを効率的に変換するための技術が求められている。 When utilizing the large amount of acquired data, it may be necessary to deal with the diversity of the data. For example, it may be necessary to store the acquired data in various formats in a database of a specific format. That is, there is a demand for a technique for efficiently converting data in various formats with respect to the technique described in Patent Document 1 and the like.

本発明は、上記課題を解決するためになされたものであって、多様な形式のデータを効率的に変換するデータ取得システム等を提供することを主たる目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to provide a data acquisition system or the like that efficiently converts data in various formats.

本発明の一態様におけるデータ作成装置は、データベースを構成する項目の各々に関して、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成するメタデータ構成手段と、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出する特徴値算出手段と、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する教師データ生成手段と、を備える。 The data creation apparatus according to one aspect of the present invention comprises metadata constituting extended metadata including a metadata indicating the characteristics of the items and a conversion function indicating a conversion procedure of the items into a data format for each of the items constituting the database. Based on the feature value calculation means that calculates the feature value representing the feature of the record data corresponding to each of the items, and the extended metadata and the feature value by using the configuration means and the record data corresponding to each of the items in the database. , A teacher data generation means for generating teacher data for a learner that generates an estimation model for classifying data registered in the database.

また、本発明の一態様におけるデータ分類装置は、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルを用いて推定された結果に基づいて、データに対応するデータベースの項目を特定するメタデータ解析手段と、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データのデータ形式を変換するデータ変換手段と、変換されたデータをデータベースの特定された項目へ登録するデータ登録手段と、を備える。 Further, the data classification device according to one aspect of the present invention corresponds to the data based on the result estimated by using the estimation model for classifying the data registered in the database, which is generated by the learning by the learner. A data analysis means that identifies the items in the database, a data conversion means that transforms the data format of the data using the conversion function contained in the extended metadata that represents the characteristics of the identified item, and the converted data in the database. It is provided with a data registration means for registering to the specified item of.

また、本発明の一態様におけるデータ取得システムは、上述のデータ作成装置と、上述のデータ分類装置と、教師データ生成手段により生成された教師データを学習することにより、データベースに登録されるデータを分類するための推定モデルを生成する学習器とを備え、メタデータ解析手段は、学習器によって生成された推定モデルを用いて推定された結果に基づいて、データに対応するデータベースの項目を特定する。 Further, the data acquisition system according to one aspect of the present invention collects data registered in the database by learning the above-mentioned data creation device, the above-mentioned data classification device, and the teacher data generated by the teacher data generation means. Equipped with a learner that generates an estimation model for classification, the metadata analysis means identifies the items in the database that correspond to the data based on the results estimated using the estimation model generated by the learner. ..

また、本発明の一態様におけるデータ作成方法は、データベースを構成する項目の各々について、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成し、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出し、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する。 Further, the data creation method in one aspect of the present invention constitutes extended metadata including a metadata indicating the characteristics of the items and a conversion function indicating the conversion procedure of the items into the data format for each of the items constituting the database. , The feature value representing the feature of the record data corresponding to each of the items is calculated by using the record data corresponding to each of the items in the database, and the data registered in the database is calculated based on the extended metadata and the feature value. Generate teacher data for the learner to generate an estimation model for classification.

また、本発明の一態様におけるデータ分類方法は、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、データに対応するデータベースの項目を特定し、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データの形式を変換し、変換されたデータをデータベースの特定された項目へ登録する。 Further, the data classification method in one aspect of the present invention is a database corresponding to the data based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner. The item is specified, the format of the data is converted using the conversion function included in the extended metadata that represents the characteristics of the specified item, and the converted data is registered in the specified item in the database.

また、本発明の一態様におけるプログラムは、コンピュータに、データベースを構成する項目の各々について、項目の特徴を示すメタデータ及び項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する処理と、データベースの項目の各々に対応するレコードデータを用いて、項目の各々に対応するレコードデータの特徴を表す特徴値を算出する処理と、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する処理と、を実行させる。 Further, the program according to one aspect of the present invention configures a computer with extended metadata including metadata indicating the characteristics of the items and conversion functions indicating the conversion procedure of the items into the data format for each of the items constituting the database. Processing to calculate the feature value representing the feature of the record data corresponding to each item using the record data corresponding to each item in the database, and to the database based on the extended metadata and the feature value. The process of generating teacher data for the learner, which generates an estimation model for classifying the registered data, is executed.

また、本発明の一態様におけるプログラムは、コンピュータに、学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、データに対応するデータベースの項目を特定する処理と、特定された項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データの形式を変換する処理と、変換されたデータをデータベースの特定された項目へ登録する処理と、を実行させる。 In addition, the program in one aspect of the present invention corresponds to the data based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learning device in the computer. The process of specifying the item of the item, the process of converting the format of the data using the conversion function included in the extended metadata that represents the characteristics of the specified item, and the process of registering the converted data in the specified item of the database. And to execute.

本発明によると、多様な形式のデータを効率的に変換するデータ取得システム等を提供することができる。 According to the present invention, it is possible to provide a data acquisition system or the like that efficiently converts data in various formats.

本発明の実施形態におけるデータ作成装置を示す図である。It is a figure which shows the data creation apparatus in embodiment of this invention. 本発明の実施形態におけるデータ分類装置を示す図である。It is a figure which shows the data classification apparatus in embodiment of this invention. 本発明の実施形態におけるデータ処理システムを示す図である。It is a figure which shows the data processing system in embodiment of this invention. 本発明の実施形態におけるデータ処理システムが対象とするデータベースに含まれるデータの例を示す図である。It is a figure which shows the example of the data contained in the database which is the object of the data processing system in embodiment of this invention. 本発明の実施形態におけるデータ作成装置において生成される教師データである拡張メタデータ及び特徴値の例を示す図である。It is a figure which shows the example of the extended metadata and the feature value which is the teacher data generated in the data creation apparatus in embodiment of this invention. 本発明の実施形態におけるデータ作成装置の一動作例を示すフローチャートである。It is a flowchart which shows one operation example of the data creation apparatus in embodiment of this invention. 本発明の実施形態におけるデータ分類装置の一動作例を示すフローチャートである。It is a flowchart which shows one operation example of the data classification apparatus in embodiment of this invention. 本発明の実施形態におけるデータ取得システム及び各装置等を実現する情報処理装置の例を示す図である。It is a figure which shows the example of the information processing apparatus which realizes the data acquisition system, each apparatus and the like in embodiment of this invention.

本発明の実施形態について、添付の図面を参照して説明する。本発明の実施形態において、各装置又はシステムの各構成要素は、機能単位のブロックを示している。各装置又はシステムの各構成要素の一部又は全部は、例えば図8に示すような情報処理装置1000とプログラムとの任意の組み合わせにより実現される。情報処理装置1000は、一例として、以下のような構成を含む。 An embodiment of the present invention will be described with reference to the accompanying drawings. In embodiments of the invention, each component of each device or system represents a block of functional units. A part or all of each component of each device or system is realized by an arbitrary combination of the information processing device 1000 and the program as shown in FIG. 8, for example. As an example, the information processing apparatus 1000 includes the following configurations.

・CPU(Central Processing Unit)1001
・ROM(Read Only Memory)1002
・RAM(Random Access Memory)1003
・RAM1003にロードされるプログラム1004
・プログラム1004を格納する記憶装置1005
・記録媒体1006の読み書きを行うドライブ装置1007
・通信ネットワーク1009と接続する通信インターフェース1008
・データの入出力を行う入出力インターフェース1010
・各構成要素を接続するバス1011
各実施形態における各装置又はシステムの各構成要素は、これらの機能を実現するプログラム1004をCPU1001が取得して実行することで実現される。各装置の各構成要素の機能を実現するプログラム1004は、例えば、予め記憶装置1005やRAM1003に格納されており、必要に応じてCPU1001が読み出す。なお、プログラム1004は、通信ネットワーク1009を介してCPU1001に供給されてもよいし、予め記録媒体1006に格納されており、ドライブ装置1007が当該プログラムを読み出してCPU1001に供給してもよい。
-CPU (Central Processing Unit) 1001
-ROM (Read Only Memory) 1002
・ RAM (Random Access Memory) 1003
-Program 1004 loaded into RAM 1003
A storage device 1005 for storing the program 1004.
Drive device 1007 for reading and writing the recording medium 1006.
-Communication interface 1008 to connect to the communication network 1009
Input / output interface 1010 for inputting / outputting data
-Bus 1011 connecting each component
Each component of each device or system in each embodiment is realized by the CPU 1001 acquiring and executing the program 1004 that realizes these functions. The program 1004 that realizes the functions of each component of each device is stored in, for example, a storage device 1005 or a RAM 1003 in advance, and is read by the CPU 1001 as needed. The program 1004 may be supplied to the CPU 1001 via the communication network 1009, or may be stored in the recording medium 1006 in advance, and the drive device 1007 may read the program and supply the program to the CPU 1001.

各装置の実現方法には、様々な変形例がある。例えば、各装置又はシステムは、構成要素毎にそれぞれ別個の情報処理装置1000とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置1000とプログラムとの任意の組み合わせにより実現されてもよい。 There are various modifications in the method of realizing each device. For example, each device or system may be realized by any combination of the information processing device 1000 and the program, which are separate for each component. Further, a plurality of components included in each device may be realized by any combination of one information processing device 1000 and a program.

また、各装置又はシステムの各構成要素の一部又は全部は、プロセッサ等を含む汎用または専用の回路(circuitry)や、これらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 Further, a part or all of each component of each device or system is realized by a general-purpose or dedicated circuit including a processor or the like, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by the combination of the circuit or the like and the program described above.

各装置又はシステムの各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。 When a part or all of each component of each device or system is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributed. May be done. For example, the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client-and-server system and a cloud computing system.

本発明の実施形態におけるシステム及び装置の各々について説明する。図1は、本発明の実施形態におけるデータ作成装置を示す図である。図2は、本発明の実施形態におけるデータ分類装置を示す図である。図3は、本発明の実施形態におけるデータ処理システムを示す図である。 Each of the system and the apparatus in the embodiment of the present invention will be described. FIG. 1 is a diagram showing a data creation device according to an embodiment of the present invention. FIG. 2 is a diagram showing a data classification device according to an embodiment of the present invention. FIG. 3 is a diagram showing a data processing system according to an embodiment of the present invention.

図1に示すとおり、本発明の実施形態におけるデータ作成装置100は、メタデータ構成部110と、特徴値算出部120と、教師データ生成部130とを備える。メタデータ構成部110は、データベースを構成する項目の各々に関して、各々の項目の特徴を示すメタデータ及び各々の項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する。特徴値算出部120は、データベースの項目の各々に対応するレコードデータを用いて、データベースの項目の各々に対応するレコードデータの特徴を表す特徴値を算出する。教師データ生成部130は、拡張メタデータ及び特徴値に基づいて、データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する。 As shown in FIG. 1, the data creation device 100 according to the embodiment of the present invention includes a metadata component unit 110, a feature value calculation unit 120, and a teacher data generation unit 130. For each of the items constituting the database, the metadata component unit 110 configures extended metadata including metadata indicating the characteristics of each item and a conversion function indicating a conversion procedure of each item into a data format. The feature value calculation unit 120 calculates the feature value representing the feature of the record data corresponding to each of the items in the database by using the record data corresponding to each of the items in the database. The teacher data generation unit 130 generates teacher data for the learner that generates an estimation model for classifying the data registered in the database based on the extended metadata and the feature values.

また、図2に示すとおり、本発明の実施形態におけるデータ分類装置200は、メタデータ解析部210と、データ変換部220と、データ登録部230とを備える。メタデータ解析部210は、データベースに登録されるデータを分類するための推定モデルを用いて推定された結果に基づいて、データベースに登録されるデータに対応するデータベースの項目を特定する。推定モデルは、学習器による学習によって生成される。データ変換部220は、特定されたデータベースの項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、データベースに登録されるデータの型であるデータ形式を変換する。データ登録部230は、変換されたデータを、データベースの特定された項目へ登録する。 Further, as shown in FIG. 2, the data classification device 200 according to the embodiment of the present invention includes a metadata analysis unit 210, a data conversion unit 220, and a data registration unit 230. The metadata analysis unit 210 identifies database items corresponding to the data registered in the database based on the results estimated using the estimation model for classifying the data registered in the database. The estimation model is generated by learning with a learner. The data conversion unit 220 converts a data format, which is a type of data registered in the database, by using a conversion function included in the extended metadata representing the characteristics of the specified database item. The data registration unit 230 registers the converted data in the specified item of the database.

また、図3に示すとおり、本発明の実施形態におけるデータ処理システム10は、データ作成装置100と、データ分類装置200と、学習器11とを備える。データ作成装置100及びデータ分類装置200は、それぞれ上述した装置と同じ装置である。学習器11は、教師データ生成部130により生成された教師データを学習することにより、新規にデータベース20に登録されるデータを分類するための推定モデルを生成する。また、データ処理システム10において、データ分類装置200のメタデータ解析部210は、学習器によって生成された推定モデルを用いて推定された結果に基づいて、登録されるデータに対応するデータベースの項目を特定する。 Further, as shown in FIG. 3, the data processing system 10 according to the embodiment of the present invention includes a data creation device 100, a data classification device 200, and a learning device 11. The data creation device 100 and the data classification device 200 are the same devices as those described above, respectively. The learner 11 learns the teacher data generated by the teacher data generation unit 130 to generate an estimation model for classifying the data newly registered in the database 20. Further, in the data processing system 10, the metadata analysis unit 210 of the data classification device 200 selects database items corresponding to the registered data based on the results estimated using the estimation model generated by the learner. Identify.

データ処理システム10は、データベース20に新たにデータを登録するために用いられるシステムである。 The data processing system 10 is a system used for newly registering data in the database 20.

本実施形態において、データベース20に新たに登録されるデータの形式や種類は、特に限定されない。そのため、データベース20に新たにデータが格納される場合には、データの正規化や変換といった、データの形式の変換が必要となる場合がある。しかしながら、任意の様々な形式のデータを変換する場合には、人手による作業が必要となる等、変換のための作業が困難な場合があった。 In the present embodiment, the format and type of data newly registered in the database 20 are not particularly limited. Therefore, when new data is stored in the database 20, it may be necessary to convert the data format such as normalization or conversion of the data. However, when converting data in any various formats, it may be difficult to perform the conversion work, for example, manual work is required.

そこで、データ処理システム10は、データベース20に登録されるデータのデータ形式を、データベース20を構成する各項目に登録可能な形式に自動的に変換して登録する。データベース20に登録されるデータのデータ形式に対応するデータベースの項目は、学習器11において機械学習によって生成された推定モデルにより推定される。 Therefore, the data processing system 10 automatically converts and registers the data format of the data registered in the database 20 into a format that can be registered in each item constituting the database 20. The items of the database corresponding to the data format of the data registered in the database 20 are estimated by the estimation model generated by machine learning in the learner 11.

また、データ処理システム10を構成する要素のうち、データ作成装置100は、学習器11において学習に用いられる教師データを生成する。また、データ分類装置200は、推定モデルによる推定結果に応じて、データベース20に登録されるデータのデータ形式を、データベース20の項目に応じた形式に変換する。 Further, among the elements constituting the data processing system 10, the data creation device 100 generates teacher data used for learning in the learning device 11. Further, the data classification device 200 converts the data format of the data registered in the database 20 into a format according to the items of the database 20 according to the estimation result by the estimation model.

なお、図3に示す例では、データ処理システム10は、データベース20と別個のシステムとして記載されているが、データ処理システム10は、データベース20と一体のシステムとして用いられてもよい。 In the example shown in FIG. 3, the data processing system 10 is described as a system separate from the database 20, but the data processing system 10 may be used as a system integrated with the database 20.

続いて、データ作成装置100及びデータ分類装置200の各々における構成要素について説明する。まずは、データ作成装置100の各要素について説明する。 Subsequently, the components in each of the data creation device 100 and the data classification device 200 will be described. First, each element of the data creating apparatus 100 will be described.

メタデータ構成部110は、データベース20を構成する項目の各々に関して、拡張メタデータを構成する。拡張メタデータは、データベース20の項目の各々についてのメタデータ及び変換関数を含む。メタデータは、データベース20の項目の各々についての特徴を示すデータである。変換関数は、任意のデータを、データベース20の項目の各々のデータ形式へ変換する場合における変換手順を示す関数である。変換関数は、図3に示す変換関数30のように、データベース20に応じて予め用意される。 The metadata component unit 110 configures extended metadata for each of the items that make up the database 20. Extended metadata includes metadata and conversion functions for each of the items in database 20. The metadata is data showing the characteristics of each of the items in the database 20. The conversion function is a function indicating a conversion procedure in the case of converting arbitrary data into each data format of the items of the database 20. The conversion function is prepared in advance according to the database 20 as in the conversion function 30 shown in FIG.

すなわち、メタデータ構成部110によって構成される拡張メタデータは、任意の形式である新規のデータがデータベース20に格納される際に、当該データが該当しうるデータベース20の項目を判断するために用いられるデータである。 That is, the extended metadata configured by the metadata component 110 is used to determine the items in the database 20 to which the data can be when new data in any format is stored in the database 20. It is the data to be.

図4及び図5の例を用いて、メタデータ構成部110によって構成される拡張メタデータと、拡張メタデータに含まれるメタデータ及び変換関数について説明する。 The extended metadata configured by the metadata component unit 110, the metadata included in the extended metadata, and the conversion function will be described with reference to the examples of FIGS. 4 and 5.

図4は、データベース20の一例を示す図である。データベース20の列の各々は、データベースの項目を表す。図4に示す例では、データベース20には、“id”、“price”、“weight”、“rank”、“area”の5つの項目が含まれる。この例では、5つの項目は、それぞれ、データの識別番号、価格、値の重み、ランク及び場所を表す項目である。なお、データベース20の項目はこれには限られず、データベース20に格納されるデータに応じて適宜定められればよい。 FIG. 4 is a diagram showing an example of the database 20. Each of the columns in database 20 represents an item in the database. In the example shown in FIG. 4, the database 20 includes five items of "id", "price", "weight", "rank", and "area". In this example, the five items are items representing the data identification number, price, value weight, rank and location, respectively. The items of the database 20 are not limited to this, and may be appropriately defined according to the data stored in the database 20.

また、データベース20の行の各々は、データベースの各項目に対する具体的なデータであるレコードデータを表す。すなわち、図4では、データベース20に4つのレコードデータが含まれる例が示されている。 Further, each row of the database 20 represents record data which is specific data for each item of the database. That is, FIG. 4 shows an example in which the database 20 includes four record data.

図5は、図4に示すデータベース20に対して、データ作成装置100が生成する教師データの例を示す。図5に示す教師データのうち、メタデータ構成部110は、「拡張メタデータ」の欄に示す内容を構成する。 FIG. 5 shows an example of teacher data generated by the data creation device 100 with respect to the database 20 shown in FIG. Of the teacher data shown in FIG. 5, the metadata component unit 110 constitutes the content shown in the “extended metadata” column.

メタデータは、データベース20の項目の各々についての特徴を示すデータである。メタデータは、データベース20の項目の各々に関連し、項目の各々についての特徴を示すデータであればよく、その種類は特に限定されない。図5に示す例では、データベース20の項目の各々に対して、メタデータとして、項目名及びデータ型が示されている。データ型には、数値型及び文字型の2つの型が示されている。メタデータ構成部110は、例えば、データベース20の図示しないデータディクショナリに格納された、データベース20の項目に関する任意の種類のデータを、メタデータとして抽出する。 The metadata is data showing the characteristics of each of the items in the database 20. The metadata may be any data that is related to each of the items in the database 20 and shows the characteristics of each of the items, and the type thereof is not particularly limited. In the example shown in FIG. 5, the item name and the data type are shown as metadata for each of the items in the database 20. Two types of data types, a numerical type and a character type, are shown. The metadata component 110 extracts, for example, any kind of data regarding the items of the database 20 stored in the data dictionary (not shown) of the database 20 as metadata.

変換関数は、任意のデータを、データベース20の項目の各々に対応するレコードデータの形式へ変換する関数である。変換関数は、データ形式の変換に利用可能であれば種類は限られず、任意の関数やその逆関数が変換関数として適宜用いられる。また、変換関数には、データの形式を変更しないことも含まれる。図5に示す例では、データベース20の項目の各々に対して、変換関数として、無変換、標準化、正規化、文字列の階級化、文字列の2値化の変換関数が示されている。 The conversion function is a function that converts arbitrary data into a record data format corresponding to each of the items in the database 20. The type of conversion function is not limited as long as it can be used for data format conversion, and any function or its inverse function is appropriately used as the conversion function. The conversion function also includes not changing the format of the data. In the example shown in FIG. 5, conversion functions of no conversion, standardization, normalization, classification of character strings, and binarization of character strings are shown as conversion functions for each of the items in the database 20.

変換関数は予め、任意の記憶手段等に格納される。メタデータ構成部110は、当該記憶手段を適宜参照して、データベース20の項目の各々に対応する変換関数を取得する。 The conversion function is stored in advance in any storage means or the like. The metadata component unit 110 appropriately refers to the storage means to acquire a conversion function corresponding to each of the items in the database 20.

メタデータ構成部110は、データベース20のデータディクショナリから抽出したメタデータと、取得した変換関数とを組み合わせて、データベース20の一つの項目に対する拡張メタデータを構成する。そして、メタデータ構成部110は、データベース20の全ての項目に対して、同様に拡張メタデータを構成する。 The metadata component unit 110 combines the metadata extracted from the data dictionary of the database 20 and the acquired conversion function to form extended metadata for one item in the database 20. Then, the metadata component unit 110 similarly configures extended metadata for all items in the database 20.

特徴値算出部120は、データベース20の項目の各々のレコードデータの特徴を表す特徴値を算出する。特徴値は、データベース20の項目の各々に対するレコードデータを用いて算出される。特徴値算出部120は、図5に示す教師データのうち、「特徴値」の欄に示す内容を構成する。 The feature value calculation unit 120 calculates a feature value representing the feature of each record data of the item of the database 20. The feature value is calculated using the record data for each of the items in the database 20. The feature value calculation unit 120 constitutes the content shown in the “feature value” column of the teacher data shown in FIG.

特徴値は、データベース20の項目の各々のレコードデータの特徴を表す値である。特徴値には、例えば、レコードデータの平均、分散、歪度、レコードデータに含まれる各値の出現頻度といった、各々のレコードデータの特徴を要約して特徴を表す統計量が含まれる。ただし、特徴値は上述した例に限られず、データベース20の項目の各々のレコードデータの特徴を表す任意の種類の値が、特徴値として用いられる。 The feature value is a value representing the feature of each record data of the item of the database 20. The feature values include statistics that summarize and represent the features of each record data, such as, for example, the mean, variance, skewness, and frequency of occurrence of each value contained in the record data. However, the feature value is not limited to the above-mentioned example, and any kind of value representing the feature of each record data of the item of the database 20 is used as the feature value.

教師データ生成部130は、メタデータ構成部110によって構成された拡張メタデータ及び特徴値算出部120によって算出された特徴値に基づいて、教師データを生成する。教師データ生成部130によって生成される教師データは、学習器11に対する教師データである。上述した図5に示す教師データは、教師データ生成部130によって生成される教師データの一例である。 The teacher data generation unit 130 generates teacher data based on the extended metadata configured by the metadata configuration unit 110 and the feature values calculated by the feature value calculation unit 120. The teacher data generated by the teacher data generation unit 130 is teacher data for the learner 11. The teacher data shown in FIG. 5 described above is an example of teacher data generated by the teacher data generation unit 130.

上述のように、学習器11は、教師データ生成部130により生成された教師データを学習することにより、新規にデータベース20に登録されるデータを分類するための推定モデルを生成する。すなわち、学習器11においては、拡張メタデータに含まれるデータベース20の項目毎の特徴や、特徴値によって表される、データベース20の項目毎のレコードデータに関しても学習が行われる。 As described above, the learner 11 learns the teacher data generated by the teacher data generation unit 130 to generate an estimation model for classifying the data newly registered in the database 20. That is, in the learner 11, learning is also performed on the features of each item of the database 20 included in the extended metadata and the record data of each item of the database 20 represented by the feature values.

学習器11においては、拡張メタデータ及び特徴値の内容やその他のデータベース20に関する条件に応じて、公知の学習の手法が適宜用いられる。学習器11は、教師データ生成部130により生成された教師データを取得して学習を行い、学習済の推定モデルを生成する。 In the learner 11, a known learning method is appropriately used depending on the contents of the extended metadata and feature values and other conditions relating to the database 20. The learner 11 acquires the teacher data generated by the teacher data generation unit 130 and performs learning to generate a trained estimation model.

また、学習済の推定モデルは、データベース20に登録されるデータに対応する拡張メタデータや変換関数の候補を推定する。例えば、学習済の推定モデルは、データベース20に登録されるデータに最もよく対応する拡張メタデータ又は変換関数を推定する。又は、学習済の推定モデルは、データベース20に登録されるデータに対応する可能性がある、一つ以上の拡張メタデータや変換関数の候補を推定してもよい。データベース20に登録されるデータに対応する拡張メタデータや変換関数の候補が推定されることで、当該データが格納されるべきデータベース20の項目の特定が可能となる。 Further, the trained estimation model estimates the candidates of the extended metadata and the conversion function corresponding to the data registered in the database 20. For example, the trained estimation model estimates the extended metadata or transformation function that best corresponds to the data registered in the database 20. Alternatively, the trained estimation model may estimate one or more extended metadata or transformation function candidates that may correspond to the data registered in the database 20. By estimating the candidate of the extended metadata and the conversion function corresponding to the data registered in the database 20, it is possible to specify the item of the database 20 in which the data should be stored.

次に、データ分類装置200の各要素について説明する。 Next, each element of the data classification device 200 will be described.

メタデータ解析部210は、推定モデルを用いて推定された結果に基づいて、データベース20に登録されるデータに対応するデータベース20の項目を特定する。推定モデルは、学習器11による学習によって生成された、新規にデータベース20に登録されるデータを分類するための学習済モデルである。メタデータ解析部210は、一動作例として、学習器11の推定モデルに当該データを入力して推定結果を取得し、取得した推定結果に基づいて、当該データに対応するデータベース20の項目を特定する。 The metadata analysis unit 210 identifies the items of the database 20 corresponding to the data registered in the database 20 based on the results estimated using the estimation model. The estimation model is a trained model for classifying data newly registered in the database 20 generated by learning by the learner 11. As an operation example, the metadata analysis unit 210 inputs the data into the estimation model of the learner 11 to acquire the estimation result, and identifies the item of the database 20 corresponding to the data based on the acquired estimation result. do.

上述のように、データベース20に新たに格納されるデータのデータ形式や種類は特に限定されない。また、データの形式や種類と同様に、データベース20に新たに格納されるデータの入手方法は特に限定されず、任意の方法で得られたデータが、データベース20に新たに格納され得る。 As described above, the data format and type of data newly stored in the database 20 are not particularly limited. Further, as with the format and type of data, the method of obtaining the data newly stored in the database 20 is not particularly limited, and the data obtained by any method can be newly stored in the database 20.

メタデータ解析部210は、例えば、データベース20に登録されるデータに対して推定モデルによって推定された拡張メタデータが対応するデータベース20の項目を解析し、当該データに対応するデータベース20の項目を特定する。 For example, the metadata analysis unit 210 analyzes the items of the database 20 corresponding to the extended metadata estimated by the estimation model with respect to the data registered in the database 20, and identifies the items of the database 20 corresponding to the data. do.

この場合の解析には、例えば、推定された拡張メタデータに含まれるメタデータによって規定されるデータ型とデータベース20に登録されるデータのデータ型が合致するかの解析が含まれる。また、この場合の解析には、推定された拡張メタデータに含まれる変換関数によって、データベース20に登録されるデータのデータ形式を、当該メタデータによって規定されるデータ型へ変換可能であるかの解析が含まれてもよい。 The analysis in this case includes, for example, an analysis of whether the data type defined by the metadata included in the estimated extended metadata matches the data type of the data registered in the database 20. Further, in the analysis in this case, whether the data format of the data registered in the database 20 can be converted into the data type defined by the metadata by the conversion function included in the estimated extended metadata. Analysis may be included.

また、学習器11によって生成された推定モデルが、データベース20に登録されるデータの値と合致する特徴値を推定した場合が想定される。この場合には、メタデータ解析部210は、当該データの値が、特徴値の範囲と矛盾しないことを解析して、当該のデータに対応するデータベース20の項目を特定してもよい。このような解析は、上述した解析と併せて行われてもよいし、上述した解析とは別に行われてもよい。 Further, it is assumed that the estimation model generated by the learner 11 estimates the feature values that match the values of the data registered in the database 20. In this case, the metadata analysis unit 210 may analyze that the value of the data does not contradict the range of the feature value and specify the item of the database 20 corresponding to the data. Such an analysis may be performed in combination with the above-mentioned analysis, or may be performed separately from the above-mentioned analysis.

更に、推定モデルによって、データベース20に登録されるデータに対して複数の拡張メタデータが推定されている場合が想定される。この場合には、メタデータ解析部210は、例えば上記のいずれかの方法を用いて、当該データに対して最も適した拡張メタデータに対応する項目を、当該データに対応するデータベース20の項目として特定してもよい。 Further, it is assumed that a plurality of extended metadata are estimated for the data registered in the database 20 by the estimation model. In this case, the metadata analysis unit 210 uses, for example, any of the above methods to set the item corresponding to the extended metadata most suitable for the data as the item of the database 20 corresponding to the data. It may be specified.

データ変換部220は、変換関数を用いて、データベース20に登録されるデータのデータ形式を変換する。この場合に用いられる変換関数は、メタデータ解析部210によって特定されたデータベース20の項目についての変換関数である。すなわち、データ変換部220によって、データベース20に登録されるデータのデータ形式が、データベース20の対応する項目のデータ形式となるように変換される。 The data conversion unit 220 converts the data format of the data registered in the database 20 by using the conversion function. The conversion function used in this case is a conversion function for the item of the database 20 specified by the metadata analysis unit 210. That is, the data conversion unit 220 converts the data format of the data registered in the database 20 into the data format of the corresponding item in the database 20.

データ登録部230は、データ変換部220によってデータベース20の各項目のデータ形式に変換された、データベース20に登録されるデータを、データベース20へ格納する。 The data registration unit 230 stores the data registered in the database 20 converted into the data format of each item of the database 20 by the data conversion unit 220 in the database 20.

なお、データ作成装置100の特徴値算出部120は、データ登録部230によってデータベース20へ格納される新規のデータを取得し、特徴値を再計算してもよい。そして、データ作成装置100の教師データ生成部130は、新たな教師データを生成してもよい。更に、学習器11は、新たに生成された教師データを学習してもよい。 The feature value calculation unit 120 of the data creation device 100 may acquire new data stored in the database 20 by the data registration unit 230 and recalculate the feature value. Then, the teacher data generation unit 130 of the data creation device 100 may generate new teacher data. Further, the learner 11 may learn the newly generated teacher data.

このようにすることで、学習器11によって生成される推定モデルを用いて行われる、データベース20に登録されるデータに対するデータベース20の項目の推定精度が向上する。そして、推定モデルによる推定の精度が向上することによって、データ分類装置200によって行われる、データベース20に登録されるデータについてのデータベース20の項目の各々に対する分類の精度が同様に向上する。 By doing so, the estimation accuracy of the items of the database 20 with respect to the data registered in the database 20 performed by using the estimation model generated by the learner 11 is improved. Then, by improving the accuracy of estimation by the estimation model, the accuracy of classification for each item of the database 20 for the data registered in the database 20 performed by the data classification device 200 is similarly improved.

続いて、図6及び図7に示すフローチャートを用いて、本実施形態におけるデータ作成装置100及びデータ分類装置200の動作の一例を説明する。 Subsequently, an example of the operation of the data creation device 100 and the data classification device 200 in the present embodiment will be described with reference to the flowcharts shown in FIGS. 6 and 7.

まず、図6に示すフローチャートを用いて、本実施形態におけるデータ作成装置100の動作を説明する。 First, the operation of the data creation device 100 in the present embodiment will be described with reference to the flowchart shown in FIG.

最初に、メタデータ構成部110及び特徴値算出部120は、データが新たに格納される対象となるデータベース20を読み込む(ステップS101)。この場合に、メタデータ構成部110は、変換関数30やその他の教師データの作成に必要となる情報を読み込む。 First, the metadata component unit 110 and the feature value calculation unit 120 read the database 20 to which the data is newly stored (step S101). In this case, the metadata component unit 110 reads the information necessary for creating the conversion function 30 and other teacher data.

次に、メタデータ構成部110及び特徴値算出部120は、ステップS101において読み込まれたデータベース20を構成する項目の一つを選択する(ステップS102)。 Next, the metadata component unit 110 and the feature value calculation unit 120 select one of the items constituting the database 20 read in step S101 (step S102).

次に、メタデータ構成部110は、データベース20の図示しないデータディクショナリ等から、ステップS102で選択されたデータベース20の項目に関するメタデータを抽出する(ステップS103)。そして、メタデータ構成部110は、抽出したメタデータと変換関数とを組み合わせて、拡張メタデータを構成する(ステップS104)。 Next, the metadata component unit 110 extracts metadata related to the items of the database 20 selected in step S102 from a data dictionary (not shown) of the database 20 (step S103). Then, the metadata component unit 110 configures the extended metadata by combining the extracted metadata and the conversion function (step S104).

また、ステップS103及びステップS104の処理と並行して、特徴値算出部120は、ステップS102で選択されたデータベース20の項目のレコードデータを抽出する(ステップS105)。そして、特徴値算出部120は、ステップS105において抽出したレコードデータに関する特徴値を算出する(ステップS106)。 Further, in parallel with the processing of step S103 and step S104, the feature value calculation unit 120 extracts the record data of the item of the database 20 selected in step S102 (step S105). Then, the feature value calculation unit 120 calculates the feature value related to the record data extracted in step S105 (step S106).

なお、図6に示すフローチャートでは、ステップS103及びS104の処理と、ステップS105及びステップS106の処理とが並行に行われることが示されている。ただし、ステップS103及びS104の処理と、ステップS105及びステップS106の処理との順番は、この例に限られず、逐次的に実行されてもよい。 In the flowchart shown in FIG. 6, it is shown that the processes of steps S103 and S104 and the processes of steps S105 and S106 are performed in parallel. However, the order of the processes of steps S103 and S104 and the processes of steps S105 and S106 is not limited to this example, and may be executed sequentially.

ステップS104及びステップS106の処理が行われると、教師データ生成部130は、ステップS102において選択されたデータベース20の項目に対する教師データを生成する(ステップS107)。 When the processes of step S104 and step S106 are performed, the teacher data generation unit 130 generates teacher data for the item of the database 20 selected in step S102 (step S107).

ステップS107において教師データが作成されると、メタデータ構成部110及び特徴値算出部120は、データベース20の全ての項目に対して教師データを作成したか否かを判断する(ステップS108)。 When the teacher data is created in step S107, the metadata component unit 110 and the feature value calculation unit 120 determine whether or not the teacher data has been created for all the items in the database 20 (step S108).

全ての項目に対して教師データが作成されていると判断された場合(ステップS108:Yes)には、教師データ生成部130は、例えば教師データを学習器11へ送信する(ステップS109)。学習器11に教師データが送信されると、学習器11は、送信された教師データの学習を行い、上述した推定モデルを生成する。なお、ステップS109においては、教師データ生成部130は、学習器11に教師データを直接送信せず、学習器11が参照可能な記憶手段等に教師データを格納してもよい。 When it is determined that the teacher data has been created for all the items (step S108: Yes), the teacher data generation unit 130 transmits, for example, the teacher data to the learner 11 (step S109). When the teacher data is transmitted to the learner 11, the learner 11 learns the transmitted teacher data and generates the estimation model described above. In step S109, the teacher data generation unit 130 may store the teacher data in a storage means or the like that can be referred to by the learner 11 without directly transmitting the teacher data to the learner 11.

全ての項目に対する教師データの作成が終了していないと判断された場合(ステップS108:No)には、ステップS102に戻り、ステップS102以降の処理が繰り返し行われる。すなわち、メタデータ構成部110及び特徴値算出部120は、データベース20を構成する項目のうち、未選択の項目の一つを選択して、以降の処理を実行する。 If it is determined that the creation of teacher data for all items has not been completed (step S108: No), the process returns to step S102, and the processes after step S102 are repeated. That is, the metadata configuration unit 110 and the feature value calculation unit 120 select one of the unselected items among the items constituting the database 20 and execute the subsequent processing.

次に、図7に示すフローチャートを用いて、本実施形態におけるデータ分類装置200の動作を説明する。 Next, the operation of the data classification device 200 in the present embodiment will be described with reference to the flowchart shown in FIG.

最初に、メタデータ解析部210は、新たにデータベース20へ登録されるデータを取得する(ステップS201)。 First, the metadata analysis unit 210 acquires data newly registered in the database 20 (step S201).

続いて、メタデータ解析部210は、ステップS201にて取得したデータを、学習器11の推定モデルに入力する。学習器11の推定モデルは、一例として入力されたデータに対する拡張メタデータを推定する(ステップS202)。推定モデルは、入力されたデータに対する変換関数やその他の情報を推定してもよい。 Subsequently, the metadata analysis unit 210 inputs the data acquired in step S201 into the estimation model of the learner 11. The estimation model of the learner 11 estimates the extended metadata for the input data as an example (step S202). The estimation model may estimate transformation functions and other information for the input data.

次に、メタデータ解析部210は、ステップS202において学習器11の推定モデルを用いて推定された結果に基づいて、新規のデータに対応するデータベース20の項目を特定する(ステップS203)。 Next, the metadata analysis unit 210 identifies the item of the database 20 corresponding to the new data based on the result estimated by using the estimation model of the learner 11 in step S202 (step S203).

次に、データ変換部220は、ステップS203において特定されたデータベース20の項目についての変換関数を用いて、データベース20へ登録されるデータのデータ形式を変換する(ステップS204)。 Next, the data conversion unit 220 converts the data format of the data registered in the database 20 by using the conversion function for the item of the database 20 specified in step S203 (step S204).

そして、データ登録部230は、ステップS205においてデータ形式が変換されたデータを、データベース20へ格納する(ステップS205)。 Then, the data registration unit 230 stores the data whose data format has been converted in step S205 in the database 20 (step S205).

以上のとおり、本実施形態におけるデータ処理システム10では、データ作成装置100が、データベース20を構成する各々についての拡張メタデータ及び特徴値を用いて、データベース20に登録される新規のデータを分類するための推定モデルを生成する学習器11に対する教師データを作成する。そして、データ分類装置200が、データ作成装置100によって生成された教師データを用いた学習によって得られた推定モデルを用いて、任意の種類のデータに対応するデータベース20の項目を特定する。 As described above, in the data processing system 10 of the present embodiment, the data creation device 100 classifies new data registered in the database 20 by using the extended metadata and the feature values for each of the constituents of the database 20. Create teacher data for the learner 11 to generate an estimation model for. Then, the data classification device 200 identifies the items of the database 20 corresponding to any kind of data by using the estimation model obtained by learning using the teacher data generated by the data creation device 100.

すなわち、本実施形態におけるデータ処理システム10では、データ作成装置100が、データベース20のメタデータやレコードデータ、変換関数等を用いて教師データを作成することで、適切な推定が可能なモデルの生成が可能となる。また、データ分類装置200が、データ作成装置100によって作成された教師データを用いて生成された学習済モデルを用いることで、新たなデータをデータベース20の適切な項目へ格納することが可能となる。 That is, in the data processing system 10 of the present embodiment, the data creation device 100 creates teacher data using the metadata, record data, conversion function, etc. of the database 20, and generates a model capable of appropriate estimation. Is possible. Further, the data classification device 200 can store new data in an appropriate item of the database 20 by using the trained model generated by using the teacher data created by the data creation device 100. ..

したがって、本実施形態におけるデータ処理システム10は、多様な形式のデータを効率的に変換することを可能にする。 Therefore, the data processing system 10 in the present embodiment makes it possible to efficiently convert data in various formats.

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本発明のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various modifications that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention. In addition, the configurations in each embodiment can be combined with each other as long as they do not deviate from the scope of the present invention.

この出願は2018年3月14日に出願された日本出願特願2018-046137を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority on the basis of Japanese application Japanese Patent Application No. 2018-046137 filed on March 14, 2018 and incorporates all of its disclosures herein.

10 データ処理システム
11 学習器
20 データベース
30 変換関数
100 データ作成装置
110 メタデータ構成部
120 特徴値算出部
130 教師データ生成部
200 データ分類装置
210 メタデータ解析部
220 データ変換部
230 データ登録部
10 Data processing system 11 Learner 20 Database 30 Conversion function 100 Data creation device 110 Metadata configuration unit 120 Feature value calculation unit 130 Teacher data generation unit 200 Data classification device 210 Data classification unit 210 Data conversion unit 220 Data conversion unit 230 Data registration unit

Claims (10)

データベースを構成する項目の各々に関して、前記項目の特徴を示すメタデータ及び前記項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成するメタデータ構成手段と、
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出する特徴値算出手段と、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する教師データ生成手段と、
を備えるデータ作成装置。
For each of the items constituting the database, a metadata constructing means for constructing extended metadata including metadata indicating the characteristics of the item and a conversion function indicating a conversion procedure of the item into a data format, and
A feature value calculation means for calculating a feature value representing a feature of the record data corresponding to each of the items by using the record data corresponding to each of the items in the database.
A teacher data generation means for generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
A data creation device equipped with.
前記特徴値算出手段は、前記レコードデータの特徴を示す統計量を前記特徴値として算出する、
請求項1に記載のデータ作成装置。
The feature value calculation means calculates a statistic indicating the feature of the record data as the feature value.
The data creation device according to claim 1.
前記メタデータは、前記項目のデータ型を含む、
請求項1又は2に記載のデータ作成装置。
The metadata includes the data type of the item.
The data creation device according to claim 1 or 2.
学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルを用いて推定された結果に基づいて、前記データに対応する前記データベースの項目を特定するメタデータ解析手段と、
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換するデータ変換手段と、
変換された前記データを前記データベースの特定された前記項目へ登録するデータ登録手段と、
を備えるデータ分類装置。
A metadata analysis means that identifies the item in the database corresponding to the data based on the result estimated using the estimation model for classifying the data registered in the database generated by the learning by the learner. ,
A data conversion means for converting the data format of the data using a conversion function included in the extended metadata representing the characteristics of the identified item.
A data registration means for registering the converted data in the specified item in the database, and
A data classification device equipped with.
前記メタデータ解析手段は、前記データに対して推定モデルによって推定された拡張メタデータが対応する前記データベースの項目を解析することで、前記データに対応する前記データベースの項目を特定する、
請求項4に記載のデータ分類装置。
The metadata analysis means identifies an item in the database corresponding to the data by analyzing the item in the database corresponding to the extended metadata estimated by the estimation model for the data.
The data classification device according to claim 4.
請求項1から3のいずれか一項に記載のデータ作成装置と、
請求項4又は5に記載のデータ分類装置と、
前記教師データ生成手段により生成された前記教師データを学習することにより、前記データベースに登録される前記データを分類するための前記推定モデルを生成する前記学習器とを備え、
前記メタデータ解析手段は、前記学習器によって生成された前記推定モデルを用いて推定された結果に基づいて、前記データに対応する前記データベースの前記項目を特定する、
データ処理システム。
The data creation device according to any one of claims 1 to 3.
The data classification device according to claim 4 or 5,
A learning device for generating the estimation model for classifying the data registered in the database by learning the teacher data generated by the teacher data generation means is provided.
The metadata analysis means identifies the item in the database corresponding to the data based on the results estimated using the estimation model generated by the learner.
Data processing system.
コンピュータが、
データベースを構成する項目の各々について、前記項目の特徴を示すメタデータ及び前記項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成し、
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出し、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する
データ作成方法。
The computer
For each of the items constituting the database, the extended metadata including the metadata indicating the characteristics of the item and the conversion function indicating the conversion procedure of the item to the data format is configured.
Using the record data corresponding to each of the items in the database, a feature value representing the feature of the record data corresponding to each of the items is calculated.
A data creation method for generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
コンピュータが、
学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、前記データに対応する前記データベースの項目を特定し、
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換し、
変換された前記データを前記データベースの特定された前記項目へ登録する
データ分類方法。
The computer
Based on the results estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner, the item of the database corresponding to the data is identified.
Using the conversion function contained in the extended metadata that represents the characteristics of the identified item, the data format of the data is converted.
A data classification method for registering the converted data in the specified item in the database.
コンピュータに、
データベースを構成する項目の各々について、前記項目の特徴を示すメタデータ及び前記項目のデータ形式への変換手順を示す変換関数を含む拡張メタデータを構成する処理と、
前記データベースの前記項目の各々に対応するレコードデータを用いて、前記項目の各々に対応する前記レコードデータの特徴を表す特徴値を算出する処理と、
前記拡張メタデータ及び前記特徴値に基づいて、前記データベースに登録されるデータを分類するための推定モデルを生成する学習器に対する教師データを生成する処理と、
を実行させるプログラム。
On the computer
For each of the items that make up the database, the process of forming extended metadata that includes metadata that shows the characteristics of the item and conversion functions that show the conversion procedure of the item to the data format.
Using the record data corresponding to each of the items in the database, a process of calculating a feature value representing the feature of the record data corresponding to each of the items, and
A process of generating teacher data for a learner that generates an estimation model for classifying data registered in the database based on the extended metadata and the feature values.
A program to execute.
コンピュータに、
学習器による学習によって生成された、データベースに登録されるデータを分類するための推定モデルによって推定された結果に基づいて、前記データに対応する前記データベースの項目を特定する処理と、
特定された前記項目の特徴を表す拡張メタデータに含まれる変換関数を用いて、前記データのデータ形式を変換する処理と、
変換された前記データを前記データベースの特定された前記項目へ登録する処理と、
を実行させるプログラム。
On the computer
Based on the result estimated by the estimation model for classifying the data registered in the database generated by the learning by the learner, the process of identifying the item of the database corresponding to the data, and the process of identifying the item of the database corresponding to the data.
Processing to convert the data format of the data using the conversion function included in the extended metadata that represents the characteristics of the identified item.
The process of registering the converted data in the specified item of the database, and
A program to execute.
JP2020506495A 2018-03-14 2019-03-11 Data creation device, data classification device, data processing system, data creation method, data classification method and program Active JP7010364B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018046137 2018-03-14
JP2018046137 2018-03-14
PCT/JP2019/009574 WO2019176824A1 (en) 2018-03-14 2019-03-11 Data creator, data classifier, data acquisition system, data creation method, data classification method, and recording medium

Publications (2)

Publication Number Publication Date
JPWO2019176824A1 JPWO2019176824A1 (en) 2021-03-11
JP7010364B2 true JP7010364B2 (en) 2022-01-26

Family

ID=67906674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020506495A Active JP7010364B2 (en) 2018-03-14 2019-03-11 Data creation device, data classification device, data processing system, data creation method, data classification method and program

Country Status (2)

Country Link
JP (1) JP7010364B2 (en)
WO (1) WO2019176824A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027690A (en) 2010-07-23 2012-02-09 Fujitsu Ltd Information integration program, apparatus and method
WO2017208922A1 (en) 2016-05-31 2017-12-07 株式会社東新システム Data exchange system, data exchange method, and data exchange program
US20180018579A1 (en) 2016-07-15 2018-01-18 ROKITT Inc. Primary Key-Foriegn Key Relationship Determination Through Machine Learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63100547A (en) * 1986-10-17 1988-05-02 Mitsubishi Electric Corp Data base controlling system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027690A (en) 2010-07-23 2012-02-09 Fujitsu Ltd Information integration program, apparatus and method
WO2017208922A1 (en) 2016-05-31 2017-12-07 株式会社東新システム Data exchange system, data exchange method, and data exchange program
US20180018579A1 (en) 2016-07-15 2018-01-18 ROKITT Inc. Primary Key-Foriegn Key Relationship Determination Through Machine Learning

Also Published As

Publication number Publication date
WO2019176824A1 (en) 2019-09-19
JPWO2019176824A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
US20070006128A1 (en) Method for evaluating dynamic expressions
CN109783785B (en) Method and device for generating experiment detection report and computer equipment
CN111611797B (en) Method, device and equipment for marking prediction data based on Albert model
CN114861836B (en) Model deployment method based on artificial intelligence platform and related equipment
US20200151506A1 (en) Training method for tag identification network, tag identification apparatus/method and device
CN112597062B (en) Military software structured quality data extraction method and device and software testing device
CN110249312A (en) Data integration operation changing
CN111325200A (en) Image annotation method, device, equipment and computer readable storage medium
CN110968664A (en) Document retrieval method, device, equipment and medium
CN110490237B (en) Data processing method and device, storage medium and electronic equipment
JP7010364B2 (en) Data creation device, data classification device, data processing system, data creation method, data classification method and program
WO2020179378A1 (en) Information processing system, information processing method, and recording medium
CN116610304A (en) Page code generation method, device, equipment and storage medium
CN113033178B (en) Text evaluation method, device and computer for business planning
CN113010687B (en) Exercise label prediction method and device, storage medium and computer equipment
CN114880590A (en) Multi-language website currency automatic conversion system and method thereof
JPWO2019123642A1 (en) Image recognition systems, methods and programs, and parameter learning systems, methods and programs
US9940319B2 (en) Information analysis system, information analysis method, and information analysis program
CN111176624B (en) Method and device for generating stream type calculation index
CN110110280B (en) Curve integral calculation method, device and equipment for coordinates and storage medium
CN113435168A (en) Method, system, terminal and medium for automatically editing rubber picture
JP5824429B2 (en) Spam account score calculation apparatus, spam account score calculation method, and program
CN115017872B (en) Method and device for intelligently labeling table in PDF file and electronic equipment
TWI787651B (en) Method and system for labeling text segment
CN115841677B (en) Text layout analysis method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200813

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227