JP2021135896A - Learning data generator and learning data generation method - Google Patents

Learning data generator and learning data generation method Download PDF

Info

Publication number
JP2021135896A
JP2021135896A JP2020033344A JP2020033344A JP2021135896A JP 2021135896 A JP2021135896 A JP 2021135896A JP 2020033344 A JP2020033344 A JP 2020033344A JP 2020033344 A JP2020033344 A JP 2020033344A JP 2021135896 A JP2021135896 A JP 2021135896A
Authority
JP
Japan
Prior art keywords
data
learning
artificial
period
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020033344A
Other languages
Japanese (ja)
Other versions
JP7252156B2 (en
Inventor
貫太郎 三宅
Kantaro Miyake
貫太郎 三宅
誠由 高瀬
Masayoshi Takase
誠由 高瀬
康充 野中
Yasumitsu Nonaka
康充 野中
伊織 山崎
Iori Yamazaki
伊織 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020033344A priority Critical patent/JP7252156B2/en
Publication of JP2021135896A publication Critical patent/JP2021135896A/en
Application granted granted Critical
Publication of JP7252156B2 publication Critical patent/JP7252156B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】必要とされる期間について適切な内容の学習データを効率よく提供する。【解決手段】学習データ生成装置は、所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成し、人工データを用いて機械学習モデルの学習に用いる学習データを生成する。学習データ生成装置は、例えば、生成元データよりも過去の期間の人工データを生成し、生成元データに人工データを過去方向に連結して学習データを生成する。【選択図】図6An object of the present invention is to efficiently provide learning data with appropriate content for a required period. Kind Code: A1 A learning data generation device connects a plurality of duplicated data, which are data obtained by duplicating generation source data, which is time-series data for a predetermined period, and gives noise to each of the duplicated data to obtain a desired period of time. Artificial data, which is time-series data for a period corresponding to , is generated, and learning data used for learning a machine learning model is generated using the artificial data. The learning data generation device generates, for example, artificial data in a period past the generation source data, and links the artificial data to the generation source data in the past direction to generate learning data. [Selection drawing] Fig. 6

Description

本発明は、学習データ生成装置、及び学習データ生成方法に関する。 The present invention relates to a learning data generator and a learning data generation method.

機械学習システムの実現に際しては、機械学習モデルの精度を確保するため、有効な学習データを準備する必要がある。 When realizing a machine learning system, it is necessary to prepare effective learning data in order to ensure the accuracy of the machine learning model.

学習データを生成する技術として、例えば、特許文献1には、ニューラルネットワークを利用した判定装置を学習するための学習用データの生成装置について記載されている。学習用データの生成装置は、収集した時系列データのデータ値を変更し、時系列データの各データの時間間隔を変更し、時系列データに歪を付加し、時系列データに雑音を付加する。 As a technique for generating learning data, for example, Patent Document 1 describes a learning data generation device for learning a determination device using a neural network. The training data generator changes the data value of the collected time-series data, changes the time interval of each data of the time-series data, adds distortion to the time-series data, and adds noise to the time-series data. ..

また特許文献2には、学習データが少数の場合に、学習データを加工することで、学習の改善に寄与するデータを生成する技術に関して記載されている。具体的には、ニューラルネットワーク学習装置が、学習中のニューラルネットワークを用いて学習データから特徴を抽出し、抽出した特徴から学習中のニューラルネットワークを用いて敵対的特徴を生成し、学習データと敵対的特徴とを用いてニューラルネットワークの認識結果を算出し、認識結果が望ましい出力に近づくようにニューラルネットワークを学習する。 Further, Patent Document 2 describes a technique for generating data that contributes to improvement of learning by processing the learning data when the learning data is small. Specifically, the neural network learning device extracts features from the training data using the learning neural network, generates hostile features from the extracted features using the learning neural network, and is hostile to the training data. The recognition result of the neural network is calculated using the characteristics, and the neural network is trained so that the recognition result approaches the desired output.

また特許文献3には、監視対象の状態異常を速やかに検知することを目的として構成された異常検知システムに関して記載されている。異常検知システムは、監視対象に対する観測データを収集して時系列観測データとして保存し、観測データを訓練用データおよび検証用データのいずれかに分類し、訓練用データに基づき監視対象の線形状態空間モデルのモデルパラメータを同定し、モデルパラメータと検証用データを入力として監視対象の状態変数の確率分布の推定値を計算し、推定値に基づき監視対象の異常度を計算し、観測データを収集すると新しく収集した観測データを時系列観測データに追加するとともに時系列観測データのデータ数がしきい値よりも大きい場合は最も前に収集した観測データを破棄する。 Further, Patent Document 3 describes an abnormality detection system configured for the purpose of promptly detecting a state abnormality of a monitoring target. The anomaly detection system collects observation data for the monitoring target, saves it as time-series observation data, classifies the observation data into either training data or verification data, and based on the training data, the linear state space of the monitoring target. When the model parameters of the model are identified, the estimated value of the probability distribution of the state variable to be monitored is calculated by inputting the model parameters and the verification data, the degree of abnormality of the monitored target is calculated based on the estimated value, and the observation data is collected. The newly collected observation data is added to the time-series observation data, and if the number of time-series observation data is larger than the threshold value, the earliest collected observation data is discarded.

特開2019−87106号公報JP-A-2019-87106 国際公開第2018/167900号International Publication No. 2018/167900 特開2019−191836号公報Japanese Unexamined Patent Publication No. 2019-191836

R. B. Cleveland、外3名、“STL: a seasonal-trend decomposition procedure based on loess”、[online]、1990年、Journal of official statistics、[2020年1月31日検索]、インターネット<URL:https://www.wessa.net/download/stl.pdf>RB Cleveland, 3 outsiders, “STL: a seasonal-trend decomposition procedure based on loess”, [online], 1990, Journal of official statistics, [Search January 31, 2020], Internet <URL: https: / /www.wessa.net/download/stl.pdf>

時系列データに基づき予兆診断や異常検知等の推論処理を行う機械学習システムの実現に際しては、上記推論処理を行う機械学習モデルの精度を確保する必要があり、そのためには有効な学習データを効率よく準備する必要がある。また機械学習モデルの精度を確保するには、そのために必要とされる期間の時系列データを学習データとして用意する必要
がある。
In order to realize a machine learning system that performs inference processing such as predictive diagnosis and abnormality detection based on time series data, it is necessary to ensure the accuracy of the machine learning model that performs the above inference processing, and for that purpose, effective learning data is efficient. You need to prepare well. In addition, in order to ensure the accuracy of the machine learning model, it is necessary to prepare time-series data for the period required for that purpose as learning data.

しかし特許文献1及び特許文献2は、いずれも必要とされる期間の時系列データを生成する技術については何も開示されていない。また特許文献3に記載の技術では、監視対象に対する観測データを収集する必要があり、例えば、機械学習システムの導入時等のように観測データが得られていない場合には対応することができない。 However, neither Patent Document 1 nor Patent Document 2 discloses any technique for generating time-series data for a required period. Further, in the technique described in Patent Document 3, it is necessary to collect observation data for a monitored object, and it is not possible to deal with a case where observation data is not obtained, for example, when a machine learning system is introduced.

本発明の目的は、必要とされる期間について適切な内容の学習データを効率よく提供することが可能な、学習データ生成装置、及び学習データ生成方法を提供することを目的とする。 An object of the present invention is to provide a learning data generation device and a learning data generation method capable of efficiently providing learning data having appropriate contents for a required period.

上記目的を達成するための本発明のうちの一つは、情報処理装置を用いて構成され、機械学習モデルの学習に用いる学習データを生成する学習データ生成装置であって、所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成する人工データ生成部と、前記人工データを用いて学習データを生成する学習データ生成部と、を備える。 One of the present inventions for achieving the above object is a learning data generator which is configured by using an information processing device and generates learning data used for learning a machine learning model, and is a learning data generator for a predetermined cycle. By concatenating a plurality of duplicated data which are duplicated data of the generation source data which is serial data and giving noise to each of the duplicated data, artificial data which is time-series data of a period corresponding to a required period is generated. An artificial data generation unit for generating data and a learning data generation unit for generating training data using the artificial data are provided.

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。 In addition, the problems disclosed in the present application and the solutions thereof will be clarified by the column of the form for carrying out the invention and the drawings.

本発明によれば、必要とされる期間について適切な内容の学習データを効率よく提供することができる。 According to the present invention, it is possible to efficiently provide learning data having appropriate contents for a required period.

機械学習システムの概略的な構成を示す図である。It is a figure which shows the schematic structure of the machine learning system. 情報処理装置の構成の一例である。This is an example of the configuration of an information processing device. 学習データ生成装置が備える主な機能を示す図である。It is a figure which shows the main function which a learning data generation apparatus has. 学習データ生成処理を説明するフローチャートである。It is a flowchart explaining the learning data generation process. 人工データ生成処理の詳細を説明するフローチャートである。It is a flowchart explaining the detail of the artificial data generation processing. 人工データ生成処理の実行過程で生成されるデータを模式的に示した図である。It is a figure which showed typically the data generated in the execution process of an artificial data generation process. 生成元データの一例である。This is an example of source data. 人工データの一例である。This is an example of artificial data. 学習データ期間設定処理の詳細を説明するフローチャートである。It is a flowchart explaining the detail of the learning data period setting process. 観測データの一例である。This is an example of observation data. 学習データ生成処理の詳細を説明するフローチャートである。It is a flowchart explaining the detail of the learning data generation process. 学習データの一例である。This is an example of training data. 第2実施形態における人工データ生成処理を説明するフローチャートである。It is a flowchart explaining the artificial data generation processing in 2nd Embodiment. 第2実施形態における人工データ生成処理の実行過程で生成されるデータを模式的に示した図である。It is a figure which shows typically the data generated in the execution process of the artificial data generation process in 2nd Embodiment. 生成元データの一例である。This is an example of source data. 中間データの一例である。This is an example of intermediate data. 複製元データの一例である。This is an example of replication source data. 人工データの一例である。This is an example of artificial data.

以下、本発明の一実施形態について図面を参照しつつ説明する。尚、以下の説明において、同一の又は類似する機能を有する構成について同一の符号を付して重複する説明を省略することがある。また以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。また以下の説明において「学習データ」という用語を用いるが、「訓練データ」と同義である。またいわゆる教師あり機械学習に用いる学習データはいわゆるラベルの情報を含むが、説明の簡単のため、本実施形態ではラベルに関する説明や例示を省略する。また以下の説明において、期間は、日時で指定してもよいし、日のみもしくは時間のみで指定してもよい。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the following description, the same reference numerals may be given to configurations having the same or similar functions, and duplicate description may be omitted. Further, in the following description, the letter "S" prefixed with the reference numeral means a processing step. In addition, the term "learning data" is used in the following explanation, but it is synonymous with "training data". Further, the learning data used for so-called supervised machine learning includes so-called label information, but for the sake of simplicity, explanations and examples of labels are omitted in this embodiment. Further, in the following description, the period may be specified by the date and time, or may be specified only by the day or only the time.

[第1実施形態]
図1に、第1実施形態として示す学習データ生成装置100が適用される情報処理システム(以下、「機械学習システム1」と称する。)の概略的な構成を示している。同図に示すように、機械学習システム1は、推論装置2と学習データ生成装置100とを含む。
[First Embodiment]
FIG. 1 shows a schematic configuration of an information processing system (hereinafter, referred to as “machine learning system 1”) to which the learning data generation device 100 shown as the first embodiment is applied. As shown in the figure, the machine learning system 1 includes an inference device 2 and a learning data generation device 100.

推論装置2は、時系列データである学習データ114を用いて機械学習モデル23の学習を行う学習処理部21、及び機械学習モデル23を用いて推論処理を行う推論処理部22の各機能を有する。推論処理部22は、時系列データである観測データ113を機械学習モデル23に入力することにより推論処理を行い、結果を推論結果7として出力する。機械学習モデル23は、例えば、時系列データに基づき予兆診断や異常検知等のための推論処理を行う。 The inference device 2 has the functions of a learning processing unit 21 that learns the machine learning model 23 using the learning data 114, which is time-series data, and an inference processing unit 22 that performs inference processing using the machine learning model 23. .. The inference processing unit 22 performs inference processing by inputting the observation data 113, which is time series data, into the machine learning model 23, and outputs the result as the inference result 7. The machine learning model 23 performs inference processing for predictive diagnosis, abnormality detection, and the like based on time-series data, for example.

学習データ生成装置100は、時系列データである、生成元データ111や観測データ113に基づき学習データ114を生成する。生成された学習データ114は、通信または記録媒体を介して推論装置2に入力される。 The learning data generation device 100 generates learning data 114 based on generation source data 111 and observation data 113, which are time-series data. The generated learning data 114 is input to the inference device 2 via communication or a recording medium.

図2に、推論装置2や学習データ生成装置100の構成に用いる情報処理装置10の一例を示す。同図に示すように、例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。これらはバス等の通信手段を介して通信可能に接続されている。 FIG. 2 shows an example of the information processing device 10 used in the configuration of the inference device 2 and the learning data generation device 100. As shown in the figure, the illustrated information processing device 10 includes a processor 11, a main storage device 12, an auxiliary storage device 13, an input device 14, an output device 15, and a communication device 16. These are connected so as to be able to communicate via a communication means such as a bus.

情報処理装置10は、例えば、クラウドシステムにより提供される仮想サーバのように仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また情報処理装置10の機能の全部又は一部を、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供す
るサービスにより実現してもよい。また例えば、通信可能に接続された複数の情報処理装置10を用いて学習データ生成装置100を構成してもよい。情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)等のソフトウェアが導入されていてもよい。
The information processing device 10 is realized by using virtual information processing resources provided by using virtualization technology, process space separation technology, or the like, for example, a virtual server provided by a cloud system. May be good. Further, all or a part of the functions of the information processing device 10 may be realized by, for example, a service provided by a cloud system via an API (Application Programming Interface) or the like. Further, for example, the learning data generation device 100 may be configured by using a plurality of information processing devices 10 connected so as to be communicable. Software such as an operating system, a file system, and a DBMS (DataBase Management System) (relational database, NoSQL, etc.) may be installed in the information processing device 10.

プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等を用いて構成されている。 The processor 11 includes, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), an AI (Artificial Intelligence) chip, an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), or the like. Is configured using.

主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
The main storage device 12 is a device that stores programs and data, and is, for example, a ROM (Read).
Only Memory), RAM (Random Access Memory), non-volatile memory (NVRAM (Non Volatile RAM)) and the like.

補助記憶装置13は、例えば、SSD(Solid State Drive)、ハードディスクドライ
ブ、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、仮想サーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み出すことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み出される。
The auxiliary storage device 13 includes, for example, an SSD (Solid State Drive), a hard disk drive, an optical storage device (CD (Compact Disc), DVD (Digital Versatile Disc), etc.), a storage system, an IC card, an SD card, or an optical recording device. A reading / writing device for a recording medium such as a medium, a storage area for a virtual server, and the like. The auxiliary storage device 13 can read programs and data via the reading device of the recording medium and the communication device 16. Programs and data stored (stored) in the auxiliary storage device 13 are read out to the main storage device 12 at any time.

入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。 The input device 14 is an interface that accepts input from the outside, and is, for example, a keyboard, a mouse, a touch panel, a card reader, a voice input device, and the like. The output device 15 is an interface that outputs various information such as processing progress and processing results.

出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、プロジェクタ等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。 The output device 15 is, for example, a display device (liquid crystal monitor, LCD (Liquid Crystal Display), projector, etc.) that visualizes the above-mentioned various information, a device (audio output device (speaker, etc.)) that visualizes the above-mentioned various information. It is a device (printing device, etc.) that converts the above various information into characters.

入力装置14と出力装置15はユーザインタフェースを構成する。尚、例えば、情報処理装置10が通信装置16を介して他の装置(スマートフォン、タブレット、ノートブック型コンピュータ、各種携帯情報端末等)と情報の入出力を行う構成としてもよい。 The input device 14 and the output device 15 form a user interface. For example, the information processing device 10 may be configured to input / output information to / from another device (smartphone, tablet, notebook computer, various personal digital assistants, etc.) via the communication device 16.

通信装置16は、他の装置との間の通信を実現する。通信装置16は、通信ネットワークを介した他の装置との間の通信を実現する、無線又は有線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Bus)モジュール、シリアル通信モジュール等である。続いて、各装置が備える機能について説明する。 The communication device 16 realizes communication with other devices. The communication device 16 is a wireless or wired communication interface that realizes communication with another device via a communication network, and is, for example, a NIC (Network Interface Card), a wireless communication module, or a USB (Universal Serial Bus). ) Modules, serial communication modules, etc. Subsequently, the functions provided by each device will be described.

図3に、学習データ生成装置100が備える主な機能を示している。同図に示すように、学習データ生成装置100は、記憶部110、観測データ取得部120、生成元データ取得部130、人工データ生成部140、学習データ期間設定部150、学習データ生成部160、及び学習データ出力部170の各機能を備える。これらの機能は、学習データ生成装置100を構成する情報処理装置10のプロセッサ11が、情報処理装置10の主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、情報処理装置10が備えるハードウェア(FPGA、ASIC、AIチップ等)により実現される。 FIG. 3 shows the main functions of the learning data generation device 100. As shown in the figure, the learning data generation device 100 includes a storage unit 110, an observation data acquisition unit 120, a generation source data acquisition unit 130, an artificial data generation unit 140, a learning data period setting unit 150, and a learning data generation unit 160. And each function of the learning data output unit 170 is provided. These functions are performed by the processor 11 of the information processing device 10 constituting the learning data generation device 100 reading and executing the program stored in the main storage device 12 of the information processing device 10 or by executing the information processing device. It is realized by the hardware (FPGA, ASIC, AI chip, etc.) included in 10.

上記機能のうち、記憶部110は、生成元データ111、人工データ112、観測データ113、及び学習データ114を記憶し管理する。記憶部110は、例えば、DBMSが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、各データを記憶し管理する。 Among the above functions, the storage unit 110 stores and manages the generation source data 111, the artificial data 112, the observation data 113, and the learning data 114. The storage unit 110 stores and manages each data as, for example, a database table provided by the DBMS or a file provided by the file system.

生成元データ111は、人工データ112の生成に用いるデータである。人工データ112は、学習データ114の生成に用いるデータである。観測データ113は、機械学習システム1が、例えば、本番運用を開始した後に機械学習モデル23に入力されたデータである。学習データ114は、人工データ112や観測データ113に基づき生成されるデータであり、機械学習モデル23の学習(訓練)に用いられるデータである。 The generation source data 111 is data used for generating the artificial data 112. The artificial data 112 is data used for generating the learning data 114. The observation data 113 is data input to the machine learning model 23 after the machine learning system 1 starts the production operation, for example. The learning data 114 is data generated based on artificial data 112 and observation data 113, and is data used for learning (training) of the machine learning model 23.

図3に示す機能のうち、観測データ取得部120は、推論装置2から通信や記録媒体を介して観測データ113を取得する。記憶部110は、観測データ取得部120が取得した観測データ113を記憶する。 Among the functions shown in FIG. 3, the observation data acquisition unit 120 acquires the observation data 113 from the inference device 2 via communication or a recording medium. The storage unit 110 stores the observation data 113 acquired by the observation data acquisition unit 120.

生成元データ取得部130は、生成元データ111を取得もしくは生成する。生成元データ取得部130は、例えば、ユーザインタフェースを介してユーザから生成元データ1
11を取得する。生成元データ取得部130は、例えば、観測データ113に基づき生成元データ111を生成する。ユーザがユーザインタフェースを介して観測データ113を編集することにより生成元データ111を生成してもよい。記憶部110は、生成元データ取得部130が取得もしくは生成した生成元データ111を記憶する。
The generation source data acquisition unit 130 acquires or generates the generation source data 111. The generation source data acquisition unit 130 may, for example, generate source data 1 from the user via the user interface.
Get 11. The generation source data acquisition unit 130 generates the generation source data 111 based on the observation data 113, for example. The generation source data 111 may be generated by the user editing the observation data 113 via the user interface. The storage unit 110 stores the generation source data 111 acquired or generated by the generation source data acquisition unit 130.

人工データ生成部140は、生成元データ111に基づき人工データ112を生成する。記憶部110は、人工データ生成部140が生成した人工データ112を記憶する。 The artificial data generation unit 140 generates artificial data 112 based on the generation source data 111. The storage unit 110 stores the artificial data 112 generated by the artificial data generation unit 140.

学習データ期間設定部150は、学習データ114の期間(学習データの開始時点から終了時点まで。以下、「学習データ期間」と称する。)の設定に関する処理を行う。学習データ期間設定部150は、例えば、ユーザインタフェースを介してユーザから学習データ期間の設定に関する情報を受け付ける。 The learning data period setting unit 150 performs processing related to setting the period of the learning data 114 (from the start time to the end time of the learning data. Hereinafter, referred to as a “learning data period”). The learning data period setting unit 150 receives, for example, information regarding the setting of the learning data period from the user via the user interface.

学習データ生成部160は、人工データ112や観測データ113に基づき学習データ114を生成する。 The learning data generation unit 160 generates learning data 114 based on the artificial data 112 and the observation data 113.

学習データ出力部170は、学習データ生成部160が生成した学習データ114を出力する。出力された学習データ114は、通信や記録媒体を介して推論装置2に入力される。 The learning data output unit 170 outputs the learning data 114 generated by the learning data generation unit 160. The output learning data 114 is input to the inference device 2 via communication or a recording medium.

図4は、学習データ生成装置100が学習データ114の生成に際して行う処理(以下、「学習データ生成処理S400」と称する。)を説明するシーケンス図である。以下、同図とともに学習データ生成処理S400について説明する。尚、同図に示す処理の開始時点において、記憶部110は、観測データ取得部120が取得した観測データ113、及び生成元データ取得部130が取得もしくは生成した生成元データ111を既に記憶しているものとする。 FIG. 4 is a sequence diagram illustrating a process (hereinafter, referred to as “learning data generation process S400”) performed by the learning data generation device 100 when generating the learning data 114. Hereinafter, the learning data generation process S400 will be described with reference to the figure. At the start of the process shown in the figure, the storage unit 110 has already stored the observation data 113 acquired by the observation data acquisition unit 120 and the generation source data 111 acquired or generated by the generation source data acquisition unit 130. It is assumed that there is.

同図に示すように、まず人工データ生成部140が、記憶部110が記憶している生成元データ111を読み出す(S411)。 As shown in the figure, first, the artificial data generation unit 140 reads out the generation source data 111 stored in the storage unit 110 (S411).

続いて、人工データ生成部140は、ユーザインタフェースを介して、ユーザが生成しようとする学習データ114の期間の長さ(以下、「要求期間」と称する。)の指定、生成元データ111に含まれている周期の数(以下、「周期数」と称する。)、及び人工データ112に与える雑音の生成に用いる分散σ^2の入力を受け付ける(S412)。 Subsequently, the artificial data generation unit 140 specifies the length of the period (hereinafter, referred to as “request period”) of the learning data 114 to be generated by the user via the user interface, and is included in the generation source data 111. It accepts the input of the number of cycles (hereinafter referred to as "the number of cycles") and the dispersion σ ^ 2 used for generating noise given to the artificial data 112 (S412).

続いて、人工データ生成部140は、読み出した生成元データ111と、受け付けた要求期間、周期数、及び分散σ^2に基づき、人工データ112を生成する処理(以下、「人工データ生成処理S413」と称する。)を行う(S413)。 Subsequently, the artificial data generation unit 140 generates artificial data 112 based on the read generation source data 111, the received request period, the number of cycles, and the variance σ ^ 2 (hereinafter, “artificial data generation process S413”). (S413).

続いて、学習データ期間設定部150が、記憶部110が記憶している観測データを読み出す(S421)。 Subsequently, the learning data period setting unit 150 reads out the observation data stored in the storage unit 110 (S421).

続いて、学習データ期間設定部150は、S412で人工データ生成部140が読み出した生成元データ111の期間、S413で人工データ生成部140が生成した人工データ112の期間、及びS421で読み出した観測データ113の期間を取得する(S422)。 Subsequently, the learning data period setting unit 150 uses the period of the generation source data 111 read by the artificial data generation unit 140 in S412, the period of the artificial data 112 generated by the artificial data generation unit 140 in S413, and the observation read in S421. The period of data 113 is acquired (S422).

続いて、学習データ期間設定部150は、S412で人工データ生成部140が受け付けた要求期間を取得する(S423)。 Subsequently, the learning data period setting unit 150 acquires the request period received by the artificial data generation unit 140 in S412 (S423).

続いて、学習データ期間設定部150は、S422で取得した各期間とS423で取得した要求期間とに基づき、学習データ期間を設定する処理(以下、「学習データ期間設定処理S424」と称する。)を行う(S424)。 Subsequently, the learning data period setting unit 150 sets the learning data period based on each period acquired in S422 and the request period acquired in S423 (hereinafter, referred to as "learning data period setting process S424"). (S424).

続いて、学習データ生成部160が、S411で人工データ生成部140が読み出した生成元データ111、S413で人工データ生成部140が生成した人工データ112、及びS421で学習データ期間設定部150が読み出した観測データ113に基づき、学習データ期間設定処理S424により設定された学習データ期間について学習データ114を生成する(S431)。 Subsequently, the learning data generation unit 160 reads out the generation source data 111 read by the artificial data generation unit 140 in S411, the artificial data 112 generated by the artificial data generation unit 140 in S413, and the learning data period setting unit 150 in S421. Based on the observed data 113, the training data 114 is generated for the training data period set by the training data period setting process S424 (S431).

その後、学習データ出力部170は、生成された学習データ114を出力する。出力された学習データ114は、通信や記録媒体を介して推論装置2の学習処理部21に送信(提供)される。 After that, the learning data output unit 170 outputs the generated learning data 114. The output learning data 114 is transmitted (provided) to the learning processing unit 21 of the inference device 2 via communication or a recording medium.

図5は、図4に示した人工データ生成処理S413の詳細を説明するフローチャートである。また図6は、人工データ生成処理S413の実行過程で生成されるデータを模式的に示した図である。人工データ生成部140は、生成元データ111を、S412で受け付けた要求期間に応じた周期数だけ複製し、生成元データ111の日時を適切な日時に置換し、更に観測値に雑音を付与することにより、人工データ112を生成する。以下、図5及び図6を参照しつつ、人工データ生成処理S413について説明する。 FIG. 5 is a flowchart illustrating the details of the artificial data generation process S413 shown in FIG. Further, FIG. 6 is a diagram schematically showing data generated in the execution process of the artificial data generation process S413. The artificial data generation unit 140 duplicates the generation source data 111 for the number of cycles corresponding to the request period received in S412, replaces the date and time of the generation source data 111 with an appropriate date and time, and further adds noise to the observed value. As a result, artificial data 112 is generated. Hereinafter, the artificial data generation process S413 will be described with reference to FIGS. 5 and 6.

図7に生成元データ111の一例を示す。以下では同図に示す生成元データ111を例として人工データ生成処理S413を説明する。同図に示すように、例示する生成元データ111は、日時701及び観測値702の各項目を有する複数のエントリ(レコード)を含む。 FIG. 7 shows an example of the generating source data 111. Hereinafter, the artificial data generation process S413 will be described using the generation source data 111 shown in the figure as an example. As shown in the figure, the illustrated source data 111 includes a plurality of entries (records) having each item of the date and time 701 and the observed value 702.

上記項目のうち、日時701には、観測値702の値を取得した日時が設定される。尚、日時701の値は、各エントリを一意に識別するための識別子としても用いられる。観測値702には、観測値が設定される。尚、時系列データにはカテゴリ変数情報が含まれる場合があるが、とくに説明がない限り、観測値は量的変数情報であるものとする。観測値702は、例えば、センサ装置等から取得した値そのもの(生データ)や、複数の観測対象から得られた値を処理(加減乗除、集計処理、統計処理等)することにより得られる値である。上記値は、例えば、観測対象が情報通信システムである場合における通信量や稼働率である。また上記値は、例えば、「上り通信量」と「下り通信量」という2つの観測対象の値を合計した値「合計通信量」である。また例えば、上記値は、ある時点における観測値と別の時点の観測値に基づき計算により求められる。また例えば、上記値は、前回の通信量と今回の通信量との差分(通信量の時間変化量)である。 Among the above items, the date and time 701 is set to the date and time when the observed value 702 is acquired. The value of the date and time 701 is also used as an identifier for uniquely identifying each entry. The observed value is set in the observed value 702. The time series data may include categorical variable information, but unless otherwise specified, the observed values are assumed to be quantitative variable information. The observed value 702 is, for example, a value obtained by processing the value itself (raw data) acquired from a sensor device or the like or a value obtained from a plurality of observed objects (addition / subtraction / multiplication / division, aggregation processing, statistical processing, etc.). be. The above values are, for example, the communication volume and the operating rate when the observation target is an information communication system. Further, the above value is, for example, a value "total communication amount" which is the sum of the values of two observation targets, "uplink communication amount" and "downlink communication amount". Further, for example, the above value is obtained by calculation based on the observed value at a certain time point and the observed value at another time point. Further, for example, the above value is the difference between the previous communication amount and the current communication amount (time change amount of the communication amount).

例示する生成元データ111は、2019年11月15日0時0分0秒から2019年11月22日0時0分0秒までの情報を10分間隔で記録した内容からなり、図6(A)に示す1周期分のデータである。尚、以下の説明において、S412で受け付けた生成元データ111の周期は1週間であり、1周期あたり1008個のエントリが含まれるものとする。またS412で要求期間として28週を受け付けているものとする。 The example generation source data 111 comprises the content of recording the information from 0:00:00 on November 15, 2019 to 0:00:00 on November 22, 2019 at 10-minute intervals, and is shown in FIG. It is the data for one cycle shown in A). In the following description, it is assumed that the cycle of the generating source data 111 received in S412 is one week, and 1008 entries are included in each cycle. Further, it is assumed that 28 weeks is accepted as the request period in S412.

図5に示すように、まず人工データ生成部140は、S412で受け付けた要求期間以上の期間となる、生成元データ111の1周期の期間の倍数の最小値(以下、「最小周期数」と称する。)を求める(S501)。 As shown in FIG. 5, first, the artificial data generation unit 140 has a minimum value (hereinafter referred to as "minimum number of cycles") that is a multiple of the period of one cycle of the generation source data 111, which is a period equal to or longer than the request period received in S412. To be referred to) (S501).

続いて、人工データ生成部140は、求めた最小周期数から生成元データ111に含まれている周期数を減じた値を求め、求めた値を生成元データ111に含まれる周期数で割
った値を小数点以下切り上げることにより得られる値を複製回数とする(S502)。尚、S501で求めた最小周期数から生成元データ111に含まれている周期数を減じているのは、複製元の生成元データ111の分を複製数から除くためである。例示する生成元データ111の周期数は1であり、要求期間は28週であるため、本例では複製回数として27が得られる。尚、複製回数は以上の方法以外の方法で取得してもよい。例えば、ユーザインタフェースを介してユーザから複製回数の指定を受け付けるようにしてもよい。
Subsequently, the artificial data generation unit 140 obtains a value obtained by subtracting the number of cycles included in the generation source data 111 from the obtained minimum number of cycles, and divides the obtained value by the number of cycles included in the generation source data 111. The value obtained by rounding up the value after the decimal point is taken as the number of duplications (S502). The number of cycles included in the generating source data 111 is subtracted from the minimum number of cycles obtained in S501 in order to exclude the amount of the generating source data 111 of the duplication source from the number of duplications. Since the number of cycles of the generating data 111 illustrated is 1 and the required period is 28 weeks, 27 is obtained as the number of duplications in this example. The number of copies may be obtained by a method other than the above method. For example, the number of copies may be specified by the user via the user interface.

続いて、人工データ生成部140は、S502で取得した複製回数だけ生成元データ111を複製したデータ(以下、「複製データ」と称する。)を生成する(S503)。 Subsequently, the artificial data generation unit 140 generates data (hereinafter, referred to as “replication data”) in which the generation source data 111 is duplicated as many times as the number of reproductions acquired in S502 (S503).

続いて、人工データ生成部140は、1から始まる自然数を各複製データに順に割り当てる。記憶部110は、各複製データに割り当てられた番号(以下、「複製番号」と称する。)を複製データの夫々に対応づけて記憶する(S504)。 Subsequently, the artificial data generation unit 140 assigns natural numbers starting from 1 to each duplicate data in order. The storage unit 110 stores a number assigned to each duplicated data (hereinafter, referred to as a “duplicate number”) in association with each of the duplicated data (S504).

続いて、人工データ生成部140は、割り当てた複製番号の逆順に複製データを時系列に連結したデータ(以下、「一次人工データ」と称する。)を生成する(S505)。 Subsequently, the artificial data generation unit 140 generates data (hereinafter, referred to as "primary artificial data") in which the duplicated data is concatenated in chronological order in the reverse order of the assigned duplicate numbers (S505).

続いて、人工データ生成部140は、S507で生成した一次人工データの各エントリに、生成元データ111の各エントリの日時701の値を複製したデータ(以下、「参照元日時」と称する。)を付与する(S506)。 Subsequently, the artificial data generation unit 140 duplicates the value of the date and time 701 of each entry of the generation source data 111 for each entry of the primary artificial data generated in S507 (hereinafter, referred to as “reference source date and time”). (S506).

続いて、人工データ生成部140は、付与した一次人工データの各エントリの参照元日時を、基準とする日時(同図では例えば日時t)から遡った値に更新する(日時tから生成元データ111の周期と各エントリの複製番号とを乗算することにより得られる日時分遡る)ことにより、各エントリの日時を生成する(S507)。例えば、複製番号27の複製データにおける2019年11月15日0時0分0秒の変更後の日時は、27週分遡った2019年5月10日0時0分0秒になる。S507を実行することにより生成される一次人工データは、図6(B)のようになる。 Subsequently, the artificial data generation unit 140 updates the reference source date and time of each entry of the given primary artificial data to a value retroactive from the reference date and time (for example, date and time t in the figure) (generation source data from date and time t). The date and time of each entry is generated by multiplying the period of 111 by the duplication number of each entry to go back by the date and time obtained (S507). For example, the date and time after the change of 00:00 on November 15, 2019 in the duplicated data of the duplicate number 27 will be 00:00 on May 10, 2019, which is 27 weeks back. The primary artificial data generated by executing S507 is as shown in FIG. 6 (B).

続いて、人工データ生成部140は、図4のS412で受け付けた分散σ^2を用いて人工データの期間の白色雑音を生成する(S508)。S508を実行することにより生成される白色雑音は図6(C)のようになる。 Subsequently, the artificial data generation unit 140 generates white noise during the period of the artificial data using the variance σ ^ 2 received in S412 of FIG. 4 (S508). The white noise generated by executing S508 is as shown in FIG. 6 (C).

続いて、人工データ生成部140は、一次人工データに対して、S508で生成した白色雑音を変動値として付与することにより、人工データ112を生成する(S509)。S509を実行することにより生成される人工データ112は、図6(D)のようになる。 Subsequently, the artificial data generation unit 140 generates artificial data 112 by adding the white noise generated in S508 as a variable value to the primary artificial data (S509). The artificial data 112 generated by executing S509 is as shown in FIG. 6D.

図8に、人工データ生成処理S413により生成される人工データ112の一例を示す。同図に示すように、例示する人工データ112は、日時811、観測値812、参照元観測値813、変動値814、参照元日時815、及び複製番号816の各項目を有する複数のエントリを含む。 FIG. 8 shows an example of the artificial data 112 generated by the artificial data generation process S413. As shown in the figure, the illustrated artificial data 112 includes a plurality of entries having the respective items of date and time 811, observed value 812, reference source observed value 813, variation value 814, reference source date and time 815, and replication number 816. ..

上記項目のうち、日時811には、S507で生成された日時が設定される。尚、日時811の値は、各エントリを一意に識別する識別子としても用いられる。観測値812には、S509で生成された人工データ112の当該日時における観測値が設定される。参照元観測値813には、当該日時に対応する、生成元データ111の観測値702が設定される。変動値814には、S508で生成された、当該日時に対応する白色雑音の値が設定される。参照元日時815には、当該日時に対応する、生成元データ111の日時701が設定される。参照元日時815の値は、当該エントリが、当該参照元日時815の
値の日時の生成元データ111のエントリに基づくものであることを示す。複製番号816には、S504で割り当てられた複製番号が設定される。
Among the above items, the date and time generated in S507 is set in the date and time 811. The value of the date and time 811 is also used as an identifier that uniquely identifies each entry. The observation value 812 is set to the observation value of the artificial data 112 generated in S509 at the relevant date and time. The observation value 702 of the generation source data 111 corresponding to the date and time is set in the reference source observation value 813. The value of the white noise generated in S508 and corresponding to the date and time is set in the fluctuation value 814. The date and time 701 of the generation source data 111 corresponding to the date and time is set in the reference source date and time 815. The value of the reference source date and time 815 indicates that the entry is based on the entry of the generator data 111 of the date and time of the value of the reference source date and time 815. The duplication number assigned in S504 is set in the duplication number 816.

図9は、図4に示した学習データ期間設定処理S424を説明するフローチャートである。以下、同図とともに学習データ期間設定処理S424について説明する。尚、S423で取得した要求期間に重なる期間の観測データ113が既に取得されている場合、人工データ生成部140は、観測データ113を優先して学習データ114として採用されるように学習データ期間を設定する。 FIG. 9 is a flowchart illustrating the learning data period setting process S424 shown in FIG. Hereinafter, the learning data period setting process S424 will be described with reference to the figure. When the observation data 113 for a period overlapping the request period acquired in S423 has already been acquired, the artificial data generation unit 140 sets the learning data period so that the observation data 113 is preferentially adopted as the learning data 114. Set.

図10は、以下の説明で用いる観測データ113の一例である。同図に示すように、例示する観測データ113は、日時1011と観測値1012の各項目を有する複数のエントリを含む。上記項目のうち日時1011には、当該エントリの観測値が取得された日時が設定される。観測値1012には、観測対象から実際に取得した観測値が設定される。 FIG. 10 is an example of the observation data 113 used in the following description. As shown in the figure, the illustrated observation data 113 includes a plurality of entries having each item of the date and time 1011 and the observed value 1012. Of the above items, the date and time 1011 is set to the date and time when the observed value of the entry was acquired. The observed value actually acquired from the observed object is set in the observed value 1012.

図9に示すように、まず学習データ期間設定部150は、記憶部110が観測データ113を記憶しているか否か(学習データ生成装置100が観測データ113を取得しているか否か)を確認する(S901)。記憶部110が観測データ113を記憶している場合(S901:YES)、学習データ期間設定部150は、観測データ113の期間の終了時点を、学習データ期間の終了時点t_endとして設定する(S902)。その後、処理
はS904に進む。一方、記憶部110が観測データ113を記憶していない場合(S901:NO)、学習データ期間設定部150は、生成元データ111の期間の終了時点を、学習データ期間の終了時点t_endとして設定する(S903)。その後、処理はS90
4に進む。
As shown in FIG. 9, first, the learning data period setting unit 150 confirms whether or not the storage unit 110 stores the observation data 113 (whether or not the learning data generation device 100 has acquired the observation data 113). (S901). When the storage unit 110 stores the observation data 113 (S901: YES), the learning data period setting unit 150 sets the end point of the period of the observation data 113 as the end point t_end of the learning data period (S902). .. After that, the process proceeds to S904. On the other hand, when the storage unit 110 does not store the observation data 113 (S901: NO), the learning data period setting unit 150 sets the end time of the period of the generation data 111 as the end time t_end of the learning data period. (S903). After that, the process is S90.
Proceed to 4.

S904では、学習データ期間設定部150は、S902又はS903で設定した学習データ期間の終了時点t_endから、要求期間(人工データ生成部140がS412で取得
した要求期間)だけ過去に遡った日時(以下、「仮開始時点tmp_Tstart」と称する。)を取得する。
In S904, the learning data period setting unit 150 goes back to the past by the request period (the request period acquired by the artificial data generation unit 140 in S412) from the end point t_end of the learning data period set in S902 or S903 (hereinafter). , "Temporary start point tmp_Tstart") is acquired.

続いて、学習データ期間設定部150は、人工データ112の期間、生成元データ111の期間、及び観測データ113の期間と、仮開始時点tmp_Tstartとを比較する(S905)。仮開始時点tmp_Tstartが人工データ112の期間中である場合(S905:人工データの期間中)、学習データ期間の開始時点t_startに仮開始時点tmp_Tstartを設定する
(S906)。一方、仮開始時点tmp_Tstartが、生成元データ111の期間中か観測データ113の期間中である場合(S905:生成元データor観測データの期間中)、学習データ期間の開始時点t_startに生成元データ111の開始時点を設定する(S907)
Subsequently, the learning data period setting unit 150 compares the period of the artificial data 112, the period of the generation source data 111, and the period of the observation data 113 with the provisional start time point tmp_Tstart (S905). When the temporary start time tmp_Tstart is in the period of the artificial data 112 (S905: during the period of the artificial data), the temporary start time tmp_Tstart is set in the start time t_start of the learning data period (S906). On the other hand, when the provisional start time tmp_Tstart is in the period of the generation source data 111 or the observation data 113 (S905: during the period of the generation source data or the observation data), the generation source data is set to the start time t_start of the learning data period. Set the start time point of 111 (S907)
..

以上の処理により、学習データ期間の開始時点t_startと終了時点t_endが設定され、学習データ期間の設定が完了する。尚、S902、S903、及びS907の処理により、学習データ生成処理S431において、観測データ113又は生成元データ111が人工データ112よりも優先して学習データ114として採用されるようになる。 By the above processing, the start time t_start and the end time t_end of the training data period are set, and the setting of the training data period is completed. By the processing of S902, S903, and S907, in the learning data generation processing S431, the observation data 113 or the generation source data 111 is adopted as the learning data 114 in preference to the artificial data 112.

図11は、図4に示した学習データ生成処理S431を説明するフローチャートである。以下、同図とともに学習データ生成処理S431について説明する。 FIG. 11 is a flowchart illustrating the learning data generation process S431 shown in FIG. Hereinafter, the learning data generation process S431 will be described with reference to the figure.

まず学習データ生成部160は、記憶部110から、学習データ期間設定処理S424により設定された学習データ期間に重なる期間の、観測データ113、生成元データ111、及び人工データ112を取得する(S1101〜S1103)。 First, the learning data generation unit 160 acquires observation data 113, generation source data 111, and artificial data 112 for a period overlapping the learning data period set by the learning data period setting process S424 from the storage unit 110 (S1101- S1103).

続いて、学習データ生成部160は、取得した生成元データ111と取得した人工データ112を時系列方向に連結(人工データ112、生成元データ111の時系列順に連結)した中間連結データを生成する(S1104)。 Subsequently, the learning data generation unit 160 generates intermediate connection data in which the acquired generation source data 111 and the acquired artificial data 112 are connected in the time series direction (artificial data 112 and generation source data 111 are connected in chronological order). (S1104).

続いて、学習データ生成部160は、中間連結データと、取得した観測データ113を時系列方向に連結して学習データ114を生成する(S1105)。尚、学習データ期間の全期間に対応する観測データ113が存在する場合、学習データ114は全て観測データ113によるものとなる。また学習データ期間の一部の期間に観測データ113が重なる場合、学習データ114の全期間のうち、学習データ期間の開始時点から観測データ113の開始時点までは中間連結データによるものとなり、観測データ113の開始時点から学習データ期間の終了時点までは観測データ113によるものとなる。このように観測データ113が存在する場合は観測データ113が学習データ114として優先的に採用されるので、機械学習システム1の本番運用が開始された後、実際に取得されたデータである観測データ113のみを学習データ114として用いて学習する運用状態に早期に移行することができる。 Subsequently, the learning data generation unit 160 generates the learning data 114 by connecting the intermediate connection data and the acquired observation data 113 in the time series direction (S1105). If the observation data 113 corresponding to the entire learning data period exists, the learning data 114 is all based on the observation data 113. When the observation data 113 overlaps with a part of the training data period, the observation data is based on the intermediate connection data from the start time of the training data period to the start time of the observation data 113 in the entire period of the training data 114. From the start time of 113 to the end of the training data period, the observation data 113 is used. When the observation data 113 exists in this way, the observation data 113 is preferentially adopted as the learning data 114. Therefore, the observation data which is the data actually acquired after the production operation of the machine learning system 1 is started. It is possible to quickly shift to an operational state in which only 113 is used as learning data 114 for learning.

図12に学習データ生成処理S431により生成される学習データ114の一例を示す。例示する学習データ114は、日時1201及び観測値1202の各項目を有する複数のエントリを含む。上記項目のうち、日時1201には、人工データ112の日時811、生成元データ111の日時701、及び観測データ113の日時1011のいずれかの値に基づく日時が設定される。観測値1202には、人工データ112の観測値812、生成元データ111の観測値702、及び観測データ113の観測値1012のいずれかに基づく観測値が設定される。 FIG. 12 shows an example of the learning data 114 generated by the learning data generation process S431. The illustrated learning data 114 includes a plurality of entries having each item of the date and time 1201 and the observed value 1202. Among the above items, the date and time 1201 is set to a date and time based on any one of the date and time 811 of the artificial data 112, the date and time 701 of the generation source data 111, and the date and time 1011 of the observation data 113. The observation value 1202 is set to an observation value based on any of the observation value 812 of the artificial data 112, the observation value 702 of the generation source data 111, and the observation value 1012 of the observation data 113.

以上に説明したように、第1実施形態の学習データ生成装置100によれば、機械学習モデル23の精度を確保するために必要な期間の学習データを用意することが難しい場合でも、上記期間について有効な学習データをユーザの手を煩わせることなく効率よく生成して提供することができる。 As described above, according to the learning data generation device 100 of the first embodiment, even when it is difficult to prepare the learning data for the period necessary for ensuring the accuracy of the machine learning model 23, the above period Effective learning data can be efficiently generated and provided without bothering the user.

また学習データ生成装置100は、各複製データに個別に雑音を付加した人工データ112を用いて学習データ114を生成するので、機械学習モデル23の過学習の抑制効果が期待される多様性を有する学習データ114を生成することができ、機械学習モデル23の推論精度を向上することができる。また人工データ112に白色雑音を付加することで、実際の変動に近い変動を再現することができ、例えば、観測データが正規分布に従うことを前提として機能する機械学習モデル23の推論精度を高めることができる。 Further, since the learning data generation device 100 generates the learning data 114 by using the artificial data 112 in which noise is individually added to each duplicated data, it has a variety that is expected to have an effect of suppressing overfitting of the machine learning model 23. The training data 114 can be generated, and the inference accuracy of the machine learning model 23 can be improved. Further, by adding white noise to the artificial data 112, it is possible to reproduce fluctuations close to actual fluctuations. For example, it is possible to improve the inference accuracy of the machine learning model 23 that functions on the premise that the observed data follows a normal distribution. Can be done.

また図9に示したように、学習データ期間設定処理S424において、観測データ113が学習データ114に優先して採用されるように学習データ期間が設定されるので、機械学習システム1の本番運用が開始された後は、実際に取得されたデータである観測データ113のみを学習データ114として用いて学習する運用状態に早期に移行することができる。このため、本番運用の開始後、推論装置2の推論精度を早期に向上することができる。 Further, as shown in FIG. 9, in the training data period setting process S424, the training data period is set so that the observation data 113 is preferentially adopted over the training data 114, so that the actual operation of the machine learning system 1 can be performed. After the start, it is possible to quickly shift to the operational state of learning by using only the observation data 113, which is the actually acquired data, as the learning data 114. Therefore, the inference accuracy of the inference device 2 can be improved at an early stage after the start of the actual operation.

また学習データ生成装置100は、生成元データ111よりも過去の期間の人工データ112を生成することが可能であり、新たに取得される観測データ113の期間と重ならないように人工データ112を生成することができ、例えば、人工データ112を観測データ113で置換するといった煩雑な処理を発生させないようにすることができる。 Further, the learning data generation device 100 can generate the artificial data 112 in a period earlier than the generation source data 111, and generates the artificial data 112 so as not to overlap with the period of the newly acquired observation data 113. For example, it is possible to prevent complicated processing such as replacing the artificial data 112 with the observation data 113.

尚、以上では、生成元データ111よりも過去の期間の人工データ112を生成する場合を例示したが、生成元データ111よりも未来の期間の人工データ112を生成しても
よい。これにより、例えば、現実の振る舞いを最もよく反映していると考えられる時期における過去の時系列データを生成元データ111として用いて所望の未来の時期の学習データ114を生成することができる。尚、この場合、例えば、図5のS504において未来の期間の人工データ112とする各複製データに−1から始まる負の整数を複製番号を割り当て、過去の期間の各複製データに割り当てた正の複製番号と負の複製番号の絶対値との合計が図5のS502で取得した複製回数と一致するようにする。そのようにすることで、S507で複製データの期間に複製番号を乗算した値を基準とする日時に加算するだけで、日時(期間)情報を容易に算出することができる。
In the above, the case where the artificial data 112 in the period past the generation source data 111 is generated has been illustrated, but the artificial data 112 in the future period than the generation source data 111 may be generated. Thereby, for example, the learning data 114 of the desired future time can be generated by using the past time series data at the time considered to best reflect the actual behavior as the generation source data 111. In this case, for example, in S504 of FIG. 5, a negative integer starting from -1 is assigned to each duplicate data to be artificial data 112 in the future period, and a positive integer assigned to each duplicate data in the past period is assigned. Make sure that the sum of the duplication number and the absolute value of the negative duplication number matches the number of duplications acquired in S502 of FIG. By doing so, the date and time (period) information can be easily calculated only by adding the value obtained by multiplying the period of the duplicated data by the duplicate number in S507 to the date and time as the reference.

[第2実施形態]
続いて、第2実施形態について説明する。第2実施形態の学習データ生成装置100は、生成元データ111を分解することにより得られる構成要素(後述するトレンド、周期変動、及び残差)に基づき人工データ112を生成する。尚、第2実施形態の機械学習システム1の基本的な構成並びに機械学習システム1において実行される処理の流れは、図1乃至図4とともに説明した第1実施形態の機械学習システム1と基本的に共通するが、人工データ生成部140の機能の一部が異なる。以下では、第1実施形態と異なる部分を中心として説明する。
[Second Embodiment]
Subsequently, the second embodiment will be described. The learning data generation device 100 of the second embodiment generates artificial data 112 based on the components (trends, periodic fluctuations, and residuals described later) obtained by decomposing the generation source data 111. The basic configuration of the machine learning system 1 of the second embodiment and the flow of processing executed in the machine learning system 1 are basically the same as those of the machine learning system 1 of the first embodiment described with reference to FIGS. 1 to 4. However, some of the functions of the artificial data generation unit 140 are different. Hereinafter, the parts different from those of the first embodiment will be mainly described.

図13は、第2実施形態として示す人工データ生成処理S413を説明するフローチャートである。また図14は、人工データ生成処理S413の実行過程で生成されるデータを模式的に示した図である。また図15は、以下の説明で用いる生成元データ111の一例である。以下、これらの図を参照しつつ、第2実施形態の人工データ生成処理S413について詳述する。 FIG. 13 is a flowchart illustrating the artificial data generation process S413 shown as the second embodiment. Further, FIG. 14 is a diagram schematically showing data generated in the execution process of the artificial data generation process S413. Further, FIG. 15 is an example of the generator data 111 used in the following description. Hereinafter, the artificial data generation process S413 of the second embodiment will be described in detail with reference to these figures.

図14(A)に示すように、例示する生成元データ111は、小周期Tp(=1日)と大周期T(=7日)を有する、2019年11月15日0時0分0秒から2019年11月22日23時50分0秒までの10分間隔の8日分のデータ(8回の小周期Tp(大周期7日×1+小周期1日))からなる。尚、以下の説明において、生成元データ111の開始時点をtとする。また以下の説明において、図4のS412で受け付けた要求期間は28週とする。また図4のS412において、生成元データ111の周期数として1周期(大周期1回分)を受け付けているものとする。 As shown in FIG. 14 (A), the illustrated source data 111 has a small cycle Tp (= 1 day) and a large cycle T (= 7 days) on November 15, 2019 at 0:00:00. It consists of data for 8 days at 10-minute intervals from 23:50:00 on November 22, 2019 (8 small cycle Tp (large cycle 7 days x 1 + small cycle 1 day)). In the following description, the start time point of the generating source data 111 is t. Further, in the following description, the request period received in S412 of FIG. 4 is 28 weeks. Further, in S412 of FIG. 4, it is assumed that one cycle (one large cycle) is accepted as the number of cycles of the generating source data 111.

図13に示すように、まず人工データ生成部140は、ユーザインタフェースを解して小周期Tp(1日)と大周期T(7日)の入力を受け付ける(S1301)。 As shown in FIG. 13, first, the artificial data generation unit 140 solves the user interface and accepts the inputs of the small cycle Tp (1 day) and the large cycle T (7 days) (S1301).

続いて、人工データ生成部140は、S412で受け付けた要求期間(28週)以上の期間となる、生成元データ111の1周期の期間の倍数の最小値(最小周期数)を求める(S1302)。 Subsequently, the artificial data generation unit 140 obtains a minimum value (minimum number of cycles) that is a multiple of the period of one cycle of the generation source data 111, which is a period equal to or longer than the request period (28 weeks) received in S412 (S1302). ..

続いて、人工データ生成部140は、S1301で求めた最小周期数から生成元データ111に含まれている周期数を減じた値を求め、求めた値を生成元データ111に含まれている周期数で割った値を小数点以下切り上げ、更に1を加算して得られる値を複製回数とする(S1303)。尚、1を加算するのは、生成元データ111について後述するトレンドを移動平均により求めることに起因して生じる時間差(後述するTp/2)により、生成した人工データ112の期間が要求期間を満たさなくなる可能性があるからである。本例の場合、生成元データ111の周期数が1であり、S412で受け付けた要求期間が28週であるので、複製回数として28が得られる。 Subsequently, the artificial data generation unit 140 obtains a value obtained by subtracting the number of cycles included in the generation source data 111 from the minimum number of cycles obtained in S1301, and the calculated value is included in the generation source data 111. The value divided by the number is rounded up to the nearest whole number, and the value obtained by further adding 1 is taken as the number of duplications (S1303). It should be noted that 1 is added because the period of the generated artificial data 112 satisfies the required period due to the time difference (Tp / 2 described later) caused by obtaining the trend described later by the moving average for the generating source data 111. This is because there is a possibility that it will disappear. In the case of this example, since the number of cycles of the generation source data 111 is 1 and the request period received in S412 is 28 weeks, 28 can be obtained as the number of duplications.

続いて、人工データ生成部140は、小周期Tpを変動周期として、生成元データ111を構成要素(トレンド、周期変動、残差)に分解する(S1304)。ここでトレンド
とは、時系列データにおける長期的な変動を表す要素(Trend component)のことをいう
。また周期変動とは、時系列データにおいて一定期間ごとに周期的に現れる要素(Seasonal component)のことをいう。また残差とは、時系列データにおいて、トレンドと周期変動を除くことにより残る細かな変動要素(Redidual component)のことをいう。本実施形態は、上記分解を非特許文献1に記載されているSTL(Seasonal-Trend Decomposition
Procedure Based on Loess)を用いて行うものとするが、上記分解の方法は必ずしも限
定されない。
Subsequently, the artificial data generation unit 140 decomposes the generation source data 111 into components (trend, periodic fluctuation, residual) with the small cycle Tp as the fluctuation cycle (S1304). Here, the trend means an element (Trend component) representing a long-term fluctuation in time series data. In addition, periodic fluctuation refers to an element (Seasonal component) that appears periodically at regular intervals in time series data. The residual is a fine fluctuation element (Redidual component) that remains by excluding the trend and the periodic fluctuation in the time series data. In this embodiment, the above decomposition is described in Non-Patent Document 1 as STL (Seasonal-Trend Decomposition).
Procedure Based on Loess) shall be used, but the above decomposition method is not necessarily limited.

図14(B)は、図14(A)の生成元データ111を分解することにより得られる構成要素である。同図において、(B−1)はトレンド、(B−2)は周期変動、(B−3)は残差である。 FIG. 14B is a component obtained by decomposing the generating data 111 of FIG. 14A. In the figure, (B-1) is a trend, (B-2) is a periodic fluctuation, and (B-3) is a residual.

図16に、S1304で得られるデータ(以下、「中間データ1600」と称する。)を示す。同図に示すように、中間データ1600は、日時1601、観測値1602、トレンド1603、周期変動1604、及び残差1605の各項目を有する複数のエントリを含む。同図において、「−」は、データが欠落していることを示す。日時1601及び観測値1602は、生成元データ111における日時1201及び観測値1202に対応する。トレンド1603、周期変動1604、及び残差1605には夫々、S1304で得られた、観測値1602の構成要素であるトレンド、周期変動、及び残差を示す値が設定される。尚、トレンド1603と残差1605は、いずれも期間の両端において、STLを実行する際に指定した小周期の半分の期間(=Tp/2)の値が欠落する。本例では、2019年11月15日0時0分0秒から2019年11月15日11時50分0秒までの期間と、2019年11月22日12時0分0秒から、2019年11月22日23時50分0秒までの期間においてトレンド1603と残差1605の値が欠落している。 FIG. 16 shows the data obtained in S1304 (hereinafter, referred to as “intermediate data 1600”). As shown in the figure, the intermediate data 1600 includes a plurality of entries having each item of date and time 1601, observed value 1602, trend 1603, periodic variation 1604, and residual 1605. In the figure, "-" indicates that data is missing. The date and time 1601 and the observed value 1602 correspond to the date and time 1201 and the observed value 1202 in the generating data 111. The trend 1603, the periodic variation 1604, and the residual 1605 are set with values indicating the trend, the periodic variation, and the residual, which are the components of the observed value 1602, obtained in S1304, respectively. In both the trend 1603 and the residual 1605, the values of half the period (= Tp / 2) of the small cycle specified when executing STL are missing at both ends of the period. In this example, the period from 0:00:00 on November 15, 2019 to 11:50:00 on November 15, 2019, and from 12:00:00 on November 22, 2019, 2019 The values of trend 1603 and residual 1605 are missing in the period until 23:50:00 on November 22nd.

図13に戻り、続いて、人工データ生成部140は、中間データ1600のトレンド1603の値が存在する(欠落していない)日時について、同じ日時1601のトレンド1603と周期変動1604の合計値(以下、「複製元観測値」と称する。)を求める(S1305)。S1305の処理は、図14では(B−1)に示すトレンドと(B−2)に示す周期変動とを合成する処理に相当する。当該処理を実行することにより、図14(C)に示すデータ(以下、「複製元データ1700」と称する。)が得られる。 Returning to FIG. 13, the artificial data generation unit 140 subsequently determines the total value of the trend 1603 and the periodic variation 1604 of the same date and time 1601 with respect to the date and time when the value of the trend 1603 of the intermediate data 1600 exists (is not missing). , "Replica source observation value") is obtained (S1305). The process of S1305 corresponds to the process of synthesizing the trend shown in (B-1) and the periodic fluctuation shown in (B-2) in FIG. By executing this process, the data shown in FIG. 14 (C) (hereinafter, referred to as “copy source data 1700”) can be obtained.

図17に複製元データ1700の一例を示す。同図に示すように、複製元データ1700は、日時1701、観測値1702、トレンド1703、周期変動1704、残差1705、及び複製元観測値1706の各項目を有する複数のエントリを含む。上記項目のうち、日時1701には、中間データ1600のエントリのうち、トレンド1703の値を有するエントリの日時1601の値が設定される。観測値1702には、中間データ1600のエントリのうち、日時1701の値に対応する観測値1602の値が設定される。トレンド1703には、中間データ1600のエントリのうち、日時1701の値に対応するトレンド1603の値が設定される。周期変動1704には、中間データ1600のエントリのうち、日時1701の値に対応する周期変動1604の値が設定される。残差1705には、中間データ1600のエントリのうち、日時1701の値に対応する残差1605の値が設定される。複製元観測値1706には、中間データ1600のエントリのうち、日時1701の値に対応するトレンド1603の値と日時1701の値に対応する周期変動1604の値とを合計した値が設定される。 FIG. 17 shows an example of the copy source data 1700. As shown in the figure, the replication source data 1700 includes a plurality of entries having each item of date and time 1701, observation value 1702, trend 1703, periodic variation 1704, residual 1705, and replication source observation value 1706. Among the above items, the date and time 1701 is set to the value of the date and time 1601 of the entry having the value of the trend 1703 among the entries of the intermediate data 1600. The observation value 1702 is set to the value of the observation value 1602 corresponding to the value of the date and time 1701 among the entries of the intermediate data 1600. The value of the trend 1603 corresponding to the value of the date and time 1701 is set in the trend 1703 among the entries of the intermediate data 1600. The value of the periodic variation 1604 corresponding to the value of the date and time 1701 is set in the periodic variation 1704 among the entries of the intermediate data 1600. The residual 1705 is set to the value of the residual 1605 corresponding to the value of the date and time 1701 among the entries of the intermediate data 1600. The duplication source observation value 1706 is set to the sum of the value of the trend 1603 corresponding to the value of the date and time 1701 and the value of the periodic variation 1604 corresponding to the value of the date and time 1701 among the entries of the intermediate data 1600.

図13に戻り、続いて、人工データ生成部140は、S1303で求めた複製回数だけ複製元データ1700を複製する(S1306)。以下、複製された各データのことを「複製データ」と称する。 Returning to FIG. 13, the artificial data generation unit 140 subsequently duplicates the replication source data 1700 as many times as the number of replications determined in S1303 (S1306). Hereinafter, each duplicated data will be referred to as "replicated data".

続いて、人工データ生成部140は、1から始まる自然数を、生成した各複製データに順に割り当て、記憶部110が、各複製データに割り当てられた番号(以下、「複製番号」と称する。)を複製データの夫々に対応づけて記憶する(S1307)。尚、第1実施形態で述べたのと同様に、当該処理において1から始まる自然数とは別に−1から始まる負の整数を複製番号として割り当ることにより生成元データ111よりも未来の期間における人工データ112を生成してもよい。この場合、第1実施形態の場合と同様に、正の複製番号と負の複製番号の絶対値との合計値がS1303で取得した複製回数と一致するようにする。 Subsequently, the artificial data generation unit 140 assigns a natural number starting from 1 to each of the generated duplicated data in order, and the storage unit 110 assigns a number assigned to each duplicated data (hereinafter, referred to as a “duplicate number”). It is stored in association with each of the duplicated data (S1307). As described in the first embodiment, in the process, a negative integer starting from -1 is assigned as the duplication number in addition to the natural number starting from 1, so that the artificial data in the future period from the generating data 111 is artificial. Data 112 may be generated. In this case, as in the case of the first embodiment, the total value of the absolute value of the positive duplication number and the negative duplication number is made to match the number of duplications acquired in S1303.

続いて、人工データ生成部140は、割り当てた複製番号の逆順に、複製データを時系列方向に連結していくことにより一次人工データを生成する(S1308)。 Subsequently, the artificial data generation unit 140 generates primary artificial data by concatenating the duplicated data in the time series direction in the reverse order of the assigned duplicate numbers (S1308).

続いて、人工データ生成部140は、一次人工データのうち、複製番号が1で日時がt+Tからt+T+Tp/2の期間に該当するエントリを削除する(S1309)。 Subsequently, the artificial data generation unit 140 deletes the entry corresponding to the period of the duplicate number 1 and the date and time from t + T to t + T + Tp / 2 among the primary artificial data (S1309).

続いて、人工データ生成部140は、一次人工データの各エントリに対して、生成元データ111の各エントリの日時701の値を複製したデータ(以下、「参照元日時」と称する。)を付与する(S1310)。 Subsequently, the artificial data generation unit 140 assigns data (hereinafter, referred to as “reference source date and time”) that duplicates the value of the date and time 701 of each entry of the generation source data 111 to each entry of the primary artificial data. (S1310).

続いて、人工データ生成部140は、一次人工データの各エントリの参照元日時を、基準とする日時から遡った値に更新することにより各エントリの日時を生成する(S1311)。この処理により、例えば、複製番号2の複製データにおける2019年11月15日12時0分0秒の変更後の日時は、2週分遡った2019年11月1日12時0分0秒となる。 Subsequently, the artificial data generation unit 140 generates the date and time of each entry by updating the reference source date and time of each entry of the primary artificial data to a value retroactive from the reference date and time (S1311). By this processing, for example, the date and time after the change of 12:00:00 on November 15, 2019 in the duplicated data of the duplicate number 2 is set to 12:00:00 on November 1, 2019, which is two weeks back. Become.

続いて、人工データ生成部140は、複製データを連結する際の境界となる時点における、境界の前後の複製データの周期変動の差分dを求める。具体的には、人工データ生成部140は、周期変動について、t+Tp/2の時点のエントリの値と当該時点から一つ前の時点のエントリの値との差分dを求める(S1312)。例えば、図16の中間データ1600の例では、t+Tp/2は2019年11月15日12時0分0秒であるため、同日時の周期変動1604として152が得られる。また同日時の一つ前の時点である2019年11月15日11時50分0秒の周期変動1604として151が得られる。このため、本例では差分dとして1が得られる。 Subsequently, the artificial data generation unit 140 obtains the difference d of the periodic variation of the duplicated data before and after the boundary at the time point when the duplicated data is concatenated. Specifically, the artificial data generation unit 140 obtains the difference d between the value of the entry at the time point of t + Tp / 2 and the value of the entry at the time immediately before the time point with respect to the periodic fluctuation (S1312). For example, in the example of the intermediate data 1600 of FIG. 16, since t + Tp / 2 is 12:00:00 on November 15, 2019, 152 is obtained as the periodic variation 1604 of the same date and time. Further, 151 is obtained as the periodic variation 1604 at 11:50:00 on November 15, 2019, which is one time before the same date and time. Therefore, in this example, 1 is obtained as the difference d.

続いて、人工データ生成部140は、一次人工データの各エントリに対して、差分dと各エントリの複製番号との積として求められる値を、一次人工データの各エントリの観測値に反映(例えば、加算又は減算)する(S1313)。即ち、短期間のデータから取得されるトレンド(差分d)が要求期間において継続していたと仮定した場合における一次人工データを生成する。当該処理の実行後、一次人工データは図14(D)のようになる。 Subsequently, the artificial data generation unit 140 reflects the value obtained as the product of the difference d and the duplication number of each entry for each entry of the primary artificial data in the observed value of each entry of the primary artificial data (for example). , Addition or subtraction) (S1313). That is, the primary artificial data is generated on the assumption that the trend (difference d) acquired from the short-term data continues in the required period. After executing the process, the primary artificial data is as shown in FIG. 14 (D).

続いて、人工データ生成部140は、S1304で得られた残差の分散s^2を求める(S1314)。 Subsequently, the artificial data generation unit 140 obtains the variance s ^ 2 of the residual obtained in S1304 (S1314).

続いて、人工データ生成部140は、上記分散s^2を有する一次人工データの期間に対応する期間について白色雑音を生成する(S1315)。当該処理を実行することにより生成される白色雑音は図14(E)のようになる。 Subsequently, the artificial data generation unit 140 generates white noise for a period corresponding to the period of the primary artificial data having the variance s ^ 2 (S1315). The white noise generated by executing the process is as shown in FIG. 14 (E).

続いて、人工データ生成部140は、一次人工データに対して、各エントリの観測値を複製した値(以下「参照元観測値」と称する。)を生成する(S1316)。 Subsequently, the artificial data generation unit 140 generates a duplicated value of the observed value of each entry (hereinafter referred to as “reference source observed value”) with respect to the primary artificial data (S1316).

続いて、人工データ生成部140は、一次人工データに対して、S1315で生成した白色雑音を変動値として付与する(S1317)。 Subsequently, the artificial data generation unit 140 adds the white noise generated in S1315 as a fluctuation value to the primary artificial data (S1317).

続いて、人工データ生成部140は、人工データ112の各エントリの観測値に、夫々の参照元観測値に夫々の変動値を加算した値を設定して人工データを生成する(S1318)。当該処理を実行することにより生成される人工データ112は、図14(F)のようになる。 Subsequently, the artificial data generation unit 140 generates artificial data by setting a value obtained by adding each fluctuation value to each reference source observation value to the observation value of each entry of the artificial data 112 (S1318). The artificial data 112 generated by executing the process is as shown in FIG. 14 (F).

図18に人工データ112の一例を示す。同図に示すように、人工データ112は、日時1801、観測値1802、参照元観測値1803、変動値1804、参照元日時1805、複製番号1806の各項目を有する複数のエントリを含む。上記項目のうち、日時1801には、S1311において生成された日時が設定される。日時1801の値は、各エントリを一意に識別するための識別子としても機能する。観測値1802には、S1318で求めた観測値が設定される。参照元観測値1803には、S1316で生成された参照元観測値が設定される。変動値1804には、S1317で付与された白色雑音の値が設定される。参照元日時1805には、S1310で付与された日時が設定される。参照元日時1805は、生成元データ111の日時701に対応し、当該エントリが生成元データ111の日時701のエントリに基づくものであることを示す。複製番号1806は、S1307で割り当てられた複製番号が設定される。 FIG. 18 shows an example of artificial data 112. As shown in the figure, the artificial data 112 includes a plurality of entries having each item of date and time 1801, observed value 1802, reference source observed value 1803, variation value 1804, reference source date and time 1805, and replication number 1806. Among the above items, the date and time 1801 is set to the date and time generated in S1311. The value of the date and time 1801 also functions as an identifier for uniquely identifying each entry. The observed value obtained in S1318 is set in the observed value 1802. The reference source observation value generated in S1316 is set in the reference source observation value 1803. The value of the white noise given in S1317 is set in the fluctuation value 1804. The date and time assigned in S1310 is set in the reference source date and time 1805. The reference source date and time 1805 corresponds to the date and time 701 of the generating source data 111, and indicates that the entry is based on the entry of the date and time 701 of the generating source data 111. As the duplication number 1806, the duplication number assigned in S1307 is set.

以上に説明したように、第2実施形態の学習データ生成装置100は、2つの周期を含む時系列データである生成元データ111を、トレンド、周期変動、残差に分解し、トレンドと周期変動とに基づき雑音のない複製元データを生成し、また残差から得た分散s^2に基づき白色雑音を生成し、複製元データと白色雑音から人工データを生成する。このため、現実に起こる変動過程に近い変動過程を再現した学習データを生成することができ、これを用いて機械学習モデル23の学習を行うことで推論装置2の推論精度を向上することができる。 As described above, the learning data generation device 100 of the second embodiment decomposes the generation source data 111, which is time series data including two cycles, into a trend, a periodic fluctuation, and a residual, and the trend and the periodic fluctuation. Based on the above, noise-free replication source data is generated, white noise is generated based on the dispersion s ^ 2 obtained from the residual, and artificial data is generated from the replication source data and the white noise. Therefore, it is possible to generate learning data that reproduces a fluctuation process that is close to the fluctuation process that actually occurs, and by using this to train the machine learning model 23, the inference accuracy of the inference device 2 can be improved. ..

また学習データ生成装置100は、複製データを連結する境界となる時点の前後の複製データの周期変動の差分d(短期間のトレンド)を取得し、上記境界において複製番号と差分dとの積の値だけ観測値を変化させつつ複数の複製データを連結することにより人工データ112を生成する。このため、長期のトレンドを考慮した学習データ114を生成することができ、機械学習モデル23を精度よく学習することができる。 Further, the learning data generation device 100 acquires the difference d (short-term trend) of the periodic fluctuation of the duplicated data before and after the time point at which the duplicated data is connected, and the product of the duplicate number and the difference d at the boundary. Artificial data 112 is generated by concatenating a plurality of duplicated data while changing the observed value by the value. Therefore, the learning data 114 in consideration of the long-term trend can be generated, and the machine learning model 23 can be learned accurately.

以上、本発明の実施形態につき説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications are included. Further, for example, the above-described embodiment describes the configuration in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, a part of the configuration of each embodiment can be added, deleted, or replaced with another configuration.

また上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また実施形態で示した各機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体を情報処理装置(コンピュータ)に提供し、その情報処理装置が備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が以上の実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、
フレキシブルディスク、CD-ROM、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM等が用いられる。
Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. It can also be realized by the program code of the software that realizes each function shown in the embodiment. In this case, a storage medium in which the program code is recorded is provided to the information processing device (computer), and the processor included in the information processing device reads out the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above embodiments, and the program code itself and the storage medium storing the program code itself constitute the present invention. Examples of the storage medium for supplying such a program code include a hard disk, an SSD (Solid State Drive), an optical disk, a magneto-optical disk, and a CD-R.
Flexible disks, CD-ROMs, DVD-ROMs, magnetic tapes, non-volatile memory cards, ROMs and the like are used.

以上の実施形態において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。また以上では各種の情報を表形式で例示したが、これらの情報は表以外の形式で管理してもよい。 In the above embodiments, the control lines and information lines indicate those considered necessary for explanation, and do not necessarily indicate all the control lines and information lines in the product. All configurations may be interconnected. In the above, various types of information are illustrated in a tabular format, but these information may be managed in a format other than the table.

1 機械学習システム、2 推論装置、21 学習処理部、22 推論処理部、23 機械学習モデル、100 学習データ生成装置、110 記憶部、112 人工データ、111 生成元データ、113 観測データ、114 学習データ、120 観測データ取得部、130 生成元データ取得部、140 人工データ生成部、150 学習データ期間設定部、160 学習データ生成部、170 学習データ出力部、S400 学習データ生成処理、S413 人工データ生成処理、S424 学習データ期間設定処理、S431 学習データ生成処理 1 Machine learning system, 2 Inference device, 21 Learning processing unit, 22 Inference processing unit, 23 Machine learning model, 100 Learning data generator, 110 Storage unit, 112 Artificial data, 111 Source data, 113 Observation data, 114 Learning data , 120 Observation data acquisition unit, 130 Generation source data acquisition unit, 140 Artificial data generation unit, 150 Learning data period setting unit, 160 Learning data generation unit, 170 Learning data output unit, S400 Learning data generation processing, S413 Artificial data generation processing , S424 training data period setting processing, S431 training data generation processing

Claims (18)

情報処理装置を用いて構成され、機械学習モデルの学習に用いる学習データを生成する学習データ生成装置であって、
所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成する人工データ生成部と、
前記人工データを用いて学習データを生成する学習データ生成部と、
を備える、学習データ生成装置。
It is a learning data generator that is configured using an information processing device and generates learning data used for learning a machine learning model.
By concatenating a plurality of duplicated data which are duplicated data of the generation source data which is the time-series data for a predetermined cycle and giving noise to each of the duplicated data, the time-series data of the period corresponding to the required period is used. An artificial data generator that generates certain artificial data,
A learning data generation unit that generates learning data using the artificial data,
A learning data generator equipped with.
請求項1に記載の学習データ生成装置であって、
前記要求される期間は、ユーザインタフェースを介してユーザから受け付けた期間である、
学習データ生成装置。
The learning data generator according to claim 1.
The requested period is a period received from the user via the user interface.
Training data generator.
請求項1に記載の学習データ生成装置であって、
前記人工データ生成部は、前記生成元データよりも過去の期間の前記人工データを生成し、
前記学習データ生成部は、前記生成元データに前記人工データを時系列に連結して前記学習データを生成する、
学習データ生成装置。
The learning data generator according to claim 1.
The artificial data generation unit generates the artificial data in a period earlier than the generation source data, and generates the artificial data.
The learning data generation unit generates the learning data by connecting the artificial data to the generation source data in a time series.
Training data generator.
請求項1に記載の学習データ生成装置であって、
前記人工データ生成部は、前記生成元データよりも未来の期間の前記人工データを生成し、
前記学習データ生成部は、前記生成元データに前記人工データを時系列に連結して前記学習データを生成する、
学習データ生成装置。
The learning data generator according to claim 1.
The artificial data generation unit generates the artificial data in a future period from the generation source data, and generates the artificial data.
The learning data generation unit generates the learning data by connecting the artificial data to the generation source data in a time series.
Training data generator.
請求項1又は2に記載の学習データ生成装置であって、
前記学習データ生成部は、前記人工データに、前記機械学習モデルを用いた推論処理を行う機械学習システムの本番運用に際して実際に前記機械学習モデルに入力された時系列データである観測データを連結することにより前記学習データを生成する、
学習データ生成装置。
The learning data generator according to claim 1 or 2.
The learning data generation unit connects the artificial data with observation data which is time-series data actually input to the machine learning model during the actual operation of the machine learning system that performs inference processing using the machine learning model. By generating the training data,
Training data generator.
請求項5に記載の学習データ生成装置であって、
前記学習データ生成部は、前記観測データを前記人工データよりも優先して採用することにより前記学習データを生成する、
学習データ生成装置。
The learning data generator according to claim 5.
The learning data generation unit generates the learning data by adopting the observation data in preference to the artificial data.
Training data generator.
請求項6に記載の学習データ生成装置であって、
前記学習データの開始時点から終了時点までの期間である学習データ期間を設定する学習データ期間設定部を備え、
前記学習データ期間設定部は、前記観測データの最新の時点を学習データ期間の終了時点に設定し、
前記終了時点から前記要求される期間だけ遡った時点を前記開始時点に設定する、
学習データ生成装置。
The learning data generator according to claim 6.
A learning data period setting unit for setting a learning data period, which is a period from the start time to the end time of the learning data, is provided.
The learning data period setting unit sets the latest time point of the observation data as the end time point of the learning data period, and sets it.
A time point that goes back by the required period from the end time point is set as the start time point.
Training data generator.
請求項1に記載の学習データ生成装置であって、
前記人工データ生成部は、前記複製データの夫々に個別に雑音を与える、
学習データ生成装置。
The learning data generator according to claim 1.
The artificial data generation unit individually gives noise to each of the duplicated data.
Training data generator.
請求項1に記載の学習データ生成装置であって、
前記雑音は白色雑音である、
学習データ生成装置。
The learning data generator according to claim 1.
The noise is white noise,
Training data generator.
請求項1に記載の学習データ生成装置であって、
前記人工データ生成部は、前記生成元データを、トレンド、周期変動、及び残差の各構成要素に分解し、前記構成要素のうち、前記トレンドと前記周期変動とに基づき前記人工データを生成する、
学習データ生成装置。
The learning data generator according to claim 1.
The artificial data generation unit decomposes the generation source data into trend, periodic fluctuation, and residual components, and generates the artificial data based on the trend and the periodic fluctuation among the components. ,
Training data generator.
請求項10に記載の学習データ生成装置であって、
前記人工データ生成部は、前記残差の分散に基づき前記雑音を生成し、生成した前記人工データに生成した前記雑音を付与する、
学習データ生成装置。
The learning data generator according to claim 10.
The artificial data generation unit generates the noise based on the dispersion of the residual, and imparts the generated noise to the generated artificial data.
Training data generator.
請求項10に記載の学習データ生成装置であって、
前記人工データ生成部は、前記複製データを連結する際の境界となる時点における、前記境界の前後の前記複製データの前記周期変動の差分を求め、前記差分を反映しつつ複数の前記複製データを連結することにより前記人工データを生成する、
学習データ生成装置。
The learning data generator according to claim 10.
The artificial data generation unit obtains a difference in the periodic variation of the duplicated data before and after the boundary at a time when the duplicated data is connected, and generates a plurality of the duplicated data while reflecting the difference. Generate the artificial data by concatenating,
Training data generator.
情報処理装置が、
所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成するステップと、
前記人工データを用いて機械学習モデルの学習に用いる学習データを生成するステップと、
を実行する、学習データ生成方法。
Information processing device
By concatenating a plurality of duplicated data which are duplicated data of the generation source data which is the time-series data for a predetermined cycle and giving noise to each of the duplicated data, the time-series data of the period corresponding to the required period is used. The steps to generate some artificial data,
A step of generating training data used for learning a machine learning model using the artificial data, and
How to generate training data.
請求項13に記載の学習データ生成方法であって、
前記情報処理装置が、前記人工データに、前記機械学習モデルを用いた推論処理を行う機械学習システムの本番運用に際して実際に前記機械学習モデルに入力された時系列データである観測データを連結することにより前記学習データを生成するステップ、
を更に実行する、学習データ生成方法。
The learning data generation method according to claim 13.
The information processing device connects the artificial data with observation data which is time-series data actually input to the machine learning model during the actual operation of the machine learning system that performs inference processing using the machine learning model. To generate the training data by
A training data generation method that further executes.
請求項14に記載の学習データ生成方法であって、
前記情報処理装置が、前記観測データを前記人工データよりも優先して採用することにより前記学習データを生成するステップ、
を更に実行する、学習データ生成方法。
The learning data generation method according to claim 14.
A step in which the information processing device generates the learning data by adopting the observation data in preference to the artificial data.
A training data generation method that further executes.
請求項13に記載の学習データ生成方法であって、
前記情報処理装置が、前記生成元データを、トレンド、周期変動、及び残差の各構成要素に分解し、前記構成要素のうち、前記トレンドと前記周期変動とに基づき前記人工データを生成するステップ、
を更に実行する、学習データ生成方法。
The learning data generation method according to claim 13.
A step in which the information processing device decomposes the generation source data into trend, periodic fluctuation, and residual components, and generates the artificial data based on the trend and the periodic fluctuation among the components. ,
A training data generation method that further executes.
請求項16に記載の学習データ生成方法であって、
前記情報処理装置が、前記残差の分散に基づき前記雑音を生成し、生成した前記人工デ
ータに生成した前記雑音を付与するステップ、
を更に実行する、学習データ生成方法。
The learning data generation method according to claim 16.
A step in which the information processing device generates the noise based on the dispersion of the residuals and imparts the generated noise to the generated artificial data.
A training data generation method that further executes.
請求項16に記載の学習データ生成方法であって、
前記情報処理装置が、前記複製データを連結する際の境界となる時点における、前記境界の前後の前記複製データの前記周期変動の差分を求め、前記差分を順次加算しつつ前記複製データを連結していくことにより前記人工データを生成するステップ、
を更に実行する、学習データ生成方法。
The learning data generation method according to claim 16.
The information processing device obtains the difference in the periodic variation of the duplicated data before and after the boundary at the time when the duplicated data becomes a boundary when connecting the duplicated data, and concatenates the duplicated data while sequentially adding the differences. Steps to generate the artificial data by going,
A training data generation method that further executes.
JP2020033344A 2020-02-28 2020-02-28 LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD Active JP7252156B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020033344A JP7252156B2 (en) 2020-02-28 2020-02-28 LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020033344A JP7252156B2 (en) 2020-02-28 2020-02-28 LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD

Publications (2)

Publication Number Publication Date
JP2021135896A true JP2021135896A (en) 2021-09-13
JP7252156B2 JP7252156B2 (en) 2023-04-04

Family

ID=77661379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033344A Active JP7252156B2 (en) 2020-02-28 2020-02-28 LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD

Country Status (1)

Country Link
JP (1) JP7252156B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025061506A (en) * 2021-08-23 2025-04-10 富士フイルム株式会社 Radiation detector

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087375A (en) * 2013-09-25 2015-05-07 株式会社ジェイテクト Stress measurement system, stress measurement method and stress measurement processor
WO2018167900A1 (en) * 2017-03-16 2018-09-20 日本電気株式会社 Neural network learning device, method, and program
JP2019087106A (en) * 2017-11-08 2019-06-06 Kddi株式会社 Device for generating learning data, determination device and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087375A (en) * 2013-09-25 2015-05-07 株式会社ジェイテクト Stress measurement system, stress measurement method and stress measurement processor
WO2018167900A1 (en) * 2017-03-16 2018-09-20 日本電気株式会社 Neural network learning device, method, and program
JP2019087106A (en) * 2017-11-08 2019-06-06 Kddi株式会社 Device for generating learning data, determination device and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025061506A (en) * 2021-08-23 2025-04-10 富士フイルム株式会社 Radiation detector

Also Published As

Publication number Publication date
JP7252156B2 (en) 2023-04-04

Similar Documents

Publication Publication Date Title
AU2019339073B2 (en) AI creation verification device
EP4391441A1 (en) Nft issuing system
JP2020119101A (en) Tensor generating program, tensor generation method and tensor generation device
US20210210183A1 (en) Semantic Graph Textual Coding
JP2021135896A (en) Learning data generator and learning data generation method
JP2018147042A (en) Inference result visualization device, inference result visualization method and program
US11880748B2 (en) Information processing apparatus, information processing method, and information processing program
JP2024043428A (en) Similarity determination method, program, and similarity determination system
JP2017059077A (en) Information providing apparatus, information providing method, and information providing program
JP6768750B2 (en) Learning method, error judgment method, learning system, error judgment system, and program
JP7772108B2 (en) Learning model generation method, illustration conversion method, learning model generation device, illustration conversion device, learning model generation program, and illustration conversion program
TWI901806B (en) Menstruation-related information output device, learning device, method for producing learning information, and menstruation-related information output program, learning program
EP4647957A1 (en) Automated generation of content in brand voice through machine learning
US20250328733A1 (en) Information processing apparatus, analysis method, and storage medium
CN109858866A (en) Personnel file file formation method and system
US20250342835A1 (en) Automated extraction of brand voice attributes for generation of content inbrand voice through machine learning
JP5208891B2 (en) Hybrid model simulation apparatus and method
JP4958310B2 (en) Experience information analysis apparatus, experience information analysis method and program
CN116484135A (en) Method, device, equipment and medium for maintaining style sheet
JP2026007619A (en) Abnormal data generation device, abnormal data generation method, and program
JP2024155156A (en) Information processing device, information processing method, and information processing program
WO2025013278A1 (en) Information processing device, assistance method, and assistance program
Maguire et al. Consciousness is data compression
JP6142585B2 (en) Device management system, device management device, device management device control method and program
dos Anjos VIRHUS: Uma Plataforma Computacional para a Simulação de Sinais Fisiológicos de Humanos Virtuais

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230323

R150 Certificate of patent or registration of utility model

Ref document number: 7252156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150