JP7252156B2 - LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD - Google Patents
LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD Download PDFInfo
- Publication number
- JP7252156B2 JP7252156B2 JP2020033344A JP2020033344A JP7252156B2 JP 7252156 B2 JP7252156 B2 JP 7252156B2 JP 2020033344 A JP2020033344 A JP 2020033344A JP 2020033344 A JP2020033344 A JP 2020033344A JP 7252156 B2 JP7252156 B2 JP 7252156B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- learning data
- artificial
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、学習データ生成装置、及び学習データ生成方法に関する。 The present invention relates to a learning data generation device and a learning data generation method.
機械学習システムの実現に際しては、機械学習モデルの精度を確保するため、有効な学習データを準備する必要がある。 When implementing a machine learning system, it is necessary to prepare effective learning data in order to ensure the accuracy of the machine learning model.
学習データを生成する技術として、例えば、特許文献1には、ニューラルネットワークを利用した判定装置を学習するための学習用データの生成装置について記載されている。学習用データの生成装置は、収集した時系列データのデータ値を変更し、時系列データの各データの時間間隔を変更し、時系列データに歪を付加し、時系列データに雑音を付加する。
As a technique for generating learning data, for example,
また特許文献2には、学習データが少数の場合に、学習データを加工することで、学習の改善に寄与するデータを生成する技術に関して記載されている。具体的には、ニューラルネットワーク学習装置が、学習中のニューラルネットワークを用いて学習データから特徴を抽出し、抽出した特徴から学習中のニューラルネットワークを用いて敵対的特徴を生成し、学習データと敵対的特徴とを用いてニューラルネットワークの認識結果を算出し、認識結果が望ましい出力に近づくようにニューラルネットワークを学習する。
Further,
また特許文献3には、監視対象の状態異常を速やかに検知することを目的として構成された異常検知システムに関して記載されている。異常検知システムは、監視対象に対する観測データを収集して時系列観測データとして保存し、観測データを訓練用データおよび検証用データのいずれかに分類し、訓練用データに基づき監視対象の線形状態空間モデルのモデルパラメータを同定し、モデルパラメータと検証用データを入力として監視対象の状態変数の確率分布の推定値を計算し、推定値に基づき監視対象の異常度を計算し、観測データを収集すると新しく収集した観測データを時系列観測データに追加するとともに時系列観測データのデータ数がしきい値よりも大きい場合は最も前に収集した観測データを破棄する。
Further,
時系列データに基づき予兆診断や異常検知等の推論処理を行う機械学習システムの実現に際しては、上記推論処理を行う機械学習モデルの精度を確保する必要があり、そのためには有効な学習データを効率よく準備する必要がある。また機械学習モデルの精度を確保するには、そのために必要とされる期間の時系列データを学習データとして用意する必要
がある。
In order to realize a machine learning system that performs inference processing such as predictive diagnosis and anomaly detection based on time-series data, it is necessary to ensure the accuracy of the machine learning model that performs the above inference processing. You need to prepare well. In addition, in order to ensure the accuracy of the machine learning model, it is necessary to prepare time-series data for the required period as learning data.
しかし特許文献1及び特許文献2は、いずれも必要とされる期間の時系列データを生成する技術については何も開示されていない。また特許文献3に記載の技術では、監視対象に対する観測データを収集する必要があり、例えば、機械学習システムの導入時等のように観測データが得られていない場合には対応することができない。
However, neither
本発明の目的は、必要とされる期間について適切な内容の学習データを効率よく提供することが可能な、学習データ生成装置、及び学習データ生成方法を提供することを目的とする。 An object of the present invention is to provide a learning data generation device and a learning data generation method capable of efficiently providing learning data with appropriate content for a required period.
上記目的を達成するための本発明のうちの一つは、情報処理装置を用いて構成され、機械学習モデルの学習に用いる学習データを生成する学習データ生成装置であって、所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成する人工データ生成部と、前記人工データを用いて学習データを生成する学習データ生成部と、を備える。 One of the present inventions for achieving the above object is a learning data generation device configured using an information processing device for generating learning data used for learning a machine learning model, comprising: Synthetic data, which is time-series data of a period corresponding to a required period, is generated by concatenating a plurality of replicated data, which are data obtained by replicating source data, which is series data, and applying noise to each of the replicated data. and a learning data generating unit that generates learning data using the artificial data.
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。 In addition, the problems disclosed by the present application and their solutions will be clarified by the description of the mode for carrying out the invention and the drawings.
本発明によれば、必要とされる期間について適切な内容の学習データを効率よく提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the learning data of the content suitable about the required period can be efficiently provided.
以下、本発明の一実施形態について図面を参照しつつ説明する。尚、以下の説明において、同一の又は類似する機能を有する構成について同一の符号を付して重複する説明を省略することがある。また以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。また以下の説明において「学習データ」という用語を用いるが、「訓練データ」と同義である。またいわゆる教師あり機械学習に用いる学習データはいわゆるラベルの情報を含むが、説明の簡単のため、本実施形態ではラベルに関する説明や例示を省略する。また以下の説明において、期間は、日時で指定してもよいし、日のみもしくは時間のみで指定してもよい。 An embodiment of the present invention will be described below with reference to the drawings. In the following description, the same reference numerals may be assigned to components having the same or similar functions, and redundant description may be omitted. Also, in the following description, the letter "S" attached before the reference sign means a processing step. Also, although the term "learning data" is used in the following description, it has the same meaning as "training data." Learning data used for so-called supervised machine learning includes so-called label information, but for the sake of simplicity, the present embodiment omits explanation and examples of labels. Also, in the following description, the period may be specified by date and time, or may be specified by only days or only hours.
[第1実施形態]
図1に、第1実施形態として示す学習データ生成装置100が適用される情報処理システム(以下、「機械学習システム1」と称する。)の概略的な構成を示している。同図に示すように、機械学習システム1は、推論装置2と学習データ生成装置100とを含む。
[First embodiment]
FIG. 1 shows a schematic configuration of an information processing system (hereinafter referred to as "
推論装置2は、時系列データである学習データ114を用いて機械学習モデル23の学習を行う学習処理部21、及び機械学習モデル23を用いて推論処理を行う推論処理部22の各機能を有する。推論処理部22は、時系列データである観測データ113を機械学習モデル23に入力することにより推論処理を行い、結果を推論結果7として出力する。機械学習モデル23は、例えば、時系列データに基づき予兆診断や異常検知等のための推論処理を行う。
The
学習データ生成装置100は、時系列データである、生成元データ111や観測データ113に基づき学習データ114を生成する。生成された学習データ114は、通信または記録媒体を介して推論装置2に入力される。
The learning
図2に、推論装置2や学習データ生成装置100の構成に用いる情報処理装置10の一例を示す。同図に示すように、例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。これらはバス等の通信手段を介して通信可能に接続されている。
FIG. 2 shows an example of the
情報処理装置10は、例えば、クラウドシステムにより提供される仮想サーバのように仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また情報処理装置10の機能の全部又は一部を、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供す
るサービスにより実現してもよい。また例えば、通信可能に接続された複数の情報処理装置10を用いて学習データ生成装置100を構成してもよい。情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)等のソフトウェアが導入されていてもよい。
The
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等を用いて構成されている。
The
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
The
Only Memory), RAM (Random Access Memory), nonvolatile memory (NVRAM (Non Volatile RAM)), and the like.
補助記憶装置13は、例えば、SSD(Solid State Drive)、ハードディスクドライ
ブ、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、仮想サーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み出すことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み出される。
The
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。
The
出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、プロジェクタ等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。
The
入力装置14と出力装置15はユーザインタフェースを構成する。尚、例えば、情報処理装置10が通信装置16を介して他の装置(スマートフォン、タブレット、ノートブック型コンピュータ、各種携帯情報端末等)と情報の入出力を行う構成としてもよい。
The
通信装置16は、他の装置との間の通信を実現する。通信装置16は、通信ネットワークを介した他の装置との間の通信を実現する、無線又は有線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Bus)モジュール、シリアル通信モジュール等である。続いて、各装置が備える機能について説明する。
図3に、学習データ生成装置100が備える主な機能を示している。同図に示すように、学習データ生成装置100は、記憶部110、観測データ取得部120、生成元データ取得部130、人工データ生成部140、学習データ期間設定部150、学習データ生成部160、及び学習データ出力部170の各機能を備える。これらの機能は、学習データ生成装置100を構成する情報処理装置10のプロセッサ11が、情報処理装置10の主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、情報処理装置10が備えるハードウェア(FPGA、ASIC、AIチップ等)により実現される。
FIG. 3 shows main functions of the learning
上記機能のうち、記憶部110は、生成元データ111、人工データ112、観測データ113、及び学習データ114を記憶し管理する。記憶部110は、例えば、DBMSが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、各データを記憶し管理する。
Among the functions described above, the
生成元データ111は、人工データ112の生成に用いるデータである。人工データ112は、学習データ114の生成に用いるデータである。観測データ113は、機械学習システム1が、例えば、本番運用を開始した後に機械学習モデル23に入力されたデータである。学習データ114は、人工データ112や観測データ113に基づき生成されるデータであり、機械学習モデル23の学習(訓練)に用いられるデータである。
The
図3に示す機能のうち、観測データ取得部120は、推論装置2から通信や記録媒体を介して観測データ113を取得する。記憶部110は、観測データ取得部120が取得した観測データ113を記憶する。
Among the functions shown in FIG. 3, the observation
生成元データ取得部130は、生成元データ111を取得もしくは生成する。生成元データ取得部130は、例えば、ユーザインタフェースを介してユーザから生成元データ1
11を取得する。生成元データ取得部130は、例えば、観測データ113に基づき生成元データ111を生成する。ユーザがユーザインタフェースを介して観測データ113を編集することにより生成元データ111を生成してもよい。記憶部110は、生成元データ取得部130が取得もしくは生成した生成元データ111を記憶する。
The source
11 is obtained. The origin
人工データ生成部140は、生成元データ111に基づき人工データ112を生成する。記憶部110は、人工データ生成部140が生成した人工データ112を記憶する。
学習データ期間設定部150は、学習データ114の期間(学習データの開始時点から終了時点まで。以下、「学習データ期間」と称する。)の設定に関する処理を行う。学習データ期間設定部150は、例えば、ユーザインタフェースを介してユーザから学習データ期間の設定に関する情報を受け付ける。
The learning data
学習データ生成部160は、人工データ112や観測データ113に基づき学習データ114を生成する。
The learning
学習データ出力部170は、学習データ生成部160が生成した学習データ114を出力する。出力された学習データ114は、通信や記録媒体を介して推論装置2に入力される。
The learning
図4は、学習データ生成装置100が学習データ114の生成に際して行う処理(以下、「学習データ生成処理S400」と称する。)を説明するシーケンス図である。以下、同図とともに学習データ生成処理S400について説明する。尚、同図に示す処理の開始時点において、記憶部110は、観測データ取得部120が取得した観測データ113、及び生成元データ取得部130が取得もしくは生成した生成元データ111を既に記憶しているものとする。
FIG. 4 is a sequence diagram illustrating a process performed by the learning
同図に示すように、まず人工データ生成部140が、記憶部110が記憶している生成元データ111を読み出す(S411)。
As shown in the figure, first, the artificial
続いて、人工データ生成部140は、ユーザインタフェースを介して、ユーザが生成しようとする学習データ114の期間の長さ(以下、「要求期間」と称する。)の指定、生成元データ111に含まれている周期の数(以下、「周期数」と称する。)、及び人工データ112に与える雑音の生成に用いる分散σ^2の入力を受け付ける(S412)。
Subsequently, the artificial
続いて、人工データ生成部140は、読み出した生成元データ111と、受け付けた要求期間、周期数、及び分散σ^2に基づき、人工データ112を生成する処理(以下、「人工データ生成処理S413」と称する。)を行う(S413)。
Subsequently, the artificial
続いて、学習データ期間設定部150が、記憶部110が記憶している観測データを読み出す(S421)。
Subsequently, the learning data
続いて、学習データ期間設定部150は、S412で人工データ生成部140が読み出した生成元データ111の期間、S413で人工データ生成部140が生成した人工データ112の期間、及びS421で読み出した観測データ113の期間を取得する(S422)。
Subsequently, the learning data
続いて、学習データ期間設定部150は、S412で人工データ生成部140が受け付けた要求期間を取得する(S423)。
Subsequently, the learning data
続いて、学習データ期間設定部150は、S422で取得した各期間とS423で取得した要求期間とに基づき、学習データ期間を設定する処理(以下、「学習データ期間設定処理S424」と称する。)を行う(S424)。
Subsequently, the learning data
続いて、学習データ生成部160が、S411で人工データ生成部140が読み出した生成元データ111、S413で人工データ生成部140が生成した人工データ112、及びS421で学習データ期間設定部150が読み出した観測データ113に基づき、学習データ期間設定処理S424により設定された学習データ期間について学習データ114を生成する(S431)。
Subsequently, the learning
その後、学習データ出力部170は、生成された学習データ114を出力する。出力された学習データ114は、通信や記録媒体を介して推論装置2の学習処理部21に送信(提供)される。
After that, the learning
図5は、図4に示した人工データ生成処理S413の詳細を説明するフローチャートである。また図6は、人工データ生成処理S413の実行過程で生成されるデータを模式的に示した図である。人工データ生成部140は、生成元データ111を、S412で受け付けた要求期間に応じた周期数だけ複製し、生成元データ111の日時を適切な日時に置換し、更に観測値に雑音を付与することにより、人工データ112を生成する。以下、図5及び図6を参照しつつ、人工データ生成処理S413について説明する。
FIG. 5 is a flowchart for explaining the details of the artificial data generation processing S413 shown in FIG. FIG. 6 is a diagram schematically showing data generated in the process of executing the artificial data generation process S413. The artificial
図7に生成元データ111の一例を示す。以下では同図に示す生成元データ111を例として人工データ生成処理S413を説明する。同図に示すように、例示する生成元データ111は、日時701及び観測値702の各項目を有する複数のエントリ(レコード)を含む。
FIG. 7 shows an example of the originating
上記項目のうち、日時701には、観測値702の値を取得した日時が設定される。尚、日時701の値は、各エントリを一意に識別するための識別子としても用いられる。観測値702には、観測値が設定される。尚、時系列データにはカテゴリ変数情報が含まれる場合があるが、とくに説明がない限り、観測値は量的変数情報であるものとする。観測値702は、例えば、センサ装置等から取得した値そのもの(生データ)や、複数の観測対象から得られた値を処理(加減乗除、集計処理、統計処理等)することにより得られる値である。上記値は、例えば、観測対象が情報通信システムである場合における通信量や稼働率である。また上記値は、例えば、「上り通信量」と「下り通信量」という2つの観測対象の値を合計した値「合計通信量」である。また例えば、上記値は、ある時点における観測値と別の時点の観測値に基づき計算により求められる。また例えば、上記値は、前回の通信量と今回の通信量との差分(通信量の時間変化量)である。
Among the above items, in the date and
例示する生成元データ111は、2019年11月15日0時0分0秒から2019年11月22日0時0分0秒までの情報を10分間隔で記録した内容からなり、図6(A)に示す1周期分のデータである。尚、以下の説明において、S412で受け付けた生成元データ111の周期は1週間であり、1周期あたり1008個のエントリが含まれるものとする。またS412で要求期間として28週を受け付けているものとする。
The exemplified
図5に示すように、まず人工データ生成部140は、S412で受け付けた要求期間以上の期間となる、生成元データ111の1周期の期間の倍数の最小値(以下、「最小周期数」と称する。)を求める(S501)。
As shown in FIG. 5, the artificial
続いて、人工データ生成部140は、求めた最小周期数から生成元データ111に含まれている周期数を減じた値を求め、求めた値を生成元データ111に含まれる周期数で割
った値を小数点以下切り上げることにより得られる値を複製回数とする(S502)。尚、S501で求めた最小周期数から生成元データ111に含まれている周期数を減じているのは、複製元の生成元データ111の分を複製数から除くためである。例示する生成元データ111の周期数は1であり、要求期間は28週であるため、本例では複製回数として27が得られる。尚、複製回数は以上の方法以外の方法で取得してもよい。例えば、ユーザインタフェースを介してユーザから複製回数の指定を受け付けるようにしてもよい。
Subsequently, the artificial
続いて、人工データ生成部140は、S502で取得した複製回数だけ生成元データ111を複製したデータ(以下、「複製データ」と称する。)を生成する(S503)。
Subsequently, the artificial
続いて、人工データ生成部140は、1から始まる自然数を各複製データに順に割り当てる。記憶部110は、各複製データに割り当てられた番号(以下、「複製番号」と称する。)を複製データの夫々に対応づけて記憶する(S504)。
Subsequently, the artificial
続いて、人工データ生成部140は、割り当てた複製番号の逆順に複製データを時系列に連結したデータ(以下、「一次人工データ」と称する。)を生成する(S505)。
Subsequently, the artificial
続いて、人工データ生成部140は、S507で生成した一次人工データの各エントリに、生成元データ111の各エントリの日時701の値を複製したデータ(以下、「参照元日時」と称する。)を付与する(S506)。
Subsequently, the artificial
続いて、人工データ生成部140は、付与した一次人工データの各エントリの参照元日時を、基準とする日時(同図では例えば日時t)から遡った値に更新する(日時tから生成元データ111の周期と各エントリの複製番号とを乗算することにより得られる日時分遡る)ことにより、各エントリの日時を生成する(S507)。例えば、複製番号27の複製データにおける2019年11月15日0時0分0秒の変更後の日時は、27週分遡った2019年5月10日0時0分0秒になる。S507を実行することにより生成される一次人工データは、図6(B)のようになる。
Subsequently, the artificial
続いて、人工データ生成部140は、図4のS412で受け付けた分散σ^2を用いて人工データの期間の白色雑音を生成する(S508)。S508を実行することにより生成される白色雑音は図6(C)のようになる。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データに対して、S508で生成した白色雑音を変動値として付与することにより、人工データ112を生成する(S509)。S509を実行することにより生成される人工データ112は、図6(D)のようになる。
Subsequently, the artificial
図8に、人工データ生成処理S413により生成される人工データ112の一例を示す。同図に示すように、例示する人工データ112は、日時811、観測値812、参照元観測値813、変動値814、参照元日時815、及び複製番号816の各項目を有する複数のエントリを含む。
FIG. 8 shows an example of the
上記項目のうち、日時811には、S507で生成された日時が設定される。尚、日時811の値は、各エントリを一意に識別する識別子としても用いられる。観測値812には、S509で生成された人工データ112の当該日時における観測値が設定される。参照元観測値813には、当該日時に対応する、生成元データ111の観測値702が設定される。変動値814には、S508で生成された、当該日時に対応する白色雑音の値が設定される。参照元日時815には、当該日時に対応する、生成元データ111の日時701が設定される。参照元日時815の値は、当該エントリが、当該参照元日時815の
値の日時の生成元データ111のエントリに基づくものであることを示す。複製番号816には、S504で割り当てられた複製番号が設定される。
Among the above items, the date and time generated in S507 is set in the date and
図9は、図4に示した学習データ期間設定処理S424を説明するフローチャートである。以下、同図とともに学習データ期間設定処理S424について説明する。尚、S423で取得した要求期間に重なる期間の観測データ113が既に取得されている場合、人工データ生成部140は、観測データ113を優先して学習データ114として採用されるように学習データ期間を設定する。
FIG. 9 is a flowchart for explaining the learning data period setting process S424 shown in FIG. The learning data period setting process S424 will be described below with reference to FIG. Note that if the
図10は、以下の説明で用いる観測データ113の一例である。同図に示すように、例示する観測データ113は、日時1011と観測値1012の各項目を有する複数のエントリを含む。上記項目のうち日時1011には、当該エントリの観測値が取得された日時が設定される。観測値1012には、観測対象から実際に取得した観測値が設定される。
FIG. 10 is an example of
図9に示すように、まず学習データ期間設定部150は、記憶部110が観測データ113を記憶しているか否か(学習データ生成装置100が観測データ113を取得しているか否か)を確認する(S901)。記憶部110が観測データ113を記憶している場合(S901:YES)、学習データ期間設定部150は、観測データ113の期間の終了時点を、学習データ期間の終了時点t_endとして設定する(S902)。その後、処理
はS904に進む。一方、記憶部110が観測データ113を記憶していない場合(S901:NO)、学習データ期間設定部150は、生成元データ111の期間の終了時点を、学習データ期間の終了時点t_endとして設定する(S903)。その後、処理はS90
4に進む。
As shown in FIG. 9, the learning data
Proceed to 4.
S904では、学習データ期間設定部150は、S902又はS903で設定した学習データ期間の終了時点t_endから、要求期間(人工データ生成部140がS412で取得
した要求期間)だけ過去に遡った日時(以下、「仮開始時点tmp_Tstart」と称する。)を取得する。
In S904, the learning data
続いて、学習データ期間設定部150は、人工データ112の期間、生成元データ111の期間、及び観測データ113の期間と、仮開始時点tmp_Tstartとを比較する(S905)。仮開始時点tmp_Tstartが人工データ112の期間中である場合(S905:人工データの期間中)、学習データ期間の開始時点t_startに仮開始時点tmp_Tstartを設定する
(S906)。一方、仮開始時点tmp_Tstartが、生成元データ111の期間中か観測データ113の期間中である場合(S905:生成元データor観測データの期間中)、学習データ期間の開始時点t_startに生成元データ111の開始時点を設定する(S907)
。
Subsequently, the learning data
.
以上の処理により、学習データ期間の開始時点t_startと終了時点t_endが設定され、学習データ期間の設定が完了する。尚、S902、S903、及びS907の処理により、学習データ生成処理S431において、観測データ113又は生成元データ111が人工データ112よりも優先して学習データ114として採用されるようになる。
By the above processing, the start time t_start and the end time t_end of the learning data period are set, and the setting of the learning data period is completed. By the processing of S902, S903, and S907, in the learning data generation processing S431, the
図11は、図4に示した学習データ生成処理S431を説明するフローチャートである。以下、同図とともに学習データ生成処理S431について説明する。 FIG. 11 is a flowchart for explaining the learning data generation processing S431 shown in FIG. The learning data generation processing S431 will be described below with reference to FIG.
まず学習データ生成部160は、記憶部110から、学習データ期間設定処理S424により設定された学習データ期間に重なる期間の、観測データ113、生成元データ111、及び人工データ112を取得する(S1101~S1103)。
First, the learning
続いて、学習データ生成部160は、取得した生成元データ111と取得した人工データ112を時系列方向に連結(人工データ112、生成元データ111の時系列順に連結)した中間連結データを生成する(S1104)。
Subsequently, the learning
続いて、学習データ生成部160は、中間連結データと、取得した観測データ113を時系列方向に連結して学習データ114を生成する(S1105)。尚、学習データ期間の全期間に対応する観測データ113が存在する場合、学習データ114は全て観測データ113によるものとなる。また学習データ期間の一部の期間に観測データ113が重なる場合、学習データ114の全期間のうち、学習データ期間の開始時点から観測データ113の開始時点までは中間連結データによるものとなり、観測データ113の開始時点から学習データ期間の終了時点までは観測データ113によるものとなる。このように観測データ113が存在する場合は観測データ113が学習データ114として優先的に採用されるので、機械学習システム1の本番運用が開始された後、実際に取得されたデータである観測データ113のみを学習データ114として用いて学習する運用状態に早期に移行することができる。
Subsequently, the learning
図12に学習データ生成処理S431により生成される学習データ114の一例を示す。例示する学習データ114は、日時1201及び観測値1202の各項目を有する複数のエントリを含む。上記項目のうち、日時1201には、人工データ112の日時811、生成元データ111の日時701、及び観測データ113の日時1011のいずれかの値に基づく日時が設定される。観測値1202には、人工データ112の観測値812、生成元データ111の観測値702、及び観測データ113の観測値1012のいずれかに基づく観測値が設定される。
FIG. 12 shows an example of the learning
以上に説明したように、第1実施形態の学習データ生成装置100によれば、機械学習モデル23の精度を確保するために必要な期間の学習データを用意することが難しい場合でも、上記期間について有効な学習データをユーザの手を煩わせることなく効率よく生成して提供することができる。
As described above, according to the learning
また学習データ生成装置100は、各複製データに個別に雑音を付加した人工データ112を用いて学習データ114を生成するので、機械学習モデル23の過学習の抑制効果が期待される多様性を有する学習データ114を生成することができ、機械学習モデル23の推論精度を向上することができる。また人工データ112に白色雑音を付加することで、実際の変動に近い変動を再現することができ、例えば、観測データが正規分布に従うことを前提として機能する機械学習モデル23の推論精度を高めることができる。
In addition, since the learning
また図9に示したように、学習データ期間設定処理S424において、観測データ113が学習データ114に優先して採用されるように学習データ期間が設定されるので、機械学習システム1の本番運用が開始された後は、実際に取得されたデータである観測データ113のみを学習データ114として用いて学習する運用状態に早期に移行することができる。このため、本番運用の開始後、推論装置2の推論精度を早期に向上することができる。
Further, as shown in FIG. 9, in the learning data period setting process S424, the learning data period is set so that the
また学習データ生成装置100は、生成元データ111よりも過去の期間の人工データ112を生成することが可能であり、新たに取得される観測データ113の期間と重ならないように人工データ112を生成することができ、例えば、人工データ112を観測データ113で置換するといった煩雑な処理を発生させないようにすることができる。
In addition, the learning
尚、以上では、生成元データ111よりも過去の期間の人工データ112を生成する場合を例示したが、生成元データ111よりも未来の期間の人工データ112を生成しても
よい。これにより、例えば、現実の振る舞いを最もよく反映していると考えられる時期における過去の時系列データを生成元データ111として用いて所望の未来の時期の学習データ114を生成することができる。尚、この場合、例えば、図5のS504において未来の期間の人工データ112とする各複製データに-1から始まる負の整数を複製番号を割り当て、過去の期間の各複製データに割り当てた正の複製番号と負の複製番号の絶対値との合計が図5のS502で取得した複製回数と一致するようにする。そのようにすることで、S507で複製データの期間に複製番号を乗算した値を基準とする日時に加算するだけで、日時(期間)情報を容易に算出することができる。
In the above description, the case of generating the
[第2実施形態]
続いて、第2実施形態について説明する。第2実施形態の学習データ生成装置100は、生成元データ111を分解することにより得られる構成要素(後述するトレンド、周期変動、及び残差)に基づき人工データ112を生成する。尚、第2実施形態の機械学習システム1の基本的な構成並びに機械学習システム1において実行される処理の流れは、図1乃至図4とともに説明した第1実施形態の機械学習システム1と基本的に共通するが、人工データ生成部140の機能の一部が異なる。以下では、第1実施形態と異なる部分を中心として説明する。
[Second embodiment]
Next, a second embodiment will be described. The learning
図13は、第2実施形態として示す人工データ生成処理S413を説明するフローチャートである。また図14は、人工データ生成処理S413の実行過程で生成されるデータを模式的に示した図である。また図15は、以下の説明で用いる生成元データ111の一例である。以下、これらの図を参照しつつ、第2実施形態の人工データ生成処理S413について詳述する。
FIG. 13 is a flowchart for explaining artificial data generation processing S413 shown as the second embodiment. FIG. 14 is a diagram schematically showing data generated in the process of executing the artificial data generation process S413. FIG. 15 is an example of
図14(A)に示すように、例示する生成元データ111は、小周期Tp(=1日)と大周期T(=7日)を有する、2019年11月15日0時0分0秒から2019年11月22日23時50分0秒までの10分間隔の8日分のデータ(8回の小周期Tp(大周期7日×1+小周期1日))からなる。尚、以下の説明において、生成元データ111の開始時点をtとする。また以下の説明において、図4のS412で受け付けた要求期間は28週とする。また図4のS412において、生成元データ111の周期数として1周期(大周期1回分)を受け付けているものとする。
As shown in FIG. 14A, the example
図13に示すように、まず人工データ生成部140は、ユーザインタフェースを解して小周期Tp(1日)と大周期T(7日)の入力を受け付ける(S1301)。
As shown in FIG. 13, the
続いて、人工データ生成部140は、S412で受け付けた要求期間(28週)以上の期間となる、生成元データ111の1周期の期間の倍数の最小値(最小周期数)を求める(S1302)。
Subsequently, the artificial
続いて、人工データ生成部140は、S1301で求めた最小周期数から生成元データ111に含まれている周期数を減じた値を求め、求めた値を生成元データ111に含まれている周期数で割った値を小数点以下切り上げ、更に1を加算して得られる値を複製回数とする(S1303)。尚、1を加算するのは、生成元データ111について後述するトレンドを移動平均により求めることに起因して生じる時間差(後述するTp/2)により、生成した人工データ112の期間が要求期間を満たさなくなる可能性があるからである。本例の場合、生成元データ111の周期数が1であり、S412で受け付けた要求期間が28週であるので、複製回数として28が得られる。
Subsequently, the artificial
続いて、人工データ生成部140は、小周期Tpを変動周期として、生成元データ111を構成要素(トレンド、周期変動、残差)に分解する(S1304)。ここでトレンド
とは、時系列データにおける長期的な変動を表す要素(Trend component)のことをいう
。また周期変動とは、時系列データにおいて一定期間ごとに周期的に現れる要素(Seasonal component)のことをいう。また残差とは、時系列データにおいて、トレンドと周期変動を除くことにより残る細かな変動要素(Redidual component)のことをいう。本実施形態は、上記分解を非特許文献1に記載されているSTL(Seasonal-Trend Decomposition
Procedure Based on Loess)を用いて行うものとするが、上記分解の方法は必ずしも限
定されない。
Subsequently, the artificial
Procedure Based on Loess), but the decomposition method is not necessarily limited.
図14(B)は、図14(A)の生成元データ111を分解することにより得られる構成要素である。同図において、(B-1)はトレンド、(B-2)は周期変動、(B-3)は残差である。
FIG. 14(B) shows components obtained by decomposing the
図16に、S1304で得られるデータ(以下、「中間データ1600」と称する。)を示す。同図に示すように、中間データ1600は、日時1601、観測値1602、トレンド1603、周期変動1604、及び残差1605の各項目を有する複数のエントリを含む。同図において、「-」は、データが欠落していることを示す。日時1601及び観測値1602は、生成元データ111における日時1201及び観測値1202に対応する。トレンド1603、周期変動1604、及び残差1605には夫々、S1304で得られた、観測値1602の構成要素であるトレンド、周期変動、及び残差を示す値が設定される。尚、トレンド1603と残差1605は、いずれも期間の両端において、STLを実行する際に指定した小周期の半分の期間(=Tp/2)の値が欠落する。本例では、2019年11月15日0時0分0秒から2019年11月15日11時50分0秒までの期間と、2019年11月22日12時0分0秒から、2019年11月22日23時50分0秒までの期間においてトレンド1603と残差1605の値が欠落している。
FIG. 16 shows the data obtained in S1304 (hereinafter referred to as "intermediate data 1600"). As shown in the figure, the intermediate data 1600 includes a plurality of entries having date/
図13に戻り、続いて、人工データ生成部140は、中間データ1600のトレンド1603の値が存在する(欠落していない)日時について、同じ日時1601のトレンド1603と周期変動1604の合計値(以下、「複製元観測値」と称する。)を求める(S1305)。S1305の処理は、図14では(B-1)に示すトレンドと(B-2)に示す周期変動とを合成する処理に相当する。当該処理を実行することにより、図14(C)に示すデータ(以下、「複製元データ1700」と称する。)が得られる。
Returning to FIG. 13, subsequently, the artificial
図17に複製元データ1700の一例を示す。同図に示すように、複製元データ1700は、日時1701、観測値1702、トレンド1703、周期変動1704、残差1705、及び複製元観測値1706の各項目を有する複数のエントリを含む。上記項目のうち、日時1701には、中間データ1600のエントリのうち、トレンド1703の値を有するエントリの日時1601の値が設定される。観測値1702には、中間データ1600のエントリのうち、日時1701の値に対応する観測値1602の値が設定される。トレンド1703には、中間データ1600のエントリのうち、日時1701の値に対応するトレンド1603の値が設定される。周期変動1704には、中間データ1600のエントリのうち、日時1701の値に対応する周期変動1604の値が設定される。残差1705には、中間データ1600のエントリのうち、日時1701の値に対応する残差1605の値が設定される。複製元観測値1706には、中間データ1600のエントリのうち、日時1701の値に対応するトレンド1603の値と日時1701の値に対応する周期変動1604の値とを合計した値が設定される。
FIG. 17 shows an example of duplication source data 1700 . As shown in the figure, source data 1700 includes multiple entries having items of date and
図13に戻り、続いて、人工データ生成部140は、S1303で求めた複製回数だけ複製元データ1700を複製する(S1306)。以下、複製された各データのことを「複製データ」と称する。
Returning to FIG. 13, the artificial
続いて、人工データ生成部140は、1から始まる自然数を、生成した各複製データに順に割り当て、記憶部110が、各複製データに割り当てられた番号(以下、「複製番号」と称する。)を複製データの夫々に対応づけて記憶する(S1307)。尚、第1実施形態で述べたのと同様に、当該処理において1から始まる自然数とは別に-1から始まる負の整数を複製番号として割り当ることにより生成元データ111よりも未来の期間における人工データ112を生成してもよい。この場合、第1実施形態の場合と同様に、正の複製番号と負の複製番号の絶対値との合計値がS1303で取得した複製回数と一致するようにする。
Subsequently, the artificial
続いて、人工データ生成部140は、割り当てた複製番号の逆順に、複製データを時系列方向に連結していくことにより一次人工データを生成する(S1308)。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データのうち、複製番号が1で日時がt+Tからt+T+Tp/2の期間に該当するエントリを削除する(S1309)。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データの各エントリに対して、生成元データ111の各エントリの日時701の値を複製したデータ(以下、「参照元日時」と称する。)を付与する(S1310)。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データの各エントリの参照元日時を、基準とする日時から遡った値に更新することにより各エントリの日時を生成する(S1311)。この処理により、例えば、複製番号2の複製データにおける2019年11月15日12時0分0秒の変更後の日時は、2週分遡った2019年11月1日12時0分0秒となる。
Subsequently, the artificial
続いて、人工データ生成部140は、複製データを連結する際の境界となる時点における、境界の前後の複製データの周期変動の差分dを求める。具体的には、人工データ生成部140は、周期変動について、t+Tp/2の時点のエントリの値と当該時点から一つ前の時点のエントリの値との差分dを求める(S1312)。例えば、図16の中間データ1600の例では、t+Tp/2は2019年11月15日12時0分0秒であるため、同日時の周期変動1604として152が得られる。また同日時の一つ前の時点である2019年11月15日11時50分0秒の周期変動1604として151が得られる。このため、本例では差分dとして1が得られる。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データの各エントリに対して、差分dと各エントリの複製番号との積として求められる値を、一次人工データの各エントリの観測値に反映(例えば、加算又は減算)する(S1313)。即ち、短期間のデータから取得されるトレンド(差分d)が要求期間において継続していたと仮定した場合における一次人工データを生成する。当該処理の実行後、一次人工データは図14(D)のようになる。
Subsequently, the artificial
続いて、人工データ生成部140は、S1304で得られた残差の分散s^2を求める(S1314)。
Subsequently, the artificial
続いて、人工データ生成部140は、上記分散s^2を有する一次人工データの期間に対応する期間について白色雑音を生成する(S1315)。当該処理を実行することにより生成される白色雑音は図14(E)のようになる。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データに対して、各エントリの観測値を複製した値(以下「参照元観測値」と称する。)を生成する(S1316)。
Subsequently, the artificial
続いて、人工データ生成部140は、一次人工データに対して、S1315で生成した白色雑音を変動値として付与する(S1317)。
Subsequently, the
続いて、人工データ生成部140は、人工データ112の各エントリの観測値に、夫々の参照元観測値に夫々の変動値を加算した値を設定して人工データを生成する(S1318)。当該処理を実行することにより生成される人工データ112は、図14(F)のようになる。
Subsequently, the artificial
図18に人工データ112の一例を示す。同図に示すように、人工データ112は、日時1801、観測値1802、参照元観測値1803、変動値1804、参照元日時1805、複製番号1806の各項目を有する複数のエントリを含む。上記項目のうち、日時1801には、S1311において生成された日時が設定される。日時1801の値は、各エントリを一意に識別するための識別子としても機能する。観測値1802には、S1318で求めた観測値が設定される。参照元観測値1803には、S1316で生成された参照元観測値が設定される。変動値1804には、S1317で付与された白色雑音の値が設定される。参照元日時1805には、S1310で付与された日時が設定される。参照元日時1805は、生成元データ111の日時701に対応し、当該エントリが生成元データ111の日時701のエントリに基づくものであることを示す。複製番号1806は、S1307で割り当てられた複製番号が設定される。
An example of
以上に説明したように、第2実施形態の学習データ生成装置100は、2つの周期を含む時系列データである生成元データ111を、トレンド、周期変動、残差に分解し、トレンドと周期変動とに基づき雑音のない複製元データを生成し、また残差から得た分散s^2に基づき白色雑音を生成し、複製元データと白色雑音から人工データを生成する。このため、現実に起こる変動過程に近い変動過程を再現した学習データを生成することができ、これを用いて機械学習モデル23の学習を行うことで推論装置2の推論精度を向上することができる。
As described above, the learning
また学習データ生成装置100は、複製データを連結する境界となる時点の前後の複製データの周期変動の差分d(短期間のトレンド)を取得し、上記境界において複製番号と差分dとの積の値だけ観測値を変化させつつ複数の複製データを連結することにより人工データ112を生成する。このため、長期のトレンドを考慮した学習データ114を生成することができ、機械学習モデル23を精度よく学習することができる。
In addition, the learning
以上、本発明の実施形態につき説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and includes various modifications. Further, for example, the above-described embodiments are detailed descriptions of the configurations for easy understanding of the present invention, and are not necessarily limited to those having all the described configurations. Also, part of the configuration of each embodiment can be added, deleted, or replaced with another configuration.
また上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また実施形態で示した各機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体を情報処理装置(コンピュータ)に提供し、その情報処理装置が備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が以上の実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、
フレキシブルディスク、CD-ROM、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM等が用いられる。
Further, each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing them in an integrated circuit. It can also be implemented by a software program code that implements each function shown in the embodiment. In this case, an information processing apparatus (computer) is provided with a storage medium storing the program code, and a processor included in the information processing apparatus reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium implements the functions of the above embodiments, and the program code itself and the storage medium storing it constitute the present invention. Examples of storage media for supplying such program codes include hard disks, SSDs (Solid State Drives), optical disks, magneto-optical disks, CD-Rs,
Flexible disks, CD-ROMs, DVD-ROMs, magnetic tapes, non-volatile memory cards, ROMs, etc. are used.
以上の実施形態において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。また以上では各種の情報を表形式で例示したが、これらの情報は表以外の形式で管理してもよい。 In the above embodiments, the control lines and information lines are those considered necessary for explanation, and not all control lines and information lines are necessarily shown on the product. All configurations may be interconnected. In the above description, various types of information are illustrated in tabular form, but these information may be managed in forms other than the tabular form.
1 機械学習システム、2 推論装置、21 学習処理部、22 推論処理部、23 機械学習モデル、100 学習データ生成装置、110 記憶部、112 人工データ、111 生成元データ、113 観測データ、114 学習データ、120 観測データ取得部、130 生成元データ取得部、140 人工データ生成部、150 学習データ期間設定部、160 学習データ生成部、170 学習データ出力部、S400 学習データ生成処理、S413 人工データ生成処理、S424 学習データ期間設定処理、S431 学習データ生成処理 1 machine learning system, 2 inference device, 21 learning processing unit, 22 inference processing unit, 23 machine learning model, 100 learning data generation device, 110 storage unit, 112 artificial data, 111 generation source data, 113 observation data, 114 learning data , 120 observation data acquisition unit, 130 generation source data acquisition unit, 140 artificial data generation unit, 150 learning data period setting unit, 160 learning data generation unit, 170 learning data output unit, S400 learning data generation processing, S413 artificial data generation processing , S424 learning data period setting process, S431 learning data generation process
Claims (18)
所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成する人工データ生成部と、
前記人工データを用いて学習データを生成する学習データ生成部と、
を備える、学習データ生成装置。 A learning data generation device configured using an information processing device and generating learning data used for learning a machine learning model,
By connecting a plurality of replicated data, which are data obtained by replicating the source data, which is time-series data for a predetermined period, and adding noise to each of the replicated data, time-series data of a period corresponding to the required period is obtained. an artificial data generation unit that generates certain artificial data;
a learning data generation unit that generates learning data using the artificial data;
A learning data generation device comprising:
前記要求される期間は、ユーザインタフェースを介してユーザから受け付けた期間である、
学習データ生成装置。 The learning data generation device according to claim 1,
The requested period is the period received from the user via the user interface,
Learning data generator.
前記人工データ生成部は、前記生成元データよりも過去の期間の前記人工データを生成し、
前記学習データ生成部は、前記生成元データに前記人工データを時系列に連結して前記学習データを生成する、
学習データ生成装置。 The learning data generation device according to claim 1,
The artificial data generation unit generates the artificial data for a period earlier than the generation source data,
The learning data generation unit generates the learning data by linking the artificial data to the generation source data in time series.
Learning data generator.
前記人工データ生成部は、前記生成元データよりも未来の期間の前記人工データを生成し、
前記学習データ生成部は、前記生成元データに前記人工データを時系列に連結して前記学習データを生成する、
学習データ生成装置。 The learning data generation device according to claim 1,
The artificial data generation unit generates the artificial data for a future period from the generation source data,
The learning data generation unit generates the learning data by linking the artificial data to the generation source data in time series.
Learning data generator.
前記学習データ生成部は、前記人工データに、前記機械学習モデルを用いた推論処理を行う機械学習システムの本番運用に際して実際に前記機械学習モデルに入力された時系列データである観測データを連結することにより前記学習データを生成する、
学習データ生成装置。 The learning data generation device according to claim 1 or 2,
The learning data generation unit links observed data, which is time-series data actually input to the machine learning model during actual operation of a machine learning system that performs inference processing using the machine learning model, to the artificial data. generating the learning data by
Learning data generator.
前記学習データ生成部は、前記観測データを前記人工データよりも優先して採用することにより前記学習データを生成する、
学習データ生成装置。 The learning data generation device according to claim 5,
The learning data generation unit generates the learning data by adopting the observation data with priority over the artificial data.
Learning data generator.
前記学習データの開始時点から終了時点までの期間である学習データ期間を設定する学習データ期間設定部を備え、
前記学習データ期間設定部は、前記観測データの最新の時点を学習データ期間の終了時点に設定し、
前記終了時点から前記要求される期間だけ遡った時点を前記開始時点に設定する、
学習データ生成装置。 The learning data generation device according to claim 6,
A learning data period setting unit that sets a learning data period that is a period from the start time to the end time of the learning data,
The learning data period setting unit sets the latest point in time of the observation data to the end point of the learning data period,
setting the start time to a time that is the required period of time before the end time;
Learning data generator.
前記人工データ生成部は、前記複製データの夫々に個別に雑音を与える、
学習データ生成装置。 The learning data generation device according to claim 1,
The artificial data generation unit gives noise to each of the replicated data individually.
Learning data generator.
前記雑音は白色雑音である、
学習データ生成装置。 The learning data generation device according to claim 1,
wherein the noise is white noise;
Learning data generator.
前記人工データ生成部は、前記生成元データを、トレンド、周期変動、及び残差の各構成要素に分解し、前記構成要素のうち、前記トレンドと前記周期変動とに基づき前記人工データを生成する、
学習データ生成装置。 The learning data generation device according to claim 1,
The artificial data generation unit decomposes the source data into component elements of a trend, a periodic variation, and a residual, and generates the artificial data based on the trend and the periodic variation among the components. ,
Learning data generator.
前記人工データ生成部は、前記残差の分散に基づき前記雑音を生成し、生成した前記人工データに生成した前記雑音を付与する、
学習データ生成装置。 The learning data generation device according to claim 10,
The artificial data generation unit generates the noise based on the variance of the residual, and adds the generated noise to the generated artificial data.
Learning data generator.
前記人工データ生成部は、前記複製データを連結する際の境界となる時点における、前記境界の前後の前記複製データの前記周期変動の差分を求め、前記差分を反映しつつ複数の前記複製データを連結することにより前記人工データを生成する、
学習データ生成装置。 The learning data generation device according to claim 10,
The artificial data generation unit obtains a difference in the periodic variation of the duplicated data before and after the boundary at a point of time that becomes a boundary when connecting the duplicated data, and generates a plurality of the duplicated data while reflecting the difference. generating said artificial data by concatenating;
Learning data generator.
所定周期分の時系列データである生成元データを複製したデータである複製データを複数連結するとともに前記複製データの夫々に雑音を与えることにより、要求される期間に応じた期間の時系列データである人工データを生成するステップと、
前記人工データを用いて機械学習モデルの学習に用いる学習データを生成するステップと、
を実行する、学習データ生成方法。 The information processing device
By connecting a plurality of replicated data, which are data obtained by replicating the source data, which is time-series data for a predetermined period, and adding noise to each of the replicated data, time-series data of a period corresponding to the required period is obtained. generating some artificial data;
generating learning data for use in learning a machine learning model using the artificial data;
A training data generation method that executes
前記情報処理装置が、前記人工データに、前記機械学習モデルを用いた推論処理を行う機械学習システムの本番運用に際して実際に前記機械学習モデルに入力された時系列データである観測データを連結することにより前記学習データを生成するステップ、
を更に実行する、学習データ生成方法。 The learning data generation method according to claim 13,
The information processing device concatenates, to the artificial data, observed data, which is time-series data actually input to the machine learning model during actual operation of a machine learning system that performs inference processing using the machine learning model. generating the learning data by
A learning data generation method further comprising:
前記情報処理装置が、前記観測データを前記人工データよりも優先して採用することにより前記学習データを生成するステップ、
を更に実行する、学習データ生成方法。 The learning data generation method according to claim 14,
a step in which the information processing device generates the learning data by preferentially adopting the observation data over the artificial data;
A learning data generation method further comprising:
前記情報処理装置が、前記生成元データを、トレンド、周期変動、及び残差の各構成要素に分解し、前記構成要素のうち、前記トレンドと前記周期変動とに基づき前記人工データを生成するステップ、
を更に実行する、学習データ生成方法。 The learning data generation method according to claim 13,
A step in which the information processing device decomposes the source data into components of a trend, a periodic variation, and a residual, and generates the artificial data based on the trend and the periodic variation among the components. ,
A learning data generation method further comprising:
前記情報処理装置が、前記残差の分散に基づき前記雑音を生成し、生成した前記人工デ
ータに生成した前記雑音を付与するステップ、
を更に実行する、学習データ生成方法。 The learning data generation method according to claim 16,
a step in which the information processing device generates the noise based on the variance of the residual and adds the generated noise to the generated artificial data;
A learning data generation method further comprising:
前記情報処理装置が、前記複製データを連結する際の境界となる時点における、前記境界の前後の前記複製データの前記周期変動の差分を求め、前記差分を順次加算しつつ前記複製データを連結していくことにより前記人工データを生成するステップ、
を更に実行する、学習データ生成方法。 The learning data generation method according to claim 16,
The information processing device obtains a difference in the periodic variation of the duplicated data before and after the boundary at a point of time when the duplicated data is concatenated, and concatenates the duplicated data while sequentially adding the difference. generating said artificial data by moving
A learning data generation method further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033344A JP7252156B2 (en) | 2020-02-28 | 2020-02-28 | LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033344A JP7252156B2 (en) | 2020-02-28 | 2020-02-28 | LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135896A JP2021135896A (en) | 2021-09-13 |
JP7252156B2 true JP7252156B2 (en) | 2023-04-04 |
Family
ID=77661379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033344A Active JP7252156B2 (en) | 2020-02-28 | 2020-02-28 | LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7252156B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087375A (en) | 2013-09-25 | 2015-05-07 | 株式会社ジェイテクト | Stress measurement system, stress measurement method and stress measurement processor |
WO2018167900A1 (en) | 2017-03-16 | 2018-09-20 | 日本電気株式会社 | Neural network learning device, method, and program |
JP2019087106A (en) | 2017-11-08 | 2019-06-06 | Kddi株式会社 | Generation device for learning data, determination device, and program |
-
2020
- 2020-02-28 JP JP2020033344A patent/JP7252156B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087375A (en) | 2013-09-25 | 2015-05-07 | 株式会社ジェイテクト | Stress measurement system, stress measurement method and stress measurement processor |
WO2018167900A1 (en) | 2017-03-16 | 2018-09-20 | 日本電気株式会社 | Neural network learning device, method, and program |
JP2019087106A (en) | 2017-11-08 | 2019-06-06 | Kddi株式会社 | Generation device for learning data, determination device, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021135896A (en) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995525B2 (en) | Generative adversarial network model training using distributed ledger | |
US20180189274A1 (en) | Apparatus and method for generating natural language | |
US20230352043A1 (en) | Systems And Methods For Machine-Generated Avatars | |
JP6237168B2 (en) | Information processing apparatus and information processing program | |
JP2020533674A (en) | How to improve tape drive memory storage to implement a data deduplication environment, computer programs and storage tape drive hardware devices | |
JP7252156B2 (en) | LEARNING DATA GENERATION DEVICE AND LEARNING DATA GENERATION METHOD | |
Ernst | Media Archaeology-As-Such: Occasional Thoughts on (Més-) alliances with Archaeologies Proper. | |
CN108628931B (en) | Method, device and equipment for data driving service | |
CN106156076B (en) | The method and system of data processing | |
JP2020119101A (en) | Tensor generating program, tensor generation method and tensor generation device | |
JP2019197336A (en) | Learning data generation device, method, and program | |
EP3716262A1 (en) | Information processing device, information processing method, and information processing program | |
JP5637071B2 (en) | Processing program, processing method, and processing apparatus | |
CN112885315B (en) | Model generation method, music synthesis method, system, equipment and medium | |
WO2021177394A1 (en) | Data processing system, and data compression method | |
Baiheng et al. | Rethinking of Artificial Intelligence Storytelling of Digital Media | |
US20240202849A1 (en) | Nft issuing system | |
CN109858866A (en) | Personal file file forming method and system | |
KR102591048B1 (en) | Apparatus and method for supporting annotation generation | |
JP5208891B2 (en) | Hybrid model simulation apparatus and method | |
CN111444195B (en) | Method, device and equipment for clearing indexes in block chain type account book | |
Johnston | ReRites (& ReadingRites) Human+ AI Poetry (& Participatory-Readings) | |
Pierris et al. | Forensically classifying files using HSOM algorithms | |
Innocenti | Rethinking authenticity in digital art preservation | |
Ernst | Micro-dramaturgical temporalities of media theatre: On the difference between performative and operative re-enactment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7252156 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |