JP6550783B2 - Data output method, data output program and data output device - Google Patents

Data output method, data output program and data output device Download PDF

Info

Publication number
JP6550783B2
JP6550783B2 JP2015031096A JP2015031096A JP6550783B2 JP 6550783 B2 JP6550783 B2 JP 6550783B2 JP 2015031096 A JP2015031096 A JP 2015031096A JP 2015031096 A JP2015031096 A JP 2015031096A JP 6550783 B2 JP6550783 B2 JP 6550783B2
Authority
JP
Japan
Prior art keywords
time
series data
data
indicating
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015031096A
Other languages
Japanese (ja)
Other versions
JP2016152039A (en
Inventor
孝 河東
孝 河東
太田 唯子
唯子 太田
稲越 宏弥
宏弥 稲越
湯上 伸弘
伸弘 湯上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015031096A priority Critical patent/JP6550783B2/en
Publication of JP2016152039A publication Critical patent/JP2016152039A/en
Application granted granted Critical
Publication of JP6550783B2 publication Critical patent/JP6550783B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、データ出力方法、データ出力プログラムおよびデータ出力装置に関する。   The present invention relates to a data output method, a data output program, and a data output device.

機械学習では、学習データを用いて予測モデルを生成し、生成した予測モデルにより予測を行う。このため、機械学習は、学習データによって、性能が変化する。そこで、学習に有効なデータを選択する技術がある。例えば、入力された複数種類の特徴量の時系列データと、目的変数の時系列データとの相関をそれぞれ分析し、目的変数に対する影響度の高い特徴量を特定する。   In machine learning, a prediction model is generated using learning data, and prediction is performed using the generated prediction model. For this reason, machine learning changes its performance according to learning data. Therefore, there is a technique for selecting data effective for learning. For example, the correlation between the input time-series data of a plurality of types of feature amounts and the time-series data of the objective variable is analyzed, and the feature amount having a high influence on the objective variable is specified.

特開2012−27880号公報Unexamined-Japanese-Patent No. 2012-27880

しかしながら、従来の技術では、学習に有効なデータを特定できない場合がある。予測の対象とする事象には、時間帯によって発生原理が変化するものがある。一方、従来の技術では、発生原理によらずデータ全体で目的変数との相関がある特徴量が特定される。このため、従来の技術では、特定の時間帯において目的変数との相関が高い特徴量が選択されず、学習に有効なデータを特定できない場合がある。   However, conventional techniques may not be able to identify data effective for learning. Among events to be predicted, the occurrence principle changes depending on the time zone. On the other hand, in the prior art, feature quantities that are correlated with the target variable in the entire data are identified regardless of the generation principle. For this reason, in the related art, a feature amount having a high correlation with a target variable is not selected in a specific time zone, and there are cases in which data that is effective for learning can not be identified.

一つの側面では、学習に有効なデータを特定できるデータ出力方法、データ出力プログラムおよびデータ出力装置を提供することを目的とする。   In one aspect, it is an object of the present invention to provide a data output method, a data output program, and a data output device that can identify data effective for learning.

第1の案では、データ出力方法は、特定の監視対象の状態を示す値の時系列データと、特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データの其々との相関値を算出する。データ出力方法は、算出した相関値間の相関に基づき、複数の監視対象の状態を示す時系列データを複数のクラスタに分類する。データ出力方法は、複数のクラスタのそれぞれから何れかの時系列データを抽出する。データ出力方法は、複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する。   In the first proposal, the data output method includes time-series data of values indicating the state of a specific monitoring target and time-series data of values indicating a plurality of monitoring target states different from the specific monitoring target. Calculate the correlation value of The data output method classifies time-series data indicating a plurality of monitoring target states into a plurality of clusters based on the correlation between the calculated correlation values. The data output method extracts any time series data from each of a plurality of clusters. The data output method outputs information indicating the type of each time-series data extracted from each of the plurality of clusters.

本発明の一の実施態様によれば、学習に有効なデータを特定できるという効果を奏する。   According to one embodiment of the present invention, there is an effect that data effective for learning can be specified.

図1は、実施例1に係るデータ出力装置の機能的な構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a functional configuration of the data output apparatus according to the first embodiment. 図2は、目的変数データのデータ構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of the data configuration of the objective variable data. 図3は、特徴量データのデータ構成の一例を示す図である。FIG. 3 is a diagram illustrating an example of a data configuration of feature amount data. 図4は、相関値の算出の一例を説明する図である。FIG. 4 is a diagram for explaining an example of calculation of correlation values. 図5Aは、ウィンドウの一例を説明する図である。FIG. 5A is a diagram for explaining an example of a window. 図5Bは、ウィンドウの一例を説明する図である。FIG. 5B is a view for explaining an example of a window. 図5Cは、ウィンドウの一例を説明する図である。FIG. 5C is a diagram for explaining an example of a window. 図6は、スコアの求め方の一例を示す図である。FIG. 6 is a diagram illustrating an example of how to obtain a score. 図7は、クラスタごとの特徴量を説明する図である。FIG. 7 is a diagram for explaining the feature amount of each cluster. 図8は、発生原理が変化する事象の一例を示す図である。FIG. 8 is a diagram showing an example of an event whose occurrence principle changes. 図9は、ある道路の交通量の変化と、時間帯、事故数、降水量の変化を示す図である。FIG. 9 is a diagram showing changes in traffic volume on a certain road, and changes in time zone, number of accidents, and precipitation. 図10は、時間帯ごとに予測モデルを生成する一例を説明する図である。FIG. 10 is a diagram illustrating an example of generating a prediction model for each time period. 図11は、予測する事象に合わせて細かく予測モデルを生成する一例を示す図である。FIG. 11 is a diagram illustrating an example of generating a detailed prediction model in accordance with an event to be predicted. 図12は、目的変数のデータと特徴量のデータの一例を示す図である。FIG. 12 is a diagram illustrating an example of objective variable data and feature amount data. 図13は、目的変数のデータと、複数の特徴量のデータの分割の一例を示す図である。FIG. 13 is a diagram illustrating an example of division of objective variable data and a plurality of feature amount data. 図14は、相関の算出の一例を示す図である。FIG. 14 is a diagram showing an example of correlation calculation. 図15は、複数の特徴量のデータを分類する一例を示す図である。FIG. 15 is a diagram illustrating an example of classifying data of a plurality of feature amounts. 図16は、クラスタごとのスコアの一例を示す図である。FIG. 16 is a diagram illustrating an example of a score for each cluster. 図17は、クラスタごとの特徴量の抽出の一例を示す図である。FIG. 17 is a diagram illustrating an example of feature amount extraction for each cluster. 図18は、実施例1に係るデータ出力処理の手順の一例を示すフローチャートである。FIG. 18 is a flowchart illustrating an example of the procedure of the data output process according to the first embodiment. 図19は、実施例2に係るデータ出力装置の機能的な構成の一例を示す図である。FIG. 19 is a diagram illustrating an example of a functional configuration of the data output apparatus according to the second embodiment. 図20は、目的変数に対する各特徴量の相関値の一例を示す図である。FIG. 20 is a diagram illustrating an example of the correlation value of each feature amount with respect to the objective variable. 図21は、スコアが最も高い特徴量を抽出した一例を示す図である。FIG. 21 is a diagram illustrating an example in which the feature amount having the highest score is extracted. 図22は、類似する特徴量を抽出の対象から除外した一例を示す図である。FIG. 22 is a diagram illustrating an example in which similar feature amounts are excluded from extraction targets. 図23は、残った特徴量からスコアが最も高い特徴量を抽出した一例を示す図である。FIG. 23 is a diagram illustrating an example in which the feature amount having the highest score is extracted from the remaining feature amounts. 図24は、類似する特徴量を抽出の対象から除外した一例を示す図である。FIG. 24 is a diagram illustrating an example in which similar feature amounts are excluded from extraction targets. 図25は、残った特徴量からスコアが最も高い特徴量を抽出した一例を示す図である。FIG. 25 is a diagram illustrating an example in which the feature amount having the highest score is extracted from the remaining feature amounts. 図26は、実施例2に係るデータ出力処理の手順の一例を示すフローチャートである。FIG. 26 is a flowchart of an example of a data output process according to the second embodiment. 図27は、データ出力プログラムを実行するコンピュータを示す図である。FIG. 27 is a diagram illustrating a computer that executes a data output program.

以下に、本発明に係るデータ出力方法、データ出力プログラムおよびデータ出力装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   Hereinafter, embodiments of a data output method, a data output program and a data output device according to the present invention will be described in detail based on the drawings. The present invention is not limited by this embodiment. And each Example can be suitably combined in the range which does not make processing contents contradictory.

[装置構成]
本実施例に係るデータ出力装置10について説明する。データ出力装置10は、機械学習の予測モデルの生成に利用可能な各種のデータから、学習に有効なデータを特定して出力する装置である。データ出力装置10は、例えば、パーソナルコンピュータやサーバコンピュータなどのコンピュータなどである。データ出力装置10は、学習に有効なデータを用いて学習を行って予測モデルを生成し、生成した予測モデルにより予測を行う。
[Device configuration]
A data output device 10 according to the present embodiment will be described. The data output device 10 is a device that identifies and outputs data effective for learning from various data that can be used for generating a prediction model of machine learning. The data output device 10 is, for example, a computer such as a personal computer or a server computer. The data output device 10 performs learning using data effective for learning to generate a prediction model, and performs prediction using the generated prediction model.

図1は、実施例1に係るデータ出力装置の機能的な構成の一例を示す図である。図1に示すように、データ出力装置10は、通信I/F(インタフェース)部20と、入力部21と、表示部22と、記憶部23と、制御部24とを有する。なお、データ出力装置10は、上記の機器以外の他の機器を有してもよい。   FIG. 1 is a diagram illustrating an example of a functional configuration of the data output apparatus according to the first embodiment. As illustrated in FIG. 1, the data output device 10 includes a communication I / F (interface) unit 20, an input unit 21, a display unit 22, a storage unit 23, and a control unit 24. The data output device 10 may have other devices other than the above-described devices.

通信I/F部20は、他の装置との間で通信制御を行うインタフェースである。通信I/F部20としては、LANカードなどのネットワークインタフェースカードを採用できる。   The communication I / F unit 20 is an interface that controls communication with other devices. As the communication I / F unit 20, a network interface card such as a LAN card can be adopted.

通信I/F部20は、不図示のネットワークを介して他の装置と各種情報を送受信する。例えば、通信I/F部20は、機械学習において予測モデルの生成に用いる各種のデータを受信する。例えば、通信I/F部20は、機械学習で予測の対象とする特定の監視対象の状態を示す値の時系列データを受信する。この予測の対象とする特定の監視対象の状態を示す値の時系列データは、機械学習で予測モデルを生成する際の目的変数のデータとなる。また、通信I/F部20は、特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データを受信する。この特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データは、機械学習で予測モデルを生成する際の学習データの候補となる。   The communication I / F unit 20 transmits and receives various types of information to and from other devices via a network (not shown). For example, the communication I / F unit 20 receives various data used for generating a prediction model in machine learning. For example, the communication I / F unit 20 receives time-series data of values indicating the state of a specific monitoring target to be predicted by machine learning. The time-series data of values indicating the state of a specific monitoring target that is the target of prediction is data of an objective variable when generating a prediction model by machine learning. Further, the communication I / F unit 20 receives time-series data of values indicating the states of a plurality of monitoring targets different from the specific monitoring target. The time series data of values indicating the states of a plurality of monitoring targets different from the specific monitoring target are candidates for learning data when generating a prediction model by machine learning.

入力部21は、各種の情報を入力する入力デバイスである。入力部21としては、マウスやキーボードなどの操作の入力を受け付ける入力デバイスが挙げられる。入力部21は、各種の情報の入力を受け付ける。例えば、入力部21は、機械学習に関する各種の操作入力を受け付ける。入力部21は、ユーザからの操作入力を受け付け、受け付けた操作内容を示す操作情報を制御部24に入力する。   The input unit 21 is an input device for inputting various types of information. The input unit 21 may be an input device that receives an input of an operation such as a mouse or a keyboard. The input unit 21 receives input of various types of information. For example, the input unit 21 receives various operation inputs related to machine learning. The input unit 21 receives an operation input from the user, and inputs operation information indicating the received operation content to the control unit 24.

表示部22は、各種情報を表示する表示デバイスである。表示部22としては、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)などの表示デバイスが挙げられる。表示部22は、各種情報を表示する。例えば、表示部22は、各種の操作画面や予測結果を示した画面など各種の画面を表示する。   The display unit 22 is a display device that displays various information. Examples of the display unit 22 include display devices such as a liquid crystal display (LCD) and a cathode ray tube (CRT). The display unit 22 displays various information. For example, the display unit 22 displays various screens such as various operation screens and a screen showing a prediction result.

記憶部23は、各種のデータを記憶する記憶デバイスである。例えば、記憶部23は、ハードディスク、SSD(Solid State Drive)、光ディスクなどの記憶装置である。なお、記憶部23は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)などのデータを書き換え可能な半導体メモリであってもよい。   The storage unit 23 is a storage device that stores various data. For example, the storage unit 23 is a storage device such as a hard disk, a solid state drive (SSD), or an optical disk. The storage unit 23 may be a semiconductor memory that can rewrite data, such as a random access memory (RAM), a flash memory, and a non-volatile static random access memory (NVSRAM).

記憶部23は、制御部24で実行されるOS(Operating System)や各種プログラムを記憶する。例えば、記憶部23は、後述する各種の処理を実行するプログラムを含む各種のプログラムを記憶する。さらに、記憶部23は、制御部24で実行されるプログラムで用いられる各種データを記憶する。例えば、記憶部23は、目的変数データ30と、特徴量データ31とを記憶する。   The storage unit 23 stores an OS (Operating System) executed by the control unit 24 and various programs. For example, the storage unit 23 stores various programs including programs for executing various processes described later. Furthermore, the storage unit 23 stores various data used in a program executed by the control unit 24. For example, the storage unit 23 stores objective variable data 30 and feature amount data 31.

目的変数データ30は、機械学習の目的変数のデータを記憶したデータである。目的変数データ30には、機械学習で予測の対象とする特定の監視対象の状態を示す値の時系列データが、目的変数のデータとして記憶されている。   The target variable data 30 is data in which data of a target variable of machine learning is stored. In the objective variable data 30, time-series data of values indicating the state of a specific monitoring target to be predicted by machine learning is stored as data of the objective variable.

図2は、目的変数データのデータ構成の一例を示す図である。目的変数データ30には、計測された時間ごとに、特定の監視対象の状態を示す値が目的変数のデータとして記憶されている。図2の例では、時間t1に対応して目的変数x1、時間t2に対応して目的変数x2、・・・、時間tに対応して目的変数xが記憶されている。 FIG. 2 is a diagram illustrating an example of the data configuration of the objective variable data. In the target variable data 30, a value indicating the state of a specific monitoring target is stored as data of the target variable for each measured time. In the example of FIG. 2, object variables x 1 corresponds to the time t 1, the dependent variable x 2 corresponds to the time t 2, · · ·, the target variable x m corresponding to the time t m stored .

図1に戻り、特徴量データ31は、機械学習で予測モデルを生成する際の学習データの候補となる複数の特徴量のデータを記憶したデータである。特徴量データ31には、機械学習で予測の対象とする特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データが、複数の特徴量のデータとして記憶されている。   Returning to FIG. 1, the feature amount data 31 is data that stores data of a plurality of feature amounts that are candidates for learning data when a prediction model is generated by machine learning. The feature amount data 31 stores time-series data of values indicating the states of a plurality of monitoring targets different from a specific monitoring target to be predicted by machine learning as data of a plurality of feature amounts.

図3は、特徴量データのデータ構成の一例を示す図である。特徴量データ31には、計測された時間ごとに、複数の特徴量の状態を示す値が、特徴量のデータとして記憶されている。図3の例では、種別として、特徴量の種別を示すfa〜fzが格納されている。また、図3の例では、特徴量fa〜fzについて、時間t1に対応して特徴量fa1、fb1〜fz1、時間t2に対応して特徴量fa2、fb2〜fz2、・・・、時間tに対応して特徴量fa、fb〜fzが記憶されている。 FIG. 3 is a diagram illustrating an example of a data configuration of feature amount data. In the feature amount data 31, values indicating the states of a plurality of feature amounts are stored as feature amount data for each measured time. In the example of FIG. 3, fa to fz indicating the type of the feature amount are stored as the type. Further, in the example of FIG. 3, the feature quantity Fa~fz, feature amount fa 1 corresponds to the time t 1, fb 1 ~fz 1, feature amounts fa 2 corresponds to the time t 2, fb 2 ~fz 2 The feature quantities fa m and fb m to fz m are stored corresponding to the time t m .

図1に戻り、制御部24は、データ出力装置10を制御するデバイスである。制御部24としては、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を採用できる。制御部24は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部24は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部24は、受付部40と、算出部41と、分類部42と、抽出部43と、出力部44と、予測部45とを有する。   Returning to FIG. 1, the control unit 24 is a device that controls the data output device 10. As the control unit 24, an electronic circuit such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array) can be employed. The control unit 24 has an internal memory for storing programs defining various processing procedures and control data, and executes various processes using these. The control unit 24 functions as various processing units by operating various programs. For example, the control unit 24 includes a reception unit 40, a calculation unit 41, a classification unit 42, an extraction unit 43, an output unit 44, and a prediction unit 45.

受付部40は、各種の受け付けを行う。例えば、受付部40は、各種の操作指示を受け付ける。例えば、受付部40は、機械学習に関する操作画面を表示部22に表示させて、入力部21から、処理開始などの操作指示を受け付ける。   The reception unit 40 performs various receptions. For example, the receiving unit 40 receives various operation instructions. For example, the reception unit 40 displays an operation screen related to machine learning on the display unit 22 and receives an operation instruction such as a process start from the input unit 21.

算出部41は、各種の算出を行う。例えば、算出部41は、特定の監視対象の状態を示す値の時系列データと、特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データの其々との相関値を算出する。例えば、算出部41は、特定の監視対象の状態を示す値の時系列データと、複数の監視対象の状態を示す値の時系列データのそれぞれとを複数の期間に分割する。例えば、算出部41は、目的変数データ30に記憶された目的変数のデータと、特徴量データ31に記憶された複数の特徴量のデータとを所定の時間帯ごとのウィンドウに分割する。そして、算出部41は、期間ごとに、特定の監視対象の状態を示す値の時系列データと、複数の監視対象の状態を示す値の時系列データのそれぞれとの相関値を算出する。例えば、算出部41は、ウィンドウごとに、目的変数と、複数の特徴量との相関値を算出する。この相関値は、目的変数と特徴量との相関度合い示す値であれば、何れの方式で算出してもよい。例えば、算出部41は、相関値として、積率相関係数を算出する。   The calculator 41 performs various calculations. For example, the calculation unit 41 calculates a correlation value between time-series data indicating a state of a specific monitoring target and each of time-series data indicating values of a plurality of monitoring targets different from the specific monitoring target. calculate. For example, the calculation unit 41 divides time-series data of values indicating a specific monitoring target state and time-series data of values indicating a plurality of monitoring target states into a plurality of periods. For example, the calculation unit 41 divides the objective variable data stored in the objective variable data 30 and the plurality of feature amount data stored in the feature amount data 31 into windows for each predetermined time period. Then, the calculation unit 41 calculates, for each period, a correlation value between time-series data of values indicating a specific monitoring target state and time-series data of values indicating a plurality of monitoring target states. For example, the calculation unit 41 calculates a correlation value between the objective variable and a plurality of feature amounts for each window. The correlation value may be calculated by any method as long as the value indicates the degree of correlation between the objective variable and the feature amount. For example, the calculation unit 41 calculates a product moment correlation coefficient as the correlation value.

図4は、相関値の算出の一例を説明する図である。図4の例では、ウィンドウを曜日ごととしている。算出部41は、目的変数データ30に記憶された目的変数x1〜xと、特徴量データ31に記憶された特徴量fa1〜fa、・・・、fz1〜fzを曜日ごとのウィンドウに分割する。そして、算出部41は、ウィンドウごとに、対応する時間の目的変数xと、複数の特徴量fa〜fzそれぞれとの相関値を算出する。図4の例では、曜日ごとに、特徴量fa〜fzについての目的変数xとの相関値が示されている。 FIG. 4 is a diagram for explaining an example of the calculation of the correlation value. In the example of FIG. 4, the window is set for each day of the week. Calculation unit 41, for each and purpose variables x 1 ~x m stored in the objective variable data 30, the feature quantity fa 1 ~fa m stored in the feature data 31, ..., and fz 1 ~fz m day Split into windows. Then, the calculation unit 41 calculates, for each window, a correlation value between the target variable x of the corresponding time and each of the plurality of feature quantities fa to fz. In the example of FIG. 4, the correlation value with the target variable x about the feature-value fa-fz is shown for every day of the week.

なお、図4の例では、所定の時間帯を曜日として、曜日ごとのウィンドウに分割する場合を例示した。しかし、これに限定されるものではない。例えば、ウィンドウの期間は、ユーザが指定してもよい。例えば、予測の対象とする事象の発生原理が変化するタイミングが判明している場合、ユーザが発生原理が変化するタイミングをウィンドウの期間として指定してもよい。例えば、予測の対象とする事象の発生原理が時間帯や曜日、月によって変化するものとする。この場合、ユーザがウィンドウの期間として、発生原理が変化するタイミングに応じた時間帯や曜日、月を指定する。算出部41は、指定された時間帯や曜日、月ごとに目的変数のデータおよび特徴量のデータを分割してもよい。図5Aは、ウィンドウの一例を説明する図である。図5Aの例は、ユーザが曜日ごとにウィンドウの期間を指定しており、算出部41は、目的変数xと、特徴量fa〜fzを曜日ごとのウィンドウに分割する。   In the example of FIG. 4, the case where the predetermined time zone is a day of the week and the window of each day is divided is illustrated. However, it is not limited to this. For example, the window duration may be specified by the user. For example, when the timing at which the occurrence principle of the event to be predicted changes is known, the user may designate the timing at which the occurrence principle changes as the window period. For example, it is assumed that the principle of occurrence of the event to be predicted changes depending on the time zone, day of the week, and month. In this case, the user designates a time zone, a day of the week, and a month according to the timing when the generation principle changes as the window period. The calculation unit 41 may divide the data of the target variable and the data of the feature amount for each designated time zone, day of the week, or month. FIG. 5A is a diagram for explaining an example of a window. In the example of FIG. 5A, the user designates the window period for each day of the week, and the calculation unit 41 divides the objective variable x and the feature amounts fa to fz into windows for each day of the week.

また、例えば、ウィンドウの期間は、データの変化点を基準に定めてもよい。例えば、予測の対象とする事象の発生原理によって、目的変数xや特徴量fa〜fzのデータには変化点が発生する場合がある。この場合、算出部41は、データの変化点ごとに目的変数のデータおよび特徴量のデータを分割してもよい。図5Bは、ウィンドウの一例を説明する図である。図5Bの例は、目的変数xや特徴量fa〜fzのデータの変化点が発生しており、算出部41は、目的変数xと、特徴量fa〜fzのデータを変化点ごとのウィンドウに分割する。変化点は、発生原理の変化に対応するものであれば、例えば、閾値を通過する点、極大点、極小点など何れであってもよい。図5Bは、閾値を通過する点を変化点としている。このようにデータの変化点を基準にウィンドウの期間を定めることにより、算出部41は、発生原理の変化に対応してデータを分割できる。   Also, for example, the window period may be determined based on the change point of data. For example, a change point may occur in the data of the objective variable x and the feature amounts fa to fz depending on the generation principle of the event to be predicted. In this case, the calculation unit 41 may divide the data of the objective variable and the data of the feature amount for each change point of the data. FIG. 5B is a view for explaining an example of a window. In the example of FIG. 5B, change points of the data of the objective variable x and the feature amounts fa to fz are generated, and the calculation unit 41 displays the data of the objective variable x and the feature amounts fa to fz in a window for each change point. To divide. As long as the change point corresponds to the change in the generation principle, it may be any point such as a point that passes a threshold, a maximum point, or a minimum point. In FIG. 5B, a point that passes the threshold is a change point. By determining the window period based on the data change point in this way, the calculation unit 41 can divide the data in accordance with the change in the generation principle.

また、例えば、ウィンドウの期間は、互いに重複させてもよい。例えば、算出部41は、一定期間をウィンドウ期間として、一定期間よりも短い期間ずつずらしながらウィンドウ期間ごとにデータを分割してもよい。図5Cは、ウィンドウの一例を説明する図である。図5Cの例は、算出部41は、ウィンドウの期間を重複させながら、目的変数xと、特徴量fa〜fzのデータをウィンドウに分割する。このようにウィンドウの期間を互いに重複させることにより、算出部41は、発生原理の変化が明確ではない場合でも、特徴量のデータを分割でき、後述する分類部42により、類似する特徴量を同じ分類に分類できる。   Further, for example, the window periods may overlap each other. For example, the calculation unit 41 may divide the data for each window period while shifting the window by a period shorter than the certain period with the certain period as the window period. FIG. 5C is a diagram for explaining an example of a window. In the example of FIG. 5C, the calculation unit 41 divides the data of the objective variable x and the feature quantities fa to fz into windows while overlapping the window periods. By overlapping the window periods in this way, the calculation unit 41 can divide the feature amount data even when the change in the generation principle is not clear, and the similar feature amount can be the same by the classification unit 42 described later. It can be classified into classification.

図1に戻り、分類部42は、各種の分類を行う。例えば、分類部42は、相関値間の相関に基づき、複数の監視対象の状態を示す時系列データを複数のクラスタに分類する。例えば、分類部42は、期間ごとに算出した相関値の複数の期間における分布に基づき、複数の監視対象の状態を示す値の時系列データを複数のクラスタに分類する。例えば、分類部42は、ウィンドウ毎の相関の変化が類似する特徴量を同じ分類に分類して、特徴量を複数のクラスタに分類する。例えば、分類部42は、特徴量ごとに、他の特徴量と各期間で相関値の誤差を求める。例えば、分類部42は、各期間で相関値の誤差として、各期間の相関値のユークリッド距離を求める。期間1〜mの特徴量faの相関値をta1〜taとし、特徴量fbの相関値をtb1〜tbとした場合、ユークリッド距離は、以下の式(1)に示すように期間ごとの相関値ta、tbの差を二乗して合計し、合計値の平方根を求めることで算出される。 Returning to FIG. 1, the classification unit 42 performs various classifications. For example, the classification unit 42 classifies time series data indicating the states of a plurality of monitoring targets into a plurality of clusters based on the correlation between correlation values. For example, the classification unit 42 classifies time-series data of values indicating the states of a plurality of monitoring targets into a plurality of clusters based on the distribution of correlation values calculated for each period in a plurality of periods. For example, the classification unit 42 classifies the feature quantities having similar changes in correlation for each window into the same class, and classifies the feature quantities into a plurality of clusters. For example, for each feature quantity, the classification unit 42 obtains an error in correlation values with other feature quantities in each period. For example, the classification unit 42 obtains the Euclidean distance of the correlation value of each period as the error of the correlation value in each period. When the correlation value of the feature quantity fa in the periods 1 to m is ta 1 to tam and the correlation value of the feature quantity fb is tb 1 to tb m , the Euclidean distance is the period as shown in the following equation (1). The difference between each correlation value ta and tb is squared and summed, and the square root of the total value is calculated.

ユークリッド距離=((ta1−tb12+・・・+(ta−tb21/2 (1) Euclidean distance = ((ta 1 −tb 1 ) 2 +... + (Ta m −tb m ) 2 ) 1/2 (1)

分類部42は、ユークリッド距離が近い特徴量を同じ分類に分類する。例えば、分類部42は、何れかの特徴量を基準として、ユークリッド距離が閾値以下の特徴量を同じ分類に分類することを繰り返して、特徴量をクラスタに分類する。図4の例では、特徴量faと特徴量fbがクラスタAに分類され、特徴量fcと特徴量fdがクラスタBに分類されている。   The classification unit 42 classifies feature quantities close in Euclidean distance into the same classification. For example, the classifying unit 42 classifies feature quantities into clusters by repeatedly classifying feature quantities having a Euclidean distance equal to or less than a threshold value to the same classification with any feature quantity as a reference. In the example of FIG. 4, the feature amount fa and the feature amount fb are classified into cluster A, and the feature amount fc and the feature amount fd are classified into cluster B.

抽出部43は、各種の抽出を行う。例えば、抽出部43は、複数のクラスタのそれぞれから何れかの時系列データを抽出する。例えば、抽出部43は、クラスタごとに、当該クラスタに分類された時系列データに対して算出された期間ごとの相関値を所定の重み付けで重み付け演算してスコアを求める。例えば、抽出部43は、各特徴量のウィンドウごとの相関値をそれぞれ所定の重み付けで重み付けする。そして、抽出部43は、クラスタごとに、重み付けされた相関値からスコアを求める。例えば、抽出部43は、クラスタごとに、重み付けされた特徴量の各相関値の平均値、最大値または最小値をスコアとして求める。そして、抽出部43は、クラスタごとに、スコアが最大の特徴量を抽出する。図4の例では、クラスタAから特徴量faが抽出され、クラスタBから特徴量fdが抽出される。   The extraction unit 43 performs various types of extraction. For example, the extraction unit 43 extracts any time series data from each of the plurality of clusters. For example, for each cluster, the extraction unit 43 obtains a score by weighting the correlation value for each period calculated for the time-series data classified into the cluster with a predetermined weight. For example, the extraction unit 43 weights the correlation value of each feature amount for each window with a predetermined weight. Then, the extraction unit 43 obtains a score from the weighted correlation value for each cluster. For example, the extraction unit 43 obtains, as a score, an average value, a maximum value, or a minimum value of each correlation value of the weighted feature amount for each cluster. Then, the extraction unit 43 extracts, for each cluster, the feature amount having the largest score. In the example of FIG. 4, the feature quantity fa is extracted from the cluster A, and the feature quantity fd is extracted from the cluster B.

ここで、スコアの求め方について説明する。図6は、スコアの求め方の一例を示す図である。図6では、説明を簡易化するため、1つのクラスタに、3つの特徴量fa、fb、fcが分類され、3つのウィンドウW1、W2、W3について相関値が算出されている場合を例に説明する。図6(A)には、特徴量fa、fb、fcについてのウィンドウW1、W2、W3での相関値が示されている。図6(B)には、パターンA〜Cの3つのパターンで相関値を重み付けした結果が示されている。パターンAは、相関値に均等に重み付けした場合が示されている。例えば、パターンAでは、相関値に均等に「1」を重み付けする。この場合、重み付けした相関値は、図6(A)と同じとなる。パターンBは、相関値が大きいほど大きい重み付けをした場合が示されている。例えば、パターンBでは、相関値を二乗した値を重み付け後の相関値とする。パターンCは、相関値が所定の閾値以上の場合、相関値をそのまま重み付け後の相関値とし、相関値が所定の閾値未満の場合、ゼロとした場合が示されている。図6(B)に示したパターンCでは、閾値を0.5としている。この場合、重み付けした相関値は、相関値が0.5以上の場合、図6(A)と同じとなり、相関値が0.5未満の場合、ゼロとなる。なお、重み付けのパターンは、これに限定されるものではない。   Here, how to obtain the score will be described. FIG. 6 is a diagram illustrating an example of how to obtain a score. In FIG. 6, to simplify the explanation, an example is described in which three feature quantities fa, fb, and fc are classified into one cluster, and correlation values are calculated for the three windows W1, W2, and W3. Do. FIG. 6A shows correlation values in the windows W1, W2, and W3 for the feature amounts fa, fb, and fc. FIG. 6B shows the result of weighting the correlation value with three patterns A to C. Pattern A shows a case where the correlation values are weighted equally. For example, in the pattern A, “1” is weighted equally to the correlation value. In this case, the weighted correlation value is the same as in FIG. Pattern B is shown as being weighted more heavily as the correlation value is larger. For example, in the pattern B, a value obtained by squaring the correlation value is used as the correlation value after weighting. Pattern C shows the case where the correlation value is equal to or greater than the predetermined threshold value, and the correlation value is used as the weighted correlation value as it is, and when the correlation value is less than the predetermined threshold value, it is set to zero. In the pattern C shown in FIG. 6 (B), the threshold value is 0.5. In this case, the weighted correlation value is the same as FIG. 6A when the correlation value is 0.5 or more, and is zero when the correlation value is less than 0.5. Note that the weighting pattern is not limited to this.

抽出部43は、クラスタごとに、重み付けされた相関値からスコアを求める。図6(B)には、スコアとして、パターンA〜Cのそれぞれで各相関値の平均値、最大値または最小値を求めた結果が示されている。抽出部43は、クラスタごとに、スコアに基づき、特徴量を抽出する。例えば、抽出部43は、クラスタごとに、スコアが最大の特徴量を抽出する。例えば、スコアの平均値が最大の特徴量を抽出する場合、パターンAでは特徴量fcが抽出され、パターンBでは特徴量fbが抽出され、パターンCでは特徴量fbが抽出される。スコアの最大値が最大の特徴量を抽出する場合、パターンAでは特徴量fbが抽出され、パターンBでは特徴量fbが抽出され、パターンCでは特徴量fbが抽出される。スコアの最小値が最大の特徴量を抽出する場合、パターンAでは特徴量fcが抽出され、パターンBでは特徴量fcが抽出され、パターンCでは特徴量fcが抽出される。   The extraction unit 43 obtains a score from the weighted correlation value for each cluster. FIG. 6B shows the result of obtaining the average value, maximum value, or minimum value of each correlation value for each of the patterns A to C as the score. The extraction unit 43 extracts a feature amount for each cluster based on the score. For example, the extraction unit 43 extracts, for each cluster, the feature amount having the largest score. For example, when extracting the feature quantity having the maximum average score value, the feature quantity fc is extracted from the pattern A, the feature quantity fb is extracted from the pattern B, and the feature quantity fb is extracted from the pattern C. When extracting the feature amount having the maximum score value, the feature amount fb is extracted from the pattern A, the feature amount fb is extracted from the pattern B, and the feature amount fb is extracted from the pattern C. When extracting the feature quantity having the largest minimum score value, the feature quantity fc is extracted from the pattern A, the feature quantity fc is extracted from the pattern B, and the feature quantity fc is extracted from the pattern C.

スコアの平均値が最大となる特徴量を抽出する場合、重み付けされた相関値が全てのウィンドウで平均的に高い特徴量が抽出される。スコアの最大値が最大となる特徴量を抽出する場合、重み付けされた相関値が何れかのウィンドウで最も高い特徴量が抽出される。すなわち、特定のウィンドウにおいて目的変数に対して影響の大きい特徴量が抽出される。スコアの最小値が最大となる特徴量を抽出する場合、重み付けされた相関値が低いウィンドウがない特徴量が抽出される。すなわち、目的変数に対して影響の小さいウィンドウがない特徴量が抽出される。   When extracting the feature quantity having the maximum score average value, the feature quantity whose weighted correlation value is high on average in all windows is extracted. When extracting the feature quantity that maximizes the maximum score value, the feature quantity having the highest weighted correlation value in any window is extracted. That is, feature quantities that have a large influence on the target variable in a specific window are extracted. When extracting the feature quantity having the maximum minimum score value, the feature quantity without a window having a low weighted correlation value is extracted. That is, a feature amount that does not have a window having a small influence on the objective variable is extracted.

図7は、クラスタごとの特徴量を説明する図である。図7の例では、説明を簡易化するため、2つのウィンドウW1、W2の相関を用いてクラスタに分類する場合を説明する。図7の例では、縦軸にウィンドウW2の目的変数と特徴量との相関が示され、横軸にウィンドウW1の目的変数と特徴量との相関が示されている。図7の例では、それぞれの特徴量が、ウィンドウW1での相関と、ウィンドウW2での相関に応じてプロットされている。特徴量は、ユークリッド距離が近いものごとにクラスタに分類されている。ユークリッド距離は、特徴量の点間の距離となる。図7の例では、特徴量が4つのクラスタC1〜C4に分類されている。クラスタC1は、ウィンドウW2で相関が高く、ウィンドウW1で相関が低い特徴量の分類である。クラスタC2は、ウィンドウW1とウィンドウW2で共に相関が高い特徴量の分類である。クラスタC3は、ウィンドウW1とウィンドウW2で共に相関が低い特徴量の分類である。クラスタC4は、ウィンドウW1で相関が高く、ウィンドウW2で相関が低い特徴量の分類である。 FIG. 7 is a diagram for explaining the feature amount of each cluster. In the example of FIG. 7, in order to simplify the description, the case of classifying into clusters using the correlation of two windows W1 and W2 will be described. In the example of FIG. 7, the vertical axis indicates the correlation between the objective variable of the window W2 and the feature quantity, and the horizontal axis indicates the correlation between the target variable of the window W1 and the feature quantity. In the example of FIG. 7, the respective feature quantities are plotted according to the correlation in the window W1 and the correlation in the window W2. The feature amounts are classified into clusters for each of those having a short Euclidean distance. The Euclidean distance is the distance between the feature points. In the example of FIG. 7, the feature amounts are classified into four clusters C 1 to C 4 . The cluster C 1 is a classification of feature amounts having high correlation in the window W2 and low correlation in the window W1. The cluster C 2 is a classification of feature amounts having high correlation between the window W1 and the window W2. The cluster C 3 is a classification of feature amounts having a low correlation between the window W1 and the window W2. Cluster C 4 has a high correlation window W1, the correlation window W2 is lower characteristic of classification.

抽出部43は、クラスタごとに、スコアに基づき、特徴量を抽出する。例えば、抽出部43は、クラスタC1から特徴量f1を抽出し、クラスタC2から特徴量f2を抽出し、クラスタC3から特徴量f3を抽出し、クラスタC4から特徴量f4を抽出する。 The extraction unit 43 extracts a feature amount for each cluster based on the score. For example, the extraction unit 43, a feature amount f1 is extracted from the cluster C 1, the feature amount f2 extracted from the cluster C 2, the feature quantity f3 extracted from the cluster C 3, extracts a feature quantity f4 from the cluster C 4 .

出力部44は、各種の出力を行う。例えば、出力部44は、複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する。例えば、出力部44は、抽出部43によりクラスタごとに抽出された特徴量の種別を示す情報を出力する。例えば、図7の場合、出力部44は、抽出された特徴量の種別を示す情報として、特徴量f1、f2、f3、f4を出力する。クラスタC1〜C4には、それぞれ目的変数との相関が近い特徴量が分類される。機械学習では、目的変数との相関が似ている特徴量を多く用いても、同じようなパターンのみが学習されるため、予測精度が向上し難く、目的変数との相関に多様性のあるデータで学習することが好ましい。そこで、クラスタごとに、特徴量を抽出して出力することで、目的変数との相関に多様性のあるデータを抽出でき、学習に有効なデータを特定できるため、機械学習の予測精度を向上させることができる。 The output unit 44 performs various outputs. For example, the output unit 44 outputs information indicating the type of each time-series data extracted from each of the plurality of clusters. For example, the output unit 44 outputs information indicating the type of feature amount extracted for each cluster by the extraction unit 43. For example, in the case of FIG. 7, the output unit 44 outputs the feature amounts f1, f2, f3, and f4 as information indicating the type of the extracted feature amount. In the clusters C 1 to C 4 , feature quantities having close correlation with the objective variable are classified. In machine learning, even if many feature quantities that have a similar correlation with the objective variable are used, only similar patterns are learned, so prediction accuracy is difficult to improve, and there is diversity in the correlation with the objective variable. Learning with is preferable. Therefore, by extracting and outputting the feature amount for each cluster, it is possible to extract data having various correlations with the objective variable and to identify data effective for learning, thereby improving the prediction accuracy of machine learning. be able to.

予測部45は、機械学習により各種の予測を行う。例えば、予測部45は、出力部44により出力された種別の時系列データを学習データとして用いて予測モデルを生成する。そして、予測部45は、生成した予測モデルにより予測を行う。   The prediction unit 45 performs various predictions by machine learning. For example, the prediction unit 45 generates a prediction model using the time-series data of the type output by the output unit 44 as learning data. And the prediction part 45 performs prediction with the produced | generated prediction model.

ここで、機械学習が予測の対象とする事象には、時間帯によって発生原理が変化するものがある。図8は、発生原理が変化する事象の一例を示す図である。図8は、ある道路の平日と休日の交通量の変化と、降水量の変化が示されている。平日の道路は、通勤の車両の通行が多い。通勤の車両は、降水に関わらず道路を走行する。このため、平日の交通量は、図8の符号60に示すように降水量が多い期間でも降水量の影響を受け難い。一方、休日の道路は、観光(行楽)の車両の通行が多い。観光は、天気が良い方が好ましい。このため、観光の車両は、天気が良いと多く、降水量が多いほど減少する。このため、休日の交通量は、図8の符号61に示すように降水量が多い期間で交通量が減少する。このように、道路の交通量は、平日と休日で交通量の発生原理が変化する。   Here, among the events that machine learning targets for prediction, the generation principle may change depending on the time zone. FIG. 8 is a diagram showing an example of an event whose occurrence principle changes. FIG. 8 shows changes in traffic volume on weekdays and holidays on a certain road, and changes in precipitation. On weekday roads, there are many commuting vehicles. Commuters travel on the road regardless of precipitation. For this reason, the traffic volume on weekdays is unlikely to be affected by precipitation even during periods of heavy precipitation, as indicated by reference numeral 60 in FIG. On the other hand, there are many tourist (excursion) vehicles on holiday roads. Tourism is better if the weather is better. For this reason, there are many vehicles for sightseeing when the weather is good, and the more precipitation there is, the more it decreases. For this reason, as for the traffic volume of a holiday, as shown to the code | symbol 61 of FIG. 8, the traffic volume reduces in the period when there is much precipitation. Thus, the traffic volume of the road changes the generation principle of traffic volume on weekdays and holidays.

例えば、従来の技術により、発生原理によらずデータ全体で目的変数との相関がある特徴量を特定する場合を想定する。この場合、特定の時間帯において目的変数との相関が高い特徴量が選択されなくなる。図9は、ある道路の交通量の変化と、時間帯、事故数、降水量の変化を示す図である。図9の例では、交通量と時間帯および事故数は、データ全体的に相関がある。このため、データ全体的での相関が中レベルとなっている。一方、交通量と降水量は、平日か休日かによって影響が変化し、データ全体的として相関が低い。このため、データ全体的での相関が低レベルなっている。この場合、従来の技術では、時間帯および事故数が目的変数との相関がある特徴量として特定される。すなわち、従来の技術では、データの発生原理によらず一定の相関がある特徴量のみが選択されるため、降水量のように特定の事象で有効な特徴量が見落とされる。   For example, a case is assumed in which a feature quantity having a correlation with an objective variable is specified in the entire data regardless of the generation principle. In this case, feature quantities having high correlation with the target variable in a specific time zone can not be selected. FIG. 9 is a diagram showing changes in traffic volume on a certain road, and changes in time zone, number of accidents, and precipitation. In the example of FIG. 9, the traffic volume, the time zone, and the number of accidents are correlated with the entire data. For this reason, the correlation of the entire data is at a medium level. On the other hand, traffic volume and precipitation change depending on whether it is a weekday or a holiday, and the correlation is low as the whole data. For this reason, the correlation in the whole data is low level. In this case, in the prior art, the time zone and the number of incidents are specified as feature quantities that are correlated with the target variable. That is, in the conventional technique, only a feature quantity having a certain correlation is selected regardless of the data generation principle, and therefore, an effective feature quantity is overlooked in a specific event such as precipitation.

一方、本実施例に係るデータ出力装置10は、相関の変化が類似する特徴量ごとにクラスタに分類し、クラスタごとに、特徴量を抽出することで、降水量のように特定の事象で有効な特徴量も抽出できる。このように、データ出力装置10は、学習に有効なデータを特定できるため、機械学習の予測精度を向上させることができる。   On the other hand, the data output apparatus 10 according to the present embodiment classifies the feature amounts having similar correlation changes into clusters, and extracts the feature amounts for each cluster, so that it is effective for a specific event such as precipitation. Feature amounts can also be extracted. As described above, since the data output device 10 can specify data effective for learning, the prediction accuracy of machine learning can be improved.

また、例えば、機械学習が予測の対象とする事象が時間帯によって発生原理が変化する場合、時間帯ごとに当該時間帯の特徴量のデータを用いて学習を行い、時間帯ごとに予測モデルを生成する場合を想定する。図10は、時間帯ごとに予測モデルを生成する一例を説明する図である。図10は、ある道路の平日と休日の交通量の変化が示されている。図10の例では、平日の特徴量のデータを用いて平日用の特徴を学習して平日の予測モデルを生成する。また、図10の例では、休日の特徴量のデータを用いて休日用の特徴を学習して休日の予測モデルを生成する。この場合、予測する事象に対応させるには、予測する事象に合わせて細かく予測モデルを生成する。図11は、予測する事象に合わせて細かく予測モデルを生成する一例を示す図である。図11の例では、平日の昼間の時間帯の特徴量のデータを用いて学習を行い、平日の昼間の交通量の予測モデルを生成する。予測する事象に合わせて細かく予測モデルを生成する場合、予測モデルに使用できる特徴量のデータが少なくなる。図11には、平日の昼間の交通量の予測モデルに使用できる特徴量のデータの範囲が示されている。このように予測モデルに使用できる特徴量のデータが少なくなると、予測モデルの予測精度が低下する。   In addition, for example, when the occurrence principle of an event that machine learning predicts changes depending on the time zone, learning is performed for each time zone using feature amount data, and a prediction model is set for each time zone. Assume the case of generation. FIG. 10 is a diagram illustrating an example of generating a prediction model for each time period. FIG. 10 shows a change in traffic volume on a weekday and a holiday on a road. In the example of FIG. 10, weekday features are learned using weekday feature data to generate a weekday prediction model. In the example of FIG. 10, a holiday prediction model is generated by learning holiday features using holiday feature data. In this case, in order to correspond to the event to be predicted, a prediction model is finely generated in accordance with the event to be predicted. FIG. 11 is a diagram illustrating an example of generating a detailed prediction model in accordance with an event to be predicted. In the example of FIG. 11, learning is performed using data of feature quantities in a daytime daytime zone on a weekday, and a prediction model of daytime traffic volume on a weekday is generated. When the prediction model is generated in detail in accordance with the event to be predicted, feature amount data that can be used for the prediction model decreases. FIG. 11 shows the range of feature quantity data that can be used for a daytime traffic volume forecast model on weekdays. Thus, when the amount of feature data that can be used in the prediction model decreases, the prediction accuracy of the prediction model decreases.

一方、本実施例に係るデータ出力装置10は、機械学習が予測の対象とする事象が時間帯によって発生原理が変化する場合でも1つの予測モデルで予測できる。また、データ出力装置10は、学習に有効な種別の時系列データを全て学習データとして用いて予測モデルを生成する。この結果、データ出力装置10は、予測モデルに使用できる特徴量のデータを確保できるため、データ不足による予測モデルの予測精度の低下が発生し難くなる。   On the other hand, the data output apparatus 10 according to the present embodiment can predict with one prediction model even if the occurrence principle changes depending on the time zone, for which the event for which machine learning is the target of prediction changes. Further, the data output device 10 generates a prediction model by using all time series data of a type effective for learning as learning data. As a result, since the data output device 10 can secure data of feature amounts that can be used for the prediction model, it is difficult for a drop in prediction accuracy of the prediction model to occur due to a lack of data.

次に具体例を用いて説明する。以下では、交通量の予測モデルを生成する場合を例に説明する。図12は、目的変数のデータと特徴量のデータの一例を示す図である。図12には、目的変数のデータとして、計測された時間ごとに、交通量のデータが示されている。また、図12には、特徴量のデータとして、計測された時間ごとに、降水量、気温、通信量、電力量のデータが示されている。降水量は、交通量を計測したエリアに降った降水量である。気温は、交通量を計測したエリアの気温である。通信量は、交通量を計測したエリアを含む地域のネットワークで通信が行われた通信量である。電力量は、交通量を計測したエリアを含む地域で使用された電力量である。また、特徴量のデータには、計測されたデータから生成された2次的データも含まれている。図12には、特徴量のデータとして、2単位時間前の気温、通信量の移動平均値が示されている。2単位時間前の気温は、2つ前に計測された気温である。通信量の移動平均値は、所定時間前までの通信量の平均値である。   Next, description will be made using a specific example. Below, the case where a prediction model of traffic is generated is explained to an example. FIG. 12 is a diagram illustrating an example of data of an objective variable and data of a feature amount. FIG. 12 shows traffic volume data for each measured time as data of the target variable. Further, FIG. 12 shows, as data of the feature amount, data of precipitation, temperature, communication amount, and electric energy for each measured time. Precipitation is the amount of precipitation that falls in the area where traffic was measured. The temperature is the temperature of the area where the traffic volume is measured. The communication amount is the communication amount in which communication is performed in the regional network including the area where the traffic amount is measured. The amount of electric power is the amount of electric power used in the area including the area where the traffic volume is measured. The feature amount data also includes secondary data generated from the measured data. FIG. 12 shows a moving average value of the air temperature and the communication amount two unit time ago as data of the feature amount. The temperature two units before is the temperature measured two times before. The moving average value of the communication amount is an average value of the communication amounts up to a predetermined time before.

算出部41は、目的変数のデータと、複数の特徴量のデータとを所定の時間帯ごとのウィンドウに分割する。図13は、目的変数のデータと、複数の特徴量のデータの分割の一例を示す図である。図13の例では、ウィンドウを曜日ごととしている。算出部41は、目的変数のデータと、複数の特徴量のデータを曜日ごとのウィンドウW1〜W3に分割する。   The calculation unit 41 divides the data of the objective variable and the data of the plurality of feature amounts into windows for each predetermined time zone. FIG. 13 is a diagram illustrating an example of division of objective variable data and a plurality of feature amount data. In the example of FIG. 13, the window is set for each day of the week. The calculation unit 41 divides data of the objective variable and data of a plurality of feature amounts into windows W1 to W3 for each day of the week.

算出部41は、ウィンドウごとに、目的変数のデータと、複数の特徴量のデータそれぞれとの相関値を算出する。例えば、算出部41は、相関値として、積率相関係数を算出する。図14は、相関の算出の一例を示す図である。   The calculation unit 41 calculates, for each window, correlation values between the data of the objective variable and the data of the plurality of feature amounts. For example, the calculation unit 41 calculates a product moment correlation coefficient as the correlation value. FIG. 14 is a diagram showing an example of correlation calculation.

ここで、積率相関係数の算出の一例を説明する。データX=(x1,・・・,xn)に対して、Xの平均、分散、標準偏差は、以下の式(2)〜(4)のように表せる。 Here, an example of calculation of a product moment correlation coefficient will be described. For the data X = (x 1 ,..., X n ), the mean, variance, and standard deviation of X can be expressed as the following formulas (2) to (4).

Xの平均:μ(X)=(x1+・・・+x)/n (2)
Xの分散:σ2(X)={(x1−μ(X))2+・・・
+(x−μ(X))2}/n (3)
Xの標準偏差:σ(X)=(σ2(X))1/2 (4)
Average of X: μ (X) = (x 1 +... + X n ) / n (2)
Dispersion of X: σ 2 (X) = {(x 1 −μ (X)) 2 +...
+ (X n- μ (X)) 2 } / n (3)
Standard deviation of X: σ (X) = (σ 2 (X)) 1/2 (4)

また、データX=(x1,・・・,xn)とデータY=(y1,・・・,yn)対して、X、Yの共分散は、以下の式(5)のように表せる。 Also, for data X = (x 1 ,..., X n ) and data Y = (y 1 ,..., Y n ), the covariance of X and Y is given by the following equation (5) It can be expressed as

X、Yの共分散:S(X,Y)={(x1−μ(x))×(y1−μ(y))+・・・
+(x−μ(x))×(y−μ(y))}/n (5)
Covariance of X and Y: S (X, Y) = {(x 1 −μ (x)) × (y 1 −μ (y)) +.
+ (X n −μ (x)) × (y n −μ (y))} / n (5)

X、Yの積率相関係数は、R(X,Y)=S(X,Y)/(σ(X)σ(Y))とする。   The product moment correlation coefficient of X and Y is R (X, Y) = S (X, Y) / (σ (X) σ (Y)).

例えば、ウィンドウW1の目的変数X=(5,6,9,4)と降水量Y=(4,2,5,1)とした場合、X、Yの平均、分散、標準偏差は、以下のように算出される。   For example, when the objective variable X = (5,6,9,4) and precipitation Y = (4,2,5,1) in the window W1, the average, variance, and standard deviation of X and Y are as follows: It is calculated as follows.

μ(X)=(5+6+9+4)/4=24/4=6
μ(Y)=(4+2+5+1)/4=2/4=3
σ2(X)=((5−6)2+(6−6)2+(9−6)2+(4−6)2)/4
=(1+0+9+4)/4=14/4=3.5
σ2(Y)=((4-3)2+(2-3)2+(5-3)2+(1-3)2)/4
=(1+1+4+4)/4=10/4=2.5
σ(X)=(3.5)1/2≒1.87
σ(Y)=(2.5)1/2≒ 1.58
μ (X) = (5 + 6 + 9 + 4) / 4 = 24/4 = 6
μ (Y) = (4 + 2 + 5 + 1) / 4 = 2/4 = 3
σ 2 (X) = ((5-6) 2 + (6-6) 2 + (9-6) 2 + (4-6) 2 ) / 4
= (1 + 0 + 9 + 4) /4=14/4=3.5
σ 2 (Y) = ((4-3) 2 + (2-3) 2 + (5-3) 2 + (1-3) 2 ) / 4
= (1 + 1 + 4 + 4) /4=10/4=2.5
σ (X) = (3.5) 1/2 1.81.87
σ (Y) = (2.5) 1/2 1. 1.58

よって、X、Yの共分散S(X,Y)、積率相関係数R(X,Y)は、以下のように算出される。   Therefore, the covariance S (X, Y) of X and Y and the product moment correlation coefficient R (X, Y) are calculated as follows.

S(X,Y)=((5−6)×(4−3)+(6−6)×(2−3)+
(9−6)×(5−3)+(4−6)×(1−3))/4
=(−1+0+6+4)/4=9/4=2.25
R(X,Y)≒ 2.25/(1.87×1.58)≒2.25/2.95≒0.76
S (X, Y) = ((5-6) x (4-3) + (6-6) x (2-3) +
(9-6) × (5-3) + (4-6) × (1-3)) / 4
= (-1 + 0 + 6 + 4) /4=9/4=2.25
R (X, Y) ≒ 2.25 / (1.87 × 1.58) ≒ 2.25 / 2.95 ≒ 0.76

相関値を積率相関係数の絶対値とした場合、相関値は、以下のように算出される。   When the correlation value is the absolute value of the product moment correlation coefficient, the correlation value is calculated as follows.

相関値:|R(X,Y)|≒|0.76|=0.76   Correlation value: | R (X, Y) | ≒ | 0.76 | = 0.76

分類部42は、ウィンドウごとに算出した相関の変化が類似する特徴量を同じ分類に分類して、特徴量を複数のクラスタに分類する。例えば、分類部42は、特徴量ごとに、他の特徴量と各期間で相関値の誤差を求める。そして、分類部42は、誤差が近い特徴量を同じ分類に分類する。図15は、複数の特徴量のデータを分類する一例を示す図である。図15の例では、気温および電力量がクラスタ1に分類され、降水量がクラスタ2に分類され、通信量、2単位時間前の気温および通信量の移動平均値がクラスタ3に分類されている。   The classifying unit 42 classifies feature quantities having similar correlation changes calculated for each window into the same class, and classifies the feature quantities into a plurality of clusters. For example, for each feature quantity, the classification unit 42 obtains an error in correlation values with other feature quantities in each period. Then, the classifying unit 42 classifies feature quantities having similar errors into the same classification. FIG. 15 is a diagram illustrating an example of classifying data of a plurality of feature amounts. In the example of FIG. 15, the temperature and the electric energy are classified into cluster 1, the precipitation is classified into cluster 2, and the moving average value of the air temperature and the communication amount two units before the communication amount is classified into cluster 3. .

抽出部43は、クラスタごとに、当該クラスタに分類された時系列データに対して算出された期間ごとの相関値を所定の重み付けで重み付け演算してスコアを求める。図16は、クラスタごとのスコアの一例を示す図である。図16の例では、相関値が0.7以上の重みを1とし、相関値が0.7未満の重みを0としてウィンドウW1〜W3の相関値を重み付け平均した値をスコアとしている。   For each cluster, the extraction unit 43 calculates a score by weighting the correlation value for each period calculated for the time-series data classified into the cluster with a predetermined weight. FIG. 16 is a diagram illustrating an example of a score for each cluster. In the example of FIG. 16, a weight is obtained by averaging the correlation values of the windows W <b> 1 to W <b> 3 with a weight having a correlation value of 0.7 or more being 1 and a weight having a correlation value of less than 0.7 being 0.

抽出部43は、クラスタごとに、スコアに基づき、特徴量を抽出する。図17は、クラスタごとの特徴量の抽出の一例を示す図である。図17の例では、クラスタごとに、スコアが最大となる特徴量を抽出しており、クラスタ1から電力量が抽出され、クラスタ2から降水量が抽出され、クラスタ3から通信量の移動平均値が抽出される。   The extraction unit 43 extracts a feature amount for each cluster based on the score. FIG. 17 is a diagram illustrating an example of feature amount extraction for each cluster. In the example of FIG. 17, the feature quantity having the maximum score is extracted for each cluster, the electric energy is extracted from the cluster 1, the precipitation is extracted from the cluster 2, and the moving average value of the traffic from the cluster 3 is extracted. Is extracted.

このように、データ出力装置10は、目的変数との相関に多様性のあるデータを抽出でき、学習に有効なデータを特定できるため、機械学習の予測精度を向上させることができる。   As described above, the data output apparatus 10 can extract data having diversity in correlation with the objective variable, and can specify data effective for learning. Therefore, the prediction accuracy of machine learning can be improved.

[処理の流れ]
実施例1に係るデータ出力装置10が多様性のあるデータを出力するデータ出力処理の流れについて説明する。図18は、実施例1に係るデータ出力処理の手順の一例を示すフローチャートである。このデータ出力処理は、所定のタイミング、例えば、入力部21から処理開始の操作指示を受け付けたタイミングで実行される。
[Flow of processing]
A flow of data output processing in which the data output apparatus 10 according to the first embodiment outputs diverse data will be described. FIG. 18 is a flowchart illustrating an example of the procedure of the data output process according to the first embodiment. The data output process is performed at a predetermined timing, for example, at a timing when an operation instruction to start the process is received from the input unit 21.

図18に示すように、算出部41は、目的変数データ30に記憶された目的変数のデータと、特徴量データ31に記憶された複数の特徴量のデータとをウィンドウに分割する(S10)。算出部41は、ウィンドウごとに、目的変数の値と、複数の特徴量との相関値を算出する(S11)。   As illustrated in FIG. 18, the calculation unit 41 divides the objective variable data stored in the objective variable data 30 and the plurality of feature amount data stored in the feature amount data 31 into windows (S10). The calculator 41 calculates, for each window, a correlation value between the value of the objective variable and a plurality of feature quantities (S11).

分類部42は、ウィンドウごとに算出した相関の変化が類似する特徴量を同じ分類に分類して、特徴量を複数のクラスタに分類する(S12)。抽出部43は、各特徴量のウィンドウごとの相関値をそれぞれ所定の重み付けで重み付けし、クラスタごとに、重み付けされた相関値からスコアを求める(S13)。抽出部43は、クラスタごとに、スコアに基づき、特徴量を抽出する(S14)。出力部44は、複数のクラスタのそれぞれから抽出した特徴量の種別を示す情報を出力し(S15)、処理を終了する。   The classification unit 42 classifies the feature quantities having similar changes in correlation calculated for each window into the same class, and classifies the feature quantities into a plurality of clusters (S12). The extraction unit 43 weights the correlation value of each feature amount for each window with a predetermined weight, and obtains a score from the weighted correlation value for each cluster (S13). The extraction unit 43 extracts the feature amount based on the score for each cluster (S14). The output unit 44 outputs information indicating the type of feature amount extracted from each of the plurality of clusters (S15), and ends the process.

[効果]
上述してきたように、本実施例に係るデータ出力装置10は、特定の監視対象の状態を示す値の時系列データと、特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データの其々との相関値を算出する。データ出力装置10は、算出した相関値間の相関に基づき、複数の監視対象の状態を示す時系列データを複数のクラスタに分類する。データ出力装置10は、複数のクラスタのそれぞれから何れかの時系列データを抽出する。データ出力装置10は、複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する。これにより、データ出力装置10は、学習に有効なデータを特定できる。
[effect]
As described above, the data output device 10 according to the present embodiment has a time series data value indicating a specific monitoring target state and a value indicating a plurality of monitoring target states different from the specific monitoring target. Calculate the correlation value of each series data. The data output device 10 classifies time series data indicating the states of a plurality of monitoring targets into a plurality of clusters based on the correlation between the calculated correlation values. The data output device 10 extracts any time series data from each of the plurality of clusters. The data output device 10 outputs information indicating the type of each time-series data extracted from each of the plurality of clusters. Thereby, the data output device 10 can specify data effective for learning.

また、本実施例に係るデータ出力装置10は、特定の監視対象の状態を示す値の時系列データと、複数の監視対象の状態を示す値の時系列データのそれぞれとを複数の期間に分割する。データ出力装置10は、期間ごとに、特定の監視対象の状態を示す値の時系列データと、複数の監視対象の状態を示す値の時系列データのそれぞれとの相関値を算出する。データ出力装置10は、期間ごとに算出した相関値の複数の期間における分布に基づき、複数の監視対象の状態を示す値の時系列データを複数のクラスタに分類する。これにより、データ出力装置10は、期間ごとのデータが類似する時系列データを同じクラスタに分類できる。   Further, the data output apparatus 10 according to the present embodiment divides time-series data of values indicating a specific monitoring target state and time-series data of values indicating a plurality of monitoring target states into a plurality of periods. Do. The data output device 10 calculates, for each period, a correlation value between time-series data of values indicating a specific monitoring target state and time-series data of values indicating a plurality of monitoring target states. The data output device 10 classifies time-series data of values indicating a plurality of monitoring target states into a plurality of clusters based on the distribution of correlation values calculated for each period in a plurality of periods. Thereby, the data output device 10 can classify time-series data having similar data for each period into the same cluster.

また、本実施例に係るデータ出力装置10は、クラスタごとに、当該クラスタに分類された時系列データに対して算出された期間ごとの相関値を所定の重み付けで重み付け演算したスコアに基づき、当該クラスタに分類された時系列データから代表の時系列データを抽出する。これにより、データ出力装置10は、各クラスタから同様の特性を有する代表の時系列データを抽出できる。   Further, the data output device 10 according to the present embodiment, for each cluster, based on a score obtained by weighting the correlation value for each period calculated for the time-series data classified into the cluster with a predetermined weight. Representative time-series data is extracted from time-series data classified into clusters. Thereby, the data output device 10 can extract representative time-series data having similar characteristics from each cluster.

次に、実施例2について説明する。図19は、実施例2に係るデータ出力装置の機能的な構成の一例を示す図である。なお、図1に示した実施例1に係るデータ出力装置10と同様の部分については、同様の符号を付して、主に異なる部分について説明する。   Next, Example 2 will be described. FIG. 19 is a diagram illustrating an example of a functional configuration of the data output apparatus according to the second embodiment. In addition, about the part similar to the data output device 10 which concerns on Example 1 shown in FIG. 1, the same code | symbol is attached | subjected and a different part is mainly demonstrated.

実施例2に係るデータ出力装置10は、特徴量をクラスタに分類することなく、学習に有効なデータを出力する。   The data output apparatus 10 according to the second embodiment outputs data effective for learning without classifying the feature quantities into clusters.

抽出部43Aは、算出部41により算出した相関値間の相関の非類似性に基づき、時系列データを抽出する。例えば、抽出部43Aは、相関値間の相関に基づき、複数の監視対象の状態を示す値の時系列データから、何れかの時系列データを抽出し、抽出した時系列データと相関値が類似する時系列データを抽出の対象から除くことを繰り返して時系列データを抽出する。例えば、抽出部43Aは、何れかの特徴量を抽出し、抽出した特徴量と相関値が類似する特徴量を抽出の対象から除くことを繰り返して、目的変数との相関に多様性のあるデータを抽出する。   The extraction unit 43A extracts time-series data based on the non-similarity of the correlation between the correlation values calculated by the calculation unit 41. For example, the extraction unit 43A extracts any time-series data from the time-series data indicating values of a plurality of monitoring targets based on the correlation between the correlation values, and the correlation value is similar to the extracted time-series data. The time series data is extracted by repeating excluding the time series data from the target of extraction. For example, the extraction unit 43A extracts one of the feature amounts, repeatedly removes the feature amount having a correlation value similar to the extracted feature amount from the extraction target, and has a variety of data in correlation with the objective variable. Extract

出力部44は、抽出部43Aにより抽出した時系列データの種別を示す情報を出力する。例えば、出力部44は、抽出部43Aにより抽出された特徴量の種別を示す情報を出力する。   The output unit 44 outputs information indicating the type of time-series data extracted by the extraction unit 43A. For example, the output unit 44 outputs information indicating the type of the feature amount extracted by the extraction unit 43A.

具体例を用いて説明する。図20は、目的変数に対する各特徴量の相関値の一例を示す図である。図20には、降水量、気温、通信量、電力量、2単位時間前の気温、通信量の移動平均値のウィンドウW1〜W3ごとの相関値が示されている。抽出部43Aは、特徴量ごとに、ウィンドウごとの相関値を所定の重み付けで重み付け演算してスコアを求める。図20の例では、相関値が0.7以上の重みを1とし、相関値が0.7未満の重みを0としてウィンドウW1〜W3の相関値を重み付け平均した値をスコアとしている。   This will be described using a specific example. FIG. 20 is a diagram illustrating an example of correlation values of feature amounts with respect to target variables. FIG. 20 shows the correlation values for the windows W1 to W3 of the precipitation, the temperature, the communication amount, the power amount, the temperature two unit time ago, and the moving average value of the communication amount. The extraction unit 43A calculates a score by weighting the correlation value of each window with predetermined weighting for each feature amount. In the example of FIG. 20, a weight having a correlation value of 0.7 or more is set to 1, a weight having a correlation value of less than 0.7 is set to 0, and a value obtained by weighted averaging the correlation values of the windows W1 to W3 is used as a score.

抽出部43Aは、何れかの特徴量を抽出する。例えば、抽出部43Aは、スコアが最も高い特徴量を抽出する。図21は、スコアが最も高い特徴量を抽出した一例を示す図である。図21の例では、降水量が抽出されている。   The extraction unit 43A extracts any feature amount. For example, the extraction unit 43A extracts the feature amount having the highest score. FIG. 21 is a diagram illustrating an example in which the feature amount having the highest score is extracted. In the example of FIG. 21, precipitation is extracted.

抽出部43Aは、抽出した特徴量と相関値が類似する特徴量を抽出の対象から除く。図22は、類似する特徴量を抽出の対象から除外した一例を示す図である。図22の例では、降水量と各期間の相関値のユークリッド距離が0.5以下の特徴量を除外している。   The extraction unit 43A excludes feature quantities having a correlation value similar to the extracted feature quantities from the extraction target. FIG. 22 is a diagram illustrating an example in which similar feature quantities are excluded from extraction targets. In the example of FIG. 22, feature quantities in which the Euclidean distance between the precipitation amount and the correlation value of each period is 0.5 or less are excluded.

抽出部43Aは、残った特徴量からスコアが最も高い特徴量を抽出する。図23は、残った特徴量からスコアが最も高い特徴量を抽出した一例を示す図である。図23の例では、気温が抽出されている。   The extraction unit 43A extracts the feature amount having the highest score from the remaining feature amounts. FIG. 23 is a diagram illustrating an example in which the feature amount having the highest score is extracted from the remaining feature amounts. In the example of FIG. 23, the air temperature is extracted.

抽出部43Aは、抽出した特徴量と相関値が類似する特徴量を抽出の対象から除く。図24は、類似する特徴量を抽出の対象から除外した一例を示す図である。図24の例では、気温と各期間の相関値のユークリッド距離が0.5以下の特徴量が無いため、何れも除外されない。   The extraction unit 43A excludes feature quantities having a correlation value similar to the extracted feature quantities from the extraction target. FIG. 24 is a diagram illustrating an example in which similar feature quantities are excluded from extraction targets. In the example of FIG. 24, since there is no feature quantity with the Euclidean distance of the correlation value between the temperature and each period being 0.5 or less, none is excluded.

抽出部43Aは、残った特徴量からスコアが最も高い特徴量を抽出する。図25は、残った特徴量からスコアが最も高い特徴量を抽出した一例を示す図である。図25の例では、残った2単位時間前の気温が抽出されている。   The extraction unit 43A extracts the feature amount having the highest score from the remaining feature amounts. FIG. 25 is a diagram illustrating an example in which the feature amount having the highest score is extracted from the remaining feature amounts. In the example of FIG. 25, the temperature of 2 units time ago which remained is extracted.

出力部44は、抽出部43Aにより抽出された降水量、気温、2単位時間前の気温を出力する。   The output unit 44 outputs the amount of precipitation extracted by the extraction unit 43A, the temperature, and the temperature two units of time before.

[処理の流れ]
実施例2に係るデータ出力装置10が多様性のあるデータを出力するデータ出力処理の流れについて説明する。図26は、実施例2に係るデータ出力処理の手順の一例を示すフローチャートである。なお、図18に示した実施例1に係るデータ出力処理と同一の部分については、同一の符号を付してその説明を省略する。
[Flow of processing]
A flow of data output processing in which the data output device 10 according to the second embodiment outputs various data will be described. FIG. 26 is a flowchart illustrating an exemplary procedure of a data output process according to the second embodiment. The same parts as those of the data output process according to the first embodiment shown in FIG. 18 will be assigned the same reference numerals and descriptions thereof will be omitted.

図26に示すように、抽出部43Aは、何れかの特徴量を抽出する(S20)。例えば、抽出部43Aは、スコアが最も高い特徴量を抽出する。抽出部43Aは、抽出した特徴量と相関値が類似する特徴量を抽出の対象から除外する(S21)。抽出部43Aは、抽出の対象となる特徴量が存在するか判定する(S22)。抽出の対象となる特徴量が存在する場合(S22肯定)、上述のS20へ移行し、抽出の対象となる特徴量から何れかの特徴量を抽出する。   As illustrated in FIG. 26, the extraction unit 43A extracts any feature amount (S20). For example, the extraction unit 43A extracts the feature amount having the highest score. The extraction unit 43A excludes feature quantities whose correlation values are similar to the extracted feature quantities from the extraction targets (S21). The extraction unit 43A determines whether there is a feature amount to be extracted (S22). If there is a feature to be extracted (Yes at S22), the process proceeds to S20 described above, and any feature is extracted from the features to be extracted.

一方、抽出の対象となる特徴量が存在しない場合(S22否定)、出力部44は、抽出部43Aにより抽出された特徴量の種別を示す情報を出力し(S23)、処理を終了する。   On the other hand, when there is no feature quantity to be extracted (No at S22), the output unit 44 outputs information indicating the type of feature quantity extracted by the extraction unit 43A (S23), and ends the process.

[効果]
上述してきたように、本実施例に係るデータ出力装置10は、特定の監視対象の状態を示す値の時系列データと、特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データの其々との相関値を算出する。データ出力装置10は、相関値間の相関の非類似性に基づき、時系列データを抽出する。データ出力装置10は、抽出した時系列データの種別を示す情報を出力する。これにより、データ出力装置10は、学習に有効なデータを特定できる。
[effect]
As described above, the data output device 10 according to the present embodiment has a time series data value indicating a specific monitoring target state and a value indicating a plurality of monitoring target states different from the specific monitoring target. Calculate the correlation value of each series data. The data output device 10 extracts time series data based on the dissimilarity of the correlation between the correlation values. The data output device 10 outputs information indicating the type of extracted time-series data. Thereby, the data output device 10 can specify data effective for learning.

また、本実施例に係るデータ出力装置10は、算出した相関値間の相関に基づき、前記複数の監視対象の状態を示す値の時系列データから、何れかの時系列データを抽出し、抽出した時系列データと相関値が類似する時系列データを抽出の対象から除くことを繰り返して時系列データを抽出する。これにより、データ出力装置10は、特定の監視対象の状態との相関に多様性のある時系列データを抽出できる。   Further, the data output device 10 according to the present embodiment extracts any time series data from the time series data of values indicating the states of the plurality of monitoring targets based on the correlation between the calculated correlation values, and extracts the time series data. The time-series data is extracted by repeatedly removing time-series data having a correlation value similar to the extracted time-series data from the extraction target. As a result, the data output device 10 can extract time-series data having a variety of correlations with the specific monitoring target state.

さて、これまで開示の装置に関する実施例について説明したが、開示の技術は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。   Although the embodiments of the disclosed apparatus have been described above, the disclosed technology may be implemented in various different forms other than the above-described embodiments.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的状態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部40、算出部41、分類部42、抽出部43(抽出部43A)、出力部44および予測部45の各処理部が適宜統合されてもよい。また、各処理部の処理が適宜複数の処理部の処理に分離されてもよい。さらに、各処理部にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific state of distribution / integration of each device is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. It can be integrated and configured. For example, the processing units of the reception unit 40, the calculation unit 41, the classification unit 42, the extraction unit 43 (extraction unit 43A), the output unit 44, and the prediction unit 45 may be integrated as appropriate. Further, the processing of each processing unit may be appropriately separated into a plurality of processing units. Further, all or any part of each processing function performed in each processing unit can be realized by a CPU and a program analyzed and executed by the CPU, or can be realized as hardware by wired logic. .

[データ出力プログラム]
また、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムの一例を説明する。図27は、データ出力プログラムを実行するコンピュータを示す図である。
[Data output program]
The various processes described in the above embodiments can also be realized by executing a prepared program on a computer system such as a personal computer or a workstation. So, below, an example of a computer system which runs a program which has the same function as the above-mentioned example is explained. FIG. 27 shows a computer that executes a data output program.

図27に示すように、コンピュータ300は、CPU(Central Processing Unit)310、HDD(Hard Disk Drive)320、RAM(Random Access Memory)340を有する。これら300〜340の各部は、バス400を介して接続される。   As shown in FIG. 27, the computer 300 includes a CPU (Central Processing Unit) 310, a HDD (Hard Disk Drive) 320, and a RAM (Random Access Memory) 340. These units 300 to 340 are connected via a bus 400.

HDD320には上記の受付部40、算出部41、分類部42、抽出部43(抽出部43A)、出力部44および予測部45と同様の機能を発揮するデータ出力プログラム320aが予め記憶される。なお、データ出力プログラム320aについては、適宜分離しても良い。   The HDD 320 stores in advance a data output program 320a that performs the same functions as the reception unit 40, the calculation unit 41, the classification unit 42, the extraction unit 43 (extraction unit 43A), the output unit 44, and the prediction unit 45. The data output program 320a may be separated as appropriate.

また、HDD320は、各種情報を記憶する。例えば、HDD320は、OSや分析に用いる各種データを記憶する。   The HDD 320 also stores various information. For example, the HDD 320 stores various data used for the OS and analysis.

そして、CPU310が、データ出力プログラム320aをHDD320から読み出して実行することで、実施例の各処理部と同様の動作を実行する。すなわち、データ出力プログラム320aは、受付部40、算出部41、分類部42、抽出部43(抽出部43A)、出力部44および予測部45と同様の動作を実行する。   Then, the CPU 310 reads out and executes the data output program 320a from the HDD 320, thereby executing the same operation as each processing unit of the embodiment. That is, the data output program 320a performs the same operations as the reception unit 40, the calculation unit 41, the classification unit 42, the extraction unit 43 (extraction unit 43A), the output unit 44, and the prediction unit 45.

なお、上記したデータ出力プログラム320aは、必ずしも最初からHDD320に記憶させることを要しない。   Note that the data output program 320a described above does not necessarily have to be stored in the HDD 320 from the beginning.

例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。   For example, the program is stored in a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into the computer 300. Then, the computer 300 may read and execute programs from these.

さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ300に接続される「他のコンピュータ(またはサーバ)」などにプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。   Furthermore, the program is stored in “another computer (or server)” connected to the computer 300 via a public line, the Internet, a LAN, a WAN or the like. Then, the computer 300 may read and execute programs from these.

10 データ出力装置
23 記憶部
24 制御部
30 目的変数データ
31 特徴量データ
40 受付部
41 算出部
42 分類部
43、43A 抽出部
44 出力部
45 予測部
10 Data Output Device 23 Storage Unit 24 Control Unit 30 Objective Variable Data 31 Feature Quantity Data 40 Reception Unit 41 Calculation Unit 42 Classification Unit 43, 43A Extraction Unit 44 Output Unit 45 Prediction Unit

Claims (3)

特定の監視対象の状態を示す値の時系列データと、前記特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データのそれぞれとを複数の期間に分割し、
前記期間ごとに、前記特定の監視対象の状態を示す値の時系列データと、前記複数の監視対象の状態を示す値の時系列データのそれぞれとの相関値を算出し、
前記期間ごとに算出した前記相関値の前記複数の期間における分布に基づき、前記複数の監視対象の状態を示す時系列データを複数のクラスタに分類し、
前記複数の監視対象の状態を示す時系列データごとに、当該時系列データに対して算出された前記期間ごとの前記相関値を所定の重み付けで重み付け演算してスコアを求め、前記クラスタごとに、当該クラスタに分類された時系列データから前記スコアが最大の時系列データを抽出し、
前記複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する、
処理をコンピュータが実行することを特徴とするデータ出力方法。
Each of time-series data of a value indicating a state of a specific monitoring target and time-series data of a value indicating a state of a plurality of monitoring targets different from the specific monitoring target is divided into a plurality of periods;
For each of the periods , correlation values between time series data of values indicating the status of the specific monitoring target and time series data of values indicating the status of the plurality of monitoring targets are calculated;
The time series data indicating the states of the plurality of monitoring targets are classified into a plurality of clusters based on the distribution of the correlation value calculated for each period in the plurality of periods ,
For each of the time-series data indicating the state of the plurality of monitoring targets, a score is obtained by performing a weighting operation with a predetermined weight on the correlation value calculated for the time-series data, and for each cluster, Extract time-series data with the maximum score from the time-series data classified into the cluster ,
Outputting information indicating the type of each time-series data extracted from each of the plurality of clusters;
And a computer executes the processing .
特定の監視対象の状態を示す値の時系列データと、前記特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データのそれぞれとを複数の期間に分割し、
前記期間ごとに、前記特定の監視対象の状態を示す値の時系列データと、前記複数の監視対象の状態を示す値の時系列データのそれぞれとの相関値を算出し、
前記期間ごとに算出した前記相関値の前記複数の期間における分布に基づき、前記複数の監視対象の状態を示す時系列データを複数のクラスタに分類し、
前記複数の監視対象の状態を示す時系列データごとに、当該時系列データに対して算出された前記期間ごとの前記相関値を所定の重み付けで重み付け演算してスコアを求め、前記クラスタごとに、当該クラスタに分類された時系列データから前記スコアが最大の時系列データを抽出し、
前記複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する、
処理をコンピュータに実行させることを特徴とするデータ出力プログラム。
Each of time-series data of a value indicating a state of a specific monitoring target and time-series data of a value indicating a state of a plurality of monitoring targets different from the specific monitoring target is divided into a plurality of periods;
For each of the periods , correlation values between time series data of values indicating the status of the specific monitoring target and time series data of values indicating the status of the plurality of monitoring targets are calculated;
The time series data indicating the states of the plurality of monitoring targets are classified into a plurality of clusters based on the distribution of the correlation value calculated for each period in the plurality of periods ,
For each of the time-series data indicating the state of the plurality of monitoring targets, a score is obtained by performing a weighting operation with a predetermined weight on the correlation value calculated for the time-series data, and for each cluster, Extract time-series data with the maximum score from the time-series data classified into the cluster ,
Outputting information indicating the type of each time-series data extracted from each of the plurality of clusters;
A data output program that causes a computer to execute a process.
特定の監視対象の状態を示す値の時系列データと、前記特定の監視対象とは異なる複数の監視対象の状態を示す値の時系列データのそれぞれとを複数の期間に分割し、前記期間ごとに、前記特定の監視対象の状態を示す値の時系列データと、前記複数の監視対象の状態を示す値の時系列データのそれぞれとの相関値を算出する算出部と、
前記算出部により前記期間ごとに算出した前記相関値の前記複数の期間における分布に基づき、前記複数の監視対象の状態を示す時系列データを複数のクラスタに分類する分類部と、
前記複数の監視対象の状態を示す時系列データごとに、当該時系列データに対して算出された前記期間ごとの前記相関値を所定の重み付けで重み付け演算してスコアを求め、前記クラスタごとに、当該クラスタに分類された時系列データから前記スコアが最大の時系列データを抽出する抽出部と、
前記抽出部により前記複数のクラスタのそれぞれから抽出した各時系列データの種別を示す情報を出力する出力部と、
を有することを特徴とするデータ出力装置。
Each of time-series data of a value indicating a state of a specific monitoring target and time-series data of values indicating a state of a plurality of monitoring targets different from the specific monitoring target is divided into a plurality of periods, and each period A calculation unit that calculates correlation values between time-series data of values indicating the status of the specific monitoring target and time-series data of values indicating the status of the plurality of monitoring targets ;
A classification unit that classifies time series data indicating the states of the plurality of monitoring targets into a plurality of clusters based on the distribution of the correlation value calculated for each period by the calculation unit in the plurality of periods ;
For each of the time-series data indicating the state of the plurality of monitoring targets, a score is obtained by performing a weighting operation with a predetermined weight on the correlation value calculated for the time-series data, and for each cluster, An extraction unit for extracting time-series data having the largest score from time-series data classified into the cluster ;
An output unit that outputs information indicating a type of each time-series data extracted from each of the plurality of clusters by the extraction unit;
A data output device comprising:
JP2015031096A 2015-02-19 2015-02-19 Data output method, data output program and data output device Active JP6550783B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015031096A JP6550783B2 (en) 2015-02-19 2015-02-19 Data output method, data output program and data output device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015031096A JP6550783B2 (en) 2015-02-19 2015-02-19 Data output method, data output program and data output device

Publications (2)

Publication Number Publication Date
JP2016152039A JP2016152039A (en) 2016-08-22
JP6550783B2 true JP6550783B2 (en) 2019-07-31

Family

ID=56695489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015031096A Active JP6550783B2 (en) 2015-02-19 2015-02-19 Data output method, data output program and data output device

Country Status (1)

Country Link
JP (1) JP6550783B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6588877B2 (en) * 2016-08-23 2019-10-09 株式会社日立製作所 Factor analysis support device and factor analysis support method
JP6926429B2 (en) * 2016-09-27 2021-08-25 日本電気株式会社 Data processing equipment, data processing methods, and programs
JP7127305B2 (en) * 2018-03-13 2022-08-30 日本電気株式会社 Information processing device, information processing method, program
JP7199075B2 (en) * 2018-05-08 2023-01-05 国立研究開発法人情報通信研究機構 Forecasting systems and methods
JP6727478B1 (en) * 2019-03-28 2020-07-22 三菱電機株式会社 Learning device, learning method and program
JP7108577B2 (en) * 2019-05-13 2022-07-28 株式会社日立製作所 Diagnostic device, diagnostic method and processing device
JP7511379B2 (en) 2020-04-28 2024-07-05 株式会社マネーフォワード Information processing device and program
JP7458268B2 (en) 2020-08-21 2024-03-29 株式会社東芝 Information processing device, information processing method, computer program and information processing system
WO2022118689A1 (en) * 2020-12-01 2022-06-09 ソニーグループ株式会社 Information processing device, information processing method, and information processing program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344590A (en) * 2000-05-31 2001-12-14 Fuji Electric Co Ltd Neural network and method for learning the same and method for analyzing the same and method for judging abnormality
JP2004086897A (en) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd Method and system for constructing model
JP2012027880A (en) * 2010-07-28 2012-02-09 Hitachi Ltd Information analysis method, computer system, and information analysis program
JP5853821B2 (en) * 2012-03-29 2016-02-09 富士通株式会社 Management device, resource management method, resource management program, and information processing system

Also Published As

Publication number Publication date
JP2016152039A (en) 2016-08-22

Similar Documents

Publication Publication Date Title
JP6550783B2 (en) Data output method, data output program and data output device
TWI818999B (en) Predictive model training method and device for new scenarios
US10068176B2 (en) Defect prediction method and apparatus
CN104503874A (en) Hard disk failure prediction method for cloud computing platform
KR101563406B1 (en) System and method for large unbalanced data classification based on hadoop
EP3918472B1 (en) Techniques to detect fusible operators with machine learning
US20150081599A1 (en) Method, Apparatus and Computer Program Product for Determining Failure Regions of an Electrical Device
US9276821B2 (en) Graphical representation of classification of workloads
KR101463425B1 (en) Abnormality observation data detection method using time series prediction model and abnormality observation data of ground water level
US10417083B2 (en) Label rectification and classification/prediction for multivariate time series data
Lin et al. Short-term forecasting of traffic volume: evaluating models based on multiple data sets and data diagnosis measures
US20210020036A1 (en) Predicting short-term traffic flow congestion on urban motorway networks
Sielenou et al. Combining random forests and class-balancing to discriminate between three classes of avalanche activity in the French Alps
US11255678B2 (en) Classifying entities in digital maps using discrete non-trace positioning data
CN105095756A (en) Method and device for detecting portable document format document
CN103473540A (en) Vehicle track incremental modeling and on-line abnormity detection method of intelligent traffic system
EP3745317A1 (en) Apparatus and method for analyzing time series data based on machine learning
JP5973636B1 (en) Abnormal vector detection apparatus and abnormal vector detection program
Zha et al. Selection of time window for wind power ramp prediction based on risk model
CN115542397A (en) Tsunami danger analysis method based on SVM
US9177215B2 (en) Sparse representation for dynamic sensor networks
Hidayat et al. Performance Analysis and mitigation of virtual machine server by using naive bayes classification
KR101703972B1 (en) System and method for predicting groundwater potential area using spatial information
Goethals et al. Reliable spurious mode rejection using self learning algorithms
JP2018181052A (en) Model identification apparatus, prediction apparatus, monitoring system, model identification method, and prediction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R150 Certificate of patent or registration of utility model

Ref document number: 6550783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150