JP7481909B2 - Feature generation method and feature generation device - Google Patents
Feature generation method and feature generation device Download PDFInfo
- Publication number
- JP7481909B2 JP7481909B2 JP2020095384A JP2020095384A JP7481909B2 JP 7481909 B2 JP7481909 B2 JP 7481909B2 JP 2020095384 A JP2020095384 A JP 2020095384A JP 2020095384 A JP2020095384 A JP 2020095384A JP 7481909 B2 JP7481909 B2 JP 7481909B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- reference date
- negative example
- positive
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004364 calculation method Methods 0.000 claims description 145
- 238000009826 distribution Methods 0.000 claims description 49
- 238000010801 machine learning Methods 0.000 claims description 37
- 238000009825 accumulation Methods 0.000 claims description 29
- 230000001186 cumulative effect Effects 0.000 claims description 22
- 230000002123 temporal effect Effects 0.000 claims description 21
- 238000007405 data analysis Methods 0.000 description 40
- 238000012545 processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、時系列データから生成した特徴量で機械学習を行う特徴量生成装置及び特徴量生成方法に関する。 The present invention relates to a feature generation device and a feature generation method that perform machine learning using features generated from time-series data.
時系列データから機械学習のモデルを生成する技術としては、例えば、特許文献1が知られている。特許文献1には、製造装置の時系列データ(例えば、センサ値やイベントログ)からの故障予測を目的としたMIL(Multiple Instance Learning)に関して、negative bagのサブセットを複数抽出し、該サブセット毎にpositive bagと併せて学習させた分類器を生成し、該分類器群の(各特徴量に掛かる)重みの平均が大きい特徴量を優先して選択し、該特徴量を入力として故障予測モデルを学習させる技術が開示されている。
For example,
また、特許文献2には、製薬における副作用の検出を目的として、患者毎の医療事象の履歴を対象に、投薬から特定期間内に発生した疾患の組み合わせや、他の医療事象(例えば、入院や医療費)の時系列パターン及び既知の投薬と副作用の組み合わせ(positive/negative)を学習して、ある医療事象の履歴が副作用発生のケースであるか否かをスコアリングする技術が開示されている。
また、特許文献3には、訓練データのラベル付与に関して、主要な特徴量(数個)から始めて、ラベリングに役立つ追加の特徴量を、熟練者に提示して選択してもらうことを何度か繰り返すことで、徐々に特徴量を増やしてラベルの再現率を高め、適切な個数の特徴量で正例の全てに該ラベルを付与する技術が開示されている。
上記従来例では、人手によらず学習させる特徴量を絞り込むことは考慮されていない。このため、特徴量の積などによって説明変数を合成するような場合では、説明変数の組み合わせ数が膨大になる場合がある、という問題があった。 The above conventional example does not take into consideration the narrowing down of features to be learned without manual intervention. This causes a problem in that when explanatory variables are synthesized by multiplying features, the number of combinations of explanatory variables can become enormous.
また、時系列データから、目的事象の発生(正例)を予測する機械学習のモデルを生成する際には、機械学習の入力データとなる特徴量を正例と負例から生成する。正例の時系列データは、分析対象期間を目的事象の発生した日(又は日時)を基準日とし、基準日から所定期間を分析対象期間とする。 When generating a machine learning model that predicts the occurrence of a target event (positive example) from time series data, features that serve as input data for machine learning are generated from positive and negative examples. For time series data of positive examples, the analysis period is set to the date (or date and time) when the target event occurred as the base date, and a specified period from the base date is set as the analysis period.
一方、負例の時系列データは、分析対象期間は正例と同一ではあるが、目的事象が発生していないため、前記従来例ではどのように負例の基準日を決定するかについては考慮されていない、という問題があった。 On the other hand, the time series data for negative cases has the same analysis period as the positive cases, but since the target event does not occur, the above-mentioned conventional example has a problem in that it does not take into consideration how to determine the reference date for negative cases.
そこで本発明は、上記問題点に鑑みてなされたもので、時系列データから目的事象の発生を予測する機械学習モデルを生成する際に、機械学習の入力データ数が膨大になるのを抑制し、負例の時系列データの基準日を決定することを目的とする。 The present invention has been made in consideration of the above problems, and aims to prevent the amount of input data for machine learning from becoming too large when generating a machine learning model that predicts the occurrence of a target event from time series data, and to determine the reference date for negative example time series data.
本発明は、プロセッサとメモリを有する計算機が、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成方法であって、前記計算機が、値とタイムスタンプを含む複数の時系列データを受け付ける時系列データ入力ステップと、前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付ける目的事象発生データ入力ステップと、前記計算機が、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義を受け付ける特徴量算出定義入力ステップと、前記計算機が、目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する分割ステップと、前記計算機が、前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定ステップと、前記計算機が、前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する正例特徴量算出ステップと、前記計算機が、前記正例基準日、前記正例特徴量、及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定ステップと、前記計算機が、前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出する負例特徴量算出ステップと、を含む。 The present invention is a feature generation method in which a computer having a processor and a memory receives time series data and generates features to be input data to a machine learning unit that predicts the occurrence of a target event, the method including a time series data input step in which the computer receives a plurality of time series data including values and timestamps, a target event occurrence data input step in which the computer receives target event occurrence data including a timestamp at which the target event occurred, a feature calculation definition input step in which the computer receives a feature calculation definition that defines the content for calculating the feature of the time series data, and a feature calculation step in which the computer converts the time series data into a positive example time series data by referring to the target event occurrence data. a positive example reference date determination step in which the computer determines a positive example reference date, which is a reference date in the positive example time series data; a positive example feature calculation step in which the computer calculates positive example features from a combination of the positive example time series data and the positive example reference date based on the feature calculation definition; a negative example reference date determination step in which the computer determines a negative example reference date using the positive example reference date, the positive example features, and the negative example time series data as inputs; and a negative example feature calculation step in which the computer calculates negative example features from a combination of the negative example time series data and the negative example reference date based on the feature calculation definition.
したがって、本発明は、特徴量の重要度が高い方から特徴量重要度の累積値を算出し、該累積値に対する閾値に基づいて、重要度の低い特徴量から徐々に排除することで、重要な特徴量を絞り込むことで、特徴量(説明変数)の組み合わせが膨大になるのを抑制することが可能となる。また、負例の時系列データから、正例の特徴量に近いことを指標として負例の基準日を決定することが可能となる。 Therefore, in the present invention, by calculating the cumulative value of feature importance starting from the most important feature, and gradually eliminating features with less importance based on a threshold value for the cumulative value, it is possible to narrow down the important features and prevent the number of combinations of features (explanatory variables) from becoming too large. In addition, it is possible to determine the reference date for negative examples from the time series data of negative examples, using the proximity to the features of positive examples as an indicator.
本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。 Details of at least one implementation of the subject matter disclosed herein are set forth in the accompanying drawings and the description below. Other features, aspects, and advantages of the disclosed subject matter will become apparent from the following disclosure, drawings, and claims.
以下、本発明の実施形態を添付図面に基づいて説明する。 The following describes an embodiment of the present invention with reference to the attached drawings.
図1は、本発明の実施例1を示し、経時データ分析装置1の構成の一例を示すブロック図である。
Figure 1 shows a first embodiment of the present invention, and is a block diagram showing an example of the configuration of a time-course
経時データ分析装置1は、プロセッサ2と、メモリ3と、ストレージ装置4と、入力装置5と、出力装置6と、通信装置7を含む計算機である。
The time-course
本実施例の経時データ分析装置1は、学習用の時系列データ102として例えば、金融機関の口座残高を使用し、目的事象として債務不履行(貸し倒れ)の発生を用い、口座残高の時系列の推移から債務不履行の発生を予測する機械学習のモデルを生成する例を示す。
The longitudinal
なお、時系列データ102は、口座残高に限定されるものではなく、また、目的事象は債務不履行の発生に限定されるものではなく、例えば、物理量の時系列から故障発生などの目的事象の発生を予測するようにしてもよい。
The
本実施例の時系列データ102は、口座の識別子毎に、値(残高)とタイムスタンプ(日付)と予め設定された識別子を一つのレコードに含む。
In this embodiment, the
経時データ分析装置1のメモリ3には、予め収集された時系列データ102から特徴量を算出する経時特徴量生成部110と、特徴量の絞り込みを行う特徴選択部150と、機械学習を実施して予測モデルを生成する機械学習部160を格納する。
The
経時特徴量生成部110と、特徴選択部150と、機械学習部160の各機能部はプログラムとしてメモリ3にロードされる。
The functional units of the temporal
プロセッサ2は、各機能部のプログラムに従って処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ2は、特徴選択プログラムに従って処理を実行することで特徴選択部150として機能する。他のプログラムについても同様である。さらに、プロセッサ2は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
The
経時特徴量生成部110は、時系列データ分割部111と、正例基準日決定部114と、負例基準日決定部119と、特徴量算出部116を含む。時系列データ分割部111は、時系列データ102を目的事象(債務不履行)が発生した正例の時系列データと、目的事象が発生しない負例の時系列データに分割する。
The temporal
正例基準日決定部114は、目的事象発生時刻データ101を参照して目的事象が発生した日時を正例基準日として決定する。負例基準日決定部119は、後述するように、負例の時系列データから算出した特徴量に基づいて負例の時系列データの基準日を決定する。特徴量算出部116は、後述するように、正例の時系列データと、負例の時系列データからそれぞれ特徴量を算出する。
The positive example reference
特徴選択部150は、特徴量重要度算出部151と、特徴量累積閾値判定部153を含む。特徴量重要度算出部151は、後述するように、特徴量の値の増減が、機械学習部160で生成されるモデルの予測値にどの程度の影響を与えるかを示す指標を重要度として算出する。特徴量重要度算出部151は、例えば、LightGBMとSHAP(SHapley Additive exPlanations)を組み合わせた構成を採用することができる。
The
特徴量重要度算出部151では、LightGBMで生成した予測モデルが目的事象の有無(1、0)を推測し、SHAPは各特徴量が予測結果に対してどの程度影響を与えたのかを重要度として算出する。
In the feature
特徴量累積閾値判定部153は、特徴量重要度算出部151が算出した重要度の累積値と所定の閾値Th1を用いて学習対象から排除する特徴量を決定して、特徴量の積から目的変数を合成する際の目的変数の組み合わせの数を絞り込む。
The feature accumulation
機械学習部160は、特徴選択部150で絞り込まれた正例と負例の特徴量を入力データとして機械学習を実施し、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成する。
The
ストレージ装置4は、目的事象発生時刻データ101と、時系列データ102と、正例基準日115と、負例基準日120と、正例特徴量118と、負例特徴量121と、特徴量算出定義117と、第1特徴量リスト122と、特徴量重要度152と、第2特徴量リスト154を格納する。
The
目的事象発生時刻データ101は、時系列データ102のうち予め設定された目的事象が発生した日付と、口座の識別子と、口座の残高を図示しない一つのレコードに含む。時系列データ102は、口座の識別子毎にと、日付と、残高及び識別子などを図示しない一つのレコードに含む。
The target event
正例基準日115には、正例基準日決定部114が出力した口座の識別子と、正例の時系列データの基準日が一つのレコードに格納される。負例基準日120には、負例基準日決定部119が出力した口座の識別子と、負例の時系列データの基準日が一つのレコードに格納される。なお、各基準日の決定については後述する。
In the positive
正例特徴量118には、特徴量算出部116が算出した正例時系列データ112の特徴量と、時系列データ102の識別子が一つのレコードに格納される。なお、正例特徴量118は、特徴量算出定義117で指定された時系列データ102の特徴量で構成される。
In the
負例特徴量121には、特徴量算出部116が算出した負例時系列データ113の特徴量と、時系列データ102の識別子が一つのレコードに格納される。なお、負例特徴量121は、特徴量算出定義117で指定された時系列データ102の特徴量で構成される。
In the
特徴量算出定義117には、特徴量算出方法ユーザ設定103で指定された時系列データ102の処理対象期間や、特徴量の種類や算出方法が格納される。本実施例では、時系列データ102の特徴量として、例えば、平均や、最大や、最小や、分散や、標準偏差や、最大-最小や、変動係数等の統計量を用いるものとする。
The
第1特徴量リスト122には、特徴量算出方法ユーザ設定103で指定された学習対象の時系列データ102の一覧が含まれる。第1特徴量リスト122は、例えば、時系列データ102の識別子とタイムスタンプを含む。第1特徴量リスト122は、これに限定されるものではなく、算出された正例特徴量118及び負例特徴量121と、特徴量算出定義117で指定された時系列データ102の対応関係が識別可能なデータであればよい。
The
また、本実施例の第1特徴量リスト122は、特徴選択部150で絞り込まれる前の正例特徴量118と、負例特徴量121の一覧が格納される。
In addition, the
特徴量重要度152には、特徴量の識別子と、特徴量重要度算出部151が算出した特徴量の重要度が一つのレコードに格納される。特徴量の識別子は、正例特徴量118と負例特徴量121の特徴量の識別子に対応する値が格納される。
In the
第2特徴量リスト154には、特徴選択部150で絞り込まれた特徴量の一覧が生成される。機械学習部160には、第2特徴量リスト154に記載されている正例特徴量118と負例特徴量121が入力される。
In the
機械学習部160は、例えば、AT/PRC(AI Technology/Prediction of Rare Case)や周知又は公知の機械学習器を採用することができる。
The
入力装置5は、例えば、キーボードやマウスあるいはタッチパネルで構成される。出力装置6は、ディスプレイで構成される。通信装置7は、図示しないネットワークに接続されて、情報の授受を行う。
The
図2は、経時データ分析装置1で行われる処理の一例を示す図である。経時データ分析装置1は、入力装置5や通信装置7を介して、特徴量算出方法ユーザ設定103を受け付ける。
Figure 2 is a diagram showing an example of processing performed by the longitudinal
特徴量算出方法ユーザ設定103は、例えば、特徴量として使用する統計量の種類や、機械学習の対象とする時系列データ102の指定や、目的事象発生時刻データ101の指定等を含む。時系列データ102の指定は、学習対象の期間(以下、学習対象期間とする)や、口座の属性(業種等)や口座の識別子を含むことができる。
The feature calculation
経時特徴量生成部110では、まず、時系列データ分割部111が、目的事象発生時刻データ101を読み込んで、時系列データ102を目的事象が発生した正例時系列データ112と、目的事象が発生していない負例時系列データ113に分割する。
In the temporal
次に、経時特徴量生成部110の正例基準日決定部114は、目的事象発生時刻データ101の口座の識別子と、目的事象の発生時刻(又は日付あるいはタイムスタンプ)を取得して、目的事象の発生日付を正例基準日115として出力する。
Next, the positive example reference
経時特徴量生成部110の負例基準日決定部119は、正例基準日115と正例特徴量118と負例時系列データ113と特徴量算出方法ユーザ設定103の学習対象期間を取得して、負例基準日120を後述するように決定する。
The negative example reference
本実施例では、負例基準日120を決定する手法として、負例基準日決定部119が、負例基準日120を正例基準日115から所定の単位でスライドさせて学習対象期間の負例時系列データ113を抽出し、学習対象期間内の特徴量を特徴量算出部116に負例の基準日別特徴量として算出させる。
In this embodiment, the method for determining the negative
負例基準日決定部119は、負例基準日の候補を日単位や週単位あるいは月単位でスライドさせながら予め設定された複数の統計期間毎に特徴量を特徴量算出部116に算出させ、基準日をスライドさせた負例基準日の候補毎にクラスタリングを行って負例の基準日別特徴量を算出する。
The negative example base
また、負例基準日決定部119は、正例特徴量118についても、1以上の正例基準日115について前記負例の基準日候補と同様の複数の統計期間で正例時系列データ112の特徴量を算出し、正例基準日115毎に特徴量のクラスタリングを行って正例の基準日別特徴量を算出する。
The negative example reference
そして、負例基準日決定部119は、所定の特徴量空間上に、負例の基準日別特徴量と正例の基準日別特徴量を配置して、正例基準日115の特徴量に最も近い負例の基準日別特徴量に対応する基準日候補を負例基準日120として決定する。
Then, the negative example reference
なお、負例基準日決定部119は、各基準日別特徴量を複数の次元で生成して、正例と負例の基準日別特徴量の距離は、例えば、幾何学的距離(例えば、ユークリッド距離など)を用いることができる。また、負例基準日決定部119の処理の詳細については後述する。
The negative example reference
次に、特徴量算出部116は、正例基準日115と正例時系列データ112を受け付けて、特徴量算出定義117に従って正例特徴量118を算出し、負例基準日決定部119と特徴選択部150及び機械学習部160へ出力する。
Next, the
また、特徴量算出部116は、負例基準日120と負例時系列データ113を受け付けて、特徴量算出定義117に従って負例特徴量121を算出し、特徴選択部150及び機械学習部160へ出力する。
The
また、経時特徴量生成部110は、正例特徴量118と負例特徴量121に含まれる正例時系列データ112と負例時系列データ113のリストを生成して第1特徴量リスト122として出力する。
In addition, the temporal
次に、特徴選択部150では、特徴量重要度算出部151が、正例特徴量118と、負例特徴量121と、第1特徴量リスト122を受け付けて、各特徴量毎に特徴量重要度152を算出する。本実施例では、LightGBMで生成した予測モデルの予測結果に与えた影響が大きい特徴量には、値の大きな重要度が付与される。
Next, in the
次に、特徴選択部150では、特徴量累積閾値判定部153が、特徴量重要度152の値が大きい順に第1特徴量リスト122をソートする。そして、特徴量累積閾値判定部153は、特徴量重要度152の値が最大の特徴量重要度から値の累積を行って、累積値が所定の閾値Th1に達するまでの特徴量(正例特徴量118及び負例特徴量121)を学習対象の特徴量として第2特徴量リスト154に格納する。また、特徴量累積閾値判定部153は、その他の特徴量(累積されていない正例特徴量118及び負例特徴量121)を第1特徴量リスト122から削除する。
Next, in the
これにより、特徴量累積閾値判定部153は、経時特徴量生成部110で算出された正例特徴量118と負例特徴量121のうち、特徴量重要度の大きい特徴量に絞り込みを行って、学習対象の特徴量の数を削減する。なお、閾値Th1は、特徴量重要度152の累積値の比率や、特徴量の数の比率など予め設定された値を用いることができる。
As a result, the feature accumulation
また、特徴量累積閾値判定部153は生成した第2特徴量リスト154を特徴量重要度算出部151へ入力して、特徴量重要度152を再度生成し、特徴量累積閾値判定部153でさらに特徴量の絞り込みを行うループ処理を行う。
The feature amount cumulative
このような、特徴量重要度算出部151から第2特徴量リスト154を生成するまでのループ処理は、特徴量累積閾値判定部153が、特徴量重要度152の累積値が閾値Th1に達した時点で、第1特徴量リスト122に残り(未処理)のデータが存在する場合には、残り(未処理)のデータを削除してから再度特徴量重要度152の算出を行って、累積値が閾値Th1に達した時点で第1特徴量リスト122に残りのデータが無くなるまで絞り込みのループを行うことができる。
In this loop process from the feature
あるいは、特徴量累積閾値判定部153が、第2特徴量リスト154の特徴量の数が、所定の閾値Th2となるまで繰り返すことができる。所定の閾値Th2は、例えば、正例特徴量118と負例特徴量121の特徴量の数の総和に対する比率(例えば、60%以下)など、予め設定された値であればよい。
Alternatively, the feature accumulation
以上のように、本実施例の経時データ分析装置1は、正例特徴量118の基準日別特徴量に最も近い負例の基準日別特徴量となる基準日を負例基準日120として決定するとことで、目的事象が発生していない負例時系列データ113の基準日を的確に設定することが可能となる。
As described above, the longitudinal
換言すれば、経時データ分析装置1は、説明変数の組み合わせが類似する正例の特徴量と負例の特徴量を機械学習部160で比較させることで、有意な特徴量で学習を実施することができる。
In other words, the longitudinal
そして、経時データ分析装置1は、正例特徴量118と負例特徴量121の特徴量重要度を算出して、特徴量重要度が最大の値から所定の閾値Th1までの特徴量を学習対象とし、その他の特徴量を削除することで機械学習部160へ入力する特徴量の数を低減し、かつ、有意な特徴量を機械学習部160へ与えることが可能となる。
The longitudinal
図3は、特徴量重要度累積値グラフ301の一例である。特徴量累積閾値判定部153は、特徴量重要度の大きい順に第1特徴量リスト122をソートして、特徴量重要度の累積値を特徴量重要度累積値として算出し、累積した特徴量の数を特徴数として算出する。
Figure 3 is an example of a feature importance
図3の特徴量重要度累積値グラフ301は、縦軸を特徴量重要度累積値とし、横軸を特徴数とした例を示し、閾値Th1は、特徴量重要度累積値の比率(例えば、90%)とした例を示す。図示の例では、閾値Th1を超えた重要度に対応する特徴量が削除され、閾値Th1以下の重要度に対応する特徴量が第2特徴量リスト154へ格納される。なお、閾値Th1は、特徴量重要度累積値に限定されるものではなく、特徴数に対する比率としてもよい。
The feature importance
図4は、特徴選択部150で行われる処理の一例を示すフローチャートである。この処理は、経時特徴量生成部110から正例特徴量118と負例特徴量121及び第1特徴量リスト122が出力されてから開始される(401)。
Figure 4 is a flowchart showing an example of the processing performed by the
まず、特徴量重要度算出部151は、経時特徴量生成部110から正例特徴量118と負例特徴量121及び第1特徴量リスト122を取得する(402)。特徴量重要度算出部151は、第1特徴量リスト122に記載されている正例特徴量118及び負例特徴量121の重要度を算出する(403)。
First, the feature
特徴量重要度算出部151は、上述したようにLightGBMでとSHAPを組み合わせて、LightGBMで生成した予測モデルに第1特徴量リスト122の特徴量を与えて目的事象の有無を予測し、SHAPは各特徴量が予測結果に対してどの程度影響を与えたかを重要度として算出する。そして、特徴量重要度算出部151は、算出された重要度と特徴量の識別子を特徴量重要度152へ格納する。
As described above, the feature
次に、特徴量累積閾値判定部153の処理に遷移する(404)。特徴量累積閾値判定部153は、特徴量重要度152と第1特徴量リスト122を取得して、特徴量重要度152の値の降順で第1特徴量リスト122をソートする(405)。
Next, the process proceeds to the feature amount accumulation threshold determination unit 153 (404). The feature amount accumulation
次に、特徴量累積閾値判定部153は、ステップ406~409で、第1特徴量リスト122の先頭から順に特徴量重要度152の値を累積して、累積値が所定の閾値Th1に達するまでループ処理を実行する。
Next, in
特徴量累積閾値判定部153は、重要度の大きい順にソート済みの第1特徴量リスト122の先頭から特徴量重要度152の重要度を取得して、順次累積する(407)。
The feature accumulation
特徴量累積閾値判定部153は、累積値が所定の閾値Th1に達したか否かを判定して(408)、閾値Th1に達していればループ処理を終了してステップ410へ進み、達していなければステップ409に進んでループ処理を繰り返す。
The feature accumulation
次に、特徴量累積閾値判定部153は、第1特徴量リスト122の特徴量の数に残り(未処理)があるか否かを判定し(410)、残りがある場合にはステップ411へ進み、残りがない場合にはステップ412へ進む。なお、第1特徴量リスト122の特徴量の数の残りは、図3に示した削除する特徴量を示し、特徴量重要度累積値が閾値Th1を超える部分に相当する。
Next, the feature accumulation
ステップ411では、特徴量累積閾値判定部153が、第1特徴量リスト122の閾値Th1を超える部分の特徴量を削除して、第1特徴量リスト122を更新する。そして、特徴量累積閾値判定部153は、ステップ403に戻って上記処理を繰り返す。
In
一方、ステップ412では、特徴量重要度累積値が閾値Th1以下となって第1特徴量リスト122の特徴量の数が削減されたので、第1特徴量リスト122の内容(特徴量の識別子)を第2特徴量リスト154として出力する。
On the other hand, in
上記処理によって、特徴選択部150は、特徴量重要度累積値が閾値Th1を超える部分の特徴量が削減され、かつ、重要度の大きい特徴量で構成された第2特徴量リスト154を生成して、機械学習部160へ入力することが可能となる。
By the above process, the
次に、図5A、図5Bを用いて、経時特徴量生成部110の負例基準日決定部119の処理について説明する。
Next, the processing of the negative example reference
図5Aは、経時特徴量生成部110の負例基準日決定部119で行われる基準日のスライディング処理の一例を示す図である。図5Bは、負例基準日決定部119で行われる負例基準日の決定処理の一例を示す図である。
Figure 5A is a diagram showing an example of the sliding process of the reference date performed by the negative example reference
図5Aは、負例時系列データ113として、観測値(例えば、残高)と時間(又は日付)の関係を示す。
Figure 5A shows the relationship between observed values (e.g., balances) and time (or dates) as negative example
負例基準日決定部119は、予め設定された日付(例えば、正例基準日115)を最初の基準日1として設定して、基準日1から過去1ヶ月、3ヶ月、6ヶ月、12ヶ月などの予め設定された複数の統計期間を設定する。なお、基準日1を決定する条件は、複数の正例基準日115からユーザが特徴量算出方法ユーザ設定103で指定してもよいし、その他の条件を用いてもよい。
The negative example reference
そして、負例基準日決定部119は、予め設定されたスライド幅(所定の日付間隔)を基準日1に加えた(又は減算した)日付を基準日2として設定し、1ヶ月~12ヶ月などの予め設定された複数の統計期間を設定する。
Then, the negative example base
同様に、負例基準日決定部119は、所定のスライド幅でずらした基準日3~基準日Nを設定し、上記と同様に複数の統計期間を設定する。負例基準日決定部119は、負例時系列データ113の全期間を上記統計期間で網羅するように基準日1から基準日Nを設定する。
Similarly, the negative example reference
図示の例では、過去の基準日1から現在へ向けて基準日1~基準日Nをずらした例を示したが、これに限定されるものではなく、逆方向であってもよい。また、負例基準日決定部119は、複数の統計期間と基準日で一つの負例時系列データの全期間をカバーするように、基準日1~基準日Nと複数の統計期間を設定する
次に、負例基準日決定部119は、基準日1~基準日Nの各統計期間で負例時系列データ113の特徴量を特徴量算出部116に算出させて、各基準日毎に複数の統計期間の特徴量をクラスタリングして負例の基準日別統計量を算出して基準日1~基準日Nに対応付ける。
In the illustrated example, the reference dates 1 to N are shifted from the
また、負例基準日決定部119は、正例基準日115のそれぞれについて予め設定された複数の統計期間を設定して、正例時系列データ112の特徴量を特徴量算出部116に算出させ、各正例基準日115毎に各統計期間の特徴量を集計した正例の基準日別特徴量を算出させる。
The negative example reference
負例基準日決定部119は、負例の基準日別特徴量と、正例の基準日別特徴量を図5Bに示す特徴空間602に配置して、負例の基準日別特徴量と正例の基準日別特徴量(図中基準日又は正例)の幾何学的距離を算出する。なお、図示の例では、特徴量Aと特徴量Bの2次元空間を示すが、特徴量の次元数に応じた特徴空間を設定すればよい。
The negative example reference
そして、負例基準日決定部119は、負例の基準日1~基準日Nに対応する基準日別特徴量のうち、正例の基準日別特徴量に最も距離が近い負例の基準日別特徴量を選択し、当該負例の基準日別特徴量に対応する基準日を負例基準日120として決定する。
Then, the negative example reference
図示の特徴空間602では、正例2(正例の基準日2)に対応する正例の基準日別特徴量と、基準日5に対応する負例の基準日別特徴量の幾何学的距離が最も近いため、基準日5が負例基準日120として決定される例を示す。
In the
図6は、負例基準日決定部119の構成の一例を示す図である。負例基準日決定部119は、負例の基準日候補として基準日1から基準日Nまでの複数の基準日を生成する基準日スライド部802と、基準日毎の特徴量から基準日別特徴量804を算出して、正例の基準日別特徴量に最も近い負例の基準日別特徴量804の基準日を負例基準日120として決定する特徴量空間最短距離探索部810と、を含む。
Figure 6 is a diagram showing an example of the configuration of the negative example reference
負例及び正例の基準日の統計期間は、例えば、上述の1ヶ月、3ヶ月、6ヶ月、12ヶ月など所定の複数の統計期間とする。 The statistical period for the reference date for negative and positive examples is a number of predetermined statistical periods, such as the above-mentioned 1 month, 3 months, 6 months, and 12 months.
負例基準日決定部119は、負例時系列データ113から特徴量算出方法ユーザ設定103で指定された負例時系列データ113から一つの負例時系列データ801を取得して、上述した所定の条件から基準日1を決定して、基準日スライド部802へ基準日1を入力する。
The negative example reference
基準日スライド部802は、予め設定されたスライド幅で所定数の基準日2~基準日Nを生成する。負例基準日決定部119は、生成された基準日1~基準日Nについて、それぞれ予め設定された複数の統計期間を設定し、負例の基準日毎に各統計期間の負例時系列データ801を特徴量算出部116へ入力して負例の特徴量を算出させる。
The reference
負例基準日決定部119は、特徴量算出部116が算出した基準日1~基準日Nの負例の特徴量を基準日別特徴量804として受け付けて、特徴量空間最短距離探索部810へ入力する。
The negative example reference
特徴量空間最短距離探索部810は、正例特徴量118と目的事象発生時刻データ101を入力として負例の基準日別特徴量804と同様に、複数の統計期間で正例の基準日別特徴量を特徴量算出部116に算出させる。特徴量空間最短距離探索部810は、負例の基準日別特徴量804と、上記算出した正例の基準日別特徴量それぞれ特徴空間602(図5B参照)に配置し、各基準日別特徴量間の幾何学的距離を算出する。
The feature space shortest
そして、特徴量空間最短距離探索部810は、負例の基準日1~基準日N(805)に対応する基準日別特徴量のうち、正例の基準日別特徴量に最も距離が近い負例の基準日別特徴量(負例特徴量806)を選択し、当該基準日別特徴量804に対応する基準日を負例基準日120として決定する。
Then, the feature space shortest
また、特徴量空間最短距離探索部810は、処理対象の負例時系列データ801のそれぞれについて、負例基準日120と負例特徴量121を出力することができる。
The feature space shortest
図7は、負例基準日決定部119で行われる処理の一例を示すフローチャートである。この処理は、負例基準日決定部119が、負例時系列データ113と、正例基準日115及び正例特徴量118を受け付けてから開始される。
Figure 7 is a flowchart showing an example of processing performed by the negative example base
負例基準日決定部119は、負例時系列データ113の中から一つを選択して負例時系列データ801とし、正例基準日115を最初の基準日1として決定する(901)。そして、負例基準日決定部119は、ステップ902~905のループで、所定のスライド幅ずつ基準日をずらして負例の特徴量を特徴量算出部116に算出させる。
The negative example reference
負例基準日決定部119は、ステップ903で、現在の基準日Nと、予め設定された複数の統計期間と、負例時系列データ801を特徴量算出部116へ入力して、負例特徴量を算出させる。
In
負例基準日決定部119は、ステップ904で、複数の統計期間毎の負例特徴量を特徴量算出部116から取得して、所定の統計処理(例えば、平均)を行って、基準日別特徴量804として記憶する。
In
次に、負例基準日決定部119は、ステップ902へ戻って(905)、基準日Nをスライド幅だけずらして負例時系列データ801の終端まで上記処理を繰り返し、基準日1~基準日Nの基準日別特徴量804をそれぞれ算出する。
Next, the negative example reference
負例時系列データ801の終端に達すると、負例基準日決定部119はステップ902~905のループを終了してステップ906に進む。
When the end of the negative example
ステップ906では、負例基準日決定部119の特徴量空間最短距離探索部810が、上述したように、正例基準日115から所定の複数の統計期間で正例時系列データ112の特徴量を特徴量算出部116に算出させ、各正例基準日115毎に統計期間の特徴量をクラスタリングして正例の基準日別特徴量とする。
In
そして、特徴量空間最短距離探索部810、負例の基準日別特徴量804と正例の基準日別特徴量を特徴量空間に配置して、各基準日別特徴量間の幾何学的距離を算出する。そして、特徴量空間最短距離探索部810は、正例基準日115の基準日別特徴量との距離が最も小さい負例の基準日別特徴量に対応する基準日を負例基準日120として決定して出力する(907)。
Then, the feature space shortest
上記処理によって、経時特徴量生成部110は、負例時系列データ113から基準日Nをずらして複数の負例の基準日別特徴量を算出し、正例時系列データ112の基準日別特徴量に幾何学的距離が近いことを指標として特徴量を算出する起点となる負例基準日120を決定する。
By the above process, the temporal
これにより、経時データ分析装置1は、目的事象が発生していない負例時系列データ113において、説明変数の組み合わせが類似する正例時系列データ112と負例時系列データ113を機械学習部160で学習させることで、高精度なリスク推定モデルを提供することが可能となる。
As a result, the longitudinal
以上のように、実施例1の経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定し、特徴量の重要度が高い方から累積値を算出して重要度の低い特徴量から徐々に排除する処理を繰り返すことで、重要な特徴量を選別して、機械学習部160の学習データを生成する。
As described above, the longitudinal
これにより、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)と、正例特徴量118の正例基準日別特徴量に近い指標を有する負例基準日120によって、計算負荷を抑制しながら精度の高い機械学習モデルを生成させることができる。本実施例の経時データ分析装置1では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
This makes it possible to reduce the number of features to be learned by the
図8は、本発明の実施例2を示し、経時データ分析装置1で行われる処理の一例を示す図である。前記実施例1では特徴選択部150の内部で重要度を利用する例を示したが、実施例2では、特徴選択部150が算出した特徴量の重要度を経時特徴量生成部110へフィードバックさせて、経時特徴量生成部110が特徴量の重要度に基づいて特徴量算出定義117の更新を通知する例を示す。
Figure 8 shows Example 2 of the present invention, and is a diagram showing an example of processing performed by the longitudinal
実施例2の経時データ分析装置1は、前記実施例1の構成に対して、経時特徴量生成部110に特徴量算出定義更新部201を加え、特徴選択部150に最小特徴数判定部202と前回出力特徴量リスト203を加えて、特徴量重要度算出部151が算出した特徴量重要度152を経時特徴量生成部110の特徴量算出定義更新部201へフィードバックするもので、その他の構成は前記実施例1と同様である。
The longitudinal
特徴量算出定義更新部201は、各統計期間の重要度の大きさに偏りがある場合、予め設定された統計期間の変更を通知する。例えば、統計期間が1ヶ月と3ヶ月の重要度が、6ヶ月や12ヶ月の重要度よりも相対的に大きい場合には、新たに「2ヶ月」と「4ヶ月」を統計期間に追加するように通知する。
If there is a bias in the importance of each statistical period, the feature calculation
換言すれば、特徴量算出定義更新部201は、統計期間の数や間隔を変更することで、より大きな重要度を検出することを可能にする。なお、特徴量算出定義更新部201は、各統計期間の重要度を出力装置6に表示して、統計期間の数や間隔の変更を促す通知を出力してもよいし、あるいは、重要度の偏りを検出した場合に、経時データ分析装置1の利用者に統計期間の見直しを通知してもよい。
In other words, the feature calculation
あるいは、特徴量算出定義更新部201が、複数の統計期間で重要度の偏りを検出すると、自動的に統計期間を変更するように特徴量算出定義117を更新してもよい。
Alternatively, when the feature calculation
特徴選択部150の最小特徴数判定部202は、特徴量累積閾値判定部153から第2特徴量リスト154が出力されると、前回出力特徴量リスト203に格納された前回の第2特徴量リスト154の特徴量の数(レコード数)と今回の第2特徴量リスト154の特徴量の数(レコード数)を比較する。
When the
今回の第2特徴量リスト154の特徴量の数の方が小さい場合には、最小特徴数判定部202は、まだ、特徴量の数を低減する余地があると判定して、特徴量算出定義更新部201に特徴量算出定義117を更新して、新たな特徴量を算出させるよう指令する。また、最小特徴数判定部202は、最新の第2特徴量リスト154を前回出力特徴量リスト203へ格納しておく。
If the number of features in the current
図9は、経時データ分析装置1で行われる重要度のフィードバック処理の一例を示す図である。
Figure 9 shows an example of the importance feedback process performed by the longitudinal
図示の例では、経時特徴量生成部110の特徴量算出定義117に、所定の統計期間として1ヶ月、3ヶ月、6ヶ月、12ヶ月の4つの期間が予め設定されている。また、時系列データ102の特徴量を算出する条件として、統計量として平均値が設定されている例を示す。
In the illustrated example, four periods of 1 month, 3 months, 6 months, and 12 months are preset as predetermined statistical periods in the
特徴量算出部116は、特徴量算出定義117の統計期間に従って、正例時系列データ112と負例時系列データ113を受け付けて、正例特徴量118と負例特徴量121を特徴量算出部116に算出させ、第1特徴量リスト122と統計期間1171を特徴選択部150へ出力する。
The
特徴選択部150の特徴量重要度算出部151は、正例特徴量118と負例特徴量121と第1特徴量リスト122及び統計期間1171を受け付けると、各特徴量の重要度を算出して特徴量重要度152として出力する。
When the feature
特徴量重要度152は、一つの基準日について複数の統計期間の重要度が格納されている。図示の例では、1ヶ月平均の重要度が0.4、3ヶ月平均の重要度が0.5で、6ヶ月平均及び12ヶ月平均の重要度が0.1となっている。
特徴量重要度算出部151から特徴量重要度152のフィードバックを受け付けた特徴量算出定義更新部201は、1ヶ月平均と3ヶ月平均の重要度が高くなっていることを検出する。
The feature calculation
特徴量算出定義更新部201は、重要度の値が高くなっている統計期間の近傍を細分化し、1ヶ月平均と3ヶ月平均の間の2ヶ月平均と、3ヶ月平均の1ヶ月後の4ヶ月平均を特徴量算出定義117に追加して更新する。
The feature calculation
特徴量算出部116は、更新された特徴量算出定義117に基づいて再度正例特徴量118と負例特徴量121及び第1特徴量リスト122を算出して、特徴選択部150に出力する。
The
図10は、経時特徴量生成部110と特徴選択部150で行われる処理の一例を示すフローチャートである。この処理は、経時特徴量生成部110が正例時系列データ112と負例時系列データ113と目的事象発生時刻データ101と特徴量算出定義117を受け付けて開始される(501)。
Figure 10 is a flowchart showing an example of processing performed by the temporal
経時特徴量生成部110は、入力された正例時系列データ112と負例時系列データ113と目的事象発生時刻データ101及び特徴量算出定義117から、正例特徴量118と負例特徴量121及び第1特徴量リスト122を生成する(502)。
The temporal
特徴選択部150の特徴量重要度算出部151は、正例特徴量118と負例特徴量121から各特徴量の重要度を算出して特徴量重要度152として出力する。次に、特徴量累積閾値判定部153は、第1特徴量リスト122を重要度の値の大きい順にソートして、重要度が上述の閾値Th1に達するまでの特徴量を選択して、第2特徴量リスト154を生成して出力する(503)。
The feature
最小特徴数判定部202は、前回出力特徴量リスト203に格納された前回の第2特徴量リスト154の特徴量の数が、新たな第2特徴量リスト154の特徴量の数よりも大きいか否かを判定する(504)。
The minimum feature
最小特徴数判定部202は、前回出力特徴量リスト203の特徴量の数の方が大きい場合には、まだ、特徴量の数を低減する余地があると判定してステップ505に進み、そうでない場合には、ステップ506へ進む。
If the number of features in the previously
ステップ505では、特徴量算出定義更新部201が、特徴量重要度152に基づいて、上述したように特徴量算出定義117を更新し、ステップ502へ戻って新たな特徴量を算出し、上記処理を繰り返す。
In
一方、ステップ506では、最小特徴数判定部202が、前回出力特徴量リスト203の第2特徴量リスト154を結果として出力し、処理を終了する。
On the other hand, in
以上のように、実施例2の経時データ分析装置1では、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
As described above, in the longitudinal
なお、上記では、特徴量算出定義更新部201が統計期間を変更する例を示したが、これに限定されるものではなく、統計量の算出方法を変更してもよい。
In the above, an example has been shown in which the feature calculation
図11は、本発明の実施例3を示し、負例基準日決定部119で行われる処理の一例を示す図である。実施例3では、負例基準日決定部119が、目的事象(正例基準日115)の発生頻度に応じて選択確率を算出し、選択確率に基づいて負例基準日120を決定する例を示す。
Fig. 11 illustrates a third embodiment of the present invention, and shows an example of processing performed by the negative example base
本実施例では、負例基準日決定部119が、負例基準日選択部1102と正例基準日頻度分布1103を含む例を示す。
In this embodiment, an example is shown in which the negative example base
負例基準日決定部119は、正例基準日決定部114が出力した正例基準日115を受け付けて頻度分布を算出し、正例基準日頻度分布1103を算出する。負例基準日選択部1102は、負例時系列データ113から選択した一つの負例時系列データ1101を入力として、正例基準日115の発生頻度(正例基準日頻度分布1103)に応じて選択確率を算出し、選択確率に基づいて負例時系列データ1101の負例基準日1104を決定する。なお、選択確率は、2項分布やポアソン分布などの周知の手法で近似してもよい。
The negative example base
負例基準日決定部119は、決定された負例基準日1104をストレージ装置4の負例基準日120に書き込む。負例基準日決定部119は、処理対象の負例時系列データ113についてそれぞれ負例基準日1104を算出して負例基準日120に格納する。
The negative example base
上記処理によって、経時データ分析装置1は、正例基準日115の発生頻度と同一の確率分布で、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
By the above processing, the longitudinal
図12~図14は、本発明の実施例4を示す。本実施例では、目的事象の発生に関連した事象(以下、重要事象)から負例基準日120を決定する例を示す。本実施例の負例基準日決定部119は、重要事象の発生日から目的事象が発生した正例基準日115までの期間を予兆期間とし、正例時系列データ112のそれぞれについて予兆期間を算出し、算出された予兆期間の頻度分布などの統計処理の結果に基づいて負例基準日120を決定する。
Figures 12 to 14 show a fourth embodiment of the present invention. In this embodiment, an example is shown in which a negative
本実施例の重要事象としては、目的事象がデフォルトの場合、例えば、ローン契約実行日や、高額の借入実行日、当座貸越が所定の金額を超過した日など、予め設定された事象である。 In this embodiment, the important events are events that are preset when the target event is a default, such as the execution date of a loan contract, the execution date of a large amount of borrowing, or the date when the overdraft exceeds a specified amount.
経時データ分析装置1は、これらの重要事象が発生した日から正例基準日115までの期間を予兆期間として算出し、複数の正例時系列データ112のそれぞれについて予兆期間を算出し、これらの正例の予兆期間の頻度分布を算出する。そして、経時データ分析装置1は、正例の予兆期間の頻度分布に基づいて、負例時系列データ113の負例基準日120と負例の予兆期間を算出する例を示す。
The longitudinal
図12は、正例時系列データ112から算出した特徴量(図中重要特徴量)と予兆期間の関係を示すグラフである。正例の時系列データ701は、正例時系列データ112から選択したデータの特徴量と時間の関係を示すグラフである。特徴量としては、例えば、借入残高や当座貸越残高の統計量(例えば、平均や、最大、最小、分散、標準偏差、最大-最小、変動係数等)を用いる例を示す。
Figure 12 is a graph showing the relationship between the feature (important feature in the figure) calculated from the positive example
図示の例では、上述のように目的事象が発生した日を正例基準日115とし、目的事象に関連する重要事象が発生した日を重要事象発生日として、正例基準日115から重要事象発生日までの期間を予兆期間とする。さらに、本実施例では、正例基準日115から過去の所定期間を統計期間として設定する。
In the illustrated example, the date on which the target event occurred as described above is the positive
図示の例では、特徴量が閾値Th3を超えた日を、重要事象発生日とする例を示すが、上述のように、ローンの実行日や借入日など日付や時刻が明確な重要事象の発生データが存在する場合には、当該重要事象の発生データを重要事象発生日としてもよい。閾値Th3は、例えば、特徴量の最大値の90%など、予め設定した値や比率を用いることができる。 In the illustrated example, the day on which the feature value exceeds the threshold value Th3 is set as the important event occurrence date, but as described above, if there is important event occurrence data with a clear date and time, such as the execution date of a loan or the borrowing date, the occurrence data of the important event may be set as the important event occurrence date. The threshold value Th3 may be a preset value or ratio, such as 90% of the maximum feature value.
図13は、負例基準日決定部119で行われる処理の一例を示す図である。実施例4の負例基準日決定部119は、重要特徴量閾値超過探索部1002と、予兆期間決定部1004と、加算部1007を含む。実施例4の経時データ分析装置1のその他の構成は、前記実施例1又は前記実施例2と同様である。
FIG. 13 is a diagram showing an example of processing performed by the negative example reference
重要特徴量閾値超過探索部1002は、負例時系列データ113から受け付けたデータを負例時系列データ1001として、特徴量算出定義117で設定された重要事象を判定する項目を参照して、当該項目について負例の特徴量を特徴量算出部116に算出させる。
The important feature threshold
重要特徴量閾値超過探索部1002は、特徴量算出部116が算出した負例の特徴量を負例時系列データ1001の時系列の過去から現在へ向けて所定の閾値Th4と比較し、負例の特徴量が当該閾値Th4を初めて超えた日を重要事象発生日1003として出力する。
The important feature threshold
予兆期間決定部1004は、正例特徴量118と正例基準日115を入力して、予め設定された閾値Th3と比較を行って、正例の重要事象発生日を抽出し、正例基準日115と重要事象発生日の期間を予兆期間として算出する。
The warning
そして、予兆期間決定部1004は、複数の正例特徴量118のそれぞれについて予兆期間を算出し、さらに予兆期間の頻度分布を算出して、正例予兆期間頻度分布1005として保持する。
Then, the predictive
そして、予兆期間決定部1004は、正例予兆期間頻度分布1005の正例の予兆期間の頻度分布に合うように、予兆期間1006を確率的に決定し、加算部1007へ出力する。
Then, the predictive
加算部1007は、負例の重要事象発生日1003に予兆期間決定部1004からの予兆期間1006を加算して負例基準日1008を生成する。加算部1007は、入力された負例時系列データ1001のそれぞれについて負例基準日1008を算出して負例基準日120に格納する。
The
なお、予兆期間決定部1004は、正例において重要事象の発生日から目的事象の発生日までの期間の逆数を新たな目的関数としてもよい。
The warning
図14は、負例基準日決定部119で行われる処理の変形例を示すフローチャートである。図示の例では、経時特徴量生成部110が、前記実施例2の図8で示したように、特徴選択部150から特徴量重要度152のフィードバックを受け付ける場合を示すが、これに限定されるものではない。
Figure 14 is a flowchart showing a modified example of the process performed by the negative example reference
負例基準日決定部119は、指定された正例時系列データ112の正例特徴量118を受け付けて処理を開始する(S1301)。特徴選択部150からフィードバックされた特徴量重要度152のうち、所定の閾値Th5を超える特徴量重要度152があるか否かを判定する(S1302)。特徴量重要度152のうち所定の閾値Th5を超える特徴量重要度152が存在する場合にはステップS1303へ進み、そうでない場合には処理を終了する。
The negative example reference
ステップS1303では、負例基準日決定部119は受け付けた特徴量について、図12で示したように、現在の重要特徴量について閾値Th3を決定する。閾値Th3は、図12で示したように、重要特徴量の最大値に対する所定の比率で設定することができる。
In step S1303, the negative example reference
ステップS1304~S1307では、負例基準日決定部119が受け付けた正例時系列データ112のそれぞれについて正例特徴量118を重要特徴量として扱って処理を繰り返す。
In steps S1304 to S1307, the negative example reference
ステップS1305で、負例基準日決定部119が正例特徴量118から閾値Th3を超える日が存在する場合には、重要事象発生日として取得する。負例基準日決定部119は、重要事象発生日を取得した場合には正例基準日115を取得して、正例基準日115から重要事象発生日までの期間を予兆期間として算出する(1306)。
In step S1305, if the negative example reference
負例基準日決定部119は、受け付けた正例時系列データ112の全てについてステップS1304~S1307の処理が完了すると、ステップS1308で、正例の予兆期間の頻度分布を算出し、正例予兆期間頻度分布1005を生成する。
When the negative example reference
ステップS1309~S1313では、負例基準日決定部119が受け付けた負例時系列データ113のそれぞれについて処理を繰り返す。ステップS1310では、負例基準日決定部119が負例特徴量121を一つ選択して、重要特徴量(借入残高や当座貸越残高の統計量)が所定の閾値Th3を超えた日を重要事象発生日として取得する。
In steps S1309 to S1313, the negative example reference
ステップS1311では、負例基準日決定部119が正例予兆期間頻度分布1005を参照して、正例の予兆期間の頻度分布に合うように負例での予兆期間を決定する。即ち、予兆期間を確率変数として、前記頻度分布を確率分布と見做し、該分布に従って個々の負例の予兆期間を確率的に選択する。ステップS1312では、負例基準日決定部119が重要事象発生日に負例の予兆期間を加算して負例基準日120を算出する。
In step S1311, the negative example reference
負例基準日決定部119は、受け付けた負例時系列データ113の全てについてステップS1309~S1313の繰り返し処理を実行する。
The negative example reference
上記処理によって、経時データ分析装置1は、正例の特徴量に近いことを指標として、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
By the above process, the longitudinal
<結び>
以上のように、上記各実施例は、以下のような構成とすることができる。
<Conclusion>
As described above, each of the above embodiments can be configured as follows.
(1)プロセッサ2とメモリ3を有する計算機(経時データ分析装置1)が、時系列データ(102)を受け付けて目的事象の発生を予測する機械学習部(160)への入力データとなる特徴量を生成する特徴量生成方法であって、前記計算機が、値とタイムスタンプを含む複数の時系列データ(102)を受け付ける時系列データ(102)入力ステップと、前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データ(目的事象発生時刻データ101)を受け付ける目的事象発生データ入力ステップと、前記計算機が、前記時系列データ(102)の特徴量を算出する内容を定義した特徴量算出定義(117)を受け付ける特徴量算出定義入力ステップと、前記計算機が、目的事象発生データ(101)を参照して前記時系列データ(102)を、正例時系列データ(112)と負例時系列データ(113)に分割する分割ステップと、前記計算機が、前記正例時系列データ(112)における基準日である、正例基準日(115)を決定する正例基準日決定ステップと、前記計算機が、前記正例時系列データ(112)と前記正例基準日(115)の組み合わせから、前記特徴量算出定義(117)に基づいて正例特徴量(118)を算出する正例特徴量算出ステップと、前記計算機が、前記正例基準日(115)、前記正例特徴量(118)及び前記負例時系列データ(113)を入力として、負例基準日(120)を決定する負例基準日決定ステップと、前記計算機が、前記負例時系列データ(113)と前記負例基準日(120)の組み合わせから、前記特徴量算出定義(117)に基づいて負例特徴量(121)を算出する負例特徴量算出ステップと、を含むことを特徴とする特徴量生成方法。
(1) A feature generation method in which a computer (time-course data analysis device 1) having a
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することで、目的事象が発生していない負例時系列データ113における基準日を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
With the above configuration, the longitudinal
(2)上記(1)に記載の特徴量生成方法であって、前記計算機が、前記正例特徴量(118)と負例特徴量(121)のリストを第1特徴量リスト(122)として生成し、前記正例特徴量(118)及び前記負例特徴量(121)と第1特徴量リスト(122)を出力する経時特徴量生成ステップと、前記計算機が、前記第1特徴量リスト(122)に記載されている正例特徴量(118)と負例特徴量(121)の特徴量重要度(152)を算出する特徴量重要度算出ステップと、前記計算機が、前記特徴量重要度(152)の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量(118)及び負例特徴量(121)を学習対象の特徴量として第2特徴量リスト(154)に格納する特徴量累積閾値判定ステップと、をさらに含むことを特徴とする特徴量生成方法。 (2) The feature generation method according to (1) above, further comprising: a time-course feature generation step in which the computer generates a list of the positive example features (118) and the negative example features (121) as a first feature list (122) and outputs the positive example features (118), the negative example features (121), and the first feature list (122); a feature importance calculation step in which the computer calculates feature importance (152) of the positive example features (118) and the negative example features (121) listed in the first feature list (122); and a feature accumulation threshold determination step in which the computer accumulates the feature importance (152) in descending order, and stores the positive example features (118) and the negative example features (121) until the accumulated value reaches a predetermined threshold Th1 in a second feature list (154) as features to be learned.
上記構成により、特徴量重要度の値が高い方から累積値を算出して重要度の低い特徴量から徐々に排除する処理を繰り返すことで、重要な特徴量を選別することで、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)で学習を実施することで、高精度な予測するモデルを生成することが可能となる。
With the above configuration, by repeatedly calculating the cumulative value starting from the feature importance value with the highest and gradually eliminating features with lower importance, it is possible to select important features, thereby reducing the number of features to be trained by the
(3)上記(1)に記載の特徴量生成方法であって、前記特徴量累積閾値判定ステップは、前記累積値が所定の閾値Th1に達した時点で、第1特徴量リスト(122)に未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出ステップで特徴量重要度(152)の算出を行って、前記特徴量重要度(152)の累積値が閾値Th1に達した時点で第1特徴量リスト(122)に未処理のデータが無くなるまで前記特徴量重要度算出ステップと、前記特徴量累積閾値判定部ステップによる絞り込みを繰り返すことを特徴とする特徴量生成方法。 (3) The feature generation method described in (1) above, wherein the feature accumulation threshold determination step is characterized in that, if there is unprocessed data in the first feature list (122) when the accumulated value reaches a predetermined threshold Th1, the unprocessed data is deleted and the feature importance (152) is calculated again in the feature importance calculation step, and the feature importance calculation step and the narrowing down by the feature accumulation threshold determination unit step are repeated until there is no unprocessed data in the first feature list (122) when the accumulated value of the feature importance (152) reaches the threshold Th1.
上記構成により、経時データ分析装置1は、重要な特徴量を選別することで、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)で学習を実施することで、高精度な予測するモデルを生成することが可能となる。
With the above configuration, the longitudinal
(4)上記(2)に記載の特徴量生成方法であって、前記計算機が、前記算出された前記特徴量重要度(152)を入力して、前記特徴量重要度(152)の値に応じて前記特徴量算出定義(117)を変更する特徴量算出更新ステップを、さらに含むことを特徴とする特徴量生成方法。 (4) The feature generation method according to (2) above, further comprising a feature calculation update step in which the computer inputs the calculated feature importance (152) and changes the feature calculation definition (117) according to the value of the feature importance (152).
上記構成により、経時データ分析装置1では、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
With the above configuration, in the longitudinal
(5)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定する基準スライドステップと、前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定する統計期間設定ステップと、前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データ(113)の特徴量を算出して各基準日毎に負例基準日別特徴量(804)を算出する負例基準日別特徴量算出ステップと、前記正例基準日(115)のそれぞれについて前記複数の各統計期間で正例時系列データ(112)の特徴量を算出して各正例基準日(115)毎に正例基準日別特徴量を算出する正例基準日別特徴量算出ステップと、前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日(120)として決定する決定ステップと、を含むことを特徴とする特徴量生成方法。 (5) In the feature generation method described in (1) above, the negative example reference date determination step includes a reference sliding step of setting a first reference date as a preset reference date and setting multiple reference dates from the first reference date to an Nth reference date by shifting the multiple reference dates at intervals of a predetermined number of days, a statistical period setting step of setting multiple statistical periods that are preset for each of the first reference date to the Nth reference date, and a negative example time series data setting step of calculating a feature of the negative example time series data (113) for each statistical period for each of the first reference date to the Nth reference date, and calculating a negative example reference date feature (804) for each reference date. A feature generation method comprising: a step of calculating a feature amount for each positive example reference date; a step of calculating a feature amount for each positive example reference date (115) by calculating a feature amount of the positive example time series data (112) for each of the plurality of statistical periods for each of the positive example reference dates (115) to calculate a feature amount for each positive example reference date (115); and a step of arranging the negative example reference date feature amount and the positive example reference date feature amount in a predetermined feature amount space, calculating the distance between each reference date, and determining the reference date of the negative example reference date feature amount that is closest to any of the positive example reference date feature amounts as the negative example reference date (120).
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
The above configuration enables the longitudinal
(6)上記(5)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、前記複数の統計期間が負例時系列データ(113)の全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成方法。 (6) The feature generation method described in (5) above, wherein the negative example reference date determination step is characterized in that the first reference date to the Nth reference date and the statistical periods are set so that the multiple statistical periods cover the entire period of the negative example time series data (113).
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高
(7)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、前記正例時系列データ(112)のそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日(1003)として取得して、前記重要事象発生日(1003)から前記正例基準日(115)までの期間を予兆期間とし、前記正例時系列データ(112)のそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データ(113)の負例基準日(120)を決定することを特徴とする特徴量生成方法。
With the above configuration, the longitudinal
上記構成により、経時データ分析装置1は、正例特徴量118の重要事象発生日から目的事象発生時刻までの予兆期間を算出し、目的事象の発生に関連する重要事象発生日を負例時系列データ113に設定して、予兆期間を加算することで負例基準日120を決定することが可能となる。
With the above configuration, the longitudinal
(8)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、 前記正例基準日(115)の頻度分布(1005)を算出し、前記頻度分布(1005)と同一の確率分布で、負例時系列データ(113)のそれぞれについて負例基準日(120)を決定することを特徴とする特徴量生成方法。 (8) The feature generation method according to (1) above, wherein the negative example reference date determination step calculates a frequency distribution (1005) of the positive example reference dates (115) and determines a negative example reference date (120) for each piece of negative example time series data (113) with the same probability distribution as the frequency distribution (1005).
上記構成により、経時データ分析装置1は、正例基準日115の発生頻度と同一の確率分布で、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
The above configuration enables the longitudinal
(9)上記(5)に記載の特徴量生成方法であって、前記計算機が、前記特徴量重要度(152)を受け付けて前記特徴量算出定義(117)を更新する特徴量算出定義(117)更新ステップを、さらに含み、前記特徴量重要度(152)算出ステップは、前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度(152)を算出し、前記特徴量算出定義(117)更新ステップは、前記複数の異なる統計期間毎の前記特徴量重要度(152)を受け付けて、前記特徴量重要度(152)が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知する。 (9) The feature generation method described in (5) above, further including a feature calculation definition (117) update step in which the computer receives the feature importance (152) and updates the feature calculation definition (117), the feature importance (152) calculation step calculates the feature importance (152) from the feature for each of the multiple different statistical periods, and the feature calculation definition (117) update step receives the feature importance (152) for each of the multiple different statistical periods, and notifies the addition of a new statistical period if there is a statistical period in which the feature importance (152) is greater than the other statistical periods.
上記構成により、経時データ分析装置1は、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
With the above configuration, the longitudinal
(10)上記(7)に記載の特徴量生成手法であって、前記負例基準日決定ステップは、前記正例時系列データ(112)のそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日(1003)として取得して、前記重要事象発生日(1003)から前記正例基準日(115)までの期間を予兆期間として算出し、前記正例時系列データ(112)のそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布(1005)から予兆期間を決定するステップと、前記負例時系列データ(113)のそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度(152)を算出し、前記特徴量重要度(152)を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量(121)を算出するステップと、前記負例時系列データ(113)の時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日(1003)として算出するステップと、前記正例予兆期間頻度分布(1005)から算出した予兆期間を前記重要事象発生日(1003)に加算して負例基準日(120)を算出するステップと、を含むことを特徴とする特徴量生成方法。 (10) The feature generation method described in (7) above, wherein the negative example reference date determination step includes the steps of: acquiring an occurrence date of an important event related to the occurrence of a target event for each of the positive example time series data (112) as an important event occurrence date (1003); calculating a period from the important event occurrence date (1003) to the positive example reference date (115) as a predictive period; calculating a frequency distribution of a positive example predictive period for each of the positive example time series data (112); and determining a predictive period from the positive example predictive period frequency distribution (1005); and calculating features for each of the negative example time series data (113); A feature generation method comprising the steps of: calculating feature importance (152) from the feature; accumulating the feature importance (152) in descending order of value; and calculating negative example feature (121) until the accumulated value reaches a predetermined threshold value Th1; calculating the day on which the feature first exceeds a predetermined threshold value Th4 from the past to the present in the time series of the negative example time series data (113) as the important event occurrence date (1003); and adding the predictive period calculated from the positive example predictive period frequency distribution (1005) to the important event occurrence date (1003) to calculate the negative example reference date (120).
上記構成により、経時データ分析装置1は、正例特徴量118の重要事象発生日から目的事象発生時刻までの予兆期間を算出し、目的事象の発生に関連する重要事象発生日を負例特徴量121から算出し、負例の重要事象発生日に予兆期間を加算することで負例基準日120を決定することが可能となる。
With the above configuration, the longitudinal
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。 The present invention is not limited to the above-described embodiments, but includes various modified examples. For example, the above-described embodiments are described in detail to clearly explain the present invention, and are not necessarily limited to those having all of the configurations described. It is also possible to replace part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. In addition, the addition, deletion, or replacement of part of the configuration of each embodiment with other configurations can be applied alone or in combination.
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。 The above configurations, functions, processing units, and processing means may be realized in part or in whole in hardware, for example by designing them as integrated circuits. The above configurations and functions may be realized in software by a processor interpreting and executing a program that realizes each function. Information on the programs, tables, files, etc. that realize each function may be stored in a memory, a recording device such as a hard disk or SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。 In addition, the control lines and information lines shown are those considered necessary for the explanation, and not all control lines and information lines on the product are necessarily shown. In reality, it can be assumed that almost all components are interconnected.
1 経時データ分析装置
2 プロセッサ
3 メモリ
4 ストレージ装置
101 目的事象発生時刻データ
102 時系列データ
103 特徴量算出方法ユーザ設定
110 経時特徴量生成部
111 時系列データ分割部
112 正例時系列データ
113 負例時系列データ
114 正例基準日決定部
115 正例基準日
116 特徴量算出部
117 特徴量算出定義
118 正例特徴量
119 負例基準日決定部
120 負例基準日
121 負例特徴量
122 第1特徴量リスト
150 特徴選択部
151 特徴量重要度算出部
152 特徴量重要度
153 特徴量累積閾値判定部
154 第2特徴量リスト
160 機械学習部
1 Longitudinal
Claims (20)
前記計算機が、値とタイムスタンプを含む複数の時系列データを受け付ける時系列データ入力ステップと、
前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付ける目的事象発生データ入力ステップと、
前記計算機が、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義を受け付ける特徴量算出定義入力ステップと、
前記計算機が、目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する分割ステップと、
前記計算機が、前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定ステップと、
前記計算機が、前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する正例特徴量算出ステップと、
前記計算機が、前記正例基準日、前記正例特徴量、及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定ステップと、
前記計算機が、前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出する負例特徴量算出ステップと、を含むことを特徴とする特徴量生成方法。 A feature generation method in which a computer having a processor and a memory receives time-series data and generates features to be input data to a machine learning unit that predicts an occurrence of a target event, comprising the steps of:
A time series data input step in which the computer receives a plurality of time series data including values and timestamps;
a target event occurrence data input step in which the computer receives target event occurrence data including a timestamp of when the target event occurs;
a feature calculation definition input step of the computer receiving a feature calculation definition that defines details of calculating the feature of the time series data;
a division step in which the computer divides the time series data into positive example time series data and negative example time series data by referring to target event occurrence data;
a positive example reference date determination step in which the computer determines a positive example reference date, which is a reference date in the positive example time series data;
a positive example feature calculation step of calculating a positive example feature from a combination of the positive example time-series data and the positive example reference date based on the feature calculation definition;
a negative example reference date determination step in which the computer determines a negative example reference date using the positive example reference date, the positive example feature amount, and the negative example time-series data as input;
a negative example feature calculation step of calculating negative example features from a combination of the negative example time-series data and the negative example reference date based on the feature calculation definition by the computer.
前記計算機が、前記正例特徴量と負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力する経時特徴量生成ステップと、
前記計算機が、前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出ステップと、
前記計算機が、前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量及び負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定ステップと、をさらに含むことを特徴とする特徴量生成方法。 2. The feature generating method according to claim 1,
a time-course feature generating step of generating a list of the positive example features and the negative example features as a first feature list and outputting the positive example features, the negative example features, and the first feature list by the computer;
a feature importance calculation step in which the computer calculates feature importance of the positive example feature and the negative example feature listed in the first feature list;
the computer accumulates the feature importance values in descending order, and stores the positive example features and negative example features until the accumulated value reaches a predetermined threshold Th1 in a second feature list as features to be learned.
前記特徴量累積閾値判定ステップは、
前記累積値が所定の閾値Th1に達した時点で、第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出ステップで特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出ステップと、前記特徴量累積閾値判定ステップによる絞り込みを繰り返すことを特徴とする特徴量生成方法。 3. The feature generating method according to claim 2,
The feature amount accumulation threshold determination step includes:
a feature generation method characterized in that, if unprocessed data is present in the first feature list when the cumulative value reaches a predetermined threshold Th1, the unprocessed data is deleted and then the feature importance is calculated again in the feature importance calculation step, and the feature importance calculation step and the narrowing down step are repeated until there is no unprocessed data in the first feature list when the cumulative value of the feature importance reaches a predetermined threshold Th1.
前記計算機が、前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出更新ステップを、さらに含むことを特徴とする特徴量生成方法。 3. The feature generating method according to claim 2,
a feature calculation update step in which the computer inputs the calculated feature importance and changes the feature calculation definition in accordance with the value of the feature importance.
前記負例基準日決定ステップは、
第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定する基準スライドステップと、
前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定する統計期間設定ステップと、
前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出する負例基準日別特徴量算出ステップと、
前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出する正例基準日別特徴量算出ステップと、
前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定する決定ステップと、を含むことを特徴とする特徴量生成方法。 2. The feature generating method according to claim 1,
The negative example reference date determination step includes:
a reference sliding step of setting a first reference date as a preset reference date and setting a plurality of reference dates from the first reference date to an Nth reference date at intervals of a predetermined number of days;
a statistical period setting step of setting a plurality of preset statistical periods for each of the first reference date and the Nth reference date;
a negative example reference date feature amount calculation step of calculating a feature amount of negative example time series data for each statistical period from the first reference date to the Nth reference date, and calculating a negative example reference date feature amount for each reference date;
a positive case reference date feature value calculation step of calculating a feature value of positive case time series data for each of the plurality of statistical periods for each of the positive case reference dates, and calculating a positive case reference date feature value for each of the positive case reference dates;
and determining, as the negative example reference date, a reference date for which the negative example reference date feature is closest to any one of the positive example reference date features, by arranging the negative example reference date feature and the positive example reference date feature in a predetermined feature space, and calculating a distance between each reference date.
前記負例基準日決定ステップは、
前記複数の統計期間が負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成方法。 The feature generating method according to claim 5,
The negative example reference date determination step includes:
a first reference date to an Nth reference date and the statistical periods are set so that the statistical periods cover an entire period of negative example time series data.
前記負例基準日決定ステップは、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成方法。 2. The feature generating method according to claim 1,
The negative example reference date determination step includes:
a date of occurrence of an important event related to the occurrence of a target event for each of the positive example time series data is obtained as an important event occurrence date, a period from the important event occurrence date to the positive example reference date is set as a predictive period, a frequency distribution of the positive example predictive period is calculated for each of the positive example time series data, and a negative example reference date for the negative example time series data is determined so as to have the same probability distribution as the frequency distribution of the positive example predictive period.
前記負例基準日決定ステップは、
前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成方法。 2. The feature generating method according to claim 1,
The negative example reference date determination step includes:
a frequency distribution of the positive example reference date is calculated, and a negative example reference date is determined for each of the negative example time series data with the same probability distribution as the frequency distribution.
前記計算機が、前記正例特徴量と負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力する経時特徴量生成ステップと、
前記計算機が、前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出ステップと、
前記計算機が、前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量及び負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定ステップと、
前記計算機が、前記算出された前記特徴量重要度を入力して前記特徴量算出定義を更新する特徴量算出定義更新ステップを、さらに含み、
前記特徴量重要度算出ステップは、
前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
前記特徴量算出定義更新ステップは、
前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成方法。 The feature generating method according to claim 5,
a time-course feature generating step of generating a list of the positive example features and the negative example features as a first feature list and outputting the positive example features, the negative example features, and the first feature list by the computer;
a feature importance calculation step in which the computer calculates feature importance of the positive example feature and the negative example feature listed in the first feature list;
a feature accumulation threshold determination step in which the computer accumulates the feature importance values in descending order, and stores the positive example feature values and negative example feature values until the accumulated value reaches a predetermined threshold Th1 in a second feature list as feature values to be learned;
The computer further includes a feature quantity calculation definition updating step of updating the feature quantity calculation definition by inputting the calculated feature quantity importance,
The feature importance calculation step includes:
calculating the feature importance from the feature for each of the plurality of different statistical periods;
The feature amount calculation definition update step includes:
a feature generation method comprising: receiving the feature importance for each of the plurality of different statistical periods; and, if there is a statistical period in which the feature importance is greater than the other statistical periods, notifying the addition of a new statistical period.
前記負例基準日決定ステップは、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定するステップと、
前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出するステップと、
前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出するステップと、
前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するステップと、を含むことを特徴とする特徴量生成方法。 The feature generation method according to claim 7,
The negative example reference date determination step includes:
acquiring an occurrence date of an important event related to the occurrence of a target event for each of the positive case time series data as an important event occurrence date, calculating a period from the important event occurrence date to the positive case reference date as a predictive period, calculating a frequency distribution of the positive case predictive period for each of the positive case time series data, and determining a predictive period from the positive case predictive period frequency distribution;
calculating a feature amount for each of the negative example time-series data, calculating a feature amount importance from the feature amount, and accumulating the feature amount importance in descending order of value to calculate negative example feature amounts until an accumulated value reaches a predetermined threshold value Th1;
calculating, as an important event occurrence date, a date on which a feature amount from the past to the present of the time series of the negative example time series data first exceeds a predetermined threshold value Th4;
and calculating a negative example reference date by adding the predictive period calculated from the frequency distribution of the positive example predictive period to the important event occurrence date.
値とタイムスタンプを含む複数の時系列データと、前記目的事象が発生したタイムスタンプを含む目的事象発生データと、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義とを受け付けて、前記時系列データから正例特徴量と負例特徴量及び第1特徴量リストを出力する経時特徴量生成部と、
前記正例特徴量と前記負例特徴量及び前記第1特徴量リストを受け付けて、学習対象の前記正例特徴量及び前記負例特徴量を指定する第2特徴量リストを生成する特徴選択部と、を有し、
前記経時特徴量生成部は、
目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する時系列データ分割部と、
前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定部と、
前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する特徴量算出部と、
前記正例基準日、前記正例特徴量及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定部と、を有し、
前記特徴量算出部は、
前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出することを特徴とする特徴量生成装置。 A feature generation device including a processor and a memory, which receives time-series data and generates features to be input data to a machine learning unit that predicts an occurrence of a target event,
a time-series feature generation unit that receives a plurality of time-series data including values and timestamps, target event occurrence data including a timestamp when the target event occurs, and a feature calculation definition that defines content for calculating features of the time-series data, and outputs positive example features, negative example features, and a first feature list from the time-series data;
a feature selection unit that receives the positive example feature, the negative example feature, and the first feature list, and generates a second feature list that specifies the positive example feature and the negative example feature of a learning target,
The temporal feature generation unit
a time series data division unit that divides the time series data into positive example time series data and negative example time series data by referring to the target event occurrence data;
A positive case reference date determination unit that determines a positive case reference date, which is a reference date in the positive case time series data;
a feature amount calculation unit that calculates a positive example feature amount based on the feature amount calculation definition from a combination of the positive example time series data and the positive example reference date;
a negative example reference date determination unit that determines a negative example reference date using the positive example reference date, the positive example feature amount, and the negative example time-series data as inputs,
The feature amount calculation unit
a feature generating device for calculating negative example features based on the feature calculation definition from a combination of the negative example time-series data and the negative example reference date.
前記経時特徴量生成部は、
前記正例特徴量と前記負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力し、
前記特徴選択部は、
前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出部と、
前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの前記正例特徴量及び前記負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定部と、をさらに有することを特徴とする特徴量生成装置。 The feature generating device according to claim 11,
The temporal feature generation unit
generating a list of the positive example features and the negative example features as a first feature list, and outputting the positive example features, the negative example features, and the first feature list;
The feature selection unit :
a feature importance calculation unit that calculates feature importance of the positive example feature and the negative example feature listed in the first feature list;
and a feature accumulation threshold determination unit that accumulates the feature importance values in descending order, and stores the positive example features and the negative example features until the accumulated value reaches a predetermined threshold Th1 in a second feature list as features to be learned.
前記特徴量累積閾値判定部は、
前記累積値が所定の閾値Th1に達した時点で、前記第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出部で特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出部と前記特徴量累積閾値判定部による絞り込みを繰り返すことを特徴とする特徴量生成装置。 The feature generating device according to claim 12,
The feature amount accumulation threshold determination unit
a feature generation device characterized in that, if unprocessed data exists in the first feature list when the cumulative value reaches a predetermined threshold Th1, the unprocessed data is deleted and the feature importance calculation unit calculates the feature importance again, and the narrowing down is repeated by the feature importance calculation unit and the feature accumulation threshold determination unit until there is no unprocessed data in the first feature list when the cumulative value of the feature importance reaches the threshold Th1.
前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出定義更新部を、さらに有することを特徴とする特徴量生成装置。 The feature generating device according to claim 12,
a feature calculation definition update unit that receives the calculated feature importance and changes the feature calculation definition in accordance with the value of the feature importance.
前記負例基準日決定部は、
第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定し、前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定し、前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出し、前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出し、前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定することを特徴とする特徴量生成装置。 The feature generating device according to claim 11,
The negative example reference date determination unit
a feature generation device comprising: a first reference date set as a predetermined reference date; a plurality of reference dates set from the first reference date to an Nth reference date at intervals of a predetermined number of days; a plurality of predetermined statistical periods set for each of the periods from the first reference date to the Nth reference date; a feature amount of negative example time-series data for each statistical period set for each of the periods from the first reference date to the Nth reference date to calculate a negative example reference date feature amount for each reference date; a feature amount of positive example time-series data for each of the plurality of statistical periods set for each of the positive example reference dates to calculate a positive example reference date feature amount for each positive example reference date;
前記負例基準日決定部は、
前記複数の統計期間が前記負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成装置。 The feature generating device according to claim 15,
The negative example reference date determination unit
a first reference date to an N-th reference date and the statistical periods are set so that the plurality of statistical periods covers an entire period of the negative example time series data.
前記負例基準日決定部は、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成装置。 The feature generating device according to claim 11,
The negative example reference date determination unit
a date of occurrence of an important event related to the occurrence of a target event for each of the positive example time series data is obtained as an important event occurrence date, a period from the important event occurrence date to the positive example reference date is set as a predictive period, a frequency distribution of the positive example predictive period is calculated for each of the positive example time series data, and a negative example reference date for the negative example time series data is determined so as to have the same probability distribution as the frequency distribution of the positive example predictive period.
前記負例基準日決定部は、
前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成装置。 The feature generating device according to claim 11,
The negative example reference date determination unit
a frequency distribution of the positive example reference date is calculated, and a negative example reference date is determined for each of the negative example time series data with the same probability distribution as the frequency distribution.
前記経時特徴量生成部は、
前記正例特徴量と前記負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力し、
前記特徴選択部は、
前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出部と、
前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの前記正例特徴量及び前記負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定部と、をさらに有し、
前記特徴量生成装置は、前記算出された前記特徴量重要度を入力して前記特徴量算出定義を更新する特徴量算出定義更新部を、さらに有し、
前記特徴量重要度算出部は、
前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
前記特徴量算出定義更新部は、
前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成装置。 The feature generating device according to claim 15,
The temporal feature generation unit
generating a list of the positive example features and the negative example features as a first feature list, and outputting the positive example features, the negative example features, and the first feature list;
The feature selection unit:
a feature importance calculation unit that calculates feature importance of the positive example feature and the negative example feature listed in the first feature list;
a feature accumulation threshold determination unit that accumulates the feature importance values in descending order and stores the positive example feature values and the negative example feature values in a second feature list until the accumulated value reaches a predetermined threshold Th1 as feature values to be learned,
the feature generation device further includes a feature calculation definition update unit that updates the feature calculation definition by inputting the calculated feature importance,
The feature importance calculation unit
calculating the feature importance from the feature for each of the plurality of different statistical periods;
The feature amount calculation definition update unit is
and receiving the feature importance for each of the plurality of different statistical periods, and if there is a statistical period in which the feature importance is greater than the other statistical periods, notifying the addition of a new statistical period.
前記負例基準日決定部は、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定する予兆期間決定部と、
前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出し、前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出し、前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するする重要特徴量探索部と、を有することを特徴とする特徴量生成装置。 The feature generation method according to claim 17,
The negative example reference date determination unit
a predictive period determination unit that obtains an occurrence date of an important event related to the occurrence of a target event for each of the positive case time series data as an important event occurrence date, calculates a period from the important event occurrence date to the positive case reference date as a predictive period, calculates a positive case predictive period frequency distribution for each of the positive case time series data, and determines a predictive period from the positive case predictive period frequency distribution;
an important feature search unit that calculates a feature for each of the negative example time-series data, calculates a feature importance from the feature, accumulates the feature importance in descending order of value, calculates negative example features until an accumulated value reaches a predetermined threshold Th1, calculates a day on which a feature exceeds a predetermined threshold Th4 for the first time from the past to the present in the time series of the negative example time-series data as an important event occurrence date, and calculates a negative example reference date by adding a predictive period calculated from the frequency distribution of a predictive period of a positive example to the important event occurrence date.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020095384A JP7481909B2 (en) | 2020-06-01 | 2020-06-01 | Feature generation method and feature generation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020095384A JP7481909B2 (en) | 2020-06-01 | 2020-06-01 | Feature generation method and feature generation device |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021189833A JP2021189833A (en) | 2021-12-13 |
JP2021189833A5 JP2021189833A5 (en) | 2023-02-10 |
JP7481909B2 true JP7481909B2 (en) | 2024-05-13 |
Family
ID=78849612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020095384A Active JP7481909B2 (en) | 2020-06-01 | 2020-06-01 | Feature generation method and feature generation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7481909B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118284943A (en) | 2021-11-24 | 2024-07-02 | 株式会社力森诺科 | Prediction device, learning device, prediction method, learning method, prediction program, and learning program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180868A (en) | 2010-03-02 | 2011-09-15 | Advanced Telecommunication Research Institute International | Home network management system |
JP2016058029A (en) | 2014-09-12 | 2016-04-21 | 株式会社東芝 | Behavior analyzing apparatus, behavior analyzing method and program |
JP2019140861A (en) | 2018-02-15 | 2019-08-22 | 中電技術コンサルタント株式会社 | Power data processing system and method for processing power data using power data processing system |
-
2020
- 2020-06-01 JP JP2020095384A patent/JP7481909B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180868A (en) | 2010-03-02 | 2011-09-15 | Advanced Telecommunication Research Institute International | Home network management system |
JP2016058029A (en) | 2014-09-12 | 2016-04-21 | 株式会社東芝 | Behavior analyzing apparatus, behavior analyzing method and program |
JP2019140861A (en) | 2018-02-15 | 2019-08-22 | 中電技術コンサルタント株式会社 | Power data processing system and method for processing power data using power data processing system |
Also Published As
Publication number | Publication date |
---|---|
JP2021189833A (en) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9076156B2 (en) | Real-time adaptive binning through partition modification | |
Duarte et al. | Adaptive model rules from high-speed data streams | |
EP3475798A1 (en) | Data quality detection and compensation for machine learning | |
JP7304384B2 (en) | Methods, apparatus, electronics, storage media, and computer program products for generating models | |
US10331221B2 (en) | Methods for analysing user interactions with a user interface | |
WO2012145616A2 (en) | Predictive modeling | |
JP7139932B2 (en) | Demand forecasting method, demand forecasting program and demand forecasting device | |
US20230222367A1 (en) | Allocation method, extraction method, allocation apparatus, extraction apparatus, and computer-readable recording medium | |
JP7479251B2 (en) | Computer system and information processing method | |
JP7481909B2 (en) | Feature generation method and feature generation device | |
Verma et al. | Feature selection | |
Knock et al. | Bayesian model choice for epidemic models with two levels of mixing | |
JP7148444B2 (en) | Sentence classification device, sentence classification method and sentence classification program | |
JP5877825B2 (en) | Data processing apparatus and data processing method | |
US20210405627A1 (en) | Production planning system | |
JP2023064408A (en) | Questionnaire result analysis program, questionnaire result analysis method, and information processing apparatus | |
Li et al. | iMiner: mining inventory data for intelligent management | |
Vasumathi et al. | A comparative study on traditional data mining and big data mining classification algorithms | |
JP5826893B1 (en) | Change point prediction apparatus, change point prediction method, and computer program | |
JP2020095305A5 (en) | ||
CN112106045A (en) | Information processing device, system, information processing method, and program | |
US20230334282A1 (en) | Data management system and data management method | |
Brazdil et al. | Algorithm Recommendation for Data Streams | |
CN117036008B (en) | Automatic modeling method and system for multi-source data | |
Prastyo et al. | Survival support vector machines: A simulation study and its health-related application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7481909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |