JP2024043181A - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP2024043181A JP2024043181A JP2022148221A JP2022148221A JP2024043181A JP 2024043181 A JP2024043181 A JP 2024043181A JP 2022148221 A JP2022148221 A JP 2022148221A JP 2022148221 A JP2022148221 A JP 2022148221A JP 2024043181 A JP2024043181 A JP 2024043181A
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- similar
- unit
- data
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000011156 evaluation Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 31
- 238000000034 method Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000012535 impurity Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Abstract
【課題】予測モデルの予測値を精度良く評価することを可能とする。ニューラルネットワークに限らず、様々な機械学習アルゴリズムによって構築された学習モデルに適用可能な評価方法を提供する。【解決手段】情報処理装置は、予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定する特定部と、学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の学習データから予測対象データと類似する類似学習データを抽出する抽出部と、抽出部によって抽出された類似学習データに基づいて、予測対象データを入力として予測モデルから出力される予測値の信頼性を評価する評価部と、を備える。【選択図】図3[Problem] To enable accurate evaluation of predicted values of a prediction model. To provide an evaluation method applicable to learning models constructed by various machine learning algorithms, not limited to neural networks. [Solution] An information processing device includes an identification unit that identifies important explanatory variables from multiple explanatory variables included in learning data used to generate a prediction model, an extraction unit that extracts similar learning data similar to the prediction target data from the multiple learning data based on the values of the important explanatory variables of the learning data and the values of the important explanatory variables of the prediction target data, and an evaluation unit that evaluates the reliability of a predicted value output from a prediction model using the prediction target data as input, based on the similar learning data extracted by the extraction unit. [Selected Figure] Figure 3
Description
本発明は、情報処理装置、情報処理方法およびプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
従来、学習データを用いて機械学習により構築した学習モデルを利用して、新たなデータに対する予測値を出力する技術が知られている。特許文献1には、学習事例を用いて構築された学習済みのニューラルネットワークによる新たな入力事例に対する予測結果を評価する技術が記載されている。特許文献1に記載の技術では、学習事例と入力事例との類似度に基づいて学習事例から類似事例が抽出され、この類似事例を用いてニューラルネットワークによる予測結果が評価される。
2. Description of the Related Art Conventionally, a technique is known in which a learning model constructed by machine learning using learning data is used to output a predicted value for new data.
しかしながら、特許文献1に記載の技術では、入力事例および学習事例のすべての説明変数が予測結果の評価に使用されており、予測結果の評価において重要な説明変数ほど寄与が大きくなるようにしているものの、重要でない説明変数が多数存在する場合はそれらが評価に影響を与え得る。このため、特許文献1に記載の技術では、予測結果を精度よく評価できない場合があった。
However, in the technology described in
本発明はこうした状況に鑑みてなされたものであり、その例示的な目的の一つは、予測モデルの予測値を精度良く評価することを可能とする情報処理装置、情報処理方法およびプログラムを提供することにある。 The present invention has been made in view of these circumstances, and one of its exemplary objects is to provide an information processing device, an information processing method, and a program that make it possible to accurately evaluate predicted values of a prediction model. It's about doing.
上記課題を解決するために、本発明のある態様の情報処理装置は、予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定する特定部と、学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の学習データから予測対象データと類似する類似学習データを抽出する抽出部と、抽出部によって抽出された類似学習データに基づいて、予測対象データを入力として予測モデルから出力される予測値の信頼性を評価する評価部と、を備える。 In order to solve the above problem, an information processing device according to one aspect of the present invention includes an identification unit that identifies important explanatory variables from a plurality of explanatory variables included in the learning data used to generate a prediction model, an extraction unit that extracts similar learning data that is similar to the data to be predicted from the plurality of learning data based on the values of the important explanatory variables of the learning data and the values of the important explanatory variables of the data to be predicted, and an evaluation unit that evaluates the reliability of a predicted value output from the prediction model using the data to be predicted as input based on the similar learning data extracted by the extraction unit.
本発明のさらに別の態様は、情報処理方法である。この情報処理方法は、予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定することと、学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の学習データから予測対象データと類似する類似学習データを抽出することと、類似学習データに基づいて、予測対象データを入力として予測モデルから出力される予測値の信頼性を評価することと、を含む。 Yet another aspect of the present invention is an information processing method. This information processing method involves identifying important explanatory variables from multiple explanatory variables included in the training data used to generate the predictive model, and comparing the values of the important explanatory variables in the training data with the important explanatory variables in the data to be predicted. extracting similar learning data that is similar to the prediction target data from multiple learning data based on the value, and determining the reliability of the predicted value output from the prediction model using the prediction target data as input based on the similar learning data. including evaluating the
本発明のさらに別の態様は、プログラムである。このプログラムは、コンピュータに、予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定することと、学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の学習データから予測対象データと類似する類似学習データを抽出することと、類似学習データに基づいて、予測対象データを入力として予測モデルから出力される予測値の信頼性を評価することと、を実行させるためのものである。 Yet another aspect of the present invention is a program. This program uses a computer to identify important explanatory variables from multiple explanatory variables included in the training data used to generate the prediction model, and to calculate the values of the important explanatory variables in the training data and the important explanatory variables of the data to be predicted. extracting similar learning data that is similar to the prediction target data from multiple training data based on the value of , and increasing the reliability of the predicted value output from the prediction model using the prediction target data as input based on the similar learning data. The objective is to evaluate the gender and carry out the following.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 In addition, any combination of the above components, and any transformation of the present invention into a method, device, system, recording medium, computer program, etc., are also valid aspects of the present invention.
本発明によれば、予測モデルの予測値を精度良く評価することを可能とする情報処理装置、情報処理方法およびプログラムを提供できる。 According to the present invention, it is possible to provide an information processing device, an information processing method, and a program that enable accurate evaluation of predicted values of a prediction model.
[実施形態]
以下、図面を参照しながら、本発明を実施するための形態について詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を適宜省略する。また、以下に述べる構成は例示であり、本発明の範囲を何ら限定するものではない。
[Embodiment]
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In addition, in the description of the drawings, the same elements are given the same reference numerals, and redundant description will be omitted as appropriate. Further, the configuration described below is an example and does not limit the scope of the present invention in any way.
図1は、本発明の一実施形態に係る情報処理装置1のハードウェア構成を示す図である。情報処理装置1は、プロセッサ10、記憶装置12、入力操作を受け付ける入力装置14および情報の出力を行う出力装置16を備える。プロセッサ10は、CPU(Central Processing Unit)およびGPU(Graphical Processing Unit)などを含む。記憶装置12は、メモリ、HDD(Hard Disk Drive)およびSSD(Solid State Drive)などを含む。入力装置14は、たとえば、キーボード、タッチパネル、マウスおよびマイクなどを含む。出力装置16は、たとえば、ディスプレイ、タッチパネルおよびスピーカなどを含む。
FIG. 1 is a diagram showing a hardware configuration of an
図2は、本発明の一実施形態に係る情報処理装置1の機能ブロック図である。本実施形態に係る情報処理装置1は、入力部20、記憶部22、処理部24および出力部26を備える。
Figure 2 is a functional block diagram of an
入力部20は、各種の情報を受け付け、その情報を処理部24に伝達する。入力部20は、情報処理装置1が備える入力装置14によって実現される。
The
記憶部22は、各種の情報を記憶する。記憶部22は、たとえば、処理部24が各種の情報処理を実行するためのプログラム、予測モデルに関する情報、予測モデルの生成に用いられた学習データ、予測対象データなどを記憶してよい。記憶部22は、情報処理装置1が備える記憶装置12によって実現される。
The
本実施形態に係る予測モデルは、各種の公知の機械学習アルゴリズムに基づき、学習データを用いて生成される。予測モデルは、たとえばニューラルネットワークおよび回帰木などで構成されてよい。 The prediction model according to this embodiment is generated using training data based on various known machine learning algorithms. The prediction model may be composed of, for example, a neural network and a regression tree.
本実施形態に係る学習データは、複数の説明変数および目的変数を含む。本実施形態に係る説明変数は、車両に関する変数を含み、たとえば、車種、型式、車体の色、駆動輪数(二輪駆動または四輪駆動)、走行距離および使用年数などを示してよい。また、本実施形態に係る目的変数は、車両の価格を示す。なお、学習データの説明変数および目的変数は、車両に関する変数に限定されるものではない。 The learning data according to this embodiment includes a plurality of explanatory variables and a target variable. The explanatory variables according to this embodiment include variables related to the vehicle, and may indicate, for example, the type, model, color of the vehicle body, number of driven wheels (two-wheel drive or four-wheel drive), mileage, and years of use. Further, the objective variable according to this embodiment indicates the price of the vehicle. Note that the explanatory variables and objective variables of the learning data are not limited to variables related to the vehicle.
このような学習データを用いて生成された予測モデルは、予測対象データを入力として、車両の価格を予測値として出力する。本実施形態に係る予測対象データは、学習データと同様の複数の説明変数を含む。したがって、本実施形態に係る予測モデルは、車両に関する情報を入力として、その車両の価格を予測値として出力する。 A prediction model generated using such training data takes the prediction target data as input and outputs the price of the vehicle as a predicted value. The prediction target data in this embodiment includes multiple explanatory variables similar to the training data. Therefore, the prediction model in this embodiment takes information about the vehicle as input and outputs the price of the vehicle as a predicted value.
処理部24は、各種の情報処理を実行し、その結果を記憶部22および出力部26に伝達する。処理部24の機能は、情報処理装置1のプロセッサ10が、記憶装置12に記憶されたプログラムを実行することにより実現される。
The
出力部26は、各種の情報を出力する。出力部26は、たとえば処理部24による情報処理の結果を表示してよく、具体的には、予測モデルから出力される予測値の信頼性の評価結果を表示してよい。出力部26は、情報処理装置1が備える出力装置16によって実現される。
The
図3は、本実施形態に係る処理部24の機能ブロック図である。本実施形態に係る処理部24は、生成処理部240、評価処理部260および予測処理部280を有する。
FIG. 3 is a functional block diagram of the
生成処理部240は、学習データを用いて予測モデルを生成し、その生成結果に基づき、学習データを構成する説明変数の重要度を判定する。生成処理部240の機能は、モデル生成部242および判定部244が協働することにより実現される。
The
モデル生成部242は、各種の公知の機械学習アルゴリズムに基づき、学習データを用いて予測モデルを生成する。生成された予測モデルに関する情報は、判定部244および予測処理部280に伝達される。モデル生成部242が生成する予測モデルの構成は特に限定されるものではないが、本実施形態では、予測モデルが回帰木で構成される例を説明する。
The
判定部244は、学習データの各説明変数の重要度を判定する。判定部244は、各種の公知の機械学習アルゴリズムに基づき算出される特徴量重要度を用いて、各説明変数の重要度を判定してよい。より詳細には、判定部244は、回帰木における特徴量重要度に基づいて、各説明変数の重要度を判定してよい。
The determining
判定部244は、たとえば、CatBoost(登録商標)などで定義されている特徴量重要度(Feature Importance)に基づいて、説明変数の重要度を判定してよい。特徴量重要度の求め方は、CatBoostの以下のURLを参照されたい(Feature importance - Model analysis | CatBoost)。なお、特徴量重要度は、モデル生成部242で算出されてよい。
https://catboost.ai/en/docs/concepts/fstr#fstr__regular-feature-importance
The
https://catboost.ai/en/docs/concepts/fstr#fstr__regular-feature-importance
判定部244は、予測モデルの回帰木において説明変数により学習データを分割したとき、分割された学習データの集合における目的変数の近さ(より詳細には、目的変数の分布に基づくジニ不純度)に基づいて、その説明変数の重要度を判定してよい。具体的には、判定部244は、分割前後のジニ不純度の差分に基づいて、説明変数の重要度を判定してよい。
When the learning data is divided by explanatory variables in the regression tree of the prediction model, the
たとえば、ある説明変数Aによる学習データの分割前後におけるジニ不純度が差分Aであり、ある説明変数Bによる学習データの分割前後におけるジニ不純度が差分Bであるとする。判定部244は、差分Aおよび差分Bを比較することにより、説明変数Aおよび説明変数Bの重要度を判定できる。具体的には、判定部244は、学習データの分割前後において、ジニ不純度の減少量が大きいほど、対応する説明変数の重要度が高いと判定してよい。
For example, assume that the Gini impurity before and after dividing the learning data using a certain explanatory variable A is a difference A, and the Gini impurity before and after dividing the learning data using a certain explanatory variable B is a difference B. The
なお、説明変数Aに関して第1の条件で学習データを分割し、その後、説明変数Bで学習データが分割され、さらに、説明変数Aに関して第2の条件で学習データを分割するといった、ある説明変数で学習データが複数回分割される場合がある。この場合、判定部244は、少なくとも説明変数Aに関し、第1および第2の条件で学習データを分割する際のジニ不純度の差分を考慮することとなる。
It should be noted that for a certain explanatory variable, the learning data is divided according to the first condition regarding explanatory variable A, then the learning data is divided according to explanatory variable B, and then the learning data is further divided according to the second condition regarding explanatory variable A. The training data may be divided multiple times. In this case, regarding at least the explanatory variable A, the
なお、予測モデルがニューラルネットワークで構成されている場合には、判定部244は、ニューラルネットワークの結合状態に基づいて、各説明変数の重要度を判定してよい。
Note that when the prediction model is configured by a neural network, the
評価処理部260は、生成処理部240によって生成された予測モデルおよび判定された説明変数の重要度に基づいて、予測モデルから出力される予測値の信頼性を評価する。評価処理部260の機能は、特定部262、抽出部264、カウント部266、算出部268および評価部270が協働することにより実現される。
The
特定部262は、予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定する。具体的には、特定部262は、判定部244によって判定された説明変数の重要度に基づいて、重要説明変数を特定してよい。たとえば、特定部262は、所定の閾値以上の重要度をもつ説明変数を重要説明変数として特定してよい。特定部262は、重要説明変数に関する情報を抽出部264に伝達する。
The identifying
抽出部264は、学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の学習データから予測対象データと類似する類似学習データを抽出する。具体的には、抽出部264は、学習データの重要説明変数の値と予測対象データの重要説明変数の値に基づいて、予測対象データに対する学習データの類似度を算出し、その類似度を用いて類似学習データを抽出してよい。たとえば、抽出部264は、学習データの類似度が所定の閾値を超える場合には、その学習データを類似学習データとして抽出してよい。抽出部264は、抽出した類似学習データに関する情報をカウント部266、算出部268および予測処理部280に伝達する。
The
図4を参照しながら、抽出部264が予測対象データに対する学習データの類似度を算出する方法の一例を説明する。図4には、予測対象データおよび1つの学習データについて、3つの重要説明変数(X1、X2およびX3)の値が示されている。ここで、X1、X2およびX3の重要度は、0.7、0.2および0.1である。
An example of a method by which the
図4に示すように、予測対象データの重要説明変数X1、X2およびX3の値は、それぞれ0.7、0.5および1である。また、学習データの重要説明変数X1、X2およびX3の値は、それぞれ0.2、0.1および0である。本例では、以下の(1)~(3)の処理を行うことにより、これらの重要説明変数の値に基づいて類似度が算出される。 As shown in FIG. 4, the values of the important explanatory variables X1, X2, and X3 of the data to be predicted are 0.7, 0.5, and 1, respectively. The values of the important explanatory variables X1, X2, and X3 of the training data are 0.2, 0.1, and 0, respectively. In this example, the similarity is calculated based on the values of these important explanatory variables by performing the following processes (1) to (3).
(1)重要説明変数の値の差分の絶対値を算出
まず、学習データの重要説明変数の値と、予測対象データの重要説明変数の値との差分の絶対値が算出される。その算出結果は、図4に示すように、重要説明変数X1、X2およびX3について、それぞれ0.5、0.4および1である。なお本例では、学習データの重要説明変数の値と予測対象データの重要説明変数の値との差分の絶対値を用いて類似学習データを抽出する例を説明するが、たとえば、学習データの重要説明変数の値と予測対象データの重要説明変数の値との積(「コサイン類似度」ともいう。)を算出し、この積に基づいて類似学習データを抽出してよい。
(1) Calculating the absolute value of the difference between the values of important explanatory variables First, the absolute value of the difference between the value of the important explanatory variable of the learning data and the value of the important explanatory variable of the prediction target data is calculated. As shown in FIG. 4, the calculation results are 0.5, 0.4, and 1 for the important explanatory variables X1, X2, and X3, respectively. In this example, we will explain an example in which similar training data is extracted using the absolute value of the difference between the value of the important explanatory variable of the training data and the value of the important explanatory variable of the prediction target data. The product (also referred to as "cosine similarity") of the value of the explanatory variable and the value of the important explanatory variable of the prediction target data may be calculated, and similar learning data may be extracted based on this product.
また、重要説明変数が量的変数である場合には、重要説明変数の値の差分の絶対値を算出する前に、全学習データにおける重要説明変数の最小値が0となり、全学習データにおける重要説明変数の最大値が1となるように、min-max normalizationが施されてよい。 In addition, if the important explanatory variable is a quantitative variable, before calculating the absolute value of the difference between the values of the important explanatory variable, the minimum value of the important explanatory variable in all training data becomes 0, and Min-max normalization may be performed so that the maximum value of the explanatory variable is 1.
さらに、重要説明変数が質的変数である場合には、所定の条件が満たされるときには、重要説明変数の値を1とし、所定の条件が満たされないときには、重要説明変数の値を0としてよい。たとえば、車両の色が黒色であることが所定の条件である場合には、重要説明変数の値が示す車両の色が黒色のとき、重要説明変数の値を1とし、重要説明変数の値が示す車両の色が黒色以外の色であるとき、重要説明変数の値を0としてよい。 Further, when the important explanatory variable is a qualitative variable, the value of the important explanatory variable may be set to 1 when a predetermined condition is satisfied, and the value of the important explanatory variable may be set to 0 when the predetermined condition is not satisfied. For example, if the predetermined condition is that the color of the vehicle is black, when the color of the vehicle indicated by the value of the important explanatory variable is black, the value of the important explanatory variable is set to 1, and the value of the important explanatory variable is set to 1. When the color of the vehicle shown is a color other than black, the value of the important explanatory variable may be set to 0.
(2)絶対値と重要度とを積算
上述の(1)において算出された重要説明変数の値の差分の絶対値とその重要説明変数の重要度とが積算される。積算結果は、図4に示すように、重要説明変数X1、X2およびX3について、それぞれ0.35、0.08および0.1である。
(2) Multiplying the absolute values and the importance The absolute values of the differences between the values of the important explanatory variables calculated in (1) above are multiplied by the importance of the important explanatory variables. As shown in Figure 4, the multiplication results are 0.35, 0.08, and 0.1 for the important explanatory variables X1, X2, and X3, respectively.
(3)類似度の算出
上述の(2)における積算して得られた値の和を用いて、学習データの類似度が算出される。具体的には、1から積算値の合計(0.35+0.08+0.1=0.53)を差し引いた値である0.47が、学習データの類似度として算出される。同様にして、抽出部264は、すべての学習データについて類似度を算出でき、このようにして算出された類似度に基づいて、すべての学習データから類似学習データが抽出される。
(3) Calculating the degree of similarity The degree of similarity of the learning data is calculated using the sum of the values obtained by integrating in (2) above. Specifically, 0.47, which is the value obtained by subtracting the total integrated value (0.35+0.08+0.1=0.53) from 1, is calculated as the similarity of the learning data. Similarly, the
学習データの類似度を算出する方法は、ここで説明した例に限定されるものではない。抽出部264は、重要説明変数が量的変数である場合には、学習データと予測対象データとの距離に基づいて、類似度を算出してよい。具体的には、抽出部264は、重要説明変数の値の差分を用いた二乗和の平方根に基づき類似度を算出してよい。また、重要説明変数が質的変数である場合には、抽出部264は、学習データと予測対象データとにおいて一致する重要説明変数の数に基づいて、類似度を算出してよい。たとえば、抽出部264は、一致する重要説明変数の数が大きいほど、あるいは全重要説明変数の数に対する一致する重要説明変数の数の比率が大きいほど、類似度が大きくなるように、類似度を算出してよい。
The method for calculating the similarity of learning data is not limited to the example described here. When the important explanatory variable is a quantitative variable, the
図3に戻って、評価処理部260の機能について説明する。評価処理部260のカウント部266は、抽出部264によって抽出された類似学習データの数をカウントし、カウントした結果を評価部270に伝達する。また、算出部268は、抽出部264によって抽出された複数の類似学習データの目的変数の標準偏差を算出し、算出した標準偏差を評価部270に伝達する。
Returning to FIG. 3, the functions of the
評価部270は、抽出部264によって抽出された類似学習データに基づいて、予測対象データを入力としたときに予測モデルから出力される予測値の信頼性を評価する。評価部270は、評価結果を出力部26に伝達してよい。これにより、出力部26によって評価結果が表示される。
The
本実施形態では、評価部270は、カウント部266によってカウントされた類似学習データの数に基づいて、予測値の信頼性を評価する。具体的には、評価部270は、類似学習データの数が多いほど、予測値の信頼性を高く評価してよい。あるいは、評価部270は、全類似学習データの数に対する類似学習データの数の比率が大きいほど、予測値の信頼性を高く評価してよい。多くの類似学習データが予測モデルの生成に用いられるほど、予測モデルから出力される予測値の信頼性が高いと考えられる。このため、類似学習データの数を評価に用いることにより、より精度良く予測値の信頼性を評価できる。
In this embodiment, the
また、評価部270は、算出部268によって算出された類似学習データの目的変数の標準偏差に基づいて、予測値の信頼性を評価する。具体的には、評価部270は、類似学習データの目的変数の標準偏差が小さいほど、予測値の信頼性を高く評価してよい。一方、評価部270は、類似学習データの目的変数の標準偏差が大きいほど、予測値の信頼性を低く評価してよい。評価部270は、標準偏差あるいは標準偏差に基づく値を信頼度として算出してよい。
Furthermore, the
目的変数の標準偏差が小さいほど目的変数の値のばらつきが小さい。ばらつきの小さい目的変数の値をもつ類似学習データを用いて生成された予測モデルは、精度の高い予測値を出力できると期待できる。一方、ばらつきの大きい目的変数の値をもつ類似学習データを用いて生成された予測モデルが出力する予測値の精度は低いものと考えられる。したがって、類似学習データの目的変数の標準偏差を評価に用いることにより、より精度良く予測値の信頼性を評価できる。 The smaller the standard deviation of the objective variable, the smaller the variation in the values of the objective variable. A prediction model generated using similar learning data with target variable values with small variations can be expected to output highly accurate predicted values. On the other hand, the accuracy of predicted values output by a predictive model generated using similar learning data with target variable values with large variations is considered to be low. Therefore, by using the standard deviation of the target variable of similar learning data for evaluation, it is possible to evaluate the reliability of predicted values with higher accuracy.
予測処理部280は、モデル生成部242によって生成された予測モデルを用いて予測値を生成し、その予測値を補正する。予測処理部280の機能は、予測生成部282および補正部284が協働することにより実現される。
The
予測生成部282は、予測モデルを用いて予測対象データに対する予測値を生成し、その予測値を補正部284に伝達する。具体的には、予測生成部282は、予測対象データの説明変数を予測モデルに入力し、予測値を取得する。
The
補正部284は、予測生成部282によって生成された予測値を補正し、補正した結果を出力部26に伝達する。これにより、予測値が出力部26に表示される。具体的には、補正部284は、抽出部264によって抽出された複数の類似学習データに基づいて、予測値を補正してよい。類似学習データを用いて予測値を補正することにより、より正確に予測値を補正することが可能となる。
The
同じ車種、型式、走行距離などの条件が揃った車両であっても、車両の価値は年によって変化することが多い。このため、複数の類似学習データがあるとき、これらの目的変数(車両の価格)の値は、それぞれの類似学習データに対応する年によって大きく変化している可能性がある。本実施形態では、補正部284が、このような時間による目的変数の値の変化を考慮した予測値の補正を行う。
Even if the vehicle has the same make, model, mileage, and other conditions, the value of the vehicle often changes from year to year. Therefore, when there is a plurality of similar learning data, the values of these objective variables (vehicle prices) may vary greatly depending on the year corresponding to each similar learning data. In this embodiment, the
本実施形態では、複数の学習データのそれぞれは、時間情報と対応付けられている。時間情報は、たとえば、目的変数の値に対応する車両の価格が査定によって付けられたとき、および目的変数の値に対応する価格で車両が販売されたときの年および日付などを示す情報であってよい。補正部284は、目的変数の値と時間情報との関係に基づいて、予測値を補正できる。
In this embodiment, each of the multiple learning data is associated with time information. The time information may be, for example, information indicating the year and date when the price of the vehicle corresponding to the value of the objective variable was determined by appraisal and when the vehicle was sold at the price corresponding to the value of the objective variable. The
たとえば、学習データの目的変数の値が、時間の経過とともに上昇傾向にあるとする。この場合、過去の情報に基づく学習データの説明変数の値と同様の条件を含む車両の価格は、学習データに基づき予測される車両の価格よりも高くなっていると推定される。しかしながら、予測モデルは学習データを用いて生成されているため、このような目的変数の値の時間依存性が予測モデルに反映されていない。このため、予測対象データを予測モデルに入力したとき、正確な車両の価格よりも低い価格を予測値として出力する可能性がある。 For example, suppose the value of the objective variable in the learning data tends to increase over time. In this case, the price of a vehicle that includes conditions similar to the values of the explanatory variables in the learning data based on past information is presumed to be higher than the price of the vehicle predicted based on the learning data. However, because the prediction model is generated using the learning data, the time dependency of the objective variable values is not reflected in the prediction model. For this reason, when the data to be predicted is input into the prediction model, there is a possibility that a price lower than the accurate vehicle price will be output as the predicted value.
そこで、補正部284は、目的変数の値の時間依存性に基づいて、予測モデルから出力された予測値を補正してよい。具体的には、目的変数の値が時間の経過とともに上昇している場合には、目的変数の値の上昇速度に応じた価格を予測値に加算してよい。また、目的変数の値が時間の経過とともに下降している場合には、目的変数の値の下降速度に応じた価格を予測値から減算してよい。このように目的変数の値の時間依存性を用いて予測値を補正することにより、車両の価格のように年によって価格が変動するものを目的変数とした場合に、より正確に予測値を補正することが可能となる。
Therefore, the
図5は、本発明の一実施形態に係る情報処理装置1による動作の一例を示すフローチャートである。以下、図5に示すフローチャートに沿って、本実施形態に係る動作の流れを説明する。
FIG. 5 is a flowchart illustrating an example of the operation of the
まず、モデル生成部242は、複数の学習データを用いて予測モデルを生成する(S101)。このとき、予測モデルの生成とともに、特徴量重要度が算出されてよい。次いで、判定部244は、学習データの説明変数の重要度を判定する(S103)。ここでは、判定部244は、S101における予測モデルの生成に用いられた学習データに含まれる複数の説明変数について、重要度を判定する。次いで、特定部262は、S103において判定された説明変数の重要度に基づいて、重要説明変数を特定する(S105)。
First, the
次いで、抽出部264は、学習データの重要説明変数の値と、予測対象データの重要説明変数の値とに基づいて、S101における予測モデルの生成に用いられた複数の学習データから類似学習データを抽出する(S107)。ここで使用される重要説明変数は、S105において特定された重要説明変数である。次いで、カウント部266は、S107において抽出された類似学習データの数をカウントする(S109)。次いで、算出部268は、S107において抽出された類似学習データの目的変数の標準偏差を差出する(S111)。
Next, the
次いで、評価部270は、類似学習データに基づいて、予測データを入力したときに予測モデルから出力される予測値を評価する(S113)。ここでは、評価部270は、S109においてカウントされた類似学習データの数およびS111において算出された目的変数の標準偏差に基づいて、予測値の信頼性を評価する。予測部252が予測値の信頼性を評価すると、図5に示す評価処理は終了する。
Next, the
図6は、本発明の一実施形態に係る情報処理装置1による動作の一例を示すフローチャートである。以下、図6に示すフローチャートに沿って、本実施形態に係る評価処理の流れを説明する。
FIG. 6 is a flowchart illustrating an example of the operation of the
まず、S201~S207の処理が行われるが、これらの処理は図5を参照しながら説明したS101~S107の処理と実質的に同一であるため、ここでは省略する。S207において類似学習データが抽出されると、予測生成部282は、予測モデルを用いて、予測対象データを入力として予想値を生成する(S209)。次いで、補正部284は、S207において抽出された類似学習データの目的変数の値と時間情報との関係に基づいて、S209において生成された予測値を補正する(S211)。補正部284が予測値を補正すると、図6に示す補正処理は終了する。
First, the processes of S201 to S207 are carried out, but since these processes are substantially the same as the processes of S101 to S107 described with reference to FIG. 5, they will not be described here. When similar learning data is extracted in S207, the
以上、本発明の一実施形態に係る情報処理装置1の構成および動作について説明した。本実施形態に係る情報処理装置1によれば、複数の説明変数から特定した重要説明変数に基づいて予測対象データに類似した類似学習データを抽出し、その類似学習データを用いて予測モデルが出力する予測値の信頼性を評価できる。このため、学習データが重要でない説明変数を含んでいたとしても、そのような説明変数は予測値の信頼性の評価には使用されないため、予測モデルの予測値を精度良く評価できる。
The configuration and operation of the
また、本実施形態に係る情報処理装置1によれば、ニューラルネットワークに限らず、回帰木などの各種のモデルで構築された予測モデルについて、その予測値の信頼性を評価できる。このため、本実施形態に係る情報処理装置1によれば、汎用性の高い予測値の信頼性の評価方法を提供できる。
Further, according to the
また、本実施形態に係る情報処理装置1によれば、評価部270は、類似学習データの数に基づいて、予測値の信頼性を評価する。このため、評価部270は、類似学習データが多いほど信頼性が高いと評価でき、より精度良く信頼性を評価することが可能となる。
Further, according to the
また、本実施形態に係る情報処理装置1によれば、評価部270は、類似学習データの目的変数の標準偏差に基づいて、予測値の信頼性を評価する。このため、評価部270は、類似学習データの目的変数のばらつきが小さいほど予測値の信頼性が高いと評価でき、より精度良く信頼性を評価することが可能となる。
Further, according to the
また、本実施形態に係る情報処理装置1は、中古の車両をオークションに出品したときに落札される価格を予測するための予測モデルの予測値の信頼性を評価する場合にも利用できる。中古の車両の販売価格は、一般的に、査定士が、自身の感覚、経験および価格の経験などに基づいて査定する。本実施形態によれば、情報処理装置1によって生成された予測モデルを用いることにより、査定士の感覚などに頼らなくとも、車両の価格を予測できるとともに、その予測値の信頼性を評価することが可能である。
The
[補足]
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
[supplement]
The present invention has been described above based on the embodiments. Those skilled in the art will understand that this embodiment is merely an example, and that various modifications can be made to the combinations of the constituent elements and processing processes, and that such modifications are also within the scope of the present invention. be.
上記フローチャートを参照しながら説明した情報処理装置1による各ステップの処理は、必ずしも図示した通りの順序で実行されなくてよい。論理的に矛盾のない範囲で、ステップの処理を適宜入れ替えてよいし、複数のステップの処理を並列的に実行してもよい。たとえば、S109(類似学習データの数のカウント)およびS111(類似学習データの目的変数の標準偏差の算出)の処理は、並列的に実行されてよい。
The processing of each step by the
1 情報処理装置、240 生成処理部、242 モデル生成部、244 判定部、252 予測部、260 評価処理部、262 特定部、264 抽出部、266 カウント部、268 算出部、270 評価部、282 予測生成部、284 補正部、30 回帰木。 1 information processing device, 240 generation processing unit, 242 model generation unit, 244 determination unit, 252 prediction unit, 260 evaluation processing unit, 262 identification unit, 264 extraction unit, 266 count unit, 268 calculation unit, 270 evaluation unit, 282 prediction Generation unit, 284 Correction unit, 30 Regression tree.
Claims (8)
前記学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の前記学習データから前記予測対象データと類似する類似学習データを抽出する抽出部と、
前記抽出部によって抽出された類似学習データに基づいて、前記予測対象データを入力として前記予測モデルから出力される予測値の信頼性を評価する評価部と、を備える、
情報処理装置。 An identification unit that identifies important explanatory variables from a plurality of explanatory variables included in the learning data used to generate the prediction model;
an extraction unit that extracts similar learning data similar to the prediction target data from a plurality of the learning data based on values of important explanatory variables of the learning data and values of important explanatory variables of the prediction target data;
and an evaluation unit that evaluates the reliability of a predicted value output from the prediction model using the prediction target data as an input based on the similar learning data extracted by the extraction unit.
Information processing device.
請求項1に記載の情報処理装置。 The evaluation unit evaluates reliability of the predicted value based on the number of similar learning data extracted by the extraction unit.
The information processing device according to claim 1 .
前記評価部は、前記複数の類似学習データの目的変数の標準偏差に基づいて、前記予測値の信頼性を評価する、
請求項1に記載の情報処理装置。 The extraction unit extracts a plurality of similar learning data that are respectively similar to the prediction target data from the plurality of learning data,
The evaluation unit evaluates the reliability of the predicted value based on the standard deviation of the objective variable of the plurality of similar learning data.
The information processing device according to claim 1.
前記学習データの目的変数は、前記車両の価格を示す、
請求項1に記載の情報処理装置。 The explanatory variables include variables related to vehicles,
the objective variable of the learning data indicates the price of the vehicle;
The information processing device according to claim 1.
前記特定部は、前記回帰木における特徴量重要度に基づいて、前記重要説明変数を特定する、
請求項4に記載の情報処理装置。 The prediction model includes a regression tree,
The identifying unit identifies the important explanatory variable based on the feature importance in the regression tree.
The information processing device according to claim 4.
前記類似学習データに基づいて、前記予測生成部によって生成された予測値を補正する補正部と、をさらに備え、
前記抽出部は、前記予測対象データとそれぞれ類似する複数の類似学習データを前記複数の学習データから抽出し、
前記複数の類似学習データのそれぞれは、時間情報と対応付けられており、
前記補正部は、前記目的変数の値と前記時間情報との関係に基づいて、前記予測値を補正する、
請求項4または5に記載の情報処理装置。 a prediction generation unit that uses the prediction model to generate the predicted value by inputting the prediction target data;
further comprising a correction unit that corrects the predicted value generated by the prediction generation unit based on the similar learning data,
The extraction unit extracts a plurality of similar learning data that are respectively similar to the prediction target data from the plurality of learning data,
Each of the plurality of similar learning data is associated with time information,
The correction unit corrects the predicted value based on the relationship between the value of the objective variable and the time information.
The information processing device according to claim 4 or 5.
前記学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の前記学習データから前記予測対象データと類似する類似学習データを抽出することと、
前記類似学習データに基づいて、前記予測対象データを入力として前記予測モデルから出力される予測値の信頼性を評価することと、を含む、
情報処理方法。 Identifying important explanatory variables from multiple explanatory variables included in the training data used to generate the predictive model;
Extracting similar learning data similar to the prediction target data from a plurality of the learning data based on the value of the important explanatory variable of the learning data and the value of the important explanatory variable of the prediction target data;
Evaluating the reliability of a predicted value output from the prediction model using the prediction target data as input, based on the similar learning data,
Information processing method.
予測モデルの生成に用いられた学習データに含まれる複数の説明変数から重要説明変数を特定することと、
前記学習データの重要説明変数の値と予測対象データの重要説明変数の値とに基づいて、複数の前記学習データから前記予測対象データと類似する類似学習データを抽出することと、
前記類似学習データに基づいて、前記予測対象データを入力として前記予測モデルから出力される予測値の信頼性を評価することと、
を実行させるためのプログラム。 to the computer,
Identifying important explanatory variables from multiple explanatory variables included in the training data used to generate the predictive model;
Extracting similar learning data similar to the prediction target data from a plurality of the learning data based on the value of the important explanatory variable of the learning data and the value of the important explanatory variable of the prediction target data;
Evaluating the reliability of a predicted value output from the prediction model using the prediction target data as input, based on the similar learning data;
A program to run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022148221A JP2024043181A (en) | 2022-09-16 | 2022-09-16 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022148221A JP2024043181A (en) | 2022-09-16 | 2022-09-16 | Information processing device, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024043181A true JP2024043181A (en) | 2024-03-29 |
Family
ID=90418153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022148221A Pending JP2024043181A (en) | 2022-09-16 | 2022-09-16 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024043181A (en) |
-
2022
- 2022-09-16 JP JP2022148221A patent/JP2024043181A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846520B (en) | Loan overdue prediction method, loan overdue prediction device and computer-readable storage medium | |
Al-Anaswah et al. | Identification of speculative bubbles using state-space models with Markov-switching | |
EP3404556A1 (en) | Information recommendation method and apparatus, and server | |
US20210103858A1 (en) | Method and system for model auto-selection using an ensemble of machine learning models | |
He et al. | Real time detection of structural breaks in GARCH models | |
US10983786B2 (en) | Automatically evaluating software project requirements | |
US11210673B2 (en) | Transaction feature generation | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
EP3608802A1 (en) | Model variable candidate generation device and method | |
CN111125529A (en) | Product matching method and device, computer equipment and storage medium | |
CN111178537A (en) | Feature extraction model training method and device | |
CN113570437A (en) | Product recommendation method and device | |
Hu et al. | A novel support vector regression for data set with outliers | |
CN114997916A (en) | Prediction method, system, electronic device and storage medium of potential user | |
CN114782201A (en) | Stock recommendation method and device, computer equipment and storage medium | |
CN113886697A (en) | Clustering algorithm based activity recommendation method, device, equipment and storage medium | |
CN107808336B (en) | Financial index calculation method and device | |
JP2024043181A (en) | Information processing device, information processing method and program | |
CN113343700B (en) | Data processing method, device, equipment and storage medium | |
CN109284354B (en) | Script searching method and device, computer equipment and storage medium | |
Nagashima et al. | Data Imputation Method based on Programming by Example: APREP-S | |
Belomestny et al. | Sensitivities for Bermudan options by regression methods | |
EP4123479A2 (en) | Method and apparatus for denoising click data, electronic device and storage medium | |
EP4343642A1 (en) | Validation method determination device and validation method determination method | |
US20220253774A1 (en) | Implementing big data and artificial intelligence to determine likelihood of post-acceptance facility or service renunciation |