JP7065685B2 - Data shortage presentation system and data shortage presentation method - Google Patents
Data shortage presentation system and data shortage presentation method Download PDFInfo
- Publication number
- JP7065685B2 JP7065685B2 JP2018089365A JP2018089365A JP7065685B2 JP 7065685 B2 JP7065685 B2 JP 7065685B2 JP 2018089365 A JP2018089365 A JP 2018089365A JP 2018089365 A JP2018089365 A JP 2018089365A JP 7065685 B2 JP7065685 B2 JP 7065685B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- shortage
- range
- area
- explanatory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 230000035945 sensitivity Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 20
- 230000007812 deficiency Effects 0.000 claims description 5
- 230000002950 deficient Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 claims 1
- 238000004378 air conditioning Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、予測モデルを構築するためのデータの不足の有無を判断し、判定結果を提示する技術に関する。 The present invention relates to a technique for determining whether or not there is a lack of data for constructing a prediction model and presenting a determination result.
過去のデータの傾向に基づいて将来発生する事象を予測する技術がある。事象の予測には、例えば予測モデルが用いられる。予測モデルは、原因に相当する説明変数と、予測結果に相当する目的変数との関係を表し、説明変数から目的変数を推測することを可能にする。説明変数と目的変数とは、例えば重回帰式であれば、複数ある説明変数に重みをかけて目的変数を表せる関係のある変数同士のことを指す。 There is a technique to predict future events based on the tendency of past data. For example, a prediction model is used to predict an event. The prediction model represents the relationship between the explanatory variable corresponding to the cause and the objective variable corresponding to the prediction result, and makes it possible to infer the objective variable from the explanatory variable. For example, in the case of a multiple regression equation, the explanatory variable and the objective variable refer to variables that are related to each other and can represent the objective variable by weighting a plurality of explanatory variables.
過去のデータ(以下、単に「データ」ともいう)は、過去に観測された説明変数の値と目的変数の値との組合せである。必要なデータを用いて予測モデルを構築すれば、予測モデルは予測精度の高いものとなる。しかし、データが不足している場合は、予測モデルの予測精度が低下する。 Past data (hereinafter, also simply referred to as “data”) is a combination of the value of the explanatory variable and the value of the objective variable observed in the past. If a prediction model is constructed using the necessary data, the prediction model will have high prediction accuracy. However, if the data is insufficient, the prediction accuracy of the prediction model will decrease.
そのため、精度の高い予測を行うには、予測モデルの構築のために必要なデータが用意されているか調べることや、データ不足があればデータを追加することが必要となる。 Therefore, in order to make highly accurate predictions, it is necessary to check whether the data necessary for constructing the prediction model is prepared, and to add data if there is a lack of data.
特許文献1には、推定モデルに対する推定誤差の分散を評価することで推定モデルの信頼度を提示し、それにより、推定モデルの再構成判断を可能とする方法が開示されている。
特許文献2には、予測モデルの不足データの量と質を判定し、不足分のデータを補うように利用者に対してアドバイスを表示する方法が開示されている。
特許文献1に開示された技術は、あくまで推定モデルに対する推定誤差の分散を評価して推定モデルの信頼度を提示することで、推定モデルを再構築すべきかどうか判断するための情報を提示するものである。しかし、特許文献1に開示された技術は、データ不足となっている説明変数の範囲を判断し、判断結果に基づく情報を提示するものではない。そのため、推定モデルの構築のために必要なデータが用意されているかどうかを知ることができない。
The technique disclosed in
また、特許文献2に開示された技術は、予測モデルにおける不足分のデータを補うように利用者に対してアドバイスを表示するだけであり、データ不足となっている説明変数の範囲を定量的に判断する手法は特許文献2には開示されてない。
Further, the technique disclosed in
本発明の目的は、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示する技術を提供することである。 An object of the present invention is to provide a technique for quantitatively determining a range of values of explanatory variables for which data is insufficient and presenting a determination result.
本発明のひとつの態様によるデータ不足提示システムは、説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、前記データ不足範囲算出部の判断結果を出力する出力部と、を有する。 The data shortage presentation system according to one aspect of the present invention is a data shortage presentation system that presents whether or not there is a lack of data necessary for estimating the objective variable from the explanatory variables, and is a data shortage presentation system, and the value of the explanatory variable and the value of the objective variable. The data area of the data given as a combination with is divided into a plurality of areas determined by the value of the explanatory variable and the value of the objective variable, and the value of each divided area or the explanatory variable is within a predetermined range. A data shortage range calculation unit that calculates at least one index value related to data shortage for each region group and determines whether or not there is a data shortage for each range of the explanatory variables based on the index value, and the data shortage. It has an output unit that outputs the determination result of the range calculation unit.
本発明によれば、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。 According to the present invention, it is possible to quantitatively determine the range of values of the explanatory variables for which data is insufficient, and present the determination result.
以下に、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本実施形態によるデータ不足提示システムを示す図である。 FIG. 1 is a diagram showing a data shortage presentation system according to the present embodiment.
本形態は図1に示すように、データ不足範囲算出部2と、出力範囲要求部4と、出力部3とを有し、推定モデルや予測モデルを作成する際に、データが不足する領域を判定し、どのようにデータの不足を判断して精度を向上するか提示するためのものである。なお、データの不足とは、説明変数に対して目的変数がある精度をもって判定できない関係にあるデータを指す。
As shown in FIG. 1, this embodiment has a data shortage
データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータの不足の有無を判断するものであって、過去に蓄積されたデータ1が与えられる。データ1は、説明変数の値と目的変数の値との組み合わせをもつ2変数以上のデータセットである。データ不足範囲算出部2は、説明変数の値と目的変数の値との組み合わせとして与えられたデータ1のデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割し、分割された領域毎あるいは説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断する。これにより、データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータがどの領域で不足しており、不足理由が何に基づくものかを算出する。
The data shortage
出力範囲要求部4は、ユーザが予測対象として取得したい目的変数の範囲を出力要求範囲として受け付けて出力部3に通知する。
The output
出力部3は、データ不足範囲算出部2の判断結果を表示出力によって提示する。その際、出力部3は、データ不足範囲算出部2における判断結果に対して、出力範囲要求部4から通知された出力要求範囲においてデータの不足が判断される領域と理由を表示出力によって提示する。また、出力部3は、説明変数が複数ある場合、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数を表示出力によって提示する。
The
以下に、上記のように構成されたデータ不足提示システムにおける処理について説明する。 The processing in the data shortage presentation system configured as described above will be described below.
図2は、図1に示したデータ不足提示システムにおける処理を説明するためのフローチャートである。 FIG. 2 is a flowchart for explaining the processing in the data shortage presentation system shown in FIG.
図1に示したデータ不足提示システムにおいて説明変数から目的変数を推定するために必要なデータの不足の有無を提示する場合は、まず、データ1が与えられると、データ不足範囲算出部2において、データ1の説明変数を1つ選択し(ステップ101)、選択した説明変数についてのデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割する(ステップ102)。この際、与えられたデータ1がばらけるように、分割の仕方が決められ、その仕方に基づいてデータ1の領域が複数の領域に分割される。
In the data shortage presentation system shown in FIG. 1, when presenting the presence or absence of data shortage necessary for estimating the objective variable from the explanatory variables, first, when the
図3は、図1に示したデータ不足提示システムにおけるデータ領域の分割の一例を示す図である。 FIG. 3 is a diagram showing an example of division of a data area in the data shortage presentation system shown in FIG.
例えば図3に示すように、データ不足範囲算出部2において、選択された1つの説明変数x1と目的変数yのデータ領域を、破線で示すように、等間隔のグリッドで複数の領域に分割することが考えられる。なお、図中×印はデータ点を示す。また、データ領域の分割は、等間隔のグリッドに限らず、データに応じてグリッドの幅を変化させ、もしくは円形状で範囲を指定する等、データ点のばらつきの様子を観測できる方法であれば限定されない。
For example, as shown in FIG. 3, in the data shortage
次に、データ不足範囲算出部2において、与えられたデータ1の全ての説明変数について、データ不足領域判定処理として、データが不足しているデータ不足領域を判定することでデータの不足の有無を判断し(ステップ103,104)、全ての判定結果と判定領域を出力部3に出力する(ステップ105)。
Next, in the data shortage
図4は、図3に示したデータ不足領域判定処理103の構成を示す図である。
FIG. 4 is a diagram showing the configuration of the data shortage
図3に示したデータ不足領域判定処理103は、図4に示すように、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203とから構成されている。データ不足領域判定処理103は、これらデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203を実行することで、データの不足の有無を判断することになる。その際、データ量不足領域判定処理201においては、データ密度を指標値として算出し、データ領域低確度判定処理202においては、データ偏差を指標値として算出し、入出力高感度領域判定処理203においては、説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する。なお、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203との順番は任意に設定することができる。
As shown in FIG. 4, the data shortage
図5は、図4に示したデータ量不足領域判定処理201の詳細を説明するためのフローチャートである。
FIG. 5 is a flowchart for explaining the details of the data amount shortage
図3に示したデータ不足領域判定処理103において図4に示したデータ量不足領域判定処理201を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ301)、選択した領域群のデータ密度を指標値として算出する(ステップ302)。
When executing the data amount shortage
そして、算出したデータ密度が、所定の閾値となる一定以下であるかどうかを判断し(ステップ303)、一定以下であれば、データ量が不足することでデータ不足があると判定し(ステップ304)、一定以下でなければ、データ量が不足しておらずデータ不足がないと判定する(ステップ305)。なお、データ量が不足しているかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ密度とは、選択したデータ領域に対するデータの個数をさす。 Then, it is determined whether or not the calculated data density is below a certain value, which is a predetermined threshold value (step 303), and if it is below a certain value, it is determined that there is a data shortage due to a lack of data amount (step 304). ), If it is not below a certain level, it is determined that the amount of data is not insufficient and there is no data shortage (step 305). The user can arbitrarily set a certain value for determining whether or not the amount of data is insufficient, or a value based on statistical processing can be used. The data density refers to the number of data for the selected data area.
この判断を全てのデータ領域で行い(ステップ306)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ307)。
This determination is performed in all data areas (step 306), and the data shortage
図6は、図4に示したデータ量不足領域判定処理201の具体例を示す図である。
FIG. 6 is a diagram showing a specific example of the data amount shortage
例えば図9に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域からなる領域群のそれぞれにおいて、データ量が不足しているかどうかを判定するための一定の値を2点以下とした場合、実線で囲まれた領域群においてデータ量が不足していると判定される。 For example, as shown in FIG. 9, a fixed value for determining whether or not the amount of data is insufficient in each of a region group consisting of a plurality of regions divided by a broken line at regular intervals with respect to the explanatory variable. When is set to 2 points or less, it is determined that the amount of data is insufficient in the area group surrounded by the solid line.
このように、複数の領域群のデータの密度に基づいて、データ量の不足の有無を判定することで、説明変数の特定の範囲でデータ量が不足していることを定量的に判断し、提示することができる。 In this way, by determining whether or not the amount of data is insufficient based on the density of the data of the plurality of regions, it is quantitatively determined that the amount of data is insufficient in a specific range of the explanatory variables. Can be presented.
図7は、図4に示したデータ領域低確度判定処理202の詳細を説明するためのフローチャートである。
FIG. 7 is a flowchart for explaining the details of the data area low
図3に示したデータ不足領域判定処理103において図4に示したデータ領域低確度判定処理202を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ401)、選択した領域群内のデータ偏差を指標値として算出する(ステップ402)。
When the data area low
そして、算出したデータ偏差が、所定の閾値となる一定以上であるかどうかを判断し(ステップ403)、一定以上であれば、データが低確度であることでデータ不足があると判定し(ステップ404)、一定以上でなければ、データが低確度ではないことでデータ不足がないと判定する(ステップ405)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ偏差とは、選択した領域群内におけるデータのばらつきをさし、低確度とは、そのばらつきが大きなことを言う。 Then, it is determined whether or not the calculated data deviation is above a certain level, which is a predetermined threshold value (step 403), and if it is above a certain level, it is determined that there is a lack of data due to the low accuracy of the data (step). 404) If it is not above a certain level, it is determined that there is no data shortage because the data is not low accuracy (step 405). It should be noted that a certain value for determining whether or not there is a lack of data can be arbitrarily set by the user, or a value based on statistical processing can be used. Further, the data deviation means the variation of the data within the selected region group, and the low accuracy means that the variation is large.
この判断を全てのデータ領域で行い(ステップ406)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ407)。
This determination is performed in all data areas (step 406), and the data shortage
図8は、図4に示したデータ領域低確度判定処理202の具体例を示す図である。
FIG. 8 is a diagram showing a specific example of the data area low
例えば図8に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域について、データ不足があるかどうかを判定するための一定の値を、データの分散が出力範囲で5つの領域に跨ることとした場合、実線で囲まれた領域がデータ低確度と判定される。 For example, as shown in FIG. 8, the data distribution outputs a certain value for determining whether or not there is a data shortage in a plurality of areas divided by a broken line at regular intervals with respect to the explanatory variables. When it is decided to straddle the five areas in, the area surrounded by the solid line is determined to have low data accuracy.
このように、複数の領域群の領域間のデータの偏差に基づいて、データの確度が低いかどうかを判断することで、説明変数の特定の範囲でデータの確度が低いことを定量的に判断し、提示することができる。 In this way, by determining whether the accuracy of the data is low based on the deviation of the data between the regions of the plurality of regions, it is quantitatively determined that the accuracy of the data is low in a specific range of the explanatory variables. And can be presented.
図9は、図4に示した入出力高感度領域判定処理203の詳細を説明するためのフローチャートである。
FIG. 9 is a flowchart for explaining the details of the input / output high-sensitivity
図3に示したデータ不足領域判定処理103において図4に示した入出力高感度領域判定処理203を実行する場合はまず、データ間の傾きを求めるためにデータ間に直線を引くことでデータ間を近似補間し(ステップ501)、領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する(ステップ502)。
When the input / output high-sensitivity
そして、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ503)、選択した領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合が、所定の閾値となる一定以上であるかどうかを判断し(ステップ504)、一定以上であれば、データの説明変数に対して目的変数が急激に変化する高感度であることでデータ不足があると判定し(ステップ505)、一定以上でなければ、高感度ではないことでデータ不足がないと判定する(ステップ506)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することや、統計処理に基づいた値を用いることもできる。また、データ間の近似補間としては、線形近似や二次近似等、あらゆる近似方法による補間を用いることができる。
Then, a region group consisting of the data regions divided in
そして、領域群においてデータの感度が高いと判断した場合、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにデータを取得すべき推奨領域を算定する(ステップ507)。 Then, when it is judged that the sensitivity of the data is high in the area group, the recommended area for which data should be acquired is set so that the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the area group is less than a certain value. Calculate (step 507).
この判断および算定を全てのデータ領域で行い(ステップ508)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを、算定された推奨領域とともに出力部3に出力する(ステップ509)。
This determination and calculation are performed in all data areas (step 508), and the data shortage
図10は、図4に示した入出力高感度領域判定処理203の具体例を示す図である。
FIG. 10 is a diagram showing a specific example of the input / output high-sensitivity
入出力高感度領域判定処理203においては、例えば図10に示すように、データの説明変数の変化量に対する目的変数の変化量の割合が、説明変数1区間分Δxに対して、目的変数4区間分Δyの変化分を大きいとする判定条件の場合、これらを跨る領域は、データの感度が高い高感度であると判定される。
In the input / output high-sensitivity
高感度であると判定された場合は、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにそのデータ間を埋めるべくデータ点の推奨領域が算定されることになる。 When it is determined that the sensitivity is high, the recommended area of the data point is set to fill the space between the data so that the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the area group is less than a certain value. It will be calculated.
このように、領域群における説明変数に対する目的変数の入出力感度に基づいて、データの感度が高いかどうかを判断することで、説明変数の特定の範囲でデータの感度が高いことを定量的に判断し、提示することができる。また、説明変数に対して目的変数が敏感に変化する高感度の領域において、データを取得するとよい説明変数の範囲が推奨されることで、効率よくデータを追加することができる。 In this way, by determining whether the data sensitivity is high based on the input / output sensitivity of the objective variable to the explanatory variable in the region group, it is quantitatively determined that the data sensitivity is high in a specific range of the explanatory variable. Can judge and present. Further, in a highly sensitive region where the objective variable changes sensitively with respect to the explanatory variable, the range of the explanatory variable for which data should be acquired is recommended, so that data can be added efficiently.
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によって、データ不足範囲算出部2は、複数の指標値に基づき、理由の異なる複数種類のデータの不足の有無をそれぞれ判断することになる。
By the above-mentioned data amount shortage
図11は、図6、図8及び図10に示した例においてデータ不足がないと判定された領域を示す図である。 FIG. 11 is a diagram showing a region determined to have no data shortage in the examples shown in FIGS. 6, 8 and 10.
図6、図8及び図10に示した例における処理が行われたことにより、図11に示すように、データ不足がないと判定された領域が確定することになる。 By performing the processing in the examples shown in FIGS. 6, 8 and 10, as shown in FIG. 11, the area determined to have no data shortage is determined.
図12は、図1に示した出力部3における処理を説明するためのフローチャートである。
FIG. 12 is a flowchart for explaining the processing in the
図1に示した出力部3においては、データ不足範囲算出部22におけるデータ不足領域判定処理103の判定結果であるデータ量不足領域判定結果601と、データ低確度領域判定結果602と、入出力高感度領域判定結果603が入力されると、出力範囲要求部4から与えられた出力要求範囲604内の判定結果を出力し(ステップ605)、データ不足があると判定された領域の数を説明変数毎に提示し(ステップ606)、判定履歴とする(ステップ607)。
In the
また、出力要求範囲604に応じて出力範囲を選択し(ステップ608)、領域毎にデータ不足がないと判定された説明変数があるかどうか判断し(ステップ609)、説明変数がない場合は判定結果を出力し(ステップ610)、全ての出力要求範囲内の説明変数について同様の処理を行う(ステップ611)。一方、データ不足がないと判定された説明変数がある場合は、判定結果を出力することなく、全ての出力要求範囲内の説明変数について同様の処理を行うことになる。 Further, the output range is selected according to the output request range 604 (step 608), it is determined whether or not there is an explanatory variable determined to have no data shortage for each area (step 609), and if there is no explanatory variable, it is determined. The result is output (step 610), and the same processing is performed for all the explanatory variables within the output request range (step 611). On the other hand, if there is an explanatory variable for which it is determined that there is no data shortage, the same processing is performed for all the explanatory variables within the output request range without outputting the determination result.
その後、出力要求範囲内の全ての領域でデータ不足があると判定されたものがある場合は(ステップ612)、全ての説明変数毎に、データ不足があると判定された領域と不足理由とを表示出力することで提示し(ステップ613)、データ不足があると判定されたものがない場合はそのまま終了する。また、データ不足があると判定された領域と、不足理由と、ステップ607にて判定履歴とされた、データ不足があると判定された領域の数とを記録する。
After that, if it is determined that there is data shortage in all the areas within the output request range (step 612), the area determined to have data shortage and the reason for the shortage are determined for each explanatory variable. It is presented by displaying and outputting (step 613), and if there is no data determined to be insufficient, the process ends as it is. Further, the area determined to have data shortage, the reason for the shortage, and the number of areas determined to have data shortage, which is the determination history in
図13は、図1に示したデータ不足提示システムにおいて出力範囲要求部4から与えられた出力要求範囲を考慮した場合の出力部3における判定結果の具体例を示す図である。
FIG. 13 is a diagram showing a specific example of the determination result in the
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図13に示すように、そのデータの領域群毎に、出力部3において、出力要求範囲に対してデータ不足の種類が特定される。なお、本例では、特定されたデータ不足の種類が各領域群で単一となっているが、実際には、データ量不足および低確度等、複数の場合もある。
When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage
図14は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
FIG. 14 is a diagram showing an example of a screen displayed and output by the
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図14に示すように、出力部3においては、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけて表示する。また、データの不足の理由が高感度によるものである場合は、入出力高感度領域判定処理203にて高感度判定を解消するために算定されたデータの推奨領域を表示する。例えば、図10に示した例においては、X12~X14の範囲にて高感度によるデータの不足があると判定されているため、X12~X14の範囲に含まれるX12’~X13’の狭い範囲がデータの推奨領域として表示されることになる。
When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage
このように、複数種類のデータ不足について説明変数の範囲とデータ不足の理由とが表示されることで、ユーザは、説明変数のどの範囲でどのようなデータ不足があるかを容易に知ることができる。 In this way, by displaying the range of the explanatory variables and the reason for the data shortage for multiple types of data shortages, the user can easily know what kind of data shortage is in what range of the explanatory variables. can.
また、図14に示すように、出力部3は、説明変数と目的変数とをそれぞれ軸とし、説明変数の範囲と目的変数の範囲とで複数の領域に分割されたマップにデータを配置したプロット図を表示する。その際、出力部3は、プロット図においてデータの不足がある領域を他の領域と区別して表示出力するが、出力要求範囲が通知された場合は、プロット図において出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力することになる。
Further, as shown in FIG. 14, the
このように、データのプロット図にデータ不足を重畳表示するので、ユーザはデータ不足の領域をデータとともに視覚的に認識することができる。また、データのプロット図に出力要求範囲のデータ不足を重畳表示することで、ユーザは出力要求範囲のデータ不足の領域をデータとともに視覚的に認識することができる。 In this way, since the data shortage is superimposed and displayed on the data plot diagram, the user can visually recognize the data shortage area together with the data. Further, by superimposing and displaying the data shortage of the output request range on the data plot diagram, the user can visually recognize the data shortage area of the output request range together with the data.
図15は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
FIG. 15 is a diagram showing an example of a screen displayed and output by the
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図15に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数となるデータ不足領域数1401を表示出力する。また、説明変数が指定された場合に、その説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1402を表示出力する。
When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage
このように、複数の説明変数についてそれらの目的変数の範囲毎のデータ不足の個数が表示されることで、各説明変数のデータ不足の様子を比較してどの説明変数のどの範囲でデータを追加するかを検討するのに利用できる。 In this way, by displaying the number of data shortages for each range of the objective variables for multiple explanatory variables, the state of data shortage of each explanatory variable is compared and data is added in which range of which explanatory variable. It can be used to consider what to do.
図16は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
FIG. 16 is a diagram showing an example of a screen displayed and output by the
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図16に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数の履歴となるデータ不足領域数履歴1501を表示出力する。また、説明変数が指定された場合に、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1502を表示出力するが、この不足理由1502には、前回行われた判定においてデータ不足であると判定され、今回の判定においてそれが解消した領域においては、前回のデータ不足の理由が取り消し線とともに表示されることになる。
When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage
このように、データに不足があると判断された領域の個数の履歴が表示されることで、前回の判定から今回の判定までにどの範囲のデータが追加されたかのデータ点の取得状況を把握することができる。 In this way, by displaying the history of the number of areas where it is judged that there is insufficient data, it is possible to grasp the acquisition status of the data points of which range of data was added from the previous judgment to the current judgment. be able to.
図17は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
FIG. 17 is a diagram showing an example of a screen displayed and output by the
図17に示すように、上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断された結果、ある領域についてデータの不足がないと判定された説明変数がある場合は、他の説明変数のデータ不足領域と理由1601は提示しない。
As shown in FIG. 17, as a result of determining whether or not there is a data shortage for each data area group by the above-mentioned data amount insufficient
上述したように本形態においては、データのデータ領域を複数の領域に分割し、領域毎あるいは領域群毎に指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断するので、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。それにより、推定モデルや予測モデルを再構成する手間を削減することが可能となる。 As described above, in this embodiment, the data area of the data is divided into a plurality of areas, the index value is calculated for each area or each area group, and the presence or absence of data shortage is determined for each range of explanatory variables based on the index value. Since the judgment is made, it is possible to quantitatively judge the range of the values of the explanatory variables for which the data is insufficient and present the judgment result. As a result, it is possible to reduce the trouble of reconstructing the estimation model and the prediction model.
なお、上述したようにデータ不足範囲算出部2の判断結果を出力部3にて提示するだけではなく、データ不足範囲算出部2の判断結果を、接続された外部機器に送信出力する構成とすることも考えられる。その場合、外部機器が、例えば、制御器であり、データの説明変数が制御パラメータ、目的変数が制御の安定性であれば、不安定な制御領域として、データが不足する領域での制御パラメータ設定を回避することも可能となる。
As described above, the
以下に、上述した一連の処理について具体的なデータの事例を用いて説明する。 Hereinafter, the series of processes described above will be described with reference to specific data examples.
例えば、エアコンの空調データと、人が感じる快適度とが紐づいたデータがあるとする。説明変数は、設定温度、エアコンからの距離、気温、湿度、これに対する目的変数を快適度とする。快適度は、例えば5段階で、1.不満、2.少し不満、3.普通、4.比較的満足、5.非常に満足、で表現されているものとする。 For example, suppose that there is data in which the air conditioning data of an air conditioner and the comfort level felt by a person are linked. The explanatory variables are the set temperature, the distance from the air conditioner, the temperature, the humidity, and the objective variable for this is the comfort level. The comfort level is, for example, 5 levels, 1. Dissatisfaction, 2. A little dissatisfied, 3. Normally, 4. Relatively satisfied, 5. It shall be expressed as very satisfying.
まず、出力部3が、図12のステップ608において、説明変数のうち、例えば設定温度を1つ選択する。
First, in
また、データ不足範囲算出部2が、図3に示したように、温度設定可能な範囲を2度毎に、快適度は1段階毎に分割する。そして、データ不足範囲算出部2は、図6に示したように設定温度を分割した範囲ごとにデータ密度が一定以上かを判定するとともに、図8に示したようにデータ偏差が一定以下かを判定する。また、データ不足範囲算出部2は、もし、設定温度が20~22度、22~24度の領域でデータ近似による補間をした際に、設定温度の変化に対して快適度の変化が1→4と変化が大きい場合、高感度判定とする。データ不足範囲算出部2は、他の説明変数についても、上述した、データ量不足、低確度および高感度判定の処理を同様に行う。この結果、設定温度の大きな変化分を説明できるものがない場合は、高感度と判定された領域間で、データを詳細に観察するための推奨領域を判定する。例えば、2度毎だった領域をさらに分割した領域の1度毎の領域で、22度の設定温度のデータ点を増やすように要求し、出力部3がその旨を表示出力する。また、データ補充後には、その高感度領域が解消されたかを出力部3がその旨を表示出力する。ただし、出力要求範囲が例えば快適度5とした時は、高感度領域は含まれていないため、上述した処理は行わない。
Further, as shown in FIG. 3, the data shortage
また、これらデータ不足領域の提示効果として、どの説明変数でもデータ領域が低確度判定であれば、例えば照度などの他の説明変数を新たに追加して、データ不足判定にならないかを観察することになる。なお、この観察とは、前回データとの判定結果の履歴の経過であり、不足なしの判定になる場合は新規追加した説明変数で説明可能であるということである。 In addition, as a presentation effect of these data shortage areas, if the data area is judged to have low accuracy in any explanatory variable, add another explanatory variable such as illuminance and observe whether the data shortage judgment is made. become. It should be noted that this observation is the progress of the history of the judgment result with the previous data, and if it is judged that there is no shortage, it can be explained by the newly added explanatory variable.
1…データ、2…データ不足範囲算出部、3…出力部、4…出力範囲要求部、103…データ不足領域判定処理、201…データ量不足領域判定処理、202…データ領域低確度判定処理、203…入出力高感度領域判定処理 1 ... Data, 2 ... Data shortage range calculation unit, 3 ... Output unit, 4 ... Output range request unit, 103 ... Data shortage area judgment processing, 201 ... Data amount shortage area judgment processing, 202 ... Data area low accuracy judgment processing, 203 ... Input / output high-sensitivity area determination processing
Claims (12)
説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、
前記データ不足範囲算出部の判断結果を出力する出力部と、
を有するデータ不足提示システム。 It is a data deficiency presentation system that presents whether or not there is a deficiency of data necessary for estimating the objective variable from the explanatory variables.
The data area of the data given as a combination of the value of the explanatory variable and the value of the objective variable is divided into a plurality of areas defined by the value of the explanatory variable and the value of the objective variable, and each of the divided areas or Data for calculating at least one index value related to data shortage for each region group in which the value of the explanatory variable is within a predetermined range, and determining whether or not there is a data shortage for each range of the explanatory variable based on the index value. Insufficient range calculation unit and
An output unit that outputs the judgment result of the data shortage range calculation unit, and
Data deficient presentation system.
請求項1に記載のデータ不足提示システム。 The data shortage range calculation unit calculates the density of data in the region group as the index value, and when the density is equal to or less than a predetermined threshold value, the data amount is insufficient in the range of the explanatory variables corresponding to the region group. Judging that there is a lack of data by judging that it is
The data shortage presentation system according to claim 1.
請求項1に記載のデータ不足提示システム。 The data shortage range calculation unit calculates a deviation of the amount of data between regions in the region group as the index value, and when the deviation is equal to or more than a predetermined threshold value, it is within the range of the explanatory variables corresponding to the region group. Judging that there is a lack of data by judging that the accuracy of the data is low,
The data shortage presentation system according to claim 1.
請求項1に記載のデータ不足提示システム。 The data shortage range calculation unit calculates the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the region group as the index value, and when the ratio is equal to or more than a predetermined threshold value, the region group is assigned. It is judged that there is a lack of data by judging that the sensitivity of the data is high within the range of the corresponding explanatory variables.
The data shortage presentation system according to claim 1.
前記出力部は、前記算定された領域を表示出力する、
請求項4に記載のデータ不足提示システム。 When the data shortage range calculation unit determines that the sensitivity of the data is high in the range of the explanatory variables corresponding to the region group, the data shortage range calculation unit acquires data in order to make the ratio less than the threshold value in the range of the explanatory variables. Calculate the power area and
The output unit displays and outputs the calculated area.
The data shortage presentation system according to claim 4.
前記出力部は、データの不足がある説明変数の範囲と、該範囲にあるデータの不足の理由と、を対応づけて表示出力する、
請求項1に記載のデータ不足提示システム。 The data shortage range calculation unit determines whether or not there is a shortage of a plurality of types of data for different reasons based on a plurality of index values.
The output unit displays and outputs a range of explanatory variables having a lack of data in association with the reason for the lack of data in the range.
The data shortage presentation system according to claim 1.
請求項6に記載のデータ不足提示システム。 The output unit further displays a plot diagram in which the data is arranged on a map divided into a plurality of areas by the range of the explanatory variables and the range of the objective variables, with the explanatory variables and the objective variables as axes, respectively. Display and output the area where there is a lack of data in the plot diagram separately from other areas.
The data shortage presentation system according to claim 6.
前記出力部は、前記出力要求範囲が通知されると、前記プロット図において前記出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力する、
請求項7に記載のデータ不足提示システム。 It also has an output range request unit that accepts the range of the objective variable to be predicted as the output request range and notifies the output unit.
When the output request range is notified, the output unit displays and outputs an area included in the output request range and lacking data in the plot diagram separately from other areas.
The data shortage presentation system according to claim 7.
請求項1に記載のデータ不足提示システム。 When there are a plurality of the explanatory variables, the output unit displays and outputs the number of regions for which it is determined that there is insufficient data for each range of the objective variables for each of the plurality of explanatory variables.
The data shortage presentation system according to claim 1.
請求項9に記載のデータ不足提示システム。 The output unit displays and outputs a history of the number of areas where it is determined that the data is insufficient.
The data shortage presentation system according to claim 9.
請求項1に記載のデータ不足提示システム。 The output unit displays and outputs the determination result of the data shortage range calculation unit, and also transmits and outputs it to a connected external device.
The data shortage presentation system according to claim 1.
情報処理装置が、
説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出処理と、
前記データ不足範囲算出処理の判断結果を出力する出力処理と、
を実行するデータ不足提示方法。 It is a data deficiency presentation method that presents whether or not there is a deficiency of data necessary for estimating the objective variable from the explanatory variables.
Information processing equipment
The data area of the data given as a combination of the value of the explanatory variable and the value of the objective variable is divided into a plurality of areas defined by the value of the explanatory variable and the value of the objective variable, and each of the divided areas or Data for calculating at least one index value related to data shortage for each region group in which the value of the explanatory variable is within a predetermined range, and determining whether or not there is a data shortage for each range of the explanatory variable based on the index value. Insufficient range calculation processing and
Output processing that outputs the judgment result of the data shortage range calculation processing, and
How to present the lack of data to execute .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018089365A JP7065685B2 (en) | 2018-05-07 | 2018-05-07 | Data shortage presentation system and data shortage presentation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018089365A JP7065685B2 (en) | 2018-05-07 | 2018-05-07 | Data shortage presentation system and data shortage presentation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019197267A JP2019197267A (en) | 2019-11-14 |
JP7065685B2 true JP7065685B2 (en) | 2022-05-12 |
Family
ID=68538369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018089365A Active JP7065685B2 (en) | 2018-05-07 | 2018-05-07 | Data shortage presentation system and data shortage presentation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7065685B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6831030B1 (en) * | 2020-06-30 | 2021-02-17 | 三菱重工業株式会社 | Prediction model learning method, prediction model learning device, and plant control system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044592A (en) | 2009-08-21 | 2011-03-03 | Nec Corp | Reliability determining device, reliability determining method, and computer program for reliability determination |
WO2011074509A1 (en) | 2009-12-15 | 2011-06-23 | 日本電気株式会社 | Information processing device, information processing method, and storage medium |
JP2017211756A (en) | 2016-05-24 | 2017-11-30 | 株式会社日立システムズ | Unpredictable data determination system and unpredictable data determination method |
-
2018
- 2018-05-07 JP JP2018089365A patent/JP7065685B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044592A (en) | 2009-08-21 | 2011-03-03 | Nec Corp | Reliability determining device, reliability determining method, and computer program for reliability determination |
WO2011074509A1 (en) | 2009-12-15 | 2011-06-23 | 日本電気株式会社 | Information processing device, information processing method, and storage medium |
US20120331024A1 (en) | 2009-12-15 | 2012-12-27 | Nec Corporation | Information processing device, method of processing information and storage medium |
JP2017211756A (en) | 2016-05-24 | 2017-11-30 | 株式会社日立システムズ | Unpredictable data determination system and unpredictable data determination method |
Also Published As
Publication number | Publication date |
---|---|
JP2019197267A (en) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699248B2 (en) | Inspection management system and inspection management method | |
EP3413152B1 (en) | Sensor failure diagnosis device, method and program | |
JP6501982B2 (en) | Failure risk index estimation device and failure risk index estimation method | |
JP5765336B2 (en) | Fault analysis apparatus, fault analysis method and program | |
KR101779636B1 (en) | Advanced process control optimization | |
JP2017083985A (en) | Time series data processing method, time series data processing program, and time series data processing device | |
JPWO2008087968A1 (en) | Change point detection method and apparatus | |
KR101587018B1 (en) | Data quality measurement method based on a scatter plot | |
JP7292076B2 (en) | Deterioration estimation device, learning device, deterioration estimation method, learning method, deterioration estimation program, and learning program | |
JP6489235B2 (en) | System analysis method, system analysis apparatus, and program | |
JP6862130B2 (en) | Anomaly detection device, anomaly detection method, and program | |
JPWO2018073960A1 (en) | Display method, display device, and program | |
KR20180040452A (en) | Method for detecting anomaly using equipment age index and apparatus thereof | |
JP7065685B2 (en) | Data shortage presentation system and data shortage presentation method | |
TW202101142A (en) | Operation evaluation device, operation evaluation method, and program | |
CN115407728A (en) | Information processing apparatus, prediction method, and computer-readable storage medium | |
EP2631727B1 (en) | Multivalue bar graph displays and methods of implementing same | |
JP6849543B2 (en) | Defective factor analysis system and defective factor analysis method | |
JP7360925B2 (en) | analysis system | |
US10642923B2 (en) | Graphs with normalized actual value measurements and baseline bands representative of normalized measurement ranges | |
US9336616B2 (en) | Power transmission network state visualization | |
TW201738435A (en) | Display control device, method of displaying safety factor, and program recording medium | |
CN108804282A (en) | Display device, display methods and storage medium | |
JP6381282B2 (en) | Abnormality detection apparatus and program | |
CN111971664B (en) | Learning processing device, data analysis device, analysis pattern selection method, and analysis pattern selection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7065685 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |