JP7065685B2 - Data shortage presentation system and data shortage presentation method - Google Patents

Data shortage presentation system and data shortage presentation method Download PDF

Info

Publication number
JP7065685B2
JP7065685B2 JP2018089365A JP2018089365A JP7065685B2 JP 7065685 B2 JP7065685 B2 JP 7065685B2 JP 2018089365 A JP2018089365 A JP 2018089365A JP 2018089365 A JP2018089365 A JP 2018089365A JP 7065685 B2 JP7065685 B2 JP 7065685B2
Authority
JP
Japan
Prior art keywords
data
shortage
range
area
explanatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018089365A
Other languages
Japanese (ja)
Other versions
JP2019197267A (en
Inventor
江里子 佐藤
やえみ 寺本
正啓 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018089365A priority Critical patent/JP7065685B2/en
Publication of JP2019197267A publication Critical patent/JP2019197267A/en
Application granted granted Critical
Publication of JP7065685B2 publication Critical patent/JP7065685B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、予測モデルを構築するためのデータの不足の有無を判断し、判定結果を提示する技術に関する。 The present invention relates to a technique for determining whether or not there is a lack of data for constructing a prediction model and presenting a determination result.

過去のデータの傾向に基づいて将来発生する事象を予測する技術がある。事象の予測には、例えば予測モデルが用いられる。予測モデルは、原因に相当する説明変数と、予測結果に相当する目的変数との関係を表し、説明変数から目的変数を推測することを可能にする。説明変数と目的変数とは、例えば重回帰式であれば、複数ある説明変数に重みをかけて目的変数を表せる関係のある変数同士のことを指す。 There is a technique to predict future events based on the tendency of past data. For example, a prediction model is used to predict an event. The prediction model represents the relationship between the explanatory variable corresponding to the cause and the objective variable corresponding to the prediction result, and makes it possible to infer the objective variable from the explanatory variable. For example, in the case of a multiple regression equation, the explanatory variable and the objective variable refer to variables that are related to each other and can represent the objective variable by weighting a plurality of explanatory variables.

過去のデータ(以下、単に「データ」ともいう)は、過去に観測された説明変数の値と目的変数の値との組合せである。必要なデータを用いて予測モデルを構築すれば、予測モデルは予測精度の高いものとなる。しかし、データが不足している場合は、予測モデルの予測精度が低下する。 Past data (hereinafter, also simply referred to as “data”) is a combination of the value of the explanatory variable and the value of the objective variable observed in the past. If a prediction model is constructed using the necessary data, the prediction model will have high prediction accuracy. However, if the data is insufficient, the prediction accuracy of the prediction model will decrease.

そのため、精度の高い予測を行うには、予測モデルの構築のために必要なデータが用意されているか調べることや、データ不足があればデータを追加することが必要となる。 Therefore, in order to make highly accurate predictions, it is necessary to check whether the data necessary for constructing the prediction model is prepared, and to add data if there is a lack of data.

特許文献1には、推定モデルに対する推定誤差の分散を評価することで推定モデルの信頼度を提示し、それにより、推定モデルの再構成判断を可能とする方法が開示されている。 Patent Document 1 discloses a method of presenting the reliability of an estimation model by evaluating the variance of the estimation error with respect to the estimation model, thereby enabling a reconstruction judgment of the estimation model.

特許文献2には、予測モデルの不足データの量と質を判定し、不足分のデータを補うように利用者に対してアドバイスを表示する方法が開示されている。 Patent Document 2 discloses a method of determining the quantity and quality of missing data in a prediction model and displaying advice to a user to make up for the missing data.

特開2011-44592号公報Japanese Unexamined Patent Publication No. 2011-44592 特開2015-219651号公報Japanese Patent Application Laid-Open No. 2015-219651

特許文献1に開示された技術は、あくまで推定モデルに対する推定誤差の分散を評価して推定モデルの信頼度を提示することで、推定モデルを再構築すべきかどうか判断するための情報を提示するものである。しかし、特許文献1に開示された技術は、データ不足となっている説明変数の範囲を判断し、判断結果に基づく情報を提示するものではない。そのため、推定モデルの構築のために必要なデータが用意されているかどうかを知ることができない。 The technique disclosed in Patent Document 1 presents information for determining whether or not the estimation model should be reconstructed by evaluating the variance of the estimation error with respect to the estimation model and presenting the reliability of the estimation model. Is. However, the technique disclosed in Patent Document 1 determines the range of explanatory variables for which data is insufficient, and does not present information based on the determination result. Therefore, it is not possible to know whether or not the data necessary for constructing the estimation model is prepared.

また、特許文献2に開示された技術は、予測モデルにおける不足分のデータを補うように利用者に対してアドバイスを表示するだけであり、データ不足となっている説明変数の範囲を定量的に判断する手法は特許文献2には開示されてない。 Further, the technique disclosed in Patent Document 2 only displays advice to the user to make up for the lack of data in the prediction model, and quantitatively ranges the range of the explanatory variables in which the data is lacking. The method for determining is not disclosed in Patent Document 2.

本発明の目的は、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示する技術を提供することである。 An object of the present invention is to provide a technique for quantitatively determining a range of values of explanatory variables for which data is insufficient and presenting a determination result.

本発明のひとつの態様によるデータ不足提示システムは、説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、前記データ不足範囲算出部の判断結果を出力する出力部と、を有する。 The data shortage presentation system according to one aspect of the present invention is a data shortage presentation system that presents whether or not there is a lack of data necessary for estimating the objective variable from the explanatory variables, and is a data shortage presentation system, and the value of the explanatory variable and the value of the objective variable. The data area of the data given as a combination with is divided into a plurality of areas determined by the value of the explanatory variable and the value of the objective variable, and the value of each divided area or the explanatory variable is within a predetermined range. A data shortage range calculation unit that calculates at least one index value related to data shortage for each region group and determines whether or not there is a data shortage for each range of the explanatory variables based on the index value, and the data shortage. It has an output unit that outputs the determination result of the range calculation unit.

本発明によれば、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。 According to the present invention, it is possible to quantitatively determine the range of values of the explanatory variables for which data is insufficient, and present the determination result.

本実施形態によるデータ不足提示システムを示す図である。It is a figure which shows the data lack presentation system by this embodiment. 図1に示したデータ不足提示システムにおける処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process in the data deficiency presentation system shown in FIG. 図1に示したデータ不足提示システムにおけるデータ領域の分割の一例を示す図である。It is a figure which shows an example of the division of the data area in the data shortage presentation system shown in FIG. 図3に示したデータ不足領域判定処理の構成を示す図である。It is a figure which shows the structure of the data shortage area determination process shown in FIG. 図4に示したデータ量不足領域判定処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the data amount shortage area determination process shown in FIG. 図4に示したデータ量不足領域判定処理の具体例を示す図である。It is a figure which shows the specific example of the data amount shortage area determination process shown in FIG. 図4に示したデータ領域低確度判定処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the data area low accuracy determination process shown in FIG. 図4に示したデータ領域低確度判定処理の具体例を示す図である。It is a figure which shows the specific example of the data area low accuracy determination process shown in FIG. 図4に示した入出力高感度領域判定処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the input / output high-sensitivity area determination process shown in FIG. 図4に示した入出力高感度領域判定処理の具体例を示す図である。It is a figure which shows the specific example of the input / output high-sensitivity area determination process shown in FIG. 図6、図8及び図10に示した例においてデータ不足がないと判定された領域を示す図である。6 is a diagram showing a region determined to have no data shortage in the examples shown in FIGS. 6, 8 and 10. 図1に示した出力部における処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process in the output part shown in FIG. 図1に示したデータ不足提示システムにおいて出力範囲要求部から与えられた出力要求範囲を考慮した場合の出力部における判定結果の具体例を示す図である。It is a figure which shows the specific example of the determination result in the output part in the case which considered the output request range given from the output range request part in the data shortage presentation system shown in FIG. 図1に示した出力部にて表示出力される画面の一例を示す図である。It is a figure which shows an example of the screen which is displayed and output by the output part shown in FIG. 図1に示した出力部にて表示出力される画面の一例を示す図である。It is a figure which shows an example of the screen which is displayed and output by the output part shown in FIG. 図1に示した出力部にて表示出力される画面の一例を示す図である。It is a figure which shows an example of the screen which is displayed and output by the output part shown in FIG. 図1に示した出力部にて表示出力される画面の一例を示す図である。It is a figure which shows an example of the screen which is displayed and output by the output part shown in FIG.

以下に、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本実施形態によるデータ不足提示システムを示す図である。 FIG. 1 is a diagram showing a data shortage presentation system according to the present embodiment.

本形態は図1に示すように、データ不足範囲算出部2と、出力範囲要求部4と、出力部3とを有し、推定モデルや予測モデルを作成する際に、データが不足する領域を判定し、どのようにデータの不足を判断して精度を向上するか提示するためのものである。なお、データの不足とは、説明変数に対して目的変数がある精度をもって判定できない関係にあるデータを指す。 As shown in FIG. 1, this embodiment has a data shortage range calculation unit 2, an output range request unit 4, and an output unit 3, and a region where data is insufficient when creating an estimation model or a prediction model is provided. The purpose is to make a judgment and present how to judge the lack of data and improve the accuracy. The lack of data refers to data in which the objective variable cannot be determined with a certain accuracy with respect to the explanatory variable.

データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータの不足の有無を判断するものであって、過去に蓄積されたデータ1が与えられる。データ1は、説明変数の値と目的変数の値との組み合わせをもつ2変数以上のデータセットである。データ不足範囲算出部2は、説明変数の値と目的変数の値との組み合わせとして与えられたデータ1のデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割し、分割された領域毎あるいは説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断する。これにより、データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータがどの領域で不足しており、不足理由が何に基づくものかを算出する。 The data shortage range calculation unit 2 determines whether or not there is a shortage of data necessary for estimating the objective variable from the explanatory variables, and the data 1 accumulated in the past is given. Data 1 is a data set of two or more variables having a combination of the value of the explanatory variable and the value of the objective variable. The data shortage range calculation unit 2 divides the data area of the data 1 given as a combination of the value of the explanatory variable and the value of the objective variable into a plurality of areas determined by the value of the explanatory variable and the value of the objective variable. At least one index value related to data shortage is calculated for each divided area or for each area group in which the value of the explanatory variable is within a predetermined range, and the presence or absence of data shortage is determined for each range of the explanatory variable based on the index value. to decide. As a result, the data shortage range calculation unit 2 calculates in which area the data necessary for estimating the objective variable from the explanatory variables is lacking, and what the reason for the shortage is based on.

出力範囲要求部4は、ユーザが予測対象として取得したい目的変数の範囲を出力要求範囲として受け付けて出力部3に通知する。 The output range request unit 4 accepts the range of the objective variable that the user wants to acquire as a prediction target as the output request range and notifies the output unit 3.

出力部3は、データ不足範囲算出部2の判断結果を表示出力によって提示する。その際、出力部3は、データ不足範囲算出部2における判断結果に対して、出力範囲要求部4から通知された出力要求範囲においてデータの不足が判断される領域と理由を表示出力によって提示する。また、出力部3は、説明変数が複数ある場合、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数を表示出力によって提示する。 The output unit 3 presents the determination result of the data shortage range calculation unit 2 by display output. At that time, the output unit 3 presents the area and the reason for determining the data shortage in the output request range notified from the output range request unit 4 with respect to the judgment result in the data shortage range calculation unit 2. .. Further, when there are a plurality of explanatory variables, the output unit 3 presents the number of regions determined to have insufficient data for each range of the objective variables by display output for each of the plurality of explanatory variables.

以下に、上記のように構成されたデータ不足提示システムにおける処理について説明する。 The processing in the data shortage presentation system configured as described above will be described below.

図2は、図1に示したデータ不足提示システムにおける処理を説明するためのフローチャートである。 FIG. 2 is a flowchart for explaining the processing in the data shortage presentation system shown in FIG.

図1に示したデータ不足提示システムにおいて説明変数から目的変数を推定するために必要なデータの不足の有無を提示する場合は、まず、データ1が与えられると、データ不足範囲算出部2において、データ1の説明変数を1つ選択し(ステップ101)、選択した説明変数についてのデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割する(ステップ102)。この際、与えられたデータ1がばらけるように、分割の仕方が決められ、その仕方に基づいてデータ1の領域が複数の領域に分割される。 In the data shortage presentation system shown in FIG. 1, when presenting the presence or absence of data shortage necessary for estimating the objective variable from the explanatory variables, first, when the data 1 is given, the data shortage range calculation unit 2 performs the data shortage range calculation unit 2. One explanatory variable of data 1 is selected (step 101), and the data area for the selected explanatory variable is divided into a plurality of areas determined by the value of the explanatory variable and the value of the objective variable (step 102). At this time, a method of division is determined so that the given data 1 is dispersed, and the area of the data 1 is divided into a plurality of areas based on the method.

図3は、図1に示したデータ不足提示システムにおけるデータ領域の分割の一例を示す図である。 FIG. 3 is a diagram showing an example of division of a data area in the data shortage presentation system shown in FIG.

例えば図3に示すように、データ不足範囲算出部2において、選択された1つの説明変数x1と目的変数yのデータ領域を、破線で示すように、等間隔のグリッドで複数の領域に分割することが考えられる。なお、図中×印はデータ点を示す。また、データ領域の分割は、等間隔のグリッドに限らず、データに応じてグリッドの幅を変化させ、もしくは円形状で範囲を指定する等、データ点のばらつきの様子を観測できる方法であれば限定されない。 For example, as shown in FIG. 3, in the data shortage range calculation unit 2, the data area of one selected explanatory variable x1 and the objective variable y is divided into a plurality of areas by a grid at equal intervals as shown by a broken line. Is possible. In the figure, x marks indicate data points. In addition, the division of the data area is not limited to the grid at equal intervals, but if it is a method that can observe the variation of data points, such as changing the width of the grid according to the data or specifying the range with a circular shape. Not limited.

次に、データ不足範囲算出部2において、与えられたデータ1の全ての説明変数について、データ不足領域判定処理として、データが不足しているデータ不足領域を判定することでデータの不足の有無を判断し(ステップ103,104)、全ての判定結果と判定領域を出力部3に出力する(ステップ105)。 Next, in the data shortage range calculation unit 2, the presence or absence of data shortage is determined by determining the data shortage area for all the explanatory variables of the given data 1 as the data shortage area determination process. A determination is made (steps 103 and 104), and all determination results and determination areas are output to the output unit 3 (step 105).

図4は、図3に示したデータ不足領域判定処理103の構成を示す図である。 FIG. 4 is a diagram showing the configuration of the data shortage area determination process 103 shown in FIG.

図3に示したデータ不足領域判定処理103は、図4に示すように、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203とから構成されている。データ不足領域判定処理103は、これらデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203を実行することで、データの不足の有無を判断することになる。その際、データ量不足領域判定処理201においては、データ密度を指標値として算出し、データ領域低確度判定処理202においては、データ偏差を指標値として算出し、入出力高感度領域判定処理203においては、説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する。なお、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203との順番は任意に設定することができる。 As shown in FIG. 4, the data shortage area determination process 103 shown in FIG. 3 is composed of a data amount shortage area determination process 201, a data area low accuracy determination process 202, and an input / output high sensitivity area determination process 203. ing. The data shortage area determination process 103 determines whether or not there is a data shortage by executing the data amount shortage area determination process 201, the data area low accuracy determination process 202, and the input / output high sensitivity area determination process 203. .. At that time, in the data amount shortage area determination process 201, the data density is calculated as an index value, in the data area low accuracy determination process 202, the data deviation is calculated as an index value, and in the input / output high sensitivity area determination process 203. Calculates the ratio of the change amount of the objective variable to the change amount of the explanatory variable as an index value. The order of the data amount insufficient area determination process 201, the data area low accuracy determination process 202, and the input / output high sensitivity area determination process 203 can be arbitrarily set.

図5は、図4に示したデータ量不足領域判定処理201の詳細を説明するためのフローチャートである。 FIG. 5 is a flowchart for explaining the details of the data amount shortage area determination process 201 shown in FIG.

図3に示したデータ不足領域判定処理103において図4に示したデータ量不足領域判定処理201を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ301)、選択した領域群のデータ密度を指標値として算出する(ステップ302)。 When executing the data amount shortage area determination process 201 shown in FIG. 4 in the data shortage area determination process 103 shown in FIG. 3, first, an area group consisting of the data areas divided in step 102 shown in FIG. 2 is selected. It is selected (step 301), and the data density of the selected region group is calculated as an index value (step 302).

そして、算出したデータ密度が、所定の閾値となる一定以下であるかどうかを判断し(ステップ303)、一定以下であれば、データ量が不足することでデータ不足があると判定し(ステップ304)、一定以下でなければ、データ量が不足しておらずデータ不足がないと判定する(ステップ305)。なお、データ量が不足しているかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ密度とは、選択したデータ領域に対するデータの個数をさす。 Then, it is determined whether or not the calculated data density is below a certain value, which is a predetermined threshold value (step 303), and if it is below a certain value, it is determined that there is a data shortage due to a lack of data amount (step 304). ), If it is not below a certain level, it is determined that the amount of data is not insufficient and there is no data shortage (step 305). The user can arbitrarily set a certain value for determining whether or not the amount of data is insufficient, or a value based on statistical processing can be used. The data density refers to the number of data for the selected data area.

この判断を全てのデータ領域で行い(ステップ306)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ307)。 This determination is performed in all data areas (step 306), and the data shortage range calculation unit 2 outputs the determination result and the determination area for each area group to the output unit 3 (step 307).

図6は、図4に示したデータ量不足領域判定処理201の具体例を示す図である。 FIG. 6 is a diagram showing a specific example of the data amount shortage area determination process 201 shown in FIG.

例えば図9に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域からなる領域群のそれぞれにおいて、データ量が不足しているかどうかを判定するための一定の値を2点以下とした場合、実線で囲まれた領域群においてデータ量が不足していると判定される。 For example, as shown in FIG. 9, a fixed value for determining whether or not the amount of data is insufficient in each of a region group consisting of a plurality of regions divided by a broken line at regular intervals with respect to the explanatory variable. When is set to 2 points or less, it is determined that the amount of data is insufficient in the area group surrounded by the solid line.

このように、複数の領域群のデータの密度に基づいて、データ量の不足の有無を判定することで、説明変数の特定の範囲でデータ量が不足していることを定量的に判断し、提示することができる。 In this way, by determining whether or not the amount of data is insufficient based on the density of the data of the plurality of regions, it is quantitatively determined that the amount of data is insufficient in a specific range of the explanatory variables. Can be presented.

図7は、図4に示したデータ領域低確度判定処理202の詳細を説明するためのフローチャートである。 FIG. 7 is a flowchart for explaining the details of the data area low accuracy determination process 202 shown in FIG.

図3に示したデータ不足領域判定処理103において図4に示したデータ領域低確度判定処理202を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ401)、選択した領域群内のデータ偏差を指標値として算出する(ステップ402)。 When the data area low accuracy determination process 202 shown in FIG. 4 is executed in the data shortage area determination process 103 shown in FIG. 3, first, an area group consisting of the data areas divided in step 102 shown in FIG. 2 is selected. It is selected (step 401), and the data deviation in the selected region group is calculated as an index value (step 402).

そして、算出したデータ偏差が、所定の閾値となる一定以上であるかどうかを判断し(ステップ403)、一定以上であれば、データが低確度であることでデータ不足があると判定し(ステップ404)、一定以上でなければ、データが低確度ではないことでデータ不足がないと判定する(ステップ405)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ偏差とは、選択した領域群内におけるデータのばらつきをさし、低確度とは、そのばらつきが大きなことを言う。 Then, it is determined whether or not the calculated data deviation is above a certain level, which is a predetermined threshold value (step 403), and if it is above a certain level, it is determined that there is a lack of data due to the low accuracy of the data (step). 404) If it is not above a certain level, it is determined that there is no data shortage because the data is not low accuracy (step 405). It should be noted that a certain value for determining whether or not there is a lack of data can be arbitrarily set by the user, or a value based on statistical processing can be used. Further, the data deviation means the variation of the data within the selected region group, and the low accuracy means that the variation is large.

この判断を全てのデータ領域で行い(ステップ406)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ407)。 This determination is performed in all data areas (step 406), and the data shortage range calculation unit 2 outputs the determination result and the determination area for each area group to the output unit 3 (step 407).

図8は、図4に示したデータ領域低確度判定処理202の具体例を示す図である。 FIG. 8 is a diagram showing a specific example of the data area low accuracy determination process 202 shown in FIG.

例えば図8に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域について、データ不足があるかどうかを判定するための一定の値を、データの分散が出力範囲で5つの領域に跨ることとした場合、実線で囲まれた領域がデータ低確度と判定される。 For example, as shown in FIG. 8, the data distribution outputs a certain value for determining whether or not there is a data shortage in a plurality of areas divided by a broken line at regular intervals with respect to the explanatory variables. When it is decided to straddle the five areas in, the area surrounded by the solid line is determined to have low data accuracy.

このように、複数の領域群の領域間のデータの偏差に基づいて、データの確度が低いかどうかを判断することで、説明変数の特定の範囲でデータの確度が低いことを定量的に判断し、提示することができる。 In this way, by determining whether the accuracy of the data is low based on the deviation of the data between the regions of the plurality of regions, it is quantitatively determined that the accuracy of the data is low in a specific range of the explanatory variables. And can be presented.

図9は、図4に示した入出力高感度領域判定処理203の詳細を説明するためのフローチャートである。 FIG. 9 is a flowchart for explaining the details of the input / output high-sensitivity area determination process 203 shown in FIG.

図3に示したデータ不足領域判定処理103において図4に示した入出力高感度領域判定処理203を実行する場合はまず、データ間の傾きを求めるためにデータ間に直線を引くことでデータ間を近似補間し(ステップ501)、領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する(ステップ502)。 When the input / output high-sensitivity area determination process 203 shown in FIG. 4 is executed in the data shortage area determination process 103 shown in FIG. 3, first, a straight line is drawn between the data to obtain the inclination between the data. (Step 501), and the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the region group is calculated as an index value (step 502).

そして、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ503)、選択した領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合が、所定の閾値となる一定以上であるかどうかを判断し(ステップ504)、一定以上であれば、データの説明変数に対して目的変数が急激に変化する高感度であることでデータ不足があると判定し(ステップ505)、一定以上でなければ、高感度ではないことでデータ不足がないと判定する(ステップ506)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することや、統計処理に基づいた値を用いることもできる。また、データ間の近似補間としては、線形近似や二次近似等、あらゆる近似方法による補間を用いることができる。 Then, a region group consisting of the data regions divided in step 102 shown in FIG. 2 is selected (step 503), and the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the selected region group is determined. It is determined whether or not it is above a certain level, which is a predetermined threshold (step 504), and if it is above a certain level, there is a lack of data due to the high sensitivity that the objective variable changes rapidly with respect to the explanatory variables of the data. It is determined (step 505), and if it is not above a certain level, it is determined that there is no data shortage because the sensitivity is not high (step 506). It should be noted that a certain value for determining whether or not there is a lack of data can be arbitrarily set by the user, or a value based on statistical processing can be used. Further, as the approximate interpolation between the data, interpolation by any approximation method such as linear approximation or quadratic approximation can be used.

そして、領域群においてデータの感度が高いと判断した場合、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにデータを取得すべき推奨領域を算定する(ステップ507)。 Then, when it is judged that the sensitivity of the data is high in the area group, the recommended area for which data should be acquired is set so that the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the area group is less than a certain value. Calculate (step 507).

この判断および算定を全てのデータ領域で行い(ステップ508)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを、算定された推奨領域とともに出力部3に出力する(ステップ509)。 This determination and calculation are performed in all data areas (step 508), and the data shortage range calculation unit 2 outputs the determination result and the determination area for each area group to the output unit 3 together with the calculated recommended area (step 508). 509).

図10は、図4に示した入出力高感度領域判定処理203の具体例を示す図である。 FIG. 10 is a diagram showing a specific example of the input / output high-sensitivity region determination process 203 shown in FIG.

入出力高感度領域判定処理203においては、例えば図10に示すように、データの説明変数の変化量に対する目的変数の変化量の割合が、説明変数1区間分Δxに対して、目的変数4区間分Δyの変化分を大きいとする判定条件の場合、これらを跨る領域は、データの感度が高い高感度であると判定される。 In the input / output high-sensitivity area determination process 203, for example, as shown in FIG. 10, the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data is 4 sections of the objective variable with respect to Δx for 1 section of the explanatory variable. In the case of the determination condition that the change of the minute Δy is large, the region straddling these is determined to have high sensitivity of data.

高感度であると判定された場合は、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにそのデータ間を埋めるべくデータ点の推奨領域が算定されることになる。 When it is determined that the sensitivity is high, the recommended area of the data point is set to fill the space between the data so that the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the area group is less than a certain value. It will be calculated.

このように、領域群における説明変数に対する目的変数の入出力感度に基づいて、データの感度が高いかどうかを判断することで、説明変数の特定の範囲でデータの感度が高いことを定量的に判断し、提示することができる。また、説明変数に対して目的変数が敏感に変化する高感度の領域において、データを取得するとよい説明変数の範囲が推奨されることで、効率よくデータを追加することができる。 In this way, by determining whether the data sensitivity is high based on the input / output sensitivity of the objective variable to the explanatory variable in the region group, it is quantitatively determined that the data sensitivity is high in a specific range of the explanatory variable. Can judge and present. Further, in a highly sensitive region where the objective variable changes sensitively with respect to the explanatory variable, the range of the explanatory variable for which data should be acquired is recommended, so that data can be added efficiently.

上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によって、データ不足範囲算出部2は、複数の指標値に基づき、理由の異なる複数種類のデータの不足の有無をそれぞれ判断することになる。 By the above-mentioned data amount shortage area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203, the data shortage range calculation unit 2 is based on a plurality of index values and has a plurality of types of data for different reasons. It will be judged whether or not there is a shortage of.

図11は、図6、図8及び図10に示した例においてデータ不足がないと判定された領域を示す図である。 FIG. 11 is a diagram showing a region determined to have no data shortage in the examples shown in FIGS. 6, 8 and 10.

図6、図8及び図10に示した例における処理が行われたことにより、図11に示すように、データ不足がないと判定された領域が確定することになる。 By performing the processing in the examples shown in FIGS. 6, 8 and 10, as shown in FIG. 11, the area determined to have no data shortage is determined.

図12は、図1に示した出力部3における処理を説明するためのフローチャートである。 FIG. 12 is a flowchart for explaining the processing in the output unit 3 shown in FIG.

図1に示した出力部3においては、データ不足範囲算出部22におけるデータ不足領域判定処理103の判定結果であるデータ量不足領域判定結果601と、データ低確度領域判定結果602と、入出力高感度領域判定結果603が入力されると、出力範囲要求部4から与えられた出力要求範囲604内の判定結果を出力し(ステップ605)、データ不足があると判定された領域の数を説明変数毎に提示し(ステップ606)、判定履歴とする(ステップ607)。 In the output unit 3 shown in FIG. 1, the data amount shortage area determination result 601 which is the judgment result of the data shortage area determination process 103 in the data shortage range calculation unit 22, the data low accuracy area determination result 602, and the input / output height When the sensitivity area determination result 603 is input, the determination result within the output request range 604 given by the output range request unit 4 is output (step 605), and the number of areas determined to have insufficient data is used as an explanatory variable. It is presented for each (step 606) and used as a determination history (step 607).

また、出力要求範囲604に応じて出力範囲を選択し(ステップ608)、領域毎にデータ不足がないと判定された説明変数があるかどうか判断し(ステップ609)、説明変数がない場合は判定結果を出力し(ステップ610)、全ての出力要求範囲内の説明変数について同様の処理を行う(ステップ611)。一方、データ不足がないと判定された説明変数がある場合は、判定結果を出力することなく、全ての出力要求範囲内の説明変数について同様の処理を行うことになる。 Further, the output range is selected according to the output request range 604 (step 608), it is determined whether or not there is an explanatory variable determined to have no data shortage for each area (step 609), and if there is no explanatory variable, it is determined. The result is output (step 610), and the same processing is performed for all the explanatory variables within the output request range (step 611). On the other hand, if there is an explanatory variable for which it is determined that there is no data shortage, the same processing is performed for all the explanatory variables within the output request range without outputting the determination result.

その後、出力要求範囲内の全ての領域でデータ不足があると判定されたものがある場合は(ステップ612)、全ての説明変数毎に、データ不足があると判定された領域と不足理由とを表示出力することで提示し(ステップ613)、データ不足があると判定されたものがない場合はそのまま終了する。また、データ不足があると判定された領域と、不足理由と、ステップ607にて判定履歴とされた、データ不足があると判定された領域の数とを記録する。 After that, if it is determined that there is data shortage in all the areas within the output request range (step 612), the area determined to have data shortage and the reason for the shortage are determined for each explanatory variable. It is presented by displaying and outputting (step 613), and if there is no data determined to be insufficient, the process ends as it is. Further, the area determined to have data shortage, the reason for the shortage, and the number of areas determined to have data shortage, which is the determination history in step 607, are recorded.

図13は、図1に示したデータ不足提示システムにおいて出力範囲要求部4から与えられた出力要求範囲を考慮した場合の出力部3における判定結果の具体例を示す図である。 FIG. 13 is a diagram showing a specific example of the determination result in the output unit 3 when the output request range given by the output range request unit 4 is taken into consideration in the data shortage presentation system shown in FIG. 1.

上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図13に示すように、そのデータの領域群毎に、出力部3において、出力要求範囲に対してデータ不足の種類が特定される。なお、本例では、特定されたデータ不足の種類が各領域群で単一となっているが、実際には、データ量不足および低確度等、複数の場合もある。 When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203, as shown in FIG. In the output unit 3, the type of data shortage is specified for the output request range for each area group of the data. In this example, the type of specified data shortage is single in each region group, but in reality, there may be multiple types such as data shortage and low accuracy.

図14は、図1に示した出力部3にて表示出力される画面の一例を示す図である。 FIG. 14 is a diagram showing an example of a screen displayed and output by the output unit 3 shown in FIG.

上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図14に示すように、出力部3においては、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけて表示する。また、データの不足の理由が高感度によるものである場合は、入出力高感度領域判定処理203にて高感度判定を解消するために算定されたデータの推奨領域を表示する。例えば、図10に示した例においては、X12~X14の範囲にて高感度によるデータの不足があると判定されているため、X12~X14の範囲に含まれるX12’~X13’の狭い範囲がデータの推奨領域として表示されることになる。 When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203, as shown in FIG. In the output unit 3, the range determined to have data shortage and the reason for the lack of data in the range are associated and displayed for each area group of the explanatory variables. If the reason for the lack of data is due to high sensitivity, the recommended area of data calculated in order to eliminate the high sensitivity determination in the input / output high sensitivity area determination process 203 is displayed. For example, in the example shown in FIG. 10, since it is determined that there is a lack of data due to high sensitivity in the range of X 12 to X 14 , X 12'to X included in the range of X 12 to X 14 The narrow range of 13'will be displayed as the recommended area of data.

このように、複数種類のデータ不足について説明変数の範囲とデータ不足の理由とが表示されることで、ユーザは、説明変数のどの範囲でどのようなデータ不足があるかを容易に知ることができる。 In this way, by displaying the range of the explanatory variables and the reason for the data shortage for multiple types of data shortages, the user can easily know what kind of data shortage is in what range of the explanatory variables. can.

また、図14に示すように、出力部3は、説明変数と目的変数とをそれぞれ軸とし、説明変数の範囲と目的変数の範囲とで複数の領域に分割されたマップにデータを配置したプロット図を表示する。その際、出力部3は、プロット図においてデータの不足がある領域を他の領域と区別して表示出力するが、出力要求範囲が通知された場合は、プロット図において出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力することになる。 Further, as shown in FIG. 14, the output unit 3 has the explanatory variables and the objective variables as axes, respectively, and plots data arranged in a map divided into a plurality of regions by the range of the explanatory variables and the range of the objective variables. Display the figure. At that time, the output unit 3 displays and outputs the area where there is a lack of data in the plot diagram separately from other areas, but when the output request range is notified, it is included in the output request range in the plot diagram and the data is output. The area where there is a shortage of is displayed and output separately from other areas.

このように、データのプロット図にデータ不足を重畳表示するので、ユーザはデータ不足の領域をデータとともに視覚的に認識することができる。また、データのプロット図に出力要求範囲のデータ不足を重畳表示することで、ユーザは出力要求範囲のデータ不足の領域をデータとともに視覚的に認識することができる。 In this way, since the data shortage is superimposed and displayed on the data plot diagram, the user can visually recognize the data shortage area together with the data. Further, by superimposing and displaying the data shortage of the output request range on the data plot diagram, the user can visually recognize the data shortage area of the output request range together with the data.

図15は、図1に示した出力部3にて表示出力される画面の一例を示す図である。 FIG. 15 is a diagram showing an example of a screen displayed and output by the output unit 3 shown in FIG.

上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図15に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数となるデータ不足領域数1401を表示出力する。また、説明変数が指定された場合に、その説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1402を表示出力する。 When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203, as shown in FIG. The output unit 3 displays and outputs the number of data shortage areas 1401 which is the number of areas where it is determined that there is insufficient data for each range of the objective variables for each of the plurality of explanatory variables. In addition, when an explanatory variable is specified, the shortage reason 1402 that associates the range determined to have data shortage with the reason for the lack of data in that range is displayed for each area group of the explanatory variable. Output.

このように、複数の説明変数についてそれらの目的変数の範囲毎のデータ不足の個数が表示されることで、各説明変数のデータ不足の様子を比較してどの説明変数のどの範囲でデータを追加するかを検討するのに利用できる。 In this way, by displaying the number of data shortages for each range of the objective variables for multiple explanatory variables, the state of data shortage of each explanatory variable is compared and data is added in which range of which explanatory variable. It can be used to consider what to do.

図16は、図1に示した出力部3にて表示出力される画面の一例を示す図である。 FIG. 16 is a diagram showing an example of a screen displayed and output by the output unit 3 shown in FIG.

上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図16に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数の履歴となるデータ不足領域数履歴1501を表示出力する。また、説明変数が指定された場合に、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1502を表示出力するが、この不足理由1502には、前回行われた判定においてデータ不足であると判定され、今回の判定においてそれが解消した領域においては、前回のデータ不足の理由が取り消し線とともに表示されることになる。 When the presence or absence of data shortage is determined for each data area group by the above-mentioned data amount shortage area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203, as shown in FIG. The output unit 3 displays and outputs, for each of the plurality of explanatory variables, the data shortage area number history 1501 which is the history of the number of areas where it is determined that there is insufficient data for each range of the objective variable. In addition, when an explanatory variable is specified, the shortage reason 1502 that associates the range determined to have data shortage with the reason for the lack of data in that range is displayed and output for each region group of the explanatory variable. However, in this shortage reason 1502, it is determined that the data is insufficient in the previous judgment, and in the area where it is resolved in the current judgment, the reason for the previous data shortage is displayed together with the cancellation line. become.

このように、データに不足があると判断された領域の個数の履歴が表示されることで、前回の判定から今回の判定までにどの範囲のデータが追加されたかのデータ点の取得状況を把握することができる。 In this way, by displaying the history of the number of areas where it is judged that there is insufficient data, it is possible to grasp the acquisition status of the data points of which range of data was added from the previous judgment to the current judgment. be able to.

図17は、図1に示した出力部3にて表示出力される画面の一例を示す図である。 FIG. 17 is a diagram showing an example of a screen displayed and output by the output unit 3 shown in FIG.

図17に示すように、上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断された結果、ある領域についてデータの不足がないと判定された説明変数がある場合は、他の説明変数のデータ不足領域と理由1601は提示しない。 As shown in FIG. 17, as a result of determining whether or not there is a data shortage for each data area group by the above-mentioned data amount insufficient area determination process 201, data area low accuracy determination process 202, and input / output high sensitivity area determination process 203. If there is an explanatory variable for which it is determined that there is no data shortage for a certain area, the data shortage area for another explanatory variable and the reason 1601 are not presented.

上述したように本形態においては、データのデータ領域を複数の領域に分割し、領域毎あるいは領域群毎に指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断するので、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。それにより、推定モデルや予測モデルを再構成する手間を削減することが可能となる。 As described above, in this embodiment, the data area of the data is divided into a plurality of areas, the index value is calculated for each area or each area group, and the presence or absence of data shortage is determined for each range of explanatory variables based on the index value. Since the judgment is made, it is possible to quantitatively judge the range of the values of the explanatory variables for which the data is insufficient and present the judgment result. As a result, it is possible to reduce the trouble of reconstructing the estimation model and the prediction model.

なお、上述したようにデータ不足範囲算出部2の判断結果を出力部3にて提示するだけではなく、データ不足範囲算出部2の判断結果を、接続された外部機器に送信出力する構成とすることも考えられる。その場合、外部機器が、例えば、制御器であり、データの説明変数が制御パラメータ、目的変数が制御の安定性であれば、不安定な制御領域として、データが不足する領域での制御パラメータ設定を回避することも可能となる。 As described above, the output unit 3 not only presents the judgment result of the data shortage range calculation unit 2, but also transmits and outputs the judgment result of the data shortage range calculation unit 2 to the connected external device. It is also possible. In that case, if the external device is, for example, a controller, the explanatory variable of the data is the control parameter, and the objective variable is the stability of the control, the control parameter is set in the area where the data is insufficient as an unstable control area. It is also possible to avoid.

以下に、上述した一連の処理について具体的なデータの事例を用いて説明する。 Hereinafter, the series of processes described above will be described with reference to specific data examples.

例えば、エアコンの空調データと、人が感じる快適度とが紐づいたデータがあるとする。説明変数は、設定温度、エアコンからの距離、気温、湿度、これに対する目的変数を快適度とする。快適度は、例えば5段階で、1.不満、2.少し不満、3.普通、4.比較的満足、5.非常に満足、で表現されているものとする。 For example, suppose that there is data in which the air conditioning data of an air conditioner and the comfort level felt by a person are linked. The explanatory variables are the set temperature, the distance from the air conditioner, the temperature, the humidity, and the objective variable for this is the comfort level. The comfort level is, for example, 5 levels, 1. Dissatisfaction, 2. A little dissatisfied, 3. Normally, 4. Relatively satisfied, 5. It shall be expressed as very satisfying.

まず、出力部3が、図12のステップ608において、説明変数のうち、例えば設定温度を1つ選択する。 First, in step 608 of FIG. 12, the output unit 3 selects, for example, one set temperature from the explanatory variables.

また、データ不足範囲算出部2が、図3に示したように、温度設定可能な範囲を2度毎に、快適度は1段階毎に分割する。そして、データ不足範囲算出部2は、図6に示したように設定温度を分割した範囲ごとにデータ密度が一定以上かを判定するとともに、図8に示したようにデータ偏差が一定以下かを判定する。また、データ不足範囲算出部2は、もし、設定温度が20~22度、22~24度の領域でデータ近似による補間をした際に、設定温度の変化に対して快適度の変化が1→4と変化が大きい場合、高感度判定とする。データ不足範囲算出部2は、他の説明変数についても、上述した、データ量不足、低確度および高感度判定の処理を同様に行う。この結果、設定温度の大きな変化分を説明できるものがない場合は、高感度と判定された領域間で、データを詳細に観察するための推奨領域を判定する。例えば、2度毎だった領域をさらに分割した領域の1度毎の領域で、22度の設定温度のデータ点を増やすように要求し、出力部3がその旨を表示出力する。また、データ補充後には、その高感度領域が解消されたかを出力部3がその旨を表示出力する。ただし、出力要求範囲が例えば快適度5とした時は、高感度領域は含まれていないため、上述した処理は行わない。 Further, as shown in FIG. 3, the data shortage range calculation unit 2 divides the temperature-settable range into every two degrees and the comfort level into one step. Then, the data shortage range calculation unit 2 determines whether the data density is above a certain level for each divided range of the set temperature as shown in FIG. 6, and determines whether the data deviation is below a certain level as shown in FIG. judge. Further, in the data shortage range calculation unit 2, when interpolation is performed by data approximation in a region where the set temperature is 20 to 22 degrees and 22 to 24 degrees, the change in comfort level is 1 → with respect to the change in the set temperature. If the change is large as 4, it is judged as high sensitivity. The data shortage range calculation unit 2 similarly performs the above-mentioned data amount shortage, low accuracy, and high sensitivity determination processing for the other explanatory variables. As a result, if there is nothing that can explain the large change in the set temperature, a recommended area for observing the data in detail is determined between the areas determined to have high sensitivity. For example, a request is made to increase the data points of the set temperature of 22 degrees in the area of each degree, which is a region obtained by further dividing the area of every 2 degrees, and the output unit 3 displays and outputs to that effect. Further, after the data is replenished, the output unit 3 displays and outputs whether or not the high-sensitivity region has been eliminated. However, when the output request range is, for example, the comfort level 5, the high-sensitivity region is not included, so the above-mentioned processing is not performed.

また、これらデータ不足領域の提示効果として、どの説明変数でもデータ領域が低確度判定であれば、例えば照度などの他の説明変数を新たに追加して、データ不足判定にならないかを観察することになる。なお、この観察とは、前回データとの判定結果の履歴の経過であり、不足なしの判定になる場合は新規追加した説明変数で説明可能であるということである。 In addition, as a presentation effect of these data shortage areas, if the data area is judged to have low accuracy in any explanatory variable, add another explanatory variable such as illuminance and observe whether the data shortage judgment is made. become. It should be noted that this observation is the progress of the history of the judgment result with the previous data, and if it is judged that there is no shortage, it can be explained by the newly added explanatory variable.

1…データ、2…データ不足範囲算出部、3…出力部、4…出力範囲要求部、103…データ不足領域判定処理、201…データ量不足領域判定処理、202…データ領域低確度判定処理、203…入出力高感度領域判定処理 1 ... Data, 2 ... Data shortage range calculation unit, 3 ... Output unit, 4 ... Output range request unit, 103 ... Data shortage area judgment processing, 201 ... Data amount shortage area judgment processing, 202 ... Data area low accuracy judgment processing, 203 ... Input / output high-sensitivity area determination processing

Claims (12)

説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、
説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、
前記データ不足範囲算出部の判断結果を出力する出力部と、
を有するデータ不足提示システム。
It is a data deficiency presentation system that presents whether or not there is a deficiency of data necessary for estimating the objective variable from the explanatory variables.
The data area of the data given as a combination of the value of the explanatory variable and the value of the objective variable is divided into a plurality of areas defined by the value of the explanatory variable and the value of the objective variable, and each of the divided areas or Data for calculating at least one index value related to data shortage for each region group in which the value of the explanatory variable is within a predetermined range, and determining whether or not there is a data shortage for each range of the explanatory variable based on the index value. Insufficient range calculation unit and
An output unit that outputs the judgment result of the data shortage range calculation unit, and
Data deficient presentation system.
前記データ不足範囲算出部は、前記指標値として前記領域群におけるデータの密度を算出し、前記密度が所定の閾値以下の場合に、当該領域群に対応する前記説明変数の範囲でデータ量が不足していると判断することでデータの不足があると判断する、
請求項1に記載のデータ不足提示システム。
The data shortage range calculation unit calculates the density of data in the region group as the index value, and when the density is equal to or less than a predetermined threshold value, the data amount is insufficient in the range of the explanatory variables corresponding to the region group. Judging that there is a lack of data by judging that it is
The data shortage presentation system according to claim 1.
前記データ不足範囲算出部は、前記指標値として前記領域群における領域間のデータ量の偏差を算出し、前記偏差が所定の閾値以上の場合に、当該領域群に対応する前記説明変数の範囲でデータの確度が低いと判断することでデータの不足があると判断する、
請求項1に記載のデータ不足提示システム。
The data shortage range calculation unit calculates a deviation of the amount of data between regions in the region group as the index value, and when the deviation is equal to or more than a predetermined threshold value, it is within the range of the explanatory variables corresponding to the region group. Judging that there is a lack of data by judging that the accuracy of the data is low,
The data shortage presentation system according to claim 1.
前記データ不足範囲算出部は、前記指標値として前記領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を算出し、前記割合が所定の閾値以上の場合に、当該領域群に対応する前記説明変数の範囲でデータの感度が高いと判断することでデータの不足があると判断する、
請求項1に記載のデータ不足提示システム。
The data shortage range calculation unit calculates the ratio of the change amount of the objective variable to the change amount of the explanatory variable of the data in the region group as the index value, and when the ratio is equal to or more than a predetermined threshold value, the region group is assigned. It is judged that there is a lack of data by judging that the sensitivity of the data is high within the range of the corresponding explanatory variables.
The data shortage presentation system according to claim 1.
前記データ不足範囲算出部は、前記領域群に対応する前記説明変数の範囲でデータの感度が高いと判断した場合、前記説明変数の範囲において前記割合を前記閾値未満とするためにデータを取得すべき領域を算定し、
前記出力部は、前記算定された領域を表示出力する、
請求項4に記載のデータ不足提示システム。
When the data shortage range calculation unit determines that the sensitivity of the data is high in the range of the explanatory variables corresponding to the region group, the data shortage range calculation unit acquires data in order to make the ratio less than the threshold value in the range of the explanatory variables. Calculate the power area and
The output unit displays and outputs the calculated area.
The data shortage presentation system according to claim 4.
前記データ不足範囲算出部は、複数の指標値に基づき、理由の異なる複数種類のデータの不足の有無をそれぞれ判断し、
前記出力部は、データの不足がある説明変数の範囲と、該範囲にあるデータの不足の理由と、を対応づけて表示出力する、
請求項1に記載のデータ不足提示システム。
The data shortage range calculation unit determines whether or not there is a shortage of a plurality of types of data for different reasons based on a plurality of index values.
The output unit displays and outputs a range of explanatory variables having a lack of data in association with the reason for the lack of data in the range.
The data shortage presentation system according to claim 1.
前記出力部は、更に、説明変数と目的変数とをそれぞれ軸とし、説明変数の範囲と目的変数の範囲とで複数の領域に分割されたマップに前記データを配置したプロット図を表示し、前記プロット図においてデータの不足がある領域を他の領域と区別して表示出力する、
請求項6に記載のデータ不足提示システム。
The output unit further displays a plot diagram in which the data is arranged on a map divided into a plurality of areas by the range of the explanatory variables and the range of the objective variables, with the explanatory variables and the objective variables as axes, respectively. Display and output the area where there is a lack of data in the plot diagram separately from other areas.
The data shortage presentation system according to claim 6.
予測対象とする目的変数の範囲を出力要求範囲として受け付けて前記出力部に通知する出力範囲要求部を更に有し、
前記出力部は、前記出力要求範囲が通知されると、前記プロット図において前記出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力する、
請求項7に記載のデータ不足提示システム。
It also has an output range request unit that accepts the range of the objective variable to be predicted as the output request range and notifies the output unit.
When the output request range is notified, the output unit displays and outputs an area included in the output request range and lacking data in the plot diagram separately from other areas.
The data shortage presentation system according to claim 7.
前記出力部は、前記説明変数が複数ある場合、該複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数を表示出力する、
請求項1に記載のデータ不足提示システム。
When there are a plurality of the explanatory variables, the output unit displays and outputs the number of regions for which it is determined that there is insufficient data for each range of the objective variables for each of the plurality of explanatory variables.
The data shortage presentation system according to claim 1.
前記出力部は、前記データに不足があると判断された領域の個数の履歴を表示出力する、
請求項9に記載のデータ不足提示システム。
The output unit displays and outputs a history of the number of areas where it is determined that the data is insufficient.
The data shortage presentation system according to claim 9.
前記出力部は、前記データ不足範囲算出部の判断結果を、表示出力するとともに、接続された外部機器に送信出力する、
請求項1に記載のデータ不足提示システム。
The output unit displays and outputs the determination result of the data shortage range calculation unit, and also transmits and outputs it to a connected external device.
The data shortage presentation system according to claim 1.
説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示方法であって、
情報処理装置が、
説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出処理と、
前記データ不足範囲算出処理の判断結果を出力する出力処理と、
実行するデータ不足提示方法。
It is a data deficiency presentation method that presents whether or not there is a deficiency of data necessary for estimating the objective variable from the explanatory variables.
Information processing equipment
The data area of the data given as a combination of the value of the explanatory variable and the value of the objective variable is divided into a plurality of areas defined by the value of the explanatory variable and the value of the objective variable, and each of the divided areas or Data for calculating at least one index value related to data shortage for each region group in which the value of the explanatory variable is within a predetermined range, and determining whether or not there is a data shortage for each range of the explanatory variable based on the index value. Insufficient range calculation processing and
Output processing that outputs the judgment result of the data shortage range calculation processing, and
How to present the lack of data to execute .
JP2018089365A 2018-05-07 2018-05-07 Data shortage presentation system and data shortage presentation method Active JP7065685B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018089365A JP7065685B2 (en) 2018-05-07 2018-05-07 Data shortage presentation system and data shortage presentation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018089365A JP7065685B2 (en) 2018-05-07 2018-05-07 Data shortage presentation system and data shortage presentation method

Publications (2)

Publication Number Publication Date
JP2019197267A JP2019197267A (en) 2019-11-14
JP7065685B2 true JP7065685B2 (en) 2022-05-12

Family

ID=68538369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089365A Active JP7065685B2 (en) 2018-05-07 2018-05-07 Data shortage presentation system and data shortage presentation method

Country Status (1)

Country Link
JP (1) JP7065685B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6831030B1 (en) * 2020-06-30 2021-02-17 三菱重工業株式会社 Prediction model learning method, prediction model learning device, and plant control system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044592A (en) 2009-08-21 2011-03-03 Nec Corp Reliability determining device, reliability determining method, and computer program for reliability determination
WO2011074509A1 (en) 2009-12-15 2011-06-23 日本電気株式会社 Information processing device, information processing method, and storage medium
JP2017211756A (en) 2016-05-24 2017-11-30 株式会社日立システムズ Unpredictable data determination system and unpredictable data determination method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044592A (en) 2009-08-21 2011-03-03 Nec Corp Reliability determining device, reliability determining method, and computer program for reliability determination
WO2011074509A1 (en) 2009-12-15 2011-06-23 日本電気株式会社 Information processing device, information processing method, and storage medium
US20120331024A1 (en) 2009-12-15 2012-12-27 Nec Corporation Information processing device, method of processing information and storage medium
JP2017211756A (en) 2016-05-24 2017-11-30 株式会社日立システムズ Unpredictable data determination system and unpredictable data determination method

Also Published As

Publication number Publication date
JP2019197267A (en) 2019-11-14

Similar Documents

Publication Publication Date Title
US10699248B2 (en) Inspection management system and inspection management method
EP3413152B1 (en) Sensor failure diagnosis device, method and program
JP6501982B2 (en) Failure risk index estimation device and failure risk index estimation method
JP5765336B2 (en) Fault analysis apparatus, fault analysis method and program
KR101779636B1 (en) Advanced process control optimization
JP2017083985A (en) Time series data processing method, time series data processing program, and time series data processing device
JPWO2008087968A1 (en) Change point detection method and apparatus
KR101587018B1 (en) Data quality measurement method based on a scatter plot
JP7292076B2 (en) Deterioration estimation device, learning device, deterioration estimation method, learning method, deterioration estimation program, and learning program
JP6489235B2 (en) System analysis method, system analysis apparatus, and program
JP6862130B2 (en) Anomaly detection device, anomaly detection method, and program
JPWO2018073960A1 (en) Display method, display device, and program
KR20180040452A (en) Method for detecting anomaly using equipment age index and apparatus thereof
JP7065685B2 (en) Data shortage presentation system and data shortage presentation method
TW202101142A (en) Operation evaluation device, operation evaluation method, and program
CN115407728A (en) Information processing apparatus, prediction method, and computer-readable storage medium
EP2631727B1 (en) Multivalue bar graph displays and methods of implementing same
JP6849543B2 (en) Defective factor analysis system and defective factor analysis method
JP7360925B2 (en) analysis system
US10642923B2 (en) Graphs with normalized actual value measurements and baseline bands representative of normalized measurement ranges
US9336616B2 (en) Power transmission network state visualization
TW201738435A (en) Display control device, method of displaying safety factor, and program recording medium
CN108804282A (en) Display device, display methods and storage medium
JP6381282B2 (en) Abnormality detection apparatus and program
CN111971664B (en) Learning processing device, data analysis device, analysis pattern selection method, and analysis pattern selection program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220426

R150 Certificate of patent or registration of utility model

Ref document number: 7065685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150