JP2019197267A - データ不足提示システムおよびデータ不足提示方法 - Google Patents

データ不足提示システムおよびデータ不足提示方法 Download PDF

Info

Publication number
JP2019197267A
JP2019197267A JP2018089365A JP2018089365A JP2019197267A JP 2019197267 A JP2019197267 A JP 2019197267A JP 2018089365 A JP2018089365 A JP 2018089365A JP 2018089365 A JP2018089365 A JP 2018089365A JP 2019197267 A JP2019197267 A JP 2019197267A
Authority
JP
Japan
Prior art keywords
data
shortage
range
variable
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018089365A
Other languages
English (en)
Other versions
JP7065685B2 (ja
Inventor
江里子 佐藤
Eriko Sato
江里子 佐藤
やえみ 寺本
Yaemi Teramoto
やえみ 寺本
正啓 間瀬
Tadakei Mase
正啓 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018089365A priority Critical patent/JP7065685B2/ja
Publication of JP2019197267A publication Critical patent/JP2019197267A/ja
Application granted granted Critical
Publication of JP7065685B2 publication Critical patent/JP7065685B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示する。【解決手段】説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割し、分割された領域毎あるいは説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部2と、データ不足範囲算出部2の判断結果を出力する出力部3とを有する。【選択図】図1

Description

本発明は、予測モデルを構築するためのデータの不足の有無を判断し、判定結果を提示する技術に関する。
過去のデータの傾向に基づいて将来発生する事象を予測する技術がある。事象の予測には、例えば予測モデルが用いられる。予測モデルは、原因に相当する説明変数と、予測結果に相当する目的変数との関係を表し、説明変数から目的変数を推測することを可能にする。説明変数と目的変数とは、例えば重回帰式であれば、複数ある説明変数に重みをかけて目的変数を表せる関係のある変数同士のことを指す。
過去のデータ(以下、単に「データ」ともいう)は、過去に観測された説明変数の値と目的変数の値との組合せである。必要なデータを用いて予測モデルを構築すれば、予測モデルは予測精度の高いものとなる。しかし、データが不足している場合は、予測モデルの予測精度が低下する。
そのため、精度の高い予測を行うには、予測モデルの構築のために必要なデータが用意されているか調べることや、データ不足があればデータを追加することが必要となる。
特許文献1には、推定モデルに対する推定誤差の分散を評価することで推定モデルの信頼度を提示し、それにより、推定モデルの再構成判断を可能とする方法が開示されている。
特許文献2には、予測モデルの不足データの量と質を判定し、不足分のデータを補うように利用者に対してアドバイスを表示する方法が開示されている。
特開2011−44592号公報 特開2015−219651号公報
特許文献1に開示された技術は、あくまで推定モデルに対する推定誤差の分散を評価して推定モデルの信頼度を提示することで、推定モデルを再構築すべきかどうか判断するための情報を提示するものである。しかし、特許文献1に開示された技術は、データ不足となっている説明変数の範囲を判断し、判断結果に基づく情報を提示するものではない。そのため、推定モデルの構築のために必要なデータが用意されているかどうかを知ることができない。
また、特許文献2に開示された技術は、予測モデルにおける不足分のデータを補うように利用者に対してアドバイスを表示するだけであり、データ不足となっている説明変数の範囲を定量的に判断する手法は特許文献2には開示されてない。
本発明の目的は、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示する技術を提供することである。
本発明のひとつの態様によるデータ不足提示システムは、説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、前記データ不足範囲算出部の判断結果を出力する出力部と、を有する。
本発明によれば、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。
本実施形態によるデータ不足提示システムを示す図である。 図1に示したデータ不足提示システムにおける処理を説明するためのフローチャートである。 図1に示したデータ不足提示システムにおけるデータ領域の分割の一例を示す図である。 図3に示したデータ不足領域判定処理の構成を示す図である。 図4に示したデータ量不足領域判定処理の詳細を説明するためのフローチャートである。 図4に示したデータ量不足領域判定処理の具体例を示す図である。 図4に示したデータ領域低確度判定処理の詳細を説明するためのフローチャートである。 図4に示したデータ領域低確度判定処理の具体例を示す図である。 図4に示した入出力高感度領域判定処理の詳細を説明するためのフローチャートである。 図4に示した入出力高感度領域判定処理の具体例を示す図である。 図6、図8及び図10に示した例においてデータ不足がないと判定された領域を示す図である。 図1に示した出力部における処理を説明するためのフローチャートである。 図1に示したデータ不足提示システムにおいて出力範囲要求部から与えられた出力要求範囲を考慮した場合の出力部における判定結果の具体例を示す図である。 図1に示した出力部にて表示出力される画面の一例を示す図である。 図1に示した出力部にて表示出力される画面の一例を示す図である。 図1に示した出力部にて表示出力される画面の一例を示す図である。 図1に示した出力部にて表示出力される画面の一例を示す図である。
以下に、本発明の実施の形態について図面を参照して説明する。
図1は、本実施形態によるデータ不足提示システムを示す図である。
本形態は図1に示すように、データ不足範囲算出部2と、出力範囲要求部4と、出力部3とを有し、推定モデルや予測モデルを作成する際に、データが不足する領域を判定し、どのようにデータの不足を判断して精度を向上するか提示するためのものである。なお、データの不足とは、説明変数に対して目的変数がある精度をもって判定できない関係にあるデータを指す。
データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータの不足の有無を判断するものであって、過去に蓄積されたデータ1が与えられる。データ1は、説明変数の値と目的変数の値との組み合わせをもつ2変数以上のデータセットである。データ不足範囲算出部2は、説明変数の値と目的変数の値との組み合わせとして与えられたデータ1のデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割し、分割された領域毎あるいは説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断する。これにより、データ不足範囲算出部2は、説明変数から目的変数を推定するために必要なデータがどの領域で不足しており、不足理由が何に基づくものかを算出する。
出力範囲要求部4は、ユーザが予測対象として取得したい目的変数の範囲を出力要求範囲として受け付けて出力部3に通知する。
出力部3は、データ不足範囲算出部2の判断結果を表示出力によって提示する。その際、出力部3は、データ不足範囲算出部2における判断結果に対して、出力範囲要求部4から通知された出力要求範囲においてデータの不足が判断される領域と理由を表示出力によって提示する。また、出力部3は、説明変数が複数ある場合、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数を表示出力によって提示する。
以下に、上記のように構成されたデータ不足提示システムにおける処理について説明する。
図2は、図1に示したデータ不足提示システムにおける処理を説明するためのフローチャートである。
図1に示したデータ不足提示システムにおいて説明変数から目的変数を推定するために必要なデータの不足の有無を提示する場合は、まず、データ1が与えられると、データ不足範囲算出部2において、データ1の説明変数を1つ選択し(ステップ101)、選択した説明変数についてのデータ領域を、説明変数の値と目的変数の値とで定まる複数の領域に分割する(ステップ102)。この際、与えられたデータ1がばらけるように、分割の仕方が決められ、その仕方に基づいてデータ1の領域が複数の領域に分割される。
図3は、図1に示したデータ不足提示システムにおけるデータ領域の分割の一例を示す図である。
例えば図3に示すように、データ不足範囲算出部2において、選択された1つの説明変数x1と目的変数yのデータ領域を、破線で示すように、等間隔のグリッドで複数の領域に分割することが考えられる。なお、図中×印はデータ点を示す。また、データ領域の分割は、等間隔のグリッドに限らず、データに応じてグリッドの幅を変化させ、もしくは円形状で範囲を指定する等、データ点のばらつきの様子を観測できる方法であれば限定されない。
次に、データ不足範囲算出部2において、与えられたデータ1の全ての説明変数について、データ不足領域判定処理として、データが不足しているデータ不足領域を判定することでデータの不足の有無を判断し(ステップ103,104)、全ての判定結果と判定領域を出力部3に出力する(ステップ105)。
図4は、図3に示したデータ不足領域判定処理103の構成を示す図である。
図3に示したデータ不足領域判定処理103は、図4に示すように、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203とから構成されている。データ不足領域判定処理103は、これらデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203を実行することで、データの不足の有無を判断することになる。その際、データ量不足領域判定処理201においては、データ密度を指標値として算出し、データ領域低確度判定処理202においては、データ偏差を指標値として算出し、入出力高感度領域判定処理203においては、説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する。なお、データ量不足領域判定処理201と、データ領域低確度判定処理202と、入出力高感度領域判定処理203との順番は任意に設定することができる。
図5は、図4に示したデータ量不足領域判定処理201の詳細を説明するためのフローチャートである。
図3に示したデータ不足領域判定処理103において図4に示したデータ量不足領域判定処理201を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ301)、選択した領域群のデータ密度を指標値として算出する(ステップ302)。
そして、算出したデータ密度が、所定の閾値となる一定以下であるかどうかを判断し(ステップ303)、一定以下であれば、データ量が不足することでデータ不足があると判定し(ステップ304)、一定以下でなければ、データ量が不足しておらずデータ不足がないと判定する(ステップ305)。なお、データ量が不足しているかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ密度とは、選択したデータ領域に対するデータの個数をさす。
この判断を全てのデータ領域で行い(ステップ306)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ307)。
図6は、図4に示したデータ量不足領域判定処理201の具体例を示す図である。
例えば図9に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域からなる領域群のそれぞれにおいて、データ量が不足しているかどうかを判定するための一定の値を2点以下とした場合、実線で囲まれた領域群においてデータ量が不足していると判定される。
このように、複数の領域群のデータの密度に基づいて、データ量の不足の有無を判定することで、説明変数の特定の範囲でデータ量が不足していることを定量的に判断し、提示することができる。
図7は、図4に示したデータ領域低確度判定処理202の詳細を説明するためのフローチャートである。
図3に示したデータ不足領域判定処理103において図4に示したデータ領域低確度判定処理202を実行する場合はまず、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ401)、選択した領域群内のデータ偏差を指標値として算出する(ステップ402)。
そして、算出したデータ偏差が、所定の閾値となる一定以上であるかどうかを判断し(ステップ403)、一定以上であれば、データが低確度であることでデータ不足があると判定し(ステップ404)、一定以上でなければ、データが低確度ではないことでデータ不足がないと判定する(ステップ405)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することもできるし、統計処理に基づいた値を用いることもできる。また、データ偏差とは、選択した領域群内におけるデータのばらつきをさし、低確度とは、そのばらつきが大きなことを言う。
この判断を全てのデータ領域で行い(ステップ406)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを出力部3に出力する(ステップ407)。
図8は、図4に示したデータ領域低確度判定処理202の具体例を示す図である。
例えば図8に示すように、説明変数に対して一定の間隔毎に破線で分割された複数の領域について、データ不足があるかどうかを判定するための一定の値を、データの分散が出力範囲で5つの領域に跨ることとした場合、実線で囲まれた領域がデータ低確度と判定される。
このように、複数の領域群の領域間のデータの偏差に基づいて、データの確度が低いかどうかを判断することで、説明変数の特定の範囲でデータの確度が低いことを定量的に判断し、提示することができる。
図9は、図4に示した入出力高感度領域判定処理203の詳細を説明するためのフローチャートである。
図3に示したデータ不足領域判定処理103において図4に示した入出力高感度領域判定処理203を実行する場合はまず、データ間の傾きを求めるためにデータ間に直線を引くことでデータ間を近似補間し(ステップ501)、領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を指標値として算出する(ステップ502)。
そして、図2に示したステップ102にて分割されたデータ領域からなる領域群を選択し(ステップ503)、選択した領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合が、所定の閾値となる一定以上であるかどうかを判断し(ステップ504)、一定以上であれば、データの説明変数に対して目的変数が急激に変化する高感度であることでデータ不足があると判定し(ステップ505)、一定以上でなければ、高感度ではないことでデータ不足がないと判定する(ステップ506)。なお、データ不足があるかどうかを判定するための一定の値は、ユーザが任意に設定することや、統計処理に基づいた値を用いることもできる。また、データ間の近似補間としては、線形近似や二次近似等、あらゆる近似方法による補間を用いることができる。
そして、領域群においてデータの感度が高いと判断した場合、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにデータを取得すべき推奨領域を算定する(ステップ507)。
この判断および算定を全てのデータ領域で行い(ステップ508)、データ不足範囲算出部2は、領域群毎の判定結果と判定領域とを、算定された推奨領域とともに出力部3に出力する(ステップ509)。
図10は、図4に示した入出力高感度領域判定処理203の具体例を示す図である。
入出力高感度領域判定処理203においては、例えば図10に示すように、データの説明変数の変化量に対する目的変数の変化量の割合が、説明変数1区間分Δxに対して、目的変数4区間分Δyの変化分を大きいとする判定条件の場合、これらを跨る領域は、データの感度が高い高感度であると判定される。
高感度であると判定された場合は、その領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を、一定未満とするためにそのデータ間を埋めるべくデータ点の推奨領域が算定されることになる。
このように、領域群における説明変数に対する目的変数の入出力感度に基づいて、データの感度が高いかどうかを判断することで、説明変数の特定の範囲でデータの感度が高いことを定量的に判断し、提示することができる。また、説明変数に対して目的変数が敏感に変化する高感度の領域において、データを取得するとよい説明変数の範囲が推奨されることで、効率よくデータを追加することができる。
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によって、データ不足範囲算出部2は、複数の指標値に基づき、理由の異なる複数種類のデータの不足の有無をそれぞれ判断することになる。
図11は、図6、図8及び図10に示した例においてデータ不足がないと判定された領域を示す図である。
図6、図8及び図10に示した例における処理が行われたことにより、図11に示すように、データ不足がないと判定された領域が確定することになる。
図12は、図1に示した出力部3における処理を説明するためのフローチャートである。
図1に示した出力部3においては、データ不足範囲算出部22におけるデータ不足領域判定処理103の判定結果であるデータ量不足領域判定結果601と、データ低確度領域判定結果602と、入出力高感度領域判定結果603が入力されると、出力範囲要求部4から与えられた出力要求範囲604内の判定結果を出力し(ステップ605)、データ不足があると判定された領域の数を説明変数毎に提示し(ステップ606)、判定履歴とする(ステップ607)。
また、出力要求範囲604に応じて出力範囲を選択し(ステップ608)、領域毎にデータ不足がないと判定された説明変数があるかどうか判断し(ステップ609)、説明変数がない場合は判定結果を出力し(ステップ610)、全ての出力要求範囲内の説明変数について同様の処理を行う(ステップ611)。一方、データ不足がないと判定された説明変数がある場合は、判定結果を出力することなく、全ての出力要求範囲内の説明変数について同様の処理を行うことになる。
その後、出力要求範囲内の全ての領域でデータ不足があると判定されたものがある場合は(ステップ612)、全ての説明変数毎に、データ不足があると判定された領域と不足理由とを表示出力することで提示し(ステップ613)、データ不足があると判定されたものがない場合はそのまま終了する。また、データ不足があると判定された領域と、不足理由と、ステップ607にて判定履歴とされた、データ不足があると判定された領域の数とを記録する。
図13は、図1に示したデータ不足提示システムにおいて出力範囲要求部4から与えられた出力要求範囲を考慮した場合の出力部3における判定結果の具体例を示す図である。
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図13に示すように、そのデータの領域群毎に、出力部3において、出力要求範囲に対してデータ不足の種類が特定される。なお、本例では、特定されたデータ不足の種類が各領域群で単一となっているが、実際には、データ量不足および低確度等、複数の場合もある。
図14は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図14に示すように、出力部3においては、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけて表示する。また、データの不足の理由が高感度によるものである場合は、入出力高感度領域判定処理203にて高感度判定を解消するために算定されたデータの推奨領域を表示する。例えば、図10に示した例においては、X12〜X14の範囲にて高感度によるデータの不足があると判定されているため、X12〜X14の範囲に含まれるX12’〜X13’の狭い範囲がデータの推奨領域として表示されることになる。
このように、複数種類のデータ不足について説明変数の範囲とデータ不足の理由とが表示されることで、ユーザは、説明変数のどの範囲でどのようなデータ不足があるかを容易に知ることができる。
また、図14に示すように、出力部3は、説明変数と目的変数とをそれぞれ軸とし、説明変数の範囲と目的変数の範囲とで複数の領域に分割されたマップにデータを配置したプロット図を表示する。その際、出力部3は、プロット図においてデータの不足がある領域を他の領域と区別して表示出力するが、出力要求範囲が通知された場合は、プロット図において出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力することになる。
このように、データのプロット図にデータ不足を重畳表示するので、ユーザはデータ不足の領域をデータとともに視覚的に認識することができる。また、データのプロット図に出力要求範囲のデータ不足を重畳表示することで、ユーザは出力要求範囲のデータ不足の領域をデータとともに視覚的に認識することができる。
図15は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図15に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数となるデータ不足領域数1401を表示出力する。また、説明変数が指定された場合に、その説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1402を表示出力する。
このように、複数の説明変数についてそれらの目的変数の範囲毎のデータ不足の個数が表示されることで、各説明変数のデータ不足の様子を比較してどの説明変数のどの範囲でデータを追加するかを検討するのに利用できる。
図16は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断されると、図16に示すように、出力部3においては、複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数の履歴となるデータ不足領域数履歴1501を表示出力する。また、説明変数が指定された場合に、説明変数の領域群毎に、データ不足があると判断された範囲と、その範囲にあるデータの不足の理由とを対応づけた不足理由1502を表示出力するが、この不足理由1502には、前回行われた判定においてデータ不足であると判定され、今回の判定においてそれが解消した領域においては、前回のデータ不足の理由が取り消し線とともに表示されることになる。
このように、データに不足があると判断された領域の個数の履歴が表示されることで、前回の判定から今回の判定までにどの範囲のデータが追加されたかのデータ点の取得状況を把握することができる。
図17は、図1に示した出力部3にて表示出力される画面の一例を示す図である。
図17に示すように、上述したデータ量不足領域判定処理201、データ領域低確度判定処理202および入出力高感度領域判定処理203によってデータの領域群毎にデータ不足の有無が判断された結果、ある領域についてデータの不足がないと判定された説明変数がある場合は、他の説明変数のデータ不足領域と理由1601は提示しない。
上述したように本形態においては、データのデータ領域を複数の領域に分割し、領域毎あるいは領域群毎に指標値を算出し、指標値に基づき説明変数の範囲毎にデータの不足の有無を判断するので、データ不足となっている説明変数の値の範囲を定量的に判断し、判断結果を提示することができる。それにより、推定モデルや予測モデルを再構成する手間を削減することが可能となる。
なお、上述したようにデータ不足範囲算出部2の判断結果を出力部3にて提示するだけではなく、データ不足範囲算出部2の判断結果を、接続された外部機器に送信出力する構成とすることも考えられる。その場合、外部機器が、例えば、制御器であり、データの説明変数が制御パラメータ、目的変数が制御の安定性であれば、不安定な制御領域として、データが不足する領域での制御パラメータ設定を回避することも可能となる。
以下に、上述した一連の処理について具体的なデータの事例を用いて説明する。
例えば、エアコンの空調データと、人が感じる快適度とが紐づいたデータがあるとする。説明変数は、設定温度、エアコンからの距離、気温、湿度、これに対する目的変数を快適度とする。快適度は、例えば5段階で、1.不満、2.少し不満、3.普通、4.比較的満足、5.非常に満足、で表現されているものとする。
まず、出力部3が、図12のステップ608において、説明変数のうち、例えば設定温度を1つ選択する。
また、データ不足範囲算出部2が、図3に示したように、温度設定可能な範囲を2度毎に、快適度は1段階毎に分割する。そして、データ不足範囲算出部2は、図6に示したように設定温度を分割した範囲ごとにデータ密度が一定以上かを判定するとともに、図8に示したようにデータ偏差が一定以下かを判定する。また、データ不足範囲算出部2は、もし、設定温度が20〜22度、22〜24度の領域でデータ近似による補間をした際に、設定温度の変化に対して快適度の変化が1→4と変化が大きい場合、高感度判定とする。データ不足範囲算出部2は、他の説明変数についても、上述した、データ量不足、低確度および高感度判定の処理を同様に行う。この結果、設定温度の大きな変化分を説明できるものがない場合は、高感度と判定された領域間で、データを詳細に観察するための推奨領域を判定する。例えば、2度毎だった領域をさらに分割した領域の1度毎の領域で、22度の設定温度のデータ点を増やすように要求し、出力部3がその旨を表示出力する。また、データ補充後には、その高感度領域が解消されたかを出力部3がその旨を表示出力する。ただし、出力要求範囲が例えば快適度5とした時は、高感度領域は含まれていないため、上述した処理は行わない。
また、これらデータ不足領域の提示効果として、どの説明変数でもデータ領域が低確度判定であれば、例えば照度などの他の説明変数を新たに追加して、データ不足判定にならないかを観察することになる。なお、この観察とは、前回データとの判定結果の履歴の経過であり、不足なしの判定になる場合は新規追加した説明変数で説明可能であるということである。
1…データ、2…データ不足範囲算出部、3…出力部、4…出力範囲要求部、103…データ不足領域判定処理、201…データ量不足領域判定処理、202…データ領域低確度判定処理、203…入出力高感度領域判定処理

Claims (12)

  1. 説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示システムであって、
    説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出部と、
    前記データ不足範囲算出部の判断結果を出力する出力部と、
    を有するデータ不足提示システム。
  2. 前記データ不足範囲算出部は、前記指標値として前記領域群におけるデータの密度を算出し、前記密度が所定の閾値以下の場合に、当該領域群に対応する前記説明変数の範囲でデータ量が不足していると判断することでデータの不足があると判断する、
    請求項1に記載のデータ不足提示システム。
  3. 前記データ不足範囲算出部は、前記指標値として前記領域群における領域間のデータ量の偏差を算出し、前記偏差が所定の閾値以上の場合に、当該領域群に対応する前記説明変数の範囲でデータの確度が低いと判断することでデータの不足があると判断する、
    請求項1に記載のデータ不足提示システム。
  4. 前記データ不足範囲算出部は、前記指標値として前記領域群におけるデータの説明変数の変化量に対する目的変数の変化量の割合を算出し、前記割合が所定の閾値以上の場合に、当該領域群に対応する前記説明変数の範囲でデータの感度が高いと判断することでデータの不足があると判断する、
    請求項1に記載のデータ不足提示システム。
  5. 前記データ不足範囲算出部は、前記領域群に対応する前記説明変数の範囲でデータの感度が高いと判断した場合、前記説明変数の範囲において前記割合を前記閾値未満とするためにデータを取得すべき領域を算定し、
    前記出力部は、前記算定された領域を表示出力する、
    請求項4に記載のデータ不足提示システム。
  6. 前記データ不足範囲算出部は、複数の指標値に基づき、理由の異なる複数種類のデータの不足の有無をそれぞれ判断し、
    前記出力部は、データの不足がある説明変数の範囲と、該範囲にあるデータの不足の理由と、を対応づけて表示出力する、
    請求項1に記載のデータ不足提示システム。
  7. 前記出力部は、更に、説明変数と目的変数とをそれぞれ軸とし、説明変数の範囲と目的変数の範囲とで複数の領域に分割されたマップに前記データを配置したプロット図を表示し、前記プロット図においてデータの不足がある領域を他の領域と区別して表示出力する、
    請求項6に記載のデータ不足提示システム。
  8. 予測対象とする目的変数の範囲を出力要求範囲として受け付けて前記出力部に通知する出力範囲要求部を更に有し、
    前記出力部は、前記出力要求範囲が通知されると、前記プロット図において前記出力要求範囲に含まれかつデータの不足がある領域を他の領域と区別して表示出力する、
    請求項7に記載のデータ不足提示システム。
  9. 前記出力部は、前記説明変数が複数ある場合、該複数の説明変数のそれぞれについて、目的変数の範囲毎にデータに不足があると判断された領域の個数を表示出力する、
    請求項1に記載のデータ不足提示システム。
  10. 前記出力部は、前記データに不足があると判断された領域の個数の履歴を表示出力する、
    請求項9に記載のデータ不足提示システム。
  11. 前記出力部は、前記データ不足範囲算出部の判断結果を、表示出力するとともに、接続された外部機器に送信出力する、
    請求項1に記載のデータ不足提示システム。
  12. 説明変数から目的変数を推定するために必要なデータの不足の有無を提示するデータ不足提示方法であって、
    説明変数の値と目的変数の値との組み合わせとして与えられたデータのデータ領域を、前記説明変数の値と前記目的変数の値とで定まる複数の領域に分割し、前記分割された領域毎あるいは前記説明変数の値が所定範囲となる領域群毎に、データ不足に関連する少なくとも1つの指標値を算出し、前記指標値に基づき前記説明変数の範囲毎にデータの不足の有無を判断するデータ不足範囲算出処理と、
    前記データ不足範囲算出処理の判断結果を出力する出力処理と、
    を有するデータ不足提示方法。
JP2018089365A 2018-05-07 2018-05-07 データ不足提示システムおよびデータ不足提示方法 Active JP7065685B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018089365A JP7065685B2 (ja) 2018-05-07 2018-05-07 データ不足提示システムおよびデータ不足提示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018089365A JP7065685B2 (ja) 2018-05-07 2018-05-07 データ不足提示システムおよびデータ不足提示方法

Publications (2)

Publication Number Publication Date
JP2019197267A true JP2019197267A (ja) 2019-11-14
JP7065685B2 JP7065685B2 (ja) 2022-05-12

Family

ID=68538369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089365A Active JP7065685B2 (ja) 2018-05-07 2018-05-07 データ不足提示システムおよびデータ不足提示方法

Country Status (1)

Country Link
JP (1) JP7065685B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022011858A (ja) * 2020-06-30 2022-01-17 三菱重工業株式会社 予測モデルの学習方法、予測モデルの学習装置、及び、プラント制御システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044592A (ja) * 2009-08-21 2011-03-03 Nec Corp 信頼度判断装置、信頼度判断方法、及び信頼度判断用コンピュータプログラム
WO2011074509A1 (ja) * 2009-12-15 2011-06-23 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
JP2017211756A (ja) * 2016-05-24 2017-11-30 株式会社日立システムズ 予測不可データ判定システム及び予測不可データ判定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011044592A (ja) * 2009-08-21 2011-03-03 Nec Corp 信頼度判断装置、信頼度判断方法、及び信頼度判断用コンピュータプログラム
WO2011074509A1 (ja) * 2009-12-15 2011-06-23 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
US20120331024A1 (en) * 2009-12-15 2012-12-27 Nec Corporation Information processing device, method of processing information and storage medium
JP2017211756A (ja) * 2016-05-24 2017-11-30 株式会社日立システムズ 予測不可データ判定システム及び予測不可データ判定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022011858A (ja) * 2020-06-30 2022-01-17 三菱重工業株式会社 予測モデルの学習方法、予測モデルの学習装置、及び、プラント制御システム

Also Published As

Publication number Publication date
JP7065685B2 (ja) 2022-05-12

Similar Documents

Publication Publication Date Title
US10699248B2 (en) Inspection management system and inspection management method
Jacobs Alternative methods to examine hospital efficiency: data envelopment analysis and stochastic frontier analysis
US20160379319A1 (en) Systems and methods for measuring and verifying energy usage in a building
US10837809B2 (en) Sensor failure diagnosis device, method and program
JPWO2016181593A1 (ja) 漏水状態推定システム、方法、および記録媒体
US10627265B2 (en) Sensor assignment apparatus and sensor diagnostic apparatus
KR101587018B1 (ko) 산점도에 기반하는 데이터 품질 측정 방법
JPWO2008087968A1 (ja) 変化点検出方法および装置
JPWO2018235807A1 (ja) プロセスの異常状態診断装置および異常状態診断方法
Niessink et al. Measurements should generate value, rather than data [software metrics]
JP7446771B2 (ja) 可視化データ生成装置、可視化データ生成システム、及び可視化データ生成方法
JPWO2018073960A1 (ja) 表示方法、表示装置、および、プログラム
JP2011008756A (ja) シミュレーション評価システム
JP7065685B2 (ja) データ不足提示システムおよびデータ不足提示方法
US10883427B2 (en) Turbine analysis device, turbine analysis method, and program
CN115407728A (zh) 信息处理装置、预测方法和计算机可读存储介质
JP6849543B2 (ja) 不良要因分析システム及び不良要因分析方法
TW202125136A (zh) 分析系統
US10642923B2 (en) Graphs with normalized actual value measurements and baseline bands representative of normalized measurement ranges
CN105892443B (zh) 用于监控控制回路的运行的诊断装置和方法
US9336616B2 (en) Power transmission network state visualization
KR101615346B1 (ko) 반도체 제조 공정에서의 이상 감지 방법, 장치 및 기록매체
US11372399B2 (en) System section data management device and method thereof
US20210049417A1 (en) Learning processing device, data analysis device, analytical procedure selection method, and recording medium
JP7532707B2 (ja) 予測装置および予測方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220426

R150 Certificate of patent or registration of utility model

Ref document number: 7065685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150