JP6568488B2 - 計算機及び分析指標の算出方法 - Google Patents

計算機及び分析指標の算出方法 Download PDF

Info

Publication number
JP6568488B2
JP6568488B2 JP2016032067A JP2016032067A JP6568488B2 JP 6568488 B2 JP6568488 B2 JP 6568488B2 JP 2016032067 A JP2016032067 A JP 2016032067A JP 2016032067 A JP2016032067 A JP 2016032067A JP 6568488 B2 JP6568488 B2 JP 6568488B2
Authority
JP
Japan
Prior art keywords
value
prediction
group
predicted
actual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016032067A
Other languages
English (en)
Other versions
JP2017151614A (ja
Inventor
ヨウ ショウ
ヨウ ショウ
信二 垂水
信二 垂水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016032067A priority Critical patent/JP6568488B2/ja
Publication of JP2017151614A publication Critical patent/JP2017151614A/ja
Application granted granted Critical
Publication of JP6568488B2 publication Critical patent/JP6568488B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、予測精度を分析する技術に関する。
近年、様々な分野において、過去データを用いた機械学習によって生成された予測モデルに基づく事象の予測が行われている。ここで、過去データは、任意の時刻に観測、集計、又は記録された項目群から構成されるレコード等のデータ群を示す。
予測モデルを用いてある観測対象について任意の事象を予測する場合、使用する予測モデルの精度が高いことを保証する必要がある。したがって、予測モデルの精度を分析する技術が求められる。予測モデルの精度を分析する方法として、例えば、特許文献1に記載されている技術が知られている。
特許文献1には、「予測指標計算装置の単回帰式計算部は、過去データとして記録された商品の出荷に係る複数の実績値と各実績値に対応する予測値とについて単回帰式を計算する。予測指標計算装置の予測精度計算部は、この単回帰式で表される単回帰直線y=axの傾きaと、過去データを当該複数の実績値と各実績値に対応する予測値とを両軸とするグラフ上にプロットした場合の当該グラフ上の点(X,Y)を、それぞれ原点と結んだ直線の傾きとの差異に基づいて、予測精度を計算する。具体的には、単回帰直線y=axと、点(X,Y)をそれぞれ原点と結んだ直線とがなす角θについて、cosθを点(X,Y)ごとに計算する。そして、cosθの平均値を予測精度として計算する。」ことが記載されている。
ここで、本明細書の用語について説明する。
観測対象に対して予測したい事象に対応する項目を予測項目と記載する。なお、予測項目が取りうる値が「0」及び「1」のような二値の場合、予測事象とも記載する。例えば、病気の発症率及び機器の故障率等が予測事象に該当する。予測項目と相関関係がある項目を相関項目と記載する。過去データに基づく予測とは、任意の期間のレコード群を用いて予測項目と観測項目との間の関連性を示す規則(予測モデル)を抽出し、当該規則を用いてある時刻の観測項目の値から予測項目の値を算出することを示す。予測モデルに基づいて算出される予測項目の値を予測値と記載する。また、実際に観測された予測項目の値を実値と記載する。また、実値と予測値との間の誤差を予測誤差と記載する。以上が本明細書の用語の説明である。
特開2009−245032号公報
従来、予測値がどの程度実値に近い値かを示す指標が、予測精度を分析する指標として用いられる。以下の説明では、予測精度を分析する指標を分析指標とも記載する。従来の分析指標は、各レコードの予測誤差の二乗の平均値、又はその平均値の平方根等として与えられる。前述した分析指標は値が小さいほど予測モデルの予測精度が高いことを示す。
観測項目群と予測項目との間の相関性が低く、観測項目群に反映されていない他の要因の影響を大きく受ける予測項目の場合、予測値と実値との差が大きくなる。すなわち、実値と実値の期待値との差が大きくなる。なぜならば、予測モデルは、実値の期待値に近くなるように生成されるためである。
前述のような場合、従来の分析指標は値が非常に大きくなるため、予測精度の分析には適さない指標である。
各レコードについて実値の期待値と予測値とを比較すれば、予測モデルの予測精度を分析できるが、実値の期待値は一つの観測対象の値だけからは算出できないため、このような分析方法は困難である。
本発明は、予測モデルの予測精度を適切に分析できる指標を算出する装置及び方法を提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、観測対象の予測項目の予測値を算出するための予測モデルの予測精度を分析する計算機であって、前記計算機は、演算装置、前記演算装置に接続されるメモリ、及び前記演算装置に接続されるインタフェースを備え、前記計算機は、前記観測対象の予測項目の前記予測値及び前記観測対象の予測項目の実値から構成される複数のレコードを格納するデータベースを管理し、前記観測対象の予測項目の前記実値は、任意の事象が発生するか否かを示す値であり、前記演算装置は、前記予測値の大きい順又は前記予測値の小さい順に前記データベースに格納される複数のレコードをソートし、ソート結果を前記メモリに格納し、前記演算装置は、前記ソート結果に基づいて、任意の数の前記レコードを含むグループを複数生成し、前記グループを管理するためのグループ情報を前記メモリに格納し、前記演算装置は、前記グループに含まれる前記複数のレコードの前記実値及び前記予測値に基づいて、前記グループの前記実値の統計量及び前記予測値の統計量を算出し、前記複数のグループの各々の前記実値の統計量及び前記予測値の統計量を含む統計情報を前記メモリに格納し、前記演算装置は、前記統計情報に基づいて、前記複数のグループの各々の予測誤差を算出し、前記複数のグループの各々の前記予測誤差を前記メモリに格納し、前記演算装置は、前記ソート結果に基づいて、前記予測値の累積値及び前記実値の累積値に関する累積情報を生成し、前記生成された累積情報を前記メモリに格納し、前記演算装置は、前記累積情報を参照して、前記予測値の累積値の増加量又は前記実値の累積値の増加量のいずれかが所定の閾値より大きいグループを選択し、前記演算装置は、前記選択されたグループの前記予測誤差から算出される統計量に基づいて、前記予測モデルの予測精度を分析するための分析指標を算出し、前記分析指標を前記メモリに格納することを特徴とする。
本発明によれば、観測項目群と予測項目との間の相関性が低い場合でも、予測モデルの予測精度を分析できる指標を算出することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機が実行する処理の一例を説明するフローチャートである。 実施例1の累積グラフを示す説明図である。 実施例1の計算機システムの構成の一例を示すブロック図である。 実施例1の個別情報記憶部に格納される個別情報の一例を示す説明図である。 実施例1のグループ情報記憶部に格納されるグループ情報の一例を示す説明図である。 実施例1のグループ情報記憶部に格納されるグループ統計情報の一例を示す説明図である。 実施例1の予測精度分析グラフの一例を示す説明図である。 実施例1の分析指標情報の一例を示す説明図である。 実施例1の累積グラフの一例を示す説明図である。
まず、本発明の概要について説明する。ここでは、予測項目の予測値及び実値を含むレコードを格納するデータベースを想定する。また、実値はある事象が発生するか否かを示す二値であるものとする。すなわち、実値は、事象が発生したことを示す「1」及び事象が発生しないことを示す「0」のいずれかの値となる。この場合、予測値は「0」から「1」の間の値となる。
本発明は、実値が予測値にどの程度近いかを分析することによって予測モデルの予測精度を分析する。すなわち、予測モデルに基づく予測値は正しいものと仮定し、予測値及び実値の誤差等を分析する。しかし、各レコードについて予測値と実値との間の誤差を算出しても、意味のある分析ができない。そこで、本発明の計算機300(図3参照)は、以下のような処理を実行する。
計算機300は、レコードを予測値の大きさに基づいてソートする。具体的には、計算機300は、予測値の大きい順にレコードをソートする。計算機300は、各レコードの予測値及び実値を用いて予測誤差を算出する。計算機300は、ソート結果に基づいて対象とするレコード群を選択し、また、選択されたレコード群の予測誤差に基づいて、分析指標を算出する。
なお、計算機300は、レコード群を選択した後、選択されたレコード群の予測値の統計値及び実値の統計値を算出し、当該統計量に基づいて予測誤差を算出してもよい。
レコードの選択方法は目的に応じて様々考えられる。例えば、予測モデルの予測精度を分析するためには、事象が発生しやすいレコード群について予測精度を分析すればよい。そこで、計算機300は、ソート結果に基づいて、予測値の累積値及び実値の累積値を示す累積グラフ(累積情報)を生成する。
ここで、累積グラフについて説明する。図2は、実施例1の累積グラフ200を示す説明図である。
横軸は、レコードに付与されたソート番号を示す。縦軸は、累積値を示す。予測値の累積値は、例えば、各レコードの予測値を合計することによって算出できる。また、実値の累積値は、各レコードの実値を合計することによって算出できる。例えば、ソート番号が「100」の予測値の累積値は、ソート番号が「1」から「100」までの各レコードの予測値を合計することによって算出される。
予測値が大きいレコードは、実値が「1」である確率が高い。そのため、累積値は急激に増加する。一方、予測値が小さいレコードは、実値が「1」である確率が低い。そのため、累積値は緩やかに増加する。したがって、累積グラフ200は、図2に示すような曲線となる。
なお、予測値の小さい順にレコードがソートされた場合、累積値のグラフは、図2に示すグラフとは形は異なるが、前述の累積値の増加量の特性を示すグラフとなる。
予測精度が高い予測モデルの場合、予測値が所定の閾値より大きいレコード群の予測値の累積値と実値の累積値との間の差は、小さくなる。すなわち、実値が予測値に近いことを示す。一方、予測値が所定の閾値以下のレコード群の予測値の累積値と実値の累積値との間の差は、単調増加する。なぜならば、予測値と実値との間の差は大きくなるためである。
前述したように、ソート結果に基づく予測の累積値及び実値の累積値は、予測モデルの予測精度に関連する数値であることが分かる。また、予測値が所定の閾値以下のレコード群の統計量は、予測精度の分析に適さないことが分かる。そこで、予測値が所定の閾値より大きいレコード群について予測精度の分析を行えばよい。これによって、予測精度の分析におけるランダム要因を排除することができる。
そこで、計算機300は、分析対象のレコード群を選択し、分析対象のレコード群の予測値の統計量及び実値の統計量の差等を分析指標として算出する。
予測モデルの予測精度をより正確に分析するためには、予測値と実値の期待値との差等を分析する必要があるためである。しかし、一般的に、実値の期待値は不明である。また、各レコードの値からは実値の期待値を算出することができない。
予測値が類似するレコードは、実値の期待値も類似すると推定される。そこで、計算機300は、レコードがソートされた後、予測値が類似する複数のレコードをグループ化する。これによって、計算機300は、グループに含まれる複数のレコードの実値の分布から実値の期待値に相当する統計量を算出できる。また、計算機300は、各グループの実値の期待値の相当する統計量及び予測値の統計量を算出する。計算機300は、実値の期待値の相当する統計量及び予測値の統計量に基づいて、予測誤差を算出する。計算機300は、予測誤差に基づいて分析指標を算出する。
従来の分析指標は、全レコードの予測誤差等から算出されるものであるため、全レコードの予測値を上下することによってコントロールできる。本実施例では、予測精度の分析に適したグループについて予測精度を算出できる。
なお、前述した処理では、事象が発生しやすいレコード群について分析指標を算出していたが、本発明はこれに限定されない。例えば、事象が発生しにくいレコード群について分析指標を算出してもよい。当該レコード群は、図2のグラフを用いて選択することができる。また、ユーザが指定した特定のグループについて分析指標を算出してもよい。したがって、目的に応じた予測精度の分析が可能となる。
実施例1では、計算機300は、予測項目の予測値及び実値から構成されるレコードを予測値に基づいてソートし、ソート結果に基づいて所定数のレコードから構成されるグループを生成する。計算機300は、グループごとに、予測値の平均値及び実値の平均値を算出し、予測値の平均値と実値の平均値との差をグループの予測誤差として算出する。計算機300は、算出結果に基づいて、予測精度分析グラフを生成し、また、分析指標を算出する。
図3は、実施例1の計算機システムの構成の一例を示すブロック図である。
計算機システムは、計算機300及び記憶装置301から構成される。
計算機300は、任意の予測項目の予測モデルの予測精度を分析する。本実施例の計算機300は、演算装置310、メモリ311、入力装置312、出力装置313、及び記憶媒体314を備える。各構成は、内部バス等を介して互いに接続される。
演算装置310は、メモリ311に格納されるプログラムを実行する演算装置であり、例えば、CPU及びGPU等がある。以下の説明では、機能部を主語として処理及び機能を説明する場合、演算装置310によって当該機能部を実現するプログラムが実行されていることを示す。メモリ311は、演算装置310によって実行されるプログラム及び当該プログラムによって使用される情報を格納する。メモリ311は、揮発性のメモリ及び不揮発性のメモリのいずれであってもよい。
入力装置312は、計算機300に各種情報を入力するための装置であり、例えば、キーボード、マウス、及びタッチパネル等が含まれる。出力装置313は、計算機300が実行した処理結果を出力する装置であり、例えば、ディスプレイ等が含まれる。
記憶媒体314は、計算機300が有する各種機能を実現するプログラム等を格納する。本実施例では、演算装置310が、記憶媒体314からプログラムを読み出し、読み出されたプログラムをメモリ311上にロードし、さらに、ロードされたプログラムを実行する。本実施例の記憶媒体314に格納されるプログラム等については後述する。
なお、記憶媒体314に格納されるプログラムは、CD−ROM及びフラッシュメモリ等のリムーバブルメディア又はネットワークを介して接続される配信サーバから取得する方法が考えられる。リムーバブルメディアからプログラムを取得する場合、計算機300は、リムーバブルメディアに接続されるインタフェースを備える。
記憶装置301は、計算機300が管理する各種データを格納する。記憶装置301は、一般的な計算機及びストレージシステム等が考えられる。なお、ストレージシステムは、コントローラ、外部インタフェース、及び複数の記憶媒体を備え、複数の記憶媒体を用いてRAIDを構成することができる。また、ストレージシステムは、RAIDボリュームを用いて複数の論理的な記憶領域を提供することもできる。
記憶装置301上にはデータベースが構築され、当該データベースには、個別情報記憶部351、グループ情報記憶部352、及び分析結果記憶部353が含まれる。
個別情報記憶部351は、観測対象(人、装置等)の各種情報を保持するレコード等の情報を記憶する。レコードには、観測項目の値が含まれる。個別情報記憶部351に記憶される情報の詳細は、図4を用いて説明する。
グループ情報記憶部352は、複数の観測対象の情報から生成されたグループに関する情報を記憶する。グループ情報記憶部352に記憶される情報の詳細は、図5を用いて説明する。
分析結果記憶部353は、予測モデルの予測精度の分析結果に関する情報を記憶する。分析結果記憶部353に記憶される情報の詳細は、図6、図7、及び図8を用いて説明する。
ここで、記憶媒体314に格納されるプログラムについて説明する。
記憶媒体314は、レコード管理部320、統計量算出部330、及び予測精度分析部340を実現するプログラムを格納する。
レコード管理部320は、個別情報記憶部351に記憶されるレコードを管理する。また、レコード管理部320は、当該レコードのソート及びレコードのグループ化を行う。レコード管理部320は、複数のモジュールから構成される。本実施例のレコード管理部320は、レコードソート部321及びグループ生成部322を含む。
レコードソート部321は、予測値の大きさに基づいて複数のレコードをソートする。レコードソート部321は、レコードのソート時に、各レコードにソート番号を付与する。レコードソート部321は、処理の結果を個別情報記憶部351に記憶する。グループ生成部322は、レコードのソート結果に基づいて、所定の数のレコードを含むグループを複数生成する。グループ生成部322は、生成されたグループの情報をグループ情報記憶部352に記憶する。
統計量算出部330は、グループ毎に、各種統計量を算出する。算出される統計量は、予測値の平均値及び実値の平均値、又は、予測値の累積値及び実値の累積値等が考えられる。なお、本発明は、算出される統計量の種別に限定されない。統計量算出部330は、複数のモジュールから構成される。本実施例の統計量算出部330は、グループ統計量算出部331及び予測誤差算出部332を含む。
グループ統計量算出部331は、グループ情報記憶部352に記憶される情報に基づいて、グループ毎に、予測値の統計量及び実値の統計量を算出する。グループ統計量算出部331は、算出された予測値の統計量及び実値の統計量をグループ情報記憶部352に記憶する。予測誤差算出部332は、予測値の統計量及び実値の統計量に基づいて、グループ毎の予測誤差を算出する。予測誤差算出部332は、グループ毎の予測誤差をグループ情報記憶部352に記憶する。
予測精度分析部340は、統計量算出部330によって算出された各グループの統計量に基づいて、予測モデルの予測精度を分析する。予測精度分析部340は、複数のモジュールから構成される。本実施例の予測精度分析部340は、予測精度分析グラフ生成部341及び予測精度分析指標算出部342を含む。
予測精度分析グラフ生成部341は、グループ情報記憶部352に記憶される統計量に基づいて、予測精度分析グラフ700(図7参照)を生成する。予測精度分析グラフ生成部341は、予測精度分析ブラフを分析結果記憶部353に記憶する。予測精度分析指標算出部342は、グループ情報記憶部352に記憶される統計量及び予測精度分析グラフ700に基づいて、分析指標を算出する。予測精度分析指標算出部342は、分析指標を分析結果記憶部353に記憶する。
図4は、実施例1の個別情報記憶部351に格納される個別情報400の一例を示す説明図である。
個別情報400は、観測対象に対応するレコードを複数含む。レコードは、ID401、予測値402、及び実値403から構成される。以下の説明では、個別情報400に含まれるレコードを個別レコードとも記載する。
ID401は、観測対象、すなわち、レコードを一意に識別するための識別情報である。本実施例のID401には、識別番号が格納される。予測値402は、予測モデルに基づいて算出された予測項目の値である。実値403は、予測事象の観測結果を示す値である。
ここで、糖尿病の発症を管理する情報を例に、予測値402及び実値403について説明する。
この場合、一つのレコードは、一人の健診者のデータに対応する。ID401が「00001」のレコードの場合、予測値402は「0.32」であり、実値403は「0」である。これは、健診者の糖尿病発症率の予測値が「0.32」であり、発症実績は「0」であることを示す。本実施例では、糖尿病を発症した場合、実値403には「1」が格納され、糖尿病を発症していない場合、実値403には「0」が格納される。すなわち、ID401が「00001」の健診者は、糖尿病を発症していないことを示す。
図5は、実施例1のグループ情報記憶部352に格納されるグループ情報500の一例を示す説明図である。
グループ情報500は、観測対象に対応するレコードを複数含む。レコードは、ID501、グループ番号502、及びソート番号503から構成される。
ID501は、ID401と同一のものである。グループ番号502は、グループ生成部322によって付与されたグループの識別番号である。ソート番号503は、レコードソート部321によって付与されたソート順を示す番号である。
本実施例では、予測値が大きさに基づいて「1」から順にソート番号が各レコードに付与される。また、レコードは、ソート番号503が小さい順にソートされる。
ID501が「00001」のレコードの場合、ソート番号503は「2」である。これは、個別情報400に含まれるレコードのうち、予測値402の値が2番目に大きいレコードであることを示す。また、当該レコードのグループ番号502は「1」である。これは、グループ番号が「1」のグループに含まれるレコードであることを示す。
図6は、実施例1のグループ情報記憶部352に格納されるグループ統計情報600の一例を示す説明図である。
グループ統計情報600は、グループに対応するレコードを複数含む。レコードは、グループ番号601、予測値の平均値602、実値の平均値603、及び予測誤差604から構成される。
グループ番号601は、グループ番号502と同一のものである。予測値の平均値602は、グループに含まれる個別レコードの予測値402の平均値である。実値の平均値603は、グループに含まれる個別レコードの実値403の平均値である。予測誤差604は、グループ毎の、予測値の平均値と実値の平均値との間の誤差を示す値である。
実値の平均値603は、グループに含まれる個別レコードの実値の分布から算出される値であり、実値の期待値に相当する統計量である。本実施例では、計算機300は、実値の平均値603及び予測値の平均値602を用いて予測誤差を算出する。
本実施例では、統計量算出部330は、予測値の平均値602から実値の平均値603を減算することによって第1の値を算出する。さらに、統計量算出部330は、第1の値を予測値の平均値602で除算することによって第2の値を算出する。統計量算出部330は、第2の値に100を乗算することによって第3の値を算出する。統計量算出部330は、第3の値を予測誤差604に格納する。
なお、計算機300は、図4、図5、及び図6を一つの情報として保持してもよい。すなわち、図4、図5、及び図6に示すようなカラムを管理できるものであればよい。
図7は、実施例1の予測精度分析グラフ700の一例を示す説明図である。図8は、実施例1の分析指標情報800の一例を示す説明図である。
後述するように、予測精度分析グラフ700及び分析指標情報800は、予測精度分析部340によって生成される。
予測精度分析グラフ700は、予測モデルの予測精度の分析指標を算出時に用いるグラフである。図7の予測精度分析グラフ700では、縦軸が各グループの予測誤差を示し、横軸がグループの番号を示す。なお、予測値の平均値602又は実値の平均値603を横軸としてもよい。予測精度分析グラフ700は、分析の目的に応じて適宜変更することができる。
図7では、予測精度分析グラフ700は、各グループの予測誤差をプロットしたグラフであるが、各グループの予測誤差の変化傾向を示す曲線であってもよい。
分析指標情報800は、予測誤差の平均値801及び予測誤差の分散802を含む。予測誤差の平均値801は、各グループの予測誤差から算出された予測誤差の平均値である。予測誤差の分散802は、各グループの予測誤差から算出された予測誤差の分散である。
なお、分析指標情報800には、予測誤差の平均値及び予測誤差の分散以外の統計量が含まれてもよい。
次に、計算機300が実行する処理の詳細について説明する。
図1は、実施例1の計算機300が実行する処理の一例を説明するフローチャートである。
計算機300は、予測値の大きさに基づいて、個別情報400の個別レコードのソート処理を実行する(ステップS101)。
具体的には、レコード管理部320のレコードソート部321が、予測値402の値が大きい順に個別情報400の個別レコードにソート番号を付与し、当該ソート番号に基づいて個別レコードをソートする。レコードソート部321は、ソート結果に基づいて、グループ情報500のソート番号503にソート番号を格納する。なお、個別レコードをソートする規則は、前述したものに限定されない。例えば、予測値402の値が小さい順に個別情報400のレコードをソートする方法が考えられる。
次に、計算機300は、個別情報400の個別レコードのソート結果に基づいて、複数のレコードから複数のグループを生成する(ステップS102)。
具体的には、レコード管理部320のグループ生成部322が、個別情報400の予測値402及びグループ情報500のソート番号503の少なくとも何れかに基づいて、グループを生成する。このとき、グループ生成部322は、生成された各グループにグループ番号を付与する。また、グループ生成部322は、各レコードのグループ番号502に、各レコードが所属するグループのグループ番号を設定する。グループの生成方法は、例えば、以下のような方法が考えられる。
(生成方法1)グループ生成部322は、ソート番号503の大きい順又は小さい順に100個のレコードを選択し、当該100個のレコードを一つのグループとして生成する。
生成方法1の場合、各グループに含まれるレコードの数は全て同一であるため、グループに含まれる全てのレコードの実値の期待値が一致している場合、実値の平均値と実値の期待値との差は、大数の法則により、任意の閾値以下にできる。ただし、前述の条件を満たす可能性は少ないため、実値の平均値と実値の期待値との間には、誤差が生じる。
(生成方法2)グループ生成部322は、予測値の範囲を決定し、当該予測値の範囲にグループ番号を付与する。グループ生成部322は、各個別レコードの予測値がどの範囲に含まれるか分類することによって、各グループに含める個別レコードを決定する。
例えば、各レコードの予測値を、0.5から0.4の範囲、0.4から0.3の範囲、0.3から0.2の範囲、0.2から0.1の範囲、及び0.1か0.0の範囲の四つの範囲に区切る。グループ生成部322は、各個別レコードを予測値の範囲毎に分類する。
生成方法2の場合、実値の平均値と実値の期待値との間の誤差を抑止できる。ただし、グループに所属するレコードの数は、グループ毎に異なる。
なお、生成方法1及び生成方法2を組み合わせてもよい。以上がステップS102の処理の説明である。
次に、計算機300は、各グループの予測値の統計量及び実値の統計量を算出する(ステップS103)。
具体的には、統計量算出部330のグループ統計量算出部331は、グループを選択する。グループ統計量算出部331は、グループ情報500及び個別情報400を参照し、選択されたグループに含まれる個別レコードの予測値402及び実値403に基づいて、予測値の統計量及び実値の統計量を算出する。グループ統計量算出部331は、グループ統計情報600の該当するレコードに算出された統計量を設定する。
本実施例では、グループ統計量算出部331は、予測値402の平均値及び実値403の平均値をグループの統計量として算出するものとする。算出された値は、予測値の平均値602及び実値の平均値603に格納される。
なお、グループ統計量算出部331は、予測値402の累積値及び実値403の累積値、又は、予測値402の分散及び実値403の分散をグループの統計量として算出してもよい。
次に、計算機300は、各グループの予測値の統計量及び実値の統計量に基づいて、各グループの予測誤差を算出する(ステップS104)。
具体的には、統計量算出部330の予測誤差算出部332は、グループを選択する。予測誤差算出部332は、グループ統計情報600を参照し、選択されたグループに対応するレコードの予測値の平均値602及び実値の平均値603に基づいて、当該グループの予測誤差を算出する。
予測誤算の算出方法は、以下のような方法が考えられる。
(算出方法1)予測誤差算出部332は、予測値の平均値602と実値の平均値603との間の差を算出する。なお、平均値の差は、予測値の平均値602から実値の平均値603が減算された値の絶対値から求めることができる。予測誤差算出部332は、算出された平均値の差を予測値の平均値602で除算した値を予測誤差とする。
算出方法1で算出された予測誤差は、予測値が与えられた場合に、実値がどの程度予測値に近いかを示す値である。予測値が実値より相対的に安定している場合、算出方法1で算出された予測誤差も相対的に安定する。したがって、予測モデルの予測精度を分析に適した値として用いることができる。
(算出方法2)予測誤差算出部332は、予測値の平均値602と実値の平均値603との間の差を算出する。予測誤差算出部332は、算出された平均値の差を実値の平均値603で除算した値を予測誤差とする。
算出方法2で算出された予測誤差は、実値が与えられた場合に、予測値がどの程度実値に近いかを示す値である。実値が予測値より相対的に安定している場合、算出方法2で算出された予測誤差も相対的に安定する。したがって、予測モデルの予測精度を分析に適した値として用いることができる。
なお、実値はランダムな場合が多いため、実値が予測値より相対的に安定している場合は少ない。以上がステップS104の処理の説明である。
次に、計算機300は、グループ統計情報600に基づいて、予測精度分析グラフ700を生成する(ステップS105)。
具体的には、予測精度分析部340の予測精度分析グラフ生成部341は、予測誤差604を縦軸に設定し、グループ番号601を横軸に設定することによって、図6に示すような予測精度分析グラフ700を生成する。なお、予測値の平均値602又は実値の平均値603が横軸に設定されてもよい。どのカラムを横軸に設定するかは分析目的に応じて適宜変更できる。
次に、計算機300は、グループ統計情報600に基づいて、予測精度の分析に用いるグループを選択する(ステップS106)。
具体的には、予測精度分析部340の予測精度分析指標算出部342は、グループ統計情報600及び分析目的に基づいて、グループを選択する。グループの選択方法は、例えば以下のような方法が考えられる。
(選択方法1)予測精度分析指標算出部342は、グループ番号601に基づいて、所定の数のグループを選択する。例えば、予測精度分析指標算出部342は、グループ番号601が閾値より大きいグループを5つ選択し、又は、グループ番号601が閾値より小さいグループを3つ選択する。
(選択方法2)予測精度分析指標算出部342は、予測値の平均値602に基づいて、所定の数のグループを選択する。例えば、予測精度分析指標算出部342は、予測値の平均値602が0.7より大きいグループを5つ選択し、又は、予測値の平均値602が0.2より小さいグループを2つ選択する。
(選択方法3)予測精度分析指標算出部342は、実値の平均値603に基づいて、所定の数のグループを選択する。例えば、予測精度分析指標算出部342は、実値の平均値603が0.7より大きいグループを5つ選択し、又は、実値の平均値603が0.2より小さいグループを2つ選択する。
(選択方法4)予測精度分析指標算出部342は、予測誤差504に基づいて、所定の数のグループを選択する。例えば、予測精度分析指標算出部342は、予測誤差504が20%より大きいグループを7つ選択し、又は、予測誤差504が10%より小さいグループを5つ選択する。
(選択方法5)予測精度分析指標算出部342は、個別情報400及びグループ情報500を参照して、縦軸が予測値402、横軸がグループ番号502である累積グラフ900を生成する。予測精度分析指標算出部342は、予測値の累積値の増加量又は実値の累積値の増加量が所定の閾値より大きいグループを特定する。予測精度分析指標算出部342は、特定されたグループを予測精度の分析に用いるグループとして選択する。
図9は、実施例1の累積グラフ900の一例を示す説明図である。
グループ番号が「5」の累積値は、グループ番号が「1」から「5」までの各グループの予測値の平均値302を合計値である。なお、縦軸は、予測値402以外の統計量であってもよい。
本実施例では、予測値402が大きい順に個別情報400のレコードがソートされ、また、当該ソートの結果に基づいてグループが生成される。したがって、グループ番号が小さいグループほど、予測値402の平均値が大きい。これは、予測値402の平均値が大きいグループの実値の分布は非一様な分布であることを示す。すなわち、実値の真の値(期待値)が予測できることを示す。一方、実値の分布が一様な分布の場合、実値はランダムであり、実値の真の値を予測できない。
実値の分布の非一様性は、累積グラフ900の累積値の変化量としてとらえることができる。分布が非一様な実値の場合、累積値は急激に増加する。すなわち、累積値の変化量が大きい。分布が一様な実値の場合、累積値は緩やかに増加する。すなわち、累積値の変化量は一定となる。
前述したような特徴は、累積グラフ900からも把握できる。グループ番号502が小さいグループの累積値の変化量は曲線となる。一方、グループ番号502が大きいグループの累積値の変化量は直線となる。
選択方法5では、前述したような特徴に基づいてグループが選択される。具体的には、予測精度分析指標算出部342は、累積グラフ900を用いて累積値の変化量が一定値となるグループを特定する。さらに、予測精度分析指標算出部342は、最初のグループから特定されたグループまでを選択する。図9に示す例では、グループ番号が「1」から「10」までのグループが選択される。
選択方法5では、予測精度が高い部分を適切に抽出することができる。すなわち、事象が発生する可能性がある部分を特定できる。なお、選択方法5の変形例として、計算機300は、予測精度が低い部分も同様に抽出することができる。
従来の予測精度の指標は、観測対象全体の予測値を上下することによって、コントロールできる。そのため、特定の観測対象の予測精度を分析できない。しかし、本発明では、選択方法に応じて特定の観測対象の予測精度を分析できる。
前述した選択方法は一例であって、本発明はこれに限定されない。目的に応じてグループを選択すればよい。
次に、計算機300は、グループ統計情報600に基づいて、分析指標を算出する(ステップS107)。
具体的には、予測精度分析部340の予測精度分析指標算出部342は、予測精度分析グラフ700を参照し、選択されたグループの予測誤差の平均値及び予測誤差の分散を分析指標として算出する。予測精度分析指標算出部342は、分析指標情報800の予測誤差の平均値801及び予測誤差の分散802のそれぞれに算出された値を格納する。
なお、実施例1では、グループ毎に予測値の統計量及び実値の統計量が算出されているが、本発明はこれに限定されない。例えば、レコード単位で同様の処理が実行されてもよい。この場合、ステップS102の処理は省略される。また、計算機300は、レコードがソートされた後、各レコードの予測値及び実値に基づいて、予測誤差を算出する。計算機300は、予測精度分析グラフ700を生成する。また、計算機300は、ソート結果に基づいて、対象のレコード群を選択し、選択されたレコード群の予測誤差の統計量を算出する。また、計算機300は、予測誤差の統計量に基づいて、分析指標を算出する。例えば、予測誤差の統計量をそのまま分析指標として算出する方法が考えられる。
以上のように実施例1によれば、計算機300は、予測値の大きさに基づいてレコードをソートし、ソート結果に基づいてレコード又はグループを選択することによって、特定の分析目的の応じた分析指標を算出できる。また、グループの予測値の統計量及び実値の統計量に基づいて、予測値と実値の期待値との差に対応する値を算出できる。これによって、予測精度を正確に分析するための分析指標を算出できる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるCPUが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(Javaは登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるCPUが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
300 計算機
301 記憶装置
310 演算装置
311 メモリ
312 入力装置
313 出力装置
314 記憶媒体
320 レコード管理部
321 レコードソート部
322 グループ生成部
330 統計量算出部
331 グループ統計量算出部
332 予測誤差算出部
340 予測精度分析部
341 予測精度分析グラフ生成部
342 予測精度分析指標算出部
351 個別情報記憶部
352 グループ情報記憶部
353 分析結果記憶部
400 個別情報
500 グループ情報
600 グループ統計情報
700 予測精度分析グラフ
800 分析指標情報
900 累積グラフ

Claims (6)

  1. 観測対象の予測項目の予測値を算出するための予測モデルの予測精度を分析する計算機であって、
    前記計算機は、演算装置、前記演算装置に接続されるメモリ、及び前記演算装置に接続されるインタフェースを備え、
    前記計算機は、前記観測対象の予測項目の前記予測値及び前記観測対象の予測項目の実値から構成される複数のレコードを格納するデータベースを管理し、
    前記観測対象の予測項目の前記実値は、任意の事象が発生するか否かを示す値であり、
    前記演算装置は、前記予測値の大きい順又は前記予測値の小さい順に前記データベースに格納される複数のレコードをソートし、ソート結果を前記メモリに格納し、
    前記演算装置は、前記ソート結果に基づいて、任意の数の前記レコードを含むグループを複数生成し、前記グループを管理するためのグループ情報を前記メモリに格納し、
    前記演算装置は、前記グループに含まれる前記複数のレコードの前記実値及び前記予測値に基づいて、前記グループの前記実値の統計量及び前記予測値の統計量を算出し、前記複数のグループの各々の前記実値の統計量及び前記予測値の統計量を含む統計情報を前記メモリに格納し、
    前記演算装置は、前記統計情報に基づいて、前記複数のグループの各々の予測誤差を算出し、前記複数のグループの各々の前記予測誤差を前記メモリに格納し、
    前記演算装置は、前記ソート結果に基づいて、前記予測値の累積値及び前記実値の累積値に関する累積情報を生成し、前記生成された累積情報を前記メモリに格納し、
    前記演算装置は、前記累積情報を参照して、前記予測値の累積値の増加量又は前記実値の累積値の増加量のいずれかが所定の閾値より大きいグループを選択し、
    前記演算装置は、前記選択されたグループの前記予測誤差に基づいて、前記予測モデルの予測精度を分析するための分析指標を算出し、前記分析指標を前記メモリに格納することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    前記演算装置は、前記選択されたグループの前記予測誤差に基づいて、前記予測誤差の平均値及び前記予測誤差の分散の少なくとも何れかを前記分析指標として算出することを特徴とする計算機。
  3. 請求項1に記載の計算機であって、
    前記演算装置は、前記予測値の範囲を決定し、
    前記演算装置は、前記予測値の範囲に基づいて、前記レコードを分類することによって前記複数のグループを生成することを特徴とする計算機。
  4. 観測対象の予測項目の予測値を算出するための予測モデルの予測精度を分析する計算機が実行する分析指標の算出方法であって、
    前記計算機は、演算装置、前記演算装置に接続されるメモリ、及び前記演算装置に接続されるインタフェースを備え、
    前記計算機は、前記観測対象の予測項目の前記予測値及び前記観測対象の予測項目の実値から構成される複数のレコードを格納するデータベースを管理し、
    前記観測対象の予測項目の前記実値は、任意の事象が発生するか否かを示す値であり、
    前記分析指標の算出方法は、
    前記演算装置が、前記予測値の大きい順又は前記予測値の小さい順に前記データベースに格納される複数のレコードをソートし、ソート結果を前記メモリに格納する第1のステップと、
    前記演算装置が、前記ソート結果に基づいて、任意の数の前記レコードを含むグループを複数生成し、前記グループを管理するためのグループ情報を前記メモリに格納する第2のステップと、
    前記演算装置が、前記グループに含まれる前記複数のレコードの前記実値及び前記予測値に基づいて、前記グループの前記実値の統計量及び前記予測値の統計量を算出し、前記複数のグループの各々の前記実値の統計量及び前記予測値の統計量を含む統計情報を前記メモリに格納する第3のステップと、
    前記演算装置が、前記統計情報に基づいて、前記複数のグループの各々の予測誤差を算出し、前記複数のグループの各々の前記予測誤差を前記メモリに格納する第4のステップと、
    前記演算装置が、前記ソート結果に基づいて、前記予測値の累積値及び前記実値の累積値に関する累積情報を生成し、前記生成された累積情報を前記メモリに格納する第5のステップと、
    前記演算装置が、前記累積情報を参照して、前記予測値の累積値の増加量又は前記実値の累積値の増加量のいずれかが所定の閾値より大きいグループを選択する第6のステップと、
    前記演算装置が、前記選択されたグループの前記予測誤差に基づいて、前記予測モデルの予測精度を分析するための分析指標を算出し、前記分析指標を前記メモリに格納する第7のステップと、を含むことを特徴とする分析指標の算出方法。
  5. 請求項4に記載の分析指標の算出方法であって、
    前記第7のステップは、前記演算装置が、前記選択されたグループの各々の前記予測誤差に基づいて、前記予測誤差の平均値及び前記予測誤差の分散の少なくとも何れかを前記分析指標として算出するステップを含むことを特徴とする分析指標の算出方法。
  6. 請求項4に記載の分析指標の算出方法であって、
    前記第2のステップは、
    前記演算装置が、前記予測値の範囲を決定するステップと、
    前記演算装置が、前記予測値の範囲に基づいて、前記レコードを分類することによって前記複数のグループを生成するステップと、を含むことを特徴とする分析指標の算出方法。
JP2016032067A 2016-02-23 2016-02-23 計算機及び分析指標の算出方法 Expired - Fee Related JP6568488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032067A JP6568488B2 (ja) 2016-02-23 2016-02-23 計算機及び分析指標の算出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032067A JP6568488B2 (ja) 2016-02-23 2016-02-23 計算機及び分析指標の算出方法

Publications (2)

Publication Number Publication Date
JP2017151614A JP2017151614A (ja) 2017-08-31
JP6568488B2 true JP6568488B2 (ja) 2019-08-28

Family

ID=59739092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032067A Expired - Fee Related JP6568488B2 (ja) 2016-02-23 2016-02-23 計算機及び分析指標の算出方法

Country Status (1)

Country Link
JP (1) JP6568488B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210356920A1 (en) * 2018-10-26 2021-11-18 Sony Corporation Information processing apparatus, information processing method, and program
WO2020149073A1 (ja) * 2019-01-18 2020-07-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3668642B2 (ja) * 1999-06-30 2005-07-06 キヤノンシステムソリューションズ株式会社 データ予測方法、データ予測装置及び記録媒体
JP4339769B2 (ja) * 2004-09-17 2009-10-07 キヤノンItソリューションズ株式会社 予測モデル選択装置及び予測モデル選択方法並びにプログラム
JP2006259809A (ja) * 2005-03-15 2006-09-28 Ntt Data Corp 発症確率評価装置、および、プログラム

Also Published As

Publication number Publication date
JP2017151614A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
KR102208210B1 (ko) 동적 특이치 바이어스 감소 시스템 및 방법
CN111459778B (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
CN109634801B (zh) 数据趋势分析方法、系统、计算机装置及可读存储介质
CN108829638B (zh) 一种业务数据波动处理方法及装置
CN107613022B (zh) 内容推送方法、装置及计算机设备
US11308418B2 (en) Automatic selection of variables for a machine-learning model
KR102024953B1 (ko) 동적 특이치 바이어스 감소 시스템 및 방법
US20150379110A1 (en) Automated methods and systems for calculating hard thresholds
US8578023B2 (en) Computer resource utilization modeling for multiple workloads
CN104520806A (zh) 用于云监控的异常检测
CN108292380B (zh) 要因分析装置、要因分析方法以及记录介质
JP2018147280A (ja) データ分析装置及びデータ分析方法
CN112149737A (zh) 选择模型训练方法、模型选择方法、装置及电子设备
JP6568488B2 (ja) 計算機及び分析指標の算出方法
JP5966836B2 (ja) 評価支援方法、情報処理装置、及びプログラム
Jiang et al. An investigation on the variation of software development productivity
JP6566049B2 (ja) 電力需要値算出システム、電力需要値算出方法および電力需要値算出プログラム
JP6159056B2 (ja) 選択プログラム、選択方法及び選択装置
US10867249B1 (en) Method for deriving variable importance on case level for predictive modeling techniques
US20220092470A1 (en) Runtime estimation for machine learning data processing pipeline
US10643161B2 (en) Regulating application task development
JP6511333B2 (ja) 意思決定支援システム及び意思決定支援方法
US20180253677A1 (en) Method for Performing Dynamic Data Analytics
US11762562B2 (en) Performance analysis apparatus and performance analysis method
US10503766B2 (en) Retain data above threshold

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190802

R150 Certificate of patent or registration of utility model

Ref document number: 6568488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees