JP6352165B2

JP6352165B2 - 評価結果表示方法、評価結果表示装置及び評価結果表示プログラム

Info

Publication number: JP6352165B2
Application number: JP2014243108A
Authority: JP
Inventors: 英生梅谷; 郁大濱; 亮太藤村
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-04-04
Filing date: 2014-12-01
Publication date: 2018-07-04
Anticipated expiration: 2034-12-01
Also published as: US20150286692A1; US11093517B2; JP2015201166A

Description

本発明は、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示方法、評価結果表示装置及び評価結果表示プログラムに関する。

近年、ネットワーク化が進み、様々なデータが、ネットワークを介して、様々な機器から収集され蓄積されるようになった。収集されるデータは、例えば、ＷＥＢサイトのアクセス情報である。また、収集されるデータは、例えば、顧客の購買履歴、顧客の年齢及び顧客の性別などの情報である。また、コンピュータの高性能化などにより、収集された莫大なデータが分析され、各顧客の購買予測又は広告の閲覧予測などが行われるようになってきた。これに伴い、分析を行った後の予測結果の評価方法が重要になってきた。

現在知られている予測結果の評価方法として、ＲＯＣ曲線が提案されている（例えば、非特許文献１参照）。非特許文献１では、予測結果と実際の正解のデータとに基づいて、Ｔｒｕｅ−Ｐｏｓｉｔｉｖｅ−ｒａｔｅ（ある事象が起こると予測して、実際に起こっていた率：ＴＰ率）及びＦａｌｓｅ−Ｐｏｓｉｔｉｖｅ−ｒａｔｅ（ある事象が起こると予測して、実際には起こっていなかった率：ＦＰ率）を算出し、縦軸にＴＰ率を表し横軸にＦＰ率を表すＲＯＣ曲線を用いて、予測結果の良さを評価する方法が開示されている。

ＡｎｔｈｏｎｙＫＡｋｏｂｅｎｇ、"Ｕｎｄｅｒｓｔａｎｄｉｎｇｄｉａｇｎｏｓｔｉｃｔｅｓｔｓ３：ｒｅｃｅｉｖｅｒｏｐｅｒａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅｓ"、ＡｃｔａＰａｅｄｉａｔｒｉｃａ、２００７年（ｐｐ．６４４−６４７）

しかしながら、従来の方法では、偏りの大きいデータに対して、カットオフ値を定めるのが難しいという課題を有していた。つまり、有用なカットオフ値を求めるには、データを全て確認して、順番にＴＰ率及びＦＰ率の両方を算出する必要があり、多くのメモリ容量が必要になる。

本発明は、前記従来の課題を解決するもので、メモリ使用量を削減することができるとともに、容易に予測結果を評価することができる評価結果表示方法、評価結果表示装置及び評価結果表示プログラムを提供することを目的とする。

本発明の一態様に係る評価結果表示方法は、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示方法であって、前記予測モデルによって予測された予測値と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得ステップと、前記予測値に基づいて、前記複数のレコードを並べ替える並べ替えステップと、前記並べ替えステップにおいて並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算ステップと、前記計算ステップにおいて出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成ステップと、前記生成ステップにおいて生成された前記グラフを表示する表示ステップと、を含む。

本発明によれば、メモリ使用量を削減することができるとともに、容易に予測結果を評価することができる。

本発明の実施の形態１に係る評価結果表示方法を実施するシステムの全体構成を示す図である。本発明の実施の形態１の変形例に係る評価結果表示方法を実施するシステムの全体の構成を示す図である。本発明の実施の形態１に係る評価結果表示方法を実施する情報処理装置のハードウェア構成の一例を示す図である。本発明の実施の形態１に係る入力データの一例を示す図である。本発明の実施の形態１に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。本発明の実施の形態１の変形例に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。本発明の実施の形態１に係る評価結果表示方法で出力する表示結果の一例を示す図である。本発明の実施の形態１に係る評価結果表示方法の処理の流れを示すフローチャートである。本発明の実施の形態１に係る計算部における総抽出数と正解数とを計算する処理の一例を示すフローチャートである。本発明の実施の形態１に係る計算部における総抽出数と正解数とを計算する処理の第１の変形例を示すフローチャートである。本発明の実施の形態１に係る計算部における総抽出数と正解数とを計算する処理の第２の変形例を示すフローチャートである。本発明の実施の形態２に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。本発明の実施の形態２に係る評価結果表示方法によって描画されたグラフ及び面積比の一例を示す図である。本発明の実施の形態２に係る評価結果表示方法の処理の流れを示すフローチャートである。本発明の実施の形態３に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。本発明の実施の形態３に係る評価結果表示方法によって描画されたグラフ及び最適値の一例を示す図である。本発明の実施の形態３に係る評価結果表示方法の処理の流れを示すフローチャートである。

（本発明の基礎となった知見）
本発明者らは、上述の評価方法に関し、以下の問題が生じることを見出した。

従来の方法は、適切なカットオフ値を設定し、実際の結果に対するＴＰ率及びＦＰ率を計算し、ＴＰ率及びＦＰ率をグラフに表示する方法である。グラフの下側の面積が広いと、その値を用いた予測が有用であると判断できる。

しかしながら、従来の方法では、評価結果を表示する際、カットオフ値を適切に選ぶ必要がある。特に、データの偏りが大きい場合には、適切なカットオフ値を定めることが難しい。例えば、データを順番に全て確認し、カットオフ値を定める方法が考えられる。この場合、全てのデータの選び方に対してＴＰ率及びＦＰ率の両方を算出し、算出した両方の値を記憶しなければならず、メモリ使用量が大幅に増加する。

このような問題を解決するために、本発明の一態様に係る評価結果表示方法は、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示方法であって、前記予測モデルによって予測された予測値と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得ステップと、前記予測値に基づいて、前記複数のレコードを並べ替える並べ替えステップと、前記並べ替えステップにおいて並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算ステップと、前記計算ステップにおいて出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成ステップと、前記生成ステップにおいて生成された前記グラフを表示する表示ステップと、を含む。

本態様に係る評価結果表示方法は、抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本態様に係る評価結果表示方法は、特に、偏りが大きいデータに対する予測結果の評価において、メモリ使用量を削減することができるとともに、処理時間を短縮することができる。

より具体的には、抽出数及び正解数のみをメモリ領域に格納するだけでよく、不正解数の算出は不要になるため、メモリ使用量を削減することができる。すなわち、従来の評価結果表示方法では、抽出数、正解数及び不正解数の３つのパラメータをメモリに記憶する必要があったが、本態様における評価結果表示方法では、抽出数及び正解数の２つのパラメータをメモリに記憶するだけでよく、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、前記予測値は、前記複数のグループのうちの前記正解とするグループに属している確率を示す予測確率を含んでもよく、前記並べ替えステップは、前記予測確率が高い順番又は前記予測確率が低い順番に前記複数のレコードを並べ替えてもよい。

この構成によれば、予測確率が高い順番又は予測確率が低い順番に複数のレコードが並べ替えることができる。

また、前記生成ステップは、前記座標系上に、前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線を描画してもよい。

この構成によれば、抽出数が０でありかつ正解数が０である点と、抽出数が最大値でありかつ正解数が最大値である点とを結んだ直線は、データを無作為に抽出した時の抽出数及び正解数を意味している。そのため、データを無作為に抽出した時の抽出数及び正解数を示すグラフを、予測モデルに対する評価結果を示すグラフとともに表示させることができ、２つのグラフを比較することができる。

また、前記計算ステップは、予め決められた所定の数ずつ前記レコードを抽出し、抽出した前記所定の数のレコードの抽出数と、抽出した前記所定の数のレコードの正解数とを計算してもよい。

この構成によれば、予め決められた所定の数ずつレコードが抽出され、抽出された所定の数のレコードの抽出数と、抽出された所定の数のレコードの正解数とが計算されるので、計算処理に要する時間を短縮することができる。

また、前記計算ステップは、前記並べ替えステップにおいて並べ替えられた複数のレコードのうち、前記予測値が同じである前記レコードを並べ変えられた順番で全て抽出し、抽出した前記予測値が同じレコードの抽出数と、抽出した前記予測値が同じレコードの正解数とを計算してもよい。

この構成によれば、並べ替えられた複数のレコードのうち、予測値が同じであるレコードを並べ変えられた順番で全て抽出され、抽出された予測値が同じレコードの抽出数と、抽出された予測値が同じレコードの正解数とが計算されるので、さらにメモリ容量を削減することができる。

また、前記生成ステップにおいて生成された前記グラフの下側の面積と、前記抽出数の最大値と前記正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した前記面積比の値を出力する面積計算ステップをさらに含んでもよい。

この構成によれば、評価結果のグラフを表示するために計算した抽出数及び正解数を用いて、グラフの下側の面積と、抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した面積比を、客観的に予測モデルを評価する指標として使用することができる。面積比が大きい予測モデルは、面積比が小さい予測モデルと比べて、良い予測モデルであると評価することができる。面積比という数値が比較されるため、予測モデルを客観的に評価することが可能となる。

また、前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線の傾きと、生成した前記グラフの傾きとが一致する前記グラフ上の点における前記抽出数を最適値として、前記計算ステップにおいて出力された前記抽出数及び前記正解数を用いて計算し、計算した前記最適値を出力する最適値計算ステップをさらに含んでもよい。

この構成によれば、評価結果のグラフを表示するために計算した抽出数及び正解数を用いて、実際の結果との一致率が最大になる抽出数を最適値として計算することができる。抽出数及び正解数を用いることで、最適値の計算に使用するメモリ容量を削減することができる。この最適値を用いることで、最も正解率が高くなる予測モデルを特定することが可能となる。

また、本発明の他の態様に係る評価結果表示装置は、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示装置であって、前記予測モデルによって予測された予測値と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得部と、前記取得部によって取得された前記複数のレコードを記憶する記憶部と、前記記憶部に記憶された前記複数のレコードを読み出し、前記予測値に基づいて、読み出した前記複数のレコードを並べ替える並べ替え部と、前記並べ替え部によって並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算部と、前記計算部によって出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成部と、前記生成部によって生成された前記グラフを出力する出力部と、を備える。

本態様に係る評価結果表示装置は、抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本態様に係る評価結果表示装置は、特に、偏りが大きいデータに対する予測結果の評価において、メモリ使用量を削減することができるとともに、処理時間を短縮することができる。

また、本発明の他の態様に係る評価結果表示プログラムは、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示プログラムであって、前記予測モデルによって予測された予測値と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得部と、前記取得部によって取得された前記複数のレコードを記憶する記憶部と、前記記憶部に記憶された前記複数のレコードを読み出し、前記予測値に基づいて、読み出した前記複数のレコードを並べ替える並べ替え部と、前記並べ替え部によって並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算部と、前記計算部によって出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成部と、前記生成部によって生成された前記グラフを出力する出力部としてコンピュータを機能させる。

本態様に係る評価結果表示プログラムは、抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本態様に係る評価結果表示プログラムは、特に、偏りが大きいデータに対する予測結果の評価において、メモリ使用量を削減することができるとともに、処理時間を短縮することができる。

なお、これらの全般的または具体的な態様は、装置、システム、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭ等の記憶媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラムおよび記憶媒体の任意な組み合わせで実現されてもよい。

（実施の形態１）
以下、本発明の実施の形態に係る評価結果表示方法、評価結果表示装置、及び評価結果表示方法を実施するためのシステムについて、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置、構成要素の接続形態、ステップ、及びステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

１．１システムの全体構成
図１は、本発明の実施の形態１に係る評価結果表示方法を実施するためのシステム全体の構成を示す図である。図１は、評価結果表示方法を実施するためのシステムが１つの装置である場合を示す。評価結果表示装置１００は、入力部１１０と処理部１２０と表示部１３０とを備えている。

評価結果表示装置１００は、例えば、サーバ、パーソナルコンピュータ、スマートフォン、フィーチャーフォン、又はタブレット型コンピュータなどで構成され、計算機能を有する情報処理装置である。

入力部１１０は、例えば、パーソナルコンピュータのキーボード又はタブレット型コンピュータのタッチパネルなどで構成され、ユーザからの入力を受け付ける。

処理部１２０は、例えば、パーソナルコンピュータに内蔵されている計算機又はメモリで構成される。

表示部１３０は、例えば、パーソナルコンピュータのモニタ又はタブレット型コンピュータのディスプレイなどの表示パネルで構成される。

図２は、本発明の実施の形態１の変形例に係る評価結果表示方法を実施するためのシステム全体の構成を示す図である。図２に示すシステムは、入力部１１０と処理部１２０と表示部１３０とがそれぞれ別の機器として独立している例である。

処理装置３００は、ネットワーク５００を介して、入力装置２００及び表示装置４００に接続している。処理装置３００は、ネットワーク５００を介して、入力装置２００の入力部１１０により入力された情報を受け取る。処理装置３００は、受け取った情報を処理して予測に対する評価結果を生成する。処理装置３００は、ネットワーク５００を介して、表示装置４００の表示部１３０に評価結果を送信する。表示装置４００の表示部１３０は、評価結果を表示する。

入力装置２００は、例えば、パーソナルコンピュータ、スマートフォン、フィーチャーフォン又はタブレット型コンピュータなどで構成され、入力機能を有し、ネットワーク５００に接続可能な機器である。

処理装置３００は、例えば、サーバ、パーソナルコンピュータ、スマートフォン、フィーチャーフォン又はタブレット型コンピュータなどで構成され、計算機能を有する情報処理装置である。

表示装置４００は、例えば、ディスプレイ、スマートフォン、フィーチャーフォン又はタブレット型コンピュータなどで構成され、表示機能を有し、ネットワーク５００に接続可能な機器である。

ネットワーク５００は、イーサネット（登録商標）等の有線ネットワーク、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等の無線ネットワーク、公衆網、または、これらのネットワークが組み合わされたネットワーク等である。公衆網とは、電気通信事業者が、不特定多数の利用者の通信のために提供している通信回線のことであり、例えば、一般電話回線またはＩＳＤＮ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ）などが挙げられる。

ここでは、入力装置２００、処理装置３００及び表示装置４００がそれぞれ別の機器である例を説明したが、本開示は特にこれに限定されず、入力装置２００、処理装置３００及び表示装置４００のうちの１つが他の２つと別の機器に分かれている、すなわち入力装置２００、処理装置３００及び表示装置４００が２つの機器に分かれていてもよい。また、図２では、それぞれの機器はネットワーク５００で接続されている例で説明したが、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）又はＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ケーブルなど有線接続でもよい。

以降の実施の形態１の説明では、図１の例で説明を行い、評価結果表示方法を実施するためのシステムが１つの装置であるとして説明する。また、実施の形態１では、ユーザがある広告を閲覧するかどうかを予測する予測モデルを評価するための評価結果表示方法を例として説明する。

１．２ハードウェア構成
図３は、本発明の実施の形態１に係る評価結果表示方法を実施する情報処理装置のハードウェア構成の一例を示す図である。

情報処理装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理部）１０、メモリ装置２０、ハードディスク装置２５、読取書込装置３２、入力装置４０、表示装置４５を備えている。これらの装置は、バスライン５０を通じて互いに接続されている。ハードディスク装置２５、読取書込装置３２、入力装置４０及び表示装置４５は、それぞれ、インタフェース（Ｉ／Ｆ）２６、３５、４１及び４６を通じてバスライン５０に接続される。また、情報処理装置は、インタフェース３０を介して、ネットワーク５００に接続する。

ＣＰＵ１０は、単一のＣＰＵで構成されてもよく、複数のＣＰＵで構成されてもよい。図２は、情報処理装置が単一のＣＰＵ１０を有する例を示している。

メモリ装置２０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２を備えている。ＲＯＭ２１は、ＣＰＵ１０の動作を規定するコンピュータプログラム及びデータを記憶している。コンピュータプログラム及びデータは、ハードディスク装置２５に記憶させることもできる。ＣＰＵ１０は、ＲＯＭ２１又はハードディスク装置２５が格納するコンピュータプログラム及びデータを、必要に応じてＲＡＭ２２に書き込みつつ、コンピュータプログラムが規定する処理を実行する。ＲＡＭ２２は、ＣＰＵ１０が処理を実行するのに伴って発生するデータを一時的に記憶する媒体としても機能する。メモリ装置２０は、フラッシュメモリなど、書き込みが可能で、電源を切っても記憶内容を保持できる不揮発性のメモリを含んでいる。

ハードディスク装置２５は、コンピュータプログラム及び評価対象の入力データを記録保持する。この評価対象の入力データは、各顧客の購買予測又は広告の閲覧予測などを行うために収集されたデータであり、例えば、ＷＥＢサイトのアクセス情報、顧客の購買履歴、顧客の年齢、及び顧客の性別などの情報である。なお、この評価対象の入力データは、ＲＡＭ２２（不揮発性メモリ）に記録してもよい。

読取書込装置３２は、可搬型記録媒体３１（例えば、ＳＤメモリカード、ＣＤ、ＢＤ又はメモリカードなど）からデータを読み取るとともに、可搬型記録媒体３１にデータを書き込む。収集した入力データは、可搬型記録媒体３１を介して取得されてもよい。

入力装置４０は、例えば、タッチパネル、入力ボタン、操作キー、キーボード又はマウスで構成され、ユーザからの入力を受け付け、操作入力信号として出力する。また、入力装置４０は、無線で接続していてもよく、この場合、バスライン５０とは直結していないことになる。また、入力装置４０は、センサ装置で構成されてもよく、ユーザからの非接触な操作（ジェスチャ又は音声など）で入力を受け付けてもよい。入力装置４０は、図１の入力部１１０に相当する。

表示装置４５は、ユーザに通知する表示データを表示する。表示装置４５は、例えば、ＬＣＤ（ＬｉｇｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ；液晶表示器）で構成される。表示装置４５は、図１の表示部１３０に相当する。

以上のように、情報処理装置は、コンピュータで構成されている。上記コンピュータプログラムは、ＲＯＭ２１、ハードディスク装置２５、不図示のフレキシブルディスク、又は可搬型記録媒体３１を通じて供給することも、ネットワーク５００等の伝送媒体を通じて供給することも可能である。例えば、可搬型記録媒体３１に記録されたコンピュータプログラムは、読取書込装置３２が情報処理装置に接続されることで、読み出すことができる。また、情報処理装置は、読み出したコンピュータプログラムを、ＲＡＭ２２又はハードディスク装置２５に格納することができる。

プログラム記録媒体としてＲＯＭ２１からコンピュータプログラムが供給される場合には、当該ＲＯＭ２１を情報処理装置に搭載することにより、ＣＰＵ１０は上記コンピュータプログラムに従った処理を実行可能となる。ネットワーク５００等の伝送媒体を通じて供給されるコンピュータプログラムは、インタフェース３０を通じて受信され、例えば、ＲＡＭ２２又はハードディスク装置２５に格納される。伝送媒体は、有線の伝送媒体に限られず、無線の伝送媒体であってもよい。

なお、図３では、情報処理装置は、入力装置４０及び表示装置４５を備えているが、情報処理装置は、通信ポートだけを備え、入力装置４０又は表示装置４５を備えない構成でもよい。この場合、入力装置４０又は表示装置４５は、情報処理装置に外付けされる。例えば、入力装置４０は、図２の入力装置２００に相当する。表示装置４５は、図２の表示装置４００に相当する。評価結果表示装置は、メモリ装置２０を用いてＣＰＵ１０で動作するプログラムが、予測と実際の結果とを処理して、予測モデルに対する評価結果を生成し、表示装置４５に出力する。

１．３入力データ
図４は、本発明の実施の形態１に係る入力データの一例を示す図である。入力データは、予測モデルに対する評価結果を表示するための元となるデータである。ここでの予測モデルは、ユーザがある広告を閲覧するかどうかを予測する。

入力データの一つの行は、一人のユーザに関する情報を示すデータ（レコード）である。各レコードは、各ユーザの年齢、性別、対象広告の閲覧の有無（実際の結果）、及び予測モデルによる閲覧確率（予測確率）を含んでいる。入力データは、複数のレコードの集合である。図４に示す例は、複数のユーザに対する予測結果（対象広告の閲覧の有無の予測）を示すデータであり、各ユーザに対して、「閲覧する」と「閲覧しない」の二つのグループのどちらに属するかを予測した結果と、実際の閲覧結果と、各人の属性（年齢及び性別など）とを対応付けたデータである。

予測モデルは、例えば、ロジスティック回帰分析、線形回帰分析、ニューラルネットワーク、サポートベクターマシン又は決定木などを用いて、入力されたデータに対する予測結果を出力する。例えば、予測モデルは、ユーザの年齢又は性別から、対象広告の閲覧確率を算出し、閲覧確率を予測結果として出力する。

一般的に予測モデルの良し悪しの評価には、評価の指標となる項目と、実際の結果とが使用される。

評価の指標となる項目は、年齢又は性別などの入力データに含まれる様々な項目でもよいし、入力データに含まれる複数のデータから算出された値であってもよい。複数の項目から算出された値とは、例えば、ロジスティック回帰分析、線形回帰分析、ニューラルネットワーク、サポートベクターマシン又は決定木など、様々な分析を用いて、年齢又は性別などの各種の項目から算出された値のことである。評価の指標となる項目として、この複数のデータから算出された値を、予測モデルによる閲覧確率（予測確率）として、以降は説明を行う。

実際の結果は、広告の閲覧の有無を表す値である。実際にユーザが対象広告を閲覧した場合は、実際の結果は「１」で表され、実際にユーザが対象広告を閲覧していない場合は、実際の結果は「０」で表される。各レコードは、対象広告を閲覧したというグループと、対象広告を閲覧していないというグループとの二つのグループのどちらに属するかを示す値を含む。各レコードは、各ユーザが実際に属するグループを示す値を含む。

なお、図４に示す入力データの項目、値及び形式は、あくまでも一例であり、これに限定されるものではない。以降、入力データに関する記載は、図４に示す値を用いて説明する。

なお、本実施の形態１において、予測モデルは、ユーザがある広告を閲覧するかどうかを予測する。評価結果表示装置は、広告の閲覧予測だけでなく、顧客が対象物品を購買するか否かを予測する予測モデル又はユーザが病気を発症するか否かを予測する予測モデルなど様々な分野での予測モデルの評価に使用することが可能である。

また、ここでの予測モデルは、実際にユーザが対象広告を閲覧したグループと、実際にユーザが対象広告を閲覧していないグループとの、二つのグループのどちらに属するかを予測している。しかしながら、評価結果表示装置は、二つのグループだけでなく、三つ以上のグループに対して、複数の対象のそれぞれがどのグループに属するかを予測する予測モデルを評価してもよい。

１．４評価結果表示方法を実施する装置の構成
図５は、本発明の実施の形態１に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。図５では、評価結果表示方法を実施するためのシステムが１つの装置である場合を示す。

評価結果表示装置１００は、入力部１１０、処理部１２０及び表示部１３０を備えている。

処理部１２０は、取得部１２１、記憶部１２２、並べ替え部１２３、計算部１２４及び描画部１２５を備えている。

入力部１１０は、ユーザからの入力操作を受け付け、操作指示を取得部１２１に通知する。また、入力部１１０は、評価結果を表示するための元となる入力データを取得部１２１へ送信する。元となる入力データとは、例えば、図４に示した入力データである。入力部１１０は、例えば、図３に示した入力装置４０に相当する。また、図３に示した可搬型記録媒体３１を介して、読取書込装置３２が、元となる入力データを読み取ってもよい。

記憶部１２２は、例えば、不揮発性メモリ又は揮発性メモリであり、データを記憶できる領域を含む。記憶部１２２は、例えば、図３に示したメモリ装置２０又はハードディスク装置２５に相当する。

取得部１２１は、入力部１１０から送信された入力データを受信して、記憶部１２２に格納する。また、取得部１２１は、入力部１１０から通知された操作指示を受け取り、並べ替え部１２３に、処理の開始を指示する。取得部１２１は、予測モデルによって予測された予測値と、複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する。記憶部１２２は、取得部１２１によって取得された複数のレコードを記憶する。

並べ替え部１２３は、取得部１２１から指示を受け取り、処理を開始する。並べ替え部１２３は、記憶部１２２に格納された入力データ（複数のレコードの集合）を読み出す。並べ替え部１２３は、読み出した複数のレコードを、評価の指標となる項目、ここでは予測モデルによる閲覧確率（予測確率）の値に基づいて、昇順又は降順に並べ替えて、並べ替えた複数のレコードを記憶部１２２に記憶する。なお、昇順とは、数値が低い順であり、降順とは、数値が高い順である。以降、複数のレコードは降順（数値が高い順に並べ替えること）に並べ替えることとして説明する。

並べ替え部１２３は、記憶部１２２に記憶された複数のレコードを読み出し、予測値に基づいて、読み出した複数のレコードを並べ替える。本実施の形態において、予測値は、複数のグループのうちの正解とするグループに属している確率を示す予測確率を含む。並べ替え部１２３は、予測確率が高い順番又は予測確率が低い順番に複数のレコードを並べ替える。

なお、評価の指標となる項目は、入力部１１０を用いて、ユーザが指定することで、決定されてもよい。この場合、並べ替え部１２３は、取得部１２１を介して、入力部１１０が受け付けたユーザが指定した評価の指標となる項目を受け取る。ユーザは、入力データに含まれる特定の項目を選択する。また、ユーザは、入力データに含まれる複数のデータから、評価の指標となる項目を算出するための式を入力する。

また、入力データが予め決められたルールに従って生成されることで、並べ替え部１２３は、入力データに含まれる特定の項目を、評価の指標となる項目として指定することができる。予め決められたルールとは、例えば、レコードの先頭の項目又は最後の項目など、順番を指定する。また、予め決められたルールとは、例えば、入力データに含まれる指標フラグを用いて、特定の項目を指定する。並べ替え部１２３は、予め決められたルールに従って生成された入力データから、評価の指標となる項目を決定してもよい。

計算部１２４は、抽出したレコードの数と、実際に抽出したレコードの中で、実際の結果が「１」（広告を閲覧した）であったレコードの数とを計算し、それらを対応付けて記憶部１２２に記憶する。計算部１２４は、並べ替え部１２３によって並べ替えられた複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出したレコードの数を示す抽出数と、抽出したレコードに含まれるグループ情報が複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、抽出数と正解数とを対応付けて出力する。

具体的には、計算部１２４は、並べ替え部１２３によって並べ替えられたデータ（複数のレコードの集合）に対し、次の手順を繰り返す。まず、計算部１２４は、記憶部１２２から、並べ替えられたデータ（複数のレコードの集合）の先頭から順に１レコードずつ抽出する。次に、計算部１２４は、今までに抽出したレコードの総数（抽出したレコードの個数の合計。以降、総抽出数と呼ぶ）を１増加して更新する。次に、計算部１２４は、抽出したレコードの実際の結果、ここでは広告の閲覧の有無が「１」（広告を閲覧した）であるか否かを判定する。計算部１２４は、抽出したレコードに含まれる実際の結果が「１」である場合に、今までに抽出したレコードの中で広告の閲覧の有無が「１」であるレコードの総数（実際の結果が「１」であるレコードの個数の合計。以降、正解数と呼ぶ）を１増加して更新する。計算部１２４は、総抽出数と正解数とを対応付けて、記憶部１２２に記憶する。計算部１２４は、降順に並べ替えられた複数のレコードの先頭から順に、すべてのレコードに対してこれらの処理を繰り返す。

なお、レコードの抽出及び記憶の方法は、上記だけに限らない。例えば、計算部１２４は、１０個ずつ等間隔にレコードを抽出して、総抽出数及び正解数を計算し、計算した総抽出数と正解数とを対応付けて記憶部１２２に記憶してもよい。すなわち、計算部１２４は、予め決められた所定の数ずつレコードを抽出し、抽出した所定の数のレコードの抽出数と、抽出した所定の数のレコードの正解数とを計算してもよい。

また、計算部１２４は、予測モデルによる閲覧確率が同じであるレコードをまとめて抽出して、総抽出数及び正解数を計算し、計算した総抽出数と正解数とを対応付けて記憶部１２２に記憶してもよい。すなわち、計算部１２４は、並べ替え部１２３によって並べ替えられた複数のレコードのうち、予測値が同じであるレコードを並べ変えられた順番で全て抽出し、抽出した予測値が同じレコードの抽出数と、抽出した予測値が同じレコードの正解数とを計算してもよい。

描画部１２５は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、縦軸（Ｙ軸）を正解数とし、横軸（Ｘ軸）を総抽出数としたグラフを生成する。描画部１２５は、計算部１２４によって出力された抽出数及び正解数を、横軸を抽出数とし縦軸を正解数とする座標系上に描画したグラフを生成する。描画部１２５は、生成したグラフの描画データを表示部１３０に送信する。グラフは、座標値（総抽出数、正解数）の点を示す点グラフの形状で表してもよい。また、グラフは、近接する座標値（総抽出数、正解数）の点同士を繋いて補完し、線グラフの形状で表してもよい。

さらに、描画部１２５は、グラフの正解数が０でありかつ総抽出数が０である原点（０、０）と、正解数が最大値でありかつ総抽出数が最大値である点、すなわち全てのデータを抽出した時の値とを結んだ直線を、座標系上に重ねて描画してもよい。この直線は、データを無作為に抽出した時の総抽出数及び正解数を意味している。

表示部１３０は、描画部１２５によって生成されたグラフの描画データを受信し、表示する。表示部１３０は、描画部１２５によって生成されたグラフを表示する。

図６は、本発明の実施の形態１の変形例に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。図６では、評価結果表示方法を実施するためのシステムが複数の装置で構成される場合の一例を示す。図６の各構成要素は、図５で説明した各構成要素と同じであるので、説明は省略する。

１．５評価結果表示方法で出力する表示結果
図７は、本発明の実施の形態１に係る評価結果表示方法で出力する表示結果の一例を示す図である。

図７は、本発明の実施の形態１に係る評価結果表示方法によって描画されたグラフの一例を示す図である。表示部１３０は、図７に示すグラフ１１を表示する。グラフ１１は、計算部１２４によって計算された正解数と総抽出数とを、縦軸（Ｙ軸）が正解数であり横軸（Ｘ軸）が総抽出数である座標系上に描画したグラフである。なお、表示部１３０は、縦軸と横軸との比率が１：１となるように調整する。また、表示部１３０は、原点（０、０）と、総抽出数が最大値であり正解数が最大値である点とを結んだ直線１２を表示する。直線１２は、入力データを無作為に抽出した時の総抽出数及び正解数を表す直線である。計算部１２４によって計算された正解数と総抽出数との関係を示すグラフ１１が、真ん中の入力データを無作為に抽出した時の総抽出数及び正解数を表す直線１２よりも、より上にある程、良い予測モデルであることを示している。

なお、表示部１３０は、総抽出数が最大値であり正解数が最大値である点とを結んだ直線１２を表示しなくてもよい。

１．６評価結果表示方法
次に、図８を参照しながら、評価結果表示方法について説明する。

図８は、本発明の実施の形態１に係る評価結果表示方法の処理の流れを示すフローチャートである。

まず、取得部１２１は、評価結果を表示するための元となる入力データを取得する（ステップＳ１）。入力部１１０は、評価結果を表示するための元となる入力データを受け取り、受け取った入力データを取得部１２１へ送信する。取得部１２１は、入力部１１０から送信された入力データを受信して、記憶部１２２に格納する。

次に、並べ替え部１２３は、評価の指標となる項目を決定する（ステップＳ２）。このとき、入力部１１０は、ユーザからの操作を受け付け、受け付けた操作指示を取得部１２１に通知する。取得部１２１は、入力部１１０から通知された操作指示を受け取り、並べ替え部１２３に処理の開始を通知する。

次に、並べ替え部１２３は、記憶部１２２に格納された入力データ（複数のレコードの集合）を読み出し、読み出した複数のレコードを、評価の指標となる項目に基づいて、並べ替える（ステップＳ３）。ここで、評価の指標となる項目は、予測モデルによって予測された閲覧確率（予測確率）の値である。並べ替え部１２３は、閲覧確率が高い順に複数のレコードを並べ替える。並べ替え部１２３は、並べ替えた複数のレコードを記憶部１２２に記憶する。

次に、計算部１２４は、並べ替え部１２３によって並べ替えられた複数のレコードの集合に対し、先頭から順にレコードを読み出し、総抽出数と正解数とを計算する（ステップＳ４）。計算部１２４は、計算した総抽出数と正解数とを対応付けて記憶部１２２へ格納する。なお、ステップＳ４における、総抽出数と正解数とを計算する処理については、図を用いて後で詳細に説明する。

次に、描画部１２５は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、読み出した総抽出数及び正解数を、縦軸（Ｙ軸）を正解数とし横軸（Ｘ軸）を総抽出数とした座標系上に描画したグラフを生成する（ステップＳ５）。描画部１２５は、生成したグラフの描画データを表示部１３０に送信する。

最後に、表示部１３０は、描画部１２５によって生成されたグラフの描画データを受信して表示する（ステップＳ６）。

１．７総抽出数と正解数の計算方法
次に、図を参照しながら、総抽出数と正解数とを計算する処理について説明する。この処理は、図８のステップＳ４の処理の詳細である。

図９は、計算部１２４における総抽出数と正解数とを計算する処理の一例を示すフローチャートである。計算部１２４は、並べ替え部１２３による複数のレコードの並べ替えが完了した後、並べ替え部１２３から通知を受け、計算処理を開始する。

まず、計算部１２４は、総抽出数（Ｎ）と正解数（Ｍ）とを初期化する（ステップＳ１１）。具体的には、計算部１２４は、総抽出数（Ｎ）に初期値（＝０）をセットするとともに、正解数（Ｍ）に初期値（＝０）をセットする。総抽出数は、現在までに抽出されたレコードの合計数を示す。正解数は、現在までに、複数のグループのうちの予め決められた正解とするグループに属していると判断されたレコードの合計数を示す。

次に、計算部１２４は、記憶部１２２から、並べ替えられたデータ（複数のレコードの集合）の中から先頭のレコードを抽出する（ステップＳ１２）。初回は、計算部１２４は、一番先頭のレコードを抽出する。２回目以降は、計算部１２４は、抽出されていない次のレコードを抽出する。

次に、計算部１２４は、総抽出数を更新する（ステップＳ１３）。つまり、計算部１２４は、総抽出数Ｎに１を加算する（Ｎ＝Ｎ＋１）。

次に、計算部１２４は、抽出したレコードに含まれる実際の結果が正解であるか否かを判断する（ステップＳ１４）。ここでは、計算部１２４は、広告の閲覧の有無に関するデータが「１」であるか否かを判断する。

なお、本実施の形態では、広告が閲覧されたグループを正解とし、広告が閲覧されなかったグループを不正解としているが、本発明は特にこれ限定されず、広告が閲覧されなかったグループを正解とし、広告が閲覧されたグループを不正解としてもよい。すなわち、実際の結果が肯定的な結果である場合に必ずしも正解となるのではなく、実際の結果が否定的な結果である場合であっても正解となる場合もある。

ここで、抽出したレコードが正解ではないと判断された場合（ステップＳ１４でＮＯ）、ステップＳ１６の処理に遷移する。一方、抽出したレコードが正解であると判断された場合（ステップＳ１４でＹＥＳ）、計算部１２４は、正解数を更新する（ステップＳ１５）。つまり、計算部１２４は、正解数Ｍに１を加算する（Ｍ＝Ｍ＋１）。

次に、計算部１２４は、現在の総抽出数と、現在の正解数とを対応付けて、記憶部１２２に格納する（ステップＳ１６）。

次に、計算部１２４は、閲覧率が高い順に並べ替えられたデータ（複数のレコード）のうち、抽出されていない次のレコードがあるか否かを判断する（ステップＳ１７）。

ここで、次のレコードがないと判断された場合（ステップＳ１７でＮＯ）、処理を終了する。一方、次のレコードがあると判断された場合（ステップＳ１７でＹＥＳ）、ステップＳ１２の処理に遷移して、計算部１２４は、次のレコードを抽出する。その後、計算部１２４は、ステップＳ１２〜ステップＳ１７の処理を繰り返す。

続いて、総抽出数と正解数とを計算する処理の別の例について説明する。

図１０は、計算部１２４における総抽出数と正解数とを計算する処理の第１の変形例を示すフローチャートである。計算部１２４は、並べ替え部１２３による複数のレコードの並べ替えが完了した後、並べ替え部１２３から通知を受け、計算処理を開始する。

まず、計算部１２４は、総抽出数（Ｎ）と正解数（Ｍ）とを初期化する（ステップＳ２１）。具体的には、計算部１２４は、総抽出数（Ｎ）に初期値（＝０）をセットするとともに、正解数（Ｍ）に初期値（＝０）をセットする。

次に、計算部１２４は、記憶部１２２から、並べ替えられたデータ（複数のレコードの集合）の中から先頭のレコードを抽出する（ステップＳ２２）。初回は、計算部１２４は、一番先頭のレコードを抽出する。２回目以降は、計算部１２４は、抽出されていない次のレコードを抽出する。

次に、計算部１２４は、総抽出数を更新する（ステップＳ２３）。つまり、計算部１２４は、総抽出数Ｎに１を加算する（Ｎ＝Ｎ＋１）。

次に、計算部１２４は、抽出したレコードに含まれる実際の結果が正解であるか否かを判断する（ステップＳ２４）。ここでは、計算部１２４は、広告の閲覧の有無に関するデータが「１」であるか否かを判断する。

ここで、抽出したレコードが正解ではないと判断された場合（ステップＳ２４でＮＯ）、ステップＳ２６の処理に遷移する。一方、抽出したレコードが正解であると判断された場合（ステップＳ２４でＹＥＳ）、計算部１２４は、正解数を更新する（ステップＳ２５）。つまり、計算部１２４は、正解数Ｍに１を加算する（Ｍ＝Ｍ＋１）。

次に、計算部１２４は、現在の総抽出数が所定の条件を満たすか否かを判断する（ステップＳ２６）。これにより、計算部１２４は、現在の値（総抽出数及び正解数）を記憶部１２２に格納するか否かを決定する。ここでは、計算部１２４は、現在の総抽出数が、例えば１０の倍数であるか否かを判断する。計算部１２４は、現在の総抽出数が１０の倍数であると判断された場合、現在の値（総抽出数及び正解数）を記憶部１２２に格納する。計算部１２４は、現在の総抽出数が１０の倍数ではないと判断された場合、現在の値（総抽出数及び正解数）を記憶部１２２に格納しない。

ここで、現在の総抽出数が所定の条件を満たさないと判断された場合（ステップＳ２６でＮＯ）、ステップＳ２８の処理に遷移する。一方、現在の総抽出数が所定の条件を満たすと判断された場合（ステップＳ２６でＹＥＳ）、計算部１２４は、現在の総抽出数と、現在の正解数とを対応付けて、記憶部１２２に格納する（ステップＳ２７）。

次に、計算部１２４は、閲覧率が高い順に並べ替えられたデータ（複数のレコード）のうち、抽出されていない次のレコードがあるか否かを判断する（ステップＳ２８）。

ここで、次のレコードがないと判断された場合（ステップＳ２８でＮＯ）、処理を終了する。一方、次のレコードがあると判断された場合（ステップＳ２８でＹＥＳ）、ステップＳ２２の処理に遷移して、計算部１２４は、次のレコードを抽出する。その後、計算部１２４は、ステップＳ２２〜ステップＳ２８の処理を繰り返す。

なお、ステップＳ２６において、計算部１２４は、現在の総抽出数が、例えば１０の倍数であるか否かを判断しているが、本発明は特にこれに限定されず、現在の総抽出数が、予め決められた所定の倍数であるか否かを判断してもよい。

続いて、総抽出数と正解数とを計算する処理のさらに別の例について説明する。

図１１は、計算部１２４における総抽出数と正解数とを計算する処理の第２の変形例を示すフローチャートである。計算部１２４は、並べ替え部１２３による複数のレコードの並べ替えが完了した後、並べ替え部１２３から通知を受け、計算処理を開始する。

まず、計算部１２４は、総抽出数（Ｎ）と正解数（Ｍ）とを初期化する（ステップＳ３１）。具体的には、計算部１２４は、総抽出数（Ｎ）に初期値（＝０）をセットするとともに、正解数（Ｍ）に初期値（＝０）をセットする。

次に、計算部１２４は、記憶部１２２から、並べ替えられたデータ（複数のレコードの集合）の中から先頭のレコードを抽出する（ステップＳ３２）。初回は、計算部１２４は、一番先頭のレコードを抽出する。２回目以降は、計算部１２４は、抽出されていない次のレコードを抽出する。

次に、計算部１２４は、今回抽出したレコードに含まれる評価の指標の値が、前回抽出したレコードに含まれる評価の指標の値と異なるか否かを判断する（ステップＳ３３）。ここでは、評価の指標の値は、予測モデルによって予測された閲覧確率である。つまり、計算部１２４は、今回抽出したレコードに含まれる閲覧確率が、前回抽出したレコードに含まれる閲覧確率と異なるか否かを判断する。なお、初回は、前回抽出したレコードが存在しないため、計算部１２４は、今回抽出したレコードに含まれる閲覧確率が、前回抽出したレコードに含まれる閲覧確率と異なっていない（同じである）と判断する（ステップＳ３３でＮＯ）。

ここで、今回抽出したレコードに含まれる閲覧確率が、前回抽出したレコードに含まれる閲覧確率と異なっていないと判断された場合（ステップＳ３３でＮＯ）、ステップＳ３５の処理に遷移する。一方、今回抽出したレコードに含まれる閲覧確率が、前回抽出したレコードに含まれる閲覧確率と異なると判断された場合（ステップＳ３３でＹＥＳ）、計算部１２４は、現在の総抽出数と、現在の正解数とを対応付けて、記憶部１２２に格納する（ステップＳ３４）。

次に、計算部１２４は、総抽出数を更新する（ステップＳ３５）。つまり、計算部１２４は、総抽出数Ｎに１を加算する（Ｎ＝Ｎ＋１）。

次に、計算部１２４は、抽出したレコードに含まれる実際の結果が正解であるか否かを判断する（ステップＳ３６）。ここでは、計算部１２４は、広告の閲覧の有無に関するデータが「１」であるか否かを判断する。

ここで、抽出したレコードが正解ではないと判断された場合（ステップＳ３６でＮＯ）、ステップＳ３８の処理に遷移する。一方、抽出したレコードが正解であると判断された場合（ステップＳ３６でＹＥＳ）、計算部１２４は、正解数を更新する（ステップＳ３７）。つまり、計算部１２４は、正解数Ｍに１を加算する（Ｍ＝Ｍ＋１）。

次に、計算部１２４は、閲覧率が高い順に並べ替えられたデータ（複数のレコード）のうち、抽出されていない次のレコードがあるか否かを判断する（ステップＳ３８）。

ここで、次のレコードがないと判断された場合（ステップＳ３８でＮＯ）、現在の総抽出数と、現在の正解数とを対応付けて、記憶部１２２に格納し（ステップＳ３９）、処理を終了する。一方、次のレコードがあると判断された場合（ステップＳ３８でＹＥＳ）、ステップＳ３２の処理に遷移して、計算部１２４は、次のレコードを抽出する。その後、計算部１２４は、ステップＳ３２〜ステップＳ３８の処理を繰り返す。

１．８効果
以上、本発明の実施の形態１によれば、総抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

すなわち、従来の評価結果表示方法では、総抽出数、正解数及び不正解数の３つのパラメータをメモリに記憶する必要があったが、本実施の形態１における評価結果表示方法では、総抽出数及び正解数の２つのパラメータをメモリに記憶するだけでよく、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本発明の実施の形態１における評価結果表示方法および評価結果表示装置は、特に、偏りが大きいデータに対する予測結果の評価において、メモリ使用量を削減することができるとともに、処理時間を短縮することができる。

（実施の形態２）
実施の形態１では、メモリ使用量を削減しつつ、予測モデルの評価結果を表示する方法を説明した。つまり、実施の形態１で表示される予測モデルの評価結果では、計算された正解数と総抽出数との関係を示すグラフが、入力データを無作為に抽出した時の総抽出数及び正解数を表す直線よりも、より上にある程、良い予測モデルであることを示している。しかしながら、複数の予測モデルの評価結果を示す複数のグラフが表示され、これらの複数のグラフが類似している場合、どの予測モデルがよいかを判断することは困難である。

そこで、本実施の形態２では、複数の予測モデルのうち、どの予測モデルがよいかを客観的に評価できる指標を計算する方法について説明する。具体的には、客観的に評価できる指標とは、正解数と総抽出数との関係を示すグラフの下側の面積であり、この面積が大きい程、良い予測モデルであると評価することができる。本実施の形態２における評価結果表示方法では、予測モデルの評価結果を示すグラフの下側の面積と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した面積比の値をグラフと共に表示する。

２．１評価結果表示方法を実施する装置の構成
図１２は、本発明の実施の形態２に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。図１２では、評価結果表示方法を実施するためのシステムが１つの装置である場合を示す。

図１２に示す評価結果表示装置１０１は、入力部１１０、処理部１２０Ａ及び表示部１３０Ａを備えている。図１２に示す評価結果表示装置１０１は、図５に示す構成に対して、処理部１２０Ａ及び表示部１３０Ａが異なっている。

処理部１２０Ａは、取得部１２１、記憶部１２２、並べ替え部１２３、計算部１２４、描画部１２６及び面積計算部１２８を備えている。処理部１２０Ａは、図５の処理部１２０の構成に加えて、面積計算部１２８を備え、描画部１２６は、図５の描画部１２５と異なる機能を有する。処理部１２０Ａが備える取得部１２１、記憶部１２２、並べ替え部１２３及び計算部１２４は、前述した図５の取得部１２１、記憶部１２２、並べ替え部１２３及び計算部１２４と同様の機能を有している。図１２において、図５と同様の構成要素には同一の符号を付しており、説明を省略する。

描画部１２６は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、縦軸（Ｙ軸）を正解数とし、横軸（Ｘ軸）を総抽出数とした座標系上にグラフを生成する。描画部１２６は、面積計算部１２８に対して面積比の計算開始を指示し、面積計算部１２８から、計算結果である面積比の値を受け取る。描画部１２６は、生成したグラフの描画データと、面積計算部１２８から受け取った面積比の値とを、表示部１３０Ａに送信する。グラフは、隣り合う座標値（総抽出数、正解数）の点同士を繋いだ線グラフの形状で表す。また、グラフは、座標値（総抽出数、正解数）の点を示す点グラフの形状で表してもよい。さらに、描画部１２６は、グラフの正解数が０でありかつ総抽出数が０である原点（０、０）と、正解数が最大値でありかつ総抽出数が最大値である点、すなわち全てのデータを抽出した時の値とを結んだ直線を、座標系上に重ねて描画してもよい。この直線は、データを無作為に抽出した時の総抽出数及び正解数を意味している。

面積計算部１２８は、描画部１２６によって生成されたグラフの下側の面積と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した面積比の値を出力する。

面積計算部１２８は、描画部１２６によって生成されたグラフの下側の面積と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を求める。面積計算部１２８は、描画部１２６から計算開始指示を受け、面積比を計算し、計算結果である面積比の値を、描画部１２６に返す。具体的には、描画部１２６によって生成されるグラフは、計算部１２４で計算した座標値（総抽出数、正解数）の点同士を繋いだ線グラフの形状で表される。

面積計算部１２８は、下記の式（１）に基づいてグラフの下側の面積Ｓ１を算出する。なお、下記の式（１）において、ｘ_ｉは正解数を示し、ｆ（ｘ_ｉ）は総抽出数を示し、ｎは点の数を示す。

すなわち、グラフの下側の面積Ｓ１は、線グラフで示した座標値（総抽出数、正解数）の隣接する２点と、これら２点の各々を通る垂線と横軸（Ｘ軸）との交点である２点との、計４点から作られる台形の面積を、全て足し合わせて計算される。

また、面積計算部１２８は、下記の式（２）に基づいて全体の面積Ｓ２を算出する。

すなわち、全体の面積Ｓ２は、正解数の最大値と総抽出数の最大値とを乗算することにより算出される。正解数の最大値と総抽出数の最大値とは、計算部１２４が、最後のレコードを抽出して計算した総抽出数の値と正解数の値とであり、計算部１２４が最後に記憶部１２２に格納した総抽出数と正解数との組である。面積計算部１２８は、記憶部１２２に格納されている総抽出数と正解数との組を用いて、グラフの下側の面積Ｓ１と、全体の面積Ｓ２とを計算する。そして、面積計算部１２８は、下記の式（３）に基づいて、面積比Ｒ（グラフの下側の面積Ｓ１／全体の面積Ｓ２）を計算して、計算した面積比Ｒの値を出力する。

表示部１３０Ａは、描画部１２６によって生成されたグラフの描画データを受信して表示すると共に、面積計算部１２８によって計算されたグラフの下側の面積Ｓ１と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積Ｓ２との面積比Ｒの値を受信してグラフと共に表示する。

なお、本実施の形態２では、描画部１２６が、面積計算部１２８によって計算された面積比の値を受け取り、生成したグラフの描画データと、面積計算部１２８から受け取った面積比の値とを、表示部１３０Ａに送信しているが、他の構成であってもよい。例えば、描画部１２６は、面積計算部１２８によって計算された面積比の値を受け取り、生成したグラフと面積比の値とを描画した描画データを、表示部１３０Ａに通知してもよい。また、例えば、描画部１２６は、生成したグラフを表示部１３０Ａに通知し、面積計算部１２８は、計算した面積比の値を表示部１３０Ａに通知してもよい。

また、面積計算部１２８は、描画部１２６から計算開始指示を受け取るのでなく、計算部１２４から計算開始指示を受け取り、面積比の計算を開始してもよい。

２．２面積比の計算方法
図１３は、本発明の実施の形態２に係る評価結果表示方法によって描画されたグラフ及び面積比の一例を示す図である。表示部１３０Ａは、図１３に示すグラフ１１及び面積比１３を表示する。グラフ１１は、計算部１２４によって計算された正解数と総抽出数とを、縦軸（Ｙ軸）が正解数であり横軸（Ｘ軸）が総抽出数である座標系上に描画したグラフである。また、表示部１３０Ａは、原点（０、０）と、総抽出数が最大値であり正解数が最大値である点とを結んだ直線１２を表示する。

さらに、表示部１３０Ａは、面積比１３を表示する。なお、図１３における面積比１３の“ＸＸ”は、実際に算出された数値を示す。なお、面積比１３が表示される位置は、特に限定しない。

グラフの下側の面積は、図１３中の斜線で示した箇所の面積である。また、全体の面積は、原点（０、０）と点（総抽出数の最大値、正解数の最大値）とを頂点とする矩形の面積である。

面積計算部１２８は、上記の式（１）〜式（３）に基づいて面積比を算出し、算出した面積比（グラフの下側の面積／全体の面積）の値を出力する。

２．３評価結果表示方法
次に、図１４を参照しながら、評価結果表示方法について説明する。

図１４は、本発明の実施の形態２に係る評価結果表示方法の処理の流れを示すフローチャートである。

まず、取得部１２１は、評価結果を表示するための元となる入力データを取得する（ステップＳ４１）。入力部１１０は、評価結果を表示するための元となる入力データを受け取り、受け取った入力データを取得部１２１へ送信する。取得部１２１は、入力部１１０から送信された入力データを受信して、記憶部１２２に格納する。

次に、並べ替え部１２３は、評価の指標となる項目を決定する（ステップＳ４２）。このとき、入力部１１０は、ユーザからの操作を受け付け、受け付けた操作指示を取得部１２１に通知する。取得部１２１は、入力部１１０から通知された操作指示を受け取り、並べ替え部１２３に処理の開始を通知する。

次に、並べ替え部１２３は、記憶部１２２に格納された入力データ（複数のレコードの集合）を読み出し、読み出した複数のレコードを、評価の指標となる項目に基づいて、並べ替える（ステップＳ４３）。ここで、評価の指標となる項目は、予測モデルによって予測された閲覧確率（予測確率）の値である。並べ替え部１２３は、閲覧確率が高い順に複数のレコードを並べ替える。並べ替え部１２３は、並べ替えた複数のレコードを記憶部１２２に記憶する。

次に、計算部１２４は、並べ替え部１２３によって並べ替えられた複数のレコードの集合に対し、先頭から順にレコードを読み出し、総抽出数と正解数とを計算する（ステップＳ４４）。計算部１２４は、計算した総抽出数と正解数とを対応付けて記憶部１２２へ格納する。なお、ステップＳ４４における、総抽出数と正解数とを計算する処理については、図９、図１０及び図１１に一例を示している。

次に、描画部１２６は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、読み出した総抽出数及び正解数を、縦軸（Ｙ軸）を正解数とし横軸（Ｘ軸）を総抽出数とした座標系上に描画したグラフを生成する（ステップＳ４５）。描画部１２６は、面積計算部１２８に面積比の計算開始を指示する。

次に、面積計算部１２８は、描画部１２６から指示を受け、計算部１２４によって計算された総抽出数及び正解数を用いて、面積計算部１２８によって計算されたグラフの下側の面積と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算する（ステップＳ４６）。面積計算部１２８は、計算結果である面積比の値を、描画部１２６に返す。描画部１２６は、生成したグラフの描画データと、面積計算部１２８から受け取った面積比の値とを、表示部１３０Ａに送信する。

最後に、表示部１３０Ａは、描画部１２６によって生成されたグラフの描画データを受信して表示すると共に、面積計算部１２８によって計算された面積比の値を受信してグラフと共に表示する（ステップＳ４７）。

２．４効果
以上、本発明の実施の形態２によれば、総抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

すなわち、従来の評価結果表示方法では、総抽出数、正解数及び不正解数の３つのパラメータをメモリに記憶する必要があったが、本実施の形態２における評価結果表示方法では、総抽出数及び正解数の２つのパラメータをメモリに記憶するだけでよく、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本発明の実施の形態２における評価結果表示方法および評価結果表示装置は、特に、偏りが大きいデータに対する予測結果の評価において、使用するメモリ容量を削減することができるとともに、処理時間を短縮することができる。

また、本発明の実施の形態２によれば、評価結果のグラフを表示するために計算した総抽出数及び正解数を用いて、グラフの下側の面積と、総抽出数の最大値と正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した面積比を、客観的に予測モデルを評価する指標として使用することができる。面積比が大きい予測モデルは、面積比が小さい予測モデルと比べて、良い予測モデルであると評価することができる。面積比という数値が比較されるため、予測モデルを客観的に評価することが可能となる。

（実施の形態３）
実施の形態２では、メモリ使用量を削減し、予測モデルの評価結果を表示し、予測モデルを客観的に評価する指標（面積比）を表示する方法を説明した。しかしながら、最終的には、対象がどちらのグループ（ここでは、広告を閲覧するグループ及び広告を閲覧しないグループ）に属するのかを決めることが好ましい。

そこで、本実施の形態３では、複数のグループのうちのいずれのグループに属するかを決定する方法について説明する。具体的には、計算した各総抽出数及び各正解数において、既に抽出されたレコードが属するグループの全てを正解「１」と予測し、まだ抽出されていないレコードが属するグループの全てを不正解「０」と予測した時の実際の結果との一致率が最大になる総抽出数を算出する。本実施の形態３における評価結果表示方法では、実際の結果との一致率が最大になる総抽出数（最適値）が計算されてグラフと共に表示される。

３．１評価結果表示方法を実施する装置の構成
図１５は、本発明の実施の形態３に係る評価結果表示方法を実施するためのシステムの機能的構成を示すブロック図である。図１５では、評価結果表示方法を実施するためのシステムが１つの装置である場合を示す。

図１５に示す評価結果表示装置１０２は、入力部１１０、処理部１２０Ｂ及び表示部１３０Ｂを備えている。図１５に示す評価結果表示装置１０２は、図５に示す構成に対して、処理部１２０Ｂ及び表示部１３０Ｂが異なっている。

処理部１２０Ｂは、取得部１２１、記憶部１２２、並べ替え部１２３、計算部１２４、描画部１２７及び最適値計算部１２９を備えている。処理部１２０Ｂは、図５の処理部１２０の構成に加えて、最適値計算部１２９を備え、描画部１２７は、図５の描画部１２５と異なる機能を有する。処理部１２０Ｂが備える取得部１２１、記憶部１２２、並べ替え部１２３及び計算部１２４は、前述した図５の取得部１２１、記憶部１２２、並べ替え部１２３及び計算部１２４と同様の機能を有している。図１５において、図５と同様の構成要素には同一の符号を付しており、説明を省略する。

描画部１２７は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、縦軸（Ｙ軸）を正解数とし、横軸（Ｘ軸）を総抽出数とした座標系上にグラフを生成する。描画部１２７は、最適値計算部１２９に対して最適値の計算開始を指示し、最適値計算部１２９から、計算結果である最適値を受け取る。描画部１２７は、生成したグラフの描画データと、最適値計算部１２９から受け取った最適値とを、表示部１３０Ｂに送信する。グラフは、隣り合う座標値（総抽出数、正解数）の点同士を繋いだ線グラフの形状で表す。また、グラフは、座標値（総抽出数、正解数）の点を示す点グラフの形状で表してもよい。さらに、描画部１２７は、グラフの正解数が０でありかつ総抽出数が０である原点（０、０）と、正解数が最大値でありかつ総抽出数が最大値である点、すなわち全てのデータを抽出した時の値とを結んだ直線を、座標系上に重ねて描画してもよい。この直線は、データを無作為に抽出した時の総抽出数及び正解数を意味している。

最適値計算部１２９は、総抽出数が０でありかつ正解数が０である点と、総抽出数が最大値でありかつ正解数が最大値である点とを結んだ直線の傾きと、生成したグラフの傾きとが一致するグラフ上の点における総抽出数を最適値として、計算部１２４によって出力された抽出数及び正解数を用いて計算し、計算した最適値を出力する。

最適値計算部１２９は、計算部１２４によって算出された各総抽出数において、既に抽出されたデータを正解（実際の結果が「１」である）と予測し、まだ抽出されていないデータを不正解（実際の結果が「０」である）と予測した時の実際の結果との一致率が最大になる総抽出数を最適値として算出する。最適値計算部１２９は、描画部１２７から計算開始指示を受け、最適値を計算し、計算結果である最適値を、描画部１２７に返す。

具体的には、描画部１２７によって生成されるグラフは、計算部１２４によって計算された座標値（総抽出数、正解数）の点同士を繋いだ線グラフの形状で表される。最適値は、データを無作為に抽出した場合の総抽出数及び正解数を表す補助線と傾きが同じであるグラフの接線の接点の値（総抽出数）である。グラフの接線の傾きが補助線の傾きより大きい場合は、正解率は上昇していることを意味し、グラフの接線の傾きが補助線の傾きより小さい場合は、データを無作為に抽出した時より正解率は下がることを意味する。従って、最適値は、補助線と傾きが同じであるグラフの接線の接点における総抽出数である。

補助線の値は、下記の式（４）に基づいて算出される。なお、下記の式（４）において、ｘ_ｉは正解数を示し、ｇ（ｘ_ｉ）は補助線における総抽出数を示し、ｎは点の数を示す。

ここで、最適値は、正解数を表すグラフの値と、補助線の値との差分の最大値であるので、最適値計算部１２９は、下記の式（５）に基づいて最適値を算出する。なお、下記の式（５）において、ｘ_ｉは正解数を示し、ｆ（ｘ_ｉ）はグラフの総抽出数を示し、ｇ（ｘ_ｉ）は補助線における総抽出数を示す。

表示部１３０Ｂは、描画部１２６によって生成されたグラフの描画データを受信して表示すると共に、最適値計算部１２９によって計算された最適値を受信してグラフと共に表示する。

なお、本実施の形態３では、描画部１２７が、最適値計算部１２９によって計算された最適値を受け取り、生成したグラフの描画データと、最適値計算部１２９から受け取った最適値とを、表示部１３０Ｂに送信しているが、他の構成であってもよい。例えば、描画部１２７は、最適値計算部１２９によって計算された最適値を受け取り、生成したグラフと最適値とを描画した描画データを、表示部１３０Ｂに通知してもよい。また、例えば、描画部１２７は、生成したグラフを表示部１３０Ｂに通知し、最適値計算部１２９は、計算した最適値を表示部１３０Ｂに通知してもよい。

また、最適値計算部１２９は、描画部１２７から計算開始指示を受け取るのでなく、計算部１２４から計算開始指示を受け取り、最適値の計算を開始してもよい。

３．２最適値の計算方法
続いて、図１６を用いて、本発明の実施の形態３に係る最適値の計算方法について説明する。

図１６は、本発明の実施の形態３に係る評価結果表示方法によって描画されたグラフ及び最適値の一例を示す図である。表示部１３０Ｂは、図１６に示すグラフ１１及び最適値１４を表示する。グラフ１１は、計算部１２４によって計算された正解数と総抽出数とを、縦軸（Ｙ軸）が正解数であり、横軸（Ｘ軸）が総抽出数である座標系上に描画したグラフである。また、表示部１３０Ｂは、原点（０、０）と、総抽出数が最大値であり正解数が最大値である点とを結んだ補助線１５を表示する。

さらに、表示部１３０Ｂは、最適値１４を表示する。なお、図１６における最適値１４の“ＹＹ”は、実際に算出された数値を示す。なお、最適値１４が表示される位置は、特に限定しない。

最適値は、データを無作為で抽出した場合の総抽出数及び正解数を表す補助線１５と傾きが同じである描画部１２７によって描画されたグラフ１１の接線１６の接点１７における総抽出数である。具体的には、グラフ１１の接線１６の傾きが補助線１５の傾きより大きい場合は、正解率は上昇し、グラフ１１の接線１６の傾きが補助線１５の傾きより小さい場合は、データを無作為に抽出した時より正解率は下がる。従って、最適値は、補助線１５と平行なグラフ１１の接線１６の接点１７における総抽出数になる。接点１７は、総抽出数に対して、描画したグラフ１１の総抽出数と補助線１５の総抽出数との差が最大になるグラフ１１上の点である。

最適値計算部１２９は、上記の式（４）及び式（５）に基づいて最適値を算出し、算出した最適値を出力する。

３．３評価結果表示方法
次に、図１７を参照しながら、評価結果表示方法について説明する。

図１７は、本発明の実施の形態３に係る評価結果表示方法の処理の流れを示すフローチャートである。

まず、取得部１２１は、評価結果を表示するための元となる入力データを取得する（ステップＳ５１）。入力部１１０は、評価結果を表示するための元となる入力データを受け取り、受け取った入力データを取得部１２１へ送信する。取得部１２１は、入力部１１０から送信された入力データを受信して、記憶部１２２に格納する。

次に、並べ替え部１２３は、評価の指標となる項目を決定する（ステップＳ５２）。このとき、入力部１１０は、ユーザからの操作を受け付け、受け付けた操作指示を取得部１２１に通知する。取得部１２１は、入力部１１０から通知された操作指示を受け取り、並べ替え部１２３に処理の開始を通知する。

次に、並べ替え部１２３は、記憶部１２２に格納された入力データ（複数のレコードの集合）を読み出し、読み出した複数のレコードを、評価の指標となる項目に基づいて、並べ替える（ステップＳ５３）。ここで、評価の指標となる項目は、予測モデルによって予測された閲覧確率（予測確率）の値である。並べ替え部１２３は、閲覧確率が高い順に複数のレコードを並べ替える。並べ替え部１２３は、並べ替えた複数のレコードを記憶部１２２に記憶する。

次に、計算部１２４は、並べ替え部１２３によって並べ替えられた複数のレコードの集合に対し、先頭から順にレコードを読み出し、総抽出数と正解数とを計算する（ステップＳ５４）。計算部１２４は、計算した総抽出数と正解数とを対応付けて記憶部１２２へ格納する。なお、ステップＳ５４における、総抽出数と正解数とを計算する処理については、図９、図１０及び図１１に一例を示している。

次に、描画部１２７は、記憶部１２２に記憶された総抽出数と正解数との組合せを読み出し、読み出した総抽出数及び正解数を、縦軸（Ｙ軸）を正解数とし横軸（Ｘ軸）を総抽出数とした座標系上に描画したグラフを生成する（ステップＳ５５）。描画部１２７は、最適値計算部１２９に最適値の計算開始を指示する。

次に、最適値計算部１２９は、描画部１２７から指示を受け、計算部１２４によって計算された総抽出数及び正解数を用いて、実際の結果との一致率が最大になる総抽出数を最適値として計算する（ステップＳ５６）。最適値計算部１２９は、計算結果である最適値を、描画部１２７に返す。描画部１２７は、生成したグラフの描画データと、最適値計算部１２９から受け取った最適値とを、表示部１３０Ｂに送信する。

最後に、表示部１３０Ｂは、描画部１２７によって生成されたグラフの描画データを受信して表示すると共に、最適値計算部１２９によって計算された最適値を受信してグラフと共に表示する（ステップＳ５７）。

３．４効果
以上、本発明の実施の形態３によれば、総抽出数及び正解数のみを算出することで、適切に予測結果の評価をグラフで表示することができる。これにより、データを全て確認して順番にＴＰ率及びＦＰ率の両方を算出する従来の評価結果表示方法と比べて、評価結果を計算するために必要なメモリ使用量を削減することができる。

また、本発明の実施の形態３における評価結果表示方法および評価結果表示装置は、特に、偏りが大きいデータに対する予測結果の評価において、使用するメモリ容量を削減することができるとともに、処理時間を短縮することができる。

また、本発明の実施の形態３によれば、評価結果のグラフを表示するために計算した総抽出数及び正解数を用いて、実際の結果との一致率が最大になる総抽出数を最適値として計算することができる。総抽出数及び正解数を用いることで、最適値の計算に使用するメモリ容量を削減することが可能となる。この最適値を用いることで、最も正解率が高くなる予測モデルを特定することが可能となる。

本発明にかかる評価結果表示方法、評価結果表示装置及び評価結果表示プログラムは、メモリ使用量を削減することができるとともに、容易に予測結果を評価することができ、複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示方法、評価結果表示装置及び評価結果表示プログラムとして有用である。また、評価結果表示方法、評価結果表示装置及び評価結果表示プログラムは、広告の閲覧予測、顧客の購買予測又は病気の発祥予測などの用途に利用できる。

１００，１０１，１０２評価結果表示装置
１１０入力部
１２０，１２０Ａ，１２０Ｂ処理部
１２１取得部
１２２記憶部
１２３並べ替え部
１２４計算部
１２５，１２６，１２７描画部
１２８面積計算部
１２９最適値計算部
１３０，１３０Ａ，１３０Ｂ表示部
２００入力装置
３００処理装置
４００表示装置
５００ネットワーク

Claims

複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示方法であって、
前記予測モデルによって予測された予測確率と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得ステップと、
前記予測確率に基づいて、前記複数のレコードを並べ替える並べ替えステップと、
前記並べ替えステップにおいて並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算ステップと、
前記計算ステップにおいて出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成ステップと、
前記生成ステップにおいて生成された前記グラフを表示する表示ステップと、
前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線の傾きと、生成した前記グラフの傾きとが一致する前記グラフ上の点における前記抽出数を最適値として、前記計算ステップにおいて出力された前記抽出数及び前記正解数を用いて計算し、計算した前記最適値を出力する最適値計算ステップと、
を含む評価結果表示方法。
前記予測確率は、前記複数のグループのうちの前記正解とするグループに属している確率を示し、
前記並べ替えステップは、前記予測確率が高い順番又は前記予測確率が低い順番に前記複数のレコードを並べ替える、
請求項１記載の評価結果表示方法。
前記生成ステップは、前記座標系上に、前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線を描画する、
請求項１又は２記載の評価結果表示方法。
前記計算ステップは、予め決められた所定の数ずつ前記レコードを抽出し、抽出した前記所定の数のレコードの抽出数と、抽出した前記所定の数のレコードの正解数とを計算する、
請求項１〜３のいずれか１項に記載の評価結果表示方法。
前記計算ステップは、前記並べ替えステップにおいて並べ替えられた複数のレコードのうち、前記予測確率が同じである前記レコードを並べ変えられた順番で全て抽出し、抽出した前記予測確率が同じレコードの抽出数と、抽出した前記予測確率が同じレコードの正解数とを計算する、
請求項１〜３のいずれか１項に記載の評価結果表示方法。
前記生成ステップにおいて生成された前記グラフの下側の面積と、前記抽出数の最大値と前記正解数の最大値とを乗算することにより算出される全体の面積との面積比を計算し、計算した前記面積比の値を出力する面積計算ステップをさらに含む、
請求項１〜５のいずれか１項に記載の評価結果表示方法。
複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示装置であって、
前記予測モデルによって予測された予測確率と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得部と、
前記取得部によって取得された前記複数のレコードを記憶する記憶部と、
前記記憶部に記憶された前記複数のレコードを読み出し、前記予測確率に基づいて、読み出した前記複数のレコードを並べ替える並べ替え部と、
前記並べ替え部によって並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算部と、
前記計算部によって出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成部と、
前記生成部によって生成された前記グラフを出力する出力部と、
前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線の傾きと、生成した前記グラフの傾きとが一致する前記グラフ上の点における前記抽出数を最適値として、前記計算部によって出力された前記抽出数及び前記正解数を用いて計算し、計算した前記最適値を出力する最適値計算部と、
を備える評価結果表示装置。
複数の対象のそれぞれが複数のグループのうちのどのグループに属するかを予測する予測モデルに対する評価結果を表示する評価結果表示プログラムであって、
前記予測モデルによって予測された予測確率と、前記複数の対象のそれぞれが実際に属するグループを示すグループ情報とを含むレコードの集合である複数のレコードを取得する取得部と、
前記取得部によって取得された前記複数のレコードを記憶する記憶部と、
前記記憶部に記憶された前記複数のレコードを読み出し、前記予測確率に基づいて、読み出した前記複数のレコードを並べ替える並べ替え部と、
前記並べ替え部によって並べ替えられた前記複数のレコードに対して、並べ変えられた順番でレコードを順に抽出し、抽出した前記レコードの数を示す抽出数と、抽出した前記レコードに含まれる前記グループ情報が前記複数のグループのうちの正解とするグループに属していると判断された数を示す正解数とを計算し、前記抽出数と前記正解数とを対応付けて出力する計算部と、
前記計算部によって出力された前記抽出数及び前記正解数を、横軸を前記抽出数とし縦軸を前記正解数とする座標系上に描画したグラフを生成する生成部と、
前記生成部によって生成された前記グラフを出力する出力部と、
前記抽出数が０でありかつ前記正解数が０である点と、前記抽出数が最大値でありかつ前記正解数が最大値である点とを結んだ直線の傾きと、生成した前記グラフの傾きとが一致する前記グラフ上の点における前記抽出数を最適値として、前記計算部によって出力された前記抽出数及び前記正解数を用いて計算し、計算した前記最適値を出力する最適値計算部としてコンピュータを機能させる評価結果表示プログラム。