JP5125071B2

JP5125071B2 - スケール算出プログラム、スケール算出装置およびスケール算出方法

Info

Publication number: JP5125071B2
Application number: JP2006313060A
Authority: JP
Inventors: 一穂前田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-11-20
Filing date: 2006-11-20
Publication date: 2013-01-23
Anticipated expiration: 2026-11-20
Also published as: US20080120263A1; JP2008129784A; US7933853B2

Description

この発明は、スケール算出プログラム、スケール算出装置およびスケール算出方法に関する。

従来より、インターネットを代表とするネットワークの発達、記憶媒体の大容量化、コンピュータの高性能化や低価格化などにより、膨大な量の情報を容易に蓄積することが可能になり、この蓄積されたデータをビジネスに還元する手法として、蓄積されたデータである（既に結果が分かっている）既知事例集合を用い、まだ結果がわかっていない未知事例の結果を予測する予測問題の解法が注目されている。

具体的な予測の対象としては、ダイレクトメールの返答率を上げるための発送先の絞込み、金融与信問題、クレジットカードの不正顧客の発見、ネットワークにおける不正アクセスの発見などが挙げられる。このような予測問題の解法としては、蓄積されたデータである既知事例集合の中から予測対象である「未知事例」に類似した事例を探索し、探索された類似事例の集合を基に当該「未知事例」の結果を予測する手法が存在する（類似事例に基づく予測手法）。

ここで、事例は、数値で表現される複数の説明変数（例えば、「説明変数：数値」として「年齢：３０才」および「年収：４００万円」など）と文字列で表現される１つの目的変数（例えば、「目的変数：文字列」として「購入状況：する」もしくは「購入状況：しない」など）とから構成され、既知事例では上記の「結果」である「目的変数」が既知であり、未知事例では「目的変数」が未知である。そして、未知事例の目的変数を、既知事例集合から探索した類似事例集合の目的変数から予測することとなる。このためには、未知事例と各既知事例の距離（事例間距離）を計算する必要があるが、この際、一般に各説明変数は分布が異なり、例えば、各事例においては、「年齢」と「年収」とでは分布する値の範囲が異なるため、それらを揃える必要がある（スケーリング）。

例えば、本出願人の先行発明である特許文献１では、各説明変数間のユークリッド距離を各説明変数のスケール（例えば、既知事例集合における標準偏差など）で除することで、各説明変数の分布を揃えて、既知事例と未知事例との各説明変数間の距離を算出したうえで、既知事例と未知事例との事例間距離を計算している。

特許第３７６２８４０号公報

ところで、上記した従来の技術は、既知事例の説明変数の数値の分布から大きく外れている値（外れ値）が未知事例の説明変数の数値に含まれている場合には、既知事例集合の説明変数の数値から求めたスケールを用いても、精度のよい予測結果を実現できないという問題点があった。

すなわち、既知事例から計算された標準偏差をスケールとして用いても、「外れ値」が存在するために未知事例の説明変数の数値をスケーリングしきれず、他の「外れ値」ではない説明変数と比べ、その説明変数の事例間距離への影響が大きくなり、精度のよい予測結果を実現できない。

例えば、図１４の（Ａ）で示すように、「データ名」が「１」〜「９」である９個の既知事例からなる既知事例集合に基づいて予測する場合を考える。この既知事例は、「説明変数」として「年齢（単位：才）」および「年収（単位：万円）」と「目的変数」として「購入状況：する、もしくは、しない」とから構成されている。このとき、９個の既知事例における「年齢（単位：才）」の標準偏差は「８．２才」であり、「年収（単位：万円）」の標準偏差は「８２万円」であるので、「８．２」が説明変数「年齢（単位：才）」のスケールとなり、「８２」が説明変数「年収（単位：万円）」のスケールとなる。

ここで、図１４の（Ｂ）に示すように、未知事例として説明変数「年齢：５０才」および「年収：４５０万円」である事例の目的変数「購入状況」を予測する場合を考える。例えば、「データ名：１」とこの未知事例との「説明変数：年齢（単位：才）」の説明間距離は、「３０」と「５０」との差の絶対値をスケール「８．２」で割った値（以下、「値１」）であり、「データ名：１」とこの未知事例との「説明変数：年収（単位：万円）」の説明間距離は、「３００」と「４５０」との差の絶対値をスケール「８２」で割った値（以下、「値２」）となる。そして、「データ名：１」とこの未知事例との事例間距離は、『「値１」の二乗と「値２」の二乗との和』の平方根として算出される。

図１４の（Ｂ）に示す表は、この未知事例と９個の既知事例それぞれについて事例間距離を算出し、事例間距離の値の小さい順に並べ替えたものである。ここで、類似事例として上位３つの既知事例（データ名：６、９、５）を抽出すると、これらの目的変数「購入状況」はすべて「する」となっており、説明変数「年齢：５０才」および「年収：４５０万円」の未知事例は、「購入状況：する」と高精度に予測することができる。

一方、未知事例として説明変数「年齢：５０才」および「年収：８００万円」である事例の目的変数「購入状況」を予測する場合、図１４の（Ｃ）の表に示すように、上述したスケールを用いてこの未知事例と９個の既知事例それぞれについて事例間距離を算出し、事例間距離の値の小さい順に並べ替えると、類似事例として抽出した上位３つの既知事例（データ名：９、８、７）の中に、「購入状況：しない」である「データ名：７」が抽出されている。これは、未知事例の説明変数「年収：８００万円」の値が既知事例「年収」の値の分布から大きく外れている値（外れ値）となっているためである。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、高精度な予測結果を実現することが可能になるスケール算出プログラム、スケール算出装置およびスケール算出方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明は、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手順と、前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、をコンピュータに実行させることを特徴とする。

また、本発明は、上記の発明において、前記スケール算出手順は、前記既知事例集合と前記未知事例集合とを合わせた集合において、前記説明変数の前記数値の最大値と前記数値の最小値との差を当該説明変数の前記スケールとして前記説明変数ごとに算出することを特徴とする。

また、本発明は、上記の発明において、前記スケール算出手順は、前記既知事例集合と前記未知事例集合とを合わせた集合において、前記説明変数の前記数値の標準偏差を当該説明変数の前記スケールとして前記説明変数ごとに算出することを特徴とする。

また、本発明は、上記の発明において、前記スケール算出手順は、前記既知事例集合のすべての前記既知事例と前記未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の平均がすべての前記説明変数において一定値となるように、前記スケールを前記説明変数ごとに算出することを特徴とする。

また、本発明は、上記の発明において、前記スケール算出手順は、前記既知事例集合のすべての前記既知事例と前記未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値となるように、前記スケールを前記説明変数ごとに算出することを特徴とする。

また、本発明は、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手段と、前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、を備えたことを特徴とする。

また、本発明は、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出工程と、前記スケール算出工程によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持工程と、を含んだことを特徴とする。

本発明によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数ごとにスケールを算出するので、既知事例集合のみからスケールを算出するよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、本発明によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の最大値と最小値との差を当該説明変数のスケールとして説明変数ごとに算出するので、既知事例集合の説明変数の最大値と最小値の差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、本発明によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差を当該説明変数の前記スケールとして説明変数ごとに算出するので、既知事例集合の説明変数の標準偏差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、本発明によれば、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の平均がすべての説明変数において一定値となるように、スケールを説明変数ごとに算出するので、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、本発明によれば、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の標準偏差がすべての説明変数において一定値となるように、スケールを説明変数ごとに算出するので、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。

以下に添付図面を参照して、この発明に係るスケール算出プログラム、スケール算出装置およびスケール算出方法の実施例を詳細に説明する。なお、以下では、この発明に係るスケール算出プログラムを含んで構成されるスケール算出装置を実施例として説明する。また、以下では、実施例１におけるスケール算出装置の構成および処理の手順、実施例１の効果を順に説明し、次に実施例１と同様に、実施例２に係るスケール算出装置、実施例３に係るスケール算出装置、実施例４に係るスケール算出装置、実施例５に係るスケール算出装置について順に説明する。

［用語の説明］
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「説明変数」とは、「数値」で表現される変数であり、例えば、「説明変数：数値」として「年齢（単位：才）：３０」のように示されるものであり、「説明変数値」とは、「説明変数」の「数値」のことであり、例えば、上記の「３０」のことである。また、「目的変数」とは、「文字列」で表現される変数であり、例えば、「目的変数：文字列」として「購入状況：する」もしくは「購入状況：しない」などのように示されるものであり、「目的変数値」とは、「目的変数」を表現する「文字列」のことであり、例えば、「する」もしくは「しない」がこれに相当する。また、「事例」とは、複数の「説明変数」と１つの「目的変数」とから構成される集合であり、例えば、「説明変数」として「年齢（単位：才）」および「年収（単位：万円）」と「目的変数」として「購入状況：する、もしくは、しない」の構成からなる「事例」としては、『「年齢：３０」、「年収：４００」、「購入状況：しない」』などが挙げられる。

また、「既知事例」とは、「目的変数」が既知である事例のことであり、例えば、『「年齢：３０」、「年収：４００」』の説明変数からなる事例の「目的変数＝購入状況」が「しない」であることが既知である事例のことである。また、「未知事例」とは、「目的変数」が未知である事例のことであり、例えば、『「年齢：５０」、「年収：８００」』の説明変数からなる事例の「目的変数＝購入状況」が「する」であるか「しない」であるかは未知である事例のことである。また、「類似事例」とは、「未知事例」と類似した「既知事例」のことである。また、「既知事例集合」とは、複数の「既知事例」からなる集合のことであり、「未知事例集合」とは、複数の「未知事例」からなる集合のことであり、「類似事例集合」とは、複数の「類似事例」からなる集合のことである。

また、以下の説明では、図１の（Ａ）に示すように、ｎ個の既知事例からなる既知事例集合において、ｉ番目の既知事例のｊ番目の説明変数値をａ（ｉ，ｊ）と表し、図１の（Ｂ）に示すように、ｍ個の未知事例からなる未知事例集合において、ｌ番目の未知事例のｊ番目の説明変数値をｂ（ｌ，ｊ）と表す。また、既知事例集合におけるｊ番目の説明変数値の平均をμ（ｊ）（マイクロ（ｊ））、標準偏差をσ（ｊ）（シグマ（ｊ））とする（図１の（Ａ）を参照）。そして、未知事例集合におけるｊ番目の説明変数値の平均をν（ｊ）（ニュー（ｊ））、標準偏差をδ（ｊ）（デルタ（ｊ））と表す（図１の（Ｂ）を参照）。なお、図１は、実施例１で使用する記号を説明するための図である。

また、｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝は、ｘ（１）からｘ（ｎ）までのｎ個からなる集合を表す。そして、｛ｘ（ｉ，ｊ）｜ｉ＝１．．．ｎ，ｊ＝１．．．ｍ｝は、ｘ（１，１）からｘ（ｎ，ｍ）までの『「ｎ」ｘ「ｍ」』個からなる集合を表す。さらに、ｓｄ（｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝）は、集合｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝の標準偏差を表す。従って、既知事例集合におけるｊ番目の説明変数の標準偏差σ（ｊ）は、σ（ｊ）＝ｓｄ（｛ａ（ｉ，ｊ）｜ｉ＝１．．．ｎ｝）と表される。また、ｍａｘ（｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝）とｍｉｎ（｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝）は集合｛ｘ（ｉ）｜ｉ＝１．．．ｎ｝の最大値と最小値を表すものとする。

［実施例１におけるスケール算出装置の概要および特徴］
続いて、図２〜５を用いて、実施例１におけるスケール算出装置の概要および主たる特徴を具体的に説明する。図２は、実施例１におけるスケール算出装置を含む予測装置の構成を示すブロック図であり、図３は、実施例１における事例間距離算出部を説明するための図であり、図４は実施例１における確信度算出部を説明するための図であり、図５は、実施例１におけるスケール算出装置の概要および特徴を説明するための図である。

図２に示すように、実施例１における予測装置１０は、データ入力部１１と、予測結果出力部１２と、入出力制御Ｉ／Ｆ部１３と、記憶部２０と、処理部３０とから構成される。

データ入力部１１は、処理部３０による各種処理に用いるデータを入力する。具体的には、「既知事例集合」と「未知事例集合」とからなるデータを入力するとともに、未知事例の予測を開始する旨などの操作指示を入力する。なお、データ入力部１１は、図示しない入力部として、キーボードや、タッチパネルを備えており、これによりデータ入力と予測を開始する要求とを受け付けるようにしている。

予測結果出力部１２は、処理部３０による各種処理の結果を出力する。具体的には、確信度算出部３４による処理結果として得られる未知事例ごとの予測結果を出力する。なお、これらの結果は、例えば、予測装置１０に接続されるディスプレイに出力するようにしている。

入出力制御Ｉ／Ｆ部１３は、データ入力部１１および予測結果出力部１２と、記憶部２０および処理部３０との間におけるデータ転送を制御する。

記憶部２０は、処理部３０による各種処理結果を記憶し、例えば、図２に示すように、スケール記憶部２１と、事例間距離記憶部２２と、類似事例集合記憶部２３とを備える。なお、各部については、後に詳述する。

処理部３０は、入出力制御Ｉ／Ｆ部１３から転送された「既知事例集合」と「未知事例集合」とからなるデータに基づき各種処理を実行し、例えば、図２に示すように、スケール算出部３１と、事例間距離算出部３２と、類似事例集合抽出部３３と、確信度算出部３４とを備える。

スケール算出部３１は、入力されたデータから説明変数ぞれぞれの「スケール」を算出し、その結果をスケール記憶部２１に格納する。例えば、図１４で示した場合では、各説明変数値の分布をすべての説明変数間で揃えるために、説明変数ごとに説明変数値の「標準偏差」を既知事例集合において算出し、これを当該説明変数の「スケール」として算出する。すなわち、既知事例集合におけるｊ番目の説明変数の標準偏差σ（ｊ）＝ｓｄ（｛ａ（ｉ，ｊ）｜ｉ＝１．．．ｎ｝）を、ｊ番目の説明変数のスケール「ｓ（ｊ）」として算出し、この処理をすべての説明変数について行う。例えば、説明変数が「Ｊ」種類あるとすると、σ（１）〜σ（Ｊ）を算出する。

事例間距離算出部３２は、スケール記憶部２１が記憶する説明変数ごとの「スケール」を用いて未知事例と既知事例との説明間距離を説明変数ごとに算出した後、これを用いて未知事例と既知事例とのすべての組み合わせにおける事例間距離を算出して、その結果を事例間距離記憶部２２に記憶する。例えば、「ｊ」番目の説明変数における、既知事例「ｉ」番目の説明変数値「ａ（ｉ，ｊ）」と未知事例「ｌ」番目の説明変数値「ｂ（ｌ，ｊ）」との説明変数間距離「ｄ（ｌ，ｉ，ｊ）」を、図３の（Ａ）に示す式を用いて算出する。これを、説明変数ごとに、「ｎ個の既知事例」と「ｍ個の未知事例」とのすべての組み合わせにおいて算出する（『「Ｊ」ｘ「ｎ」ｘ「ｍ」』種類）。そして、「Ｊ」種類の説明間距離に基づいて、既知事例「ｉ」番目と未知事例「ｌ」番目との事例間距離を、図３の（Ｂ）に示す式を用いて算出し、この処理を、「ｎ個の既知事例」と「ｍ個の未知事例」とのすべての組み合わせ（『「ｎ」ｘ「ｍ」』種類）において実行する。

類似事例集合抽出部３３は、事例間距離記憶部２２が記憶する事例間距離に基づいて、未知事例ごとに既知事例集合の中から事例間距離の値が小さい事例を当該未知事例の類似事例として抽出し、その結果を事例間距離とともに類似事例集合記憶部２３に格納する。例えば、事例間距離の値が小さい順に「ｋ」個の既知事例を類似事例集合として抽出する。なお、「ｋ」個は予め設定された値であってもよいし、ユーザが予測ごとに指定してもよい（例えば、ｋ＝３）。

確信度算出部３４は、類似事例集合記憶部２３が記憶する類似事例集合から、確信度を算出し、これを含めた予測結果を未知事例ごとに出力する。具体的には、図４に示す式を用いて、ある未知事例の「目的変数値」が「ｃ」である確信度「ｐ（ｃ）」を、類似事例集合として算出された「ｋ」個の既知事例の中で、「目的変数値」が「ｃ」である既知事例の数の割合として算出する。例えば、既知事例集合における説明変数値の標準偏差をスケールとして類似事例を抽出した図１４の（Ｂ）に示す場合では、説明変数「年齢：５０才」および「年収：４５０万円」である未知事例の「目的変数＝購入状況」が「する」である確信度「ｐ（する）」は、類似事例集合として抽出された「ｋ＝３」個の既知事例（データ名：６、９、５）すべてが「する」なので、確信度「１００％」と算出される。なお、予測結果として出力されるデータとしては、未知事例ごとの確信度「ｐ（ｃ）」のみのデータでもよいし、未知事例ごとの類似事例集合と事例間距離と確信度とをすべて含めたデータでもよい。

さて、実施例１におけるスケール算出装置（スケール算出部３１およびスケール記憶部２１から構成される部分）は、既知事例と未知事例との間におけるすべての説明変数間距離から求まる事例間距離に基づき類似事例集合を抽出して当該未知事例の目的変数値を予測する際に、説明変数値の分布を揃えるために用いられるスケールを説明変数ごとに算出することを概要とし、高精度な予測結果を実現することが可能になることに主たる特徴がある。

この主たる特徴について簡単に説明すると、まず、実施例１におけるスケール算出装置は、既知事例集合と未知事例集合とを合わせた集合を生成する。例えば、図５の（Ａ）に示すように、「説明変数」として「年齢（単位：才）」および「年収（単位：万円）」の２つ（Ｊ＝２）からなる既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（以下、統合集合と記す）を新たに生成する。ここで、「目的変数」は「購入状況」であり、「目的変数値」は「する」、もしくは「しない」のどちらかであり、図５の（Ａ）に示す場合は、「年齢：５０才」および「年収：４５０万円」である未知事例１つからなる未知事例集合の「目的変数値」を予測する。なお、以下では「年齢（単位：才）」を「ｊ＝１」の説明変数、「年収（単位：万円）」を「ｊ＝２」の説明変数とする。

そして、実施例１におけるスケール算出装置は、新たに生成した集合において、説明変数値の最大値と最小値との差を当該説明変数のスケールとして説明変数ごとに算出して、算出した説明変数ごとのスケールを保持する。すなわち、図５の（Ａ）の右側の表に示す「ｎ＝９、ｍ＝１」である統合集合において、「年齢（単位：才）：ｊ＝１」のスケール「ｓ（１）」は、図５の（Ｂ）に示す式により、「５０−３０＝２０」として算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」は、同様に、「８００−３００＝５００」として算出する。

このスケールを用いて、事例間距離算出部３２は、図３の（Ａ）に示す式により「年齢（単位：才）：ｊ＝１」のおける既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とのすべての組み合わせにおける説明間距離「ｄ（１，１，１）〜ｄ（１，９，１）」を算出し、「年齢（単位：才）：ｊ＝１」においても同様に、説明間距離「ｄ（１，１，２）〜ｄ（１，９，２）」を算出し、さらに、図３の（Ｂ）に示す式により、既知事例集合と未知事例集合とのすべての組み合わせにおける事例間距離「Ｄ（１，１）〜Ｄ（１，９）」を算出する。

そして、類似事例集合抽出部３３は、図５の（Ｃ）に示すように、事例間距離の値が小さい順に「ｋ＝３」個の既知事例を類似事例集合（データ名：９、８、６）として抽出し、確信度算出部３４は、確信度「ｐ（する）」を類似事例集合として抽出した３個の既知事例の目的変数がすべて「する」なので確信度「１００％」と算出する。なお、図５の（Ｃ）における「事例間距離」の列には、図３の（Ａ）および（Ｂ）に示す式に具体的な数値が代入された計算式とその計算結果とを共に示している。

ここで、既知事例集合における説明変数値の標準偏差をスケールとして算出した図１４の（Ｃ）に示す場合では、同じ未知事例の「目的変数＝購入状況」が「する」である確信度「ｐ（する）」は、類似事例集合として抽出された「ｋ＝３」個の既知事例（データ名：９、８、７）のうち「９」および「８」が「する」なので、確信度「６６．７％」と算出される。従って、実施例１におけるスケール算出装置が算出するスケールを使用することで、「外れ値」（ここでは、「年収：８００万円」）をもつ未知事例でも高精度の予測が行なえることがわかる。また、図には示さないが、既知事例集合における説明変数値の最大値と最小値の差をスケールとして算出した場合においても、図１４の（Ｃ）に示す場合と同様に、「データ名：９、８、７」の既知事例が類似事例集合として抽出される。

このようなことから、実施例１におけるスケール算出装置は、既知事例集合の説明変数の最大値と最小値の差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、上記した主たる特徴の通り、高精度な予測結果を実現することが可能になる。なお、上記の例では、未知事例集合の未知事例数が１つの場合を説明したが、未知事例数が複数の場合でも、同様に統合集合から説明変数ごとのスケールを算出して、未知事例ごとに予測をすることは可能である。

［実施例１におけるスケール算出装置の構成］
次に、図６を用いて、実施例１におけるスケール算出装置を説明する。図６は、実施例１におけるスケール算出装置の構成を示すブロック図である。

図６に示すように、実施例１におけるスケール算出装置１００は、予測装置１０におけるスケール算出部３１と、スケール記憶部２１とから構成され、入出力制御Ｉ／Ｆ部１３を介して転送された既知事例集合と未知事例集合とのデータから説明変数ごとのスケールを算出し、その結果に基づいて、事例間距離算出部３２は、未知事例と既知事例のすべての組み合わせにおいて事例間距離を算出する。

スケール記憶部２１は、後に詳述するスケール算出部３１による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、図６に示すように、統合集合記憶部２１ａと、統合スケール記憶部２１ｂとを備える。ここで、統合スケール記憶部２１ｂは、特許請求の範囲に記載の「算出スケール保持手順」に対応する。統合集合記憶部２１ａは、後述する統合集合生成部３１ａが生成した既知事例集合と未知事例集合とを統合した集合を記憶し、統合スケール記憶部２１ｂは、後述する統合スケール算出部３１ｂが算出したスケールを説明変数ごとに記憶する。

スケール算出部３１は、入出力制御Ｉ／Ｆ部１３を介して転送された既知事例集合と未知事例集合とのデータに基づき各種処理を実行し、特に本発明に密接に関連するものとしては、図６に示すように、統合集合生成部３１ａと、統合スケール算出部３１ｂとを備える。ここで、統合集合生成部３１ａと、統合スケール算出部３１ｂとは、特許請求の範囲に記載の「スケール算出手順」に対応する。なお、各部については、以下に詳述する。

統合集合生成部３１ａは、既知事例集合と未知事例集合とを合わせた集合を生成し、その結果を統合集合記憶部２１ａに記憶する。例えば、図５の（Ａ）に示すように、「説明変数」として「年齢（単位：才）」および「年収（単位：万円）」の２つ（Ｊ＝２）からなる既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（以下、統合集合と記す）を新たに生成する。

統合スケール算出部３１ｂは、新たに生成した集合において、説明変数値の最大値と最小値との差を当該説明変数のスケールとして説明変数ごとに算出し、その結果を統合スケール記憶部２１ｂに記憶する。すなわち、図５の（Ａ）に示す「ｎ＝９、ｍ＝１」である統合集合において、「年齢（単位：才）：ｊ＝１」のスケール「ｓ（１）」は、図５の（Ｂ）に示す式により、「５０−３０＝２０」として算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」は、同様に、「８００−３００＝５００」として算出する。

［実施例１におけるスケール算出装置による処理の手順］
次に、図７を用いて、実施例１におけるスケール算出装置１００による処理を説明する。図７は、実施例１におけるスケール算出装置の処理の手順を示す図である。

まず、実施例１におけるスケール算出装置１００では、既知事例集合と未知事例集合とのデータが入力されると（ステップＳ７０１肯定）、統合集合生成部３１ａは、既知事例集合と未知事例集合とを合わせた集合を生成する（ステップＳ７０２）。

例えば、図５の（Ａ）に示すように、「説明変数」として「年齢（単位：才）」および「年収（単位：万円）」の２つ（Ｊ＝２）からなる既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（以下、統合集合と記す）を新たに生成する。

続いて、統合スケール算出部３１ｂは、新たに生成した集合において、説明変数値の最大値と最小値との差を当該説明変数のスケールとして説明変数ごとに算出して（ステップＳ７０３）、処理を終了する。すなわち、図５の（Ａ）に示す「ｎ＝９、ｍ＝１」である統合集合において、「年齢（単位：才）：ｊ＝１」のスケール「ｓ（１）」は、図５の（Ｂ）に示す式により、「５０−３０＝２０」として算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」は、同様に、「８００−３００＝５００」として算出する。

なお、図２で説明したように、スケール算出後は、そのスケールを用いて、未知事例と既知事例とのすべての組み合わせにおける事例間距離を算出し、未知事例ごとに既知事例集合の中から類似事例集合を抽出して、当該未知事例の目的変数の予測を行なう。

［実施例１の効果］
上記したように、実施例１によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数ごとにスケールを算出するので、既知事例集合のみからスケールを算出するよりも、未知事例の説明変数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、実施例１によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の最大値と最小値との差を当該説明変数のスケールとして説明変数ごとに算出するので、既知事例集合の説明変数値の最大値と最小値の差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

なお、本実施例では、スケール算出処理により算出されたスケールを用いて、未知事例と既知事例とのすべての組み合わせにおける事例間距離を算出し、算出した事例間距離の値に基づいて未知事例ごとに既知事例集合の中から類似事例集合を抽出し、抽出した類似事例集合の目的変数値から確信度を算出して当該未知事例の目的変数の予測を行なう場合を説明したが、本発明はこれに限定されるものではなく、説明変数ごとに重要性に応じた「影響度」を設定し、「影響度」と「スケール」とに基づいて事例間距離を算出したり、事例間距離に閾値を設定して類似事例集合を抽出したり、事例間距離に「重み付け」を設定して確信度を算出したりするなど、スケール算出後の予測処理としては、あらゆるものが採用できる。

上述した実施例１では、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の最大値と最小値の差をスケールとして算出する場合について説明したが、実施例２では、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差をスケールとして算出する場合について説明する。

［実施例２におけるスケール算出装置の概要および特徴］
まず最初に、図８を用いて、実施例２におけるスケール算出装置の主たる特徴を具体的に説明する。図８は、実施例２におけるスケール算出装置の概要および特徴を説明するための図である。

実施例２におけるスケール算出装置は、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。すなわち、説明変数「ｊ」番目のスケール「ｓ（ｊ）」を、図８の（Ｂ）で示す式のように、「ａ（１，ｊ）〜ａ（ｎ，ｊ）」と「ｂ（１，ｊ）〜ｂ（ｍ，ｊ）」とを合わせた「ｎ＋ｍ」個の数値の標準偏差として算出する。例えば、実施例１と同様に、図５の（Ａ）に示す既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（図８の（Ａ）を参照）において、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。具体的には、図８の（Ａ）に示す場合では、ａ（１，ｊ）〜ａ（９，ｊ）にｂ（１，ｊ）を合わせた１０個の説明変数値の標準偏差をスケールとして、「年齢（単位：才）：ｊ＝１」および「年収（単位：万円）：ｊ＝２」それぞれについて算出する。

ところで、図８の（Ｂ）で示す式は、説明変数「ｊ」番目についての、既知事例集合（事例数：ｎ）における平均「μ（ｊ）」および標準偏差「σ（ｊ）」と未知事例集合（事例数：ｍ）における平均「ν（ｊ）」および標準偏差「δ（ｊ）」を使うと、図８の（Ｃ）で示す式と同様であり、既知事例集合の説明変数ごとの平均および標準偏差と、未知事例集合の説明変数ごとの平均および標準偏差とをそれぞれ算出しておき、これらを使って説明変数ごとのスケールを算出することができる。

すなわち、実施例２におけるスケール算出装置は、図８の（Ｂ）もしくは（Ｃ）で示す式により、「年齢（単位：才）：ｊ＝１」のスケール「ｓ（１）」を「８．３」と算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」を「１４３」と算出する。

このスケールを用いて、実施例１と同様に、既知事例集合と未知事例集合とのすべての組み合わせにおける事例間距離から、図８の（Ｄ）に示すように、事例間距離の値が小さい順に「ｋ＝３」個の既知事例として、目的変数がすべて「する」である既知事例（データ名：９、８、６）が類似事例集合として抽出され、確信度「ｐ（する）」は「１００％」となる。なお、図８の（Ｄ）における「事例間距離」の列には、図３の（Ａ）および（Ｂ）に示す式に具体的な数値が代入された計算式とその計算結果とを共に示している。

ここで、既知事例集合における説明変数値の標準偏差をスケールとして算出した図１４の（Ｃ）に示す場合では、同じ未知事例の「確信度「ｐ（する）」が「６６．７％」であることから、実施例１と同様に、実施例２におけるスケール算出装置が算出するスケールを使用することで、「外れ値」（ここでは、「年収：８００万円」）をもつ未知事例でも高精度の予測が行なえることがわかる。

このようなことから、実施例２におけるスケール算出装置は、既知事例集合の説明変数の標準偏差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。なお、上記の例では、未知事例集合の未知事例数が１つの場合を説明したが、未知事例数が複数の場合でも、同様に統合集合から説明変数ごとのスケールを算出して、未知事例ごとに予測をすることは可能である。

［実施例２におけるスケール算出装置の構成］
次に、図９を用いて、実施例２におけるスケール算出装置を説明する。図９は、実施例２におけるスケール算出装置の構成を示すブロック図である。なお、スケール算出後における各部（図２に示す、事例間距離記憶部２２、類似事例集合記憶部２３、事例間距離算出部３２、類似事例集合抽出部３３および確信度算出部３４）の構成と処理内容とは、上述した図２におけるものと同じなので説明を省略する。

図９に示すように、実施例２におけるスケール算出装置１００は、実施例１と同様に、予測装置１０におけるスケール算出部３１と、スケール記憶部２１とから構成され、入出力制御Ｉ／Ｆ部１３を介して転送された既知事例集合と未知事例集合とのデータから説明変数ごとのスケールを算出し、その結果に基づいて、事例間距離算出部３２は、未知事例と既知事例のすべての組み合わせにおいて事例間距離を算出する。

スケール記憶部２１は、後に詳述するスケール算出部３１による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、図９に示すように、既知事例集合統計記憶部２１ｃと、未知事例集合統計記憶部２１ｄと、統合統計スケール記憶部２１ｅとを備える。ここで、統合統計スケール記憶部２１ｅは、特許請求の範囲に記載の「算出スケール保持手順」に対応する。既知事例集合統計記憶部２１ｃは、後述する既知事例集合統計算出部３１ｃが算出した既知事例集合における説明変数ごとの平均と分散を記憶し、未知事例集合統計記憶部２１ｄは、後述する未知事例集合統計算出部３１ｄが算出した未知事例集合における説明変数ごとの平均と分散を記憶し、統合統計スケール記憶部２１ｅは、後述する統合統計スケール算出部３１ｅが算出したスケールを説明変数ごとに記憶する。

スケール算出部３１は、入出力制御Ｉ／Ｆ部１３を介して転送された既知事例集合と未知事例集合とのデータに基づき各種処理を実行し、特に本発明に密接に関連するものとしては、図９に示すように、既知事例集合統計算出部３１ｃと、未知事例集合統計算出部３１ｄと、統合統計スケール算出部３１ｅとを備える。ここで、既知事例集合統計算出部３１ｃと、未知事例集合統計算出部３１ｄと、統合統計スケール算出部３１ｅとは、特許請求の範囲に記載の「スケール算出手順」に対応する。なお、各部については、以下に詳述する。

既知事例集合統計算出部３１ｃは、既知事例集合における説明変数ごとの平均および分散を算出し、その結果を既知事例集合統計記憶部２１ｃに記憶する。すなわち、既知事例集合（事例数：ｎ）における説明変数ごとの平均「μ（ｊ）」および標準偏差「σ（ｊ）」を算出する。具体的には、図８の（Ａ）に示す、データ名：１〜９の「年齢（単位：才）、ｊ＝１」および「年収（単位：万円）、ｊ＝２」の２つの説明変数それぞれについて平均「μ（１）＝４０およびμ（２）＝４００」と標準偏差「σ（１）＝８．２およびσ（２）＝８２」とを算出する。

未知事例集合統計算出部３１ｄは、未知事例集合における説明変数ごとの平均および分散を算出し、その結果を未知事例集合統計記憶部２１ｄに記憶する。すなわち、未知事例集合（事例数：ｍ）における説明変数ごとの平均「ν（ｊ）」および標準偏差「δ（ｊ）」を算出する。具体的には、図８の（Ａ）に示すデータ名：Ｕ１の「年齢（単位：才）、ｊ＝１」および「年収（単位：万円）、ｊ＝２」の２つの説明変数それぞれについて、平均「ν（１）＝５０およびν（２）＝８００」と標準偏差「δ（１）＝０およびδ（２）＝０」とを算出する。

統合統計スケール算出部３１ｅは、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。すなわち、既知事例集合と未知事例集合とを合わせた集合における説明変数値の標準偏差（図８の（Ｂ）を参照）を、図８の（Ｃ）に示す式を用いて算出する。具体的には、既知事例集合統計記憶部２１ｃが記憶する既知事例集合における説明変数ごとの平均および分散と、未知事例集合統計記憶部２１ｄが記憶する未知事例集合における説明変数ごとの平均および分散とを、図８の（Ｃ）に示す式に代入して、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。

より具体的に例を挙げれば、「年齢（単位：才）、ｊ＝１」のスケールを、図８の（Ｃ）に示す式に「μ（１）＝４０、σ（１）＝８．２、ν（１）＝５０、δ（１）＝０」を代入して「ｓ（１）＝８．３」と算出し、「年収（単位：万円）、ｊ＝２」のスケールを、同様に、「μ（２）＝４００、σ（２）＝８２、ν（２）＝８００、δ（２）＝０」を代入して「ｓ（２）＝１４３」と算出する。

［実施例２におけるスケール算出装置による処理の手順］
次に、図１０を用いて、実施例２におけるスケール算出装置１００による処理を説明する。図１０は、実施例２におけるスケール算出装置の処理の手順を示す図である。

まず、実施例２におけるスケール算出装置１００では、既知事例集合と未知事例集合とのデータが入力されると（ステップＳ１００１肯定）、既知事例集合統計算出部３１ｃは、既知事例集合における平均および分散を説明変数ごとに算出する（ステップＳ１００２）。すなわち、既知事例集合（事例数：ｎ）における説明変数ごとの平均「μ（ｊ）」および標準偏差「σ（ｊ）」を算出する。

続いて、未知事例集合統計算出部３１ｄは、未知事例集合における平均および分散を説明変数ごとに算出する（ステップＳ１００３）。すなわち、未知事例集合（事例数：ｍ）における説明変数ごとの平均「ν（ｊ）」および標準偏差「δ（ｊ）」を算出する。

そして、統合統計スケール算出部３１ｅは、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出して（ステップＳ１００４）、処理を終了する。すなわち、既知事例集合（事例数：ｎ）における説明変数ごとの平均「μ（ｊ）」および標準偏差「σ（ｊ）」と、未知事例集合（事例数：ｍ）における説明変数ごとの平均「ν（ｊ）」および標準偏差「δ（ｊ）」とを、図８の（Ｃ）に示す式に代入して、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。

［実施例２の効果］
上記したように、実施例２によれば、既知事例集合と未知事例集合とを合わせた集合において、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出するので、既知事例集合の説明変数の標準偏差をスケールとするよりも、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、実施例２によれば、既知事例集合と未知事例集合とを合わせた新たな集合からスケールを算出する以外に、既知事例集合および未知事例集合をそれぞれ統計処理することによって得られる平均と標準偏差とによってスケールを算出できるので、例えば、１つの既知事例集合において平均と標準偏差とを算出しておけば、様々な未知事例集合に対して予測を行なう場合でも、未知事例集合ごとに平均と標準偏差とを算出するだけでスケールを算出でき、速やかで高精度な予測結果を実現することが可能になる。

上述した実施例１と２では、既知事例集合と未知事例集合とを合わせた集合からスケールを算出する場合について説明したが、実施例３では、各説明変数において、全未知事例と全既知事例と間の説明変数間距離の二乗の平均が一定値となるようにスケールを算出する場合について説明する。

［実施例３におけるスケール算出装置の概要および特徴］
まず最初に、図１１を用いて、実施例３におけるスケール算出装置の主たる特徴を具体的に説明する。図１１は、実施例３におけるスケール算出装置の概要および特徴を説明するための図である。

実施例３におけるスケール算出装置は、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の平均がすべての説明変数において一定値となるように、説明変数ごとにスケールを算出する。例えば、図１１の（Ａ）に示す式を用いて説明変数ごとのスケールを算出することで、全未知事例と全既知事例と間の説明変数間距離の二乗の平均は、すべての説明変数において「１」となる。すなわち、説明変数「ｊ」番目のスケール「ｓ（ｊ）」を、図１１の（Ａ）で示す式のように、「ａ（１，ｊ）〜ａ（ｎ，ｊ）」と「ｂ（１，ｊ）〜ｂ（ｍ，ｊ）」とのすべての組み合わせ（「ｎ」ｘ「ｍ」種類）における「差：ａ（ｉ，ｊ）―ｂ（ｌ，ｊ）」を用いて算出する。

例えば、実施例１と同様に、図５の（Ａ）に示す既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（図８の（Ａ）を参照）において、ａ（１，ｊ）〜ａ（９，ｊ）それぞれとｂ（１，ｊ）との差を二乗した値を合計した値を「１ｘ９＝９」で割った値の平方根をスケールとして、「年齢（単位：才）：ｊ＝１」および「年収（単位：万円）：ｊ＝２」それぞれについて算出する。

ところで、図１１の（Ａ）で示す式は、説明変数「ｊ」番目についての、既知事例集合（事例数：ｎ）における平均「μ（ｊ）」および標準偏差「σ（ｊ）」と未知事例集合（事例数：ｍ）における平均「ν（ｊ）」および標準偏差「δ（ｊ）」を使うと、図１１の（Ｂ）で示す式と同様であり、既知事例集合の説明変数ごとの平均および標準偏差と、未知事例集合の説明変数ごとの平均および標準偏差とをそれぞれ算出しておき、これらを使って説明変数ごとのスケールを算出することができる。

すなわち、実施例３におけるスケール算出装置は、図１１の（Ａ）もしくは（Ｂ）で示す式により、「年齢（単位：才）：ｊ＝１」のスケール「ｓ（１）」を「１２．９」と算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」を「４０１」と算出する。

このスケールを用いて、実施例１および２と同様に、既知事例集合と未知事例集合とのすべての組み合わせにおける事例間距離から、図１１の（Ｃ）に示すように、事例間距離の値が小さい順に「ｋ＝３」個の既知事例として、目的変数がすべて「する」である既知事例（データ名：９、６、８）が類似事例集合として抽出され、確信度「ｐ（する）」は「１００％」となる。なお、図１１の（Ｃ）における「事例間距離」の列には、図３の（Ａ）および（Ｂ）に示す式に具体的な数値が代入された計算式とその計算結果とを共に示している。

このようなことから、実施例３におけるスケール算出装置は、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。なお、上記の例では、未知事例集合の未知事例数が１つの場合を説明したが、未知事例数が複数の場合でも、同様に統合集合から説明変数ごとのスケールを算出して、未知事例ごとに予測をすることは可能である。

［実施例３におけるスケール算出装置の構成］
次に、図９を用いて、実施例３におけるスケール算出装置を説明する。図９は、実施例２におけるスケール算出装置の構成を示すブロック図である。同図に示すように、実施例３におけるスケール算出装置１００は、実施例２における追スケール算出装置１００と同様の構成であるが、統合統計スケール算出部３１ｅの処理内容が異なる。以下、これを中心に説明する。なお、スケール算出後における各部（図２に示す、事例間距離記憶部２２、類似事例集合記憶部２３、事例間距離算出部３２、類似事例集合抽出部３３および確信度算出部３４）の構成と処理内容とは、上述した図２におけるものと同じなので説明を省略する。

統合統計スケール算出部３１ｅは、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の平均がすべての説明変数において一定値となるように、説明変数ごとにスケールを算出して、その結果を統合統計スケール記憶部２１ｅに記憶する。例えば、図１１の（Ｂ）に示す式を用いて説明変数ごとのスケールを算出することで、全未知事例と全既知事例と間の説明変数間距離の二乗の平均は、すべての説明変数において「１」となる。

具体的には、既知事例集合統計記憶部２１ｃが記憶する既知事例集合における説明変数ごとの平均および分散と、未知事例集合統計記憶部２１ｄが記憶する未知事例集合における説明変数ごとの平均および分散とを、図１１の（Ｂ）に示す式に代入して、説明変数値の標準偏差を当該説明変数のスケールとして説明変数ごとに算出する。

より具体的には、図５の（Ａ）に示す既知事例集合と未知事例集合とを合わせた集合（図８の（Ａ）を参照）において、「年齢（単位：才）、ｊ＝１」のスケールを、図１１の（Ｂ）に示す式に「μ（１）＝４０、σ（１）＝８．２、ν（１）＝５０、δ（１）＝０」を代入してｓ（１）＝１２．９と算出し、「年収（単位：万円）、ｊ＝２」のスケールを、同様に、「μ（２）＝４００、σ（２）＝８２、ν（２）＝８００、δ（２）＝０」を代入してｓ（２）＝４０１と算出する。

［実施例３におけるスケール算出装置による処理の手順］
次に、図１０を用いて、実施例３におけるスケール算出装置１００による処理を説明する。図１０は、実施例２におけるスケール算出装置の処理の手順を示す図である。

実施例３におけるスケール算出装置１００の処理の手順は、図１０に示すステップＳ１００３における統合統計スケール算出部３１ｅによる処理内容が異なる以外は、実施例２におけるスケール算出装置１００の処理の手順と同じである。

すなわち、実施例３における統合統計スケール算出部３１ｅは、図１０に示すステップＳ１００３において、既知事例集合おける説明変数ごとの平均および標準偏差と、未知事例集合における説明変数ごとの平均および標準偏差とを、図８の（Ｃ）ではなく、図１１の（Ｂ）に示す式に代入してスケールを説明変数ごとに算出する。

［実施例３の効果］
上記したように、実施例３によれば、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の平均がすべての説明変数において一定値「１」となるように、スケールを説明変数ごとに算出するので、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。

また、実施例３によれば、既知事例集合と未知事例集合とを合わせた新たな集合からスケールを算出する以外に、既知事例集合および未知事例集合をそれぞれ統計処理することによって得られる平均と標準偏差とによってスケールを算出できるので、例えば、１つの既知事例集合において平均と標準偏差とを算出しておけば、様々な未知事例集合に対して予測を行なう場合でも、未知事例集合ごとに平均と標準偏差とを算出するだけでスケールを算出でき、速やかで高精度な予測結果を実現することが可能になる。

上述した実施例３では、全未知事例と全既知事例と間の説明変数間距離の二乗の平均が一定値となるようにスケールを算出する場合について説明したが、実施例４では、全未知事例と全既知事例間の説明変数間距離の二乗の標準偏差が一定値となるようにスケールを算出する場合について説明する。

［実施例４におけるスケール算出装置の概要および特徴］
まず最初に、図１２を用いて、実施例４におけるスケール算出装置の主たる特徴を具体的に説明する。図１２は、実施例４におけるスケール算出装置の概要および特徴を説明するための図である。

実施例４におけるスケール算出装置は、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の標準偏差がすべての説明変数において一定値となるように、スケールを前記説明変数ごとに算出する。例えば、図１２の（Ａ）に示す式を用いて説明変数ごとのスケールを算出することで、全未知事例と全既知事例間の説明変数間距離の二乗の標準偏差は、すべての説明変数において「１」となる。すなわち、説明変数「ｊ」番目のスケール「ｓ（ｊ）」を、図１２の（Ａ）で示す式のように、「ａ（１，ｊ）〜ａ（ｎ，ｊ）」と「ｂ（１，ｊ）〜ｂ（ｍ，ｊ）」とのすべての組み合わせ（「ｎ」ｘ「ｍ」種類）における「差：ａ（ｉ，ｊ）―ｂ（ｌ，ｊ）」の二乗値の標準偏差を用いて算出する。

例えば、実施例１と同様に、図５の（Ａ）に示す既知事例集合（事例数：ｎ＝９、データ名：１〜９）と未知事例集合（事例数：ｍ＝１、データ名：Ｕ１）とを合わせた集合（図８の（Ａ）を参照）において、ａ（１，ｊ）〜ａ（９，ｊ）それぞれとｂ（１，ｊ）との差を二乗した値（９種類）における標準偏差の平方根をスケールとして、「年齢（単位：才）：ｊ＝１」および「年収（単位：万円）：ｊ＝２」それぞれについて算出する。これにより、「年齢（単位：才）：ｊ＝１」のスケール「ｓ１）」を「１３．０」と算出し、「年収（単位：万円）：ｊ＝２」のスケール「ｓ（２）」を「５１１」と算出する。

このスケールを用いて、実施例１〜３と同様に、既知事例集合と未知事例集合とのすべての組み合わせにおける事例間距離から、図１２の（Ｂ）に示すように、事例間距離の値が小さい順に「ｋ＝３」個の既知事例として、目的変数がすべて「する」である既知事例（データ名：９、６、８）が類似事例集合として抽出され、確信度「ｐ（する）」は「１００％」となる。なお、図１２の（Ｂ）における「事例間距離」の列には、図３の（Ａ）および（Ｂ）に示す式に具体的な数値が代入された計算式とその計算結果とを共に示している。

このようなことから、実施例４におけるスケール算出装置は、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。なお、上記の例では、未知事例集合の未知事例数が１つの場合を説明したが、未知事例数が複数の場合でも、同様に統合集合から説明変数ごとのスケールを算出して、未知事例ごとに予測をすることは可能である。

［実施例４におけるスケール算出装置の構成］
次に、図６を用いて、実施例４におけるスケール算出装置を説明する。図６は、実施例１におけるスケール算出装置の構成を示すブロック図である。同図に示すように、実施例４におけるスケール算出装置１００は、実施例１における追スケール算出装置１００と同様の構成であるが、統合スケール算出部３１ｂの処理内容が異なる。以下、これを中心に説明する。なお、スケール算出後における各部（図２に示す、事例間距離記憶部２２、類似事例集合記憶部２３、事例間距離算出部３２、類似事例集合抽出部３３および確信度算出部３４）の構成と処理内容とは、上述した図２におけるものと同じなので説明を省略する。

統合スケール算出部３１ｂは、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の標準偏差がすべての説明変数において一定値となるように、スケールを前記説明変数ごとに算出して、その結果を統合スケール記憶部２１ｂに記憶する。例えば、図１２の（Ａ）に示す式を用いて説明変数ごとのスケールを算出することで、全未知事例と全既知事例と間の説明変数間距離の二乗の平均は、すべての説明変数において「１」となる。

［実施例４におけるスケール算出装置による処理の手順］
次に、図７を用いて、実施例４におけるスケール算出装置１００による処理を説明する。図７は、実施例１におけるスケール算出装置の処理の手順を示す図である。

実施例４におけるスケール算出装置１００の処理の手順は、図７に示すステップＳ７０３における統合スケール算出部３１ｂによる処理内容が異なる以外は、実施例１におけるスケール算出装置１００の処理の手順と同じである。

すなわち、実施例４における統合スケール算出部３１ｂは、図７に示すステップＳ７０３において、図１２の（Ａ）に示す式を用いて説明変数ごとのスケールを、全未知事例と全既知事例と間の説明変数間距離の二乗の平均は、すべての説明変数において「１」となるように算出する。

［実施例４の効果］
上記したように、実施例４によれば、既知事例集合のすべての既知事例と未知事例集合のすべての未知事例との組み合わせにおける説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値「１」となるように、スケールを説明変数ごとに算出するので、各説明変数の数値が有する分布をさらに揃えるスケールを算出でき、高精度な予測結果を実現することが可能になる。

さて、これまで実施例１〜４におけるスケール算出装置について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてもよいものである。そこで、以下では、実施例５におけるスケール算出装置として、種々の異なる実施例を（１）〜（４）に区分けして説明する。

（１）既知事例集合と未知事例集合とを合わせた集合（統合集合）
上記の実施例１〜４では、既知事例集合と未知事例集合とを合わせた集合において、説明変数ごとにスケールを算出する場合について説明したが、本発明はこれに限定されるものではなく、未知事例集合から１つの未知事例を予測対象として順次抽出し、当該１つの未知事例と既知事例集合とを合わせた集合において、説明変数ごとにスケールを算出する場合であってもよい。

すなわち、「ｎ個の既知事例」からなる既知事例集合と「ｍ個の未知事例」からなる未知事例集合において、「ｎ個の既知事例」における説明変数値と「ｍ個の未知事例」における説明変数値から、説明変数ごとにスケールを算出するのではなく、予測対象となる「１つの未知事例」を未知事例集合から順次抽出し、「ｎ個の既知事例」からなる既知事例集合と「１個の未知事例」からなる未知事例集合を合わせた、「ｎ＋１」個の事例からなる、仮の統合集合において、「ｎ個の既知事例」における説明変数値と「１個の未知事例」における説明変数値とから、説明変数ごとにスケールを算出する。

これにより、例えば、未知事例それぞれが別々の説明変数において外れ値を持つ場合に生じる影響を排除して、個別の未知事例におけるスケールを算出でき、高精度な予測結果を実現することが可能になる。また、予測したい未知事例が複数なくても個別の未知事例におけるスケールを算出でき、速やかで高精度な予測結果を実現することが可能になる。

（２）未知事例集合
上記の実施例１〜４では、既知事例集合と未知事例集合とを合わせた集合において、説明変数ごとにスケールを算出する場合について説明したが、本発明はこれに限定されるものではなく、外れ値が存在する説明変数の項目に基づいて未知事例集合をさらに未知事例部分集合に分類し、未知事例部分集合ごとに既知事例集合と合わせた集合を生成して、生成した集合ごとにスケールを説明変数それぞれについて算出する場合であってもよい。

これにより、例えば、未知事例それぞれが別々の説明変数において外れ値を持つ場合に生じる影響を排除して、外れ値の存在する傾向が似通った未知事例の部分集合ごとにスケールを算出でき、高精度な予測結果を実現することが可能になる。

（３）システム構成等
また、上記の実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動でおこなうこともでき（例えば、確信度を自動的に算出するのではなく、ユーザが類似事例集合のテーブルを参照して未知事例ごとに予測するなど）、あるいは、手動的におこなうものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。例えば、この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報（例えば、類似事例として抽出する既知事例の数「ｋ」など）については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各処理部および各記憶部の分散・統合の具体的形態（例えば、図９の形態など）は図示のものに限られず、例えば、既知事例集合統計算出部３１ｃと未知事例集合統計算出部３１ｄとを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（４）スケール算出プログラム
ところで上記の実施例１〜４では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行するようにしてもよい。そこで以下では、図１３を用いて、上記の実施例１に示したスケール算出装置１００と同様の機能を有するスケール算出プログラムを実行するコンピュータの一例を説明する。図１３は、実施例１におけるスケール算出プログラムを実行するコンピュータを示す図である。

図１３に示すように、情報処理装置としてのコンピュータ１３０は、キーボード１３１、ディスプレイ１３２、ＣＰＵ１３３、ＲＯＭ１３４、ＨＤＤ１３５およびＲＡＭ１３６をバス１３７などで接続して構成される。

ＲＯＭ１３４には、上記の実施例１に示したスケール算出装置１００と同様の機能を発揮するスケール算出プログラム、つまり、図１３に示すように、統合集合生成プログラム１３４ａ、統合スケール算出プログラム１３４ｂが予め記憶されている。なお、これらのプログラム１３４ａおよび１３４ｂについては、図６に示したスケール算出装置１００の各構成要素と同様、適宜統合または分散してもよい。

そして、ＣＰＵ１３３が、これらのプログラム１３４ａおよび１３４ｂをＲＯＭ１３４から読みだして実行することで、図１３に示すように、各プログラム１３４ａおよび１３４ｂは、統合集合生成プロセス１３３ａ、統合スケール算出プロセス１３３ｂとして機能するようになる。なお、各プロセス１３３ａおよび１３３ｂは、図６に示した、統合集合生成部３１ａ、統合スケール算出部３１ｂにそれぞれ対応する。

また、ＨＤＤ１３５には、図１３に示すように、既知事例集合データ１３５ａと、未知事例集合データ１３５ｂとが設けられる。そしてＣＰＵ１３３は、既知事例集合データ１３６ａを既知事例集合データ１３５ａに対して登録し、未知事例集合データ１３６ｂを未知事例集合データ１３５ｂに対して登録し、この既知事例集合データ１３６ａと、未知事例集合データ１３６ｂとを読み出してＲＡＭ１３６に格納し、ＲＡＭ１３６に格納された既知事例集合データ１３６ａと、未知事例集合データ１３６ｂとに基づいてスケール算出処理を実行する。また、ＲＡＭ１３６には、スケール算出処理の過程で算出される統合集合データ１３６ｃと、統合スケールデータ１３６ｄとが記憶されて、ＣＰＵ１３３はこれも利用して、スケール算出処理を実行する。

なお、上記した各プログラム１３４ａおよび１３４ｂについては、必ずしも最初からＲＯＭ１３４に記憶させておく必要はなく、例えばコンピュータ１３０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータ１３０の内外に備えられるＨＤＤなどの「固定用物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１３０に接続される「他のコンピュータ（またはサーバ）」などに各プログラムを記憶させておき、コンピュータ１３０がこれらから各プログラムを読み出して実行するようにしてもよい。

（付記１）数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数それぞれにおける前記数値の分布を揃えて前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数ごとに前記スケールを算出するスケール算出手順と、
前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、
をコンピュータに実行させることを特徴とするスケール算出プログラム。

（付記２）前記スケール算出手順は、前記既知事例集合と前記未知事例集合とを合わせた集合において、前記説明変数の前記数値の最大値と前記数値の最小値との差を当該説明変数の前記スケールとして前記説明変数ごとに算出することを特徴とする付記１に記載のスケール算出プログラム。

（付記３）前記スケール算出手順は、前記既知事例集合と前記未知事例集合とを合わせた集合において、前記説明変数の前記数値の標準偏差を当該説明変数の前記スケールとして前記説明変数ごとに算出することを特徴とする付記１に記載のスケール算出プログラム。

（付記４）前記スケール算出手順は、前記既知事例集合のすべての前記既知事例と前記未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の平均がすべての前記説明変数において一定値となるように、前記スケールを前記説明変数ごとに算出することを特徴とする付記１に記載のスケール算出プログラム。

（付記５）前記スケール算出手順は、前記既知事例集合のすべての前記既知事例と前記未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値となるように、前記スケールを前記説明変数ごとに算出することを特徴とする付記１に記載のスケール算出プログラム。

（付記６）前記スケール算出手順は、前記未知事例集合から１つの未知事例を予測対象として順次抽出し、当該１つの未知事例と前記既知事例集合とを合わせた集合において、前記説明変数ごとに前記スケールを算出することを特徴とする付記１〜５に記載のスケール算出プログラム。

（付記７）数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数それぞれにおける前記数値の分布を揃えて前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数ごとに前記スケールを算出するスケール算出手段と、
前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、
を備えたことを特徴とするスケール算出装置。

（付記８）数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数それぞれにおける前記数値の分布を揃えて前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数ごとに前記スケールを算出するスケール算出工程と、
前記スケール算出工程によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持工程と、
を含んだことを特徴とするスケール算出方法。

以上のように、本発明に係るスケール算出プログラム、スケール算出装置およびスケール算出方法は、既知事例と未知事例との間におけるすべての説明変数間距離から求まる事例間距離に基づき類似事例集合を抽出して当該未知事例の目的変数値を予測する際に、説明変数値の分布を揃えるために用いられるスケールを説明変数ごとに算出する場合に有用であり、特に、未知事例の説明変数の数値が外れ値である場合にも対応したスケールを算出して、高精度な予測結果を実現することに適する。

実施例１で使用する記号を説明するための図である。実施例１におけるスケール算出装置を含む予測装置の構成を示すブロック図である。実施例１における事例間距離算出部を説明するための図である。実施例１における確信度算出部を説明するための図である。実施例１におけるスケール算出装置の概要および特徴を説明するための図である。実施例１におけるスケール算出装置の構成を示すブロック図である。実施例１におけるスケール算出装置の処理の手順を説明するための図である。実施例２におけるスケール算出装置の概要および特徴を説明するための図である。実施例２におけるスケール算出装置の構成を示すブロック図である。実施例２におけるスケール算出装置の処理の手順を説明するための図である。実施例３におけるスケール算出装置の概要および特徴を説明するための図である。実施例４におけるスケール算出装置の概要および特徴を説明するための図である。実施例１のスケール算出プログラムを実行するコンピュータを示す図である。従来技術の課題を説明するための図である。

符号の説明

１０予測装置
１１データ入力部
１２予測結果出力部
１３入出力制御Ｉ／Ｆ部
２０記憶部
２１スケール記憶部
２２事例間距離記憶部
２３類似事例集合記憶部
３０処理部
３１スケール算出部
３２事例間距離算出部
３３類似事例集合抽出部
３４確信度算出部
１００スケール算出装置
２１ａ統合集合記憶部
２１ｂ統合スケール記憶部
３１ａ統合集合生成部
３１ｂ統合スケール算出部

Claims

数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の最大値と前記数値の最小値との差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出するスケール算出手順と、
前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、
をコンピュータに実行させることを特徴とするスケール算出プログラム。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の標準偏差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出するスケール算出手順と、
前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、
をコンピュータに実行させることを特徴とするスケール算出プログラム。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の平均がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手順と、
前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、
をコンピュータに実行させることを特徴とするスケール算出プログラム。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法をコンピュータに実行させるスケール算出プログラムであって、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手順と、
前記スケール算出手順によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手順と、
をコンピュータに実行させることを特徴とするスケール算出プログラム。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の最大値と前記数値の最小値との差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出するスケール算出手段と、
前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、
を備えたことを特徴とするスケール算出装置。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の標準偏差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出するスケール算出手段と、
前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、
を備えたことを特徴とするスケール算出装置。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の平均がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手段と、
前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、
を備えたことを特徴とするスケール算出装置。
数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出装置であって、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出するスケール算出手段と、
前記スケール算出手段によって算出された前記説明変数ごとの前記スケールを格納して保持する算出スケール保持手段と、
を備えたことを特徴とするスケール算出装置。
コンピュータが、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、
前記コンピュータが、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の最大値と前記数値の最小値との差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出し、
前記算出した前記説明変数ごとの前記スケールを記憶部に格納する、
ことを特徴とするスケール算出方法。
コンピュータが、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、
前記コンピュータが、
前記既知事例の集合である既知事例集合と前記未知事例の集合である未知事例集合とを合わせた集合において、前記説明変数の前記数値の標準偏差を、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールとして、前記説明変数ごとに算出し、
前記算出した前記説明変数ごとの前記スケールを記憶部に格納する、
ことを特徴とするスケール算出方法。
コンピュータが、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、
前記コンピュータが、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の平均がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出し、
前記算出した前記説明変数ごとの前記スケールを記憶部に格納する、
ことを特徴とするスケール算出方法。
コンピュータが、数値で表現される説明変数と文字列で表現される目的変数とからなる事例において、前記目的変数の値が既知の事例である既知事例と前記目的変数の値が未知の事例である未知事例との間における前記説明変数ごとの距離である説明変数間距離から求まる事例間距離に基づき前記未知事例と類似した前記既知事例を抽出して当該未知事例の前記目的変数の値を予測する際に、前記説明変数間距離を算出するために用いられるスケールを前記説明変数ごとに算出するスケール算出方法であって、
前記コンピュータが、
前記既知事例の集合である既知事例集合のすべての前記既知事例と前記未知事例の集合である未知事例集合のすべての前記未知事例との組み合わせにおける前記説明変数間距離の二乗の標準偏差がすべての前記説明変数において一定値となるように、前記説明変数それぞれにおける前記数値の分布を揃えるための値であり、前記説明変数間距離を算出する際に前記既知事例の説明変数の数値と前記未知事例の当該説明変数の数値との差分値の絶対値を除算するための値である前記スケールを、前記説明変数ごとに算出し、
前記算出した前記説明変数ごとの前記スケールを記憶部に格納する、
ことを特徴とするスケール算出方法。