JP5889759B2

JP5889759B2 - 欠損値予測装置、欠損値予測方法、欠損値予測プログラム

Info

Publication number: JP5889759B2
Application number: JP2012209403A
Authority: JP
Inventors: 央倉沢; 浩史佐藤; 山本　淳; 淳山本; 仁史川崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2016-03-22
Anticipated expiration: 2032-09-24
Also published as: JP2014063432A

Description

本発明は、不完全データの欠損値を予測する、欠損値予測装置、欠損値予測方法、欠損値予測プログラムに関する。

データを失ったり観測できなかったりして、データの一部を欠損してしまうことはたびたび起こりうる。このような欠損を含むデータを不完全データとよぶ。この不完全データの欠損部分を再現する技術が欠損値予測技術である。例えば、各ユーザが携帯するセンサにより観測されたセンシングデータを共有して活用する、ユーザ参加型のセンシング環境では、いつどこで観測されるかは各センサを携帯するユーザの移動や行動に依存するため、すべての時空間のセンサ値を確実に得ることは難しい。さらに、ユーザが携帯するセンサは一様でないため、すべての種類のセンサ値を得ることも難しい。それゆえ、参加型センシング環境で集めたセンサデータは、時空間で整理すると、各ユーザの不確実なセンシング行為に起因して、時刻や場所、センサの種類の欠損を含んでしまう。欠損値予測技術は、このようなユーザ参加型のセンシング環境おいて欠測してしまった時間や場所の値を予測する際に使われる。

欠損値予測技術が対象とする不完全データの形式として、２つ以上の変数の値から構成されたレコードの群において、一部もしくはすべてのレコードでそれぞれ１つ以上の変数値が欠けているものがある。例えば、「時刻」や「緯度」、「経度」、「温度」、「湿度」、「降水量」、「紫外線」の７つの変数から構成されたレコード群において、「時刻」と「緯度」、「経度」の３つの変数値しか含まないレコードや、「時刻」と「温度」、「湿度」、「降水量」の４つの変数値を含むレコードなどが混在している、各レコードが必ずしもすべての変数値を含まないデータである。

一般に欠損の生じ方は、ＭｉｓｓｉｎｇＣｏｍｐｌｅｔｅｌｙＡｔＲａｎｄｏｍ（ＭＣＡＲ）、ＭｉｓｓｉｎｇＡｔＲａｎｄｏｍ（ＭＡＲ）、そして、ＭｉｓｓｉｎｇＮｏｔＡｔＲａｎｄｏｍ（ＭＮＡＲ）の３つに分類される（例えば、非特許文献１）。１つめは完全にランダムに欠損する場合を、２つめは欠損値そのものに依存せず他の要因で欠損する場合を、３つめは欠損値そのものに依存して欠損する場合を表す。このうち、ＭＣＡＲとＭＡＲは欠損が値に関係なく生じるという共通の特徴をもつため、同じ欠損値予測技術を適用できる。上述のユーザ参加型のセンシング環境を例に挙げると、センサの値に依存せずユーザの移動に依存して欠損が生じていれば、ＭＣＡＲかＭＡＲに分類される。言い換えると、気温が３０度以上のときに「温度」という変数の値が欠損する場合はＭＮＡＲになるが、ユーザの参加の有無がランダムに変化する場合はＭＣＡＲであり、「時刻」や「緯度」、「経度」といった「温度」以外の変数がある値の範囲に含まれるときに「温度」の変数値が欠損する場合はＭＡＲである。

ＭＣＡＲとＭＡＲを対象とした欠損値の予測は、予測したい変数の値を含んだレコード群を使って、予測したい変数とそれ以外の変数との間の関係性や、予測したい変数の分布を分析することで実現される。この予測に使うレコード群のことを学習データと呼ぶ。不完全データで欠損値予測するとき、各レコードが必ずしもすべての変数値を含まないため、学習データとしてどのレコードを使うかという問題が生じる。例えば、「時刻」や「緯度」、「経度」、「温度」、「湿度」、「降水量」、「紫外線」の７つの変数から構成されたレコード群の不完全データで「温度」の欠損値を予測したいとき、「温度」の変数値を含むレコード群が学習データの候補となる。この候補の中から学習データとして、７つの変数値すべてを含むレコードを使うか、「温度」と「湿度」の２つの変数値が揃ったレコードを使うか、といったように解析方法によって学習データの選択方法が異なる。

不完全データからの欠損値予測における学習データの選択方法は大きく２つに分類される（例えば、非特許文献１参照。）。１つめは、一箇所でも欠損しているレコード群を無視して、すべての値が揃ったレコード群を予測の学習データとして使うＬｉｓｔｗｉｓｅｄｅｌｅｔｉｏｎｍｅｔｈｏｄである。これは処理が簡潔にすむという利点があるが、予測に使える学習データ量が減ってしまう欠点がある。もう１つは、事前に選択した変数の値がすべて揃ったレコード群を学習データとして使うＰａｉｒｗｉｓｅｄｅｌｅｔｉｏｎｍｅｔｈｏｄである。これは予測に使う変数を限ることで学習データの量を増やせる利点があるが、予測精度の向上に寄与する変数に絞り込むのが難しい欠点がある。

欠損値予測の精度は学習データの量と質に左右される。学習データの量とは、予測に使うレコード数である。量が多いほど予測のノイズを減らすことができ、精度が向上する。一方、学習データの質とは、予測に使うレコード群と予測したい値との相関性の度合いである。質が高いほど予測の分析がしやすくなり、精度が向上する。

欠損値の予測精度を向上するために、予測に使う学習データの量を増やすのと同時に質を高めることが求められる。学習データの選択方法のうち、Ｌｉｓｔｗｉｓｅｄｅｌｅｔｉｏｎｍｅｔｈｏｄは学習データの質は高いが量は最小になってしまう。Ｐａｉｒｗｉｓｅｄｅｌｅｔｉｏｎｍｅｔｈｏｄは事前に定める変数に依存して学習データの量も質も変化する。どの変数を使って予測するか欠損値ごとに検討が必要となる。

ＪｏｈｎＷ．Ｇｒａｈａｍ， "ＭｉｓｓｉｎｇＤａｔａＡｎａｌｙｓｉｓ：ＭａｋｉｎｇＩｔＷｏｒｋｉｎｔｈｅＲｅａｌＷｏｒｌｄ"，ＡｎｎｕａｌＲｅｖｉｅｗｏｆＰｓｙｃｈｏｌｏｇｙ，Ｖｏｌ．６０，ｐｐ．５４９−５７６，２００９．ＲａｋｅｓｈＡｇｒａｗａｌａｎｄＲａｍａｋｒｉｓｈｎａｎＳｒｉｋａｎｔ， "ＦａｓｔＡｌｇｏｒｉｔｈｍｓｆｏｒＭｉｎｉｎｇＡｓｓｏｃｉａｔｉｏｎＲｕｌｅｓ"，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ（ＶＬＤＢ１９９４），ｐｐ．４８７−４９９，１９９４．ＲｏｂｅｒｔｏＪ．Ｂａｙａｒｄｏ，Ｊｒ．， "ＥｆｆｉｃｉｅｎｔｌｙＭｉｎｉｎｇＬｏｎｇＰａｔｔｅｒｎｓｆｒｏｍＤａｔａｂａｓｅｓ"，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９８ＡＣＭＳＩＧＭＯＤｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆｄａｔａ，ｐｐ．８５−９３，１９９８．ＲｏｂｅｒｔＴｉｂｓｈｉｒａｎｉ， "ＲｅｇｒｅｓｓｉｏｎＳｈｒｉｎｋａｇｅａｎｄＳｅｌｅｃｔｉｏｎＶｉａｔｈｅＬａｓｓｏ"，ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ，ＳｅｒｉｅｓＢ，Ｖｏｌ．５８，ｐｐ．２６７−２８８，１９９６．Ｈ．Ａｋａｉｋｅ， "Ａｎｅｗｌｏｏｋａｔｔｈｅｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｉｄｅｎｔｉｆｉｃａｔｉｏｎ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｔｏｍａｔｉｃＣｏｎｔｒｏｌ，Ｖｏｌ．１８，Ｉｓｓｕｅ６，ｐｐ．７１６−７２３，１９７４．Ｇ．Ｓｃｈｗａｒｚ， "ＥｓｔｉｍａｔｉｎｇｔｈｅＤｉｍｅｎｓｉｏｎｏｆａＭｏｄｅｌ"，ＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，Ｖｏｌ．６，Ｎｏ．２，ｐｐ．４６１−４６４，１９７８．

本発明では、上記のＰａｉｒｗｉｓｅｄｅｌｅｔｉｏｎｍｅｔｈｏｄにおいて予測精度の向上に寄与する変数に絞り込むことを課題とする。本発明は、欠損値の予測精度の向上を目的として予測に使う学習データの量と質を同時に高めるものである。

学習データの量を増やすには、変数ごとの欠損の確率について検討が必要となる。もし変数ごとに欠損の確率が異なる場合は、選択する変数によって学習データの量も異なる。例えば、高い確率で欠損している変数を予測に使うと、学習データの量はとても減る。また、低い確率で欠損している変数を予測に使わないことにしても、学習データの量はほとんど増えない。この欠損確率を得るにあたって、厳密に変数の組み合わせと学習データの量との関係を算出する手法として頻出アイテム集合マイニングのアプリオリ法（例えば、非特許文献２）やバックトラック法（例えば、非特許文献３）がある。

一方、学習データの質を高めるには、学習データから予測したい欠損値と相関性の高い変数を選択することが求められる。この相関性を測る際に、学習データに最適化をすると過適合を引き起こすことが一般に知られている。そこで予測したい欠損値と相関性の低い変数を予測の分析対象から排除するため、正則化と呼ばれる手法（例えば、非特許文献４）が提案されている。

上述の従来手法では、学習データの量と質のどちらか一方のみを検討するにとどまり、欠損値の予測精度の向上のため学習データの量と質を同時に高めた変数選択は難しい。例えば、学習データの量を増やすのに有効な欠損確率の低い変数を選択をしても、その変数が予測したい欠損値と相関性が低ければ、予測精度の向上に貢献しない。また、予測したい欠損値と相関性の高い変数を選択しても、その変数の欠損確率が大きければ、予測精度の向上に貢献しない。

本発明は、上記課題を解消するためになされたものであり、不完全データにおける欠損値の予測精度の向上を目的として、予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択することができる欠損値予測装置、欠損値予測方法、欠損値予測プログラムを提供することにある。

上記目的を達成するために、本発明の欠損値予測装置は、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付部と、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析部と、重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測部と、を備え、前記集約部が行う処理と前記回帰分析部が行う処理とを複数回繰り返すことによって、前記集約部の２回目以降の処理において、前記回帰分析部における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加することを特徴とする。

この構成によれば、学習データから予測したい欠損値と相関性の高い変数を除くことなく、相関性の低い変数のみを除きながら、学習データの量を増やすように、変数を絞り込むことができる。

また、本発明の欠損値予測装置は、前記回帰分析部の算出した説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価部をさらに備え、前記算出された予測精度が前記設定した条件を満たすまで、前記集約部が行う処理と前記回帰分析部が行う処理とを繰り返してもよい。
この構成によれば、変数の削減と学習データ量の増加という２つの処理による変数絞込みの繰り返し回数を事前に設定した予測精度の条件から決定でき、より予測精度の向上に寄与する変数に絞り込むことができる。

また、本発明の欠損値予測装置は、前前記回帰分析部は、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くしてもよい。
この構成によれば、学習データの中で特に予測の精度向上に寄与するレコードを考慮して予測したい欠損値と各変数との相関性を計算できるので、より予測精度の向上に寄与する変数に絞り込むことができる。

本発明の欠損値予測方法は、要求受付部と集約部と回帰分析部と予測部とを備えた欠損値予測装置が実行する欠損値予測方法であって、前記要求受付部が、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、前記集約部が、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、前記回帰分析部が、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、前記予測部が、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、を有し、前記集約手順と前記回帰分析手順とを複数回繰り返すことによって、２回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
ことを特徴とする。

また、本発明の欠損値予測方法は、前記欠損値予測装置が、予測結果評価部をさらに備え、前記予測結果評価部が、前記回帰分析手順において算出された説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価手順をさらに備え、前記算出された予測精度が前記設定した条件を満たすまで、前記集約手順と前記回帰分析手順とを繰り返してもよい。

また、本発明の欠損値予測方法は、前記回帰分析手順において、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くしてもよい。

具体的には、本発明の欠損値予測プログラムは、不完全データの欠損値を予測する欠損値予測プログラムであって、コンピュータに、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、を実行させ、前記集約手順と前記回帰分析手順とを複数回繰り返させることによって、２回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加させることを特徴とする。

本発明によれば、予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択することができるため、不完全データにおける欠損値の予測精度を向上することができる。

本発明の欠損値予測装置の構成を示す図である。本発明の欠損値予測の要求で入力されるオリジナルレコード群の例を示す図である。本発明の欠損値予測のフローチャート例を示す図である。本発明の欠損値予測の予測課程で生成する解析対象レコード群の第１例を示す図である。本発明の欠損値予測の予測課程で生成する解析対象レコード群の第２例を示す図である。本発明の欠損値予測の予測課程で生成する解析対象レコード群の第３例を示す図である。

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は以下の実施形態に制限されるものではない。

本発明の欠損値予測方法は、集約手順及び予測手順を順に有し、集約手順において不完全データの欠損値を予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択する。本発明の選択方法は、まず学習データから変数のうち予測したい欠損値に相関性の低い変数を除くことで学習データの質を高め、次に残りの相関性の高い変数の値が揃ったデータを新たな学習データとして設定することで学習データの量を増やす、という２つの処理を交互に１回以上実行する。２つの処理の繰り返し処理終了の判断は、事前に設定した回数、もしくは、繰り返しの度に予測値の精度を評価して決める。さらに予測の質を高めるため、予測したい欠損値と変数の相関性を計算する際に予測したい値の近傍にある学習データの重み付けを重くする。

図１に本発明の欠損値予測装置の構成を示す。欠損値予測装置１０は、要求受付部１３、集約部１４、変数選択型回帰分析部１５、予測部１７、予測結果評価部１６、結果応答部１８の各処理部と、第１メモリ１１、第２メモリ１２の各記憶部から構成されている。

図２に本発明の欠損値予測装置に入力されるレコードの例を示す。各レコードはＡからＦまでの変数値から構成されている。「ＮＵＬ」は欠損を意味し、「？」は予測したい値を意味する。例えば、レコードＩＤが１のレコードは、変数ＡからＤまではそれぞれ９．８６、１５．９、７．３１、１．７３の値であり、変数Ｅは予測したい値であり、変数Ｆは欠損している値であることを示している。この場合、レコードＩＤ＝１の変数Ｅが目的変数となる。

以降では、欠損値予測の要求を受け付けて予測値を応答するまでを、図３のフローチャートと各処理部や各記憶部を参照しながら説明する。集約手順ではステップＳ１〜ステップＳ７を実行し、予測手順ではステップＳ８〜ステップＳ９を実行する。

ステップＳ１について説明する。要求受付部１３は、欠損を含むレコード群と予測したい値の要求を受ける。これをオリジナルレコード群として第１メモリ１１に書き込む。

ステップＳ２について説明する。集約部１４は、予測対象である変数の値を求めるべきレコードを「クエリ」、予測したい変数を「目的変数」、欠損していない変数を「説明変数」とする。図２の例では、クエリはＩＤが１のレコード、目的変数は変数Ｅ、説明変数は変数Ａ、Ｂ、Ｃ、Ｄとなる。変数Ｆは欠損しているため、説明変数から除外される。

ステップＳ３について説明する。集約部１４は、第１メモリ１１のオリジナルレコード群のうち、目的変数と説明変数が揃ったレコードを集約し、解析対象レコード群として第１メモリ１１に書き込む。解析対象レコード群は、学習データである。図４に解析対象レコード群の例を示す。図４の例では、目的変数Ｅと説明変数Ａ、Ｂ、Ｃ、Ｄが「ＮＵＬ」又は「？」ではないを含むＩＤが３、４、６のレコードが集約される。つまり、説明変数は４つで学習データは３レコードである。

ステップＳ４について説明する。変数選択型回帰分析部１５は、解析対象レコード群の各レコードに重み付けする。特に、本実施形態においては、重み付けは以下の通り定義する。

ただし、Ｄｉｓｔは距離関数、Ｒは解析対象レコード群、Ｒ_ｉはＩＤがｉのレコード、Ｒ_ｉ（ｖ）はＲ_ｉの変数ｖの値、Ｑはクエリ、Ｑ（ｖ）はＱの変数ｖの値、σ（ｖ）は変数ｖの値の標準偏差、ｒ_ｖは説明変数集合、Ｒａｎｋ（Ｒ_ｉ）はＲ_ｉの近傍評価値、Ｗ（Ｒ_ｉ）はＲ_ｉの重み、ｋは重み付けのパラメータを表す。つまり、クエリからユークリッド距離に基づいて最も類似したｋレコードの重みを１とし、残りを０とした重み付けとなっている。本実施例ではｋ＝１００とする。

なお、本発明のいう重み付けは上記特徴を満たす様々な近傍算出方法がその対象になるものであって、ユークリッド距離に限られない。具体的に一例を挙げると、目的変数すべてを使わずその一部の変数のみを使った近傍算出方法（例えば緯度と経度という変数から計算した距離）や、０と１の２値ではなく距離に応じた多分類の重み付けであってもよい。変数Ａが緯度であり変数Ｂが経度である場合、ＩＤ＝３，４，６の解析対象レコード群のなかからレコードＩＤ＝１の緯度及び経度に最も近い位置にあるレコードＩＤ＝４の重み付けを重くする。これにより、地理的に近い位置にあるレコードに基づいて目的変数を予測することができる。また、距離ではなく類似性を評価できる関数であっても良い。例えば、変数Ｃがセンサの測定値である場合、ＩＤ＝３，４，６の解析対象レコード群のなかからレコードＩＤ＝１の変数Ｃの値に最も近い値を有するレコードＩＤ＝３の重み付けを重くする。これにより、センサの測定値の類似性に基づいて目的変数を予測することができる。

さらに、本発明のいう重み付けの分類基準は予測精度向上に寄与するレコードを選別できればその対象になるものであって、最も類似したｋレコードに限られない。具体的に一例を挙げると、近傍算出方法で計算した距離または類似性を表す関数で算出した評価値と事前に与えた閾値との大小関係で選別しても良い。

ステップＳ５について説明する。変数選択型回帰分析部１５は、変数選択型の重回帰分析をして、結果を第２メモリ１２に書き込む。この際、解析対象レコード群の各レコードに重み付け結果を使う。変数選択型の重回帰分析は以下の式に基いて算出される。

ただし、ｑは目的変数、θは説明変数の係数、θ（ｖ）は変数ｖの係数の値、μ（ｖ）は変数ｖの値の平均値、λはＬ１正則化のパラメータを表す。

なお、本発明のいう変数選択型の重回帰分析は、様々な変数選択方法がその対象になるものであって、Ｌ１正則化による計算に限られない。具体的に一例を挙げると、各変数ごとに回帰係数を計算して係数の絶対値の小さいものを削減する方法であってもよい。

ステップＳ６について説明する。変数選択型回帰分析部１５は、重回帰分析の結果をもとに、相関性の低い変数を説明変数から除く。ここでいう相関性の低い変数とは、ステップＳ５で算出された変数の係数がほぼ０の値となるものを指す。例えば、０．０１以下とする。

ステップＳ７について説明する。予測結果評価部１６は、変数選択型回帰分析部１５が算出した予測のための説明変数の係数による予測精度が条件を満たしているか判断する。本実施形態では、Ｎ−分割交差検定で閾値以下の精度を満たすかで判断する。学習データをＮ個に分割し、そのうちの１つ分割された学習データの予測したい変数を他のＮ−１個の分割された学習データから予測して、精度の平均を計算する。予測値は例えば以下の式にもとづいて算出される。

なお、本発明のいう予測結果評価は様々な予測精度の評価方法が対象になるものであって、Ｎ−分割交差検定による評価に限られない。具体的に一例を挙げると、ＡｋａｉｋｅＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ（ＡＩＣ）（例えば、非特許文献５参照。）やＳｃｈｗａｒｚ’ｓＢａｙｅｓｉａｎＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ（ＢＩＣ）（例えば、非特許文献６参照。）といったモデル選択基準をもとにした評価であってもよい。

予測精度が条件を満たさない場合は、ステップＳ３からステップＳ７を繰り返す。つまり、集約部１４にてステップＳ６で更新済みの説明変数にもとづいて解析対象レコード群を再度集約して、変数選択型回帰分析を繰り返す。この解析対象レコード群は集約するたびに一つ前の解析対象レコード群と同じ数かそれ以上の数になる。

図５と図６は解析対象レコード群の更新例を示す。図５は、図４の変数選択型回帰分析によって変数Ｃが説明変数から除かれ、更新済みの説明変数Ａ、Ｂ、Ｄを含むＩＤが２、３、４、６のレコードが集約されている例を示す。図４から図５にかけて、説明変数が１つ除かれ、学習データのレコードが１つ増えた。さらに、図６は、図５の変数選択型回帰分析によって変数Ｄが説明変数から除かれ、更新済みの説明変数Ａ、Ｂを含むＩＤが２、３、４、６、８のレコードが集約されている例を示す。図５から図６にかけて、説明変数が１つ除かれ、学習データのレコードが１つ増えた。

ただし、本請求項１を実施するための形態では、予測結果評価部１６は含まず、事前に設定した１以上の回数だけステップＳ３からステップＳ６を繰り返すしてもよい。

ステップＳ８について説明する。予測部１７は、重回帰分析の結果をもとに、クエリの各変数から予測したい値を計算する。予測値は予測結果評価部１６と同様に（数式５）にもとづいて算出される。

ステップＳ９について説明する。予測精度が条件を満たす場合は、結果応答部１８はステップＳ８で計算された予測値を出力する。
以上の手順で、欠損値予測装置１０は不完全データの欠損した値を予測することができる。

なお、本発明の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

本発明は情報通信産業に適用することができる。

１０：欠損値予測装置
１１：第１メモリ
１２：第２メモリ
１３：要求受付部
１４：集約部
１５：変数選択型回帰分析部
１６：予測結果評価部
１７：予測部
１８：結果応答部

Claims

複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付部と、
目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、
集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析部と、
重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測部と、
を備え、
前記集約部が行う処理と前記回帰分析部が行う処理とを複数回繰り返すことによって、前記集約部の２回目以降の処理において、前記回帰分析部における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
ことを特徴とする欠損値予測装置。
前記回帰分析部の算出した説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価部をさらに備え、
前記算出された予測精度が前記設定した条件を満たすまで、前記集約部が行う処理と前記回帰分析部が行う処理とを繰り返す
ことを特徴とする請求項１に記載の欠損値予測装置。
前記回帰分析部は、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くする
ことを特徴とする請求項１又は２に記載の欠損値予測装置。
要求受付部と集約部と回帰分析部と予測部とを備えた欠損値予測装置が実行する欠損値予測方法であって、
前記要求受付部が、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、
前記集約部が、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、
前記回帰分析部が、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、
前記予測部が、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、
を有し、
前記集約手順と前記回帰分析手順とを複数回繰り返すことによって、２回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
ことを特徴とする欠損値予測方法。
前記欠損値予測装置は、予測結果評価部をさらに備え、
前記予測結果評価部が、前記回帰分析手順において算出された説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価手順をさらに備え、
前記算出された予測精度が前記設定した条件を満たすまで、前記集約手順と前記回帰分析手順とを繰り返す
ことを特徴とする請求項４に記載の欠損値予測方法。
前記回帰分析手順において、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くする
ことを特徴とする請求項４又は５に記載の欠損値予測方法。
不完全データの欠損値を予測する欠損値予測プログラムであって、
コンピュータに、
複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、
目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、
集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、
前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、
を実行させ、
前記集約手順と前記回帰分析手順とを複数回繰り返させることによって、２回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加させる
ことを特徴とする欠損値予測プログラム。