JP5889759B2 - 欠損値予測装置、欠損値予測方法、欠損値予測プログラム - Google Patents

欠損値予測装置、欠損値予測方法、欠損値予測プログラム Download PDF

Info

Publication number
JP5889759B2
JP5889759B2 JP2012209403A JP2012209403A JP5889759B2 JP 5889759 B2 JP5889759 B2 JP 5889759B2 JP 2012209403 A JP2012209403 A JP 2012209403A JP 2012209403 A JP2012209403 A JP 2012209403A JP 5889759 B2 JP5889759 B2 JP 5889759B2
Authority
JP
Japan
Prior art keywords
variable
regression analysis
prediction
missing
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012209403A
Other languages
English (en)
Other versions
JP2014063432A (ja
Inventor
央 倉沢
央 倉沢
浩史 佐藤
浩史 佐藤
山本 淳
淳 山本
仁史 川崎
仁史 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012209403A priority Critical patent/JP5889759B2/ja
Publication of JP2014063432A publication Critical patent/JP2014063432A/ja
Application granted granted Critical
Publication of JP5889759B2 publication Critical patent/JP5889759B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、不完全データの欠損値を予測する、欠損値予測装置、欠損値予測方法、欠損値予測プログラムに関する。
データを失ったり観測できなかったりして、データの一部を欠損してしまうことはたびたび起こりうる。このような欠損を含むデータを不完全データとよぶ。この不完全データの欠損部分を再現する技術が欠損値予測技術である。例えば、各ユーザが携帯するセンサにより観測されたセンシングデータを共有して活用する、ユーザ参加型のセンシング環境では、いつどこで観測されるかは各センサを携帯するユーザの移動や行動に依存するため、すべての時空間のセンサ値を確実に得ることは難しい。さらに、ユーザが携帯するセンサは一様でないため、すべての種類のセンサ値を得ることも難しい。それゆえ、参加型センシング環境で集めたセンサデータは、時空間で整理すると、各ユーザの不確実なセンシング行為に起因して、時刻や場所、センサの種類の欠損を含んでしまう。欠損値予測技術は、このようなユーザ参加型のセンシング環境おいて欠測してしまった時間や場所の値を予測する際に使われる。
欠損値予測技術が対象とする不完全データの形式として、2つ以上の変数の値から構成されたレコードの群において、一部もしくはすべてのレコードでそれぞれ1つ以上の変数値が欠けているものがある。例えば、「時刻」や「緯度」、「経度」、「温度」、「湿度」、「降水量」、「紫外線」の7つの変数から構成されたレコード群において、「時刻」と「緯度」、「経度」の3つの変数値しか含まないレコードや、「時刻」と「温度」、「湿度」、「降水量」の4つの変数値を含むレコードなどが混在している、各レコードが必ずしもすべての変数値を含まないデータである。
一般に欠損の生じ方は、Missing Completely At Random(MCAR)、Missing At Random(MAR)、そして、Missing Not At Random(MNAR)の3つに分類される(例えば、非特許文献1)。1つめは完全にランダムに欠損する場合を、2つめは欠損値そのものに依存せず他の要因で欠損する場合を、3つめは欠損値そのものに依存して欠損する場合を表す。このうち、MCARとMARは欠損が値に関係なく生じるという共通の特徴をもつため、同じ欠損値予測技術を適用できる。上述のユーザ参加型のセンシング環境を例に挙げると、センサの値に依存せずユーザの移動に依存して欠損が生じていれば、MCARかMARに分類される。言い換えると、気温が30度以上のときに「温度」という変数の値が欠損する場合はMNARになるが、ユーザの参加の有無がランダムに変化する場合はMCARであり、「時刻」や「緯度」、「経度」といった「温度」以外の変数がある値の範囲に含まれるときに「温度」の変数値が欠損する場合はMARである。
MCARとMARを対象とした欠損値の予測は、予測したい変数の値を含んだレコード群を使って、予測したい変数とそれ以外の変数との間の関係性や、予測したい変数の分布を分析することで実現される。この予測に使うレコード群のことを学習データと呼ぶ。不完全データで欠損値予測するとき、各レコードが必ずしもすべての変数値を含まないため、学習データとしてどのレコードを使うかという問題が生じる。例えば、「時刻」や「緯度」、「経度」、「温度」、「湿度」、「降水量」、「紫外線」の7つの変数から構成されたレコード群の不完全データで「温度」の欠損値を予測したいとき、「温度」の変数値を含むレコード群が学習データの候補となる。この候補の中から学習データとして、7つの変数値すべてを含むレコードを使うか、「温度」と「湿度」の2つの変数値が揃ったレコードを使うか、といったように解析方法によって学習データの選択方法が異なる。
不完全データからの欠損値予測における学習データの選択方法は大きく2つに分類される(例えば、非特許文献1参照。)。1つめは、一箇所でも欠損しているレコード群を無視して、すべての値が揃ったレコード群を予測の学習データとして使うListwise deletion methodである。これは処理が簡潔にすむという利点があるが、予測に使える学習データ量が減ってしまう欠点がある。もう1つは、事前に選択した変数の値がすべて揃ったレコード群を学習データとして使うPairwise deletion methodである。これは予測に使う変数を限ることで学習データの量を増やせる利点があるが、予測精度の向上に寄与する変数に絞り込むのが難しい欠点がある。
欠損値予測の精度は学習データの量と質に左右される。学習データの量とは、予測に使うレコード数である。量が多いほど予測のノイズを減らすことができ、精度が向上する。一方、学習データの質とは、予測に使うレコード群と予測したい値との相関性の度合いである。質が高いほど予測の分析がしやすくなり、精度が向上する。
欠損値の予測精度を向上するために、予測に使う学習データの量を増やすのと同時に質を高めることが求められる。学習データの選択方法のうち、Listwise deletion methodは学習データの質は高いが量は最小になってしまう。Pairwise deletion methodは事前に定める変数に依存して学習データの量も質も変化する。どの変数を使って予測するか欠損値ごとに検討が必要となる。
John W. Graham, "Missing Data Analysis: Making It Work in the Real World", Annual Review of Psychology, Vol. 60, pp. 549−576, 2009. Rakesh Agrawal and Ramakrishnan Srikant, "Fast Algorithms for Mining Association Rules", In Proceedings of 20th International Conference on Very Large Data Bases (VLDB 1994), pp. 487−499, 1994. Roberto J. Bayardo, Jr., "Efficiently Mining Long Patterns from Databases", In Proceedings of the 1998 ACM SIGMOD international conference on Management of data, pp. 85−93, 1998. Robert Tibshirani , "Regression Shrinkage and Selection Via the Lasso", Journal of the Royal Statistical Society, Series B, Vol. 58, pp. 267−288, 1996. H. Akaike, "A new look at the statistical model identification", IEEE Transactions on Automatic Control, Vol. 18, Issue 6, pp. 716−723, 1974. G. Schwarz, "Estimating the Dimension of a Model", Annals of Statistics, Vol. 6, No. 2, pp. 461−464, 1978.
本発明では、上記のPairwise deletion methodにおいて予測精度の向上に寄与する変数に絞り込むことを課題とする。本発明は、欠損値の予測精度の向上を目的として予測に使う学習データの量と質を同時に高めるものである。
学習データの量を増やすには、変数ごとの欠損の確率について検討が必要となる。もし変数ごとに欠損の確率が異なる場合は、選択する変数によって学習データの量も異なる。例えば、高い確率で欠損している変数を予測に使うと、学習データの量はとても減る。また、低い確率で欠損している変数を予測に使わないことにしても、学習データの量はほとんど増えない。この欠損確率を得るにあたって、厳密に変数の組み合わせと学習データの量との関係を算出する手法として頻出アイテム集合マイニングのアプリオリ法(例えば、非特許文献2)やバックトラック法(例えば、非特許文献3)がある。
一方、学習データの質を高めるには、学習データから予測したい欠損値と相関性の高い変数を選択することが求められる。この相関性を測る際に、学習データに最適化をすると過適合を引き起こすことが一般に知られている。そこで予測したい欠損値と相関性の低い変数を予測の分析対象から排除するため、正則化と呼ばれる手法(例えば、非特許文献4)が提案されている。
上述の従来手法では、学習データの量と質のどちらか一方のみを検討するにとどまり、欠損値の予測精度の向上のため学習データの量と質を同時に高めた変数選択は難しい。例えば、学習データの量を増やすのに有効な欠損確率の低い変数を選択をしても、その変数が予測したい欠損値と相関性が低ければ、予測精度の向上に貢献しない。また、予測したい欠損値と相関性の高い変数を選択しても、その変数の欠損確率が大きければ、予測精度の向上に貢献しない。
本発明は、上記課題を解消するためになされたものであり、不完全データにおける欠損値の予測精度の向上を目的として、予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択することができる欠損値予測装置、欠損値予測方法、欠損値予測プログラムを提供することにある。
上記目的を達成するために、本発明の欠損値予測装置は、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付部と、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析部と、重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測部と、を備え、前記集約部が行う処理と前記回帰分析部が行う処理とを複数回繰り返すことによって、前記集約部の2回目以降の処理において、前記回帰分析部における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加することを特徴とする。
この構成によれば、学習データから予測したい欠損値と相関性の高い変数を除くことなく、相関性の低い変数のみを除きながら、学習データの量を増やすように、変数を絞り込むことができる。
また、本発明の欠損値予測装置は、前記回帰分析部の算出した説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価部をさらに備え、前記算出された予測精度が前記設定した条件を満たすまで、前記集約部が行う処理と前記回帰分析部が行う処理とを繰り返してもよい。
この構成によれば、変数の削減と学習データ量の増加という2つの処理による変数絞込みの繰り返し回数を事前に設定した予測精度の条件から決定でき、より予測精度の向上に寄与する変数に絞り込むことができる。
また、本発明の欠損値予測装置は、前前記回帰分析部は、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くしてもよい。
この構成によれば、学習データの中で特に予測の精度向上に寄与するレコードを考慮して予測したい欠損値と各変数との相関性を計算できるので、より予測精度の向上に寄与する変数に絞り込むことができる。
本発明の欠損値予測方法は、要求受付部と集約部と回帰分析部と予測部とを備えた欠損値予測装置が実行する欠損値予測方法であって、前記要求受付部が、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、前記集約部が、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と前記回帰分析部が、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、前記予測部が、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、を有し、前記集約手順と前記回帰分析手順とを複数回繰り返すことによって、2回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
ことを特徴とする。
また、本発明の欠損値予測方法は、前記欠損値予測装置が、予測結果評価部をさらに備え、前記予測結果評価部が、前記回帰分析手順において算出された説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価手順をさらに備え、前記算出された予測精度が前記設定した条件を満たすまで、前記集約手順と前記回帰分析手順とを繰り返してもよい。
また、本発明の欠損値予測方法は、前記回帰分析手順において、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くしてもよい。
具体的には、本発明の欠損値予測プログラムは、不完全データの欠損値を予測する欠損値予測プログラムであって、コンピュータに、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、を実行させ、前記集約手順と前記回帰分析手順とを複数回繰り返させることによって、2回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加させることを特徴とする。
本発明によれば、予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択することができるため、不完全データにおける欠損値の予測精度を向上することができる。
本発明の欠損値予測装置の構成を示す図である。 本発明の欠損値予測の要求で入力されるオリジナルレコード群の例を示す図である。 本発明の欠損値予測のフローチャート例を示す図である。 本発明の欠損値予測の予測課程で生成する解析対象レコード群の第1例を示す図である。 本発明の欠損値予測の予測課程で生成する解析対象レコード群の第2例を示す図である。 本発明の欠損値予測の予測課程で生成する解析対象レコード群の第3例を示す図である。
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は以下の実施形態に制限されるものではない。
本発明の欠損値予測方法は、集約手順及び予測手順を順に有し、集約手順において不完全データの欠損値を予測精度向上に寄与する変数を学習データの量と質の両方を同時に満たすように選択する。本発明の選択方法は、まず学習データから変数のうち予測したい欠損値に相関性の低い変数を除くことで学習データの質を高め、次に残りの相関性の高い変数の値が揃ったデータを新たな学習データとして設定することで学習データの量を増やす、という2つの処理を交互に1回以上実行する。2つの処理の繰り返し処理終了の判断は、事前に設定した回数、もしくは、繰り返しの度に予測値の精度を評価して決める。さらに予測の質を高めるため、予測したい欠損値と変数の相関性を計算する際に予測したい値の近傍にある学習データの重み付けを重くする。
図1に本発明の欠損値予測装置の構成を示す。欠損値予測装置10は、要求受付部13、集約部14、変数選択型回帰分析部15、予測部17、予測結果評価部16、結果応答部18の各処理部と、第1メモリ11、第2メモリ12の各記憶部から構成されている。
図2に本発明の欠損値予測装置に入力されるレコードの例を示す。各レコードはAからFまでの変数値から構成されている。「NUL」は欠損を意味し、「?」は予測したい値を意味する。例えば、レコードIDが1のレコードは、変数AからDまではそれぞれ9.86、15.9、7.31、1.73の値であり、変数Eは予測したい値であり、変数Fは欠損している値であることを示している。この場合、レコードID=1の変数Eが目的変数となる。
以降では、欠損値予測の要求を受け付けて予測値を応答するまでを、図3のフローチャートと各処理部や各記憶部を参照しながら説明する。集約手順ではステップS1〜ステップS7を実行し、予測手順ではステップS8〜ステップS9を実行する。
ステップS1について説明する。要求受付部13は、欠損を含むレコード群と予測したい値の要求を受ける。これをオリジナルレコード群として第1メモリ11に書き込む。
ステップS2について説明する。集約部14は、予測対象である変数の値を求めるべきレコードを「クエリ」、予測したい変数を「目的変数」、欠損していない変数を「説明変数」とする。図2の例では、クエリはIDが1のレコード、目的変数は変数E、説明変数は変数A、B、C、Dとなる。変数Fは欠損しているため、説明変数から除外される。
ステップS3について説明する。集約部14は、第1メモリ11のオリジナルレコード群のうち、目的変数と説明変数が揃ったレコードを集約し、解析対象レコード群として第1メモリ11に書き込む。解析対象レコード群は、学習データである。図4に解析対象レコード群の例を示す。図4の例では、目的変数Eと説明変数A、B、C、Dが「NUL」又は「?」ではないを含むIDが3、4、6のレコードが集約される。つまり、説明変数は4つで学習データは3レコードである。
ステップS4について説明する。変数選択型回帰分析部15は、解析対象レコード群の各レコードに重み付けする。特に、本実施形態においては、重み付けは以下の通り定義する。
Figure 0005889759
Figure 0005889759
Figure 0005889759
ただし、Distは距離関数、Rは解析対象レコード群、RはIDがiのレコード、R(v)はRの変数vの値、Qはクエリ、Q(v)はQの変数vの値、σ(v)は変数vの値の標準偏差、rは説明変数集合、Rank(R)はRの近傍評価値、W(R)はRの重み、kは重み付けのパラメータを表す。つまり、クエリからユークリッド距離に基づいて最も類似したkレコードの重みを1とし、残りを0とした重み付けとなっている。本実施例ではk=100とする。
なお、本発明のいう重み付けは上記特徴を満たす様々な近傍算出方法がその対象になるものであって、ユークリッド距離に限られない。具体的に一例を挙げると、目的変数すべてを使わずその一部の変数のみを使った近傍算出方法(例えば緯度と経度という変数から計算した距離)や、0と1の2値ではなく距離に応じた多分類の重み付けであってもよい。変数Aが緯度であり変数Bが経度である場合、ID=3,4,6の解析対象レコード群のなかからレコードID=1の緯度及び経度に最も近い位置にあるレコードID=4の重み付けを重くする。これにより、地理的に近い位置にあるレコードに基づいて目的変数を予測することができる。また、距離ではなく類似性を評価できる関数であっても良い。例えば、変数Cがセンサの測定値である場合、ID=3,4,6の解析対象レコード群のなかからレコードID=1の変数Cの値に最も近い値を有するレコードID=3の重み付けを重くする。これにより、センサの測定値の類似性に基づいて目的変数を予測することができる。
さらに、本発明のいう重み付けの分類基準は予測精度向上に寄与するレコードを選別できればその対象になるものであって、最も類似したkレコードに限られない。具体的に一例を挙げると、近傍算出方法で計算した距離または類似性を表す関数で算出した評価値と事前に与えた閾値との大小関係で選別しても良い。
ステップS5について説明する。変数選択型回帰分析部15は、変数選択型の重回帰分析をして、結果を第2メモリ12に書き込む。この際、解析対象レコード群の各レコードに重み付け結果を使う。変数選択型の重回帰分析は以下の式に基いて算出される。
Figure 0005889759
ただし、qは目的変数、θは説明変数の係数、θ(v)は変数vの係数の値、μ(v)は変数vの値の平均値、λはL1正則化のパラメータを表す。
なお、本発明のいう変数選択型の重回帰分析は、様々な変数選択方法がその対象になるものであって、L1正則化による計算に限られない。具体的に一例を挙げると、各変数ごとに回帰係数を計算して係数の絶対値の小さいものを削減する方法であってもよい。
ステップS6について説明する。変数選択型回帰分析部15は、重回帰分析の結果をもとに、相関性の低い変数を説明変数から除く。ここでいう相関性の低い変数とは、ステップS5で算出された変数の係数がほぼ0の値となるものを指す。例えば、0.01以下とする。
ステップS7について説明する。予測結果評価部16は、変数選択型回帰分析部15が算出した予測のための説明変数の係数による予測精度が条件を満たしているか判断する。本実施形態では、N−分割交差検定で閾値以下の精度を満たすかで判断する。学習データをN個に分割し、そのうちの1つ分割された学習データの予測したい変数を他のN−1個の分割された学習データから予測して、精度の平均を計算する。予測値は例えば以下の式にもとづいて算出される。
Figure 0005889759
なお、本発明のいう予測結果評価は様々な予測精度の評価方法が対象になるものであって、N−分割交差検定による評価に限られない。具体的に一例を挙げると、Akaike Information Criterion(AIC)(例えば、非特許文献5参照。)やSchwarz’s Bayesian Information Criterion(BIC)(例えば、非特許文献6参照。)といったモデル選択基準をもとにした評価であってもよい。
予測精度が条件を満たさない場合は、ステップS3からステップS7を繰り返す。つまり、集約部14にてステップS6で更新済みの説明変数にもとづいて解析対象レコード群を再度集約して、変数選択型回帰分析を繰り返す。この解析対象レコード群は集約するたびに一つ前の解析対象レコード群と同じ数かそれ以上の数になる。
図5と図6は解析対象レコード群の更新例を示す。図5は、図4の変数選択型回帰分析によって変数Cが説明変数から除かれ、更新済みの説明変数A、B、Dを含むIDが2、3、4、6のレコードが集約されている例を示す。図4から図5にかけて、説明変数が1つ除かれ、学習データのレコードが1つ増えた。さらに、図6は、図5の変数選択型回帰分析によって変数Dが説明変数から除かれ、更新済みの説明変数A、Bを含むIDが2、3、4、6、8のレコードが集約されている例を示す。図5から図6にかけて、説明変数が1つ除かれ、学習データのレコードが1つ増えた。
ただし、本請求項1を実施するための形態では、予測結果評価部16は含まず、事前に設定した1以上の回数だけステップS3からステップS6を繰り返すしてもよい。
ステップS8について説明する。予測部17は、重回帰分析の結果をもとに、クエリの各変数から予測したい値を計算する。予測値は予測結果評価部16と同様に(数式5)にもとづいて算出される。
ステップS9について説明する。予測精度が条件を満たす場合は、結果応答部18はステップS8で計算された予測値を出力する。
以上の手順で、欠損値予測装置10は不完全データの欠損した値を予測することができる。
なお、本発明の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
本発明は情報通信産業に適用することができる。
10:欠損値予測装置
11:第1メモリ
12:第2メモリ
13:要求受付部
14:集約部
15:変数選択型回帰分析部
16:予測結果評価部
17:予測部
18:結果応答部

Claims (7)

  1. 複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付部と、
    目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、
    集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析部と、
    重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測部と、
    を備え
    前記集約部が行う処理と前記回帰分析部が行う処理とを複数回繰り返すことによって、前記集約部の2回目以降の処理において、前記回帰分析部における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
    ことを特徴とする欠損値予測装置。
  2. 記回帰分析部の算出した説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価部をさらに備え
    前記算出された予測精度が前記設定した条件を満たすまで、前記集約部が行う処理と前記回帰分析部が行う処理とを繰り返す
    ことを特徴とする請求項1に記載の欠損値予測装置。
  3. 記回帰分析部は、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くする
    ことを特徴とする請求項1又は2に記載の欠損値予測装置。
  4. 要求受付部と集約部と回帰分析部と予測部とを備えた欠損値予測装置が実行する欠損値予測方法であって、
    前記要求受付部が、複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、
    前記集約部が、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と
    前記回帰分析部が、集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、
    前記予測部が、前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、
    を有し、
    前記集約手順と前記回帰分析手順とを複数回繰り返すことによって、2回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加する
    ことを特徴とする欠損値予測方法。
  5. 前記欠損値予測装置は、予測結果評価部をさらに備え、
    前記予測結果評価部が、前記回帰分析手順において算出された説明変数の係数を用いて予測精度を算出し、算出された予測精度が設定した条件を満たしているか否かを判定する予測結果評価手順をさらに備え、
    前記算出された予測精度が前記設定した条件を満たすまで、前記集約手順と前記回帰分析手順とを繰り返す
    ことを特徴とする請求項4に記載の欠損値予測方法。
  6. 前記回帰分析手順において、相関性を計算する際に、特定の説明変数について、目的変数を有するレコードの説明変数と近い値を有する解析対象レコードの重み付けを重くする
    ことを特徴とする請求項4又は5に記載の欠損値予測方法。
  7. 不完全データの欠損値を予測する欠損値予測プログラムであって、
    コンピュータに、
    複数の変数を含むレコード群と当該レコード群における欠損値のうちの予測したい目的変数を受け付ける要求受付手順と、
    目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を説明変数に設定し、前記レコード群のなかから説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と
    集約した解析対象レコード群について変数選択型の重回帰分析を行うことによって説明変数の係数を計算して相関性の低い変数を説明変数から除外する回帰分析手順と、
    前記回帰分析手順において行った重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する予測手順と、
    を実行させ
    前記集約手順と前記回帰分析手順とを複数回繰り返させることによって、2回目以降の前記集約手順において、前記回帰分析手順における前記除外後に残った説明変数が揃っておりかつ前記解析対象レコード群に含まれていないレコードを解析対象レコード群に追加させる
    ことを特徴とする欠損値予測プログラム。
JP2012209403A 2012-09-24 2012-09-24 欠損値予測装置、欠損値予測方法、欠損値予測プログラム Active JP5889759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012209403A JP5889759B2 (ja) 2012-09-24 2012-09-24 欠損値予測装置、欠損値予測方法、欠損値予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012209403A JP5889759B2 (ja) 2012-09-24 2012-09-24 欠損値予測装置、欠損値予測方法、欠損値予測プログラム

Publications (2)

Publication Number Publication Date
JP2014063432A JP2014063432A (ja) 2014-04-10
JP5889759B2 true JP5889759B2 (ja) 2016-03-22

Family

ID=50618583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012209403A Active JP5889759B2 (ja) 2012-09-24 2012-09-24 欠損値予測装置、欠損値予測方法、欠損値予測プログラム

Country Status (1)

Country Link
JP (1) JP5889759B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6178218B2 (ja) * 2013-11-15 2017-08-09 日本電信電話株式会社 欠損値推定装置及び欠損値推定方法
JP6130977B1 (ja) * 2016-05-24 2017-05-17 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
US11449732B2 (en) 2016-09-06 2022-09-20 Nippon Telegraph And Telephone Corporation Time-series-data feature extraction device, time-series-data feature extraction method and time-series-data feature extraction program
JP7352070B2 (ja) * 2019-07-30 2023-09-28 横浜ゴム株式会社 データ処理方法、データ処理装置、及びプログラム
WO2024070169A1 (ja) * 2022-09-29 2024-04-04 日本碍子株式会社 試作条件提案システム、試作条件提案方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785082A (ja) * 1993-09-10 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 欠損値推定方式
JP3301247B2 (ja) * 1994-12-28 2002-07-15 株式会社豊田中央研究所 材料の真密度推定方法および装置、材料の空洞量推定方法
JP5682484B2 (ja) * 2010-09-16 2015-03-11 新日鐵住金株式会社 厚鋼板の冷却制御方法、冷却制御装置及び厚鋼板の製造方法

Also Published As

Publication number Publication date
JP2014063432A (ja) 2014-04-10

Similar Documents

Publication Publication Date Title
Galante et al. The challenge of modeling niches and distributions for data‐poor species: a comprehensive approach to model complexity
JP5889759B2 (ja) 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
CN109753591B (zh) 业务流程预测性监控方法
Johnson et al. Species distribution modeling and prediction: A class imbalance problem
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
JP2015082259A (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
Leite et al. Active testing strategy to predict the best classification algorithm via sampling and metalearning
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
JP2008077403A (ja) 評価装置、評価方法及び評価プログラム
Shreyas et al. Predicting popularity of online articles using random forest regression
JP6200076B2 (ja) システムから取得される測定値を評価する方法及びシステム
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
Amasaki et al. The effects of moving windows to software estimation: comparative study on linear regression and estimation by analogy
CN111951104A (zh) 一种基于关联图谱的风险传导预警方法
Singh et al. An ensemble approach for feature selection of Cyber Attack Dataset
US11200156B2 (en) Tester and method for testing a device under test using relevance scores
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Chen et al. GAIA: delving into gradient-based attribution abnormality for out-of-distribution detection
Bidyuk et al. An Approach to Identifying and Filling Data Gaps in Machine Learning Procedures
Sagala et al. Enhanced churn prediction model with boosted trees algorithms in the banking sector
CN117472679A (zh) 结合数据流和控制流漂移发现的异常检测方法及系统
CN116188834B (zh) 基于自适应训练模型的全切片图像分类方法及装置
CN111081321B (zh) 一种cns药物关键特征识别方法
JP4230890B2 (ja) モデル同定装置,モデル同定プログラム及びモデル同定装置の動作方法
TW202105106A (zh) 資料處理裝置、方法、及半導體製造裝置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160217

R150 Certificate of patent or registration of utility model

Ref document number: 5889759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150