JP2002215646A - 欠損データ補完方法及び欠損データ補完システム - Google Patents

欠損データ補完方法及び欠損データ補完システム

Info

Publication number
JP2002215646A
JP2002215646A JP2001013175A JP2001013175A JP2002215646A JP 2002215646 A JP2002215646 A JP 2002215646A JP 2001013175 A JP2001013175 A JP 2001013175A JP 2001013175 A JP2001013175 A JP 2001013175A JP 2002215646 A JP2002215646 A JP 2002215646A
Authority
JP
Japan
Prior art keywords
data
missing
complementing
feature
complementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001013175A
Other languages
English (en)
Other versions
JP3654193B2 (ja
Inventor
Shinya Ishikawa
慎也 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001013175A priority Critical patent/JP3654193B2/ja
Publication of JP2002215646A publication Critical patent/JP2002215646A/ja
Application granted granted Critical
Publication of JP3654193B2 publication Critical patent/JP3654193B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 サンプルデータの欠損個所の補完データを自
動的に算出して、作業者の労力を極力削減することがで
きる欠損データ補完方法及び欠損データ補完システムを
得る。 【解決手段】 データベースに蓄積されているサンプル
データ群の中から、一部の特徴の欠損が存在する欠損デ
ータを検出し、当該欠損データと欠損のない正常データ
とに分割する欠損検出分割処理ステップ(部)と、欠損
データに類似する正常データを所定の類似尺度を用いて
求め、その求めた正常データにおける欠損データの欠損
特徴に対応する特徴のデータを補完データとして、欠損
データの欠損特徴に代入して補完する補完処理ステップ
(部)とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、データマイニン
グを実行するために、データベース内のサンプルデータ
の欠損データを補完する欠損データ補完方法及び欠損デ
ータ補完システムに関するものである。
【0002】
【従来の技術】大規模データベースから貴重な情報だけ
を計算機で自動的に発掘することをデータマイニングと
いう。データマイニングは、データベースに大量のデー
タを蓄積しておくだけで、その大量のデータを自動的に
計算機が解析して、人間には思いもつかなかった規則性
を発見してくれる。
【0003】データマイニングを行う場合には、例え
ば、アンケートなどをとってサンプルデータを収集し、
そのサンプルデータをデータベースに蓄積する必要があ
る。サンプルデータは、例えば、アンケートに回答して
もらう人の年齢、性別、身長、体重などの様々な特徴
(又は項目、属性とも言える)に分かれている。
【0004】ここで、アンケートに回答した人がサンプ
ルデータの全ての特徴について回答しなかったなどの場
合には、データベースに蓄積するサンプルデータに欠損
が生じる。この場合、欠損したサンプルデータ全体又は
回答されなかった一部の特徴のデータを単に削除してし
まうと、データ削除が重なり合って全体として多大な情
報量損失となってしまうため、データマイニングにおけ
る解析品質(解析精度)の低下につながり、好ましくな
い。そこで、信頼性の高いデータマイニングを行うため
に、データベースに蓄積するサンプルデータの欠損を補
完する必要がある。
【0005】従来の欠損データの補完方法としては、次
のような方法があった。第1の方法は、計算機がデータ
ベース内のサンプルデータに欠損が存在すると判断(検
出)した場合、警告メッセージ(エラーメッセージ)な
どを流すことによってサンプルデータの欠損の存在を作
業者に知らせ、作業者が、逐一、手作業で欠損したデー
タの補完処理を行うものである。第2の方法は、解析計
算がエラー処理とならないようにするために、計算機が
欠損したデータに対して典型的な値や平均値などを代入
する暫定的な補完処理を自動的に行うものである。この
ように、サンプルデータの欠損を補完することにより、
計算機が、エラーを発生することなく、サンプルデータ
に基づいてデータマイニングの解析計算を実行すること
が可能となる。
【0006】
【発明が解決しようとする課題】しかし、上述した従来
の欠損データ補完方法では、次のような課題があった。
まず、第1の方法では、作業者が手作業で欠損したデー
タの補完処理を行うので、大規模データベースにおける
大量のサンプルデータの全ての欠損を補完するために
は、作業者にとって多大な労力がかかってしまう。
【0007】また、第2の方法では、典型的な値や平均
値などの画一的な値を欠損したデータに代入することに
よって補完処理を行うので、サンプルデータが保持する
本来の情報能力を大幅に低下させ、データマイニングの
解析結果に平均化現象を生じさせる結果、解析品質を大
幅に低下させてしまう。また、欠損データに代入する画
一的な値は解析者(欠損したデータに値を代入する者)
の固定概念に影響されるため、データマイニングの解析
結果も解析者の主観に偏った知識に基づく結果しか得ら
れず、信頼性の高い解析結果を得ることが困難となって
しまう。
【0008】この発明は、上記のような課題を解決する
ためになされたものであり、サンプルデータの欠損個所
の補完データを自動的に算出して、作業者の労力を極力
削減することができる欠損データ補完方法及び欠損デー
タ補完システムを得ることを目的とする。
【0009】また、この発明は、サンプルデータの情報
能力を損なうことのない最適な値の補完データを算出す
ることができる欠損データ補完方法及び欠損データ補完
システムを得ることを目的とする。
【0010】尚、上記従来技術に示した欠損データ補完
方法以外に、例えば、特開平10−171834号公報
にも、欠損データ補完方法(欠損データ補完表示方法)
が記載されている。しかし、かかる公報に記載された欠
損データ補完方法は、データマイニングを目的としたサ
ンプルデータの欠損を補完するものではなく、また、デ
ータの内容もサンプルデータのように様々な特徴に分か
れているものではない。従って、上記公報に記載された
欠損データ補完方法と後述する本願発明における欠損デ
ータ補完方法との技術的な関連性は低いものである。
【0011】
【課題を解決するための手段】請求項1及び4記載の発
明に係る欠損データ補完方法及びシステムは、データベ
ースに蓄積されているサンプルデータ群の中から、一部
の特徴の欠損が存在する欠損データを検出し、当該欠損
データと欠損のない正常データとに分割する欠損検出分
割処理ステップ(部)と、欠損データに類似する正常デ
ータを所定の類似尺度を用いて求め、その求めた正常デ
ータにおける欠損データの欠損特徴に対応する特徴のデ
ータを補完データとして、欠損データの欠損特徴に代入
して補完する補完処理ステップ(部)とを備えたもので
ある。
【0012】請求項2及び5記載の発明に係る欠損デー
タ補完方法及びシステムは、所定の類似尺度として、マ
ンハッタン関数で算出される欠損データと正常データの
距離としたものである。
【0013】請求項3及び6記載の発明に係る欠損デー
タ補完方法及びシステムは、補完データを求める前に、
サンプルデータ中の量的データを正規化し、また質的デ
ータをダミー変数に置換するクレンジング処理ステップ
(部)と、クレンジング処理されたサンプルデータを元
のデータ形式に復元する復元処理ステップ(部)とをさ
らに設けたものである。
【0014】請求項7記載の発明に係る欠損データ補完
システムは、補完処理を完了する前に、補完データを画
面表示させる補完データ制御部を設けたものである。
【0015】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。図1は、本発明の欠損データ補完システムを
示すブロック図である。図において、情報源データベー
ス100は、データマイニングの基礎となるサンプルデ
ータ群を蓄積(格納)するものである。サンプルデータ
群は、図5(A)に示すように、「年齢」「身長」「体
重」及び「性別」といった多次元の特徴(又は項目、属
性とも言える)からなるサンプルデータの集まりであ
る。サンプルデータにおける各特徴のデータ(値)を特
徴値という。
【0016】ここで、図5(A)に示すように、サンプ
ルデータ群の各サンプルデータは、全ての特徴について
特徴値が格納されているわけではなく、アンケートなど
でデータを収集できなかったために、一部の特徴につい
て特徴値が欠損しているものとする。この欠損している
特徴値を欠損値という。また、欠損値が存在しないサン
プルデータを正常データ(図5(C)参照)といい、欠
損値が存在するサンプルデータを欠損データ(図5
(D)参照)というものとする。
【0017】欠損データ補完装置110は、サンプルデ
ータ群の一部に欠損データが存在する場合、その欠損デ
ータの欠損値に対する補完データを自動的に算出して欠
損値に補完する欠損データ補完処理を行うものである。
この欠損データ補完装置110は、データクレンジング
分割処理装置111、正常データ蓄積装置112、欠損
データ蓄積装置113、欠損データ補完処理装置114
及びデータ復元装置115から構成されている。
【0018】データクレンジング分割処理装置111
は、情報源データベース100からサンプルデータ群
(図5(A))を読み出して取得し、その取得したサン
プルデータ群の各特徴値をクレンジング処理(データを
洗浄する処理、具体的には、後述するように、量的デー
タを正規化し、質的データをダミー変数に置換する処
理)し(図5(B))、そのクレンジング処理したサン
プルデータ群を正常データ(図5(C))と欠損データ
(図5(D))とに分割して蓄積する処理を行うもので
ある。正常データ蓄積装置112は、データクレンジン
グ分割処理装置111がクレンジング処理後にサンプル
データ群から分割した正常データを蓄積するものであ
り、欠損データ蓄積装置113は、データクレンジング
分割処理装置111がクレンジング処理後にサンプルデ
ータ群から分割した欠損データを蓄積するものである。
【0019】欠損データ補完処理装置114は、欠損デ
ータ蓄積装置113に蓄積された各欠損データ(図6
(A))について、各欠損データと全ての正常データと
の類似性を判断するための類似尺度(後述するマンハッ
タン距離、図5(B)参照)を用いて、欠損値に対応す
る補完データを既存の正常データから算出して(導い
て)、その補完データを欠損データの欠損値に補完(代
入)する処理を行うものである。データ復元装置115
は、クレンジング処理された補完処理後のサンプルデー
タ群の各特徴値(図7(A))を元のデータ形式の各特
徴値(図7(B))に復元する(戻す)処理を行うもの
である。
【0020】補完データ制御装置120は、作業者に補
完実施可能か否かを判断させるために、データ復元装置
115から出力された復元後の補完データを画面表示す
るものである。情報源データベース130は、データ復
元装置115から出力される補完後のサンプルデータ群
を蓄積(格納)するものである。
【0021】次に、動作について説明する。 (1)データクレンジング分割処理装置111の動作 図2は、データクレンジング分割処理装置111の動作
を説明するためのフローチャートである。また、図5
は、データクレンジング分割処理装置111が処理する
データの一例を示す図である。
【0022】データクレンジング分割処理装置111
は、以下のようにデータクレンジング処理を実行する。
まず、データクレンジング分割処理装置111は、情報
源データベース100に蓄積されているサンプルデータ
群から各サンプルデータの1特徴を読み出して取得する
(ステップST201)。図5の例では、データクレン
ジング分割処理装置111は、図5(A)に示すような
サンプルデータ群から例えば1特徴「年齢」を読み出し
て取得する。
【0023】次に、データクレンジング分割処理装置1
11は、取得した1特徴のタイプが、量的データ(数字
のデータ)であるか質的データ(記号のデータ又はカテ
ゴリーのデータ)であるかを判定する(ステップST2
02)。図5の例では、「年齢」「身長」「体重」は量
的データに該当するが、「性別」は質的データに該当す
る。
【0024】次に、データクレンジング分割処理装置1
11は、1特徴が量的データである場合は、全てのサン
プルデータの特徴値の最大値及び最小値を求め、0−1
区間で正規化を実施する(ステップST203)。0−
1区間で正規化するための計算式は、(対象サンプルデ
ータの特徴値−特徴の最小値)/(特徴の最大値−特徴
の最小値)となる。図5の例では、例えば「年齢」の最
大値は37歳であり、最小値は10歳である。従って、
37歳を正規化すると「1.000」となり、10歳を
正規化すると「0.000」となる。
【0025】一方、データクレンジング分割処理装置1
11は、1特徴が質的データである場合は、ダミー変数
を用いて、質的データである特徴の全サンプルデータを
量的データに変換する(ステップST204)。図5の
例では、「性別」は質的データであり、「女」をダミー
変数「0.000」と置換し、「男」をダミー変数
「1.000」と置換している。
【0026】次に、データクレンジング分割処理装置1
11は、サンプルデータの全特徴について上記クレンジ
ング処理を実施したか否か判定する(ステップST20
5)。未だ全ての特徴について上記クレンジング処理を
実施していない場合は、上記ステップST201に戻っ
て上記クレンジング処理を繰り返す。一方、既に全ての
特徴について上記クレンジング処理を実施している場合
は、サンプルデータ群の分割処理に移行する。尚、図5
の例では、特徴「年齢」をクレンジング処理した後、特
徴「身長」「体重」「性別」というように順にクレンジ
ング処理を実行していく。サンプルデータ群のクレンジ
ング処理の結果は、図5(B)に示すような値となる。
【0027】サンプルデータ群の分割処理は、以下のよ
うに行われる。データクレンジング分割処理装置111
は、情報源データベース100のサンプルデータ群から
1サンプルデータを読み出して取得し(ステップST2
06)、そのサンプルデータに欠損値が存在するか否か
判定する(ステップST207)。
【0028】データクレンジング分割処理装置111
は、サンプルデータに欠損値が存在しない場合は、正常
なサンプルデータである正常データを正常データ蓄積装
置112に蓄積し(ステップST208)、サンプルデ
ータに欠損値が存在する場合は、欠損値を含むサンプル
データである欠損データを欠損データ蓄積装置113に
蓄積する(ステップST209)。図5(C)は、正常
データの一例を示し、また、図5(D)は、欠損データ
の一例を示している。
【0029】次に、データクレンジング分割処理装置1
11は、全サンプルデータについて上記分割処理を行っ
たか否か判定し(ステップST210)、判定の結果、
全てのサンプルデータについて処理していない場合は、
上記ステップST206に戻って上記分割処理を繰り返
し、一方、全てのサンプルデータについて処理している
場合は、処理を終了する。その後、欠損データ補完処理
装置114の処理に移行される。
【0030】尚、図5には、サンプルデータ群(図5
(A))、サンプルデータ群のクレンジング結果(図5
(b))、正常データ(図5(C))及び欠損データ
(図5(D))のいずれにも、サンプル番号及び特徴番
号が記載されていないが、図5(A)及び図5(B)の
サンプルデータ群の各サンプルデータには、上から順番
にサンプル番号1,2,・・・,Nが付されているもの
とし、また、図5(C)の正常データには、上から順番
にサンプル番号a1,a2,・・・,aNが付されてい
るものとし、また、図5(D)の欠損データには、上か
ら順番にサンプル番号b1,b2,・・・,bNが付さ
れているものとし、さらに、図5(A)〜(D)の各特
徴には、左から順番に特徴番号1,2,・・・,nが付
されているものとする。
【0031】(2)欠損データ補完処理装置114の動
作 図3は、欠損データ補完処理装置114の動作を説明す
るためのフローチャートである。また、図6は、欠損デ
ータ補完処理装置114が処理するデータの一例を示す
図である。
【0032】欠損データ補完処理装置114は、欠損デ
ータ蓄積装置113に蓄積されている1欠損データを取
り出して取得する(ステップST301)。図6の例で
は、特徴「身長」が欠損している欠損データを取り出し
て取得したものとしている。
【0033】次に、欠損データ補完処理装置114は、
取得した1欠損データと正常データ蓄積装置112に蓄
積されている全ての正常データとのマンハッタン距離
(Dist1,Dist2,・・・,DistN)をマ
ンハッタン距離関数を用いて求める(算出する)(ステ
ップST302)。ここで、マンハッタン距離関数は、
次のような計算式で表される。
【0034】
【数1】
【0035】(1)式において、特徴値iは、特徴番号
iに対応した特徴値である。このように、マンハッタン
距離は、欠損データの各特徴値から正常データの各特徴
値を引いた値の絶対値をそれぞれ出して、それらの絶対
値を足し合わせた値となる。図5及び図6の例では、マ
ンハッタン距離は、図6(B)の「距離」に示された値
となる。マンハッタン距離は、1欠損データと各正常デ
ータとが、どのくらい類似しているかを数値化したもの
であり、その値が小さい程、両データは類似しているこ
ととなる。
【0036】従って、欠損データ補完処理装置114
は、マンハッタン距離が最小となる正常データの特徴値
(欠損データの欠損値に対応する特徴値)を補完候補
(補完データの候補)として決定し、その補完候補を欠
損データの欠損値に代入(補完)する(ステップST3
03)。図6の例では、マンハッタン距離0.136が
最小値となっているので、その距離0.136に該当す
る正常データの特徴「身長」の特徴値「0.696」が
補完候補となり、欠損値に代入される。
【0037】尚、補完データとせずに補完候補(補完デ
ータの候補)としているのは、欠損データ補完処理装置
114で求めた値で自動的に補完を行うのでなく、作業
者による最終的な判断の結果、当該値で補完しても良い
と判断された場合に初めて補完が行われるように構成さ
れているからである(即ち、未だ、補完データとして完
全に決定されたわけではない)(図4のステップST4
02〜403参照)。
【0038】次に、欠損データ補完処理装置114は、
全欠損データについて上記補完処理を実施したか否か判
定し(ステップST304)、その判定の結果、全ての
欠損データについて上記補完処理を実施していない場合
には、上記ステップST301に戻って、上記補完処理
を繰り返し、一方、全ての欠損データについて蒸気補完
処理を実施している場合には、補完処理を終了する。そ
の後、データ復元装置115の処理に移行される。
【0039】(3)データ復元装置115の動作 図4は、データ復元装置115の動作を説明するための
フローチャートである。図7は、データ復元装置115
が処理するデータの一例を示す図である。
【0040】データ復元装置115は、クレンジング処
理された補完後のサンプルデータ群の各特徴値を、情報
源データベース100に蓄積されているサンプルデータ
群の特徴値を引用(参照)して、元のデータ形式の各特
徴値に復元する(ステップST401)。図7の例で
は、図7(A)のクレンジング処理されたデータ形式の
サンプルデータ群の各特徴値を、図7(B)の元のデー
タ形式(情報源データベース100に保存されたデータ
形式)のサンプルデータ群の各特徴値に復元する。
【0041】尚、サンプルデータ群の各特徴値を復元す
る際、情報源データベース100に蓄積されているサン
プルデータ群の各特徴値を引用(参照)するのは、クレ
ンジング処理及び復元処理において特徴値に誤差が生じ
る可能性があるので、元のサンプルデータ群の特徴値を
参照することにより、そのような誤差をなくすためであ
る。
【0042】次に、データ復元装置115は、欠損デー
タ補完処理装置114による上記補完処理で求めた復元
後の補完候補を補完データ制御装置120に出力する
(ステップST402)。補完データ制御装置120
は、データ復元装置115から出力された補完候補をデ
ィスプレイなどに画面表示する。作業者は、画面表示さ
れた補完候補をチェックして、補完候補が正常であるか
否か、即ち、補完候補による補完実施可能か否かを判断
する(ステップST403)。
【0043】作業者は、補完実施可能であると判断した
場合(補完候補を了承した場合)は、補完された復元後
のサンプルデータ群を情報源データベース130に蓄積
して(ステップST404)、処理を終了する。尚、作
業者が、補完実施不可能であると判断した場合(補完候
補を了承しない場合)には、補完を実施せずに(補完候
補を欠損値に補完(代入)せずに)、処理を終了する。
【0044】以上のように、この実施の形態によれば、
サンプルデータに欠損値が存在する場合、その欠損デー
タに類似する正常データをマンハッタン距離関数を用い
て求めて、欠損値に対応する正常データの特徴値を補完
データ(補完候補)とし、その補完データを欠損値に補
完するように構成されているので、補完データを自動的
に算出することができ、その結果、作業者の労力を大幅
に削減することができる。
【0045】また、補正データをマンハッタン距離関数
を用いて算出するように構成されているので、サンプル
データの情報能力を損なうことのない最適な値の補完デ
ータを算出することができ、その結果、データマイニン
グの解析品質を低下するのを極力防止することができ
る。また、多次元のサンプルデータの補完処理にも適用
することができ、システムの利便性が一層向上する。
【0046】また、マンハッタン距離関数で補完データ
を求める前に、クレンジング処理を施しているので、量
的データ及び質的データのいずれのデータに対しても、
またサンプルデータに両データを含んでいる場合でも、
補完データを算出して、補完処理を行うことができる。
【0047】また、補完データ(補完候補)を算出して
も、この補完データを直ちに信頼するのではなく、作業
者が補完データを確認するによって補完処理を行うか否
かの最終的な判断を行えるように構成されているので、
即ち、欠損データ補完システム(計算機)で完全自動に
よって補完が行われているのではなく、作業者が介入し
て補完が行われるように構成されているので、サンプル
データ中の特徴値が意図的に欠損されている場合(欠損
値には、異常値や危険値などのように、意図的に欠損さ
れているような場合も存在する)には、データマイニン
グの解析結果などが著しく信頼性を損なわれてしまうこ
とも起こり得るが、このような事態を回避することがで
きる。
【0048】
【発明の効果】以上のように、請求項1及び4記載の発
明によれば、データベースに蓄積されているサンプルデ
ータ群の中から、一部の特徴の欠損が存在する欠損デー
タを検出し、当該欠損データと欠損のない正常データと
に分割する欠損検出分割処理ステップ(部)と、欠損デ
ータに類似する正常データを所定の類似尺度を用いて求
め、その求めた正常データにおける欠損データの欠損特
徴に対応する特徴のデータを補完データとして、欠損デ
ータの欠損特徴に代入して補完する補完処理ステップ
(部)とを備えたので、補完データを自動的に算出する
ことができ、その結果、作業者の労力を大幅に削減する
ことができる。
【0049】請求項2及び5記載の発明によれば、所定
の類似尺度として、マンハッタン関数で算出される欠損
データと正常データの距離としたので、サンプルデータ
の情報能力を損なうことのない最適な値の補完データを
算出することができ、その結果、データマイニングの解
析品質を低下するのを極力防止することができ、また、
多次元のサンプルデータの補完処理にも適用することが
でき、システムの利便性が一層向上する。
【0050】請求項3及び6記載の発明に係る欠損デー
タ補完方法及びシステムは、補完データを求める前に、
サンプルデータ中の量的データを正規化し、また質的デ
ータをダミー変数に置換するクレンジング処理ステップ
(部)と、クレンジング処理されたサンプルデータを元
のデータ形式に復元する復元処理ステップ(部)とをさ
らに設けたので、量的データ及び質的データのいずれの
データに対しても、またサンプルデータに両データを含
んでいる場合でも、補完データを算出して、補完処理を
行うことができる。
【0051】請求項7記載の発明に係る欠損データ補完
システムは、補完処理を完了する前に、補完データを画
面表示させる補完データ制御部を設けたので、サンプル
データ中の特徴値が意図的に欠損されている場合でも、
データマイニングの解析結果などが著しく信頼性を損な
われてしまうような事態を回避することができる。
【図面の簡単な説明】
【図1】 本発明の欠損データ補完システムを示すブロ
ック図である。
【図2】 データクレンジング分割処理装置の動作を説
明するためのフローチャートである。
【図3】 欠損データ補完処理装置の動作を説明するた
めのフローチャートである。
【図4】 データ復元装置の動作を説明するためのフロ
ーチャートである。
【図5】 データクレンジング分割処理装置が処理する
データの一例を示す図である。
【図6】 欠損データ補完処理装置が処理するデータの
一例を示す図である。
【図7】 データ復元装置が処理するデータの一例を示
す図である。
【符号の説明】
100,130 情報源データベース(データベース) 111 データクレンジング分割処理装置(欠損検出分
割処理部、データクレンジング処理部) 112 正常データ蓄積装置 113 欠損データ蓄積装置 114 欠損データ補完処理装置(補完処理部) 115 データ復元装置(復元処理部) 110 欠損データ補完装置 120 補完データ制御装置(補完データ制御部)

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 データベースに蓄積されているサンプル
    データ群の中から、一部の特徴の欠損が存在する欠損デ
    ータを検出し、当該欠損データと欠損のない正常データ
    とに分割する欠損検出分割処理ステップと、 前記欠損データに類似する前記正常データを所定の類似
    尺度を用いて求め、その求めた前記正常データにおける
    前記欠損データの欠損特徴に対応する特徴のデータを補
    完データとして、前記欠損データの欠損特徴に代入して
    補完する補完処理ステップとを備えたことを特徴とする
    欠損データ補完方法。
  2. 【請求項2】 所定の類似尺度は、マンハッタン関数で
    算出される欠損データと正常データの距離であることを
    特徴とする請求項1記載の欠損データ補完方法。
  3. 【請求項3】 補完データを求める前に、サンプルデー
    タ中の量的データを正規化し、また質的データをダミー
    変数に置換するクレンジング処理ステップが設けられる
    とともに、前記クレンジング処理されたサンプルデータ
    を元のデータ形式に復元する復元処理ステップが設けら
    れたことを特徴とする請求項1又は請求項2記載の欠損
    データ補完方法。
  4. 【請求項4】 データベースに蓄積されているサンプル
    データ群の中から、一部の特徴の欠損が存在する欠損デ
    ータを検出し、当該欠損データと欠損のない正常データ
    とに分割する欠損検出分割処理部と、 前記欠損データに類似する前記正常データを所定の類似
    尺度を用いて求め、その求めた前記正常データにおける
    前記欠損データの欠損特徴に対応する特徴のデータを補
    完データとして、前記欠損データの欠損特徴に代入して
    補完する補完処理部とを備えたことを特徴とする欠損デ
    ータ補完システム。
  5. 【請求項5】 所定の類似尺度は、マンハッタン関数で
    算出される欠損データと正常データの距離であることを
    特徴とする請求項4記載の欠損データ補完システム。
  6. 【請求項6】 補完データを求める前に、サンプルデー
    タ中の量的データを正規化し、また質的データをダミー
    変数に置換するクレンジング処理部が設けられるととも
    に、前記クレンジング処理されたサンプルデータを元の
    データ形式に復元する復元処理部が設けられたことを特
    徴とする請求項4又は請求項5記載の欠損データ補完シ
    ステム。
  7. 【請求項7】 補完処理を完了する前に、補完データを
    画面表示させる補完データ制御部が設けられたことを特
    徴とする請求項4から請求項6のうちのいずれか1項記
    載の欠損データ補完システム。
JP2001013175A 2001-01-22 2001-01-22 欠損データ補完方法及び欠損データ補完システム Expired - Fee Related JP3654193B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001013175A JP3654193B2 (ja) 2001-01-22 2001-01-22 欠損データ補完方法及び欠損データ補完システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001013175A JP3654193B2 (ja) 2001-01-22 2001-01-22 欠損データ補完方法及び欠損データ補完システム

Publications (2)

Publication Number Publication Date
JP2002215646A true JP2002215646A (ja) 2002-08-02
JP3654193B2 JP3654193B2 (ja) 2005-06-02

Family

ID=18880075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001013175A Expired - Fee Related JP3654193B2 (ja) 2001-01-22 2001-01-22 欠損データ補完方法及び欠損データ補完システム

Country Status (1)

Country Link
JP (1) JP3654193B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584162B2 (en) 2005-09-14 2009-09-01 Fujitsu Microelectronics Limited Manufacture data analysis method and manufacture data analyzer apparatus
JP2009301447A (ja) * 2008-06-17 2009-12-24 Nec Corp 情報処理装置
JP2010152692A (ja) * 2008-12-25 2010-07-08 Nec Corp 類似度計算装置、類似度計算方法およびプログラム
JP2014029611A (ja) * 2012-07-31 2014-02-13 Hitachi Systems Ltd 予測値評価支援システム、方法及びプログラム
JP2016024655A (ja) * 2014-07-22 2016-02-08 Kddi株式会社 データ解析装置及びプログラム
JP2017151681A (ja) * 2016-02-24 2017-08-31 日本電信電話株式会社 データ補完装置及びデータ補完方法
US10175664B2 (en) 2011-05-31 2019-01-08 Toyota Jidosha Kabushiki Kaisha Sensor information complementing system and sensor information complementing method
JP2020129224A (ja) * 2019-02-07 2020-08-27 株式会社インテージ データ管理システム、データ管理方法、およびデータ管理プログラム
JP6962435B1 (ja) * 2020-10-12 2021-11-05 トヨタ自動車株式会社 機械学習装置
WO2022180681A1 (ja) * 2021-02-24 2022-09-01 日本電気株式会社 データ生成システム、データ生成方法およびデータ生成プログラム
US11562275B2 (en) 2019-03-20 2023-01-24 Fujitsu Limited Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
JP7582438B2 (ja) 2021-02-24 2024-11-13 日本電気株式会社 データ生成システム、データ生成方法およびデータ生成プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119309A (ja) * 1992-10-02 1994-04-28 Intetsuku:Kk 購入見込み度合予測方法及び顧客管理システム
JPH11175552A (ja) * 1997-12-12 1999-07-02 Fujitsu Ltd データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11238006A (ja) * 1998-02-19 1999-08-31 Nippon Telegr & Teleph Corp <Ntt> データクリーニング処理方法および装置とデータクリーニング処理プログラムを記録した記録媒体
JP2000172697A (ja) * 1998-12-03 2000-06-23 Sony Corp 顧客情報検索方法及び顧客情報検索装置、データ作成方法、並びにデータベース
JP2001184329A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd 状況認識装置
JP2002063311A (ja) * 2000-08-18 2002-02-28 Vlc Co Ltd データ集計システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119309A (ja) * 1992-10-02 1994-04-28 Intetsuku:Kk 購入見込み度合予測方法及び顧客管理システム
JPH11175552A (ja) * 1997-12-12 1999-07-02 Fujitsu Ltd データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11238006A (ja) * 1998-02-19 1999-08-31 Nippon Telegr & Teleph Corp <Ntt> データクリーニング処理方法および装置とデータクリーニング処理プログラムを記録した記録媒体
JP2000172697A (ja) * 1998-12-03 2000-06-23 Sony Corp 顧客情報検索方法及び顧客情報検索装置、データ作成方法、並びにデータベース
JP2001184329A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd 状況認識装置
JP2002063311A (ja) * 2000-08-18 2002-02-28 Vlc Co Ltd データ集計システム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584162B2 (en) 2005-09-14 2009-09-01 Fujitsu Microelectronics Limited Manufacture data analysis method and manufacture data analyzer apparatus
JP2009301447A (ja) * 2008-06-17 2009-12-24 Nec Corp 情報処理装置
JP2010152692A (ja) * 2008-12-25 2010-07-08 Nec Corp 類似度計算装置、類似度計算方法およびプログラム
US10175664B2 (en) 2011-05-31 2019-01-08 Toyota Jidosha Kabushiki Kaisha Sensor information complementing system and sensor information complementing method
DE112012002285B4 (de) 2011-05-31 2024-08-01 Toyota Jidosha Kabushiki Kaisha System und Verfahren zur Ergänzung von Sensorinformationen
JP2014029611A (ja) * 2012-07-31 2014-02-13 Hitachi Systems Ltd 予測値評価支援システム、方法及びプログラム
JP2016024655A (ja) * 2014-07-22 2016-02-08 Kddi株式会社 データ解析装置及びプログラム
JP2017151681A (ja) * 2016-02-24 2017-08-31 日本電信電話株式会社 データ補完装置及びデータ補完方法
JP2020129224A (ja) * 2019-02-07 2020-08-27 株式会社インテージ データ管理システム、データ管理方法、およびデータ管理プログラム
US11562275B2 (en) 2019-03-20 2023-01-24 Fujitsu Limited Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
JP6962435B1 (ja) * 2020-10-12 2021-11-05 トヨタ自動車株式会社 機械学習装置
US11377110B2 (en) 2020-10-12 2022-07-05 Toyota Jidosha Kabushiki Kaisha Machine learning device
WO2022180681A1 (ja) * 2021-02-24 2022-09-01 日本電気株式会社 データ生成システム、データ生成方法およびデータ生成プログラム
JP7582438B2 (ja) 2021-02-24 2024-11-13 日本電気株式会社 データ生成システム、データ生成方法およびデータ生成プログラム

Also Published As

Publication number Publication date
JP3654193B2 (ja) 2005-06-02

Similar Documents

Publication Publication Date Title
US9342756B2 (en) Methods and apparatus to detect differences between images
JP2002215646A (ja) 欠損データ補完方法及び欠損データ補完システム
CN109300014B (zh) 基于日志挖掘的商品推荐方法、装置、服务器及存储介质
US20030182296A1 (en) Association candidate generating apparatus and method, association-establishing system, and computer-readable medium recording an association candidate generating program therein
KR100992345B1 (ko) 서비스 평가 방법, 시스템 및 컴퓨터 판독가능한 기록매체
US20240362908A1 (en) Image analysis apparatus, image analysis method, and storage medium
CN114548100A (zh) 一种基于大数据技术的临床科研辅助方法与系统
CN109727056B (zh) 金融机构推荐方法、设备、存储介质及装置
EP3719806A1 (en) A computer-implemented method, an apparatus and a computer program product for assessing performance of a subject in a cognitive function test
JP2001265596A (ja) データマイニング装置およびデータマイニング方法
JP4828716B2 (ja) データ追加型分析装置及びプログラム
JP2004094379A (ja) 類似画像検索装置
JP2024503317A (ja) ニューラルネットワークの出力解析方法及びそのためのシステム
CN113257409A (zh) 一种基于患者病症症状与医学检验报告的临床决策支持系统
CN112560952A (zh) 供应商考核方法、装置、电子设备和存储介质
JP5118707B2 (ja) 検索ログ悪用防止方法及び装置
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
CN118197649B (zh) 基于大数据的多囊卵巢综合征筛查方法
CN112286986B (zh) 一种基于企业族谱的产权分析管理系统
JP2000099575A (ja) 有望顧客抽出方法及び装置
JP7511797B2 (ja) 保守支援システム、保守支援方法、および、保守支援プログラム
KR100515286B1 (ko) 다중 영상물체 추출기 결합 장치 및 그 방법
US20240170111A1 (en) Receipt data examination device, receipt data examination method, and storage medium
CN118536867A (zh) 服务质检方法及装置、计算机可读存储介质、电子设备
JPH0452219A (ja) 鉄鋼製品の製造可否判定方法及びその装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees