JP2000003281A - 欠落属性値推定装置 - Google Patents

欠落属性値推定装置

Info

Publication number
JP2000003281A
JP2000003281A JP10164983A JP16498398A JP2000003281A JP 2000003281 A JP2000003281 A JP 2000003281A JP 10164983 A JP10164983 A JP 10164983A JP 16498398 A JP16498398 A JP 16498398A JP 2000003281 A JP2000003281 A JP 2000003281A
Authority
JP
Japan
Prior art keywords
attribute value
missing
attribute
cluster
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10164983A
Other languages
English (en)
Inventor
Tadako Oota
唯子 太田
Nobuhiro Yugami
伸弘 湯上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10164983A priority Critical patent/JP2000003281A/ja
Publication of JP2000003281A publication Critical patent/JP2000003281A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 クラスタの所属確率と属性値の推定容易性を
総合的に考慮した欠落属性値の推定を行なう欠落属性値
推定装置を提供する。 【解決手段】 入力部10から入力された欠落属性値を
持つ事例をクラスタ所属確率算出部20に入力する。各
属性値が持つ属性値確率が属性値確率分布記憶部21に
保持されており、各属性値に対応する属性値確率とクラ
スの事例全体に対する割合からクラスタ所属確率が算出
される。欠落属性値推定部30はクラスタごとの欠落属
性における属性値の推定容易度を評価する手段を持ち、
前記クラスタ所属確率と属性値推定容易度の2つの項の
大きさを評価し、最も大きい値を持つクラスタの最も確
率の高い属性を推定属性値として選定する。属性値推定
容易度は属性の中で最も確率の高い属性値である代表属
性値の確率とすることができ、また、属性の持つ情報エ
ントロピーとすることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力事例の分類処
理などにおいて、入力事例の一部の属性の属性値が欠落
している場合に、前記欠落属性値を推定する欠落属性値
推定装置に関する。
【0002】
【従来の技術】近年の情報処理技術の発達により、コン
ピュータシステムにより、多種多様な情報処理が可能と
なっている。エキスパートシステムなどでは入力事例に
対する分類処理が重要な処理となっている。
【0003】分類処理は、分類装置に用意された分類規
則により実行され、入力事例を分類規則に照らし、条件
判断処理などを実行して正しい所属クラスタを決定する
ことにより分類する。
【0004】しかし、入力事例の持つ情報は常に完全な
ものとは限られず、一部の属性の属性値が与えられてお
らず、欠落している場合がある。従来は、このように欠
落属性値がある場合には、以下の2つの処理を行ってい
た。
【0005】第一番目は、かかる欠落属性値を持つ入力
事例に対して、分類処理が正常に行えないため事例とし
て採用せず、分類不可能扱いとする処理を行なうもので
ある。例えば、アンケート処理などにおいて無効回答扱
いとされるものである。
【0006】第二番目は、欠落している属性値の値を推
定し、その推定値を入力事例の欠落属性値として補い、
分類処理するものである。上記第二番目の欠落属性値の
推定において、如何に推定値を決めるかという点は重要
な課題となっている。
【0007】また、本来与えられている属性値が欠落し
ている上記ケースのほか、需要予測などのように、仮想
の事例が持つであろう属性の値を推定する場合がある。
このような場合は、仮想の事例として各属性の属性値を
仮想的に与え、推定したい属性の属性値を欠落属性値と
みなしてその属性値の推定を行うこととなる。
【0008】この需要予測などの場合にも、如何にその
欠落属性値の推定を行うかという点が重要な課題となっ
ている。従来技術における欠落属性値の推定方法は、ま
ず、欠落せず与えられた属性の属性値からその事例が属
する可能性の最も高いクラスタを推定し、その後推定さ
れたクラスタに属する事例がその属性において属性値と
して持つ確率が最も高い値をその属性値として推定する
ものであった。つまり、確率が最も高いクラスタを推定
する段階と、そのクラスタの中で確率が最も高い属性値
推定する段階の2段階を独立に処理するものであった。
【0009】この従来の推定にあたっては他の事例や過
去の事例から、例えば、図2に示すような各クラスタ、
各属性ごとに整理した各属性値の確率をデータとして用
意する。
【0010】ここで、事例の属性がa0〜a(M-1)で記述
されたとし、属性akが欠落属性とする。事例Xは、X
=(v(x0),v(x1),…,v(xk-1),Unknown,v(xk+1),
…,v(x(M-1))と記述できる。クラスタCc内での属性
iの属性値Vijの分布をpc(Vij)とし、訓練事例の
中で属性値Vijを取る事例の割合をP(Vij)、クラスタ
Ccの割合をP(Cc)とすると、事例XのクラスタCc
への所属確率p(X,Cc)は(数1)で与えられる。
【0011】
【数1】
【0012】例えば、図2に示す例では、属性“購入商
品”の属性値が欠落した事例X(20代、男性、学生)
に対して、従来の推定方法によれば、まず、(数1)に
従って各クラスタの所属確率p(X,C1)が求められ、 クラスタ1所属確率p(X,C1)=0.4*0.6*0.4
*0.4=0.0384 クラスタ2所属確率p(X,C2)=0.5*0.5*0.3
*0.4=0.0300 クラスタ3所属確率p(X,C3)=0.4*0.4*0.2
*0.2=0.0064 と算出される。ここで、クラスタ1への所属確率が最も
高いので、入力事例Xはクラスタ1に所属する事例とし
て推定される。次に、クラスタ1に属する事例が、属性
“購入商品”においてとる属性値としてとる確率が最も
高い属性値を選ぶ処理を行っていた。
【0013】上記従来の推定方法は、ある事例のクラス
タへの所属の推定、さらにそのクラスタ内での属性値の
推定という面からは最も可能性の高い属性値の推定を行
うことができるものであり、従来の欠落属性値推定装置
においてかかる推定方法が用いられていた。
【0014】
【発明が解決しようとする課題】しかし、上記従来の欠
落属性値推定装置によれば、欠落属性値の推定段階にお
いてその推定精度が劣化するという問題があった。つま
り、所属確率が高いとして推定したクラスタにおいて、
欠落属性の各属性値の推定の段階において、各属性値の
持つ確率が拮抗している場合には、それらの中から選択
した属性値である確率は必ずしも充分高くない場合があ
る。
【0015】例えば、図7に示した例において、従来方
法で推定されたクラスタ1における購入商品の各属性値
の確率を見れば、スキー板が0.2、テニスラケットが
0.2、ダイビングスーツが0.2、ゴルフクラブが0.
2、その他が0.2であり、各々が拮抗しており、一の
属性値を推定するための確率としては必ずしも充分に高
いとは言えず、その欠落属性値推定の精度が高いとは言
えない。
【0016】上記従来の欠落属性値推定装置の問題点
は、欠落属性値の推定処理を、所属クラスタの推定段階
と最終的な欠落属性値の推定段階とをそれぞれ別々に評
価して推定を行っていることに起因し、属性値推定には
適さないクラスタが選定される可能があることであっ
た。
【0017】本発明は、上記問題点に鑑み、欠落属性値
を持つ事例の欠落属性値推定にあたり、所属クラスタの
推定と属性値の推定を併せて評価することにより欠落属
性値推定の精度を向上した欠落属性値推定装置を提供す
ることを目的とする。
【0018】
【課題を解決するための手段】上記課題を解決するため
に本発明にかかる欠落属性値推定装置は、入力部と、ク
ラスタ所属確率算出部と、欠落属性値推定部とを備え、
前記入力部により一部の属性の属性値が欠落している事
例が入力され、前記クラスタ所属確率算出部が、各クラ
スタの各属性の各属性値ごとに与えられた属性値確率で
あって事例がその属性値を持つ確率を示すものを記憶す
る属性値確率分布記憶部を備え、前記属性値確率と前記
入力事例が持っている属性値とクラスタの事例全体の割
合とを基に、前記入力事例の各クラスタへの所属確率を
算出し、前記欠落属性値推定部が、各クラスタの各属性
ごとに属性値を推定する容易性を示す属性値推定容易度
を保持し、前記クラスタ所属確率算出部により算出され
たクラスタ所属確率と前記属性値推定容易度の2つの項
の大きさを評価する欠落属性値推定精度を各クラスタご
とに算出し、前記欠落属性値推定精度が最も大きくなる
クラスタの欠落属性の最も確率の高い属性値を推定属性
値とすることを特徴とする。
【0019】かかる構成により、クラスタの所属確率と
属性値の推定容易性を総合的に考慮した欠落属性値の推
定を行なうことができ、欠落属性値の推定精度を向上さ
せることができる。
【0020】次に、前記欠落属性値推定部が、各クラス
タの各属性において最も確率の高い属性値を代表属性値
とし、前記代表属性値の確率を代表属性値確率とし、前
記欠落属性値推定部の保持する属性値推定容易度が、前
記代表属性値確率であることが好ましい。
【0021】かかる構成により、属性値の推定容易性
を、属性において最も確率の高い代表属性値に対するそ
の代表属性値確率をもって評価することができ、クラス
タの所属確率と代表属性値確率を総合的に考慮した欠落
属性値の推定を行なうことができ、欠落属性値の推定精
度を向上させることができる。
【0022】次に、前記欠落属性値推定部が、各クラス
タの各属性における情報エントロピーを算出する属性情
報エントロピー算出部を備え、前記欠落属性値推定部の
保持する属性値推定容易度が、前記算出した属性情報エ
ントロピーであることが好ましい。
【0023】かかる構成により、属性値の推定容易性
を、各クラスタの各属性の持つ属性情報エントロピーの
大きさをもって評価することができ、クラスタの所属確
率と属性情報エントロピーを総合的に考慮した欠落属性
値の推定を行なうことができ、欠落属性値の推定精度を
向上させることができる。
【0024】次に、前記欠落属性値推定精度が、前記ク
ラスタ所属確率と前記属性値推定容易度との積であるこ
とが好ましい。かかる構成により、前記クラスタ所属確
率と前記属性値推定容易度の2つの項の大きさで評価す
る欠落属性値推定精度を、それら2つの項の積として評
価することができ、欠落属性値推定精度を得ることがで
きる。
【0025】次に、前記欠落属性値推定精度が、前記ク
ラスタ所属確率と前記属性値推定容易度との二乗和であ
ることが好ましい。かかる構成により、前記クラスタ所
属確率と前記属性値推定容易度の2つの項の大きさで評
価する欠落属性値推定精度を、それら2つの項を軸とす
る平面上での距離の大きさとして評価することができ、
欠落属性値推定精度を得ることができる。
【0026】次に、前記クラスタ所属確率算出部が、前
記入力部より入力された事例の属性のうち数値で表わさ
れる属性の属性値を所定の量子化幅で量子化する属性値
量子化部を備え、前記属性値量子化部により量子化した
事例の属性値を基にクラスタ所属確率を算出することが
好ましい。
【0027】かかる構成により、事例の持つ属性値を設
定した量子化幅に応じた属性値にまるめることができ、
属性値確率分布記憶部が記憶すべき属性値確率の記憶量
を低減することができる。
【0028】次に、前記クラスタ所属確率算出部が、属
性重み設定部を備え、前記属性値確率に対して前記属性
重み設定部により属性に応じた重み付けを行い、前記ク
ラスタ所属確率の算出において、前記重み付けを行った
属性値確率を用いることが好ましい。
【0029】かかる構成により、クラスタ所属確率を算
出するにあたって、特定の属性がその事例のクラスタ所
属に対して大きく影響を与えるなどの特殊事情を考慮し
た欠落属性値の推定を行うことができる。
【0030】次に、本発明の欠落属性値推定装置の利用
方法は、利用者が事例の入力にあたり、ある属性には利
用者の想定する属性値を与え、他の属性は属性値を与え
ずに欠落属性とし、利用者の想定した属性値を持つ事例
が、欠落している属性において持つ確率の最も高い属性
値を推定することにより、予測装置として利用するもの
であることが好ましい。
【0031】かかる利用方法により、例えば、属性値と
して想定したい購買層の属性値を与え、欠落属性値を需
要を予測したい商品とすることができ、本発明の欠落属
性値推定装置を、想定した属性を持つ購買層の商品に対
する需要予測などに用いることができる。
【0032】また、本発明にかかる欠落属性値推定装置
を実現する処理ステップを記録したコンピュータ読み取
り可能な記録媒体は、一部の属性の属性値が欠落してい
る事例の入力を受け付ける処理ステップと、クラスタ所
属確率を算出する処理ステップと、欠落属性値を推定す
る処理ステップとを備え、前記クラスタ所属確率を算出
する処理ステップが、各クラスタの各属性の各属性値ご
とに与えられた属性値確率であって事例がその属性値を
持つ確率を示すものを記憶する処理ステップと、前記属
性値確率と前記入力事例が持っている属性値とクラスタ
の事例全体の割合とを基に前記入力された事例の各クラ
スタへの所属確率を算出する処理ステップを備え、前記
欠落属性値を推定する処理ステップが、各クラスタの各
属性ごとに属性値を推定する容易性を示す属性値推定容
易度を保持する処理ステップと、前記クラスタ所属確率
を算出する処理ステップにより算出されたクラスタ所属
確率と前記保持している属性値推定容易度の2つの項の
大きさを評価する欠落属性値推定精度を各クラスタごと
に算出し、前記欠落属性値推定精度が最も大きくなるク
ラスタの欠落属性の最も確率の高い属性値を推定属性値
と選定する処理ステップを備えた処理プログラムを記録
したことを特徴とする。
【0033】かかる構成により、コンピュータを利用し
て、クラスタの所属確率と属性値の推定容易性を総合的
に考慮した欠落属性値の推定を行なうことができる欠落
属性値推定装置を実現することができる。
【0034】
【発明の実施の形態】以下、本発明の実施形態にかかる
欠落属性値推定装置について、図面を参照しながら説明
する。
【0035】(実施形態1)実施形態1にかかる欠落属
性値推定装置は、属性値の一部が欠落している事例が入
力された場合に、当該事例の欠落している属性値をクラ
スタの所属確率と当該クラスタにおける属性値推定容易
度の2つの項を併せて評価することにより推定し、その
推定値を欠落属性値として補う装置である。特に、本実
施形態1では、クラスタの属性値推定容易度として、ク
ラスタの属性ごとに最も確率の高い属性値を代表属性値
と定義してその代表属性値をとる確率の大きさをもって
属性値推定容易度とする。この代表属性値の確率が高い
ということは、そのクラスタに分類されれば欠落属性に
おいてその代表属性値をとる可能性が高いことを意味
し、属性値の推定が容易であることを意味する。つま
り、本実施形態1では、各クラスタの所属確率の大きさ
と、代表属性値確率で表わされる各クラスタにおける属
性値推定容易度の大きさの2つの項の大きさを欠落属性
値推定精度として評価し、欠落属性値推定精度が最も高
くなるクラスタの代表属性値を推定属性値とするもので
ある。
【0036】なお、本実施形態1では、欠落属性値推定
精度として、クラスタの所属確率と代表属性値確率の積
をもって評価しているが、積算に限られず、クラスタの
所属確率と代表属性値確率の2項の大きさを評価できる
方法であれば良く、例えば、クラスタの所属確率と代表
属性値確率を2軸とする平面を定義し、欠落属性値推定
精度を平面上の距離としてその大きさを評価しても良
い。
【0037】本装置の利用形態として、もともと入力事
例の一部属性の属性値が欠落して不完全な場合に、その
欠落属性値を推定するという利用形態に加え、需要予測
など、予測したい情報を欠落属性として扱い、その欠落
属性値を推定することにより予測したい情報を得るとい
う利用形態も可能である。本実施形態では、具体的な例
として後者の利用形態である需要予測を例として挙げつ
つ説明する。
【0038】本実施形態1にかかる欠落属性値推定装置
の全体構成の概略と本装置による処理流れの全体像を図
面を参照しつつ説明する。図1は、本発明にかかる欠落
属性値推定装置の概略構成図、図2は、本装置が記憶し
ている各属性値の確率の分布を示す図、図3は、本装置
による処理流れの全体像を処理ステップとして表わした
フローチャートである。
【0039】図1に示すように、本実施形態1にかかる
欠落属性値推定装置は、大別して入力部10、クラスタ
所属確率算出部20、欠落属性値推定部30、制御部4
0、出力部50とを備えている。なお、図示していない
が、システム全体の制御処理に必要なメモリ、デバイス
類は装備しているものとする。
【0040】入力部10は、各属性値が与えられた事例
が入力される部分であり、入力事例として一部の属性の
属性値が欠落したものが入力される。クラスタ所属確率
算出部20は、属性値確率分布記憶部21と、属性値量
子化部22と、属性重み設定部23と、クラスタ所属確
率演算部24とを備えている。
【0041】属性値確率分布記憶部21は、各クラスタ
ごと各属性ごとに整理された各属性値の確率の分布を記
憶しておく部分であり、属性値確率とは、対象となる事
例集合の分類処理により統計的に得られている事例がと
る各属性値の確率である。
【0042】属性値量子化部22は、入力部10から入
力された事例の持つ各属性値を量子化する部分である。
これは、事例の属性値をあらかじめ量子化しておくこと
により属性値の評価を行いやすくする効果が得られる。
なお、属性値量子化部22の量子化幅は調整して設定で
きることが好ましい。欠落属性値推定装置の細かいチュ
ーニングを可能とするためである。
【0043】属性重み設定部23は、前記属性値確率分
布記憶部21に記憶されている属性値確率に対して属性
に応じた重み付けを行なう部分であり、クラスタ所属確
率p(X,C)の算出において、前記重み付けを行った属
性値確率を用いるためのものである。これは、クラスタ
所属確率を算出するにあたって、特定の属性がその事例
のクラスタ所属に対して大きく影響を与えるなどの特殊
事情を考慮する必要がある場合には有効である。本実施
形態では特に属性間での重みは付けないものとし、属性
重み設定部23の各属性に対する重みは全て1とする。
【0044】クラスタ所属確率演算部24は、入力事例
の持つ属性値を参考に、入力事例の各クラスタへの所属
確率p(X,C)を計算する部分である。所属確率p(X,
C)の計算は、従来技術で説明した(数1)の計算によ
り行う。
【0045】欠落属性値推定部30は、代表属性値確率
記憶部31と、欠落属性値推定精度算出部32を備えて
いる。代表属性値確率記憶部31に記憶される代表属性
値確率とは、クラスタごとのその属性におけるその代表
属性値をとる確率pc(V(max))であり、クラスタごとの
その属性における属性値推定の容易性を表わすものとも
言える。
【0046】欠落属性値推定精度算出部32は、クラス
タ所属確率算出部20によりそれぞれ算出された入力事
例の各クラスタへの所属確率p(X,C)と欠落属性kの
代表属性値の確率pc(Vk(max))の積をとることにより
欠落属性値推定精度を算出する部分である。欠落属性値
推定精度Pは、P=p(X,C)*pc(Vk(max))で与えら
れる。
【0047】このクラスタ所属確率p(X,C)と代表属
性値の確率pc(Vk(max))という2つの確率を掛け合わ
せた数値を評価することにより、クラスタ推定段階と属
性値推定段階の2つの段階をまとめた全体として最も確
からしい属性値の推定ができる。
【0048】制御部40は、本欠落属性値推定装置の処
理全体を制御する部分である。出力部50は、本欠落属
性値推定装置により推定された属性値を出力する部分で
ある。
【0049】本発明にかかる欠落属性値推定装置の処理
の流れの全体像を実例の処理と併せて図3のフローチャ
ートにより説明する。まず、前提として、属性値確率分
布記憶部21に、属性値確率分布が記憶されているもの
とする。属性値確率分布の例を図2に示す。図2に示す
例では、スポーツ商品購入者データの属性値の確率であ
って、属性として、年代(10代〜30代、それ以
上)、性別(男女)、職業(学生、会社員、その他)、
購入品(スキー板、テニスラケット、ダイビングスー
ツ、ゴルフクラブ、その他)があり、クラスタ1〜3は
接客販売員1〜3の分類であるものとする。
【0050】また、前提として、代表属性値確率記憶部
31には、各クラスタ、各属性ごとの代表属性値確率が
記憶されている。本例では、図2に示す属性値の確率か
ら、各属性について最も大きい確率が代表属性値確率と
して記憶され、購入商品の属性については、クラスタC
1が0.2、クラスタC2が0.4、クラスタC3が0.
4である。
【0051】まず、入力部10から、欠落属性値を持つ
事例が入力される(ステップS301)。本例では、需
要予測を行う利用形態であるので、事例Xとして需要を
予測する対象の購入者像の属性を持たせ、商品の属性を
欠落属性とする。ここでは、例えば、購入者像の事例X
として、年代属性を“25才”、性別属性を“男性”、
職業属性を“学生”とし、購入商品を欠落属性として扱
う。
【0052】次に、入力された事例Xの情報は、クラス
タ所属確率算出部20に渡される。クラスタ所属確率算
出部20はまず、事例Xから各属性値を検出する(ステ
ップS302)。ここでは、年代属性が“25才”、性
別属性が“男性”、職業属性が“学生”と検出され、購
入商品属性が欠落していることが検出される。
【0053】次に、属性値量子化部22によりステップ
S302で検出した属性値を量子化する(ステップS3
03)。ここでは、年齢の量子化ステップが10年ごと
に設定されているものとし、事例Xの年齢属性“25
才”が量子化され、“20代”とされる。
【0054】次に、クラスタ所属確率算出部20は、属
性値確率分布記憶部21に記憶されている属性値確率分
布を参照して、事例Xの各属性値に対応する確率を抽出
し(ステップS304)、クラスタ所属確率演算部24
においてステップS304で抽出された各々の確率と各
クラスタの事例全体に対する割合を基に(数1)より所
属確率p(X,C)を算出する(ステップS305)。本
例では、以下のように事例Xの各クラスタへの所属確率
p(X,C)が算出される。
【0055】 クラスタ1所属確率p(X,C1):0.4*0.6*0.4
*0.4=0.0384 クラスタ2所属確率p(X,C2):0.5*0.5*0.3
*0.4=0.0300 クラスタ3所属確率p(X,C3):0.4*0.4*0.2
*0.3=0.0064 となる。
【0056】次に、欠落属性値推定精度算出部32にお
いて欠落属性値推定精度が算出される。本実施形態1で
は、ステップS305で算出された各クラスタの所属確
率p(X,C)は欠落属性値推定精度算出部32に渡さ
れ、各クラスタの欠落属性の代表属性値確率pc(V
k(max))と掛け合わされ、欠落属性値推定精度P=p
(X,C)*pc(Vk(max))が算出される(ステップS30
6)。本例では、欠落属性値は購入商品であるのでそれ
ぞれのクラスタ1〜3の欠落属性の代表属性値確率pc
(Vk(max))は、それぞれ、0.2,0.4,0.4であ
り、 P1=0.0384*0.2=0.00768 P2=0.0300*0.4=0.01200 P3=0.0064*0.4=0.00256 となる。
【0057】次に、ステップS306で算出された欠落
属性値推定精度Pが最も大きくなったクラスタの代表属
性値を推定属性値とする(ステップS307)。本例で
は、P2が最も大きいので、欠落属性“購入商品”の属
性値として“スキー板”が推定結果となる。
【0058】最後に、出力部50から推定属性値が推定
結果として出力される(ステップS308)。以上のス
テップS301〜S308により、本実施形態にかかる
欠落属性値推定装置は、欠落属性値を推定する。その推
定属性値は、クラスタ所属確率のみならず、クラスタの
欠落属性の属性値推定容易度まで考慮して属性値を推定
できるため、欠落属性推定精度を向上させることができ
る。
【0059】ここで、上記スポーツ用品売上データを使
用して、本願発明の欠落属性値推定装置による推定と、
従来の属性値推定方法による推定とを比較すると、従来
の属性値推定方法によれば、クラスタ所属確率p(X,
C)はC1が最も高いため、まず、所属クラスタとして
クラスタ1が選ばれてしまい、続いてクラスタ1の欠落
属性“購入商品”の属性の推定が行われる。ここで、ク
ラスタ1は購入商品の属性において、属性値“スキー
板”、“テニスラケット”、“ダイビングスーツ”、
“ゴルフクラブ”、“その他”も確率が0.2ずつであ
り、属性値の推定が困難なクラスタである。結局、クラ
スタとして所属確率が高いが、属性値の推定には不向き
なクラスタが選択されてしまったことが分かる。一方、
本発明にかかる欠落属性値推定装置によれば、明確に属
性値が“スキー板”であると推定が可能であり、需要予
測としてスキー板の需要がもっとも高いと予測できる。
【0060】以上、本発明による欠落属性値推定装置に
よれば、クラスタの所属確率と属性値の推定容易性とを
総合的に考慮した欠落属性値の推定を行なうことがで
き、欠落属性値の推定精度を向上させることができる。
【0061】(実施形態2)本実施形態2にかかる欠落
属性値推定装置は、実施形態1の装置と同様、属性値の
一部が欠落している事例が入力された場合に、当該事例
の欠落している属性値をクラスタの所属確率と当該クラ
スタにおける属性値推定容易度を併せて評価することに
より推定し、その推定値を欠落属性値として補う装置で
あるが、特に、本実施形態2では、クラスタの属性値推
定容易度として、クラスタの各属性における情報エント
ロピーの大きさをもって属性値推定容易度とする。この
場合、クラスタの属性の情報エントロピーが小さい程、
属性値の推定が容易であることとなる。つまり、本実施
形態2の装置は、各クラスタの所属確率の大きさと、属
性の情報エントロピーで表わされる属性値の推定容易性
の大きさとを併せて評価するものである。本実施形態2
では、実施形態1と同様、欠落属性値推定精度として、
クラスタの所属確率と代表属性値確率の積をもって評価
している。
【0062】本実施形態2にかかる欠落属性値推定装置
の説明において、その利用形態として実施形態1の装置
と同様、需要予測を行う利用形態とし、また、実施形態
1と同様の構成、同様の手順の部分の説明は適宜省略す
るものとする。
【0063】本実施形態2にかかる欠落属性値推定装置
の全体構成の概略と本装置による処理流れの全体像を図
面を参照しつつ説明する。図4は、本実施形態2にかか
る欠落属性値推定装置の概略構成図、図5は、本装置に
よる処理流れの全体像を処理ステップとして表わしたフ
ローチャートである。
【0064】図4は、本実施形態2にかかる欠落属性値
推定装置の概略構成図を示している。図4に示すよう
に、本実施形態2は、欠落属性値推定部30に代え、欠
落属性値推定部30aを備えた構成になっている。欠落
属性値推定部30aは、属性情報エントロピー算出部3
3と、欠落属性値推定精度算出部32を備えている。属
性情報エントロピー算出部33は、各クラスタの各属性
の持つ情報エントロピーE(a,Cc)を算出して記憶し
ておく部分である。欠落属性値推定精度算出部32は、
実施形態1と同様のものであるが、クラスタ所属確率算
出部20によりそれぞれ算出された入力事例Xの各クラ
スタへの所属確率p(X,C)に対して、欠落属性の属性
情報エントロピーを掛け合わせることにより属性値の推
定精度を算出する部分である。
【0065】ここで、属性の情報エントロピーは、(数
2)で与えられる。
【0066】
【数2】
【0067】このクラスタ所属確率p(X,C)と欠落属
性kの属性情報エントロピーE(ak,Cc)という2つの
確率を掛け合わせた数値p(X,C)*E(ak,Cc)を評
価することにより、クラスタ推定段階と属性値推定段階
の2つの段階をまとめた全体としての最も確からしい属
性値が推定できる。
【0068】図5により欠落属性値推定部30aの動作
を中心とした処理ステップを説明する。ここでは実施形
態1の図3のフローチャートで示した処理ステップと重
複する部分の説明は適宜省略する。
【0069】まず、前提として、属性値確率分布記憶部
21に、属性値確率分布が記憶されているものとする。
属性値確率分布の例は実施形態1で用いた図2に示した
スポーツ商品売上げデータとし、属性として、年代、性
別、職業、購入品があり、クラスタ1〜3は接客販売員
1〜3の分類であるものとする。
【0070】また、前提として、属性情報エントロピー
算出部33には、各クラスタ、各属性ごとの属性情報エ
ントロピーが算出され、記憶されている。まず、入力部
10から、欠落属性値を持つ事例Xが入力される(ステ
ップS501)。ここでは、実施形態1における事例X
と同様のものとする。
【0071】ここで、クラスタ所属確率算出部20によ
る事例Xの各属性値の検出(ステップS502)〜クラ
スタ所属確率p(X,C)の算出(ステップS505)ま
での処理ステップは、実施形態1で図3をもって示した
処理ステップS302〜ステップS305までの処理ス
テップとそれぞれ同様であるのでここでの説明は省略す
る。
【0072】ステップS505により、本実施形態2に
おいても、事例Xのクラスタ1〜クラスタ3への所属確
率p(X,C1)〜p(X,C3)は、それぞれ、0.038
4、0.0300、0.0064となる。
【0073】次に、ステップS505で算出された各ク
ラスタの所属確率p(X,C)は欠落属性値推定部30a
に渡され、属性情報エントロピー算出部33が算出した
属性情報エントロピーE(ak,Cc)と掛け合わされ、欠
落属性値推定精度P=p(X,C)*E(ak,Cc)が算出
される(ステップS506)。本例では、欠落属性値は
購入商品であり、それぞれのクラスタ1〜3の購入商品
属性の持つ属性情報エントロピーE(ak,C1)〜E
(ak,C3)は、それぞれ0.430,0.633,0.6
35であり、 P1=0.0384*0.430=0.0165 P2=0.0300*0.633=0.0191 P3=0.0064*0.953=0.0061 となる。
【0074】次に、ステップS506で算出された欠落
属性値推定精度Pが最も大きくなったクラスタを選定
し、そのクラスタの性別属性の中で一番確率の高い属性
値を選定する(ステップS507)。本例では、P2が
最も大きいので、クラスタ2が選ばれ、欠落属性“購入
商品”の属性値としては“スキー板”が推定される。
【0075】最後に、出力部50から推定属性値が推定
結果として出力される(ステップS508)。本実施形
態2にかかる欠落属性値推定装置による推定と、従来の
属性値推定方法による推定とを比較すると、実施形態1
と同様、従来の属性値推定方法を利用した欠落属性値推
定装置より高い推定精度が得られる。つまり、従来装置
では、クラスタ所属確率p(X,C)はC1が最も高いた
め、所属クラスタとしてクラスタ1が選ばれ、クラスタ
1の“購入商品”の各属性値の確率は0.2ずつであ
り、属性値の推定が困難となり、結局、クラスタとして
所属確率が高いが、属性値の推定には不向きなクラスタ
が選定される。一方、本発明にかかる欠落属性値推定装
置によれば、明確に属性値が“スキー板”であると推定
が可能であり、需要予測としてスキー板の需要がもっと
も高いと予測できる。
【0076】以上、本実施形態にかかる欠落属性値推定
装置によれば、クラスタ所属確率とクラスタの欠落属性
の情報エントロピーを基準とした属性値推定容易度とを
総合的に考慮して欠落属性値の推定を行うことができる
ため、欠落属性値の推定精度を向上させることができ
る。
【0077】(実施形態3)上記に説明した本発明にか
かる欠落属性値推定装置は、上記に説明した構成を実現
する処理ステップを記述したプログラムをコンピュータ
読み取り可能な記録媒体に記録して提供することによ
り、各種コンピュータを用いて構築することができる。
【0078】本発明にかかる欠落属性値推定装置を実現
する処理ステップを備えたプログラムを記録した記録媒
体は、図6に図示した記録媒体の例に示すように、CD
−ROM102やフレキシブルディスク103等の可搬
型記録媒体101だけでなく、ネットワーク上にある記
録装置内の記録媒体100や、コンピュータのハードデ
ィスクやRAM等の記録媒体105のいずれであっても
良く、プログラム実行時には、プログラムはコンピュー
タ104上にローディングされ、主メモリ上で実行され
る。
【0079】
【発明の効果】本発明にかかる欠落属性値推定装置によ
れば、クラスタの所属確率と属性値の推定容易性を総合
的に考慮した欠落属性値の推定を行なうことができ、欠
落属性値の推定精度を向上させることができる。
【0080】本発明にかかる欠落属性値推定装置によれ
ば、属性値の推定容易性を属性の中で最も高い確率を持
つ代表属性値の確率をもって評価することができ、クラ
スタの所属確率と代表属性値確率を総合的に考慮した欠
落属性値の推定を行なうことができ、欠落属性値の推定
精度を向上させることができる。
【0081】また、本発明にかかる欠落属性値推定装置
によれば、属性値の推定容易性を欠落属性の持つ属性情
報エントロピーをもって評価することができ、クラスタ
所属確率と属性情報エントロピーとを総合的に考慮して
欠落属性値の推定を行うことができ、欠落属性値の推定
精度を向上させることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態1にかかる欠落属性値推定
装置の概略構成図
【図2】 本装置が記憶している各属性値の確率分布を
示す図
【図3】 実施形態1にかかる欠落属性値推定装置の処
理流れの全体像を示したフローチャート
【図4】 本発明の実施形態2にかかる欠落属性値推定
装置の概略構成図
【図5】 実施形態2にかかる欠落属性値推定装置の処
理流れの全体像を示したフローチャート
【図6】 記録媒体の例
【符号の説明】
10 入力部 20,20a クラスタ所属確率算出部、 21 属性値確率分布記憶部 22 属性値量子化部 23 属性重み設定部 24 クラスタ所属確率演算部 30,30a 欠落属性値推定部 31 代表属性値確率記憶部 32 欠落属性値推定精度算出部 33 属性情報エントロピー算出部 40 制御部 50 出力部 100 回線先のハードディスク等の記録媒体 101 CD−ROMやフレキシブルディスク等の可搬
型記録媒体 102 CD−ROM 103 フレキシブルディスク 104 コンピュータ 105 コンピュータ上のRAM/ハードディスク等の
記録媒体

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 属性とクラスタにより表わされる事例の
    入力情報の一部の属性の属性値が欠落している場合に、
    前記欠落している属性値を推定する欠落属性値推定装置
    であって、 入力部と、クラスタ所属確率算出部と、欠落属性値推定
    部とを備え、 前記入力部により一部の属性の属性値が欠落している事
    例が入力され、 前記クラスタ所属確率算出部が、各クラスタの各属性の
    各属性値ごとに与えられた属性値確率であって事例がそ
    の属性値を持つ確率を示すものを記憶する属性値確率分
    布記憶部を備え、前記属性値確率と前記入力事例が持っ
    ている属性値とクラスタの事例全体に対する割合とを基
    に、前記入力された事例の各クラスタへの所属確率を算
    出し、 前記欠落属性値推定部が、各クラスタの各属性ごとに属
    性値を推定する容易性を示す属性値推定容易度を保持
    し、前記クラスタ所属確率算出部により算出されたクラ
    スタ所属確率と前記属性値推定容易度の2つの項の大き
    さを評価する欠落属性値推定精度を算出し、前記欠落属
    性値推定精度が最も大きくなるクラスタの欠落属性の最
    も確率の高い属性値を推定属性値とすることを特徴とす
    る欠落属性値推定装置。
  2. 【請求項2】 前記欠落属性値推定部が、各クラスタの
    各属性において最も確率の高い属性値を代表属性値と
    し、前記代表属性値の確率を代表属性値確率とし、前記
    欠落属性値推定部の保持する属性値推定容易度が、前記
    代表属性値確率である請求項1に記載の欠落属性値推定
    装置。
  3. 【請求項3】 前記欠落属性値推定部が、各クラスタの
    各属性における情報エントロピーを算出する属性情報エ
    ントロピー算出部を備え、前記欠落属性値推定部の保持
    する属性値推定容易度が、前記算出した属性情報エント
    ロピーである請求項1に記載の欠落属性値推定装置。
  4. 【請求項4】 前記欠落属性値推定精度が、前記クラス
    タ所属確率と前記属性値推定容易度との積である請求項
    1〜3に記載の欠落属性値推定装置。
  5. 【請求項5】 前記欠落属性値推定精度が、前記クラス
    タ所属確率と前記属性値推定容易度との二乗和である請
    求項1〜3に記載の欠落属性値推定装置。
  6. 【請求項6】 前記クラスタ所属確率算出部が、前記入
    力部より入力された事例の属性のうち数値で表わされる
    属性の属性値を所定の量子化幅で量子化する属性値量子
    化部を備え、前記属性値量子化部により量子化した事例
    の属性値を基にクラスタ所属確率を算出する請求項1〜
    3のいずれか1項に記載の欠落属性値推定装置。
  7. 【請求項7】 前記クラスタ所属確率算出部が、属性重
    み設定部を備え、前記属性値確率に対して前記属性重み
    設定部により属性に応じた重み付けを行い、前記クラス
    タ所属確率の算出において、前記重み付けを行った属性
    値確率を用いる請求項1〜3のいずれか1項に記載の欠
    落属性値推定装置。
  8. 【請求項8】 請求項1〜3のいずれか1項に記載の欠
    落属性値推定装置の利用方法であって、 利用者が事例の入力にあたり、ある属性には利用者の想
    定する属性値を与え、他の属性は属性値を与えずに欠落
    属性とし、利用者の想定した属性値を持つ事例が、欠落
    している属性において持つ確率の最も高い属性値を推定
    することにより、予測装置として利用する欠落属性値推
    定装置の利用方法。
  9. 【請求項9】 属性とクラスタにより表わされる事例の
    入力情報の一部の属性の属性値が欠落している場合に、
    前記欠落している属性値を推定する欠落属性値推定装置
    を実現する処理プログラムを記録したコンピュータ読み
    取り可能な記録媒体であって、 一部の属性の属性値が欠落している事例の入力を受け付
    ける処理ステップと、クラスタ所属確率を算出する処理
    ステップと、欠落属性値を推定する処理ステップとを備
    え、 前記クラスタ所属確率を算出する処理ステップが、各ク
    ラスタの各属性の各属性値ごとに与えられた属性値確率
    であって事例がその属性値を持つ確率を示すものを記憶
    する処理ステップと、前記属性値確率と前記入力事例が
    持っている属性値とクラスタの事例全体の割合を基に、
    前記入力事例の各クラスタへの所属確率を算出する処理
    ステップを備え、 前記欠落属性値を推定する処理ステップが、各クラスタ
    の各属性ごとに属性値を推定する容易性を示す属性値推
    定容易度を保持する処理ステップと、前記クラスタ所属
    確率を算出する処理ステップにより算出されたクラスタ
    所属確率と前記保持している属性値推定容易度2つの項
    の大きさを評価する欠落属性値推定精度を各クラスタご
    とに算出し、前記欠落属性値推定精度が最も大きくなる
    クラスタの欠落属性の最も確率の高い属性値を推定属性
    値と選定する処理ステップを備えた処理プログラム記録
    したことを特徴とする記録媒体。
JP10164983A 1998-06-12 1998-06-12 欠落属性値推定装置 Withdrawn JP2000003281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10164983A JP2000003281A (ja) 1998-06-12 1998-06-12 欠落属性値推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10164983A JP2000003281A (ja) 1998-06-12 1998-06-12 欠落属性値推定装置

Publications (1)

Publication Number Publication Date
JP2000003281A true JP2000003281A (ja) 2000-01-07

Family

ID=15803613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10164983A Withdrawn JP2000003281A (ja) 1998-06-12 1998-06-12 欠落属性値推定装置

Country Status (1)

Country Link
JP (1) JP2000003281A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015504564A (ja) * 2011-11-29 2015-02-12 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 属性データ区間の分類

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015504564A (ja) * 2011-11-29 2015-02-12 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 属性データ区間の分類
EP2786221A4 (en) * 2011-11-29 2016-12-28 Alibaba Group Holding Ltd CLASSIFICATION OF ATTRIBUTE DATA INTERVALS

Similar Documents

Publication Publication Date Title
CN108090800B (zh) 一种基于玩家消费潜力的游戏道具推送方法和装置
CN110427560B (zh) 一种应用于推荐系统的模型训练方法以及相关装置
US7664671B2 (en) Methods and systems for profile-based forecasting with dynamic profile selection
JP2002358400A (ja) 顧客満足度を評価する方法およびプログラム
CN113254804B (zh) 一种基于用户属性和行为特征的社会关系推荐方法及系统
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
Bergstrom et al. What does the future hold for US National Park visitation? estimation and assessment of demand determinants and new projections
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
WO2008075524A1 (ja) 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム
CN113283795B (zh) 基于二分类模型的数据处理方法及装置、介质、设备
CN113139769A (zh) 基于人工智能的采购方法、装置、计算机设备及存储介质
CN114880581A (zh) 用户数据处理方法、存储介质及电子设备
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN112541010A (zh) 一种基于逻辑回归的用户性别预测方法
US20160357708A1 (en) Data analysis method, data analysis apparatus, and recording medium having recorded program
CN109190013B (zh) 用户偏好的确定方法、系统、可读存储介质及电子设备
CN110197191B (zh) 电子游戏推荐方法
JP2000003281A (ja) 欠落属性値推定装置
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
CN113159893B (zh) 基于门控图神经网络的消息推送方法、装置及计算机设备
CN113111977B (zh) 训练样本的贡献度评价方法、装置及相关设备
Pilelienė et al. A model of website quality-based e-commerce satisfaction index
CN117057812B (zh) 用户满意度确定方法、装置、计算机设备及存储介质
CN115375414B (zh) 一种基于大数据的社区团购商品推荐方法、装置、电子设备及储存介质

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050906