JP2006318249A - 顧客の分類システム、顧客の分類方法および記録媒体 - Google Patents

顧客の分類システム、顧客の分類方法および記録媒体 Download PDF

Info

Publication number
JP2006318249A
JP2006318249A JP2005140873A JP2005140873A JP2006318249A JP 2006318249 A JP2006318249 A JP 2006318249A JP 2005140873 A JP2005140873 A JP 2005140873A JP 2005140873 A JP2005140873 A JP 2005140873A JP 2006318249 A JP2006318249 A JP 2006318249A
Authority
JP
Japan
Prior art keywords
category
distribution
item
classification
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005140873A
Other languages
English (en)
Inventor
Keiichi Mishima
圭一 三島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005140873A priority Critical patent/JP2006318249A/ja
Publication of JP2006318249A publication Critical patent/JP2006318249A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 製品またはサービスの利用に係わるイベントの発生傾向について既存の顧客を分類し、将来の事象の発生傾向予測に利用可能な分類または分類の条件を提示することができる顧客の分類システム、顧客の分類方法および記録媒体を提供すること。
【解決手段】 顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、事象数ヒストグラムの形状の類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築し、顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出し、カテゴリの再構成と項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する。
【選択図】 図3

Description

本発明は、顧客の分類システム、顧客の分類方法および記録媒体に関し、例えば、製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する顧客の分類システム、顧客の分類方法および記録媒体に関する。
一般に、消費者は、商品またはサービス提供者と特定の契約を結んだとき、その消費者(以下、顧客と称する)に対し、その契約の内容に基づいて商品またはサービスを提供したり、その商品またはサービスの使用を認めたり、その使用に応じた金額を請求したりしている。
例えば、消費者が小売店で商品を購入する場合、その顧客は不特定多数の消費者であり、その提供者は小売店自身である。また、商品が何某かの商品を賃借する場合、その顧客は賃貸契約書に記された当該商品の借主となる個人または団体であり、その提供者は同じく契約書に記された貸主となるリース・レンタル業者等である。
ところで、商品の提供者は、その提供者と契約を結んだ顧客に対し、幾つかの局面で何らかの行動を起こすことがある。
例えば、商品またはサービス提供者が何らかのサービスを顧客に提供し、その対価として顧客が契約期間中に継続的に金銭を支払う契約の場合、具体的には、不動産物件の賃借、商品のレンタル・リース、設備のメンテナンス契約等がこの契約例に相当するが、その契約に対して顧客が契約解除の兆しを見せたとき、契約解除の意思を弱め、契約維持を促す行動を起こす。例えば、顧客により有利な契約更新を持ちかけたり、契約に含まれない追加サービスを提供したりすること等である。
また、別の例としては、顧客が実際に契約を解除した場合、商品またはサービス提供者は、契約により提供していた商品またはサービスを撤収する行動をとる。例えば、何某かの商品の賃借に関する契約であれば、契約終了後、商品またはサービス提供者である貸し出し業者は、顧客のもとから貸し出した商品を引き上げる。また、契約解除のタイミングで、新規の契約を持ちかける場合もある。
商品またはサービス提供者が以上のような行動を起こすタイミングとしては、
(1)顧客の行動(事前の解約通知等)が引き起こすもの、
(2)契約そのものに規定されるもの(レンタル期間等)、または契約時に確定しているもの(保守間隔等)、
(3)商品またはサービス提供者、顧客からなる契約主体以外の外因(保守部品の調達コスト変動等)によるもの、の3つに大別される。上に挙げた例は何れも(1)の例だが、(1)に関わる顧客の行動の発生について商品またはサービス提供者はできるだけ早くその兆しを察知する必要がある。
例えば、商品またはサービス提供者に継続的に対価が支払われる契約について、顧客の側に解約の兆しがあるにも関わらずそれを察知できずに何の対応も採られないまま契約解除に至ってしまった場合、以後、その契約が生み出すはずだった商品またはサービス提供者の利益は喪失する。
別の例としては、契約終了に伴い発生する撤収した商品を、何らかの形で再利用することを前提としたビジネスモデルの場合、例えば、契約終了後回収した製品を再生処理して、繰り返し利用するレンタル・リース業者であれば、顧客の解約行動は、そのままレンタル・リースで取り扱う製品の入荷量に直結するため、予め解約行動の発生をある程度予測しておかなければ、製品の在庫管理が成り立たない。
仮に、商品またはサービス提供者が対応すべき顧客行動の前に、その兆候となるような事象が発生するのであれば、顧客の行動の兆しを捉えるには、その事象に関してモニタリングすれば良い。
ところが、その兆候となる事象が発生してから顧客が当該の行動を実行するまでの期間が短く、先程の顧客による契約解除の例のように商品またはサービス提供者が当該行動前に対応することが要求される場合には、実際に兆候となる事象を観測してから対応したのでは間に合わない。
また、先程のレンタル・リース業者における在庫管理の例では、少なくとも新規にレンタル・リース対象製品を調達するリードタイムよりも前に契約解除の傾向をつかめなければ、欠品が生じる可能性が高くなる。
また、そのような兆候の存在を確認すること自体が不可能な場合、事前の兆候から顧客の行動を察知することは不可能である。
このような場合、あらかじめ当該行動を起こす発生時点の傾向について、過去の実績から顧客を分類し、分類した各カテゴリで当該行動の発生傾向、例えば発生確率の時間に対する密度分布等の形で求めておけば、現在契約中の顧客を同じ分類条件で分類し、対応する発生確率分布等を当てはめることで、間接的に将来の当該行動発生傾向をつかむことができる。
なお、ここで分類が必要な理由は、例えば、首都圏の顧客と地方都市の顧客、企業規模の大きい顧客と小規模な顧客等により、当該行動の発生傾向が異なること多いため、また、これらの分類の構成比率が、時間や景気動向等の外的要因によって少なからず変動するためである。
具体的な効果の例として、例えば、顧客側からの契約解除等の対策として、商品またはサービス提供者が何某かの対策を先行して実施したい場合に、契約解除の発生傾向に関する分類があれば、対策を実施すべき顧客層とその時期を決定することができる。
また、それが回収品の再使用を前提とした製品のレンタル契約であれば、レンタル契約の解除等が発生しそうな層を特定して、その顧客層が保有するレンタル商品の在庫調整の準備を行うことができる。
このような形で現顧客の行動発生傾向を予測する場合、その手順は、
(1)分類条件を求めること、
(2)分類カテゴリ毎に発生傾向をもとめること、
(3)現顧客を当該分類条件で分類し、対応する発生傾向を当てはめること、の3つに集約されるが、(2)(3)の実現については公知で有効な技術が既に存在する。
(3)については技術的な困難さはないので、ここでは触れない。(2)については、単に当該行動発生件数の度数分布を発生総数で除した分布をとることにより、確率密度分布を得ることができる。
この方法を用いたものとしては、既にある回収実績データに基づいて商品の市場投入時点、すなわち発売からの経過時間に対する「予測回収率分布」を構成するものがある。ここで言う「回収率」とは「市場稼働台数」に対する「回収台」の割合であり、単位期間の製品回収台数を、同期間における市場稼働台数で割った値である。なお、単位期間とは、月、四半期、半期、年等を想定している(例えば、特許文献1参照)。
また、契約解除を意図したものに関しては、この分野で公知であるKaplan-Meier法やCutler-Ederer法を用いることもできる。これらは、対象とする2つのイベント間の経過時間に基づくデータの評価に用いる統計手法であり、前述の例であれば、「契約締結(サービス開始)」と「解約」を2つのイベントにとれば良い。
(1)について言えば、これまでも顧客の分類は多くなされてはきた。ところが、既存の分類方法の多くは商品またはサービスと顧客の関係による分類であり、上に述べたような顧客と事象発生時点の関係による分類ではない。
また、顧客の時間に関する分類の例としては、契約相手である顧客のうち、解約の慮のある顧客をサプライヤが予測することを支援するためのシステムがある。このシステムは、サプライヤが顧客のサービス利用状況を継続的に取得可能なサービス、例えば有線電話(固定電話機)や無線電話(携帯電話やPHS)の利用サービスの顧客に対して、この分野で周知であるRFM分析を適用するための枠組みを示したものがある(例えば、特許文献2参照)。
ここで、RFM分析とは、一般には、顧客データの属性のうちRecency(最新購買日、最後の利用日)、Frequency(累計購買回数)、Monetary(累計購買金額)に注目して分析を行う手法であり、基本的には、デシル分析(顧客を購入金額の高い順に10等分してその構成比を算出する分析方法)を3軸(Recency、Frequency、Monetary)に拡張したものであり、端的に言えば、上記3属性から顧客をサービス利用傾向について分類し、それをサービス再利用(再購入)可能性に関する分類とみなす手法のことである。
また、より汎用的な分類方法としては、この分野において公知である決定木がある。
決定木は、対象とする項目・変数を決め、その項目・変数の値が分類されたグループ内で一様になるように、既知の項目による分類を構成する方法である。ここでいう一様な状態とは、そのグループにおける項目・変数の値に関する情報量・エントロピーが小さい状態のことである。よって、グループ内の全ての要素が同じ値をとれば、情報量・エントロピーは最小となり、完全に一様な状態ということになる。
特開2002−133082号公報 特開2002−334200号公報
しかしながら、このような従来の現顧客の行動発生傾向を予測する方法では、以下に示すような問題がある。
特許文献1にあっては、顧客に対して「いつアクション(利用促進や契約維持のためのキャンペーン等)をとるか」を決めることはできるが、「どの顧客にアクションをとるべきか」を決めることができない。すなわち、特許文献1に記載されたものは、商品またはサービスと顧客の関係による分類はできるが、顧客と事象発生時点の関係による分類を行うことはできない。
また、特許文献2の手法で予測できるのは、「近い将来の再利用(再購入)可能性の有無」と「利用(購入行動)の終息」の2点に集約されるものであり、この分類からは、「いつ再利用(再購入)されるか」に対する知見を得ることはできない。すなわち、特許文献2に示すものは、至近過去の発生傾向である発生頻度と発生間隔から、至近将来の発生傾向を推定するものであり、中長期的な傾向を表すものではない。
また、決定木に関しては、分類が完全に一様なグループのみで構成されることはまずあり得えず、また、「情報量が小さいこと」と「決定木の利用者に有用であること」は同じ意味ではない。
したがって、決定木の利用者は、適度に一様で、かつ、自身にとって有用な分類に至るまで、分類の過程を1つ1つ確認しなければならない。この方法は、短期間に更新されるデータを取り扱う場合、更新の都度、決定木の利用者に分類作業を強要することになり、また、利用者には手法・対象に関する相応の知識を要求される。
また、決定木に関しては、これとは別にイベントの発生傾向、すなわち、ある種の時間情報を含む連続変数を予測対象に選ぶ場合の決定木の適性の問題がある。
以下、具体的に説明する。
そもそも、情報量とは基本的に離散情報について求めるものである。したがって、連続量を扱う場合は、情報量の代替として、最小二乗偏差や分散を用いることが多い。
なお、基本的にはこの2つの指標は同質のものである。決定木でこれらの指標が用いられる理由は、連続量を取り扱う場合における決定木の目的の多くが、対象の値の範囲を予測・判別することだからである。
しかしながら、前述した目的に沿えば、分類を値の範囲だけで行うのでは不十分なことが多く、その場合、分布の形状まで考慮に入れる必要がある。そして、対象の分布の形状を取り扱う場合、この2つの指標だけでは明らかに表現力が不足している。
これは分散が等しいにもかかわらず形状の異なる分布、例えば分散は等しいが歪度や尖度が異なる分布を容易に想像できることから明らかだろう。すなわち、本発明が対象とする目的に決定木をそのまま持ち込むと、取り扱う対象の差異の表現を限定し、その結果、他の側面に含まれる差異が隠蔽される可能性がある。
決定木(連続量を扱うため、厳密に言えば「回帰木(Regression Tree)」)では、対象とする変量(契約期間等)に関するLSDや分散が等しい顧客層については、決定木(回帰木)は分類できない。
以下に決定木(回帰木)で分類できない例を挙げる。
まず、対象となる顧客群を以下のように想定する。ある2種類の顧客層がおり、分類対象である変量「契約期間x(単位は月)」の確率分布が、一方の顧客層Aは正規分布(式1)、もう一方の顧客層Bがベータ分布(式2)に従うものとする。
Figure 2006318249
Figure 2006318249
さらに、顧客層Aの確率分布の式は式3、顧客層Bの式は式4に従うとする(式3、4共に元の分布関数の係数に具体的な値を代入したものである)。
Figure 2006318249
Figure 2006318249
顧客層A、Bの契約期間xは、双方とも平均84ヶ月、標準偏差36ヶ月となる。図9のグラフからこの2つの顧客層A、Bは、明らかに異なる振る舞いをしていることが分かる。
この2種類の顧客層A、Bが顧客情報の特定の項目P(例えば、リース・レンタルの識別等)で分けることができるとする。また、他にこのような有意な分類項目がないとする。以上が対象となる想定顧客群である。
さて、分布関数が全く分かっていなかったとして、決定木(回帰木)で、この顧客群全体の情報から、A、Bを分類できる項目Pを見つけることができるかと言えば、当然できない。
何故なら、決定木(回帰木)にとっては、この2つの顧客層は、分類の基準である標準偏差(いわゆる情報量、分散と等価)が等しいため、全く同質に見えるからである。すなわち、決定木(回帰木)では、この顧客群は分類できないことになる。
本発明はこのような問題を解決するためになされたもので、製品またはサービスの利用に係わるイベントの発生傾向について既存の顧客を分類し、将来の事象の発生傾向予測に利用可能な分類または分類の条件を提示することができる顧客の分類システム、顧客の分類方法および記録媒体を提供することを目的とする。
本発明の顧客の分類システムは、製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類するシステムであって、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成手段と、前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出手段と、複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出手段と、前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出手段による類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成手段と、前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出手段と、前記カテゴリ再構成手段によるカテゴリの再構成と前記多様性算出手段による項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類手段とを備えるものから構成されている。
この構成により、時間に対する事象数ヒストグラムの形状を特徴量として定量化し、定量化した特徴量の類似度に基づいて顧客をイベントの発生傾向別に分類するので、利用者は分類を構成するための条件設定を分布の形状に関して指定することができる。
このため、条件を設定する際に当該分野や分類手法に対する知識を必要とせず、分類の目的に応じて自由に選ぶことができる。また、システムが利用可能な顧客属性情報の項目を自動的に取捨選択し、併合および分割して分類を生成することができるため、顧客属性情報の項目数が膨大であっても、利用者に作業負荷を掛けることを防止することができるとともに、顧客属性情報が更新されてもシステムが自動で分類を再構成することができる。
また、本発明の顧客の分類システムの前記顧客分類手段は、前記分類結果を現在または将来の顧客に当てはめることにより、現在または将来の顧客に関するイベントの発生傾向を予測するものから構成されている。
この構成により、既存の顧客の分類結果を生成する際に、比較的長期に亘って顧客群のイベントの発生実績を取り扱うことができるため、至近未来のイベントの発生を予測することができるばかりでなく、将来に渡ってのイベントの発生傾向を予測することができる。
また、本発明の顧客の分類システムの前記顧客分類手段は、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うものから構成されている。
この構成により、分類精度は高くないが、必要とするサンプル数が少ないマトリクス型の分類形態と、分類精度は高いが必要とするサンプル数も多いツリー型の分類形態を選択することができるため、既存の顧客情報含む顧客数に依らず、イベントの発生傾向を的確に表現する分類を構成することができるとともに、各々利用用途が異なるマトリクス型の分類形態とツリー型の分類形態を適宜選ぶことができる。
また、本発明の顧客の分類システムの前記分布形状特徴量算出手段は、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得るものから構成されている。
この構成により、ヒストグラムの区間毎に特徴量を定義することができるため、利用者の目的に応じて分類に用いる区間を選択することができる。また、併せて分布関数で特徴量を定義をすることにより、一面的な定義に陥りやすい区間による定義とは別に分布全体の傾向を形状の特徴量に含めることができる。
また、本発明の顧客の分類システムの前記類似度算出手段は、前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いるものから構成されている。
この構成により、分布の形状に依らず決定可能な期待値に対する変位に基づいて指標を定義しているため、既知の分類に従わないような対象でも分類することができる。また、変位に関する集計・変形方法を替えることにより、利用者の目的に応じて分布の特徴を強調または弱めることができる。
また、本発明の顧客の分類システムの前記類似度算出手段は、前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いるものから構成されている。
この構成により、分布の形状に依らず決定可能な情報量の差または比を用いるため、既知の分類に従わないような対象でも分類することができる。また、特に類似度を定義しなくても、全体の傾向に即した類似度、多様性、差の指標を得ることができる。
また、本発明の顧客の分類システムの前記類似度算出手段は、前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うものから構成されている。
この構成により、個々の特徴量または指標に関する評価を利用者に委ねることにより、利用者の目的に応じて分類の指針を変更することができる。
また、本発明の顧客の分類方法は、製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する方法であって、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成工程と、前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出工程と、複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出工程と、前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出工程による類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成工程と、前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出工程と、前記カテゴリ再構成工程によるカテゴリの再構成と前記多様性算出工程による項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類工程とを含んでなる。
この方法により、時間に対する事象数ヒストグラムの形状を特徴量として定量化し、定量化した特徴量の類似度に基づいて顧客をイベントの発生傾向別に分類するので、利用者は分類を構成するための条件設定を分布の形状に関して指定することができる。
このため、条件を設定する際に当該分野や分類手法に対する知識を必要とせず、分類の目的に応じて自由に選ぶことができる。また、システムが利用可能な顧客属性情報の項目を自動的に取捨選択し、併合および分割して分類を生成することができるため、顧客属性情報の項目数が膨大であっても、利用者に作業負荷を掛けることのを防止することができるとともに、顧客属性情報が更新されてもシステムが自動で分類を再構成することができる。
また、本発明の顧客の分類方法の前記顧客分類工程は、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行う。
この方法により、分類精度は高くないが、必要とするサンプル数が少ないマトリクス型の分類形態と、分類精度は高いが必要とするサンプル数も多いツリー型の分類形態を選択することができるため、既存の顧客情報含む顧客数に依らず、イベントの発生傾向を的確に表現する分類を構成することができるとともに、各々利用用途が異なるマトリクス型の分類形態とツリー型の分類形態を適宜選ぶことができる。
また、本発明の顧客の分類方法の前記分布形状特徴量算出工程は、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得る。
この方法により、ヒストグラムの区間毎に特徴量を定義することができるため、利用者の目的に応じて分類に用いる区間を選択することができる。また、併せて分布関数で特徴量を定義をすることにより、一面的な定義に陥りやすい区間による定義とは別に分布全体の傾向を形状の特徴量に含めることができる。
また、本発明の顧客の分類方法の前記類似度算出工程は、前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いる。
この方法により、分布の形状に依らず決定可能な期待値に対する変位に基づいて指標を定義しているため、既知の分類に従わないような対象でも分類することができる。また、変位に関する集計・変形方法を替えることにより、利用者の目的に応じて分布の特徴を強調または弱めることができる。
また、本発明の顧客の分類方法の前記類似度算出工程は、前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いる。
この方法により、分布の形状に依らず決定可能な情報量の差または比を用いるため、既知の分類に従わないような対象でも分類することができる。また、特に類似度を定義しなくても、全体の傾向に即した類似度、多様性、差の指標を得ることができる。
また、本発明の顧客の分類方法の前記類似度算出工程は、前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行う。
この方法により、個々の特徴量または指標に関する評価を利用者に委ねることにより、利用者の目的に応じて分類の指針を変更することができる。
また、本発明の記録媒体は、製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する顧客の分類プログラムを記録した記録媒体であって、コンピュータに、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成ステップと、前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出ステップと、複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出ステップと、前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出ステップによる類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成ステップと、前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出ステップと、前記カテゴリ再構成ステップによるカテゴリの再構成と前記多様性算出ステップによる項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類ステップとを実行させるものから構成される。
この構成により、時間に対する事象数ヒストグラムの形状を特徴量として定量化し、定量化した特徴量の類似度に基づいて顧客をイベントの発生傾向別に分類するので、利用者は分類を構成するための条件設定を分布の形状に関して指定することができる。
このため、条件を設定する際に当該分野や分類手法に対する知識を必要とせず、分類の目的に応じて自由に選ぶことができる。また、システムが利用可能な顧客属性情報の項目を自動的に取捨選択し、併合および分割して分類を生成することができるため、顧客属性情報の項目数が膨大であっても、利用者に作業負荷を掛けることのを防止することができるとともに、顧客属性情報が更新されてもシステムが自動で分類を再構成することができる。
また、本発明の記録媒体の前記顧客分類ステップは、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うものから構成される。
この構成により、分類精度は高くないが、必要とするサンプル数が少ないマトリクス型の分類形態と、分類精度は高いが必要とするサンプル数も多いツリー型の分類形態を選択することができるため、既存の顧客情報含む顧客数に依らず、イベントの発生傾向を的確に表現する分類を構成することができるとともに、各々利用用途が異なるマトリクス型の分類形態とツリー型の分類形態を適宜選ぶことができる。
また、本発明の記録媒体の前記分布形状特徴量算出ステップは、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得るものから構成される。
この構成により、ヒストグラムの区間毎に特徴量を定義することができるため、利用者の目的に応じて分類に用いる区間を選択することができる。また、併せて分布関数で特徴量を定義をすることにより、一面的な定義に陥りやすい区間による定義とは別に分布全体の傾向を形状の特徴量に含めることができる。
また、本発明の記録媒体の前記類似度算出ステップは、前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いるものから構成される。
この構成により、分布の形状に依らず決定可能な期待値に対する変位に基づいて指標を定義しているため、既知の分類に従わないような対象でも分類することができる。また、変位に関する集計・変形方法を替えることにより、利用者の目的に応じて分布の特徴を強調または弱めることができる。
また、本発明の記録媒体の前記類似度算出ステップは、前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いるものから構成される。
この構成により、分布の形状に依らず決定可能な情報量の差または比を用いるため、既知の分類に従わないような対象でも分類することができる。また、特に類似度を定義しなくても、全体の傾向に即した類似度、多様性、差の指標を得ることができる。
また、本発明の記録媒体の前記類似度算出ステップは、前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うものから構成される。
この構成により、個々の特徴量または指標に関する評価を利用者に委ねることにより、利用者の目的に応じて分類の指針を変更することができる。
本発明によれば、製品またはサービスの利用に係わるイベントの発生傾向について既存の顧客を分類し、将来の事象の発生傾向予測に利用可能な分類または分類の条件を提示することができる顧客の分類システム、顧客の分類方法および記録媒体を提供することができる。
以下、本発明の実施の形態について、図面を用いて説明する。
図1〜図8は本発明の顧客の分類システム、顧客の分類方法および記録媒体の第1の実施の形態を示す図である。
まず、構成を説明する。最初に、本実施の形態の説明においては、複写機の保守契約における契約終了事象の発生、すなわち、契約期間に関する分類を求めることを想定して説明する。なお、保守契約の類は、予め契約時に契約期間を設定するものも多いが、以下の説明では契約期間は顧客の要望で随時打ち切りおよび延長できるもの、または、契約延長(再契約)を最初から前提としたものを取り扱う。
したがって、基本的に契約締結時の契約内容に依らず、ある製品個体および顧客に対する契約期間の総計は変動するものとする。また、以下の説明では、特に記述が無い限り、「契約期間」「保守期間」「保守契約期間」という表現は「ある製品個体および顧客に対する契約期間の総計」を指すものとし、「契約終了」という表現は「ある製品個体に対して契約延長(再契約)を行わない、当該製品撤収を伴う契約の完全な終了」を指すものとする。なお、本実施の形態は、特に複写機の保守契約に限定するものではないことは言うまでもない。
本実施の形態により得られる最終的な情報は、顧客の保守契約期間に関する分類条件であり、同分類または分類条件におけるカテゴリの識別は、既存の顧客属性情報で構成される。図1に簡単な分類例を示す。
図1は顧客属性情報である「平均使用量」、例えば複写機であれば1ヶ月当たりの平均印刷枚数がある閾値α未満か否かで顧客を分類し、分類各々について、「契約期間」に対する契約終了顧客数の度数分布を算出した例である。図1の例が最終的な分類結果であるとすれば、本実施の形態に係わるシステムでは「平均使用量<閾値α」という分類条件が出力される。
なお、この分類が本実施の形態に係わるシステムにより得られたものであるならば、この条件によって分類された2つの顧客群は、「契約期間」に関して、図1のように異なる傾向を示すはずであり、本実施の形態に係わるシステムはそのような分類条件を求めるものである。
なお、分類条件の構成要素となる顧客属性情報は、例えば、
1)保守サービスの対象となる製品の製品名や製品種類、型名等の製品識別情報、
2)製品の発売日、スペック等、商品に従属する商品属性情報、
3)保守サービスの対象となる製品を設置した住所の都道府県・市町村名、郵便番号、電話番号の市外・市内局番等の地域情報、
4)顧客の従業員数や資本金等の事業規模、法人格の有無・種別、業種等の顧客情報、
5)平均使用量(月当たりの使用量等)、使用頻度、総使用量、サービス開始後経過日数等の使用情報、
6)契約種別、予定契約期間(保守契約締結時に定めたもの。実契約期間ではない)、サービス単価等の契約情報、
7)製品の故障発生率、個所別故障発生率、定期保守実施の有無、定期保守時の異常発見率等の保守情報、
8)契約締結日、製品納入日等の、その他日付情報、
等の項目から構成される。なお、図1では単一の項目による分類条件を示したが、多くの場合、分類条件は複数の項目で構成される。図2にその例を示す。
図2において、「保守部品在庫打ち切り機」と「予定契約期間」を項目にとって3つのカテゴリに分類している。図2において、まず、保守部品在庫打ち切り機か否かを分類し(ステップS1)、保守部品在庫打ち切り機であれば、カテゴリ1に分類する(ステップS2)。
また、保守部品在庫打ち切り機でなければ、予定契約期間が4年または5年か、あるいは、3年以下または6年以上であるか否かを判別し(ステップS3)、予定契約期間が4年または5年であればカテゴリ2に分類し(ステップS4)、予定契約期間が3年以下または6年以上であればカテゴリ3に分類する(ステップS5)。
本実施の形態に係わるシステムの具体的な出力としては、先の平均使用量の例と同様の分類を3つ出力しても良いし、図2を適当な表示装置にそのまま表示しても良い。また、この分類条件をデータベースのレコード選択クエリとして書き出しても良い。データベースのレコード各々が前述の顧客属性情報をフィールドとして持ち、かつ1レコードが1顧客に対応する場合、当該レコード選択クエリは、例えば以下のようになる。
select*from[DB_name]where[保守部品在庫打ち切り機]=TRUE......条件1
select*from[DB_name]where([保守部品在庫打ち切り機]=FALSEand[予定契約期間]=4or[予定契約期間]=5)......条件2
select*from[DB_name]where([保守部品在庫打ち切り機]=FALSEand[予定契約期間]<=3or[予定契約期間]>=6)
[DB_name]は顧客情報を保持したデータベースの名前である。条件1はカテゴリ1への分類条件であり、同様に条件2はカテゴリ2への、条件3はカテゴリ3への分類条件である。なお、各条件から容易に類推できるが、「予定契約期間」は整数値のみをとる離散変数である。
また、この分類が本実施の形態に係わるシステムにより得られたものならば、これら3つのカテゴリに分類された3つの顧客群は契約期間に関して全く異なる傾向をとる。
なお、本実施の形態において、分類条件は図2のようなツリー状の分類形態とは異なる、図6のようなマトリクス型の分類形態をとることもできる。基本的には、ツリー状の分類よりマトリクス状の分類形態の方が「対象を的確に表現する」という点において不利である。
具体的には、マトリクス状の分類では、各項目が完全に独立に評価され、項目間の交互作用は考慮されないため、結果への寄与が最も大きいと判断された項目以外は、必ずしも最良の項目が選択されているとは限らない。
マトリクス状の分類はツリー構造で表現すると完全バランス木になる。これはつまり、ツリー状の分類に比べてマトリクス状の分類は、対象とするデータ(顧客情報)とは無関係の制約が課されているということであり、当然、分類に無駄が生じる。
反面、分類結果の利用方法を考える場合、マトリクス状の分類形態の方が有利な局面がある。本発明の目的は、将来の事象の発生傾向予測に利用可能な分類もしくは分類の条件を提示することにあるが、予測の際、特定の項目の値別で予測を行いたいことが往々にしてある。
例えば、「地域別予測」等である。この値別予測がマトリクス状の分類であれば簡単に実現できる。図6の場合、地域別予測を行いたければ、「地域」の軸でキューブを切り分け、各々で現在顧客情報を当てはめるだけで良いのである。
また、マトリクス状の分類のもう1つの長所として、サンプル数が少ないことに対する耐性が強いことが挙げられる。ツリー状の分類の場合、再帰的に分類を繰り返す結果、木の深度が深くなるに連れてサンプル数が不足しがちになる。その反面、マトリクス状の分類では、各項目で全く独立に分類が生成されるため、そのような問題は起こり難い。
次に、図3に基づいて本実施の形態の顧客の分類システムの構成を説明する。
図3において、顧客の分類システムは、既存の顧客に関する上述した顧客の属性情報を収めたデータベースである顧客情報格納データベース(DB)1と、システムの利用者が分類の生成に関する条件を設定する条件入力部2と、条件入力部2で設定された条件に従って顧客情報格納データベース1に格納された顧客を、契約終了時点に関する傾向について分類するための条件を求める分類条件生成部10と、分類条件生成部10の生成した分類条件を出力する分類条件出力部3とを備えている。
分類条件生成部10は、条件入力部2で入力された条件に基づいて分類条件の生成に係わる基本条件を設定し、取り扱う顧客情報を限定する初期条件設定部11と、初期条件設定部11または後述する仮分類条件生成部(顧客分類手段)17によって選択された項目について、顧客情報格納データベース1に格納された顧客情報を分類する顧客分類部(顧客分類手段)12と、顧客分類部12で分類されたカテゴリ別の顧客群各々について、事象の発生時点または継続期間に関する度数分布若しくは度数分布を元にした確率密度分布を生成する事象数ヒストグラム生成部(事象数ヒストグラム生成手段)13と、事象数ヒストグラム生成部13が生成した分布を表現する特徴量を条件入力部2で入力された条件に基づき算出する分布形状特徴量算出部(分布形状特徴量算出手段)14と、事象数ヒストグラム生成部13が生成した分布各々について、分布形状特徴量算出部14が算出した分布を表現する特徴量をもとに比較し、類似の分布があれば、対応するカテゴリを併合して、当該項目のカテゴリを再構成するカテゴリ再構成部(カテゴリ再構成手段)15と、カテゴリ再構成部15がカテゴリを再構成した項目の多様性を算出(評価)する多様性算出部(多様性算出手段)16と、カテゴリ再構成部15と多様性算出部16の出力する情報に基づいて最終的な分類条件得るためまでに必要な仮分類に用いる項目を、初期条件設定部11に指示する仮分類条件生成部17とから構成される。
顧客情報データベース1は、CD−R、DVD−RAM、ハードディスク、フラッシュメモリ等の読み書き可能なメモリから構成されている。
また、分類条件生成部10は、CPU、RAM、ROM、メモリから構成されており、メモリには後述する顧客の分類プログラムが記憶され、CPUはこの顧客の分類プログラムに基づいて後述する顧客の分類処理を行う。
なお、繰り返しになるが、本実施の形態における「事象の発生時点または継続期間」とは、「保守契約期間」のことである。また、上述した「項目」とは、例えば図4で示すように、「製品納入日」や「顧客住所」等のことである。
また、カテゴリとは、例えば、離散項目「カラー/モノクロ」における値である「カラー」「モノクロ」各々や、連続値項目「平均使用量」を例えば1,000枚単位で区切った各区間、例えば「0〜1,000枚」「1,001枚〜2,000枚」等、またはそれら既存のカテゴリを併合・分割したものである。
なお、「類似度」「多様性」「分布を表現する特徴量」等については後述する。この「離散項目」とは、「値に離散値をとる項目」のことであり、「離散項目」とは、「値に離散値(カテゴリ値)をとる項目」のことである。
一方、カテゴリ再構成部15は、カテゴリ併合の判断情報となる分布の類似度を算出する類似度算出部(類似度算出手段)21と、類似度算出部21の情報に基づいてカテゴリ併合の必要の有無を判断し、実際にカテゴリの併合を行うカテゴリ併合部22とから構成される。なお、「類似度」については後述する。
顧客情報格納データベース1は、上述した製品識別情報、商品属性情報、地域情報、顧客情報、使用情報、契約情報、保守情報等から構成され、顧客の保守契約全般に係わる情報を格納するものである。
図4において、顧客情報格納データベース1に格納されたデータを具体的に説明する。顧客情報格納データベース1は図4(a)に示す契約に係わる事項を記録する「契約情報」、図4(b)に示す商品の仕様等を記録する「商品情報」、図4(c)に示すように図4(a)に示す契約をした顧客の保守サービスの利用に係わる情報を記録する「保守サービス情報」に分けられる。また、「商品コード」「契約コード」を識別子として、3種の情報いずれのレコードからも他の2種の関連レコードを得ることができるようになっている。
「契約情報」は「契約コード」「顧客名」「商品コード」「製品納入日」「顧客住所」「顧客電話番号」「契約終了日」等の各情報を有している。「契約コード」は契約を識別・特定するための情報であり、「保守サービス情報」に含まれる同一名称の項目と1対1に対応する。「顧客名」は保守契約を結んだ顧客の名称である。
「商品コード」は商品を識別・特定するための情報であり、「商品情報」に含まれる同一名称の項目とm:1に対応し、「保守サービス情報」に含まれる同一名称の項目と1:nに対応する。「製品納入日」は保守契約の対象となる製品を顧客のもとに納入した日付である。
「顧客住所」は顧客が保守サービスを受ける製品の設置住所であり、「顧客電話番号」は同設置場所の電話番号である。「契約終了日」は保守契約を終了した日付であり、契約が終了した場合にのみ記録される。よって、例えば 図4(a)では契約コードが"A100102"のレコードに係わる契約は、再契約の有無に依らず既に終了したものであることになる。
「商品情報」は「商品コード」「カラー/モノクロ」「印刷速度」等の各情報を有している。「商品コード」は商品を識別および特定するための情報であり、「契約情報」「保守サービス情報」に含まれる同一名称の項目に対応する。「カラー/モノクロ」は当該商品がカラー機かモノクロ機かを識別するための情報である。「印刷速度」は複写機の製品仕様上の1分当たりの平均印刷枚数を表す情報である。
「保守サービス情報」は「サービスID」「契約コード」「商品コード」「平均使用量」「総使用量」「保守日」等の各情報を有しており、保守サービスが実施される都度、レコードが追記される。
「サービスID」は実施された保守サービスを特定するための識別情報である。「契約コード」は契約を識別・特定するための情報である。「商品コード」は商品を識別および特定するための情報であり、各々「契約情報」「商品情報」に含まれる同一名称の項目に対応する。
「平均使用量」は当該レコードに関する保守サービスを実施した時点で集計した顧客の1ヶ月当たりの平均印刷枚数であり、「総使用量」同時点での総印刷枚数である。「保守日」は当該レコードに関する保守サービスを実施した日付である。
また、条件入力部2は、初期条件設定部11で用いる項目選択のための目安と、事象数ヒストグラム生成部13で用いるヒストグラムの区間幅と、分布形状特徴量算出部14で用いる分布の形状の表現に利用する特徴量の定義と、カテゴリ併合部22における併合の必要性判断条件の設定および仮分類条件生成部17における項目選択条件を入力するものであり、操作者が入力を行うものから構成されている。
操作者による入力を実現するハードウェアとしては、計算機に接続されたキーボードやマウス等を用いる。なお、条件入力部2で入力する情報各々については、その入力情報を実際利用する初期条件設定部11、事象数ヒストグラム生成部13、分布形状特徴量算出部14、カテゴリ併合部22、仮分類条件生成部17の説明の際に述べる。分類条件生成部10については後述する。
分類条件出力部3は、分類条件生成部10が生成した分類条件を出力するものである。出力のためのハードウェアとしては、モニタやハードディスク、書き込み可能な光学ディスクドライブと対応メディア、同光磁気ディスクドライブと対応メディア、半導体メモリ、プリンタ、プロッタ等が挙げられる。
一方、初期条件設定部11は、分類条件の生成に係わる基本条件を設定し、取り扱う顧客情報を限定する。その役割は大きく分けて、「項目の除外」、「連続値項目のカテゴリ化」、「対象顧客の限定」の3つである。
「項目の除外」とは、より具体的には、本システムが最終的に出力する分類に、最初から含まない項目を決定することである。この判断は、以下の条件に従って行う。
(a)条件入力部2で入力された除外項目を除く、
(b)欠損値の割合が大きい項目を除く、
(c)離散項目について、カテゴリ当たりの平均サンプル数(顧客数)が小さい項目を除く。
(a)の「除外項目」は本実施の形態に係わるシステムの利用者の目的により決まるもので、(b)の「欠損値割合に関する閾値」はデータの質により、(c)の「カテゴリ当たりの平均サンプル数の閾値」については顧客情報格納データベース1の設計とデータの規模により決まる。これらはいずれも条件入力部2であらかじめ入力しておくものとする。
(a)の除外項目については、例えば図4における「顧客名」や「商品コード」等の純水に個体識別以上の意味を持たない識別子の類は、殆どの場合、除外項目に含むべきである。
(b)の欠損値割合でのサンプルの除外については普遍な基準というものは無く、対象により適当な値は変わる。極端な場合、全サンプルの半分以上で値が欠損している項目でも、値の欠損が一定のルールに従って発生する場合、「欠損値か否か」という分類により意味を持つこともあり得る。したがって、欠損値に関する閾値は、全項目で一律ではなく、項目毎にも設定できることが望ましい。
(c)のカテゴリ当たりの平均サンプル数については、本実施の形態が「分布の形状」を比較することで成り立つため、区間当たりのサンプル数、すなわち、顧客数が分布を描くのに十分な数に満たない場合、本システムは有効に機能しない可能性がある。したがって、そのような項目は除外項目に含めるべきである。
「連続値項目のカテゴリ化」とは、要するに連続変量の離散化である。具体的には、連続値をとる項目の値域を適当な区間で切り分け、どの区間に属するかにより対象を分別するのである。
例えば、連続値項目「平均使用量」が「0枚〜100,000枚」の値域をとる場合、これを「0〜1,000枚」、「1,001〜2,000枚」、「2,001〜3,000枚」...「98,001〜99,000枚」、「99,001〜100,000枚」、「100,000枚超」という区間に分けることができる。本システムでは、連続値項目については以下のいずれかの方法で離散化する。
(a)条件入力部2で入力された単位量で区間を切る。
(b)条件入力部2で入力された区関の数で値域を等分する。
因みに、先の「平均使用量」の例では、単位量を1,000枚として区間を切った例である。
何れの場合も条件入力部2の入力情報を元に区間を切るが、どちらの場合も項目毎に値を設定するのが好ましい。なお、本発明の本質ではないが、区間を決定する単位量または区間の数を決める場合には少なくとも以下の点に留意する。
まず、値域の採り方だが、外れ値をあらかじめ除外して考え、これら外れ値は「上限超」「下限未満」というカテゴリに組み入れることを前提とする。言うまでも無いが、厳密に値域を求めず、本システムの利用者にとって興味のある範囲で上限・下限を切ってしまっても良い。
次に、単位量の決め方だが、本発明の形態において、カテゴリの再構築は「併合」を中心に行われ、基本的に「分割」は行われない。したがって、この観点で言えば、既存の単位量が存在しない場合、初期の区間単位量はできるだけ小さく、区間の数はできるだけ大きく設定しておくべきである。
しかしながら、上述した通り、本実施の形態は「分布の形状」を比較することで成り立つため、区間当たりのサンプル数が、分布を描くのに十分な数に満たない場合、本システムは有効に機能しない可能性がある。
これについては、区間辺りの平均サンプル数が100以上あれば、多くの場合は有効に機能する。逆にいえば、システムで予め100以上の定数を定めておき、あらかじめ条件入力部2で区間に関する情報が与えられない場合には、全サンプル数を当該定数の値で割った値を「区関の数」として設定することもできる。
「対象顧客の限定」については、例えば、複写機であれば「モノクロ機の顧客のみを対象とする」等の条件をここで設定しておき、後続の全て部分で取り扱う顧客情報の範囲を限定する。当然、この限定条件は、条件入力部2で予め指定しておくものとする。
なお、初期条件設定部11は、分類条件生成部10において後続する部分で最初に取り扱う項目も決定するが、これについては特に規定しない。ランダムに選んでも良いし、顧客情報格納データベース1に最初に現れる項目を選んでも良い。上述した「項目の除外」で除外された項目を除けば、ここでどの項目を選んでも、少なくとも1回は全ての項目が全く同じ条件で評価されるため、この選択は結果に何ら影響を及ぼさない。
顧客分類部12は、初期条件設定部11で選択された項目について、または仮分類条件生成部17で指定された条件により、顧客情報格納データベースに含まれる顧客を分類し、事象数ヒストグラム生成部13は、分類した各カテゴリに、対象とする「事象の発生時点または継続期間」に対する度数または確率密度に関してヒストグラムを生成する。
繰り返すが、「事象の発生時点または継続期間」とは、本実施の形態においては「保守契約期間」のことである。また、ヒストグラムの区間幅は、予め条件入力部2で入力しておくものとする。なお、多くの場合、1ヶ月単位が適当である。
先に示した図1は、度数に関する当該ヒストグラムの例でもある。図1の場合には、初期条件設定部11で選択された項目、または仮分類条件生成部17で指定された条件において、次に選択すべき項目として「平均使用量」が選択されており、この項目は「閾値α未満」「閾値α以上」というカテゴリから構成される。なお、カテゴリ数の少なさから自明だが、この項目は顧客分類部12ではなく、仮分類条件生成部17で指定されたものである。
なお、仮分類条件生成部17での処理が1回以上行われた後で、かつ、分類の形状がツリーである場合、顧客分類部12への入力には、「どの項目を対象とすべきか」という情報の他に、初期条件設定部11の「対象顧客の限定」と同様の範囲指定が含まれ、顧客分類部12はその範囲指定に従って、事象数ヒストグラム生成部13に渡す顧客情報を分類して限定する。
これは、ルートの分類より後の分類を取り扱っていることを状況を指すものである。例えば、図2の分類の場合、分類21、つまりルートの分類である「保守部品在庫の打ち切り」に関する処理ではなく、この分類が確定した後の、分類22の「予定契約期間」に関する処理、またはそれよりも後の処理を行っている状況である。
したがって、この場合は、処理中の項目より上位の分類条件で、事象数ヒストグラム生成部13に渡される顧客情報は範囲が限定される。図2の分類22に係わる処理であれば、処理対象とする顧客情報は、「保守部品在庫打ち切り機か?」が「NO」の顧客に限定される。
分布形状特徴量算出部14は、事象数ヒストグラム生成部13が生成した分布・ヒストグラムを表現する特徴量を条件入力部2で入力された条件に基づき算出する。
なお、この特徴量の表現形は予め用意しておくものとする。また、類似度算出部21が利用する指標である「類似度」と、多様性算出部16で利用する「多様性」は、この表現形に規定されるため、これも併せて用意しておくものとする。
なお、本実施の形態における「類似度」は、2つの分布における形状の違いの程度を指すものである。本実施の形態では、4つの表現形と対応する類似度の定義が用意される。また、各表現形にもバリエーションがあり、具体的にどの表現形を利用するか、また、各種重み付け等の表現形を修飾する値の設定については、条件入力部2であらかじめ入力しておくものとする。
1つ目は対象となる分布を、既存の分布関数に当てはめ、その分布関数の構成パラメータを特徴量として利用するものである。既存の分布関数への当てはめ自体は、回帰分析一般の手法が公知であり、それを利用する。
具体的には、指数回帰、多項式回帰、成長曲線(ロジスティック曲線、ゴンペルツ曲線等)への回帰の何れかを利用するか、その他適当な分布関数に対し、最小二乗近似をとってもよい。
なお、パラメータ個々にあらかじめ重みを設定してもよい。類似度の算出は、比較対象となる2つの分布各々で、構成パラメータの値によりベクトルを張り、2つのベクトルにおける差の絶対値をとる。
この表現形の利点は、特異値への耐性の高さにある。ツリー状の分類の場合、分類が進むとサンプル数(顧客数)が極端に少なくなりがちだが、そのような場合でも分類を進めることができる。
また、ツリー状の分類でどの程度深く分類するかは、本実施の形態の場合、当該の分類構成カテゴリに含まれるサンプル数、または、ツリーの深さそのものに一律に閾値を設け、その閾値をもとに判断する。つまり、基本的には対象となる顧客情報のデータ構造とは無関係に決定されるのだが、この方法であれば、分布への統計的な適合度を閾値にとることで、データ構造に即した閾値を設定することができる。
逆に欠点は、1つは、必ずしも適当な分布関数が存在するとは限らないことであり、その結果、利用範囲が限定されることである。もう1つは計算量が他の表現形と比べて大きいことである。
2つ目は対象となる時間情報の分布または最小二乗偏差を特徴量として利用するものである。類似度は特徴量の差の絶対値として定義する。この表現形の利点はいうまでも無く計算量の少なさにある。欠点は、分布「形状」の表現としては、表現力そのものが低いことであり、この欠点は、連続値項目を独立変数にとる決定木分析と同じものである。
3つ目は、分布のヒストグラムにおける、区間毎の度数または確率密度をそのまま特徴量として利用するか、または与えられたヒストグラムからより区間幅の広いヒストグラムを再構成し、その区間毎の度数または確率密度を特徴量として利用するものである。なお、区間に対してあらかじめ重みを設定しても良い。類似度は、この分野で公知であるカイ2乗検定による有意確率として定義する。
この表現形の利点は、計算量が小さいにもかかわらず形状の表現能力が比較的高いことと、区間に対する操作が容易なことである。本実施の形態に係わるシステムの利用者にとって、事象の発生する区間によってとり得る行動が異なることも多く、その場合、発生する事象、本実施の形態では「契約の終了」について、その重要度も各区間で一律ではない。このような場合、重要度の低い区間の重みを低く設定することで、当該区間の差異を最終的な分類結果に反映しにくくすることが可能である。
4つ目は、与えられたヒストグラムより広い区間幅を設定し、区間毎の度数または確率密度のピークを特徴量として利用するものである。類似度の定義は3つ目の方法と同様である。
この表現形の利点は3つ目の方法と同様だが、利用する局面が若干特殊である。この表現形がその効果を発揮するのは、主として保守契約終了後に回収された製品の在庫管理に利用するときである。この表現形は、保守契約終了に伴い回収された製品の、発生量の最大フローを見積もるときに使うもので、具体的な用途としては、回収された製品の一時保管用の倉庫を確保するときの、倉庫の必要規模の見積り、回収した製品を整備するための工程に要求される処理能力の見積もり等である。欠点は自明だが、利用局面に関して汎用性に乏しいことである。
類似度算出部21は、分布形状特徴量算出部14で算出した各カテゴリに関するヒストグラムの特徴量に関して、前述した類似度を計算することである。なお、類似度の計算はカテゴリの全ての組合せで行う。つまり、カテゴリ数がnの場合、nC2通りの組合せについて類似度を計算することになる。
カテゴリ併合部22は、類似度算出部21で類似度が計算された組のうち、類似度の最も小さい組を成す2つのカテゴリを併合する。その後、併合してできた新しい1つのカテゴリについて、事象数ヒストグラム生成部13、分布形状特徴量算出部14の処理を行い、当該カテゴリと、その他全てのカテゴリについて、類似度算出部21で類似度が再計算される。
これを無制限に繰り返すと、全てのカテゴリが併合されて1つのカテゴリに纏められてしまうことになる。カテゴリ併合部22のもう1つの役割は、カテゴリの併合が適当に進んだ時点で、併合の繰り返しを止め、多様性算出部16にカテゴリ併合後の項目の評価を委ねることである。この判断は、具体的には全ての組の類似度があらかじめ定めた閾値を越えたか否かで見る。なお、この閾値は、あらかじめ条件入力部2で入力しておくものとする。
多様性算出部16は、カテゴリ併合部22でカテゴリが併合・再構成された項目について、その多様性を評価する。本実施の形態における「多様性」とは、各カテゴリに対応するヒストグラムについてどの程度形状に違いがあるかを示すもので、全てのカテゴリでヒストグラムが同一の形状をとればこの指標値は最小となり、類似のカテゴリが少なく、分布の形状の異なるカテゴリの組が多く存在すれば、この指標値は大きくなる。
本システムでは、各カテゴリに対応する分布の特徴量を図5のように並べた分割表を作り、この表に関してカイ2乗検定を行い、その有意確率を多様性の指標として用いる。
以上、まとめると、分布形状特徴量算出部14は、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得るように構成されている。
また、顧客分類部12は、上述した顧客の分類結果を現在または将来の顧客に当てはめることにより、現在または将来の顧客に関するイベントの発生傾向を予測するように構成されている。
また、類似度算出部21は、分布間の類似度、多様性、差の指標として、分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いる。
また、類似度算出部21は、分布間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いる。
さらに、類似度算出部21は、分布の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、分布の類似度、多様性、差の指標の算出に用いる特徴量あるいは指標を選択する処理との少なくとも一方の処理を行う。
仮分類条件生成部17は、多様性算出部16の結果を受けて分類条件を生成するものだが、実質的には本システムの制御を司る。また、図2のようなツリー型の分類を構成するか、図4のようなマトリクス型の分類を構成するかでその振る舞いが異なる。
すわなち、仮分類条件生成部17は、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うものである。
ツリー型の分類を構成する場合、仮分類条件生成部17は、まず、全ての項目のカテゴリ再構築と多様性の評価が行われるよう、顧客分類部12に対して項目と顧客情報の限定条件を渡す。
具体的には、顧客情報の限定条件を一切設定せず、全ての項目を1回ずつ処理させる。その結果、全ての項目についてカテゴリ再構築後の多様性が算出されるので、最も多様性の大きい項目を選ぶ。
ここで選んだ項目とその時点のカテゴリ構成が、ルートの分類条件になる。これを図2の分類に当てはめれば、項目「保守部品在庫打ち切り機」の多様性が最も大きかったので、ルートの分類条件として、分類21の「保守部品在庫打ち切り機か」を設定したということになる。
次に、当該項目の各カテゴリについても、同じことを繰り返す。但し、先ほどとは異なり、今度は顧客分類部12には、当該カテゴリに含まれる顧客のみを対象とするように、顧客情報の限定条件が設定される。
例えば、分類21の「保守部品在庫打ち切り機か」が「NO」のカテゴリについては、「保守部品在庫打ち切り機か」が「NO」の顧客のみについて、分類条件を求めるよう対象範囲が限定される。
以下、同じことの繰り返しである。図2の分類に再び当てはめれば、分類21の「保守部品在庫打ち切り機か」が「NO」のカテゴリについては、項目「予定契約期間」の多様性が最も大きかったので、分類22の直下の分類条件として「予定契約期間」に関する分類22を設定し、そのカテゴリとして、直前に再構成されたカテゴリ構成、この場合「4年または5年」と「3年以下または6年以上」の2つとった、ということになる。
以上を、分類条件として選択されて項目のカテゴリ当たりの平均サンプル数があらかじめ定めた閾値を下回る、または同項目のルートからの深さがあらかじめ定めた閾値に達している、かの何れかを満たすまで、ツリーの各々の葉で繰り返す。全ての葉で分類が停止した時点のツリーが、最終的な分類条件を表すものであり、これが分類条件出力部3に渡される。なお、これら停止条件となる閾値は、あらかじめ条件入力部2で入力しておくものとする。
マトリクス型の分類を構成する場合、仮分類条件生成部17は、まず、全ての項目のカテゴリ再構築と多様性の評価が行われるよう、顧客分類部12に対して項目と顧客情報の限定条件を渡す。
具体的には、顧客情報の限定条件を一切設定せず、全ての項目を1回ずつ処理させる。ここまではツリー型の分類を構成する場合と同様である。ツリー型の場合、以下再帰的に分類を繰り返すが、マトリクス型の場合、この時点で実質的な処理は終了する。後は多様性の大きい順に、あらかじめ定められた数だけ項目を選び、当該項目と対応する再構築したカテゴリを分類条件出力部3に渡すだけである。なお、選ばれる項目の数は、あらかじめ条件入力部2で入力しておくものとする。
図7はツリー型の分類条件を生成するための分類条件生成部10全体の動作を示すフローチャートであり、このフローチャートは顧客の分類プログラムの動作を示すものである。なお、この顧客の分類プログラムは、分類条件生成部10のメモリに格納されたものであり、CPUによって実行される。
具体的に、顧客の分類プログラムは、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成ステップと、事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出ステップと、複数のヒストグラムについて、分布の形状の特徴量を比較し、類似の程度を算出する類似度算出ステップと、顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、事象数ヒストグラムの形状が類似度算出ステップによる類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成ステップと、顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出ステップと、カテゴリ再構成ステップによるカテゴリの再構成と多様性算出ステップによる項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類ステップとを含んで構成される。
また、顧客分類ステップにより生成した既存の顧客の分類結果を、現在または将来の顧客に当てはめることにより、現在または将来の顧客に関するイベントの発生傾向を予測する。
また、顧客分類ステップは、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行う。
また、分布形状特徴量算出ステップは、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得る。
また、類似度算出ステップは、分布の形状間の類似度、多様性、差の指標として、分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いる。
また、類似度算出ステップは、分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いる。
さらに、類似度算出ステップは、分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、分布の形状の類似度、多様性、差の指標の算出に用いる特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うというものである。
図7において、のフローチャートにおいては、まず、分類条件スタックを初期化する(ステップS11)。この「分類条件」は、仮分類条件生成部17でいうところの分類生成途中で利用する顧客情報の限定条件のことである。
また、「スタック」とは、この分野で公知であるデータを格納するためのデータ構造のことであり、当該データ構造に対し、PUSHとPOPという操作が可能である。PUSHとは、当該データ構造にデータを格納する操作であり、POPとは、当該データ構造に最後に格納されたデータを取得し、当該データ構造から当該データを削除する操作である。
図7のフローチャートでは、「スタック」の代わりに同じくこの分野で公知である「リスト」を用いることもできる。次いで、[分類条件スタック]に条件{全ての顧客を対象とする}をPUSHした後(ステップS12)、カテゴリ構成を初期化する(ステップS13)。
これは、以下、取り扱うカテゴリとして、併合されたカテゴリではなく、元の項目値を扱うことを意味する。次いで、[分類条件スタック]から[分類条件S]をPOPする(ステップS14)。
以下、[分類条件S]は変数として取り扱い、その値となる条件はこのステップでのみ更新される。次いで、顧客情報から項目を1つ選ぶ(ステップS15)。次いで、選んだ項目の構成カテゴリについて、特徴量未算出の全カテゴリに対し、[分類条件S]を満たす顧客のヒストグラムを生成、特徴量を算出する(ステップS16)。
次いで、選んだ項目における、構成カテゴリ全ての組のうち、特徴量に関する類似度が未算出の組全てについて、類似度を算出した後(ステップS17)、選んだ項目における構成カテゴリ全ての組について、最小の類似度と、予め定めた閾値との比較を行い、閾値未満であればステップS19に、当該類似度が閾値以上であればステップS20に移行する。
ステップS19では類似度最小の組に対応する2カテゴリを併合した後、ステップS16に移行する。また、ステップS20では、当該項目の多様性を算出する。
次いで、[分類条件S]の適用下において全ての項目について多様性を算出したか否かを判別し(ステップS21)、まだ算出していない項目があればステップS15に戻り、全て算出済みであればステップS22に移行する。
ステップS22では、さらに、[分類条件S]に含まれる項目の数について判断し、項目数が予め定めた閾値未満であれば、ステップS23に移行し、同閾値以上であればステップS24に移行する。
ステップS23では、[分類条件S]の適用下において最大の多様性をもつ項目について、カテゴリ当たりの平均サンプル数を判断し、平均サンプル数が予め定めた閾値未満であれば、ステップS24に移行し、同閾値以上であればステップS25に移行する。
ステップS24では、[分類条件S]を[結果リスト]に書き出して、ステップS26に移行する。
ステップS25では、[分類条件S]の適用下において最大の多様性をもつ項目について、再構成したカテゴリ各々に対し、{[分類条件S]∧{当該カテゴリに属する顧客である}}という条件を[分類条件スタック]にPUSHする。
ステップS26では、[分類条件スタック]は空か否かを判断し、空でなければステップS13に戻り、空であれば[結果リスト]を出力して(ステップS27)、終了する。
なお、マトリクス型の分類条件の生成も、図7のフローチャートと略同じ枠組みで可能である。具体的には、図7のステップS21の判断がYESになった時点で、多様性が大きいものから予め定められた個数ほど項目を選び、それら全ての項目について、ステップS25と同じ方法で条件を生成し、それらを出力すれば良い。図8は分類条件出力部3によって分類され、出力されたものである。
このように本実施の形態では、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成部13と、事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出部14と、複数のヒストグラムについて、分布の形状の特徴量を比較し、類似の程度を算出する類似度算出部21と、顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、事象数ヒストグラムの形状が類似度算出部21による類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成部15と、顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出部16と、カテゴリ再構成部15によるカテゴリの再構成と多様性算出部16による項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類部12および仮分類条件生成部17とを設けた。
このため、時間に対する事象数ヒストグラムの形状を特徴量として定量化し、定量化した特徴量の類似度に基づいて顧客をイベントの発生傾向別に分類するので、利用者は分類を構成するための条件設定を分布の形状に関して指定することができる。
このため、条件を設定する際に当該分野や分類手法に対する知識を必要とせず、分類の目的に応じて自由に選ぶことができる。また、システムが利用可能な顧客属性情報の項目を自動的に取捨選択し、併合および分割して分類を生成することができるため、顧客属性情報の項目数が膨大であっても、利用者に作業負荷を掛けることのを防止することができるとともに、顧客属性情報が更新されてもシステムが自動で分類を再構成することができる。
また、本実施の形態では、顧客分類部12が、顧客を分類した結果を現在または将来の顧客に当てはめることにより、現在または将来の顧客に関するイベントの発生傾向を予測するようにしたので、既存の顧客の分類結果を生成する際に、比較的長期に亘って顧客群のイベントの発生実績を取り扱うことができるため、至近未来のイベントの発生を予測することができるばかりでなく、将来に渡ってのイベントの発生傾向を予測することができる。
また、本実施の形態の仮分類条件生成部17は、各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行う。
このため、分類精度は高くないが、必要とするサンプル数が少ないマトリクス型の分類形態と、分類精度は高いが必要とするサンプル数も多いツリー型の分類形態を選択することができるため、既存の顧客情報含む顧客数に依らず、イベントの発生傾向を的確に表現する分類を構成することができるとともに、各々利用用途が異なるマトリクス型の分類形態とツリー型の分類形態を適宜選ぶことができる。
また、本実施の形態の分布形状特徴量算出部14は、事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得るようになっている。
このため、ヒストグラムの区間毎に特徴量を定義することができるため、利用者の目的に応じて分類に用いる区間を選択することができる。また、併せて分布関数で特徴量を定義することにより、一面的な定義に陥りやすい区間による定義とは別に分布全体の傾向を形状の特徴量に含めることができる。
また、本実施の形態の類似度算出部21は、分布間の類似度、多様性、差の指標として、分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いるものから構成されている。
このため、分布の形状に依らず決定可能な期待値に対する変位に基づいて指標を定義しているため、既知の分類に従わないような対象でも分類することができる。また、変位に関する集計・変形方法を替えることにより、利用者の目的に応じて分布の特徴を強調または弱めることができる。
また、本実施の形態の類似度算出部21は、分布間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いるものから構成されている。
このため、分布の形状に依らず決定可能な情報量の差または比を用いるため、既知の分類に従わないような対象でも分類することができる。また、特に類似度を定義しなくても、全体の傾向に即した類似度、多様性、差の指標を得ることができる。
また、本実施の形態では、類似度算出部21が、分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、分布の形状の類似度、多様性、差の指標の算出に用いる特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うので、個々の特徴量または指標に関する評価を利用者に委ねることにより、利用者の目的に応じて分類の指針を変更することができる。
なお、本実施の形態では、出力である分類条件を入力として、この分類条件を現顧客に当てはめるようにしても良い。具体的には、先に長期の保守契約実績のある製品にかかわる契約・顧客のみを対象に、本システムにより分類結果を得てそれを現顧客にそのまま当てはめる。
その結果、契約期間が長くない顧客層や、発売して間もない製品に対しても、例えば、図2のような分類と、そのカテゴリ各々に対して図1のような長期にわたる契約終了予測数のヒストグラムを得ることができる。
以上のように、本発明に係る顧客の分類システム、顧客の分類方法および記録媒体は、製品またはサービスの利用に係わるイベントの発生傾向について既存の顧客を分類し、将来の事象の発生傾向予測に利用可能な分類または分類の条件を提示することができるという効果を有し、製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する顧客の分類システム、顧客の分類方法および記録媒体等として有用である。
本発明の一実施の形態の顧客の分類システムに係る契約期間と契約終了顧客数を示す図である。 一実施の形態の顧客の分類システムに係るツリー状の分類条件を示す図である。 一実施の形態の顧客の分類システムに係る顧客の分類システムのブロック図である。 (a)〜(c)は一実施の形態の原稿搬送装置の搬送ベルト駆動ローラを示す側面図 一実施の形態の顧客の分類システムに係るカテゴリの分布と特徴量を示す図である。 一実施の形態の顧客の分類システムに係るマトリクス状の分類条件を示す図である。 一実施の形態の顧客の分類システムに係る顧客の分類処理のフローチャートである。 一実施の形態の顧客の分類システムに係る分類条件の出力を示す図である。 従来の決定木によって分類された契約期間と契約終了顧客数を示す図である。
符号の説明
12 顧客分類部(顧客分類手段)
13 事象数ヒストグラム生成部(事象数ヒストグラム生成手段)
14 分布形状特徴量算出部(分布形状特徴量算出手段)
15 カテゴリ再構成部(カテゴリ再構成手段)
16 多様性算出部(多様性算出手段)
17 仮分類条件生成部(顧客分類手段)
21 類似度算出部(類似度算出手段)

Claims (18)

  1. 製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類するシステムであって、
    既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成手段と、
    前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出手段と、
    複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出手段と、
    前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出手段による類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成手段と、
    前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出手段と、
    前記カテゴリ再構成手段によるカテゴリの再構成と前記多様性算出手段による項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類手段とを備えることを特徴とする顧客の分類システム。
  2. 前記顧客分類手段は、
    各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うことを特徴とする請求項1に記載の顧客の分類システム。
  3. 前記分布形状特徴量算出手段は、
    事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得ることを特徴とする請求項1または請求項2に記載の顧客の分類システム。
  4. 前記類似度算出手段は、
    前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いることを特徴とする請求項1〜請求項3の何れか1項に記載の顧客の分類システム。
  5. 前記類似度算出手段は、
    前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いることを特徴とする請求項1〜請求項3の何れか1項に記載の顧客の分類システム。
  6. 前記類似度算出手段は、
    前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うことを特徴とする請求項4または請求項5に記載の顧客の分類システム。
  7. 製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する方法であって、
    既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成工程と、
    前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出工程と、
    複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出工程と、
    前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出工程による類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成工程と、
    前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出工程と、
    前記カテゴリ再構成工程によるカテゴリの再構成と前記多様性算出工程による項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類工程とを含んでなることを特徴とする顧客の分類方法。
  8. 前記顧客分類工程は、
    各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うことを特徴とする請求項7に記載の顧客の分類方法。
  9. 前記分布形状特徴量算出工程は、
    事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得ることを特徴とする請求項7または請求項8に記載の顧客の分類方法。
  10. 前記類似度算出工程は、
    前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いることを特徴とする請求項7〜請求項9の何れか1項に記載の顧客の分類方法。
  11. 前記類似度算出工程は、
    前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いることを特徴とする請求項7〜請求項9の何れか1項に記載の顧客の分類方法。
  12. 前記類似度算出工程は、
    前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うことを特徴とする請求項10または請求項11に記載の顧客の分類方法。
  13. 製品またはサービスを利用する顧客に関して、既存の顧客属性情報から製品またはサービスの利用に係わるイベントの発生傾向別に顧客を分類する顧客の分類プログラムを記録した記録媒体であって、
    コンピュータに、既存の顧客群のイベント発生実績に対して適当な時点からの経過時間に対するイベントの発生または終了数に関するヒストグラムを生成する事象数ヒストグラム生成ステップと、
    前記事象数ヒストグラムについて、その分布の形状を表現する特徴量を生成する分布形状特徴量算出ステップと、
    複数のヒストグラムについて、前記分布の形状の特徴量を比較し、類似の程度を算出する類似度算出ステップと、
    前記顧客属性情報の項目にあっては、当該項目を構成する各カテゴリに属する顧客について、前記事象数ヒストグラムの形状が前記類似度算出ステップによる類似度が高いカテゴリを併合し、同類似度が低いカテゴリ群をそのまま維持することで、当該項目のカテゴリ構成を再構築するカテゴリ再構成ステップと、
    前記顧客属性情報の項目について、その構成カテゴリの多様性に関する指標を算出する多様性算出ステップと、
    前記カテゴリ再構成ステップによるカテゴリの再構成と前記多様性算出ステップによる項目の多様性の評価を用いて、顧客をイベントの発生傾向別に分類する顧客分類ステップとを実行させることを特徴とする特徴とする記録媒体。
  14. 前記顧客分類ステップは、
    各項目のカテゴリの再構築とカテゴリ再構築後の項目の多様性に関する評価とを項目毎に独立して行い、多様性の大きい項目を複数選択し、選択した項目で多重に顧客を分類するマトリクス型の分類形態と、各項目のカテゴリの再構築を行った後、最も多様性の大きい項目を選んで当該項目で再構築した各カテゴリに、当該カテゴリに分類された顧客のみについて、他の項目でのカテゴリの再構築と多様性が最大の項目の選択を行い、以上を再帰的に実行することで顧客の分類を構成するツリー型の分類形態の何れか一方で処理を行うことを特徴とする請求項13に記載の記録媒体。
  15. 前記分布形状特徴量算出ステップは、
    事象数ヒストグラムを適当な分布関数に近似して、その関数を表現する式の係数をもって分布の形状を表現する特徴量として出力する分布関数パラメータ推定方式と、事象数ヒストグラムの各区間、または当該ヒストグラムを別の区間幅で再構成したヒストグラムの各区間の度数、比率、各種統計的代表値若しくはその変形または組合せを、分布の形状を表現する特徴量として出力するヒストグラム区間特徴量算出方式との何れかを一方を選択して当該方式の出力を得るか、若しくは両方式を適用して出力を組み合わせることで分布の特徴量を得ることを特徴とする請求項13または請求項14に記載の記録媒体。
  16. 前記類似度算出ステップは、
    前記分布の形状間の類似度、多様性、差の指標として、前記分布の形状の特徴量毎に、算出対象となる複数の分布の全ての特徴量から推測される期待値を求め、分布毎に期待値に対する変位を算出し、当該算出結果を集計・変形した値を用いることを特徴とする請求項13〜請求項15の何れか1項に記載の記録媒体。
  17. 前記類似度算出ステップは、
    前記分布の形状間の類似度、多様性、差の指標として、当該指標を算出する対象となる分布各々に対応するカテゴリに関する、対象とする事象の時間情報に関する情報量と、同指標の算出対象となる分布に対応するカテゴリを構成するサンプルを併合した集合の同情報量との差または比を用いることを特徴とする請求項13〜請求項15の何れか1項に記載の記録媒体。
  18. 前記類似度算出ステップは、
    前記分布の形状の類似度、多様性、差の指標の算出時に、特徴量または指標毎に重み付けを行う処理と、前記分布の形状の類似度、多様性、差の指標の算出に用いる前記特徴量あるいは指標を選択する処理との少なくとも一方の処理を行うことを特徴とする請求項16または請求項17に記載の記録媒体。
JP2005140873A 2005-05-13 2005-05-13 顧客の分類システム、顧客の分類方法および記録媒体 Pending JP2006318249A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005140873A JP2006318249A (ja) 2005-05-13 2005-05-13 顧客の分類システム、顧客の分類方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005140873A JP2006318249A (ja) 2005-05-13 2005-05-13 顧客の分類システム、顧客の分類方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2006318249A true JP2006318249A (ja) 2006-11-24

Family

ID=37538869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005140873A Pending JP2006318249A (ja) 2005-05-13 2005-05-13 顧客の分類システム、顧客の分類方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2006318249A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048780A (ja) * 2012-08-30 2014-03-17 Accenture Global Services Ltd マーケティング装置、マーケティング方法、プログラム、及び記録媒体
JP2014225253A (ja) * 2013-04-26 2014-12-04 スルガ銀行株式会社 推奨与信枠算出装置
JP2015011692A (ja) * 2013-07-02 2015-01-19 日本電信電話株式会社 生存分析方法、装置、及びプログラム
JP2016091539A (ja) * 2014-10-31 2016-05-23 株式会社神戸製鋼所 営業活動支援システム
JP2016130993A (ja) * 2015-01-15 2016-07-21 Necフィールディング株式会社 制御装置、情報管理システム、情報管理方法、及びプログラム
WO2016136197A1 (ja) * 2015-02-25 2016-09-01 日本電気株式会社 データ処理装置、データ処理方法及び記録媒体
JP2017038738A (ja) * 2015-08-18 2017-02-23 株式会社ユニバーサルエンターテインメント 遊技情報分析システム、分析サーバ、および遊技情報分析方法
JP2017167831A (ja) * 2016-03-16 2017-09-21 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2019003376A1 (ja) * 2017-06-29 2019-01-03 日本電気株式会社 可視化システム、可視化方法および可視化プログラム
CN113743655A (zh) * 2021-08-12 2021-12-03 中铁资源集团有限公司 一种基于混合总体筛分的资源量估算方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048780A (ja) * 2012-08-30 2014-03-17 Accenture Global Services Ltd マーケティング装置、マーケティング方法、プログラム、及び記録媒体
JP2014225253A (ja) * 2013-04-26 2014-12-04 スルガ銀行株式会社 推奨与信枠算出装置
JP2015011692A (ja) * 2013-07-02 2015-01-19 日本電信電話株式会社 生存分析方法、装置、及びプログラム
JP2016091539A (ja) * 2014-10-31 2016-05-23 株式会社神戸製鋼所 営業活動支援システム
JP2016130993A (ja) * 2015-01-15 2016-07-21 Necフィールディング株式会社 制御装置、情報管理システム、情報管理方法、及びプログラム
WO2016136197A1 (ja) * 2015-02-25 2016-09-01 日本電気株式会社 データ処理装置、データ処理方法及び記録媒体
JP2017038738A (ja) * 2015-08-18 2017-02-23 株式会社ユニバーサルエンターテインメント 遊技情報分析システム、分析サーバ、および遊技情報分析方法
JP2017167831A (ja) * 2016-03-16 2017-09-21 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2019003376A1 (ja) * 2017-06-29 2019-01-03 日本電気株式会社 可視化システム、可視化方法および可視化プログラム
JPWO2019003376A1 (ja) * 2017-06-29 2020-04-23 日本電気株式会社 可視化システム、可視化方法および可視化プログラム
US11586947B2 (en) 2017-06-29 2023-02-21 Nec Corporation Visualization system, visualization method, and visualization program
CN113743655A (zh) * 2021-08-12 2021-12-03 中铁资源集团有限公司 一种基于混合总体筛分的资源量估算方法
CN113743655B (zh) * 2021-08-12 2024-02-02 中铁资源集团有限公司 一种基于混合总体筛分的资源量估算方法

Similar Documents

Publication Publication Date Title
JP2006318249A (ja) 顧客の分類システム、顧客の分類方法および記録媒体
You et al. A decision-making framework for precision marketing
Hung et al. Object-oriented dynamic supply-chain modelling incorporated with production scheduling
US20030187767A1 (en) Optimal allocation of budget among marketing programs
CN108337316A (zh) 信息推送方法、装置、计算机设备及存储介质
Tsai et al. Customer segmentation issues and strategies for an automobile dealership with two clustering techniques
Chougule et al. A fuzzy logic based approach for modeling quality and reliability related customer satisfaction in the automotive domain
US11373199B2 (en) Method and system for generating ensemble demand forecasts
Duncan et al. Probabilistic modeling of a sales funnel to prioritize leads
EP3876177A1 (en) System and method for retail price optimization
CN107016571A (zh) 数据预测方法及其系统
Van Jaarsveld et al. Estimating obsolescence risk from demand data to enhance inventory control—A case study
Aktunc et al. Inventory control through ABC/XYZ analysis
Sastry et al. Implementation of CRISP methodology for ERP systems
Win et al. Predicting customer class using customer lifetime value with random forest algorithm
Kairu Role of strategic inventory management on performance of manufacturing firms in Kenya: A case of Diversey Eastern and Central Africa Limited
Lahrichi et al. A first MILP model for the parameterization of Demand-Driven MRP
JP4386973B2 (ja) 階層的予測モデル構築装置及びその方法
WO2006109805A1 (ja) 生産管理プログラム、生産管理方法、生産管理システム
Otten et al. Towards decision analytics in product portfolio management
Tarokh et al. A new model to speculate CLV based on Markov chain model
Chiang et al. The cyclic model analysis on sequential patterns
US20230244837A1 (en) Attribute based modelling
JP2013178669A (ja) 集計装置および集計プログラム
US6615195B1 (en) Method and system for evaluating technology transfer value