JP2014167715A - 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法 - Google Patents

生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法 Download PDF

Info

Publication number
JP2014167715A
JP2014167715A JP2013039354A JP2013039354A JP2014167715A JP 2014167715 A JP2014167715 A JP 2014167715A JP 2013039354 A JP2013039354 A JP 2013039354A JP 2013039354 A JP2013039354 A JP 2013039354A JP 2014167715 A JP2014167715 A JP 2014167715A
Authority
JP
Japan
Prior art keywords
user attribute
unit
period
user
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013039354A
Other languages
English (en)
Other versions
JP5930989B2 (ja
Inventor
Masato Taya
優人 多屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013039354A priority Critical patent/JP5930989B2/ja
Publication of JP2014167715A publication Critical patent/JP2014167715A/ja
Application granted granted Critical
Publication of JP5930989B2 publication Critical patent/JP5930989B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザによる入力やアンケート調査に頼ることなく、生活関連量に基づいてユーザ属性を推定することが可能なユーザ属性推定プログラムを提供する。
【解決手段】本ユーザ属性推定プログラムは、単位期間(での生活関連量)データとユーザ属性値との組を含む教師データセットからサブセットを生成するサブセット生成手段と、生成されたサブセット毎に、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成手段と、所定の推定期間における推定対象データを構成する単位期間データを生成された複数の決定木に入力し、到達先となった決定木の葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する単位属性推定手段と、これら単位ユーザ属性推定値に基づいて、この推定期間におけるユーザ属性推定値を決定するユーザ属性推定手段としてコンピュータを機能させる。
【選択図】図1

Description

本発明は、ユーザにおける電力消費量等の生活関連量を解析して所定の情報を推定する情報推定技術に関する。
近年、ユーザのユーザ属性、例えば世帯人数や世帯構成員情報等に応じて、生活・業務に関連する支援やアドバイス、例えば家計管理支援や節電アドバイスを実施するシステムが注目されている。
このようなシステムの例として、特許文献1には、所得格差を考慮し、より正確で的確な家計支出のアドバイスを実施することの可能な家計管理支援システムが開示されている。このシステムでは、世帯区分、世帯人数、都道府県名及び年収といったユーザ情報や、日々の家計収支を登録させた上で、家計収支と算出した収支目安とを比較した結果を出力する。
また、特許文献2には、電力計測センサによって計測された電力使用量と、環境センサから出力される環境に関する情報とに基づいて節電アドバイスを決定し、ユーザに提示する節電支援システムが開示されている。ここで、節電アドバイスに関する問い合わせをユーザに提示し、この問い合わせに対する回答の一部としてユーザから個人属性情報を入力させ、この個人属性情報に基づいて、提供するアドバイス情報を改善する実施形態も開示されている。
特開2010−79760号公報 特開2011−66956号公報
しかしながら、特許文献1及び2に開示されたような従来技術は、アドバイスを生成・改善する際に利用するユーザ属性の入手を、ユーザによる自己申告に頼っている。即ち、ユーザ自身が明示的にユーザ属性をシステムに入力する必要がある。
また、従来、マーケティングの分野でも、顧客情報の解析を実施するシステムは数多く存在するが、その解析の基礎情報となるユーザ属性、例えば世帯人数や世帯構成員の特徴等は、世帯に関するアンケート調査を行って顧客から直接入手されねばならない。
このように、ユーザに対するサービス提供に関する情報を推定するのに必要となるユーザ属性の入手は、従来、ユーザ一人ひとりによる入力又はアンケート調査に頼るしかなく、多大な労力や時間がかかる作業となっていた。
そこで、本発明は、ユーザによる入力やアンケート調査に頼ることなく、生活関連量に基づいてユーザ属性を推定することが可能なユーザ属性推定プログラム、装置及び方法を提供することを目的とする。
本発明によれば、ユーザの生活に関連する生活関連量に基づいてユーザのユーザ属性を推定する装置に搭載されたコンピュータを機能させるユーザ属性推定プログラムであって、
単位期間における生活関連量のデータである単位期間データと、この単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成するサブセット生成手段と、
生成されたサブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成手段と、
所定の推定期間における推定対象データを構成する単位期間データであって、この推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の決定木に入力し、これら決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する単位属性推定手段と、
この推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、この推定期間におけるユーザ属性推定値を決定するユーザ属性推定手段と
してコンピュータを機能させるユーザ属性推定プログラムが提供される。
このユーザ属性推定プログラムの決定木生成についての一実施形態として、
サブセット生成手段は、単位期間を構成する複数の時間帯の各々における生活関連量のデータ値が形成する生活関連ベクトルと、この生活関連ベクトルに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから複数のサブセットを生成し、
決定木生成手段は、生成されたサブセット毎に、生活関連ベクトルにおける1つの次元要素が分岐閾値以上であるか否かを判定する分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成することも好ましい。
ここで、上記実施形態において、決定木生成手段は、分岐判定式に使用される次元要素及び分岐閾値を、分岐前後でのエントロピーの差に相当する情報利得が最大となるように設定することも好ましい。
また、本発明のユーザ属性推定プログラムの一実施形態として、単位属性推定手段は、単位期間データを入力した決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値のうちの最頻値を、単位ユーザ属性推定値に決定することも好ましい。また、ユーザ属性推定手段は、単位期間における生活関連量の突発的な変動によるユーザ属性推定への影響を解消すべく、推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値のうちの最頻値をユーザ属性推定値に決定することも好ましい。
さらに、本発明のユーザ属性推定プログラムについて、生活関連量は世帯における電力消費量であり、ユーザ属性は当該世帯における世帯人数であることも好ましい。さらに、単位期間は、生活関連量について短い周期性が見込まれる期間、例えば1日、に設定され、所定の推定期間は、生活関連量について長い周期性が見込まれる長周期期間、例えば1週間、と一致する期間、又は当該長周期期間を含む期間に設定されることも好ましい。
また、本発明によるユーザ属性推定プログラムの一実施形態として、
決定木生成手段は、ユーザにおけるユーザ属性の正解値が取得された際、ユーザに係る単位期間データとユーザ属性正解値との組を用い、分岐判定式による学習の結果として葉ノードにユーザ属性正解値が対応付けられた決定木を生成し、生成されたこの決定木をもって既に生成された決定木を更新することも好ましい。
本発明によれば、さらに、ユーザの生活に関連する生活関連量に基づいてユーザのユーザ属性を推定するユーザ属性推定装置であって、
単位期間における生活関連量のデータである単位期間データと、この単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成するサブセット生成手段と、
生成されたサブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成手段と、
所定の推定期間における推定対象データを構成する単位期間データであって、この推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の決定木に入力し、これら決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する単位属性推定手段と、
この推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、この推定期間におけるユーザ属性推定値を決定するユーザ属性推定手段と
を有するユーザ属性推定装置が提供される。
本発明によれば、さらにまた、ユーザの生活に関連する生活関連量に基づいてユーザのユーザ属性を推定するユーザ属性推定方法であって、
単位期間における生活関連量のデータである単位期間データと、この単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成する第1のステップと、
生成されたサブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する第2のステップと、
所定の推定期間における推定対象データを構成する単位期間データであって、この推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の決定木に入力し、これら決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する第3のステップと、
この推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、この推定期間におけるユーザ属性推定値を決定する第4のステップと
を有するユーザ属性推定方法が提供される。
本発明のユーザ属性推定プログラム、装置及び方法によれば、ユーザによる入力やアンケート調査に頼ることなく、生活関連量に基づいてユーザ属性を推定することが可能となる。
本発明によるユーザ属性推定装置の一実施形態における機能構成図である。 本発明によるユーザ属性推定方法における学習フローの一実施形態を示す概略図である。 本発明によるユーザ属性推定方法における判別フロー第1段階の一実施形態を示す概略図である。 本発明によるユーザ属性推定方法における判別フロー第2段階の一実施形態を示す概略図である。 本発明によるユーザ属性推定方法の一実施形態を示すフローチャートである。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[ユーザ属性推定装置]
図1は、本発明によるユーザ属性推定装置の一実施形態における機能構成図である。同図では、ユーザ属性推定装置1を含むユーザ属性推定システムも示されている。
図1によれば、ユーザ属性推定装置1は、事業者通信網2又はインターネット3等のネットワークを介してユーザと通信可能になっており、各ユーザから、当該ユーザのユーザ識別子(ID)と、当該ユーザの属する世帯における生活関連量としての電力消費量データとを受信する。ここで、生活関連量とは、ユーザ又はユーザの属する世帯の構成員が生活を営む上で発生するイベント・活動に係る量又は程度の指標である。この生活関連量として、例えば、対象世帯における電力消費量、パケット通信量、水道使用量、ガス使用量等が挙げられる。
また、ユーザ情報管理装置4は、各ユーザから、世帯人数を含むユーザ属性情報の申告を受け、これらユーザ情報をユーザIDと対応付けて記憶・管理する。ユーザ属性推定装置1は、このユーザ情報管理装置4から、ユーザIDに対応付けられた世帯人数(ユーザ属性)情報を取得する。ここで、ユーザ属性とは、ユーザの生活・業務に係る属性である。このユーザ属性として、例えば、世帯人数、世帯構成、世帯構成員の世代、世帯収入、職種、生活パターン等が挙げられる。
ユーザ属性推定装置1は、次いで、世帯人数(ユーザ属性)を、受信した電力消費量(生活関連量)データから推定する。具体的には、前提として
(ア)推定の際の単位期間を、生活関連量について短い周期性が見込まれる期間に設定し、単位期間データを、この単位期間における生活関連量のデータとする。本実施形態では、単位期間は1日間であり、単位期間データは、1日における電力消費量である。また、
(イ)世帯人数(ユーザ属性)を推定する際に使用されるデータの期間である推定期間を、生活関連量について長い周期性が見込まれる長周期期間と一致する期間、又はこの長周期期間を含む期間に設定する。本実施形態では、推定期間は、1週間(長周期期間)である。
ここで、生活関連量として電力消費量を採用した場合、上記(ア)の「短い周期性」は、例えば1日における電力の消費態様によって発生し得る。例えば、一般に深夜は電力消費量が低く、一方、朝及び夕方・夜間に電力消費量が増加する、という傾向によって「短い周期性」が生じ得る。また、上記(イ)の「長い周期性」は、例えば1週間における生活パターンによって発生し得る。例えば、毎週金曜日は家族全員の帰りが遅く日中も不在であったり、他の曜日は概ね在宅していたりといったパターンによって「長い周期性」が生じ得る。
その上で、ユーザ属性推定装置1は、最初に、学習(決定木生成)段階として、
(a)1日(単位期間)における電力消費量データと、電力消費量データに係るユーザの世帯人数との組を教師データとして含む「教師データセット」から、複数のサブセットを生成し、
(b)生成されたサブセット毎に、サブセットにおける電力消費量データについての「分岐判定式」が根ノード及び内部ノードの各々において規定された決定木であって、「分岐判定式」による学習の結果として葉ノードに世帯人数(の値)が対応付けられた「決定木」を生成する。この「決定木」の生成は、アンサンブル学習法としてのランダムフォレスト(Random forest)法に基づくことが好ましい。
次いで、ユーザ属性推定装置1は、この生成した「決定木」を用いた判別段階として、
(c)推定対象データである1週間(推定期間)における電力消費量データを構成する、複数の単位期間(1日)の各々において取得された電力消費量データを、生成された複数の「決定木」に入力し、「決定木」の各々における到達先となった葉ノードに対応付けられた世帯人数に基づいて、単位世帯人数値(単位ユーザ属性推定値)を決定する。次いで、
(d)決定された単位世帯人数値に基づいて、当該1週間(推定期間)における世帯人数推定値を決定する。この際、単位世帯人数値を集計し、最頻となる値を世帯人数推定値に決定することも好ましい。
このように、本発明によれば、「決定木」を利用するランダムフォレスト(Random forest)法を適用して、ユーザによる入力やアンケート調査に頼ることなく、取得した生活関連量(電力消費量)に基づいてユーザ属性(世帯人数)を推定することが可能となる。ここで、ランダムフォレスト法は、ロジックが比較的簡単であり、処理フローの実施において計算量も少なくて済む。従って、本発明のユーザ属性推定は、それほど多くの資源を使用せずに比較的短時間で実施可能となる。
同じく図1によれば、ユーザ属性推定装置1は、機能構成として、通信インタフェース部100と、教師データ蓄積部101と、申告データ蓄積部102と、推定対象データ蓄積部103と、推定属性蓄積部104と、プロセッサ・メモリとを有する。更に表示部105を有することも好ましい。ここで、プロセッサ・メモリは、プログラムを実行することによってその機能を実現させる。
このプロセッサ・メモリは、機能構成部として、ユーザ属性学習部110と、単位属性推定部111と、ユーザ属性推定部112と、通信・制御部120とを有する。ここで、表示部105が設置される場合、表示制御部121が設けられることも好ましい。
通信インタフェース部100は、各ユーザから、当該ユーザのユーザIDと対応付けられた電力消費量(生活関連量)データを受信し、通信・制御部120に出力する。この際、ユーザの自宅に設置された電力計、例えばスマートメータ、タップ型電力計、クランプメータ(架線電流計)等、によって計測された電力消費量計測値が、事業者通信網2を介して通信インタフェース部100(ユーザ属性推定装置1)に送信される。
また、通信インタフェース部100は、ユーザ情報管理装置4から、当該ユーザのユーザIDと対応付けられた世帯人数(ユーザ属性)情報を受信し、通信・制御部120に出力する。また、ユーザ属性推定部112によって推定された世帯人数情報(ユーザ属性推定値)を通信・制御部120から入力し、所定の通信先に送信することも好ましい。
通信・制御部120は、入力した1日(単位期間)での電力消費量データと、この電力消費量データに係るユーザの世帯人数との組を教師データとして生成して、教師データ蓄積部101に出力し、蓄積させる。教師データ蓄積部101では、蓄積される教師データによって教師データセットが構成される。また、通信・制御部120は、入力した推定対象データである1週間(推定期間)における電力消費量データを、推定対象データ蓄積部103に出力し、蓄積させる。さらに、ユーザからの申告によって取得された世帯人数(ユーザ属性)正解値を、申告データ蓄積部102に出力し、蓄積させる。
推定属性蓄積部104は、ユーザ属性推定部112によって推定された世帯人数情報(ユーザ属性推定値)を蓄積する。
ユーザ属性学習部110は、
(a)教師データ蓄積部101に蓄積された教師データセットから、複数のサブセットを生成するサブセット生成部110aと、
(b)生成されたサブセット毎に、当該サブセットにおける1日での電力消費量データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成部110bと
を有する。ここで、決定木生成部110bは、分岐判定式を情報利得Iの計算から導出する判定式生成部110bjを含むことも好ましい。
単位属性推定部111は、
(a)1週間(推定期間)における電力消費量データ(推定対象データ)を構成する1日(単位期間)での電力消費量データであって、この1週間(推定期間)を構成する複数日(複数の単位期間)の各々において取得された電力消費量データを、生成された複数の決定木に入力し、次いで、
(b)決定木の各々における到達先となった葉ノードに対応付けられた世帯人数(ユーザ属性)値に基づいて、単位世帯人数推定値(単位ユーザ属性推定値)を決定する。
ユーザ属性推定部112は、1週間(推定期間)を構成する複数の単位期間(1日)の各々について決定された単位ユーザ属性推定値に基づいて、この推定期間(1週間)におけるユーザ属性推定値を決定する。ここで、単位属性推定部111での推定結果の出現頻度を集計し、例えば、最頻値がユーザ属性推定値として選択される。
表示制御部121は、決定されたユーザ属性推定値に係る情報を、ディスプレイ等である表示部105に表示させる。尚、ユーザ属性推定値に係る情報の出力には、通信インタフェース100を介した外部装置への送信、印刷等、種々の形態があり得る。
[学習:決定木生成]
図2は、本発明によるユーザ属性推定方法における学習フローの一実施形態を示す概略図である。
図2によれば、最初に、教師データセットを生成する。教師データセットは、
(a)単位期間(1日)における生活関連量(電力消費量)のデータである単位期間データと、
(b)この単位期間データに係るユーザのユーザ属性(世帯人数)値と
の組を教師データとして含む集合である。教師データセットは、例えば1000個(1000世帯分)の教師データを構成要素とすることができる。
ここで、単位期間データは、本実施形態において、1日における1時間毎の各時間帯(0〜1時、1〜2時、・・・、23〜24時)での電力消費量を成分とする24次元電力消費量ベクトル(生活関連ベクトル)である。教師データセットの各要素(教師データ)は、この24次元電力消費量ベクトルと世帯人数値との組となっている。
次いで、この教師データセットから、複数のサブセットを生成する。この際、教師データセットを構成する全ての教師データの中からランダムに所定数を抽出し、この抽出を複数回行うことによって複数のサブセットを生成することも好ましい。例えば、全教師データが1000個存在する場合に、その中から900個を抽出し、この抽出を10回行って、10個のサブセットを生成することができる。尚、当然に、サブセットの生成は、このような実施形態に限定されるものではない。例えば、抽出の際、サブセット間における教師データの重複があってもよい。また、教師データセットの中で、一度も抽出されない教師データの存在を許すことも可能である。
次いで、生成されたサブセット毎に、
このサブセットでの単位期間データ(24次元電力消費量ベクトル)についての「分岐判定式」が根ノード及び内部ノードの各々で規定された<決定木>
を生成する。この<決定木>は、アンサンブル学習法としてのランダムフォレスト法で規定される決定木とすることができ、「分岐判定式」による学習の結果として葉ノードにユーザ属性値が対応付けられる。決定木は、サブセットの数だけ生成され、例えばサブセットが10個生成された際、各サブセットに対応して10個生成される。
ここで、「分岐判定式」は、電力消費量ベクトルにおける1つの次元要素(1つの時間帯(a時〜b時)での電力消費量W(a,b))が分岐閾値ξ以上であるか否かを判定する式、即ち、
(1) W(a,b)≧ξ
とすることも好ましい。この場合、「分岐判定式」に使用される次元要素W(a,b)及び分岐閾値ξの選択においては、情報量基準(エントロピー)を採用し、分割前後でのエントロピーHの差に相当する情報利得Iを最大とする次元要素(に係る時間帯)及び分岐閾値の組が選択される。
以下、決定木のノードでの分割手順、即ち「分岐判定式」の決定手順を示す。尚、以下の分割手順は、根ノード及び内部ノードの各ノードに対し、再帰的に実施される。
最初に、分岐閾値候補を決定する。分岐閾値候補は、24次元電力消費量ベクトルの全ての次元要素の値をソートした(昇順又は降順に並べた)際に、値の異なる連続する2値の平均値とすることができる。次いで、教師データに含まれる24次元電力消費量ベクトルの成分である各時間帯での電力消費量W(a,b)と分岐閾値候補との全ての組合せに対し、以下に述べる処理を行い、情報利得Iが最大になる電力消費量W(a,b)に係る時間帯(a時〜b時)及び分岐閾値ξを選択する。
一般に、集合Sを分割対象となる集合、集合S及びSを分割後の集合とし、S=S∪Sであるとする。この際、集合SのエントロピーH(S)は、集合Sにクラスラベルc∈Cが対応付けられている場合、次式で算出される。
(2) H(S)=−Σp(c)・log(p(c))
ここで、Σはcについての総和(summation)であり、p(c)は、クラスラベルcをとる確率である。本実施形態では、クラスラベルcは世帯人数であり、例えば、c=1(人)、c=2(人)、・・・とすることができる。尚、式(2)で使用される対数(log)の底の値の設定に決まりは存在しない(後の計算では底を3に設定している)。この底の値の違いは、エントロピーH値の定数倍の違いとなるだけであり、本質的な差とはならない。
この際、集合S及びSへの分割による情報利得Iは、分割前後のエントロピー差であり、エントロピーH(S)を用いて、
(3) I=H(S)―Σ|S|・H(S)/|S|
と表される。ここで、Σは、j(=1,2)についての総和である。
教師データに含まれる各時間帯での電力消費量W(a,b)と分岐閾値候補との全ての組合せにおいて、式(3)の情報利得Iが最大となる分割:S→(S,S)が実施され、その分割をもたらす電力消費量Wに係る時間帯及び分岐閾値の組が選択される。
一実施例として、決定木における1つのノードでの分割前の5つの教師データを表1に示す。尚、表1では、容易な理解のため、電力消費量ベクトルを3次元とし、0〜8時での電力消費量、8〜16時での電力消費量、及び16〜24時での電力消費量を次元要素としている。
Figure 2014167715
この際、分岐閾値候補は、全ての次元要素の値をソートした際に、値の異なる連続する2値の平均値とすることができる。即ち、
0〜8時電力消費量:1.05, 1.15, 1.6, 2.05
8〜16時電力消費量:2.05, 2.15, 2.6, 3.05
16〜24時電力消費量:3.05, 3.15, 3.25, 3.65
となる。
また、このノードにおけるエントロピーH(S)は、上式(2)を用いて、
H(S)=−2/5×log(2/5)−2/5×log(2/5)−1/5×log(1/5)
≒0.960
となる。ここで、上式(3)を用いて、分岐閾値候補毎に情報利得Iを算出し、I値を比較する。その結果、情報利得Iを最大とする分割は、8〜16時での電力消費量W(8,16)において分岐閾値が2.6となる場合であることが分かる。即ち、分岐判定式は、
(4) W(8,16)≧2.6
となる。
この情報利得Iが最大となる分割:S→(S,S)では、
={データ1,データ4,データ5}であって、
={データ2,データ3}である。
ここで、
H(S)=−2/3×log(2/3)−0/3×log(0/3)−1/3×log(1/3)≒0.579
H(S)=−0/2×log(0/2)−2/2×log(2/2)−0/2×log(0/2)=0
であるから、情報利得Iは、
I=0.960−(0.579×3/5+0×2/5)=0.613
となる。
以上に述べた方法によって、根ノードから順次各内部ノードにおいて「分岐判定式」を決定し、「分岐判定式」によって入力した教師データを順次分割させる。次いで、最終的に葉ノードにまで辿り着いた教師データにおける世帯人数(ユーザ属性)値を、当該葉ノードに紐付けておく。
尚、ノードにおける分岐をどこまで実施するか、言い換えると、どの段階で葉ノードとするかは、生成する決定木の階層数又は分岐数を予め設定しておいて判断することも好ましい。即ち、上記の学習によって生成されつつある決定木(ノード群)が設定された階層数又は分岐数に達した際、その段階で最先端のノードを葉ノードとして、決定木の完成とすることができる。また、分割による情報利得Iが一定閾値以下となった際、その段階で決定木の完成とすることができる。
[判別:ユーザ属性推定]
図3は、本発明によるユーザ属性推定方法における判別フロー第1段階の一実施形態を示す概略図である。
ここで、本実施形態では、所定の推定期間を2月1日から2月7日までの1週間とし、推定対象データをこの7日間での電力消費量のデータとする。このように、推定期間は、生活関連量について長い周期性が見込まれる長周期期間、ここでは1週間、とすることができる。または、この長周期期間を含む期間、例えば90日、に設定されてもよい。一方、単位期間は、生活関連量について短い周期性が見込まれる期間、例えば1日、とすることができ、推定期間(1週間)を構成する単位(1日)となる。
図3によれば、最初に、所定の推定期間(2/1〜2/7の1週間)における推定対象(電力消費量)データを構成する単位期間(1日間)データ(図3では2月1日の電力消費量データ)を、生成された複数の決定木T、T、・・・及びTntに入力する。使用する決定木の数nは、例えば10(個)とすることができる。尚、以下に示す図3の計算は、2/2〜2/7の各日についても同様に実施される。
次いで、決定木T、T、・・・及びTntの各々における到達先となった葉ノードに対応付けられたユーザ属性(世帯人数)値に基づいて、単位ユーザ属性(世帯人数)推定値を決定する。具体的には、図3に示すように、「2月1日の電力消費量データ」を、決定木Tに入力し、最初に根ノードNの分岐判定式を適用して、配下の内部ノードN及びNのいずれかに移動させる。具体的には、根ノードNの分岐判定式が満たされる場合、内部ノードNに移動させ、満たされない場合、内部ノードNに移動させる。
次いで、移動先の内部ノードにおいても同様に、当該ノードに規定された分岐判定式を適用して、配下の内部ノードのいずれかに移動させる。このようにして、単位期間データが、最終的に葉ノードに到達した際、当該葉ノードに紐付けられた世帯人数(ユーザ属性)値が取得される。図3では、「2月1日の電力消費量データ」が最終的に葉ノードN10に到達している。葉ノードN10には学習によって「3人世帯」が紐付けられているので、取得される世帯人数値は、3となる。
以上の決定木Tでの計算を、T、・・・及びTntの各々についても実施する。図3では、「2月1日の電力消費量データ」が決定木T、T、T、・・・及びTntの各々に入力され、世帯人数(ユーザ属性)値として、それぞれ
→3人世帯,T→3人世帯,T→4人世帯,・・・,Tnt→3人世帯
が取得される。
ここで、取得されたこれらの世帯人数(ユーザ属性)値のうちの最頻値を、単位ユーザ属性推定値に決定する。図3では、当該最頻値は3となり、単位ユーザ属性推定値を3(人)とすることができる。
図4は、本発明によるユーザ属性推定方法における判別フロー第2段階の一実施形態を示す概略図である。
図4に示すように、所定の推定期間(1週間)を構成する複数の単位期間(1日間)の各々について決定された単位ユーザ属性(世帯人数)推定値に基づいて、当該推定期間におけるユーザ属性(世帯人数)推定値を決定する。図4では、推定期間である2/1〜2/7の1週間を構成する2月1日、2月2日、・・・及び2月7日の各日について決定された単位ユーザ属性推定値のうちの最頻値が、ユーザ属性推定値に決定されている。具体的には、単位世帯人数推定値が、それぞれ
2/1→3人世帯,2/2→3人世帯,2/3→3人世帯,2/4→3人世帯,
2/5→5人世帯,2/6→4人世帯,2/7→3人世帯
となっており、世帯人数推定値は、これらの値のうちの最頻値、即ち3(人)となる。
以上、図3及び4を用いて説明したように、本発明における判別フローは、
(a)短期的な(単位期間での)生活関連量データの特徴から単位ユーザ属性を推定する第1段階と、
(b)推定された単位ユーザ属性に基づいて長期的な(推定期間=(連続した複数の単位期間)での)ユーザ属性を推定する第2段階と
をもって構成される。
ここで、上記の短期的推定(a)と長期的推定(b)とを組み合わせることによって、単位期間における生活関連量の突発的な変動によるユーザ属性推定への影響が解消され、ロバストなユーザ属性の推定が可能となるのである。例えば、生活関連量としての1つの世帯における電力消費量は、世帯構成員が通常の生活を送っている場合、この世帯人数に対応した絶対値及び変動分布を示す。しかしながら、当該世帯において、突発的な又は予測困難な旅行、出張等の外出・不在があったり、来客があったりした場合、該当日の電力消費量は、世帯人数を反映したものにならない。これに対し、本発明では、短期的推定(a)に合わせて、長期的推定(b)を採用することによって、このような世帯人数を反映しない突発的な事態の影響を排除し、信頼性の高いユーザ属性の推定を実施することができるのである。
[ユーザ属性推定方法]
図5は、本発明によるユーザ属性推定方法の一実施形態を示すフローチャートである。
最初に、学習段階(ステップS500〜S502)として、
(S500)教師データセットを取得する。
(S501)教師データセットからn個のサブセットを生成する。
(S502)n個のサブセットの各々から根ノード及び内部ノードでの分岐判定式を決定して、n個の決定木を生成する。
次いで、判別段階(ステップS503〜S505)として、
(S503)生成されたn個の決定木の各々に、推定対象データを構成する単位期間データを入力する。
(S504)各決定木において到達した葉ノードに対応付けられたユーザ属性値(計n個)から単位ユーザ属性推定値を決定する。この際、n個のユーザ属性値における最頻値を単位ユーザ属性推定値とする。即ち、多数決によって単位ユーザ属性推定値を決定する。
(S505)推定期間を構成する各単位期間における単位ユーザ属性推定値から推定期間におけるユーザ属性推定値を決定する。この際、単位期間における生活関連量の突発的な変動によるユーザ属性推定への影響を解消すべく、複数の単位期間の各々について決定された単位ユーザ属性推定値のうちの最頻値を、ユーザ属性推定値に決定する。即ち、多数決によってユーザ属性推定値を決定する。
[決定木の更新]
本発明によるユーザ属性推定プログラムの一実施形態として、短期的推定(a)に用いる決定木の更新について説明する。
決定木生成部110b(図1)は、ユーザからの申告等によって得られたユーザ属性(世帯人数)の正解値を取得した際、このユーザに関して計測された単位期間(電力消費量)データと、このユーザ属性の正解値との組を、新たな教師データとして用いて新たに決定木を生成し、この生成された決定木をもって既に生成された決定木を更新することも好ましい。
ここで、再生成された決定木は、分岐判定式による学習の結果として葉ノードにユーザ属性(世帯人数)正解値が対応付けられている。この決定木の更新(再生成)の手順は、図2を用いて説明した[学習:決定木生成]の実施形態と同様となる。
尚、当初に決定木を生成した際に利用した教師データと、ユーザ属性(世帯人数)正解値が新たに判明したことによって利用可能な教師データとでは、生活関連量(電力消費量)データが異なっている。従って、本実施形態における更新は、新たな教師データを利用して、新たな決定木を再生成することを意味する。
これにより、その時々のユーザの生活環境・状況にあった決定木を取得することができるので、より確度の高いユーザ属性の推定が可能となる。例えば、ユーザの属する世帯の電力消費量に、春夏秋冬に応じた季節的変動が見込まれる場合、年間を通して定期的に更新を行うことによって、この季節的変動をも加味した、より確度の高い推定が実施可能となる。また、システム稼働当初、決定木生成のために利用された教師データを提供した世帯に対し、教師データ(生活関連量(電力消費量))及び正解データ(ユーザ属性(世帯人数))を提供可能な世帯が更に加わった場合、教師データのサンプル数が増加するので、上記の更新を行うことによって、より一般性のある決定木を生成することができる。その結果、より確度の高い推定が実施可能となる。
以上、詳細に説明したように、本発明によれば、「決定木」を利用するランダムフォレスト法を適用して、ユーザによる入力やアンケート調査に頼ることなく、生活関連量に基づいてユーザ属性を推定することができる。これにより、多大な労力及び時間をかけることなく、推定されたユーザ属性に基づいて、例えば、ユーザの生活・業務に関連する支援やアドバイスを、適切且つ容易に実施することも可能となる。
また、「決定木」を用いた短期的な推定と、推定期間にわたる長期的な推定とを組み合わせて最終的なユーザ属性推定を実施するので、単位期間における生活関連量の突発的な変動によるユーザ属性推定への影響が解消され、ロバストなユーザ属性の推定が可能となる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 ユーザ属性推定装置
100 通信インタフェース部
101 教師データ蓄積部
102 申告データ蓄積部
103 推定対象データ蓄積部
104 推定属性蓄積部
105 表示部
110 ユーザ属性学習部
110a サブセット生成部
110b 判定木生成部
110bj 判定式生成部
111 単位属性推定部
112 ユーザ属性推定部
120 通信・制御部
121 表示制御部
2 事業者通信網
3 インターネット
4ユーザ情報管理装置

Claims (10)

  1. ユーザの生活に関連する生活関連量に基づいて当該ユーザのユーザ属性を推定する装置に搭載されたコンピュータを機能させるユーザ属性推定プログラムであって、
    単位期間における生活関連量のデータである単位期間データと、当該単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成するサブセット生成手段と、
    生成された当該サブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、当該分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成手段と、
    所定の推定期間における推定対象データを構成する単位期間データであって、当該推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の当該決定木に入力し、当該決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する単位属性推定手段と、
    当該推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、当該推定期間におけるユーザ属性推定値を決定するユーザ属性推定手段と
    してコンピュータを機能させることを特徴とするユーザ属性推定プログラム。
  2. 前記サブセット生成手段は、当該単位期間を構成する複数の時間帯の各々における当該生活関連量のデータ値が形成する生活関連ベクトルと、当該生活関連ベクトルに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから複数のサブセットを生成し、
    前記決定木生成手段は、生成された当該サブセット毎に、当該生活関連ベクトルにおける1つの次元要素が分岐閾値以上であるか否かを判定する分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、当該分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する
    ことを特徴とする請求項1に記載のユーザ属性推定プログラム。
  3. 前記決定木生成手段は、当該分岐判定式に使用される当該次元要素及び当該分岐閾値を、分岐前後でのエントロピーの差に相当する情報利得が最大となるように設定することを特徴とする請求項2に記載のユーザ属性推定プログラム。
  4. 前記ユーザ属性推定手段は、当該単位期間における当該生活関連量の突発的な変動による当該ユーザ属性推定への影響を解消すべく、当該推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値のうちの最頻値をユーザ属性推定値に決定することを特徴とする請求項1から3のいずれか1項に記載のユーザ属性推定プログラム。
  5. 前記単位属性推定手段は、当該単位期間データを入力した当該決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値のうちの最頻値を、単位ユーザ属性推定値に決定することを特徴とする請求項1から4のいずれか1項に記載のユーザ属性推定プログラム。
  6. 当該生活関連量は世帯における電力消費量であり、当該ユーザ属性は当該世帯における世帯人数であることを特徴とする請求項1から5のいずれか1項に記載のユーザ属性推定プログラム。
  7. 当該単位期間は、当該生活関連量について短い周期性が見込まれる期間に設定され、当該所定の推定期間は、当該生活関連量について長い周期性が見込まれる長周期期間と一致する期間、又は当該長周期期間を含む期間に設定されることを特徴とする請求項1から6のいずれか1項に記載のユーザ属性推定プログラム。
  8. 前記決定木生成手段は、
    ユーザにおけるユーザ属性の正解値が取得された際、当該ユーザに係る単位期間データと、当該ユーザ属性正解値との組を用い、当該分岐判定式による学習の結果として葉ノードに当該ユーザ属性正解値が対応付けられた決定木を生成し、生成された当該決定木をもって既に生成された決定木を更新する
    ことを特徴とする請求項1から7のいずれか1項に記載のユーザ属性推定プログラム。
  9. ユーザの生活に関連する生活関連量に基づいて当該ユーザのユーザ属性を推定するユーザ属性推定装置であって、
    単位期間における生活関連量のデータである単位期間データと、当該単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成するサブセット生成手段と、
    生成された当該サブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、当該分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する決定木生成手段と、
    所定の推定期間における推定対象データを構成する単位期間データであって、当該推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の当該決定木に入力し、当該決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する単位属性推定手段と、
    当該推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、当該推定期間におけるユーザ属性推定値を決定するユーザ属性推定手段と
    を有することを特徴とするユーザ属性推定装置。
  10. ユーザの生活に関連する生活関連量に基づいて当該ユーザのユーザ属性を推定するユーザ属性推定方法であって、
    単位期間における生活関連量のデータである単位期間データと、当該単位期間データに係るユーザのユーザ属性値との組を教師データとして含む教師データセットから、複数のサブセットを生成する第1のステップと、
    生成された当該サブセット毎に、当該サブセットにおける単位期間データについての分岐判定式が根ノード及び内部ノードの各々において規定された決定木であって、当該分岐判定式による学習の結果として葉ノードにユーザ属性値が対応付けられた決定木を生成する第2のステップと、
    所定の推定期間における推定対象データを構成する単位期間データであって、当該推定期間を構成する複数の単位期間の各々において取得された単位期間データを、生成された複数の当該決定木に入力し、当該決定木の各々における到達先となった葉ノードに対応付けられたユーザ属性値に基づいて、単位ユーザ属性推定値を決定する第3のステップと、
    当該推定期間を構成する複数の単位期間の各々について決定された単位ユーザ属性推定値に基づいて、当該推定期間におけるユーザ属性推定値を決定する第4のステップと
    を有することを特徴とするユーザ属性推定方法。
JP2013039354A 2013-02-28 2013-02-28 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法 Active JP5930989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013039354A JP5930989B2 (ja) 2013-02-28 2013-02-28 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013039354A JP5930989B2 (ja) 2013-02-28 2013-02-28 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2014167715A true JP2014167715A (ja) 2014-09-11
JP5930989B2 JP5930989B2 (ja) 2016-06-08

Family

ID=51617375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013039354A Active JP5930989B2 (ja) 2013-02-28 2013-02-28 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP5930989B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206194A (ja) * 2017-06-07 2018-12-27 東京電力ホールディングス株式会社 学習装置、属性推定装置、学習方法、属性推定方法及びプログラム
JP2019022442A (ja) * 2015-05-21 2019-02-07 株式会社日立製作所 エネルギー需要予測システム及びエネルギー需要予測方法
JP2019036262A (ja) * 2017-08-22 2019-03-07 東京電力ホールディングス株式会社 世帯人数想定装置、災害発生時未避難人数想定装置および災害発生時未避難人数想定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011040961A (ja) * 2009-08-10 2011-02-24 Chugoku Electric Power Co Inc:The 機器管理システムおよび機器管理方法
WO2011070831A1 (ja) * 2009-12-11 2011-06-16 株式会社日立製作所 生活パターン分類装置及び生活パターン分類システム
JP2012048503A (ja) * 2010-08-26 2012-03-08 Panasonic Electric Works Co Ltd 電気量管理システムおよびセンタサーバ
JP2012215969A (ja) * 2011-03-31 2012-11-08 Chugoku Electric Power Co Inc:The ライフサイクル利用システム及びライフサイクル利用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011040961A (ja) * 2009-08-10 2011-02-24 Chugoku Electric Power Co Inc:The 機器管理システムおよび機器管理方法
WO2011070831A1 (ja) * 2009-12-11 2011-06-16 株式会社日立製作所 生活パターン分類装置及び生活パターン分類システム
JP2012048503A (ja) * 2010-08-26 2012-03-08 Panasonic Electric Works Co Ltd 電気量管理システムおよびセンタサーバ
JP2012215969A (ja) * 2011-03-31 2012-11-08 Chugoku Electric Power Co Inc:The ライフサイクル利用システム及びライフサイクル利用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016015513; 新谷 祐司: 'ホームネットワークにおける人間行動の機械学習に基づく異常検出' 電子情報通信学会技術研究報告 Vol.108 No.474 第108巻,第474号, 20090302, p.23-28, 社団法人電子情報通信学会 *
JPN6016015514; 山岡 啓介: '第78回 知っておきたいキーワード' 映像情報メディア学会誌 第66巻 第7号 第66巻,第7号, 20120701, pp.573-575, 一般社団法人映像情報メディア学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019022442A (ja) * 2015-05-21 2019-02-07 株式会社日立製作所 エネルギー需要予測システム及びエネルギー需要予測方法
JP2018206194A (ja) * 2017-06-07 2018-12-27 東京電力ホールディングス株式会社 学習装置、属性推定装置、学習方法、属性推定方法及びプログラム
JP2019036262A (ja) * 2017-08-22 2019-03-07 東京電力ホールディングス株式会社 世帯人数想定装置、災害発生時未避難人数想定装置および災害発生時未避難人数想定方法

Also Published As

Publication number Publication date
JP5930989B2 (ja) 2016-06-08

Similar Documents

Publication Publication Date Title
Daas et al. Big data as a source for official statistics
US11755675B2 (en) Method and apparatus for managing region tag
US10909554B2 (en) Analyzing big data to determine a data plan
US11082509B1 (en) Determining session intent
US20140188565A1 (en) Customer demographic data change detection based on monitored utility consumption
JP6151202B2 (ja) 特徴時間帯での消費電力量からユーザ属性を推定するプログラム、装置及び方法
Pol et al. Uncertainty in the age of fossils and the stratigraphic fit to phylogenies
Cuong Poverty projection using a small area estimation method: Evidence from Vietnam
CN108874911A (zh) 基于区域环境与犯罪事件数据的疑犯位置预测方法
US20160071125A1 (en) Real time provisional evaluation of utility program performance
US20130325530A1 (en) Method and system for determining customer conversion
Duwalage et al. Forecasting daily counts of patient presentations in Australian emergency departments using statistical models with time‐varying predictors
JP5930989B2 (ja) 生活関連量の決定木を用いてユーザ属性を推定するユーザ属性推定プログラム、装置及び方法
Emura et al. Estimation and model selection for left-truncated and right-censored lifetime data with application to electric power transformers analysis
JP6190301B2 (ja) 消費電力量から推定された生活行動を比較評価可能な装置、プログラム及び方法
CN108345662B (zh) 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN110807546A (zh) 社区网格人口变化预警方法及系统
Pandey et al. Modelling fertility: an application of count regression models
Boylan et al. Formation of seasonal groups and application of seasonal indices
Perret et al. A species’ response to spatial climatic variation does not predict its response to climate change
Morrissey et al. Using simulated data to examine the determinants of acute hospital demand at the small area level
Melstrom et al. Modeling recreation demand and fees at national parks
Getachew et al. Coping with time and space in modelling malaria incidence: a comparison of survival and count regression models
KR20220006580A (ko) 방문 예측
Hashem-Nazari et al. Non-equidistant “Basic Form”-focused Grey Verhulst Models (NBFGVMs) for ill-structured socio-economic forecasting problems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160426

R150 Certificate of patent or registration of utility model

Ref document number: 5930989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150