JP6147060B2 - 外れ値原因判定装置及び外れ値原因判定方法 - Google Patents

外れ値原因判定装置及び外れ値原因判定方法 Download PDF

Info

Publication number
JP6147060B2
JP6147060B2 JP2013076016A JP2013076016A JP6147060B2 JP 6147060 B2 JP6147060 B2 JP 6147060B2 JP 2013076016 A JP2013076016 A JP 2013076016A JP 2013076016 A JP2013076016 A JP 2013076016A JP 6147060 B2 JP6147060 B2 JP 6147060B2
Authority
JP
Japan
Prior art keywords
attribute
outlier
time
attributes
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013076016A
Other languages
English (en)
Other versions
JP2014204155A (ja
Inventor
基成 小林
基成 小林
寺田 雅之
雅之 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013076016A priority Critical patent/JP6147060B2/ja
Publication of JP2014204155A publication Critical patent/JP2014204155A/ja
Application granted granted Critical
Publication of JP6147060B2 publication Critical patent/JP6147060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、移動機から取得された信号を集計して得られた時系列データにおける外れ値の原因を判定する外れ値原因判定装置及び外れ値原因判定方法に関する。
従来、移動機から基地局に対して発信される位置登録信号を集計して得られた時系列データに基づいて、基地局のカバーエリア毎及び単位時間毎の人口等を推計する技術が知られている。
また、基地局の異常発生の有無を判定する方法として、下記特許文献1に記載の技術が知られている。下記特許文献1では、まず、現在呼量と過去呼量とを比較し、急激な変化があれば基地局に異常が発生している可能性があると判定する。続いて、気象情報及び鉄道の運行情報等を外部(インターネット)から取得することにより突発的な事象(外部要因)の有無を判定し、外部要因がある場合には当該外部要因の影響を考慮して基地局に異常が発生しているか否かを判定する。
特開2012−134924号公報
ところで、時系列データにおいて統計的に他の値と比較して大きく外れた値(外れ値、アノマリ)が検出された場合には、当該外れ値の原因を正確に把握することが、信頼性の高い推計を行うために重要となる。例えば、基地局の故障及び規制等が原因で外れ値が検出された場合には、当該外れ値は、基地局のカバーエリア内の人口を正確に反映したものとはいえないため、人口推計に用いるデータから除外する等の処理をすることが好ましい。
上記特許文献1の方法を応用すれば、このような外れ値の原因が基地局の異常によるものか否かを外部要因の有無に基づいて判定できる可能性がある。しかしながら、上記特許文献1の方法では、外部要因の有無を判定するにあたって、気象情報及び鉄道の運行情報等の外部情報に依存しているため、適切な外部情報が得られなければ外部要因の有無を正確に判定することができない。また、外部情報の取得及び確認が必須であり、処理が煩雑である。
そこで本発明は、移動機から取得された信号を集計して得られた時系列データにおける外れ値の原因を精度よく且つ効率よく判定することができる外れ値原因判定装置及び外れ値原因判定方法を提供することを目的とする。
本発明に係る外れ値原因判定装置は、移動機からの所定の信号を移動機ユーザの属性毎に集計して得られた属性別時系列データを入力する入力手段と、属性別時系列データの集計値を集計日時毎に全属性で総計して得られる全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルを生成し、全属性時系列データの集計値とモデルの値との残差が所定の閾値以上となる外れ値を検出する検出手段と、検出手段によって外れ値が検出された集計日時を示す外れ値検出日時において、当該外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、属性別時系列データに基づいて判定し、全属性が影響を受けたと判定した場合には、上記原因事象は移動機からの所定の信号を取得又は集計するシステムに起因するものであると判定し、一部の属性のみが影響を受けたと判定した場合には、上記原因事象は移動機ユーザの行動に起因するものであると判定する判定手段と、を備える。
本発明に係る外れ値原因判定装置では、入力手段が、例えば基地局によって取得された移動機から発信された位置登録信号の各々に移動機ユーザの年齢及び性別等の属性を関連付けて集計することによって得られた属性別時系列データを入力する。そして、検出手段が、全属性時系列データの集計値とモデルの値との残差に基づいて外れ値を検出する。続いて、判定手段が、属性毎の属性別時系列データに基づいて、外れ値の原因事象によって全属性が影響を受けたか、あるいは一部の属性のみが影響を受けたかを判定する。判定手段は、全属性が影響を受けたと判定した場合には、外れ値の原因は、移動機ユーザの属性にかかわらず一律に影響を及ぼすような基地局の故障及び電波規制などのシステム的なものであると判定する。一方、一部の属性が影響を受けたと判定した場合には、外れ値の原因は、例えばコンサートやライブなどの特定の属性(年代及び性別等)の移動機ユーザの動員に大きく影響を及ぼすようなイベントであると判定する。したがって、本発明に係る外れ値原因判定装置によれば、例えばエリア毎に開催されたイベント情報や基地局の故障情報などの外部情報を直接取得及び確認することなく、入力として取得した属性別時系列データに基づいた計算処理及び判定処理のみによって、外れ値の原因を精度よく且つ効率よく判定することができる。
上記外れ値原因判定装置では、判定手段は、属性毎の属性別時系列データに基づいて、属性別時系列データに対応する予測値の時系列データを示す属性別モデルを属性毎に生成し、外れ値検出日時において、原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、属性毎の属性別時系列データ及び属性別モデルに基づいて判定してもよい。このように、属性毎に所定のモデル化手法を適用して生成した属性別モデルを属性別時系列データと併せて用いることによって、外れ値の原因をより精度よく且つより効率よく判定することができる。
また、上記外れ値原因判定装置では、判定手段は、外れ値検出日時において属性別時系列データの集計値と属性別モデルの値との残差が所定の閾値以上となる外れ値が検出される属性の数を算出し、全属性数に対する上記属性の数の割合が所定値以上の場合には、原因事象によって全属性が影響を受けたと判定し、上記割合が所定値未満の場合には、一部の属性のみが影響を受けたと判定してもよい。これにより、外れ値検出日時における属性別時系列データと属性別モデルとの残差が所定の閾値以上となる属性の数に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
また、上記外れ値原因判定装置では、判定手段は、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値との属性毎のペアに基づいて相関係数を算出し、相関係数が所定値以上の場合には、原因事象によって全属性が影響を受けたと判定し、相関係数が所定値未満の場合には、一部の属性のみが影響を受けたと判定してもよい。これにより、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値とのペアの相関に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
また、上記外れ値原因判定装置では、判定手段は、属性毎に、外れ値検出日時における属性別モデルの値に対する、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値との残差の割合を算出し、全属性についての上記割合の標準偏差を算出し、標準偏差が所定値未満である場合には、原因事象によって全属性が影響を受けたと判定し、標準偏差が所定値以上の場合には、一部の属性のみが影響を受けたと判定してもよい。これにより、外れ値検出日時における属性別モデルの値に対する、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値との残差の割合を算出し、当該割合の標準偏差に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
また、上記外れ値原因判定装置では、判定手段は、属性毎に、全属性時系列データの集計値に対する属性別時系列データの集計値の比率を、外れ値検出日時及び当該外れ値検出日時に関連する複数の集計日時について算出し、属性毎に、外れ値検出日時に関連する集計日時についての比率に基づいて、外れ値検出日時についての比率に対して所定の外れ値検定を行い、外れ値検定によって少なくとも一つの属性について外れ値と判定された場合には、原因事象によって一部の属性のみが影響を受けたと判定し、いずれの属性についても外れ値と判定されなかった場合には、全属性が影響を受けたと判定してもよい。これにより、外れ値検出日時における上記比率に対する外れ値検定の判定結果に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
ところで、本発明は、上記のように外れ値原因判定装置の発明として記述できる他に、以下のように外れ値原因判定方法の発明としても記述することができる。これらの発明はカテゴリが異なるだけで、実質的に同一の発明であるため、同様の作用及び効果を奏する。
即ち、本発明に係る外れ値原因判定方法は、外れ値原因判定装置により実行される外れ値原因判定方法であって、移動機からの所定の信号を移動機ユーザの属性毎に集計して得られた属性別時系列データを入力する入力ステップと、属性別時系列データの集計値を集計日時毎に全属性で総計して得られる全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルを生成し、全属性時系列データとモデルとの残差が所定の閾値以上となる外れ値を検出する検出ステップと、検出ステップにおいて外れ値が検出された集計日時を示す外れ値検出日時において、当該外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、属性別時系列データに基づいて判定し、全属性が影響を受けたと判定した場合には、上記原因事象は移動機からの所定の信号を取得又は集計するシステムに起因するものであると判定し、一部の属性のみが影響を受けたと判定した場合には、上記原因事象は移動機ユーザの行動に起因するものであると判定する判定ステップと、を含む。
本発明によれば、移動機から取得された信号を集計して得られた時系列データにおける外れ値の原因を精度よく且つ効率よく判定することができる。
本発明の実施形態に係る外れ値原因判定装置を含む通信システムのシステム構成図である。 外れ値原因判定装置の機能構成を示すブロック図である。 外れ値原因判定装置のハードウェア構成を示す図である。 属性別時系列データの説明図である。 実測値とモデル値との残差に基づく外れ値検出処理の説明図である。 実測値とモデル値との残差に基づく外れ値検出処理の説明図である。 外れ値検出日時において全属性が影響を受けた場合の例を示す図である。 外れ値検出日時において一部の属性(20代)のみが影響を受けた場合の例を示す図である。 外れ値検出日時において一部の属性(男性)のみが影響を受けた場合の例を示す図である。 第1実施形態に係る外れ値原因判定装置の全体動作を示すフロー図である。 第1実施形態に係る外れ値原因判定装置の判定部による外れ値原因判定処理を示すフロー図である。 図7の外れ値検出日時における属性別時系列データの集計値及び属性別モデルの値に基づいて算出される各値を示す図である。 図8の外れ値検出日時における属性別時系列データの集計値及び属性別モデルの値に基づいて算出される各値を示す図である。 第2実施形態に係る外れ値原因判定装置の判定部による外れ値原因判定処理を示すフロー図である。 第3実施形態に係る外れ値原因判定装置の判定部による外れ値原因判定処理を示すフロー図である。 第4実施形態に係る外れ値原因判定装置の判定部による外れ値原因判定処理を示すフロー図である。
本発明に係る外れ値原因判定装置及び外れ値判定方法の一実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
[第1実施形態]
図1は、第1実施形態に係る外れ値原因判定装置を含む通信システム1のシステム構成図である。図1に示すように、この通信システム1は、移動機100、BTS(基地局)200、RNC(無線制御装置)300、交換機400、および管理センタ500を含んで構成されている。また、この管理センタ500は、社会センサユニット501、ペタマイニングユニット502、モバイルデモグラフィユニット503および可視化ソリューションユニット504から構成されている。
交換機400は、BTS200、RNC300を介して、移動機100の位置情報を収集する。RNC300は、移動機100との間で通信接続が行われる際に、移動機100からの位置登録信号やRRC接続要求信号における遅延値等を用いて移動機100の位置を測定することができる。交換機400は、このように測定された移動機100の位置情報を、移動機100が通信接続を実行する際に受け取ることができる。交換機400は受け取った位置情報を記憶しておき、所定のタイミング、または、管理センタ500からの要求に応じて収集した位置情報を管理センタ500に出力する。
管理センタ500は、上述したとおり、社会センサユニット501、ペタマイニングユニット502、モバイルデモグラフィユニット503および可視化ソリューションユニット504を含んで構成されており、各ユニットでは、移動機100の位置情報を用いた統計処理を行う。
社会センサユニット501は、各交換機400から、又は、オフラインで、移動機100の位置情報等を含んだデータを収集するサーバ装置である。この社会センサユニット501は、交換機400から定期的に出力されたデータを受信したり、または社会センサユニット501において予め定められたタイミングに従って交換機400からデータを取得したりできるように構成されている。
ペタマイニングユニット502は、社会センサユニット501から受信したデータを所定のデータ形式に変換するサーバ装置である。例えば、ペタマイニングユニット502は、ユーザIDをキーにソーティング処理を行ったり、データの属するエリア毎にソーティング処理を行ったりする。
モバイルデモグラフィユニット503は、ペタマイニングユニット502において処理されたデータに対する集計処理、即ち各項目のカウンティング処理を行うサーバ装置である。例えば、モバイルデモグラフィユニット503は、あるエリアに在圏する移動機100のユーザ数をカウントしたり、また在圏分布を集計したりすることができる。
可視化ソリューションユニット504は、モバイルデモグラフィユニット503において集計処理されたデータを可視可能に処理するサーバ装置である。例えば、可視化ソリューションユニット504は、集計されたデータを地図上にマッピング処理することができる。この可視化ソリューションユニット504にて処理されたデータは、企業、官公庁または個人等に提供され、店舗開発、道路交通調査、災害対策、環境対策等に利用される。なお、このように統計処理された情報は、当然にプライバシーを侵害しないように個人等は特定されないように加工されている。
なお、社会センサユニット501、ペタマイニングユニット502、モバイルデモグラフィユニット503および可視化ソリューションユニット504はいずれも、前述したようにサーバ装置により構成され、図示は省略するが、通常の情報処理装置の基本構成(即ち、CPU、RAM、ROM、キーボードやマウス等の入力デバイス、外部との通信を行う通信デバイス、情報を記憶する記憶デバイス、および、ディスプレイやプリンタ等の出力デバイス)を備えることは言うまでもない。
図2は、第1実施形態に係る外れ値原因判定装置10Aの機能構成を示すブロック図である。外れ値原因判定装置10Aは、図1に示される管理センタ500において移動機100からの位置登録信号の集計処理を行うユニットの一部として構成される。より具体的には、外れ値原因判定装置10Aは、交換機400が取得した移動機100からの位置登録信号を所定の属性毎に集計した属性別時系列データを入力し、当該属性別時系列データの集計値を全属性で総計した全属性時系列データにおいて検出される外れ値の原因を判定する装置として構成されている。
例えば、外れ値原因判定装置10Aが検出した外れ値について、その原因が位置登録信号を取得するBTS200の故障及び電波規制等のシステムに起因するものと判定した場合には、このような外れ値が検出された集計日時に対応する集計データは、基地局のカバーエリア内の人口を正確に反映したものとはいえない可能性が高い。したがって、例えば、このような外れ値に対応するデータを除外等することにより、上述のモバイルデモグラフィユニット503及び可視化ソリューションユニット504において処理された集計データの品質を向上させることが期待できる。
図2に示すように、外れ値原因判定装置10Aは、入力部11と、検出部12と、判定部13とを備える。
図3を用いて、外れ値原因判定装置10Aのハードウェア構成について説明する。図3は、外れ値原因判定装置10Aのハードウェア構成を示す図である。図14に示すように、外れ値原因判定装置10Aは、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクメモリなどで構成される補助記憶部103と、データ通信を行う通信制御部104と、液晶モニタなどで構成される出力部105と、入力デバイスであるキーボード及びマウス等で構成される入力部106と、CD−ROMやDVDなどの記録媒体108を読み取る記録媒体読取部107とを備える。
図2に示す外れ値原因判定装置10Aの各機能は、CPU101の制御の下で、主記憶部102に所定のソフトウェアプログラムを読み込ませて実行することにより実現される。その際、CPU101は、ソフトウェアプログラムの処理手順に従い、主記憶部102及び補助記憶部103におけるデータの読み出し及び書き込み動作を制御し、入力部106、出力部105及び通信制御部104の動作を制御する。
図2に戻り、外れ値原因判定装置10Aの各機能要素について順に説明する。
入力部11は、移動機100からの所定の信号に基づいて、移動機100のユーザ(移動機ユーザ)の属性毎に集計して得られた属性別時系列データを入力する入力手段である。本実施形態では、一例として、「所定の信号」は、ある基地局の通信エリア(アンテナの勢力範囲)を示すセクタにおいて取得された移動機100の位置登録信号であるものとする。入力部11が入力する属性別時系列データについて、以下詳細に説明する。
位置登録信号記憶部601は、交換機400から出力された移動機100からの位置登録信号を記憶する記憶手段である。位置登録信号には、電話番号等の移動機100のユーザを識別するユーザ識別子と、位置登録がされた日時と、移動機100が在圏するセクタを示すセクタ識別子とが関連付けられている。
属性情報記憶部602は、移動機100のユーザの属性情報を記憶する記憶手段である。属性情報記憶部602は、ユーザの属性情報として、例えば、年齢(5歳区分、10歳区分等を含む)、性別、居住地(市区町村、都道府県等)等と、ユーザ識別子と、を対応付けて予め記憶している。
属性別時系列データ記憶部603は、位置登録信号記憶部601に記憶された位置登録信号と属性情報記憶部602に記憶された属性情報とを、共通のユーザ識別子で関連付けることにより、集計日毎に、図4に示すような集計日時毎及び所定の属性毎の位置登録信号数を示す時系列データ(属性別時系列データ)を取得及び記憶する。本実施形態では、一例として、集計日時単位は1時間としている。以下、説明の便宜上、集計日時「XX:00〜XX:59」の集計データを指して「XX時の集計データ」ともいう。また、本実施形態では、集計区分となる属性として、10歳区分での年齢層と性別とを関連付けた「10代男性、20代男性、30代男性、10代女性、20代女性、30代女性」の6つを例に挙げて説明する。
検出部12は、全属性の総計値の時系列データに基づいて、外れ値を検出する検出手段である。より具体的には、まず、検出部12は、属性別時系列データの集計値(図4の「10代男性」、「20代男性」、「30代男性」、「10代女性」、「20代女性」、「30代女性」列に示される各値)を、集計日時毎に全属性で総計して得られる全属性時系列データ(図4の「総計」列に示される値)に基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルを生成する。
ここで、「モデル」とは、例えば、入力した所定の集計日時範囲の全属性時系列データに対して、日種別(平日・祝休日)及び集計日時毎の平均値を算出する「平均」、日種別(平日・祝休日)及び集計日時毎に線形回帰を行う「回帰」、自己共分散及び移動平均を用いてモデル推定を行う「ARMA(自己回帰移動平均モデル)」、R言語に実装され、平滑化により時系列データを周期成分、トレンド成分、残差成分に分離する「STL関数」、及び、周波数領域で特定のフィルタをかけることにより非定常成分を抽出する「周波数フィルタ」等の従来周知のモデル化手法を適用することにより生成される時系列データであり、適用元となる全属性時系列データに対応する予測値を示すものである。なお、「回帰」モデルについては、外れ値が存在するときに当該外れ値に対する影響を受けにくいロバスト回帰を行うことが、より好ましい。
検出部12は、モデルを生成した後、全属性時系列データの集計値とモデルの値との残差が所定の閾値以上となる外れ値を検出する(外れ値検出処理)。図5及び図6を用いて、検出部12による外れ値検出処理の一例について説明する。図5は、全属性時系列データ(実測値)と、全属性時系列データに対して上述のような所定のモデル化手法を適用することによって得られたモデルの値(モデル値)とを示すグラフである。図6は、図5に示す実測値とモデル値との残差のヒストグラムを示す。
検出部12は、まず、図5に示すように、所定の集計日時範囲における全属性時系列データとモデル値との残差を集計日時毎に取得し、取得した各集計日時における残差から、図6に示すようなヒストグラムを生成する。続いて、検出部12は、生成したヒストグラムを例えば正規分布等の確率分布でフィッティングする。本実施形態では、一例として正規分布でフィッティングを行う場合について説明する。検出部12は、例えば、生成したヒストグラムが正規分布に従うと仮定した場合に、より適合する正規分布を求める。検出部12は、このようにして得た正規分布に基づいて、平均値(正規分布の中心)からnσ(標準偏差σに予め任意で定めた数であるnを掛け合わせた値)以上外れた残差に対応する実測値を特定し、当該実測値を外れ値として検出する。検出部12は、上述の処理により、例えば図5の例では、他の集計日時の残差よりも突出した残差(平均値からnσ以上離れた残差)が計測された集計日時tの実測値を外れ値として検出する。
判定部13Aは、検出部12によって検出された外れ値の原因事象を判定する判定手段である。判定部13Aは、検出部12によって外れ値が検出された集計日時(外れ値検出日時)において、当該外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、属性別時系列データと、当該属性別時系列データに基づいて生成した属性別モデルとに基づいて判定する。
ここで、「属性別モデル」とは、属性別時系列データに対応する予測値の時系列データである。属性別モデルは、属性別時系列データに対して、上述した平均、回帰、ARMA、STL、周波数フィルタ等の従来周知のモデル化手法を適用することによって生成される。また、「全属性が影響を受けた」とは、「全属性がほぼ一律に影響を受けた」又は「限定された属性のみが影響を受けたとはいえない」といった意味である。また、「一部の属性のみが影響を受けた」とは、「全属性が一律に影響を受けたとはいえない」又は「限定された属性のみが影響を受けた」といった意味である。
具体的には、判定部13Aは、外れ値検出日時において属性別時系列データの集計値と属性別モデルの値との残差が所定の閾値以上となる外れ値が検出される属性の数(以下「外れ値検出属性数」とも表記する)を算出する。例えば、判定部13Aは、属性別時系列データの集計値と属性別モデルの値との残差に対して、上述の検出部12と同様の手法による外れ値検出処理を属性毎に行う。これにより、判定部13Aは、外れ値検出属性数を算出することができる。
続いて、判定部13Aは、全属性数に対する外れ値検出属性数の割合が所定値以上か否かを判定し、上記割合が所定値以上の場合には、原因事象によって全属性が影響を受けたと判定し、上記割合が所定値未満の場合には、一部の属性のみが影響を受けたと判定する。以下、本実施形態では、上記所定値は「0.8(80%)」であるものとする。
判定部13Aは、全属性が影響を受けたと判定した場合には、原因事象は移動機100からの位置登録信号を取得又は集計するシステムに起因するもの、即ち移動機ユーザの属性にかかわらず一律に影響を及ぼすような基地局の故障及び電波規制等のシステム的な事象であると判定する。一方、判定部13Aは、一部の属性のみが影響を受けたと判定した場合には、原因事象は移動機ユーザの行動に起因するもの、即ち例えばコンサートやライブ等の特定の年代又は性別の移動機ユーザの動員に大きく影響を及ぼすようなイベントであると判定する。イベントとしては、上記以外に、例えば、お祭り、花火大会、展示会、マラソン大会、野球の試合等、非定期的に実行される興行等が挙げられる。
図7〜図9を用いて、判定部13Aによる判定の例について詳細に説明する。図7〜図9はいずれも、(a)全属性時系列データ及び(b)属性別時系列データの例を示す図である。また、図7〜図9のいずれの場合においても、検出部12は、全属性時系列データの集計値とモデル値との残差として他の集計日時よりも突出した(平均値からnσ以上離れた)残差rが計測された集計日時(15時)において、外れ値を検出するものとする。即ち、外れ値検出日時が「15時」であるものとする。
図7の例では、図7(b)に示すように、外れ値検出日時において全属性がほぼ等しく影響を受けている、即ち、各属性について通常値から外れた集計値が計測されている。このような場合には、判定部13Aによって、全属性について外れ値が検出されることが想定される。したがって、全属性数に対する外れ値検出属性数の割合(6/6=1.0)は所定値(0.8)以上となり、判定部13Aは、外れ値検出日時において全属性が影響を受けたと判定する。
図8の例では、図8(b)に示すように、外れ値検出日時において一部の属性のみが影響を受けている。即ち、20代の属性(「20代男性」及び「20代女性」)についてのみ通常値から外れた集計値が計測されている。このような場合には、判定部13Aによって、「20代男性」及び「20代女性」についてのみ外れ値が検出されることが想定される。したがって、全属性数に対する外れ値検出属性数の割合(2/6≒0.33)は所定値(0.8)以下となり、判定部13Aは、外れ値検出日時において一部の属性のみが影響を受けたと判定する。
図9の例では、図9(b)に示すように、外れ値検出日時において一部の属性のみが影響を受けている。即ち、男性の属性(「10代男性」、「20代男性」、及び「30代男性」)についてのみ通常値から外れた集計値が計測されている。このような場合には、判定部13Aによって、「10代男性」、「20代男性」、及び「30代男性」についてのみ外れ値が検出されることが想定される。したがって、全属性数に対する外れ値検出属性数の割合(3/6=0.5)は所定値(0.8)以下となり、判定部13Aは、外れ値検出日時において一部の属性のみが影響を受けたと判定する。
続いて、図10及び図11を用いて、外れ値原因判定装置10Aの動作を説明するとともに、本実施形態に係る外れ値原因判定方法について説明する。図10は、外れ値原因判定装置10Aの全体動作を示すフロー図である。図11は、外れ値原因判定装置10Aの判定部13Aによる外れ値原因判定処理を示すフロー図である。
まず、入力部11によって、図4に示すような集計日時毎及び属性毎の位置登録信号数を示す集計データ(属性別時系列データ)が入力される(ステップS1、入力ステップ)。
続いて、属性別時系列データの集計値を集計日時毎に全属性で総計して得られる全属性時系列データに基づいて、検出部12によって外れ値の検出処理が実行される(ステップS2、検出ステップ)。具体的には、全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルが生成され(ステップS21)、全属性時系列データの集計値と当該モデルの値との残差が所定の閾値以上となる外れ値を検出する処理が実行される(ステップS22)。ステップS22において、外れ値が検出されなかった場合(ステップS22:NO)には、外れ値原因判定装置10Aによる処理は、外れ値は検出されなかったものとして終了する。一方、ステップS22において、外れ値が検出された場合には、判定部13Aによって、外れ値の原因事象を判定する外れ値原因判定処理が実行される(ステップS3、判定ステップ)。
図11を用いて、判定部13Aによる外れ値原因判定処理(ステップS3)の動作について説明する。まず、外れ値検出属性数に「0」がセットされる(ステップS101)。続いて、属性(例えば「10代男性」)が1つ選択され(ステップS102)、選択された属性の属性別モデルが生成される(ステップS103)。続いて、選択された属性の属性別時系列データと属性別モデルとに基づいて外れ値検出処理が実行される(ステップS104)。ステップS104において外れ値が検出された場合(ステップS104:YES)には、外れ値検出属性数は「1」だけ加算される(ステップS105)。一方、ステップS104において外れ値が検出されなかった場合(ステップS104:NO)には、外れ値検出属性数の加算処理は行われない。
続いて、全属性について処理が完了したか否かが判定される(ステップS106)。ステップS106において全属性について処理が完了していないと判定された場合(ステップS106:NO)には、未処理の属性のうちから属性が1つ選択され、当該属性に対して上述の処理が実行される(ステップS102〜ステップS106)。一方、ステップS106において全属性について処理が完了していると判定された場合(ステップS106:YES)には、全属性数に対する外れ値検出属性数の割合が所定値以上か否かが判定される(ステップS107)。
ステップS107において全属性数に対する外れ値検出属性数の割合が所定値以上と判定された場合(ステップS107:YES)には、外れ値の原因事象によって全属性が影響を受けたと判定され、当該原因事象は、システムに起因するものと判定される(ステップS108)。一方、ステップS107において全属性数に対する外れ値検出属性数の割合が所定値未満と判定された場合(ステップS107:NO)には、外れ値の原因事象によって一部の属性のみが影響を受けたと判定され、当該原因事象は、移動機ユーザの行動に起因するものと判定される(ステップS109)。
以上説明したように、本実施形態に係る外れ値原因判定装置10Aによれば、入力部11が入力として取得した属性別時系列データに基づいて、例えばエリア毎に開催されたイベント情報や基地局の故障情報などの外部情報を直接取得及び確認することなく、検出部12及び判定部13Aによって実行される上述の計算処理及び判定処理のみによって、外れ値の原因を精度よく且つ効率よく判定することができる。
また、判定部13Aが属性毎に所定のモデル化手法を適用して生成した属性別モデルを属性別時系列データと併せて用いることによって、外れ値の原因をより精度よく且つより効率よく判定することができる。具体的には、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値との残差が所定の閾値以上となる属性の数(外れ値検出属性数)に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
[第2実施形態]
続いて、第2実施形態に係る外れ値原因判定装置10Bについて説明する。外れ値原因判定装置10Bは、外れ値原因判定装置10Aにおける判定部13Aを後述する判定部13Bに置き換えた構成とした点において、外れ値原因判定装置10Aと相違する。外れ値原因判定装置10Bのそれ以外の構成については、外れ値原因判定装置10Aと同一であるため説明を省略する。
判定部10Bは、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値との属性毎のペアに基づいて相関係数を算出する。そして、当該相関係数が所定値以上の場合には、外れ値の原因事象によって全属性が影響を受けたと判定し、当該相関係数が所定値未満の場合には、外れ値の原因事象によって一部の属性のみが影響を受けたと判定する。
図12及び図13を用いて、判定部13Bによる判定処理について詳細に説明する。図12(a)は、図7(b)の外れ値検出日時(15時)における属性毎の「属性別モデルの値」と「属性別時系列データの集計値」とに基づいて算出される各種算出値を示す図である。図12(b)は、図12(a)に示した「属性別モデルの値」と「属性別時系列データの集計値」との属性毎のペア(座標)をプロットした図である。図13(a)は、図8(b)の外れ値検出日時(15時)における属性毎の「属性別モデルの値」と「属性別時系列データの集計値」とに基づいて算出される各種算出値を示す図である。図13(b)は、図13(a)に示した「属性別モデルの値」と「属性別時系列データの集計値」との属性毎のペア(座標)をプロットした図である。
図12の例(図7の例)では、上述のとおり、外れ値検出日時において全属性がほぼ等しく影響を受けている。このような場合には、外れ値検出日時における「属性別モデルの値」と「属性別時系列データの集計値」との属性毎のペアは、図12(b)に示すようにほぼ線形にプロットされ、相関係数は「0.701288」となり、比較的強い相関を持つことがわかる。
一方、図13の例(図8の例)では、上述のとおり、外れ値検出日時において一部の属性(20代)のみが影響を受けている。このような場合には、外れ値検出日時における「属性別モデルの値」と「属性別時系列データの集計値」との属性毎のペアは、図13(b)に示すように非線形にプロットされ、相関係数は「0.100777」となり、比較的弱い相関を持つことがわかる。
以上に基づいて、判定部13Bは、上記ペアの相関係数が予め定めた所定値(例えば「0.7」等)以上か否かによって、外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを判定する。
続いて、図10及び図14を用いて、外れ値原因判定装置10Bの動作を説明する。図14は、判定部13Bによる外れ値原因判定処理を示すフロー図であり、図10におけるステップS3における処理に相当する。なお、図10におけるステップS1,S2の処理については、第1実施形態に係る外れ値原因判定装置10Aと同様であるため詳細な説明を省略する。
まず、入力部11によって、属性別時系列データが入力される(ステップS1、入力ステップ)。続いて、全属性時系列データに基づいて、検出部12によって外れ値の検出処理が実行される(ステップS2、検出ステップ)。具体的には、全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルが生成され(ステップS21)、全属性時系列データの集計値と当該モデルの値との残差が所定の閾値以上となる外れ値を検出する処理が実行される(ステップS22)。ステップS22において、外れ値が検出されなかった場合には、外れ値原因判定装置10Bによる処理は、外れ値は検出されなかったものとして終了する(ステップS22:NO)。一方、ステップS22において、外れ値が検出された場合には、判定部13Bによって、外れ値の原因事象を判定する外れ値原因判定処理が実行される(ステップS3、判定ステップ)。
図14を用いて、判定部13Bによる外れ値原因判定処理(ステップS3)の動作について説明する。まず、属性毎に属性別モデルが生成される(ステップS201)。続いて、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値とのペアの相関係数が算出される(ステップS202)。続いて、算出された相関係数が所定値以上か否かが判定される(ステップS203)。ステップS203において相関係数が所定値以上と判定された場合(ステップS203:YES)には、外れ値の原因事象によって全属性が影響を受けたと判定され、当該原因事象は、システムに起因するものと判定される(ステップS204)。一方、ステップS203において相関係数が所定値未満と判定された場合(ステップS203:NO)には、外れ値の原因事象によって一部の属性のみが影響を受けたと判定され、当該原因事象は、移動機ユーザの行動に起因するものと判定される(ステップS205)。
以上説明したように、本実施形態に係る外れ値原因判定装置10Bによれば、第1実施形態と同様に、入力部11が入力として取得した属性別時系列データに基づいて、例えばエリア毎に開催されたイベント情報や基地局の故障情報などの外部情報を直接取得及び確認することなく、検出部12及び判定部13Bによって実行される上述の計算処理及び判定処理のみによって、外れ値の原因を精度よく且つ効率よく判定することができる。
また、判定部13Bが属性毎に所定のモデル化手法を適用して生成した属性別モデルを属性別時系列データと併せて用いることによって、外れ値の原因をより精度よく且つより効率よく判定することができる。具体的には、外れ値検出日時における属性別時系列データの集計値と属性別モデルの値とのペアの相関係数に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
[第3実施形態]
続いて、第3実施形態に係る外れ値原因判定装置10Cについて説明する。外れ値原因判定装置10Cは、外れ値原因判定装置10Aにおける判定部13Aを後述する判定部13Cに置き換えた構成とした点において、外れ値原因判定装置10Aと相違する。外れ値原因判定装置10Cのそれ以外の構成については、外れ値原因判定装置10Aと同一であるため説明を省略する。
判定部13Cは、属性毎に、外れ値検出日時における属性別モデルの値(A)に対する、外れ値検出日時における属性別時系列データの集計値(B)と属性別モデルの値との残差(C=B−A)の割合(C/A)を算出し、全属性についての割合の標準偏差を算出する。そして、当該標準偏差が所定値未満である場合には、原因事象によって全属性が影響を受けたと判定し、標準偏差が所定値以上の場合には、一部の属性のみが影響を受けたと判定する。
図12及び図13を用いて、判定部13Cによる判定処理について詳細に説明する。図12の例(図7の例)では、上述のとおり、外れ値検出日時において全属性がほぼ等しく影響を受けている。このような場合には、外れ値検出日時における属性毎の属性別モデルの値に対する残差の割合(残差/属性別モデルの値)のばらつきは比較的小さくなり、標準偏差は比較的小さい値「0.049723」となることがわかる。
一方、図13の例(図8の例)では、上述のとおり、外れ値検出日時において一部の属性(20代)のみが影響を受けている。このような場合には、外れ値検出日時における属性毎の属性別モデルの値に対する残差の割合(残差/属性別モデルの値)のばらつきは比較的大きくなり、標準偏差は比較的大きい値「0.246916」となることがわかる。
以上に基づいて、判定部13Cは、外れ値検出日時における属性毎の属性別モデルの値に対する残差の割合(残差/属性別モデルの値)の標準偏差が予め定めた所定値(例えば「0.1」等)以上か否かによって、外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを判定する。
続いて、図10及び図15を用いて、外れ値原因判定装置10Cの動作を説明する。図15は、判定部13Cによる外れ値原因判定処理を示すフロー図であり、図10におけるステップS3における処理に相当する。なお、図10におけるステップS1,S2の処理については、第1実施形態に係る外れ値原因判定装置10Aと同様であるため詳細な説明を省略する。
まず、入力部11によって、属性別時系列データが入力される(ステップS1、入力ステップ)。続いて、全属性時系列データに基づいて、検出部12によって外れ値の検出処理が実行される(ステップS2、検出ステップ)。具体的には、全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルが生成され(ステップS21)、全属性時系列データの集計値と当該モデルの値との残差が所定の閾値以上となる外れ値を検出する処理が実行される(ステップS22)。ステップS22において、外れ値が検出されなかった場合には、外れ値原因判定装置10Cによる処理は、外れ値は検出されなかったものとして終了する(ステップS22:NO)。一方、ステップS22において、外れ値が検出された場合には、判定部13Cによって、外れ値の原因事象を判定する外れ値原因判定処理が実行される(ステップS3、判定ステップ)。
図15を用いて、判定部13Cによる外れ値原因判定処理(ステップS3)の動作について説明する。まず、属性毎に属性別モデルが生成される(ステップS301)。続いて、外れ値検出日時における属性別モデルの値に対する残差の割合(残差/属性別モデルの値)が属性毎に算出される(ステップS302)。続いて、属性毎に算出された上記割合に基づいて、全属性についての上記割合の標準偏差が算出される(ステップS303)。続いて、算出された標準偏差が所定値以上か否かが判定される(ステップS304)。ステップS304において標準偏差が所定値以上と判定された場合(ステップS304:YES)には、外れ値の原因事象によって一部の属性のみが影響を受けたと判定され、当該原因事象は、移動機ユーザの行動に起因するものと判定される(ステップS305)。一方、ステップS304において標準偏差が所定値未満と判定された場合(ステップS304:NO)には、外れ値の原因事象によって全属性が影響を受けたと判定され、当該原因事象は、システムに起因するものと判定される(ステップS306)。
以上説明したように、本実施形態に係る外れ値原因判定装置10Cによれば、第1実施形態と同様に、入力部11が入力として取得した属性別時系列データに基づいて、例えばエリア毎に開催されたイベント情報や基地局の故障情報などの外部情報を直接取得及び確認することなく、検出部12及び判定部13Cによって実行される上述の計算処理及び判定処理のみによって、外れ値の原因を精度よく且つ効率よく判定することができる。
また、判定部13Cが属性毎に所定のモデル化手法を適用して生成した属性別モデルを属性別時系列データと併せて用いることによって、外れ値の原因をより精度よく且つより効率よく判定することができる。具体的には、外れ値検出日時における属性別モデルの値に対する残差の割合(残差/属性別モデルの値)の標準偏差に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
[第4実施形態]
続いて、第4実施形態に係る外れ値原因判定装置10Dについて説明する。外れ値原因判定装置10Dは、外れ値原因判定装置10Aにおける判定部13Aを後述する判定部13Dに置き換えた構成とした点において、外れ値原因判定装置10Aと相違する。外れ値原因判定装置10Dのそれ以外の構成については、外れ値原因判定装置10Aと同一であるため説明を省略する。
判定部10Dは、属性毎に、全属性時系列データの集計値に対する属性別時系列データの集計値の比率(属性別時系列データの集計値/全属性時系列データの集計値)を、外れ値検出日時及び当該外れ値検出日時に関連する複数の集計日時について算出する。そして、属性毎に、外れ値検出日時に関連する集計日時についての比率に基づいて、外れ値検出日時についての比率に対して所定の外れ値検定を行う。そして、当該外れ値検定によって少なくとも一つの属性について外れ値と判定された場合には、原因事象によって一部の属性のみが影響を受けたと判定し、いずれの属性についても外れ値と判定されなかった場合には、全属性が影響を受けたと判定する。
ここで、「外れ値検出日時に関連する集計日時」とは、属性毎の比率(属性別時系列データの集計値/全属性時系列データの集計値)がほぼ同一となることが予測される集計日時のことを意味する。例えば、日種別(平日・祝休日)及び集計時間帯が同一であれば、特別な事象が発生しない限り、各属性の比率、即ち所定のエリア内において在圏する移動機ユーザの属性(性別・年代等)毎の人口分布は、ほぼ同一になると予測される。したがって、上記考え方に従えば、外れ値検出日時が「平日15時」である場合には、外れ値検出日時と異なる平日の15時を「外れ値検出日時に関連する集計日時」として抽出できる。また、曜日毎に人口分布の傾向が異なる場合には、外れ値検出日時(火曜日の15時)に関連する集計日時として、外れ値検出日時とは異なる火曜日の15時を抽出してもよい。
また、「所定の外れ値検定」とは、複数のサンプル値のうちから、特定のサンプル値が外れ値であるか否かを判定できる従来の検定手法から任意に選択した検定手法を意味する。判定部13Dは、所定の外れ値検定として、例えば上述した検出部12による外れ値検出処理と同様の手法を用いてもよい。即ち、判定部13Dは、1つ選択した属性について、外れ値検出日時及び当該外れ値検出日時に関連する複数の集計日時(以下「関連日時」と表記する)の各々についての比率(属性別時系列データの集計値/全属性時系列データの集計値)を算出する。そして、このように算出された比率からヒストグラムを生成し、生成したヒストグラムを正規分布でフィッティングする。そして、外れ値検出日時についての比率が、このようにして得られた正規分布の平均値からnσ(標準偏差σに予め任意で定めた数であるnを掛け合わせた値)以上外れている場合に、外れ値と判定する。
上述のような外れ値検定によって、少なくとも一つの属性について、外れ値検出日時についての比率が外れ値と判定された場合には、外れ値検出日時において、当該属性の全属性に対する比率が通常の状態と比較して大きく変化したことがわかる。これは即ち、一部の属性のみが影響を受けたことにより、属性間の比率が変化したことを示しているといえる。したがって、少なくとも一つの属性について、外れ値検出日時についての比率が外れ値と判定された場合には、判定部13Dは、前記原因事象によって一部の属性のみが影響を受けたと判定する。
一方、上述のような外れ値検定によって、いずれの属性についても、外れ値検出日時についての比率が外れ値と判定されなかった場合には、外れ値検出日時において、各属性の全属性に対する比率が通常の状態と比較して大きく変化していないことがわかる。これは即ち、全属性がほぼ等しく影響を受けたことにより、属性間の比率が変化していないことを示しているといえる。したがって、いずれの属性についても、外れ値検出日時についての比率が外れ値と判定されなかった場合には、判定部13Dは、前記原因事象によって全属性が影響を受けたと判定する。
続いて、図10及び図16を用いて、外れ値原因判定装置10Dの動作を説明する。図16は、判定部13Dによる外れ値原因判定処理を示すフロー図であり、図10におけるステップS3における処理に相当する。なお、図10におけるステップS1,S2の処理については、第1実施形態に係る外れ値原因判定装置10Aと同様であるため詳細な説明を省略する。
まず、入力部11によって、属性別時系列データが入力される(ステップS1、入力ステップ)。続いて、全属性時系列データに基づいて、検出部12によって外れ値の検出処理が実行される(ステップS2、検出ステップ)。具体的には、全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルが生成され(ステップS21)、全属性時系列データの集計値と当該モデルの値との残差が所定の閾値以上となる外れ値を検出する処理が実行される(ステップS22)。ステップS22において、外れ値が検出されなかった場合には、外れ値原因判定装置10Dによる処理は、外れ値は検出されなかったものとして終了する(ステップS22:NO)。一方、ステップS22において、外れ値が検出された場合には、判定部13Dによって、外れ値の原因事象を判定する外れ値原因判定処理が実行される(ステップS3、判定ステップ)。
図16を用いて、判定部13Dによる外れ値原因判定処理(ステップS3)の動作について説明する。まず、属性が1つ選択される(ステップS401)。続いて、選択された属性について、外れ値検出日時及び複数の関連日時の各々についての比率(属性別時系列データの集計値/全属性時系列データの集計値)が算出される(ステップS402)。
続いて、算出された外れ値検出日時及び複数の関連日時の各々についての比率に基づいて、外れ値検出日時についての比率に対して、上述したような所定の外れ値検定が実施される(ステップS403)。
上記外れ値検定によって外れ値検出日時における比率が外れ値と判定された場合(ステップS404:YES)には、外れ値の原因事象によって一部の属性のみが影響を受けたと判定され、当該原因事象は、移動機ユーザの行動に起因するものと判定される(ステップS406)。
一方、上記外れ値検定によって外れ値検出日時における比率が外れ値と判定されなかった場合(ステップS404:NO)には、全属性について処理が完了したか否かが判定される(ステップS405)。ステップS405において全属性について処理が完了していないと判定された場合(ステップS405:NO)には、未処理の属性のうちから属性が1つ選択され、当該属性に対して上述の処理が実行される(ステップS402〜ステップS404)。一方、ステップS405において全属性について処理が完了していると判定された場合(ステップS405:YES)には、外れ値の原因事象によって全属性が影響を受けたと判定され、当該原因事象は、システムに起因するものと判定される(ステップS407)。
以上説明したように、本実施形態に係る外れ値原因判定装置10Dによれば、第1実施形態と同様に、入力部11が入力として取得した属性別時系列データに基づいて、例えばエリア毎に開催されたイベント情報や基地局の故障情報などの外部情報を直接取得及び確認することなく、検出部12及び判定部13Dによって実行される上述の計算処理及び判定処理のみによって、外れ値の原因を精度よく且つ効率よく判定することができる。
また、外れ値検出日時及び複数の関連日時の各々についての比率(属性別時系列データの集計値/全属性時系列データの集計値)に基づいて、外れ値の原因を精度よく且つ効率よく判定することができる。
なお、上記実施形態では、所定の外れ値検定の例として、外れ値検出日時及び複数の関連日時の各々についての比率からヒストグラムを生成し、当該ヒストグラムを正規分布でフィッティングし、当該正規分布において平均値からnσ(標準偏差σに予め任意で定めた数であるnを掛け合わせた値)以上外れている場合に外れ値と判定する方法について説明した。ここで、例えば、一つの集計区分の範囲を狭くした場合、即ち属性の数を多くした場合(例えば「10代男性」という属性をさらに細かく「10〜12歳男性」、「13〜16歳男性」、及び「17〜19歳男性」の3つの属性に分けた場合)には、通常時における各属性の全属性に対する比率の分布のばらつき度合が大きくなることが想定される。したがって、nの値は属性数に応じて適切に設定されることが好ましく、例えば属性数を多くした場合には、nの値を大きくすることが好ましい。
以上、第1〜第4実施形態に係る外れ値原因判定装置10A,10B,10C,10Dについて説明した。いずれの実施形態によっても、全属性時系列データに基づいて検出された外れ値が、移動機からの所定の信号を取得又は集計するシステムに起因するものか、移動機ユーザの行動に起因するものかを判定することができる。これにより、外れ値の原因を正確に把握することができるとともに、人口推計等の推計を行うにあたって考慮すべきでない、システムに起因する外れ値に対応するデータを除外することができる。
なお、第1〜第4実施形態に係る外れ値原因判定装置10(10A,10B,10C,10D)では、性別(男性・女性)と年代(10代・20代・30代)とを一つずつ組み合わせた6つの属性を集計区分として用いたが、上記以外の分類に基づく属性(例えば「16歳〜19歳」、「東京在住の20代女性」等)を集計区分として用いてもよい。
また、集計区分によっては、各属性の集計値が一定数以下(例えば、直近24時間の集計値の平均値又は最大値が100以下等)となってしまうことが考えられる。ここで、各属性の集計値が少なければ、判定部13(13A,13B,13C,13D)による判定が安定しない可能性が高くなり、判定の信頼性が落ちるおそれがある。したがって、判定の信頼性を維持するために、判定部13は、集計値が一定以上となる属性のみを用いて上述の判定処理を実行してもよい。
また、各属性の集計値が一定数以上となるように属性を設定してもよい。例えば、性別と年代との組による属性を集計区分とすると各属性の集計値が一定数以下となってしまう場合には、性別毎に分けない「10代」という属性を集計区分としたり、年代の幅を広げて「20代〜30代の男性」という属性を集計区分としたりすることによって、各属性の集計値を大きくして、判定の信頼性を高めることができる。
また、判定部13による判定処理を、互いに異なる2以上の集計区分で実行し、いずれの集計区分においても全属性が影響を受けたと判定された場合に限って、外れ値検出日時において全属性が影響を受けたと判定してもよい。例えば、判定部13は、属性を「男性」と「女性」とに分けた集計区分、及び、属性を「10代」と「20代」と「30代」とに分けた集計区分の集計データに基づいて、各々判定処理を行ってもよい。このようにすれば、各判定処理における集計区分を大きくすることができ、属性毎の集計値を一定数以上として判定の信頼性を高めることができる。さらに、異なる切り口による集計区分での判定処理を重ねて行うことにより、特定の一部の属性(上記例では、「特定の性別」又は「特定の年代」)のみが影響を受けた場合について、精度よく判定できることが期待できる。
また、これらの実施形態では、移動機からの位置登録信号をセクタ毎及び属性毎に集計して得られた時系列データを入力データ(属性別時系列データ)としたが、本発明に係る外れ値原因判定装置の入力データはこれに限定されず、移動機からの所定の信号に基づいて移動機ユーザの属性毎に集計して得られた時系列データであれば何でもよい。このような時系列データとしては、例えば、位置登録信号に基づいて属性毎に集計された所定エリア毎の推計端末数や、携帯電話会社の普及率(契約率)等を考慮して属性毎に集計された所定エリア毎の推計人数などが挙げられる。また、位置登録信号以外のトラヒック量(例えば発着信数をカウントしたもの)を所定エリア毎及び属性毎に集計したものであってもよい。ここで、「所定エリア」とは、セクタ以外に、市区町村や都道府県等の行政界単位や、地図上の領域を所定大きさで区分けされたメッシュ単位等を含む任意のエリアである。
なお、システムの故障やイベント等による影響はある時間範囲において継続するものと考えて、外れ値原因判定装置は、外れ値が検出された外れ値検出日時を含む一定期間(例えば外れ値検出日時の前後1時間以内の範囲等)についても、当該外れ値検出日時において検出された外れ値と同様の外れ値が検出されたものとみなす処理を行ってもよい。
1…通信システム、10(10A,10B,10C,10D)…外れ値原因判定装置、11…入力部、12…検出部、13(13A,13B,13C,13D)、100…移動機、101…CPU、102…主記憶部、103…補助記憶部、104…通信制御部、105…出力部、106…入力部、107…記録媒体読取部、108…記録媒体、200…BTS、300…RNC、400…交換機、500…管理センタ、501…社会センサユニット、502…ペタマイニングユニット、503…モバイルデモグラフィユニット、504…可視化ソリューションユニット、601…位置登録信号記憶部、602…属性情報記憶部、603…属性別時系列データ記憶部。

Claims (7)

  1. 移動機からの所定の信号を移動機ユーザの属性毎に集計して得られた属性別時系列データを入力する入力手段と、
    前記属性別時系列データの集計値を集計日時毎に全属性で総計して得られる全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルを生成し、前記全属性時系列データの集計値と前記モデルの値との残差が所定の閾値以上となる外れ値を検出する検出手段と、
    前記検出手段によって外れ値が検出された集計日時を示す外れ値検出日時において、当該外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、前記属性別時系列データに基づいて判定し、全属性が影響を受けたと判定した場合には、前記原因事象は前記移動機からの所定の信号を取得又は集計するシステムに起因するものであると判定し、一部の属性のみが影響を受けたと判定した場合には、前記原因事象は前記移動機ユーザの行動に起因するものであると判定する判定手段と、
    を備える、外れ値原因判定装置。
  2. 前記判定手段は、
    前記属性毎の前記属性別時系列データに基づいて、前記属性別時系列データに対応する予測値の時系列データを示す属性別モデルを前記属性毎に生成し、
    前記外れ値検出日時において、前記原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、前記属性毎の前記属性別時系列データ及び前記属性別モデルに基づいて判定する、
    請求項1記載の外れ値原因判定装置。
  3. 前記判定手段は、
    前記外れ値検出日時において前記属性別時系列データの集計値と前記属性別モデルの値との残差が所定の閾値以上となる外れ値が検出される属性の数を算出し、
    全属性数に対する前記属性の数の割合が所定値以上の場合には、前記原因事象によって全属性が影響を受けたと判定し、前記割合が所定値未満の場合には、一部の属性のみが影響を受けたと判定する、
    請求項2記載の外れ値原因判定装置。
  4. 前記判定手段は、
    前記外れ値検出日時における前記属性別時系列データの集計値と前記属性別モデルの値との前記属性毎のペアに基づいて相関係数を算出し、
    前記相関係数が所定値以上の場合には、前記原因事象によって全属性が影響を受けたと判定し、前記相関係数が所定値未満の場合には、一部の属性のみが影響を受けたと判定する、
    請求項2記載の外れ値原因判定装置。
  5. 前記判定手段は、
    前記属性毎に、前記外れ値検出日時における前記属性別モデルの値に対する、前記外れ値検出日時における前記属性別時系列データの集計値と前記属性別モデルの値との残差の割合を算出し、全属性についての前記割合の標準偏差を算出し、
    前記標準偏差が所定値未満である場合には、前記原因事象によって全属性が影響を受けたと判定し、前記標準偏差が所定値以上の場合には、一部の属性のみが影響を受けたと判定する、
    請求項2記載の外れ値原因判定装置。
  6. 前記判定手段は、
    前記属性毎に、前記全属性時系列データの集計値に対する前記属性別時系列データの集計値の比率を、前記外れ値検出日時及び当該外れ値検出日時に関連する複数の集計日時について算出し、
    前記属性毎に、前記外れ値検出日時に関連する集計日時についての前記比率に基づいて、前記外れ値検出日時についての前記比率に対して所定の外れ値検定を行い、
    前記外れ値検定によって少なくとも一つの前記属性について外れ値と判定された場合には、前記原因事象によって一部の属性のみが影響を受けたと判定し、いずれの前記属性についても外れ値と判定されなかった場合には、全属性が影響を受けたと判定する、
    請求項1記載の外れ値原因判定装置。
  7. 外れ値原因判定装置により実行される外れ値原因判定方法であって、
    移動機からの所定の信号を移動機ユーザの属性毎に集計して得られた属性別時系列データを入力する入力ステップと、
    前記属性別時系列データの集計値を集計日時毎に全属性で総計して得られる全属性時系列データに基づいて、当該全属性時系列データに対応する予測値の時系列データを示すモデルを生成し、前記全属性時系列データと前記モデルとの残差が所定の閾値以上となる外れ値を検出する検出ステップと、
    前記検出ステップにおいて外れ値が検出された集計日時を示す外れ値検出日時において、当該外れ値の原因事象によって全属性が影響を受けたか又は一部の属性のみが影響を受けたかを、前記属性別時系列データに基づいて判定し、全属性が影響を受けたと判定した場合には、前記原因事象は前記移動機からの所定の信号を取得又は集計するシステムに起因するものであると判定し、一部の属性のみが影響を受けたと判定した場合には、前記原因事象は前記移動機ユーザの行動に起因するものであると判定する判定ステップと、
    を含む、外れ値原因判定方法。
JP2013076016A 2013-04-01 2013-04-01 外れ値原因判定装置及び外れ値原因判定方法 Active JP6147060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013076016A JP6147060B2 (ja) 2013-04-01 2013-04-01 外れ値原因判定装置及び外れ値原因判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013076016A JP6147060B2 (ja) 2013-04-01 2013-04-01 外れ値原因判定装置及び外れ値原因判定方法

Publications (2)

Publication Number Publication Date
JP2014204155A JP2014204155A (ja) 2014-10-27
JP6147060B2 true JP6147060B2 (ja) 2017-06-14

Family

ID=52354270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013076016A Active JP6147060B2 (ja) 2013-04-01 2013-04-01 外れ値原因判定装置及び外れ値原因判定方法

Country Status (1)

Country Link
JP (1) JP6147060B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952178B (zh) * 2017-02-21 2020-04-24 国家电网公司 一种基于量测平衡的遥测不良数据辨识与原因分辨方法
JP7026653B2 (ja) * 2019-02-28 2022-02-28 Kddi株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP7142058B2 (ja) * 2020-07-28 2022-09-26 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN115809435B (zh) * 2023-02-06 2023-05-12 山东星科智能科技股份有限公司 基于模拟器的汽车运行故障识别方法
WO2024190038A1 (ja) * 2023-03-10 2024-09-19 株式会社Nttドコモ データ処理システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176454A (ja) * 2007-01-17 2008-07-31 Fuji Xerox Co Ltd 情報管理装置、画像処理装置及びプログラム
JP4857226B2 (ja) * 2007-09-11 2012-01-18 株式会社日立製作所 無線基地局の障害監視装置および障害監視方法
JP2012134924A (ja) * 2010-12-24 2012-07-12 Hitachi Ltd 異常判定システム、及び異常判定方法

Also Published As

Publication number Publication date
JP2014204155A (ja) 2014-10-27

Similar Documents

Publication Publication Date Title
JP6595072B2 (ja) インプレッションデータの帰属先の誤判定及び/又はデータベース保有者による未カバーを補償する方法及び装置
RU2530349C1 (ru) Устройство для оценивания количества терминалов и способ оценивания количества терминалов
EP3654585B1 (en) Network event prediction method and apparatus and method and apparatus for establishing network-event prediction model
JP6147060B2 (ja) 外れ値原因判定装置及び外れ値原因判定方法
US20180246940A1 (en) User social-relationship identification apparatus, method, and terminal device
EP3032780A1 (en) Method and apparatus for transmitting messages to users using trajectory-based clustering
US20130176433A1 (en) Unique-terminal-count estimation device and unique-terminal-count estimation method
KR20210006505A (ko) 소셜 미디어를 이용하는 사용자의 통계를 추정하는 방법 및 장치
WO2018059122A1 (zh) 服务推荐方法、终端、服务器和存储介质
CN105917377B (zh) 测量跨装置受众的方法和设备
JP5497899B2 (ja) 情報分析装置および情報分析方法
US10242101B2 (en) Automatic identification of sources of web metric changes
JP2013153286A (ja) 情報処理装置およびクラスタ生成方法
CN108900339B (zh) 一种度量业务质量的方法、装置及电子设备
CN109614299B (zh) 一种系统异常检测方法、装置及电子设备
CN116756522A (zh) 概率预报方法、装置、存储介质及电子设备
JP5543619B2 (ja) 端末数推計装置および端末数推計方法
JP2012059254A (ja) 人口算出装置および人口算出方法
WO2013081134A1 (ja) 推計装置及び推計方法
CN113743985A (zh) 销量预测方法、装置、存储介质及电子设备
JP2012083907A (ja) 人口算出装置および人口算出方法
CN115696428A (zh) 一种用户分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170516

R150 Certificate of patent or registration of utility model

Ref document number: 6147060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250