JP2012027880A - 情報分析方法、計算機システム及び情報分析プログラム - Google Patents

情報分析方法、計算機システム及び情報分析プログラム Download PDF

Info

Publication number
JP2012027880A
JP2012027880A JP2010169009A JP2010169009A JP2012027880A JP 2012027880 A JP2012027880 A JP 2012027880A JP 2010169009 A JP2010169009 A JP 2010169009A JP 2010169009 A JP2010169009 A JP 2010169009A JP 2012027880 A JP2012027880 A JP 2012027880A
Authority
JP
Japan
Prior art keywords
time
series data
feature
derived
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010169009A
Other languages
English (en)
Inventor
Junichiro Watanabe
純一郎 渡邊
Rieko Otsuka
理恵子 大塚
Hiroko Suketa
浩子 助田
Kazuo Yano
和男 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010169009A priority Critical patent/JP2012027880A/ja
Publication of JP2012027880A publication Critical patent/JP2012027880A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】解析対象のデータから、対象分野の専門知識や経験に依存しない、大量の特徴量を算出することができる情報分析方法等を提供する。
【解決手段】入力された時系列データを解析することによって、所定の目的変数に対する影響度の高い特徴量を特定する情報分析方法であって、入力された時系列データをメモリに格納する第1手順と、メモリに格納された時系列データの波形の特徴を示す複数の特徴量を導出する第2手順と、メモリに格納された時系列データの構造の特徴を示す複数の特徴量を導出する第3手順と、導出された複数の特徴量と、所定の目的変数との相関を分析することにより、所定の目的変数に対する影響度の高い特徴量を特定する第4手順と、を含む。
【選択図】図4

Description

本発明は、情報分析方法に関し、特に、与えられた目的変数に対する影響度の高い影響因子を特定する技術に関する。
近年、名札型や腕時計型のセンサノードのようなウェアラブルなセンサ(センシングデバイス)の小型、軽量化が進み、使用者はこれらのセンサを大きな負荷なく常時装着することが可能になっている。この結果、研究者は「組織における人々のコミュニケーションや行動の様子」や「歩行、睡眠などの生活リズム」を反映する大量、多種かつ長期間の時系列データを取得することが可能になった。また研究者は、これらの大量、多種かつ長期間の時系列データを解析することにより、これまで解明できなかった人間の行動に関する新しい知見を得ることができる。この新しい知見は、新しいサービスや経営に応用可能である。
一方、交通インフラにおいて電子乗車券の利用により蓄積される乗降ログデータや、日常生活において携帯電話のGPSナビゲーションアプリの利用により蓄積される位置情報等の自然に蓄積されるログデータの量も膨大になっている。これらの膨大なデータも時系列データであり、データセンタのような大容量サーバに時々刻々と蓄積されている。サービス事業者は、これらの大量のログデータを解析することにより、駅構内の店舗配置やナビゲーションアプリのサービスの質の改善等、サービスや経営に関する貴重な知見を得ることができる。
このような膨大なデータを効率的に解析するために、データ解析プログラムを効率的に動作させ迅速に解析結果を導出するための計算機環境に関する研究が進んでいる。例えば、画像処理用のプロセッサユニットであるGPU(Graphics Processing Unit)を用いて高速に分析アルゴリズムを駆動させる方法や、高価でない並みの処理能力を持つ安価なコンピュータを多数連結し、計算処理を分散させることにより、高速に演算結果を返す仕組み等である。また、このようなデータを解析する技術として特許文献1に開示された技術が知られている。
特開2006−318263号公報
上述したように、ウェアラブルなセンサによって計測される時系列データや、日常生活において自然に蓄積されるログデータを解析することにより、人間の行動メカニズムに関する知見を取得し、取得された知見をビジネスに反映させることができる。
このような知見を取得するために、人間科学、サービス科学、経済学及び心理学等の分野では、機械学習、パターン認識、データマイニング等の統計的な解析手法を用いて、解析対象のデータを帰納的に解析する方法が採用されている。すなわち、統計的な解析手法によって解析対象のデータを説明するモデルを構築し、構築されたモデルに基づいて人間の行動を予測する方法である。モデルを構築する際には、解析対象のデータを特徴づける量を数次元、数十次元又はそれ以上の次元の特徴量として生成し、生成された特徴量に基づいてモデルを構築する。
しかしながら、モデルを構築する際にどのような特徴量を用いるかは、対象分野の専門家の知見や、対象分野に関する経験的な知見に基づき決定されることが多い。例えば経済学者が市場動向を予測するためにある指標を選択する場合、この経済学者は、他の人々がその指標を用いることで経済状況をおおよそ予測できるという前提に立っている。そのため、この前提では、専門家の知識以外に、データに潜在している可能性のある重要な因子や指標を見落としてしまう問題がある。
この問題は、解析対象のデータが上述のような大量、多種かつ長時間の時系列データである場合に、特に懸念される。このような解析対象のデータは、それまでの経験や知識には含まれないデータ及びデータに含まれる潜在的な特徴量を有している可能性が高いためである。
本発明は、上述した課題を考慮したものであって、解析対象のデータから、対象分野の専門知識や経験に依存しない、大量の特徴量を算出することができる情報分析方法、計算機システム及び情報分析プログラムを提供することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備えた計算機システムにおいて、入力された時系列データを解析することによって、所定の目的変数に対する影響度の高い特徴量を特定する情報分析方法であって、前記プロセッサが、入力された時系列データを、前記メモリに格納する第1手順と、前記プロセッサが、前記メモリに格納された時系列データに基づいて、当該時系列データの波形の特徴を示す複数の特徴量を導出する第2手順と、前記プロセッサが、前記メモリに格納された時系列データに、当該時系列データの構造に応じて予め定義された構造に関するルールを適用することによって、当該時系列データの構造の特徴を示す複数の特徴量を導出する第3手順と、前記プロセッサが、前記第2手順及び前記第3手順で導出された複数の特徴量と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い特徴量を特定する第4手順と、を含むことを特徴とする。
本発明によれば、解析対象のデータから、対象分野の専門知識や経験に依存しない、大量の特徴量を算出することができる。また、このようにして算出された大量の特徴量を用いることによって、説明したい目的変数に対する影響度の高い特徴量を適切に特定することが可能になる。
従来の一般的な影響因子特定方法の概要を示す図である。 本発明の実施の形態の影響因子特定方法の概要を示す図である。 本発明の実施の形態の時間に関するルールを用いて特徴量を導出する処理の概要を説明する図である。 本発明の実施の形態の構造に関するルールを用いて特徴量を導出する処理の概要を説明する図である。 本発明の実施の形態の構造に関するルールの一例を示す図である。 本発明の実施の形態の第1の例の計算機システムの構成を示す図である。 本発明の実施の形態の第1の例の解析対象の時系列データの一例を示す図である。 本発明の実施の形態の第1の例の構造に関するルールの一例を示す図である。 本発明の実施の形態の第1の例の時間に関するルールの一例を示す図である。 本発明の実施の形態の第1の例において導出される特徴量を説明する図である。 本発明の実施の形態の第1の例の分析結果を説明する図である。 本発明の実施の形態の第1の例の制御ロジックを示すフローチャートである。 本発明の実施の形態の第2の例の計算機システムの構成を示す図である。 本発明の実施の形態の第2の例の解析対象の時系列データの一例を示す図である。 本発明の実施の形態の第2の例の時間に関するルールの一例を示す図である。 本発明の実施の形態の第2の例の構造に関するルールの一例を示す図である。 本発明の実施の形態の第2の例において導出される特徴量を説明する図である。 本発明の実施の形態の第2の例の分析結果を説明する図である。 本発明の実施の形態の第2の例の制御ロジックを示すフローチャートである。
以下、本発明の実施の形態について、図面を参照して説明する。
図1Aは、従来の一般的な影響因子特定方法(情報分析方法)の概要を示す図である。図1Bは、本発明の実施の形態の影響因子特定方法(情報分析方法)の概要を示す図である。
図1Aを用いて、一般的な影響因子特定方法、すなわち一つの目的変数101(y)を説明する複数の説明変数(x1、x2、…、xn)103から、重要な説明変数103を特定する方法について説明する。
目的変数101は、説明したい変数(注目している変数)である。説明変数103は、目的変数101を説明するために用いられる変数である。目的変数101が例えば「組織の生産性」である場合、複数の説明変数103から、「組織の生産性」を向上させるために有効な説明変数103を特定する。
説明変数103は、対象分野の専門知識や経験等によって導出される指標であり、一般的に少数の変数である。一般的な影響因子特定方法では、これらの説明変数103と目的変数101との相関係数104を計算することにより、目的変数101に対する重要な説明変数103を求める。しかしながら、この方法では、説明変数103が専門知識等の偏りを含む可能性があること及び説明変数103が少数であること等の理由で、解析対象の目的変数101の特徴を正しく捉えていない可能性がある。
次に、図1Bを用いて、本発明の実施の形態の影響因子特定方法、すなわち一つの目的変数102(y)を説明する複数の説明変数(v1、v2、…、vn)105から、重要な説明変数105を特定する方法について説明する。
目的変数102は、説明したい変数(注目している変数)である。説明変数105は、目的変数102を説明するために用いられる変数である。潜在因子106は、複数の説明変数105に対して共通的な要素を持つ潜在的な因子である。
説明変数105は、前述の説明変数103に相当する指標(対象分野の専門知識や経験等によって導出される指標)に加え、解析対象の時系列データから、後述するルールに基づいて導出される指標を含む。すなわち、説明変数105は、前述の説明変数103には含まれない、予想もされなかった特徴を反映した特徴量(説明変数)を含む。
潜在因子106は、複数の説明変数105に対する共通的な要素を持つ潜在的な因子(特徴量)である。このような潜在因子106は、例えば因子分析と呼ばれる統計分析の手法等によって導出される。因子分析は、大量の特徴量からいくつかの代表的な因子を特定する手法である。この手法により、例えば1000個の説明変数105から、数個程度の潜在因子106を導出することができる。潜在因子106は、解析対象の時系列データの特徴を反映する要素であり、また対象分野の専門知識以外のルールに基づいて抽出される特徴を含む。
その後、導出された潜在因子106と、目的変数102との相関を分析することにより、相関係数107を算出する。その後、算出された相関係数107を用いて、目的変数102に対する影響度の高い潜在因子106(以降、このような潜在因子を「影響因子」という。)を特定する。
本発明の実施の形態では、まず解析対象の時系列データから、説明変数105を自動的に導出する。ここでいう説明変数105は、前述のように、図1Aの説明変数103に相当する特徴量に加え、解析対象の時系列データから、後述するルールに基づいて導出される指標を含む。次に導出された説明変数105から、因子分析等の手法によって潜在因子106を導出する。その後、導出された潜在因子106と、目的変数102との相関を分析することにより、影響因子106を特定する。
なお、本発明の実施の形態では、波形の時系列データから特徴量を導出する場合、時間に関するルールと構造に関するルールとを定義し、定義されたルールに基づいて、時系列データから特徴量を導出する。
時間に関するルールとは、例えばある時刻t1、t2におけるデータの差、すなわち時刻t1における観測値データv1と、時刻t2における観測値データv2との差Δv=v
2−v1を特徴量としたり、別の時刻t3、t4におけるデータの差Δv’=v4−v3
と、Δvとの差ΔΔv=Δv−Δv’を特徴量としたりする、というルールである。すな
わち、解析対象の時系列データの一階差分、二階差分を算出する、というルールである。なお、解析対象の時系列データの一階微分、二階微分を算出する、というルールであってもよい。このような時間に関するルールは、いかなる種類の時系列データに対しても適用可能である。
一方、構造に関するルールとは、例えばウェアラブルなセンサによって測定されるデータに基づいて、組織の結束度という特徴量を導出する、というルールである。組織の結束度という特徴量は、測定されるデータのうちの対面情報(対面人数や対面時間等の行動データ)に基づいて定義することができる。一旦、このような構造に関するルールを定義すれば、ウェアラブルなセンサによって測定されるデータに基づいて組織の結束度等の特徴量を自動的に計算することができる。
なお、時系列データに対して構造に関するルールを適用する場合、導出される特徴量も時系列データである。そのため、構造に基づくルールを適用することによって導出される特徴量に対して、さらに時間に関するルールを適用することによって、新たな特徴量を生成することができる。
本発明の実施の形態では、あらゆる種類の時系列データに適用可能な時間に関するルール及び構造に基づくルールを予め定義し、定義されたこれらのルールに基づいて特徴量を導出する。これにより、対象分野の専門知識や経験等を用いずに、大量の特徴量を自動的に算出することができる。
図2は、本発明の実施の形態の時間に関するルールを用いて特徴量を導出する処理の概要を説明する図である。図2を用いて、時系列データ201から時間に関するルールを用いて特徴量を導出する処理の例を説明する。
図2に示す解析対象の時系列データ201は、ウェアラブルなセンサによって取得される日時や加速度の周波数や音声等を含む時系列データ、交通システムにおいて電子乗車券等の利用により蓄積される日時や乗降駅を含む時系列データ、又は、携帯電話のGPSナビゲーションアプリ(位置情報サービス)の利用により蓄積される時間、緯度、経度等を含む時系列データである。時系列データ201は、図2に示すように、一方が時間軸の波形データである。この時系列データ201に対して、時間に関するルール207を適用することによって、特徴量(v1、v2、…、vn)208を導出する。
図2に示す例では、特徴量v1は、ある時刻t1と時刻t2のそれぞれにおけるデータ値の差v1(204)である。すなわち、第一の時間間隔Δt202におけるデータ値の
差分であり、波形データの時間に関する一階差分である。同様に、特徴量v2は、別のある時刻t3と時刻t4のそれぞれにおけるデータ値の差v2(205)である。すなわち、前述の第一の時間間隔Δt202と異なる第二の時間間隔Δt’203におけるデータ
値の差分であり、波形データの時間に関する一階差分である。このように、時間間隔を変更することによって、異なる特徴量v1、v2を導出することができる。第一の時間間隔Δt202、第二の時間間隔Δt’203は、それぞれ例えば1秒、1時間等であってよ
い。一方、特徴量v3は、時刻t5における時系列データ201の傾き、すなわち波形データの時間に関する一階微分d/dt(206)である。
なお、特徴量は、時間軸方向の一階差分、一階微分に基づいて算出される以外に、時間軸方向の二階差分(時間方向の差の差)、二階微分(傾きの変化の割合)に基づいて算出されてもよい。例えば、時刻t4が現在日、時刻t3が一日前、時刻t2が二日前、時刻t1が三日前である場合、時間軸方向の二階差分で示される特徴量は、現在日と一日前の間のデータ値の増減量d1と、二日前と三日前の間のデータ値の増減量d2との差d1−d2(データ値の増減量の差)である。
また、特徴量は、時間に関する別のルール、すなわち、ある時間間隔(第一の時間間隔Δt202、第二の時間間隔Δt'203等)における観測値データの合計、平均、分散
等を集計した基本統計量を特徴量とするというルールに基づいて算出してもよい。例えば、この別のルールを一日毎に取得される観測値データに適用することによって、観測値データの一日毎の平均、分散、合計の3つの特徴量を算出することができる。すなわち、ある観測値データ、例えば対面人数に基づいて、対面人数の平均、対面人数の分散、対面人数の合計の3つの特徴量を算出することができる。なお、時間間隔を一日毎ではなく例えば3時間毎にすることによって、1つの観測値データから24個の特徴量を算出することができる。また、時間に関するルール207は、上記したルールに限らず、例えば時系列データに対して短時間フーリエ変換を施すというルールでもよい。
このように特徴量208が導出された後、導出された特徴量208(210)に対する因子分析等の手法によって、潜在因子211が導出される。例えば、1000個の特徴量210に基づいて、数個程度(例えば3個)の潜在因子211が導出される。その後、導出された潜在因子211と、目的変数209との相関を分析し、相関係数212を算出する。これにより、目的変数209に対する影響因子211を特定する。
図3Aは、本発明の実施の形態の構造に関するルールを用いて特徴量を導出する処理の概要を説明する図である。図3Aでは、組織における人のつながりを、ネットワーク構造で示している。図3Aに示すネットワーク構造は、組織における人を示すノード301と、人と人との対面関係や音声対話関係を示すリンク302から構成される。
組織を構成する人々は、ウェアラブルなセンサ(ここでは名札型センサノード)を常時装着している。図3Aに示すネットワーク構造は、この名札型センサノードによって測定されるデータ(加速度データ、対面情報、音声情報等)に基づいて生成される。
なお、この名札型センサノードは、加速度センサを内蔵しており、内蔵された加速度センサによって取得された周波数データに基づいて、当該名札型センサノードの装着者の状態(安静中、活動中、歩行中、デスクワーク中、又は運動中、等)を判別することができる。また、この名札型センサノードは、赤外線通信機能を備えており、この赤外線通信機能により、対面した人のユーザIDや対面時間を記録することができる。さらに、この名札型センサノードは、指向性を有する内蔵マイクを備えており、この内蔵マイクにより、装着者の発する音声情報を録音することができる。ただし、プライバシーの観点から、音声内容ではなく、音声のエネルギー値(パワー)等の音声内容が不明な特徴量を録音してもよい。
図3Aに示すネットワーク構造において、リンク302の太さが太いほど、ノード301間のつながりが強いことを示す。図3Aに示すネットワーク構造が組織の構造である場合、ノード301は組織を構成する人の名前であり、リンク302の太さは対面時間である。リンク302には、対面時間を示す数値が併記されてもよい。なお、図3Aから、最も多い人数(5人)とつながりのあるAさんが組織のリーダーである等の構造の特徴を読み取ることができる。
図3Bは、本発明の実施の形態の構造に関するルールの一例を示す図である。図3Bでは、構造に関するルールの一例を表303で示している。図3Bに示す表303の各カラムは、ルール内容304と、ルール内容304に示すルールに基づいて算出される特徴量の名前305と、ルール内容304に示すルールに基づいて算出される特徴量の値306とを含む。
図3Aに示すネットワーク構造は、時々刻々と変化する。例えば、組織全体のリンク数やリンクの太さは、仕事の状態や組織を構成する人々の状態等に応じて時々刻々と変化する。
図3Bの表303に示すように、「リンクの数を数える」というルールに基づいて算出される特徴量「結束度」は、図3Aの時点では7である。「ひとつのノードに連結するリンクの最大数を数える」というルールに基づいて算出される特徴量「リーダーシップ度」は、図3Aの時点では4である。これは、4本のリンクが張られているAさんが、Dさん(3本)、CさんとEさん(2本)、BさんとFさん(1本)に比べて、多くのノードに連結しているためである。そのため、最も多いリンクが張られたノードのリンクの数をリーダーシップ度として定義すれば、リンクの最大数を数えるというルールに基づいて、特徴量「リーダーシップ度」を算出することができる。
また、「リーダー(ここではAさん)からの最長ステップ数(何本のリンクを辿れば末端ノードに到達できるか)を数える」というルールに基づいて算出される特徴量「チームワーク度」は、図3Aの時点では2である。また、「リンクの平均の太さを計算する」というルールに基づいて算出される特徴量「コミュニケーション度」は、図3Aの時点では1.53である。
なお、図3Bの表303では、4例の構造に関するルールを示しているが、他のルールであってもよい。また図3Aでは、解析対象の構造がネットワーク構造である場合を例に説明したが、この場合に限らない。例えば、管理の観点から見た階層型のツリー構造、空間を所定の区間で区切ったメッシュ構造であってもよい。
なお、構造に関するルールを用いて導出される特徴量は、時系列データである。そのため、導出された特徴量に対して、前述の時間に関するルールを適用することによって、新たな特徴量を導出してもよい。
本発明の実施の形態の影響因子特定方法では、解析対象が特定の構造(ネットワーク構造、ツリー構造、メッシュ構造等)を持つ時系列データである場合に、時間に関するルールと、構造に関するルールを用いることによって、対象分野の専門知識や経験を必要としない特徴量を導出する。その後、導出された特徴量に基づいて潜在因子を導出し、導出された潜在因子と目的変数との相関を分析する。その後、目的変数に対する影響因子を特定する。以下、2つの具体例を用いて説明する。
(第1の例:ビジネス顕微鏡)
第1の例では、名札型センサノード等のウェアラブルなセンサによって取得された時系列の情報(歩数、対面人数、組織のネットワーク構造から導出される結束度、リーダーシップ度等の組織行動を表す指標等)を用いて、組織における人の行動を分析する場合を例に説明する。
図4は、本発明の実施の形態の第1の例の計算機システム1の構成を示す図である。計算機システム1は、それぞれバスで相互に接続された表示装置905、入力装置906、通信装置907、CPU908、ハードディスク909、メモリ910を備える。
表示装置905は、ユーザインターフェースを提供する出力装置(例えばディスプレイ)である。入力装置906は、ユーザインターフェースを提供する入力装置(例えばキーボード、マウス)である。この入力装置906は、DVD等の記録媒体に記録されたメディアデータ901を入力する。
通信装置907は、外部ネットワーク等に接続するためのインターフェース装置である。この通信装置907は、インターネット網915を介してデータ管理サーバ902に蓄積されたデータを入力する。なお、データ管理サーバ902には、名札型センサノード904によって取得される日時、加速度の周波数、音声、対面人数や対面時間等の時系列の情報が基地局903を介して送信され、蓄積される。
CPU908は、メモリ910に格納されたプログラムを実行する演算処理装置である。ハードディスク909は、分析プログラム911やファイル、データ等を記憶する記憶装置である。メモリ910は、計算機システム1の起動時にハードディスク909に記憶された分析プログラム911等のプログラムを読み出して記憶するRAM等の記憶装置である。このメモリ910は、分析プログラム911等の実行に必要なファイル、データ等も記憶する。
分析プログラム911は、時間に関するルールや構造に関するルールに基づいて特徴量を算出する特徴量導出処理部912、特徴量導出処理部912によって算出された特徴量に基づいて潜在因子を導出する潜在因子導出処理部913、潜在因子導出処理部913によって導出された潜在因子と目的変数との相関を分析する相関分析処理部914を含む。
以上に示す構成により、計算機システム1において、解析対象の時系列データは、インターネット網915を介してデータ管理サーバ902から通信装置907に入力される、又は、DVD等の記録媒体に記録されたメディアデータ901として入力装置906に入力される。
その後、入力装置906又は通信装置907に入力された解析対象の時系列データは、一旦、ハードディスク909に格納される。ハードディスク909に格納された時系列データは、当該時系列データの分析を行う際に、メモリ910に読み出される。その後、CPU908が分析プログラム911を実行することによって、メモリ910に格納された解析対象の時系列データを分析する。
CPU908が分析プログラム911を実行する場合、まず、特徴量導出処理部912が、時間に関するルールや構造に関するルールに基づいて、時系列データから特徴量を算出する。次に、潜在因子導出処理部913が、特徴量導出処理部912によって算出された特徴量に対して、例えば因子分析と呼ばれる統計的な手法等を用いることによって、共通する要素を持つ潜在的な因子を導出する。
その後、相関分析処理部914が、潜在因子導出処理部913によって導出された潜在因子と、与えられた目的変数との相関を計算することによって、目的変数に対する影響度の最も高い影響因子を特定する。
なお、分析プログラム911は、相関分析処理部914の処理によって得られる目的変数に対する影響因子と、相関係数などの目的変数と影響因子との関係を、表示装置905に表示させることができる。
図5Aは、本発明の実施の形態の第1の例の解析対象の時系列データの一例を示す図である。解析対象の時系列データは、歩数データ1001、対面人数データ1002、音声データ1003、状態データ1004を含む。
第1の例の計算機システム1は、これらの解析対象の時系列データに基づいて、組織における人の行動を分析する。
歩数データ1001は、名札型センサノードに内蔵された加速度センサによって取得される加速度データに基づいて算出される、歩数を示すデータである。
対面人数データ1002は、名札型センサノードが備える赤外線通信機能(赤外線センサ)によって計測される、組織内の他人との対面人数を示すデータである。
音声データ1003は、名札型センサノードが備える内蔵マイクによって録音される、装着者の発する音声情報である。この音声データ1003は、プライバシーの観点から、音声内容ではなく、音声のエネルギー値(パワー)であってもよい。
状態データ1004は、名札型センサノードに内蔵された加速度センサによって取得される加速度データに基づいて算出される、当該名札型センサノードの装着者の状態(1:睡眠中、2:静止中、3:歩行中、4:運動中、5:作業中、6:デスクワーク中)を示す情報である。
なお、歩数データ1001、対面人数データ1002、音声データ1003、状態データ1004は、名札型センサノードによって計測されたデータを加工することによって算出可能なデータ(指標)である。また、解析対象の時系列データは、図5Aに示すデータ以外のデータであってもよい。
(第1の例の構造に関するルール)
図5Bは、本発明の実施の形態の第1の例の構造に関するルールの一例を示す図である。図5Bでは、構造に関するルールの一例を表形式で示している。図5Bに示す表の各カラム1005、1006は、ルール内容と、ルール内容に示すルールに基づいて算出される1サンプル当たりの特徴量の個数とを含む。
なお、図5Bにおけるリンクとは、図3Aに示すネットワーク構造におけるリンク302を示す。また、ここでいう1サンプルとは、1日を単位として作成されるデータを意味するが、1時間又は1カ月等の期間を単位として作成されるデータであってもよい。
カラム1005は、「リンクの数を数える」というルールに基づいて、各サンプル(この例では1日毎)における「リンクの数」を、1個の特徴量として算出できることを示す。なお、このような特徴量は、いわゆる「(組織の)結束度」を示す特徴量であると言い換えることができる。
カラム1006は、「ひとつのノードに連結するリンクの最大数を数える」というルールに基づいて、各サンプル(この例では1日毎)における「リンクの最大数」を、1個の特徴量として算出できることを示す。なお、このような特徴量は、いわゆる「リーダーシップ度」を示す特徴量であると言い換えることができる。
以上のように、計算機システム1は、図5Bに示す構造に関するルールを用いることによって、合計2個の特徴量を導出することができる。なお、定義される時間に関するルールは、図5Bに示すルール以外の他のルールであってもよい。
(第1の例の時間に関するルール)
図5Cは、本発明の実施の形態の第1の例の時間に関するルールの一例を示す図である。図5Cでは、時間に関するルールの一例を表形式で示している。図5Cに示す表の各カラム1007〜1011は、ルール内容と、ルール内容に示すルールに基づいて算出される1サンプル当たりの特徴量の個数とを含む。
ここでいう1サンプルとは、1日を単位として作成されるデータを意味するが、1時間又は1カ月等の期間を単位として作成されるデータであってもよい。
カラム1007は、「歩数、対面人数、結束度、リーダーシップ度の合計、平均、分散を計算する」というルールに基づいて、各サンプル(この例では1日毎)についての、各々の指標(歩数、対面人数、結束度、リーダーシップ度)の合計、平均、分散を、4×3=12個の特徴量として算出できることを示す。
なお、歩数、対面人数は、解析対象の時系列データである。一方、結束度、リーダーシップ度は、解析対象の時系列データに、構造に関するルールを適用することによって、得られた時系列データである。つまり、計算機システム1は、解析対象の時系列データと、この解析対象の時系列データに構造に関するルールを適用した時系列データとの両方に、時間に関するルールを適用している。これは、より多くの特徴量を算出するためである。
カラム1008は、「状態遷移(図5Aの状態データ1004の遷移)の合計を計算する」というルールに基づいて、各サンプル(この例では1日毎)における6状態の遷移パターンを、6×6=36個の特徴量として算出できることを示す。
カラム1009は、「同じ状態(図5Aの状態データ1004)の連続時間の平均と分散を計算する」というルールに基づいて、各サンプル(この例では1日毎)における6状態の連続時間の平均と分散を、6×2=12個の特徴量として算出できることを示す。
カラム1010は、「カラム1007、1008、1009に示すルールにより算出された60個の特徴量に対して、時間に関する一階差分を計算する」というルールに基づいて、さらに60個の特徴量を算出できることを示す。これは、サンプルが一日毎のデータである場合、一日前と現在日における観測値データの差が特徴量として算出されることを示す。
カラム1011は、「カラム1007、1008、1009に示すルールにより導出された57個の特徴量に対して、時間に関する二階差分を計算する」というルールに基づいて、さらに57個の特徴量を算出できることを示す。これは、サンプルが一日毎のデータである場合、一日前と現在日の間の観測値データの差と、二日前と一日前の間の観測値データの差との差(時間方向の差の差)が、特徴量として算出されることを示す。
例えば、時刻t4が現在日、時刻t3が一日前、時刻t2が二日前、時刻t1が三日前である場合、特徴量は、現在日と一日前の間の観測値データの増減量d1と、二日前と三日前の間の観測値データの増減量d2との差d1−d2(観測値データの増減量の差)である。
以上のように、計算機システム1は、図5Bに示す構造に関するルールを用いることによって、結束度及びリーダーシップ度の指標を導出する。その後、これら結束度、リーダーシップ度と、歩数データ1001、対面人数データ1002、状態データ1004(図5A参照)とに対して、図5Cに示す時間に関するルールを用いることによって、合計180個の特徴量を導出することができる。なお、定義されるルールは、図5B及び図5Cに示すルール以外の他のルールであってもよい。
図6は、本発明の実施の形態の第1の例において導出される特徴量を説明する図である。図6では、各サンプルについて導出される180個の特徴量(図5C参照)を、マトリクス形式で示している。図6に示す表の各カラムは、日付1101と、特徴量1102〜1105とを含む。
日付1101は、各サンプルの日付である。図6に示す例では、330日分(330個)のサンプルを示している。
特徴量1102〜1105は、図5Cに示す180個の特徴量である。
図7は、本発明の実施の形態の第1の具体例の分析結果を説明する図である。図7では、図6に示す180個の特徴量(v1、v2、…、v180)1201、これら180個の特徴量1201に基づいて導出される潜在因子1202、1203、潜在因子1202、1203と目的変数1205とに基づいて算出される相関係数1204、説明したい変数である目的変数1205の関係を示している。
計算機システム1は、180個の特徴量1201に対して、因子分析等の統計手法を適用することによって、180個の特徴量1201の共通的な要素を持つ2つの潜在因子1202、1203を導出する。
ここでの潜在因子1202、1203は、目的変数1205に関する経験的知識に基づかず、前述した時間に関するルールや構造に関するルールを適用することによって導出される潜在因子である。これら潜在因子1202、1203は、例えば「アクティブ度」、「静かな状態と活発な状態のメリハリ度」等である。
計算機システム1は、導出された潜在因子1202、1203と、与えられた目的変数1205との相関を分析することにより、相関係数1204を算出する。その後、算出された相関係数1204を用いて、目的変数1205に対する影響度の高い影響因子(潜在因子1202、1203のいずれか)を特定することができる。
例えば、目的変数1205が「仕事への没頭度y」であって、「没頭度y」に対する影響度の高い影響因子が2番目の潜在変数1203(状態遷移の仕方x)である場合、没頭度yと状態遷移xとの関係式を導出することができる。没頭度yと状態遷移xとの関係式とは、没頭度yを制御するには状態遷移xをどのように制御すればよいかを示す関係式である。
また例えば、目的変数1205が「組織の生産性y’」であって、「組織の生産性y’」に対する影響度の高い影響因子が1番目の潜在因子1202である場合、潜在因子1202が最も影響度が高いことを導出することができる。
図8は、本発明の実施の形態の第1の具体例の制御ロジックを示すフローチャートである。第1の例の計算機システム1は、図8に示す制御ロジックを実行することによって、解析対象の時系列データを分析する。
まず、入力装置906又は通信装置907が、組織における人の行動に関する時系列データ1001〜1004(図5A参照)を入力する(1301)。次に、特徴量導出処理部912は、ステップ1301で入力された時系列データ1001〜1004に、構造に関するルール1005、1006(図5B参照)を適用することによって、特徴量を導出する(1302)。その後、特徴量導出処理部912は、ステップ1301で入力された時系列データ1001〜1004やステップ1302で導出された特徴量に対して、時間に関するルール1007〜1011(図5C参照)を適用することによって、特徴量を導出する(1303)。その後、潜在因子導出処理部913は、ステップ1303で導出された特徴量に対して、因子分析等の統計分析の手法を用いることによって、潜在因子を導出する(1304)。その後、相関分析処理部914は、ステップ1304で導出された潜在因子と、与えられた目的変数との相関を分析することにより、相関係数を算出する(1305)。その後、相関分析処理部914は、ステップ1305で算出された相関係数が最も大きい潜在因子を、目的変数に対する影響度が最も高い影響因子として特定する(1306)。
以上に示す制御ロジックにより、計算機システム1は、解析対象の時系列データに、時間に関するルールや構造に関するルールを適用することによって、従来の方法、すなわち対象分野の専門家の知見や経験的な知見に基づき特徴量を決定する方法では導出できなかった、大量の特徴量を算出することができる。
また、このように算出された大量の特徴量に基づいて導出される潜在因子と、与えられた目的変数との相関を分析することによって、従来の方法では特定できなかった重要な影響因子を特定することができる。
また、計算機システム1が用いる構造に関するルールは、あらゆる時系列データに適用可能なルールとして、解析対象の時系列データの構造(ネットワーク構造、ツリー構造、メッシュ構造等)に応じて予め定義される。これにより、対象分野の専門知識や経験に依存しない、大量の特徴量を自動的に算出することができる。
(第2の例:人流解析)
第2の例では、携帯電話やカーナビの地図ナビゲーションアプリケーションによって取得される時系列の位置情報(緯度、経度、時刻など)を用いて、人流データを解析する場合を例に説明する。
図9は、本発明の実施の形態の第2の例の計算機システム2の構成を示す図である。計算機システム2は、それぞれバスで相互に接続された表示装置404、入力装置405、通信装置406、CPU(Central Processing Unit)407、ハードディスク408、メモリ409を備える。
表示装置404は、ユーザインターフェースを提供する出力装置(例えばディスプレイ)である。入力装置405は、ユーザインターフェースを提供する入力装置(例えばキーボード、マウス)である。この入力装置405は、DVD等の記録媒体に記録されたメディアデータ401を入力する。
通信装置406は、外部ネットワーク等に接続するためのインターフェース装置である。この通信装置406は、インターネット網414を介してデータ管理サーバ402に蓄積されたデータを入力する。なお、データ管理サーバ402には、位置情報取得装置(携帯電話やカーナビ等)403によって取得される時系列の位置情報が送信され、蓄積される。
CPU407は、メモリ409に格納されたプログラムを実行する演算処理装置である。ハードディスク408は、分析プログラム410やファイル、データ等を記憶する記憶装置である。メモリ409は、計算機システム1の起動時にハードディスク408に記憶された分析プログラム410等のプログラムを読み出して記憶するRAM(Random Access Memory)等の記憶装置である。このメモリ409は、分析プログラム410等の実行に必要なファイル、データ等も記憶する。
分析プログラム410は、時間に関するルールや構造に関するルールに基づいて特徴量を算出する特徴量導出処理部411、特徴量導出処理部411によって算出された特徴量に基づいて潜在因子を導出する潜在因子導出処理部412、潜在因子導出処理部412によって導出された潜在因子と目的変数との相関を分析する相関分析処理部413を含む。
以上に示す構成により、計算機システム2において、解析対象の時系列データは、インターネット網414を介してデータ管理サーバ402から通信装置406に入力される、又は、DVD等の記録媒体に記録されたメディアデータ401として入力装置405に入力される。
その後、入力装置405又は通信装置406に入力された解析対象の時系列データは、一旦、ハードディスク408に格納される。ハードディスク408に格納された時系列データは、当該時系列データの分析を行う際に、メモリ409に読み出される。その後、CPU407が分析プログラム410を実行することによって、メモリ409に格納された解析対象の時系列データを分析する。
CPU407が分析プログラム410を実行する場合、まず、特徴量導出処理部411が、時間に関するルールや構造に関するルールに基づいて、時系列データから特徴量を算出する。次に、潜在因子導出処理部412が、特徴量導出処理部411によって算出された特徴量に対して、例えば因子分析と呼ばれる統計分析の手法等を用いることによって、共通する要素を持つ潜在的な因子を導出する。
その後、相関分析処理部413が、潜在因子導出処理部412によって導出された潜在因子と、与えられた目的変数との相関を計算することによって、目的変数に対する影響度の最も高い影響因子を特定する。
なお、分析プログラム410は、相関分析処理部413の処理によって得られる目的変数に対する影響因子と、相関係数などの目的変数と影響因子との関係を、表示装置404に表示させることができる。
図10Aは、本発明の実施の形態の第2の例の解析対象の時系列データの一例を示す図である。解析対象の時系列データは、位置情報データ501、気象データ502、日経平均株価503、ガソリン代504を含む。
第2の例の計算機システム2は、これらの解析対象の時系列データに基づいて、人の移動、特に「ある都市周辺の自動車移動」を分析する。
位置情報データ501は、自動車に搭載されたカーナビ(位置情報取得装置403の一例)の地図ナビゲーションアプリケーションを利用することによって取得される、例えば1カ月分の素データである。この位置情報データ501は、匿名性の確保のために暗号化されたユーザID、日時、緯度、経度のデータを含む。
気象データ502は、位置情報データ501で示される位置と同位置における気象データ(気温、湿度、風向、降水量、日照時間)である。この気象データ502は、自動車の走行に影響を与えると考えられる気象に関するデータである。
日経平均株価503は、位置情報データ501が取得された期間と同期間における日経平均株価のデータである。この日経平均株価503は、自動車を用いた余暇の過ごし方に影響を与えると考えられる経済指標に関するデータである。
ガソリン代504は、位置情報データ501が取得された期間と同期間におけるガソリン代のデータである。このガソリン代504は、日経平均株価503と同様に、自動車の走行に経済的な観点から影響を与えると考えられる経済指標に関するデータである。
なお、気象データ502、日経平均株価503、ガソリン代504は、位置情報データ501と異なる手段によって取得可能なデータである。すなわち、インターネット網414を介して外部の各種データサーバ(不図示)等から取得可能な補助データである。また、解析対象の時系列データは、図10Aに示すデータ以外のデータであってもよい。
第2の例では、計算機システム2は、時間に関するルールと構造に関するルールとに基づいて、位置情報データ501、気象データ502、日経平均株価503、ガソリン代504から、特徴量を生成する。その後、生成された特徴量に基づいて、潜在因子を導出する。その後、導出された潜在因子と、与えられた目的変数(ここでは、「ある都市の周辺の自動車移動」)との相関を計算することによって、目的変数に対する影響度の最も高い影響因子を特定する。
計算機システム2は、位置情報データ501に含まれる日時、緯度、経度のデータを用いることによって、自動車の速度や加速度等の2次的データを算出することができる。計算機システム2は、例えば「東京周辺の自動車移動」に関する潜在因子を特定する場合、位置情報データ501に含まれる緯度、経度のデータを用いて、「東京周辺の自動車移動」に関する位置情報データ501のみを抽出することができる。また、計算機システム1は、算出された速度や加速度等の2次的データに基づいて、例えば平均時速が閾値(15km/h)であるという条件のデータフィルタリングを実行することにより、移動手段が「自動車」らしいユーザを特定し、「東京周辺の自動車移動」に関するデータのみを抽出することができる。
(第2の例の時間に関するルール)
図10Bは、本発明の実施の形態の第2の例の時間に関するルールの一例を示す図である。図10Bでは、時間に関するルールの一例を表形式で示している。図10Bに示す表の各カラム505〜512は、ルール内容と、ルール内容に示すルールに基づいて算出される1サンプル当たりの特徴量の個数とを含む。
ここでいう1サンプルとは、1日を単位として作成されるデータを意味するが、1時間又は1カ月等の期間を単位として作成されるデータであってもよい。
カラム505は、「3時間毎の平均速度を計算」というルールに基づいて、各サンプル(この例では1日毎)についての、例えば0時から3時、3時から6時、6時から9時、・・・、21時から24時までの8区間における平均速度を、8個の特徴量として算出できることを示す。同様に、カラム506〜508は、それぞれ「3時間毎の最大速度を計算」、「3時間毎の平均加速度を計算」、「3時間毎の最大加速度を計算」というルールに基づいて、各サンプル(この例では1日毎)についての、上記の8区間における最大速度、平均加速度、最大加速度を、8個の特徴量として算出できることを示す。
なお、各カラム505〜508には、3時間を単位とするルールが定義されているが、例えば1時間、1日又は1月を単位とするルールが定義されてもよい。
また、各カラム509〜512は、それぞれ「平均気温を計算」、「日照時間を計算」、「日経平均株価を計算」、「ガソリン代を計算」というルールに基づいて、各サンプル(この例では1日毎)における「平均気温」、「日照時間」、「日経平均株価」、「ガソリン代」を、1個の特徴量として算出できることを示す。
以上のように、計算機システム2は、図10Bに示す時間に関するルールを用いることによって、合計36個の特徴量を導出することができる。なお、定義される時間に関するルールは、図10Bに示すルール以外の他のルールであってもよい。
(第2の例の構造に関するルール)
図10Cは、本発明の実施の形態の第2の例の構造に関するルールの一例を示す図である。図10Cでは、構造に関するルールの一例を表形式で示している。図10Cに示す表の各カラム513〜515は、ルール内容と、ルール内容に示すルールに基づいて算出される1サンプル当たりの特徴量の個数とを含む。
ここでいう1サンプルとは、1日を単位として作成されるデータを意味するが、1時間又は1カ月等の期間を単位として作成されるデータであってもよい。
カラム513は、「全ユーザの全移動ルート上の信号機の数の平均を計算する」というルールに基づいて、各サンプル(この例では1日毎)における「信号機の平均数」を、1個の特徴量として算出できることを示す。例えば、10万人のユーザが存在する場合、各々のユーザの1日の移動ルート上の信号機の数を求め、求められた全ユーザの信号機の数の平均値を算出する。このカラム513に示すルールは、都市周辺の道路構造のうち、自動車移動に影響を与える信号機の数を、指標とするためのルールである。
カラム514は、「全ユーザの全移動ルート上の踏み切りの数の平均を計算する」というルールに基づいて、各サンプル(この例では一日毎)における「踏み切りの平均数」を、1個の特徴量として算出できることを示す。例えば、10万人のユーザが存在する場合、各々のユーザの1日の移動ルート上の踏み切りの数を求め、求められた全ユーザの踏み切りの数の平均値を算出する。このカラム514に示すルールは、都市周辺の道路の構造のうち、自動車移動に影響を与える踏み切りの数を、指標とするためのルールである。
カラム515は、「高速道路利用と一般道利用の比率を計算する」というルールに基づいて、各サンプル(この例では一日毎)における「高速道路利用と一般道利用の比率」を、1個の特徴量として算出できることを示す。例えば、10万人のユーザが存在する場合、各々のユーザの1日の高速道路利用時間と一般道利用時間とを求め、求められた全ユーザの高速道路利用時間の和と一般道利用時間の和との比率を算出する。このカラム515に示すルールは、都市周辺の道路の構造のうち、高速道路の利用率を指標とするためのルールである。
以上のように、計算機システム2は、図10Cに示す構造に関するルールを用いることによって、合計3個の特徴量を導出することができる。すなわち、計算機システム2は、図10Bに示す36個の特徴量と合わせて、合計39個の特徴量を導出する。
図11は、本発明の実施の形態の第2の例において導出される特徴量を説明する図である。図11では、各サンプルについて導出される39個の特徴量(図10B及び図10C参照)を、マトリクス形式で示している。図11に示す表の各カラムは、日付601と、特徴量602〜605とを含む。
日付601は、各サンプルの日付である。図11に示す例では、2カ月分(61個)のサンプルを示している。
特徴量602〜605は、各サンプルについて導出される39個の特徴量である。特徴量1は、0時から3時における平均速度(図10Bのカラム505)である。特徴量2、3、…、39は、それぞれ、3時から6時における平均速度(図10Bのカラム506)、6時から9時における平均速度(図10Bのカラム507)、…、高速道路利用と一般道利用の比率(図10Cのカラム515)である。
図12は、本発明の実施の形態の第2の例の分析結果を説明する図である。図12では、図11に示す39個の特徴量(v1、v2、…、v39)701、これら39個の特徴量701に基づいて導出される潜在因子702、703、704、潜在因子702、703、704と目的変数706とに基づいて算出される相関係数705、説明したい変数である目的変数706の関係を示している。
計算機システム2は、39個の特徴量701に対して、因子分析等の統計分析の手法を適用することによって、39個の特徴量701の共通的な要素を持つ3つの潜在因子702、703、704を導出する。
ここでの潜在因子702、703、704は、目的変数706(「ある都市周辺の自動車移動」)に関する経験的知識に基づかず、前述した時間に関するルールや構造に関するルールを適用することによって導出される潜在因子である。これら潜在因子702、703、704は、例えば「深夜の移動の仕方」、「夕方の移動の仕方」、「早朝の移動の仕方」である。
計算機システム2は、導出された潜在因子702、703,704と、与えられた目的変数706との相関を分析することにより、相関係数705を算出する。その後、算出された相関係数705を用いて、目的変数706に対する影響度の高い影響因子(潜在因子702、703、704のいずれか)を特定することができる。
例えば、目的変数706が「移動距離y」であって、「移動距離y」に対する影響度の高い影響因子が2番目の潜在因子703(朝の移動x)である場合、移動距離yと朝の移動xとの関係式を導出することができる。移動距離yと朝の移動xとの関係式とは、移動距離yを制御するには朝の移動xをどのように制御すればよいかを示す関係式である。
また例えば、目的変数706が「混雑度y’」であって、「混雑度y’」に対する影響度の高い影響因子が3番目の潜在因子704である場合、潜在因子704が最も影響度が高いことを導出することができる。
図13は、本発明の実施の形態の第2の例の制御ロジックを示すフローチャートである。第1の例の計算機システム2は、図13に示す制御ロジックを実行することによって、解析対象の時系列データを分析する。
まず、入力装置405又は通信装置406が、自動車移動に関する時系列データ501〜504(図10A参照)を入力する(801)。次に、特徴量導出処理部411は、ステップ801で入力された時系列データ501〜504に、時間に関するルール505〜512(図10B参照)を適用することによって、特徴量を導出する(802)。その後、特徴量導出処理部411は、ステップ801で入力された時系列データ501〜504に、構造に関するルール513〜515(図10C参照)を適用することによって、特徴量を導出する(803)。その後、潜在因子導出処理部412は、ステップ802、803で導出された特徴量に対して、因子分析等の統計分析の手法を用いることによって、潜在因子を導出する(804)。その後、相関分析処理部413は、ステップ804で導出された潜在因子と、与えられた目的変数との相関を分析することにより、相関係数を算出する(805)。その後、相関分析処理部413は、ステップ805で算出された相関係数が最も大きい潜在因子を、目的変数に対する影響度が最も高い影響因子として特定する(806)。
以上に示す制御ロジックにより、計算機システム2は、解析対象の時系列データに、時間に関するルールや構造に関するルールを適用することによって、従来の方法、すなわち対象分野の専門家の知見や経験的な知見に基づき特徴量を決定する方法では導出できなかった、大量の特徴量を算出することができる。
また、このように算出された大量の特徴量に基づいて導出される潜在因子と、与えられた目的変数との相関を分析することによって、従来の方法では特定できなかった重要な影響因子を特定することができる。
また、計算機システム2が用いる構造に関するルールは、あらゆる時系列データに適用可能なルールとして、解析対象の時系列データの構造(ネットワーク構造、ツリー構造、メッシュ構造等)に応じて予め定義される。これにより、対象分野の専門知識や経験に依存しない、大量の特徴量を自動的に算出することができる。
以上、本発明の実施の形態について説明したが、上記実施の形態は本発明の適用例の一つを示したものであり、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。本発明の要旨を逸脱しない範囲において種々変更可能である。
また、本発明の実施の形態の分析プログラム410、911(図4、図9参照)を基本アルゴリズムとして実装することにより、あらゆる時系列データの解析において利用可能であるため、経済学、心理学、サービス、経営など、幅広い分野で応用が可能である。
1、2 計算機システム
404、905 表示装置
405、906 入力装置
406、907 通信装置
407、908 CPU
408、909 ハードディスク
409、910 メモリ
410、911 分析プログラム
411、912 特徴量導出処理部
412、913 潜在因子導出処理部
413、914 相関分析処理部

Claims (11)

  1. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備えた計算機システムにおいて、入力された時系列データを解析することによって、所定の目的変数に対する影響度の高い特徴量を特定する情報分析方法であって、
    前記プロセッサが、入力された時系列データを、前記メモリに格納する第1手順と、
    前記プロセッサが、前記メモリに格納された時系列データに基づいて、当該時系列データの波形の特徴を示す複数の特徴量を導出する第2手順と、
    前記プロセッサが、前記メモリに格納された時系列データに、当該時系列データの構造に応じて予め定義された構造に関するルールを適用することによって、当該時系列データの構造の特徴を示す複数の特徴量を導出する第3手順と、
    前記プロセッサが、前記第2手順及び前記第3手順で導出された複数の特徴量と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い特徴量を特定する第4手順と、
    を含むことを特徴とする情報分析方法。
  2. 前記第4手順において、前記プロセッサは、前記第2手順及び前記第3手順で導出された複数の特徴量に、因子分析を適用することによって、前記複数の特徴量の共通的な要素を持つ潜在因子を導出し、導出された潜在因子と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い潜在因子を特定することを特徴とする請求項1に記載の情報分析方法。
  3. 前記時系列データが、所定のネットワークを構成する複数の移動体の各々についての、他の移動体との通信回数の時間変化を示すデータである場合、
    当該時系列データの構造に応じて予め定義された構造に関するルールは、所定の期間において互いに通信を行った移動体のペア数を、前記所定の期間における前記所定のネットワークの結束度を示す特徴量として算出し、所定の期間において他の移動体と最も多くの通信を行った移動体の当該通信を行った回数を、前記所定の期間における前記所定のネットワークのリーダーシップ度を示す特徴量として算出する、というルールであることを特徴とする請求項1に記載の情報分析方法。
  4. 前記時系列データが、所定のネットワーク上を移動する複数の移動体の各々についての、移動経路に関する時間変化を示すデータである場合、
    当該時系列データの構造に応じて予め定義された構造に関するルールは、所定の期間において各移動体の移動経路上に存在する障害物の平均数を、前記所定の期間における1つの特徴量として算出し、所定の期間において各移動体の移動経路のうちの特定の移動経路の割合を、前記所定の期間における1つの特徴量として算出する、というルールであることを特徴とする請求項1に記載の情報分析方法。
  5. 前記情報分析方法は、
    前記プロセッサが、前記第3手順によって導出された特徴量が時系列データである場合、当該導出された特徴量の波形の特徴を示す特徴量を導出する第5手順をさらに含み、
    前記第4手順において、前記プロセッサは、前記第2手順、前記第3手順及び前記第5手順で導出された複数の特徴量と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い特徴量を特定することを特徴とする請求項1に記載の情報分析方法。
  6. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備え、入力された時系列データを解析することによって、所定の目的変数に対する影響度の高い特徴量を特定する計算機システムであって、
    入力された時系列データに基づいて、当該時系列データの波形の特徴を示す複数の特徴量を導出するとともに、入力された前記時系列データに、当該時系列データの構造に応じて予め定義された構造に関するルールを適用することによって、当該時系列データの構造の特徴を示す複数の特徴量を導出する特徴量導出処理部と、
    前記特徴量導出処理部によって導出された複数の特徴量と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い特徴量を特定する相関分析処理部と、
    を備えることを特徴とする計算機システム。
  7. 前記特徴量導出処理部によって導出された複数の特徴量に、因子分析を適用することによって、前記複数の特徴量の共通的な要素を持つ潜在因子を導出する潜在因子導出処理部を、さらに備え、
    前記相関分析処理部は、前記潜在因子導出処理部によって導出された潜在因子と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い潜在因子を特定することを特徴とする請求項6に記載の計算機システム。
  8. 前記時系列データが、所定のネットワークを構成する複数の移動体の各々についての、他の移動体との通信回数の時間変化を示すデータである場合、
    当該時系列データの構造に応じて予め定義された構造に関するルールは、所定の期間において互いに通信を行った移動体のペア数を、前記所定の期間における前記所定のネットワークの結束度を示す特徴量として算出し、所定の期間において他の移動体と最も多くの通信を行った移動体の当該通信を行った回数を、前記所定の期間における前記所定のネットワークのリーダーシップ度を示す特徴量として算出する、というルールであることを特徴とする請求項6に記載の計算機システム。
  9. 前記時系列データが、所定のネットワーク上を移動する複数の移動体の各々についての、移動経路に関する時間変化を示すデータである場合、
    当該時系列データの構造に応じて予め定義された構造に関するルールは、所定の期間において各移動体の移動経路上に存在する障害物の平均数を、前記所定の期間における1つの特徴量として算出し、所定の期間において各移動体の移動経路のうちの特定の移動経路の割合を、前記所定の期間における1つの特徴量として算出する、というルールであることを特徴とする請求項6に記載の計算機システム。
  10. 前記特徴量導出処理部は、当該特徴量導出処理部によって導出された、当該時系列データの構造の特徴を示す複数の特徴量が時系列データである場合、当該導出された特徴量の波形の特徴を示す特徴量を導出することを特徴とする請求項6に記載の計算機システム。
  11. プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリとを備えた計算機システムにおいて用いられ、入力された時系列データを解析することによって、所定の目的変数に対する影響度の高い特徴量を特定する情報分析プログラムであって、
    入力された時系列データを、前記メモリに格納する第1手順と、
    前記メモリに格納された時系列データに基づいて、当該時系列データの波形の特徴を示す複数の特徴量を導出する第2手順と、
    前記メモリに格納された時系列データに、当該時系列データの構造に応じて予め定義された構造に関するルールを適用することによって、当該時系列データの構造の特徴を示す複数の特徴量を導出する第3手順と、
    前記第2手順及び前記第3手順で導出された複数の特徴量と、前記所定の目的変数との相関を分析することにより、前記所定の目的変数に対する影響度の高い特徴量を特定する第4手順と、
    を前記プロセッサに実行させることを特徴とする情報分析プログラム。
JP2010169009A 2010-07-28 2010-07-28 情報分析方法、計算機システム及び情報分析プログラム Pending JP2012027880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010169009A JP2012027880A (ja) 2010-07-28 2010-07-28 情報分析方法、計算機システム及び情報分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010169009A JP2012027880A (ja) 2010-07-28 2010-07-28 情報分析方法、計算機システム及び情報分析プログラム

Publications (1)

Publication Number Publication Date
JP2012027880A true JP2012027880A (ja) 2012-02-09

Family

ID=45780690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010169009A Pending JP2012027880A (ja) 2010-07-28 2010-07-28 情報分析方法、計算機システム及び情報分析プログラム

Country Status (1)

Country Link
JP (1) JP2012027880A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015026902A (ja) * 2013-07-24 2015-02-05 株式会社トラフィック・シム ツリー構造解析表示装置、プログラム、記録媒体
JP2015225460A (ja) * 2014-05-27 2015-12-14 京セラ株式会社 食事管理方法、食事管理システム及び食事管理端末
JP2016042345A (ja) * 2014-08-13 2016-03-31 日本電信電話株式会社 推定装置、その方法およびプログラム
JP2016152039A (ja) * 2015-02-19 2016-08-22 富士通株式会社 データ出力方法、データ出力プログラムおよびデータ出力装置
KR101752977B1 (ko) * 2015-10-23 2017-07-03 국방과학연구소 관심 데이터 선택을 용이하게 하는 데이터 배열화 분류 및 가시화 정리 방법
WO2020004154A1 (ja) * 2018-06-28 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2020042645A (ja) * 2018-09-12 2020-03-19 株式会社日立製作所 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252576A (ja) * 2008-04-08 2009-10-29 Mitsubishi Electric Corp 透明導電膜、表示装置、及びこれらの製造方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252576A (ja) * 2008-04-08 2009-10-29 Mitsubishi Electric Corp 透明導電膜、表示装置、及びこれらの製造方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200000706029; 羽山 彰一: 'ウェーブレット解析を用いた上水道の翌日時間単位需要予測' 電気学会論文誌C Vol.118-C No,7/8 第118-C巻, 19980701, 第1215,1216ページ, 社団法人電気学会 *
CSNG201000308225; 佐藤 弘樹: 'Influential Personに着目したコミュニティ活性度評価手法の提案' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集 [online] , 20090509, 電子情報通信学会データ工学研究専門委員会 *
CSNG201000392007; 大西 正輝: '大型複合施設における長期間にわたる人流比較と可視化手法' 電子情報通信学会論文誌 (J93-D) 第4号 第J93-D巻, 20100401, 第486-493ページ, 社団法人電子情報通信学会 *
JPN6013058737; 羽山 彰一: 'ウェーブレット解析を用いた上水道の翌日時間単位需要予測' 電気学会論文誌C Vol.118-C No,7/8 第118-C巻, 19980701, 第1215,1216ページ, 社団法人電気学会 *
JPN6013058741; 佐藤 弘樹: 'Influential Personに着目したコミュニティ活性度評価手法の提案' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集 [online] , 20090509, 電子情報通信学会データ工学研究専門委員会 *
JPN6013058744; 大西 正輝: '大型複合施設における長期間にわたる人流比較と可視化手法' 電子情報通信学会論文誌 (J93-D) 第4号 第J93-D巻, 20100401, 第486-493ページ, 社団法人電子情報通信学会 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015026902A (ja) * 2013-07-24 2015-02-05 株式会社トラフィック・シム ツリー構造解析表示装置、プログラム、記録媒体
JP2015225460A (ja) * 2014-05-27 2015-12-14 京セラ株式会社 食事管理方法、食事管理システム及び食事管理端末
JP2016042345A (ja) * 2014-08-13 2016-03-31 日本電信電話株式会社 推定装置、その方法およびプログラム
JP2016152039A (ja) * 2015-02-19 2016-08-22 富士通株式会社 データ出力方法、データ出力プログラムおよびデータ出力装置
KR101752977B1 (ko) * 2015-10-23 2017-07-03 국방과학연구소 관심 데이터 선택을 용이하게 하는 데이터 배열화 분류 및 가시화 정리 방법
WO2020004154A1 (ja) * 2018-06-28 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2020004154A1 (ja) * 2018-06-28 2021-07-08 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
US11615100B2 (en) 2018-06-28 2023-03-28 Sony Corporation Information processing apparatus, information processing method, and computer program
JP7359144B2 (ja) 2018-06-28 2023-10-11 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
JP2020042645A (ja) * 2018-09-12 2020-03-19 株式会社日立製作所 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム
JP7059151B2 (ja) 2018-09-12 2022-04-25 株式会社日立製作所 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム

Similar Documents

Publication Publication Date Title
Essien et al. A deep-learning model for urban traffic flow prediction with traffic events mined from twitter
Chen et al. Learning deep representation from big and heterogeneous data for traffic accident inference
Besussi et al. The structure and form of urban settlements
JP2012027880A (ja) 情報分析方法、計算機システム及び情報分析プログラム
Cohen et al. Real-time data mining of non-stationary data streams from sensor networks
Siami et al. A mobile telematics pattern recognition framework for driving behavior extraction
Niu et al. An online-traffic-prediction based route finding mechanism for smart city
Li et al. Statistical analysis of tourist flow in tourist spots based on big data platform and DA-HKRVM algorithms
Kim et al. Method of predicting human mobility patterns using deep learning
Jiang et al. Deep ROI-based modeling for urban human mobility prediction
CN108885723A (zh) 用于基于位置数据预测用户行为的系统和方法
Trasberg et al. Spatial and social disparities in the decline of activities during the COVID-19 lockdown in Greater London
Lu et al. Imputing trip purposes for long-distance travel
Ziakopoulos et al. Spatial predictions of harsh driving events using statistical and machine learning methods
Elfar et al. Traffic shockwave detection in a connected environment using the speed distribution of individual vehicles
Saha et al. Deep learning approach for predictive analytics to support diversion during freeway incidents
Bocquier Migration analysis using demographic surveys and surveillance systems
Ma et al. Short-term traffic flow prediction using a self-adaptive two-dimensional forecasting method
Krushel et al. Detection of the patterns in the daily route choices of the urban social transport system clients based on the decoupling of passengers’ preferences between the levels of uncertainty
Wang et al. Data infrastructure for connected vehicle applications
Mantouka et al. Deep survival analysis of searching for on-street parking in urban areas
Lai et al. Explaining a century of Swiss regional development by deep learning and SHAP values
Bai et al. FGVis: visual analytics of human mobility patterns and urban areas based on F-GloVe
Nicoletta et al. Bayesian spatio-temporal modelling and prediction of areal demands for ambulance services
Liao et al. Location prediction through activity purpose: integrating temporal and sequential models

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140715