JP2017085417A - データ評価装置、データ評価方法、及びプログラム - Google Patents

データ評価装置、データ評価方法、及びプログラム Download PDF

Info

Publication number
JP2017085417A
JP2017085417A JP2015213314A JP2015213314A JP2017085417A JP 2017085417 A JP2017085417 A JP 2017085417A JP 2015213314 A JP2015213314 A JP 2015213314A JP 2015213314 A JP2015213314 A JP 2015213314A JP 2017085417 A JP2017085417 A JP 2017085417A
Authority
JP
Japan
Prior art keywords
data
correlation coefficient
time
section
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015213314A
Other languages
English (en)
Other versions
JP6595884B2 (ja
Inventor
サフ ビスミタ
Sahu Bisumita
サフ ビスミタ
幸生 植松
Yukio Uematsu
幸生 植松
基至 大木
Motoyoshi Oki
基至 大木
済央 野本
Narichika Nomoto
済央 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2015213314A priority Critical patent/JP6595884B2/ja
Publication of JP2017085417A publication Critical patent/JP2017085417A/ja
Application granted granted Critical
Publication of JP6595884B2 publication Critical patent/JP6595884B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】データソースから得られたデータの信頼性を、データの属性に係る特性を考慮して評価する。【解決手段】データ評価装置において、異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段とを備える。【選択図】図2

Description

本発明は、複数のデータソースから取得されるデータの信頼性を評価し、向上させる技術に関連するものである。
ネットワークにおける品質情報(例:スループット)は、様々な方法で取得できる。例えば、ネットワークの内部の通信装置に測定器を接続し、当該測定器による測定結果として品質情報を取得できる。また、例えば、外部の調査機関による通信速度の実測結果等を品質情報として取得することもできる。
上記のように、各種の情報源(これをデータソースと呼ぶ)から品質情報(これをデータと呼ぶ)を取得することが可能である。
特開2008−311720号公報
しかしながら、全てのデータソースから得られたデータが信頼できるものであるとは限らない。従って、データソースから得られたデータが信頼できるものであるかどうかをチェックする必要がある。例えば、データの信頼性チェックのために、複数のデータソースから得られたデータ同士を比較して、データ間の相関値が高ければ、いずれのデータも信頼性があると判断し、テータ間の相関値が低ければ、少なくともどちらかのデータは信頼できないと判断することが考えられる。
また、品質情報等のデータは、一般に時系列データとして得られるが、当該時系列データにおける全時刻のデータが信頼できるデータであるとは限らず、例えば、特定の時間帯のデータのみが信頼できるデータである場合がある。一例として、夜間などネットワークが混雑している時間帯では、品質情報を安定して計測できないことが多く、信頼できる品質情報が得られるとは限らない。逆に、ネットワークがそれほど混雑していない特定の時間帯では、信頼できるネットワークの品質情報を取得できることが期待できる。
従って、例えば、データの信頼性チェックのために、複数のデータソースから得られた生のデータ同士を比較した場合には相関が低くても、特定の時間帯で見てみると相関が高い場合が生じることが考えられる。しかしながら、このような時系列データの特性を考慮して、データの信頼性を評価することができる従来技術はなかった。
なお、時系列のデータに付随する時刻は、当該データの属性の1つである。上記のような問題は、データの属性が時刻であるデータに限らずに生じ得る問題である。
本発明は上記の点に鑑みてなされたものであり、あるデータソースから得られたデータの信頼性を、データの属性に係る特性を考慮して評価することを可能とする技術を提供することを目的とする。
本発明の実施の形態によれば、異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、
前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段と
を備えることを特徴とするデータ評価装置が提供される。
また、本発明の実施の形態によれば、データ評価装置が実行するデータ評価方法であって、
異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力ステップと、
前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出ステップと
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価ステップと
を備えることを特徴とするデータ評価方法が提供される。
本発明の実施の形態によれば、あるデータソースから得られたデータの信頼性を、データの属性に係る特性を考慮して評価することを可能とする技術が提供される。
本発明の実施の形態におけるシステムの全体構成図である。 データ評価装置の構成図である。 データ評価装置が実行する処理の手順を示すフローチャートである。 入力データの例を示す図である。 間隔別時系列データ生成処理、及びスコア算出処理の例を示す図である。 制約付時系列データ生成処理、及びスコア算出処理の例(日毎+制約)を示す図である。 制約付時系列データ生成処理、及びスコア算出処理の例(週毎+制約)を示す図である。 制約付時系列データ生成処理、及びスコア算出処理の例(月毎+制約)を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
例えば、本実施の形態では、評価対象のデータとして、品質情報等、属性として時刻を有するデータを用いているが、本発明は、属性として時刻を有するデータに限らず、時刻とは関連のない種々のデータにも適用可能である。
(システム構成)
図1に、本実施の形態に係るシステムの全体構成図を示す。図1に示すように、本実施の形態におけるシステムは、データ評価装置100、及び複数のデータソースを有する。図1には、例として、複数のデータソースにおけるデータソース1、データソース2が示されている。
本実施の形態におけるデータ評価装置100は、データソース1から得られたデータと、データソース2から得られたデータとを比較することで、これらのデータの評価を行う。具体的な処理内容については後述する。
本実施の形態における評価対象のデータは、ネットワークの品質情報等の時系列データであることを想定しているが、これは一例に過ぎず、データ評価装置100が評価対象とするデータは、特定の種類のデータに限定されない。なお、本実施の形態における「時系列データ」は、等間隔の時刻順に並んだデータのみならず、等間隔でない時刻順に並んだデータも含むものとする。
データソース1、2はそれぞれ、例えば、あるネットワークの品質情報を測定する測定器である。つまり、この場合、データソース1は、当該ネットワークの品質情報を測定する測定器であり、データソース2は、当該ネットワークの品質情報を測定する別の測定器である。
また、例えば、データソース1が、当該ネットワークの品質情報を当該ネットワーク内部で測定する測定器であり、データソース2が、当該ネットワークに対する外部の調査機関であってもよい。
本実施の形態の技術は、例えば、一方のデータソースのデータが信頼でき(例:内部測定データ)、他方のデータソースのデータの信頼性が不明である(例:外部調査機関のデータ)場合に適用し、信頼性不明のデータが、信頼できるデータとどの程度類似するか(相関があるか)を評価することで、信頼性不明のデータの信頼性を評価できる。
ただし、これは一例であり、両方のデータの信頼性が不明であってもよい。両方のデータの信頼性が不明であっても、例えば、ある時間帯での相関が高ければ、当該時間帯でのデータの信頼性は高いことが推定でき、当該時間帯のデータを抽出することで、その後の分析等に使用できる。また、本実施の形態の技術は、両方のデータの信頼性が高いと考えられる場合にも適用できる。両方のデータの信頼性が高いと考えられる場合でも、全ての時刻で信頼性が高いとは限らず、本実施の形態の技術を適用することで、例えば、信頼性が高い時間帯や集計期間等を特定できる。
(データ評価装置100の構成例)
図2に、本実施の形態におけるデータ評価装置100の構成例を示す。図2に示すように、データ評価装置100は、入力部101、間隔別時系列データ生成部102、制約付時系列データ生成部103、スコア算出部104、スコア評価部105、出力部106、及びデータ記憶部107を備える。各部の機能の詳細については、各部により実行される処理の内容として後述する。各部の概要は以下のとおりである。
入力部101は、各データソースからのデータを入力する。間隔別時系列データ生成部102は、入力部100により入力されたデータから、間隔別(例:日毎、週毎、月毎)の時系列データを生成する。「間隔」は、「期間」と称してもよい。
制約付時系列データ生成部103は、入力部100により入力されたデータから、制約(例:1日のうちの特定の時間のデータを利用する制約)の付いた間隔別の時系列データを生成する。なお、本実施の形態では、当該制約は、1日のうちの特定の時間帯、曜日等の「区間」に基づき実施される。
スコア算出部104は、間隔別時系列データ生成部102により生成された間隔別時系列データ、及び制約付時系列データ生成部103により生成された制約付時系列データのそれぞれについて、データソース1とデータソース2との間の相関を計算し、得られた相関係数(関連度合いの大きさ)をスコアとする。
スコア評価部105は、スコア算出部104により得られたスコアを評価することにより、相関が高い間隔/制約を決定する。出力部106は、スコア評価部105により決定された間隔/制約の情報や、当該間隔/制約に対応するデータ等を出力する。データ記憶部107は、各部の処理中のデータ、処理結果のデータ、スコア等を一時的に記憶したり、スコア評価で使用する閾値等を記憶する。
本実施の形態に係るデータ評価装置100は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、データ評価装置100が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、データ評価装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
(データ評価装置100が実行する処理手順)
図3は、データ評価装置100が実行する処理の手順を示すフローチャートである。図3に示すフローチャートの手順に沿って、以下、データ評価装置100が実行する処理内容を詳細に説明する。
<ステップS101:データ入力>
まず、データ評価装置100の入力部101により、データソース1とデータソース2のそれぞれからデータを入力する。以下、データソース1のデータをDATAとし、データソース2のデータをDATAとする。
DATAとDATAはそれぞれ、例えば、ネットワークの品質情報と、当該品質情報を取得した時刻を示す時刻情報とを含む時系列データである。当該時刻情報は、品質の計測を行った実際の時刻でもよいし、例えば「1時間毎の平均品質」がデータソースから提供されるような場合においては、当該時刻情報は、時間(0時、1時、...等)でもよい。また、これら以外の情報でもよい。
図4に、入力データの一例を示す。図4は、DATAとDATAがともに、1月1日(1/1)から6月30日(6/30)までの時間毎のデータである場合を示している。例として、1/1の「2」の下の欄には、1/1のAM2時〜AM3時における平均品質等の値が存在する。なお、DATAとDATAの区別を分かり易くするために、DATAについては実線の表で示し、DATAについては点線の表で示している。以下、他の図でも同様である。
また、入力部101あるいは他の機能部が、入力されたデータにおける特異値を削除して、特異値を削除した入力データを以降の処理に用いることとしてもよい。
<ステップS102:間隔別時系列データ生成>
次に、間隔別時系列データ生成部102が、ステップS101において入力されたDATAとDATAのそれぞれについて、間隔別時系列データを生成する。用いる間隔は、例えば、日、週、月等である。つまり、DATAとDATAのそれぞれについて、間隔別時系列データとして、日毎、週毎、月毎等の時系列データを生成する。例として、週毎の場合、DATAにおける開始時刻から1週間の間のデータの平均値(代表値でもよい)を計算し、以降、1週間毎の平均値を計算し、時系列データとする。DATAも同様である。
ここで、上記の例では、間隔の種類が3であるが、間隔の種類の数は3に限られない。間隔の種類の数をNとし、間隔の種類を示すインデックスをkとして、間隔別時系列データをtsと表すことにすると、ステップS102では、DATAとDATAのそれぞれについて、ts,ts,....tsが生成される。ここではこれを、DATAについては、DATAts,DATAts,....DATAtsと表し、DATAについては、DATAts,DATAts,....DATAtsと表す。
図5は、DATAとDATAのそれぞれから、日毎、週毎、月毎の時系列データを生成する場合の生成データの例を示す。図5に示すように、日毎の時系列データとして、DATAtsとDATAtsが生成され、週毎の時系列データとして、DATAtsとDATAtsが生成され、月毎の時系列データとして、DATAtsとDATAtsが生成される。
<ステップS103:間隔別時系列データについてのスコア算出>
次に、スコア算出部104が、ステップS102で使用した間隔毎に、DATAの間隔別時系列データとDATAの間隔別時系列データとを比較する(つまり、相関を計算する)ことにより、相関係数を算出し、これをスコアを算出する。算出されたスコアはデータ記憶部107に格納される。相関の計算については、2つの時系列データ間の相関を算出する一般的な相関関数を使用することができる。算出されたスコア(例えば、−1〜1の値)が大きいほど、比較した時系列データ間の類似性が高いことを示す。
より具体的には、図5に示すように、日毎、週毎、月毎の時系列データの場合、DATAとDATAの日毎の時系列データであるDATAtsとDATAtsとを比較してスコア(p1)が算出される。また、DATAとDATAの週毎の時系列データであるDATAtsとDATAtsとを比較してスコア(p2)が算出される。更に、DATAとDATAの月毎の時系列データであるDATAtsとDATAtsとを比較してスコア(p3)が算出される。
図3〜図5では、間隔の種類の数Nが3なので、3つのスコアp1、p2、p3が得られるが、一般にはN個のスコアを得る。
<ステップS104:制約付時系列データ生成>
次に、制約付時系列データ生成部103が、入力データから制約付時系列データを生成する。ここでは、データソース1のDATAとデータソース2のDATAとの間の共通の属性を予め定めておき、当該属性を用いて、DATAとDATAのぞれぞれについての制約付時系列データを生成する。例えば、DATAには35個の属性があり、DATAには12個の属性があり、共通の属性が3つであるとすれば、当該3つの属性のそれぞれで制約付時系列データを生成することができる。
本実施の形態における共通の属性とは、例えば、時系列データにおける時に関する属性であり、例えば、1日の中の時間、1日の中の時間帯(例:6時間毎の時間帯)、曜日、平日/週末等がある。また、データの内容に基づき属性としてもよい。例えば、データが品質としての信号強度を有する場合、信号強度を属性とすることができる。この場合、例えば、信号強度の強さを段階(区間)に分けて、後述するチャンクを生成する。また、共通の属性は、データソースから得たデータに含まれている属性であってもよいし、データソースから得たデータを処理することで付加した属性であってもよい。
より具体的には、例えば、共通の属性を「1日の中の時間」とすると、制約付時系列データ生成部103は、DATAとDATAのそれぞれについて、当該データを時間毎のセグメントに分ける。つまり、この場合、AM0時〜AM1時のデータ、AM1時〜AM2時のデータ、....PM10時〜PM11時のデータ、PM11時〜AM0時のデータ、のように、24個のセグメントに分ける。なお、データの全体が、例えば6ヵ月間のデータであるとすると、例えば「AM0時〜AM1時のデータ」には、6ヵ月間の各日の「AM0時〜AM1時のデータ」が含まれることになる。
他の例として、例えば、共通の属性が「曜日」であるとすると、DATAとDATAのそれぞれについて、当該データは、月曜日のデータ、火曜日のデータ、...日曜日のデータ、のように7つのセグメントに分けられる。データの全体が、例えば6ヵ月間のデータであるとすると、例えば「月曜日のデータ」には、6ヵ月間の各月曜日のデータが含まれることになる。
本実施の形態では、上記のようにしてデータを分割して得たセグメントを「チャンク」と呼び、cで表わす。そして、例えば、AM0時〜AM1時のデータ、AM1時〜AM2時のデータ、....PM10時〜PM11時のデータ、PM11時〜AM0時のデータ、のように、24個のチャンクに分ける場合、これらのチャンクは、時間の古い順に、c、c、...、c24と表現する。一般に、m個のチャンクに分ける場合、c、c、...、cと表すことができる。
上記のように、DATAとDATAのそれぞれをチャンクに分けた後、各チャンクについて集約を行う。なお、集約をせずにチャンクのデータ間の相関を取ることとしてもよい。
本実施の形態における集約は、ステップS102で説明した間隔別時系列データを生成することにより実行する。例えば、データの全体が6ヵ月間のデータであるとして、属性が「1日の中の時間」で、データを24個のチャンクに分けた場合において、各チャンク(例:「AM0時〜AM1時」の6ヵ月間のデータ)に対し、ステップS102で説明したように、日毎、週毎、月毎等の時系列データを生成する。
例えば、属性が「1日の中の時間」である場合において、DATAのチャンクc(「AM0時〜AM1時」)における日毎(ts)の時系列データは、DATAtsと表わされる。より一般に、間隔の種類がN、チャンクの数がmであるとすると、ステップS104において、制約付時系列データ生成部103は、DATAから「DATAts、DATAts、....DATAts、DATAts、DATAts、....DATAts、....DATAts、DATAts、....DATAts」を生成し、DATAから「DATAts、DATAts、....DATAts、DATAts、DATAts、....DATAts、....DATAts、DATAts、....DATAts」を生成する。また、上記の例は、属性が1つの場合であるが、複数の属性(M個とする)についての制約付時系列データを生成する場合は、上記のデータのセットがM個生成される。
図6〜図8は、属性が「1日の中の時間」である場合における制約付時系列データの例を示している。図6は、チャンク分割した後に、日毎に集約した時系列データを示す。例えば、DATAtsは、DATAのAM0時〜AM1時のチャンクにおけるデータに対して日毎に平均値を求めて時系列データとしたものである。
図7は、チャンク分割した後に、週毎に集約した時系列データを示す。例えば、DATAtsは、DATAのAM0時〜AM1時のチャンクにおけるデータに対して週毎に平均値を求めて時系列データとしたものである。また、図8は、チャンク分割した後に、月毎に集約した時系列データを示す。例えば、DATAtsは、DATAのAM0時〜AM1時のチャンクにおけるデータに対して月毎に平均値を求めて時系列データとしたものである。
<ステップS105:制約付時系列データについてのスコア算出>
次に、スコア算出部104が、ステップS104で得られた制約付時系列データ毎に、データソース間での相関を計算して、スコアを算出する。つまり、DATAtsとDATAtsとの間のスコア、DATAtsとDATAtsとの間のスコア、....DATAtsとDATAtsとの間のスコア、DATAtsとDATAtsとの間のスコア、......、DATAtsとDATAtsとの間のスコアを算出する。相関の計算方法はステップS103での計算方法と同じである。
そして、間隔毎にスコアが最大となるチャンクを求め、そのスコアと、当該スコアが得られたチャンクの情報(どの区間のチャンクかを示す情報)をデータ記憶部107に格納する、例えば、属性が1日の時間の場合に、日毎については、DATAtsとDATAtsとの間のスコア、DATAtsとDATAtsとの間のスコア、....DATAtsとDATAts24との間のスコア、のように、24個のスコアが得られ、このうちの最大値をとるチャンク(例:PM3時〜PM4時のチャンク)を特定し、その情報とそのスコアをデータ記憶部107に格納する。週毎のデータ、月毎のデータについても同様である。
例えば、図6に示すように、日毎の時系列データについて、チャンク毎にスコアを求め、最大値p4を得る。また、図7に示す例では、週毎の時系列データについて、チャンク毎にスコアを求め、最大値p5を得る。また、図8に示す例では、月毎の時系列データについて、チャンク毎にスコアを求め、最大値p6を得る。
図6〜図8は、間隔の種類の数Nが3なので、3つの最大値p4、p5、p6が得られるが、一般にはN個の最大値を得る。なお、Nは1であってもよい。
また、上記の例は、属性が1つの場合であるが、複数の属性(M個とする)についての制約付時系列データを生成する場合は、スコアのセットがM個生成されるので、最大値のスコアは、N×M個得られる。
なお、ステップS103で説明した間隔別時系列データについてのスコア算出を、間隔別時系列データと制約付時系列データを生成した後に、制約付時系列データについてのスコア算出とともに行うこととしてもよい。また、ステップS103で説明した間隔別時系列データについてのスコア算出を行わないこととしてもよい。この場合、p1〜p6で説明した例において、p4、p5、p6のみで下記の評価が行われることになる。また、この場合に、Nが1であれば、1つのスコア(例:p4)のみに対して下記の評価が行われることになる。
<ステップS106:スコア評価>
次に、スコア評価部105が、これまでの処理によりデータ記憶部107に格納されたスコアを評価する。
これまでに説明したとおり、間隔の数がN(例:日毎、週毎、月毎の場合、N=3)、属性の数がM(例:「1日の中の時間」のみを使用する場合、M=1)である場合に、ステップS103ではN個のスコアが得られ、ステップS106では、評価対象とするスコアとして、N×M個のスコアが得られるので、全体のスコアの数はN+N×M(=N(1+M))である。
スコア評価部105は、N(1+M)個のスコアの中から最大のスコアを選択する。選択されたスコア、及び、当該スコアが得られた間隔及びチャンクの情報(制約の情報)が出力の対象となる。
また、ある閾値(あるいはベンチマーク)を定めておき、最大のスコアが当該閾値を超えるかどうかを判定し、超える場合に、当該最大のスコア、当該スコアに係る間隔及びチャンクの情報(制約の情報)を出力の対象として決定してもよい。
また、N(1+M)個のスコアを降順(大きいものから小さいもの)にソートして、閾値(ベンチマーク)を超える全てのスコア、及び当該スコアに係る間隔及びチャンクの情報(制約の情報)を出力の対象として決定してもよい。また、予め所定数Pを定め、閾値(ベンチマーク)を超える全てのスコアの中で、上位P個のスコアを出力対象として決定してもよい。
図5〜図8に示した例(間隔=(日毎、週毎、月毎)、属性=(1日の中の時間))においては、p1、p2、....p6の6個(N(1+M)=3(1+1)=6)のスコアが得られるので、例えば、これらのうちの最大のスコア(あるいは、閾値(ベンチマーク)を超えるスコア)が出力対象のスコアとして決定される。
なお、上記の例では、正の相関が大きなスコアを出力対象とすることを想定しているが、これは例であり、負の方向に相関が大きなスコア(つまり、負の相関係数の絶対値が大きなスコア)を出力対象とすることとしてもよい。
<ステップS107:データ出力>
ステップS107では、出力部106が、ステップS106において出力対象として決定されたスコア、及び、当該スコアが得られた間隔、及びチャンクの情報を出力する。これらに加えて、当該スコアが得られた時系列データを出力してもよい。この場合、例えば、図5〜図8に示した例において、週毎のPM3時〜PM4時のチャンクにおけるスコアが出力対象として決定された場合に、DATAts16とDATAts16を出力する。また、この場合、週毎に集約する前のチャンクデータを出力してもよい。なお、入力データや、処理の過程で得られた時系列データ等はデータ記憶部107に格納されているので、ここからデータを読み出すことで出力することができる。ただし、使用しないデータはデータ記憶部107から削除することとしてもよい。
また、これまでに説明した処理において、データソース間でデータ(生データでもよいし、間隔別時系列データでもよいし、制約付時系列データでもよい)を時間方向にずらして相関を取った場合に、高い相関係数(例:ベンチマークを超える相関係数)が得られる場合には、当該ずらした時間長を出力してもよい。
ここで、時間方向にずらすとは、例えば、生データであれば、比較するデータソース間における一方の取得データの時刻(タイムスタンプ)を、入力部101により、所定の時間だけ増加(又は減少)させ、当該所定の時間だけ増加(又は減少)させたタイムスタンプの付いたデータを入力データとして、これまでに説明した処理を行うことである。また、間隔別時系列データの場合であれば、間隔別時系列データ生成部102により、例えば、間隔(例:日、図3のDATAts)を単位として、一方のデータの時刻を所定の時間だけ増加(又は減少)させ、当該増加(又は減少)を行ったデータと、他方のデータとの間で相関係数を計算する。一例として、図3のDATAtsの時刻を2日間だけずらす場合、ずらす前の1/1の欄のデータが、1/3の欄に移り、ずらす前の1/2の欄のデータが、1/4の欄に移り、といったようにずらす。もしくは、データの位置を変えずに、1/3を1/1に変更するといったように、時刻のほうを変えてもよい。他の間隔、また、制約付時系列データについても同様である。
時間方向でずらす処理を含める場合、例えば、複数の方向付きの時間長(例:データソース1について、A時間増加、A時間減少、0時間増加/減少、B時間増加、B時間減少)を予め用意しておき、時間長毎に処理(0時間増加/減少、つまり、これまでに説明したずらさない場合の処理を含む)を行って、全ての処理により得られたスコア全体に対して、ステップS106で説明したスコア評価処理を実施する。出力については、出力対象として決定したスコアが得られた間隔及びチャンクの情報(制約の情報)とともに、ずらす処理で用いた時間長も出力する。
(3以上のデータソースを使用する場合の例)
これまでデータソースの数が2である場合について説明したが、これは一例であり、データソースの数は3以上であってもよい。この場合の処理例を以下に説明する。
ここで、データソースがX個である場合、X個から2個(比較する対象とするペア)を選択する組み合わせの数は、=X!/(X−2)!2!である。例えば、X=4とすると、その数は、=4!/2!2!=6となる。以下では、X=4として、A、B、C、Dの4つのデータソースのデータを使用するものとする。
この場合、データ評価装置100は、A、B、C、Dを取得すると、A、B、C、Dの中から2つを選択した組み合わせとして、AB、AC、AD、BC、BD、CDがあることを把握する。
データ評価装置100は、組み合わせ毎に、これまでに説明した処理と同様の処理を行うことで、N(M+1)のスコアを算出する。ここで、N(間隔の数)とM(属性の数)のそれぞれの値について、データソース毎に同じでもよいし、異なっていてもよい。
そして、データ評価装置100は、組み合わせ毎に、N(M+1)個のスコアの中に、閾値(あるいはベンチマーク、以下同様)を超えるスコアがあるかどうかをチェックし、当該閾値を超えるスコアを有する組み合わせを抽出する。
例えば、AB、AC、AD、BC、BD、CDのうち、AB、CD、ADの3つの組み合わせにおいて、閾値を超えるスコアが得られたものとすると、データ評価装置100は、組み合わせ毎に、既に説明したデータを出力する。例えば、組み合わせABについては、閾値を超えるスコアが得られた間隔、制約の情報(チャンクの情報)を出力する。これらに加えて、当該スコアが得られた間隔/制約の時系列データを出力してもよい。
(実施の形態のまとめ)
以上、説明したように、本実施の形態によれば、異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段とを備えるデータ評価装置が提供される。
前記算出手段は、例えば、前記第1のデータと前記第2のデータのそれぞれについて、複数の区間に分割して得られた各区間に含まれる複数データを所定の期間毎に集約し、集約したデータ間で前記相関係数の算出を行う。
前記算出手段は、前記所定の期間として、複数種類の期間を使用し、期間の種類毎に、前記複数の区間における区間毎の相関係数を算出し、前記評価手段は、前記期間の種類毎かつ前記区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する期間の種類及び区間を選択し、当該期間及び区間を示す情報を出力することとしてもよい。
前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割せずに、所定の期間毎に集約を行い、集約が行われた第1のデータと集約が行われた第2のデータとの間で相関係数を算出し、前記評価手段は、前記区間毎に得られた相関係数と、前記集約が行われた第1のデータと前記集約が行われた第2のデータとの間で算出された相関係数の中で、所定の条件を満たす相関係数を決定することとしてもよい。
前記所定の条件は、例えば、相関係数が所定の閾値よりも大きいことである。また、前記第1のデータ及び前記第2のデータは、例えば時刻を属性として有するデータである。前記評価手段は、所定の条件を満たす相関係数が得られた区間に対応する部分の前記第1のデータ及び前記第2のデータを出力することとしてもよい。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1、2 データソース
100 データ評価装置
101 入力部
102 間隔別時系列データ生成部
103 制約付時系列データ生成部
104 スコア算出部
105 スコア評価部
106 出力部
107 データ記憶部

Claims (7)

  1. 異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、
    前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、
    前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段と
    を備えることを特徴とするデータ評価装置。
  2. 前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割して得られた各区間に含まれる複数データを所定の期間毎に集約し、集約したデータ間で前記相関係数の算出を行う
    ことを特徴とする請求項1に記載のデータ評価装置。
  3. 前記算出手段は、前記所定の期間として、複数種類の期間を使用し、期間の種類毎に、前記複数の区間における区間毎の相関係数を算出し、
    前記評価手段は、前記期間の種類毎かつ前記区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する期間の種類及び区間を選択し、当該期間及び区間を示す情報を出力する
    ことを特徴とする請求項2に記載のデータ評価装置。
  4. 前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割せずに、所定の期間毎に集約を行い、集約が行われた第1のデータと集約が行われた第2のデータとの間で相関係数を算出し、
    前記評価手段は、前記区間毎に得られた相関係数と、前記集約が行われた第1のデータと前記集約が行われた第2のデータとの間で算出された相関係数の中で、所定の条件を満たす相関係数を決定する
    ことを特徴とする請求項1ないし3のうちいずれか1項に記載のデータ評価装置。
  5. 前記評価手段は、所定の条件を満たす相関係数が得られた区間に対応する部分の前記第1のデータ及び前記第2のデータを出力する
    ことを特徴とする請求項1ないし4のうちいずれか1項に記載のデータ評価装置。
  6. データ評価装置が実行するデータ評価方法であって、
    異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力ステップと、
    前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出ステップと
    前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価ステップと
    を備えることを特徴とするデータ評価方法。
  7. コンピュータを、請求項1ないし5のうちいずれか1項に記載のデータ評価装置における各手段として機能させるためのプログラム。
JP2015213314A 2015-10-29 2015-10-29 データ評価装置、データ評価方法、及びプログラム Active JP6595884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015213314A JP6595884B2 (ja) 2015-10-29 2015-10-29 データ評価装置、データ評価方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015213314A JP6595884B2 (ja) 2015-10-29 2015-10-29 データ評価装置、データ評価方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017085417A true JP2017085417A (ja) 2017-05-18
JP6595884B2 JP6595884B2 (ja) 2019-10-23

Family

ID=58713340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015213314A Active JP6595884B2 (ja) 2015-10-29 2015-10-29 データ評価装置、データ評価方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6595884B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167078A (ja) * 1999-12-13 2001-06-22 Fuji Electric Co Ltd ダムまたは河川における流量予測方法
JP2008311720A (ja) * 2007-06-12 2008-12-25 Nippon Telegr & Teleph Corp <Ntt> 基準値予測方法とシステムおよびプログラム
WO2015075794A1 (ja) * 2013-11-20 2015-05-28 株式会社 東芝 電力需要予測システム、電力需要予測方法、需要家プロファイリングシステム、及び需要家プロファイリング方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167078A (ja) * 1999-12-13 2001-06-22 Fuji Electric Co Ltd ダムまたは河川における流量予測方法
JP2008311720A (ja) * 2007-06-12 2008-12-25 Nippon Telegr & Teleph Corp <Ntt> 基準値予測方法とシステムおよびプログラム
WO2015075794A1 (ja) * 2013-11-20 2015-05-28 株式会社 東芝 電力需要予測システム、電力需要予測方法、需要家プロファイリングシステム、及び需要家プロファイリング方法

Also Published As

Publication number Publication date
JP6595884B2 (ja) 2019-10-23

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
JP4925143B2 (ja) ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ処理プログラム
US11023577B2 (en) Anomaly detection for time series data having arbitrary seasonality
US10572836B2 (en) Automatic time interval metadata determination for business intelligence and predictive analytics
EP3493109A1 (en) System and methods for faster processor comparisons of visual graph features
US10949593B2 (en) Model order reduction in transistor level timing
US9417981B2 (en) Data processing system, data processing method, and program
US20130027140A1 (en) Coupling resistance and capacitance analysis systems and methods
WO2014045351A1 (ja) 時系列データ蓄積装置
JP6595884B2 (ja) データ評価装置、データ評価方法、及びプログラム
WO2018171289A1 (zh) 向数据库存储数据的方法、设备、中间件设备和服务器
US20120158619A1 (en) Optimal rule set management
WO2018044955A1 (en) Systems and methods for measuring collected content significance
US8453101B1 (en) Method, system and program storage device for generating accurate performance targets for active semiconductor devices during new technology node development
Carroll Detecting variation in chaotic attractors
CN108369707B (zh) 用于提供统计动态仪表数据验证的系统和方法
US9928327B2 (en) Efficient deployment of table lookup (TLU) in an enterprise-level scalable circuit simulation architecture
CN101930369A (zh) 一种面向任务迁移的组件语义匹配方法
CN112613263B (zh) 仿真验证方法、装置、电子设备和计算机可读存储介质
JP2010003770A (ja) 半導体装置の解析及び設計装置、及び半導体装置の解析及び設計方法
CN111026879B (zh) 多维度价值导向的针对意图的面向对象数值计算方法
Zhang Asymptotics of sample tail autocorrelations for tail-dependent time series: phase transition and visualization
KR20140108017A (ko) 시퀀스 데이터에서의 패턴 검색 방법 및 장치
US20170004511A1 (en) Identifying Drivers for a Metric-of-Interest
JP7059599B2 (ja) 検索処理プログラム、検索処理方法および検索処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190927

R150 Certificate of patent or registration of utility model

Ref document number: 6595884

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250