JP6595884B2 - Data evaluation apparatus, data evaluation method, and program - Google Patents
Data evaluation apparatus, data evaluation method, and program Download PDFInfo
- Publication number
- JP6595884B2 JP6595884B2 JP2015213314A JP2015213314A JP6595884B2 JP 6595884 B2 JP6595884 B2 JP 6595884B2 JP 2015213314 A JP2015213314 A JP 2015213314A JP 2015213314 A JP2015213314 A JP 2015213314A JP 6595884 B2 JP6595884 B2 JP 6595884B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- quality information
- network quality
- correlation coefficient
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、複数のデータソースから取得されるデータの信頼性を評価し、向上させる技術に関連するものである。 The present invention relates to a technique for evaluating and improving the reliability of data acquired from a plurality of data sources.
ネットワークにおける品質情報(例:スループット)は、様々な方法で取得できる。例えば、ネットワークの内部の通信装置に測定器を接続し、当該測定器による測定結果として品質情報を取得できる。また、例えば、外部の調査機関による通信速度の実測結果等を品質情報として取得することもできる。 Quality information (eg, throughput) in the network can be obtained in various ways. For example, a measurement device can be connected to a communication device inside the network, and quality information can be acquired as a measurement result by the measurement device. In addition, for example, a measurement result of a communication speed by an external research organization can be acquired as quality information.
上記のように、各種の情報源(これをデータソースと呼ぶ)から品質情報(これをデータと呼ぶ)を取得することが可能である。 As described above, it is possible to acquire quality information (referred to as data) from various information sources (referred to as data sources).
しかしながら、全てのデータソースから得られたデータが信頼できるものであるとは限らない。従って、データソースから得られたデータが信頼できるものであるかどうかをチェックする必要がある。例えば、データの信頼性チェックのために、複数のデータソースから得られたデータ同士を比較して、データ間の相関値が高ければ、いずれのデータも信頼性があると判断し、テータ間の相関値が低ければ、少なくともどちらかのデータは信頼できないと判断することが考えられる。 However, data obtained from all data sources is not always reliable. Therefore, it is necessary to check whether the data obtained from the data source is reliable. For example, for data reliability check, data obtained from multiple data sources are compared, and if the correlation value between the data is high, it is determined that any data is reliable, and If the correlation value is low, it may be determined that at least one of the data is not reliable.
また、品質情報等のデータは、一般に時系列データとして得られるが、当該時系列データにおける全時刻のデータが信頼できるデータであるとは限らず、例えば、特定の時間帯のデータのみが信頼できるデータである場合がある。一例として、夜間などネットワークが混雑している時間帯では、品質情報を安定して計測できないことが多く、信頼できる品質情報が得られるとは限らない。逆に、ネットワークがそれほど混雑していない特定の時間帯では、信頼できるネットワークの品質情報を取得できることが期待できる。 In addition, data such as quality information is generally obtained as time-series data. However, data at all times in the time-series data is not always reliable, for example, only data in a specific time zone can be trusted. May be data. As an example, quality information cannot be stably measured in a time zone where the network is congested such as at night, and reliable quality information is not always obtained. Conversely, it can be expected that reliable network quality information can be acquired in a specific time zone where the network is not so congested.
従って、例えば、データの信頼性チェックのために、複数のデータソースから得られた生のデータ同士を比較した場合には相関が低くても、特定の時間帯で見てみると相関が高い場合が生じることが考えられる。しかしながら、このような時系列データの特性を考慮して、データの信頼性を評価することができる従来技術はなかった。 So, for example, when comparing raw data obtained from multiple data sources to check the reliability of the data, the correlation is low, but the correlation is high when viewed in a specific time zone. May occur. However, there has been no conventional technique that can evaluate the reliability of data in consideration of the characteristics of such time-series data.
なお、時系列のデータに付随する時刻は、当該データの属性の1つである。上記のような問題は、データの属性が時刻であるデータに限らずに生じ得る問題である。 Note that the time associated with time-series data is one of the attributes of the data. The problem as described above is a problem that may occur without being limited to data whose data attribute is time.
本発明は上記の点に鑑みてなされたものであり、あるデータソースから得られたデータの信頼性を、データの属性に係る特性を考慮して評価することを可能とする技術を提供することを目的とする。 The present invention has been made in view of the above points, and provides a technique that makes it possible to evaluate the reliability of data obtained from a certain data source in consideration of the characteristics relating to the attributes of the data. With the goal.
本発明の実施の形態によれば、異なるデータソースから得られた第1のネットワーク品質情報と第2のネットワーク品質情報であって、重複する属性である信号強度を有する第1のネットワーク品質情報と第2のネットワーク品質情報を入力する入力手段と、
前記信号強度に基づいて、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報のそれぞれを、複数の区間に分割し、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報における同じ区間のネットワーク品質情報間での相関係数を算出する算出手段と、
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段と
を備えることを特徴とするデータ評価装置が提供される。
According to the embodiment of the present invention, a first network quality information and the second network quality information obtained from different data sources, and the first network quality information having a signal strength which is a duplicate attribute Input means for inputting second network quality information ;
Based on the signal strength , each of the first network quality information and the second network quality information is divided into a plurality of sections, and the same in the first network quality information and the second network quality information . A calculation means for calculating a correlation coefficient between the network quality information of the sections;
Among correlation coefficients obtained for each section in the plurality of sections, a correlation coefficient satisfying a predetermined condition is determined, a section corresponding to the correlation coefficient is selected, and information indicating the section is output. A data evaluation apparatus comprising: an evaluation means.
また、本発明の実施の形態によれば、データ評価装置が実行するデータ評価方法であって、
異なるデータソースから得られた第1のネットワーク品質情報と第2のネットワーク品質情報であって、重複する属性である信号強度を有する第1のネットワーク品質情報と第2のネットワーク品質情報を入力する入力ステップと、
前記信号強度に基づいて、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報のそれぞれを、複数の区間に分割し、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報における同じ区間のネットワーク品質情報間での相関係数を算出する算出ステップと
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価ステップと
を備えることを特徴とするデータ評価方法が提供される。
Moreover, according to the embodiment of the present invention, a data evaluation method executed by the data evaluation device,
A first network quality information obtained from different data sources and the second network quality information, input for inputting the first network quality information and a second network quality information having a signal strength which is a duplicate attribute Steps,
Based on the signal strength , each of the first network quality information and the second network quality information is divided into a plurality of sections, and the same in the first network quality information and the second network quality information . A step of calculating a correlation coefficient between network quality information of the sections, and determining a correlation coefficient satisfying a predetermined condition among the correlation coefficients obtained for each section in the plurality of sections; There is provided an evaluation step including selecting an interval corresponding to a number and outputting information indicating the interval.
本発明の実施の形態によれば、あるデータソースから得られたデータの信頼性を、データの属性に係る特性を考慮して評価することを可能とする技術が提供される。 According to the embodiment of the present invention, there is provided a technique that makes it possible to evaluate the reliability of data obtained from a certain data source in consideration of characteristics related to the attribute of the data.
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment.
例えば、本実施の形態では、評価対象のデータとして、品質情報等、属性として時刻を有するデータを用いているが、本発明は、属性として時刻を有するデータに限らず、時刻とは関連のない種々のデータにも適用可能である。 For example, in the present embodiment, data having time as an attribute, such as quality information, is used as data to be evaluated, but the present invention is not limited to data having time as an attribute, and is not related to time. It can be applied to various data.
(システム構成)
図1に、本実施の形態に係るシステムの全体構成図を示す。図1に示すように、本実施の形態におけるシステムは、データ評価装置100、及び複数のデータソースを有する。図1には、例として、複数のデータソースにおけるデータソース1、データソース2が示されている。
(System configuration)
FIG. 1 shows an overall configuration diagram of a system according to the present embodiment. As shown in FIG. 1, the system in the present embodiment includes a
本実施の形態におけるデータ評価装置100は、データソース1から得られたデータと、データソース2から得られたデータとを比較することで、これらのデータの評価を行う。具体的な処理内容については後述する。
The
本実施の形態における評価対象のデータは、ネットワークの品質情報等の時系列データであることを想定しているが、これは一例に過ぎず、データ評価装置100が評価対象とするデータは、特定の種類のデータに限定されない。なお、本実施の形態における「時系列データ」は、等間隔の時刻順に並んだデータのみならず、等間隔でない時刻順に並んだデータも含むものとする。
Although the data to be evaluated in this embodiment is assumed to be time-series data such as network quality information, this is only an example, and the data to be evaluated by the
データソース1、2はそれぞれ、例えば、あるネットワークの品質情報を測定する測定器である。つまり、この場合、データソース1は、当該ネットワークの品質情報を測定する測定器であり、データソース2は、当該ネットワークの品質情報を測定する別の測定器である。
Each of the
また、例えば、データソース1が、当該ネットワークの品質情報を当該ネットワーク内部で測定する測定器であり、データソース2が、当該ネットワークに対する外部の調査機関であってもよい。
Further, for example, the
本実施の形態の技術は、例えば、一方のデータソースのデータが信頼でき(例:内部測定データ)、他方のデータソースのデータの信頼性が不明である(例:外部調査機関のデータ)場合に適用し、信頼性不明のデータが、信頼できるデータとどの程度類似するか(相関があるか)を評価することで、信頼性不明のデータの信頼性を評価できる。 The technique of this embodiment is, for example, when the data of one data source is reliable (eg, internal measurement data), and the reliability of the data of the other data source is unknown (eg, data from an external research institution) The reliability of data with unknown reliability can be evaluated by evaluating to what extent the data with unknown reliability is similar to the reliable data (whether there is a correlation).
ただし、これは一例であり、両方のデータの信頼性が不明であってもよい。両方のデータの信頼性が不明であっても、例えば、ある時間帯での相関が高ければ、当該時間帯でのデータの信頼性は高いことが推定でき、当該時間帯のデータを抽出することで、その後の分析等に使用できる。また、本実施の形態の技術は、両方のデータの信頼性が高いと考えられる場合にも適用できる。両方のデータの信頼性が高いと考えられる場合でも、全ての時刻で信頼性が高いとは限らず、本実施の形態の技術を適用することで、例えば、信頼性が高い時間帯や集計期間等を特定できる。 However, this is an example, and the reliability of both data may be unknown. Even if the reliability of both data is unknown, for example, if the correlation in a certain time zone is high, it can be estimated that the reliability of the data in that time zone is high, and the data in that time zone should be extracted And can be used for subsequent analysis. Further, the technique of the present embodiment can also be applied when it is considered that the reliability of both data is high. Even when the reliability of both data is considered high, the reliability is not always high at all times. By applying the technology of the present embodiment, for example, a highly reliable time zone or total period Etc. can be specified.
(データ評価装置100の構成例)
図2に、本実施の形態におけるデータ評価装置100の構成例を示す。図2に示すように、データ評価装置100は、入力部101、間隔別時系列データ生成部102、制約付時系列データ生成部103、スコア算出部104、スコア評価部105、出力部106、及びデータ記憶部107を備える。各部の機能の詳細については、各部により実行される処理の内容として後述する。各部の概要は以下のとおりである。
(Configuration example of data evaluation apparatus 100)
FIG. 2 shows a configuration example of the
入力部101は、各データソースからのデータを入力する。間隔別時系列データ生成部102は、入力部100により入力されたデータから、間隔別(例:日毎、週毎、月毎)の時系列データを生成する。「間隔」は、「期間」と称してもよい。
The
制約付時系列データ生成部103は、入力部100により入力されたデータから、制約(例:1日のうちの特定の時間のデータを利用する制約)の付いた間隔別の時系列データを生成する。なお、本実施の形態では、当該制約は、1日のうちの特定の時間帯、曜日等の「区間」に基づき実施される。
The constrained time-series
スコア算出部104は、間隔別時系列データ生成部102により生成された間隔別時系列データ、及び制約付時系列データ生成部103により生成された制約付時系列データのそれぞれについて、データソース1とデータソース2との間の相関を計算し、得られた相関係数(関連度合いの大きさ)をスコアとする。
The
スコア評価部105は、スコア算出部104により得られたスコアを評価することにより、相関が高い間隔/制約を決定する。出力部106は、スコア評価部105により決定された間隔/制約の情報や、当該間隔/制約に対応するデータ等を出力する。データ記憶部107は、各部の処理中のデータ、処理結果のデータ、スコア等を一時的に記憶したり、スコア評価で使用する閾値等を記憶する。
The
本実施の形態に係るデータ評価装置100は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、データ評価装置100が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、データ評価装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
The
(データ評価装置100が実行する処理手順)
図3は、データ評価装置100が実行する処理の手順を示すフローチャートである。図3に示すフローチャートの手順に沿って、以下、データ評価装置100が実行する処理内容を詳細に説明する。
(Processing procedure executed by the data evaluation apparatus 100)
FIG. 3 is a flowchart showing a procedure of processing executed by the
<ステップS101:データ入力>
まず、データ評価装置100の入力部101により、データソース1とデータソース2のそれぞれからデータを入力する。以下、データソース1のデータをDATA1とし、データソース2のデータをDATA2とする。
<Step S101: Data Input>
First, data is input from each of the
DATA1とDATA2はそれぞれ、例えば、ネットワークの品質情報と、当該品質情報を取得した時刻を示す時刻情報とを含む時系列データである。当該時刻情報は、品質の計測を行った実際の時刻でもよいし、例えば「1時間毎の平均品質」がデータソースから提供されるような場合においては、当該時刻情報は、時間(0時、1時、...等)でもよい。また、これら以外の情報でもよい。 Each of DATA 1 and DATA 2 is time-series data including, for example, network quality information and time information indicating the time when the quality information is acquired. The time information may be the actual time when the quality is measured. For example, in the case where “average quality every hour” is provided from the data source, the time information is the time (0:00, 1 o'clock, etc.). Information other than these may be used.
図4に、入力データの一例を示す。図4は、DATA1とDATA2がともに、1月1日(1/1)から6月30日(6/30)までの時間毎のデータである場合を示している。例として、1/1の「2」の下の欄には、1/1のAM2時〜AM3時における平均品質等の値が存在する。なお、DATA1とDATA2の区別を分かり易くするために、DATA1については実線の表で示し、DATA2については点線の表で示している。以下、他の図でも同様である。 FIG. 4 shows an example of input data. FIG. 4 shows a case where both DATA 1 and DATA 2 are data for each hour from January 1 (1/1) to June 30 (6/30). As an example, in the column below “2” of 1/1, there are values such as average quality at 1/1 AM2 to AM3. In order to make the distinction between DATA 1 and DATA 2 easier to understand, DATA 1 is indicated by a solid line table, and DATA 2 is indicated by a dotted line table. The same applies to the other drawings.
また、入力部101あるいは他の機能部が、入力されたデータにおける特異値を削除して、特異値を削除した入力データを以降の処理に用いることとしてもよい。
Alternatively, the
<ステップS102:間隔別時系列データ生成>
次に、間隔別時系列データ生成部102が、ステップS101において入力されたDATA1とDATA2のそれぞれについて、間隔別時系列データを生成する。用いる間隔は、例えば、日、週、月等である。つまり、DATA1とDATA2のそれぞれについて、間隔別時系列データとして、日毎、週毎、月毎等の時系列データを生成する。例として、週毎の場合、DATA1における開始時刻から1週間の間のデータの平均値(代表値でもよい)を計算し、以降、1週間毎の平均値を計算し、時系列データとする。DATA2も同様である。
<Step S102: Generate Time Series Data by Interval>
Next, Interval time-series
ここで、上記の例では、間隔の種類が3であるが、間隔の種類の数は3に限られない。間隔の種類の数をNとし、間隔の種類を示すインデックスをkとして、間隔別時系列データをtskと表すことにすると、ステップS102では、DATA1とDATA2のそれぞれについて、ts1,ts2,....tsNが生成される。ここではこれを、DATA1については、DATA1ts1,DATA1ts2,....DATA1tsNと表し、DATA2については、DATA2ts1,DATA2ts2,....DATA2tsNと表す。 Here, in the above example, the type of interval is 3, but the number of types of interval is not limited to 3. Assuming that the number of interval types is N, the index indicating the interval type is k, and the time-series data by interval is expressed as ts k , in step S102, for each of DATA 1 and DATA 2 , ts 1 , ts 2 , ... ts N is generated. Here, for DATA 1 , DATA 1 ts 1 , DATA 1 ts 2 ,. DATA 1 represents a ts N, for DATA 2 are, DATA 2 ts 1, DATA 2 ts 2, .... DATA 2 ts N.
図5は、DATA1とDATA2のそれぞれから、日毎、週毎、月毎の時系列データを生成する場合の生成データの例を示す。図5に示すように、日毎の時系列データとして、DATA1ts1とDATA2ts1が生成され、週毎の時系列データとして、DATA1ts2とDATA2ts2が生成され、月毎の時系列データとして、DATA1ts3とDATA2ts3が生成される。 FIG. 5 shows an example of generated data when generating time-series data for each day, week, and month from each of DATA 1 and DATA 2 . As shown in FIG. 5, DATA 1 ts 1 and DATA 2 ts 1 are generated as time series data for each day, and DATA 1 ts 2 and DATA 2 ts 2 are generated as time series data for each week. DATA 1 ts 3 and DATA 2 ts 3 are generated as time series data.
<ステップS103:間隔別時系列データについてのスコア算出>
次に、スコア算出部104が、ステップS102で使用した間隔毎に、DATA1の間隔別時系列データとDATA2の間隔別時系列データとを比較する(つまり、相関を計算する)ことにより、相関係数を算出し、これをスコアを算出する。算出されたスコアはデータ記憶部107に格納される。相関の計算については、2つの時系列データ間の相関を算出する一般的な相関関数を使用することができる。算出されたスコア(例えば、−1〜1の値)が大きいほど、比較した時系列データ間の類似性が高いことを示す。
<Step S103: Score Calculation for Time Series Data by Interval>
Next, the
より具体的には、図5に示すように、日毎、週毎、月毎の時系列データの場合、DATA1とDATA2の日毎の時系列データであるDATA1ts1とDATA2ts1とを比較してスコア(p1)が算出される。また、DATA1とDATA2の週毎の時系列データであるDATA1ts2とDATA2ts2とを比較してスコア(p2)が算出される。更に、DATA1とDATA2の月毎の時系列データであるDATA1ts3とDATA2ts3とを比較してスコア(p3)が算出される。 More specifically, as shown in FIG. 5, daily, weekly, if the time-series data of each month, the DATA 1 ts 1 and DATA 2 ts 1 is a time series data of daily DATA 1 and DATA 2 Are compared to calculate a score (p1). Also, the score (p2) is calculated by comparing DATA 1 ts 2 and DATA 2 ts 2 which are the time series data of DATA 1 and DATA 2 for each week. Furthermore, the score (p3) is calculated by comparing DATA 1 ts 3 and DATA 2 ts 3 which are time series data of DATA 1 and DATA 2 every month.
図3〜図5では、間隔の種類の数Nが3なので、3つのスコアp1、p2、p3が得られるが、一般にはN個のスコアを得る。 In FIG. 3 to FIG. 5, since the number N of types of intervals is 3, three scores p1, p2, and p3 are obtained. In general, N scores are obtained.
<ステップS104:制約付時系列データ生成>
次に、制約付時系列データ生成部103が、入力データから制約付時系列データを生成する。ここでは、データソース1のDATA1とデータソース2のDATA2との間の共通の属性を予め定めておき、当該属性を用いて、DATA1とDATA2のぞれぞれについての制約付時系列データを生成する。例えば、DATA1には35個の属性があり、DATA2には12個の属性があり、共通の属性が3つであるとすれば、当該3つの属性のそれぞれで制約付時系列データを生成することができる。
<Step S104: Constrained time series data generation>
Next, the constrained time series
本実施の形態における共通の属性とは、例えば、時系列データにおける時に関する属性であり、例えば、1日の中の時間、1日の中の時間帯(例:6時間毎の時間帯)、曜日、平日/週末等がある。また、データの内容に基づき属性としてもよい。例えば、データが品質としての信号強度を有する場合、信号強度を属性とすることができる。この場合、例えば、信号強度の強さを段階(区間)に分けて、後述するチャンクを生成する。また、共通の属性は、データソースから得たデータに含まれている属性であってもよいし、データソースから得たデータを処理することで付加した属性であってもよい。 Common attributes in the present embodiment are, for example, attributes related to time in time-series data. For example, time in a day, time zone in a day (eg, time zone every 6 hours), There are days of the week, weekdays / weekends, etc. Moreover, it is good also as an attribute based on the content of data. For example, when data has signal strength as quality, signal strength can be used as an attribute. In this case, for example, the strength of the signal strength is divided into stages (sections), and a chunk described later is generated. The common attribute may be an attribute included in data obtained from the data source, or may be an attribute added by processing data obtained from the data source.
より具体的には、例えば、共通の属性を「1日の中の時間」とすると、制約付時系列データ生成部103は、DATA1とDATA2のそれぞれについて、当該データを時間毎のセグメントに分ける。つまり、この場合、AM0時〜AM1時のデータ、AM1時〜AM2時のデータ、....PM10時〜PM11時のデータ、PM11時〜AM0時のデータ、のように、24個のセグメントに分ける。なお、データの全体が、例えば6ヵ月間のデータであるとすると、例えば「AM0時〜AM1時のデータ」には、6ヵ月間の各日の「AM0時〜AM1時のデータ」が含まれることになる。
More specifically, for example, when the common attribute is “time in one day”, the constrained time-series
他の例として、例えば、共通の属性が「曜日」であるとすると、DATA1とDATA2のそれぞれについて、当該データは、月曜日のデータ、火曜日のデータ、...日曜日のデータ、のように7つのセグメントに分けられる。データの全体が、例えば6ヵ月間のデータであるとすると、例えば「月曜日のデータ」には、6ヵ月間の各月曜日のデータが含まれることになる。 As another example, for example, if the common attribute is “day of the week”, for each of DATA 1 and DATA 2 , the data is as follows: Monday data, Tuesday data,. Divided into 7 segments. If the entire data is, for example, data for six months, for example, “Monday data” includes data for each Monday for six months.
本実施の形態では、上記のようにしてデータを分割して得たセグメントを「チャンク」と呼び、cで表わす。そして、例えば、AM0時〜AM1時のデータ、AM1時〜AM2時のデータ、....PM10時〜PM11時のデータ、PM11時〜AM0時のデータ、のように、24個のチャンクに分ける場合、これらのチャンクは、時間の古い順に、c1、c2、...、c24と表現する。一般に、m個のチャンクに分ける場合、c1、c2、...、cmと表すことができる。
In the present embodiment, a segment obtained by dividing data as described above is called a “chunk” and is represented by c. And, for example, data from AM0 to AM1, data from AM1 to AM2,. When the data is divided into 24 chunks, such as data from PM10: 00 to PM11: 00 and data from PM11: 00 to AM0, these chunks are c 1 , c 2 ,..., C 24 in chronological order. It expresses. In general, when divided into m number of chunks,
上記のように、DATA1とDATA2のそれぞれをチャンクに分けた後、各チャンクについて集約を行う。なお、集約をせずにチャンクのデータ間の相関を取ることとしてもよい。 As described above, after dividing each of DATA 1 and DATA 2 into chunks, aggregation is performed for each chunk. Note that the correlation between chunk data may be obtained without aggregation.
本実施の形態における集約は、ステップS102で説明した間隔別時系列データを生成することにより実行する。例えば、データの全体が6ヵ月間のデータであるとして、属性が「1日の中の時間」で、データを24個のチャンクに分けた場合において、各チャンク(例:「AM0時〜AM1時」の6ヵ月間のデータ)に対し、ステップS102で説明したように、日毎、週毎、月毎等の時系列データを生成する。 Aggregation in the present embodiment is executed by generating time-series data by interval described in step S102. For example, assuming that the entire data is data for 6 months and the attribute is “time in a day” and the data is divided into 24 chunks, each chunk (eg, “AM0 hour to AM1 hour”) As shown in step S102, time-series data such as daily, weekly, monthly, etc. is generated.
例えば、属性が「1日の中の時間」である場合において、DATA1のチャンクc1(「AM0時〜AM1時」)における日毎(ts1)の時系列データは、DATA1ts1c1と表わされる。より一般に、間隔の種類がN、チャンクの数がmであるとすると、ステップS104において、制約付時系列データ生成部103は、DATA1から「DATA1ts1c1、DATA1ts1c2、....DATA1ts1cm、DATA1ts2c1、DATA1ts2c2、....DATA1ts2cm、....DATA1tsNc1、DATA1tsNc2、....DATA1tsNcm」を生成し、DATA2から「DATA2ts1c1、DATA2ts1c2、....DATA2ts1cm、DATA2ts2c1、DATA2ts2c2、....DATA2ts2cm、....DATA2tsNc1、DATA2tsNc2、....DATA2tsNcm」を生成する。また、上記の例は、属性が1つの場合であるが、複数の属性(M個とする)についての制約付時系列データを生成する場合は、上記のデータのセットがM個生成される。
For example, when the attribute is a "time of day", time-series data of daily (ts 1) in the chunk c 1 DATA 1 ( "o'clock AM0 o'clock ~AM1") is,
図6〜図8は、属性が「1日の中の時間」である場合における制約付時系列データの例を示している。図6は、チャンク分割した後に、日毎に集約した時系列データを示す。例えば、DATA1ts1c1は、DATA1のAM0時〜AM1時のチャンクにおけるデータに対して日毎に平均値を求めて時系列データとしたものである。 6 to 8 show examples of constrained time series data when the attribute is “time in one day”. FIG. 6 shows time-series data aggregated every day after the chunk division. For example, DATA 1 ts 1 c 1 is obtained by obtaining an average value for each day of data in the chunk of DATA 1 from AM0 to AM1 and making it time-series data.
図7は、チャンク分割した後に、週毎に集約した時系列データを示す。例えば、DATA1ts2c1は、DATA1のAM0時〜AM1時のチャンクにおけるデータに対して週毎に平均値を求めて時系列データとしたものである。また、図8は、チャンク分割した後に、月毎に集約した時系列データを示す。例えば、DATA1ts3c1は、DATA1のAM0時〜AM1時のチャンクにおけるデータに対して月毎に平均値を求めて時系列データとしたものである。 FIG. 7 shows time-series data aggregated every week after chunk division. For example, DATA 1 ts 2 c 1 is obtained by obtaining an average value for each week of the data in the chunk of DATA 1 from AM0 to AM1 and making it time-series data. FIG. 8 shows time-series data aggregated every month after chunk division. For example, DATA 1 ts 3 c 1 is obtained by the time-series data to determine the average value for each month for the data in the chunk at AM0 o'clock ~AM1 of DATA 1.
<ステップS105:制約付時系列データについてのスコア算出>
次に、スコア算出部104が、ステップS104で得られた制約付時系列データ毎に、データソース間での相関を計算して、スコアを算出する。つまり、DATA1ts1c1とDATA2ts1c1との間のスコア、DATA1ts1c2とDATA2ts2c2との間のスコア、....DATA1ts1cmとDATA2ts1cmとの間のスコア、DATA1ts2c1とDATA2ts2c1との間のスコア、......、DATA1tsNcmとDATA2tsNcmとの間のスコアを算出する。相関の計算方法はステップS103での計算方法と同じである。
<Step S105: Score Calculation for Restricted Time Series Data>
Next, the
そして、間隔毎にスコアが最大となるチャンクを求め、そのスコアと、当該スコアが得られたチャンクの情報(どの区間のチャンクかを示す情報)をデータ記憶部107に格納する、例えば、属性が1日の時間の場合に、日毎については、DATA1ts1c1とDATA2ts1c1との間のスコア、DATA1ts1c2とDATA2ts2c2との間のスコア、....DATA1ts1cmとDATA2ts1c24との間のスコア、のように、24個のスコアが得られ、このうちの最大値をとるチャンク(例:PM3時〜PM4時のチャンク)を特定し、その情報とそのスコアをデータ記憶部107に格納する。週毎のデータ、月毎のデータについても同様である。
Then, the chunk having the maximum score is obtained for each interval, and the score and the information of the chunk from which the score is obtained (information indicating which section of the chunk) is stored in the
例えば、図6に示すように、日毎の時系列データについて、チャンク毎にスコアを求め、最大値p4を得る。また、図7に示す例では、週毎の時系列データについて、チャンク毎にスコアを求め、最大値p5を得る。また、図8に示す例では、月毎の時系列データについて、チャンク毎にスコアを求め、最大値p6を得る。 For example, as shown in FIG. 6, for the time-series data for each day, a score is obtained for each chunk to obtain a maximum value p4. In the example shown in FIG. 7, for the time-series data for each week, a score is obtained for each chunk to obtain the maximum value p5. Further, in the example shown in FIG. 8, a score is obtained for each chunk of the time series data for each month, and the maximum value p6 is obtained.
図6〜図8は、間隔の種類の数Nが3なので、3つの最大値p4、p5、p6が得られるが、一般にはN個の最大値を得る。なお、Nは1であってもよい。 In FIGS. 6 to 8, since the number N of types of intervals is 3, three maximum values p4, p5, and p6 are obtained. In general, N maximum values are obtained. N may be 1.
また、上記の例は、属性が1つの場合であるが、複数の属性(M個とする)についての制約付時系列データを生成する場合は、スコアのセットがM個生成されるので、最大値のスコアは、N×M個得られる。 In addition, the above example is a case where there is one attribute. However, when generating constrained time-series data for a plurality of attributes (M), since M score sets are generated, the maximum N × M value scores are obtained.
なお、ステップS103で説明した間隔別時系列データについてのスコア算出を、間隔別時系列データと制約付時系列データを生成した後に、制約付時系列データについてのスコア算出とともに行うこととしてもよい。また、ステップS103で説明した間隔別時系列データについてのスコア算出を行わないこととしてもよい。この場合、p1〜p6で説明した例において、p4、p5、p6のみで下記の評価が行われることになる。また、この場合に、Nが1であれば、1つのスコア(例:p4)のみに対して下記の評価が行われることになる。 The score calculation for the time series data by intervals described in step S103 may be performed together with the score calculation for the time series data with constraints after generating the time series data by intervals and the time series data with constraints. Moreover, it is good also as not performing the score calculation about the time-sequential data classified by interval demonstrated by step S103. In this case, in the example described in p1 to p6, the following evaluation is performed using only p4, p5, and p6. In this case, if N is 1, the following evaluation is performed only for one score (eg, p4).
<ステップS106:スコア評価>
次に、スコア評価部105が、これまでの処理によりデータ記憶部107に格納されたスコアを評価する。
<Step S106: Score Evaluation>
Next, the
これまでに説明したとおり、間隔の数がN(例:日毎、週毎、月毎の場合、N=3)、属性の数がM(例:「1日の中の時間」のみを使用する場合、M=1)である場合に、ステップS103ではN個のスコアが得られ、ステップS106では、評価対象とするスコアとして、N×M個のスコアが得られるので、全体のスコアの数はN+N×M(=N(1+M))である。 As described above, the number of intervals is N (eg, daily, weekly, monthly, N = 3), and the number of attributes is M (eg, “time in one day”). In this case, if M = 1), N scores are obtained in step S103, and N × M scores are obtained as evaluation target scores in step S106. Therefore, the total number of scores is N + N × M (= N (1 + M)).
スコア評価部105は、N(1+M)個のスコアの中から最大のスコアを選択する。選択されたスコア、及び、当該スコアが得られた間隔及びチャンクの情報(制約の情報)が出力の対象となる。
The
また、ある閾値(あるいはベンチマーク)を定めておき、最大のスコアが当該閾値を超えるかどうかを判定し、超える場合に、当該最大のスコア、当該スコアに係る間隔及びチャンクの情報(制約の情報)を出力の対象として決定してもよい。 Also, a certain threshold value (or benchmark) is determined, and it is determined whether or not the maximum score exceeds the threshold value. If so, the maximum score, the interval related to the score, and chunk information (constraint information) May be determined as an output target.
また、N(1+M)個のスコアを降順(大きいものから小さいもの)にソートして、閾値(ベンチマーク)を超える全てのスコア、及び当該スコアに係る間隔及びチャンクの情報(制約の情報)を出力の対象として決定してもよい。また、予め所定数Pを定め、閾値(ベンチマーク)を超える全てのスコアの中で、上位P個のスコアを出力対象として決定してもよい。 In addition, N (1 + M) scores are sorted in descending order (from largest to smallest), and all scores that exceed the threshold (benchmark), and interval and chunk information (constraint information) related to the score are output. It may be determined as a target of. Alternatively, a predetermined number P may be determined in advance, and the top P scores among all scores exceeding the threshold (benchmark) may be determined as output targets.
図5〜図8に示した例(間隔=(日毎、週毎、月毎)、属性=(1日の中の時間))においては、p1、p2、....p6の6個(N(1+M)=3(1+1)=6)のスコアが得られるので、例えば、これらのうちの最大のスコア(あるいは、閾値(ベンチマーク)を超えるスコア)が出力対象のスコアとして決定される。 5 to 8 (interval = (daily, weekly, monthly), attribute = (time in one day)), p1, p2,. Since six scores of p6 (N (1 + M) = 3 (1 + 1) = 6) are obtained, for example, the maximum score (or the score exceeding the threshold (benchmark)) among these is the output target score. It is determined.
なお、上記の例では、正の相関が大きなスコアを出力対象とすることを想定しているが、これは例であり、負の方向に相関が大きなスコア(つまり、負の相関係数の絶対値が大きなスコア)を出力対象とすることとしてもよい。 In the above example, it is assumed that a score with a large positive correlation is output, but this is an example, and a score with a large correlation in the negative direction (that is, the absolute value of the negative correlation coefficient) A score with a large value) may be output.
<ステップS107:データ出力>
ステップS107では、出力部106が、ステップS106において出力対象として決定されたスコア、及び、当該スコアが得られた間隔、及びチャンクの情報を出力する。これらに加えて、当該スコアが得られた時系列データを出力してもよい。この場合、例えば、図5〜図8に示した例において、週毎のPM3時〜PM4時のチャンクにおけるスコアが出力対象として決定された場合に、DATA1ts2c16とDATA2ts2c16を出力する。また、この場合、週毎に集約する前のチャンクデータを出力してもよい。なお、入力データや、処理の過程で得られた時系列データ等はデータ記憶部107に格納されているので、ここからデータを読み出すことで出力することができる。ただし、使用しないデータはデータ記憶部107から削除することとしてもよい。
<Step S107: Data output>
In step S107, the
また、これまでに説明した処理において、データソース間でデータ(生データでもよいし、間隔別時系列データでもよいし、制約付時系列データでもよい)を時間方向にずらして相関を取った場合に、高い相関係数(例:ベンチマークを超える相関係数)が得られる場合には、当該ずらした時間長を出力してもよい。 In the processing described so far, when data is correlated between data sources (raw data, time-series data by interval, or time-series data with constraints) may be shifted in the time direction. In addition, when a high correlation coefficient (eg, a correlation coefficient exceeding the benchmark) is obtained, the shifted time length may be output.
ここで、時間方向にずらすとは、例えば、生データであれば、比較するデータソース間における一方の取得データの時刻(タイムスタンプ)を、入力部101により、所定の時間だけ増加(又は減少)させ、当該所定の時間だけ増加(又は減少)させたタイムスタンプの付いたデータを入力データとして、これまでに説明した処理を行うことである。また、間隔別時系列データの場合であれば、間隔別時系列データ生成部102により、例えば、間隔(例:日、図3のDATA1ts1)を単位として、一方のデータの時刻を所定の時間だけ増加(又は減少)させ、当該増加(又は減少)を行ったデータと、他方のデータとの間で相関係数を計算する。一例として、図3のDATA1ts1の時刻を2日間だけずらす場合、ずらす前の1/1の欄のデータが、1/3の欄に移り、ずらす前の1/2の欄のデータが、1/4の欄に移り、といったようにずらす。もしくは、データの位置を変えずに、1/3を1/1に変更するといったように、時刻のほうを変えてもよい。他の間隔、また、制約付時系列データについても同様である。
Here, shifting in the time direction means that, for example, in the case of raw data, the time (time stamp) of one acquired data between the data sources to be compared is increased (or decreased) by a predetermined time by the
時間方向でずらす処理を含める場合、例えば、複数の方向付きの時間長(例:データソース1について、A時間増加、A時間減少、0時間増加/減少、B時間増加、B時間減少)を予め用意しておき、時間長毎に処理(0時間増加/減少、つまり、これまでに説明したずらさない場合の処理を含む)を行って、全ての処理により得られたスコア全体に対して、ステップS106で説明したスコア評価処理を実施する。出力については、出力対象として決定したスコアが得られた間隔及びチャンクの情報(制約の情報)とともに、ずらす処理で用いた時間長も出力する。
When including processing to shift in the time direction, for example, time lengths with a plurality of directions (for example, for
(3以上のデータソースを使用する場合の例)
これまでデータソースの数が2である場合について説明したが、これは一例であり、データソースの数は3以上であってもよい。この場合の処理例を以下に説明する。
(Example when using 3 or more data sources)
Although the case where the number of data sources is two has been described so far, this is an example, and the number of data sources may be three or more. A processing example in this case will be described below.
ここで、データソースがX個である場合、X個から2個(比較する対象とするペア)を選択する組み合わせの数は、XC2=X!/(X−2)!2!である。例えば、X=4とすると、その数は、4C2=4!/2!2!=6となる。以下では、X=4として、A、B、C、Dの4つのデータソースのデータを使用するものとする。 Here, when there are X data sources, the number of combinations for selecting two from X (pairs to be compared) is X C 2 = X! / (X-2)! 2! It is. For example, if X = 4, the number is 4 C 2 = 4! / 2! 2! = 6. In the following, it is assumed that data of four data sources A, B, C, and D is used with X = 4.
この場合、データ評価装置100は、A、B、C、Dを取得すると、A、B、C、Dの中から2つを選択した組み合わせとして、AB、AC、AD、BC、BD、CDがあることを把握する。
In this case, when the
データ評価装置100は、組み合わせ毎に、これまでに説明した処理と同様の処理を行うことで、N(M+1)のスコアを算出する。ここで、N(間隔の数)とM(属性の数)のそれぞれの値について、データソース毎に同じでもよいし、異なっていてもよい。
The
そして、データ評価装置100は、組み合わせ毎に、N(M+1)個のスコアの中に、閾値(あるいはベンチマーク、以下同様)を超えるスコアがあるかどうかをチェックし、当該閾値を超えるスコアを有する組み合わせを抽出する。
Then, for each combination, the
例えば、AB、AC、AD、BC、BD、CDのうち、AB、CD、ADの3つの組み合わせにおいて、閾値を超えるスコアが得られたものとすると、データ評価装置100は、組み合わせ毎に、既に説明したデータを出力する。例えば、組み合わせABについては、閾値を超えるスコアが得られた間隔、制約の情報(チャンクの情報)を出力する。これらに加えて、当該スコアが得られた間隔/制約の時系列データを出力してもよい。
For example, assuming that a score exceeding a threshold value is obtained in three combinations of AB, CD, AD among AB, AC, AD, BC, BD, and CD, the
(実施の形態のまとめ)
以上、説明したように、本実施の形態によれば、異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段とを備えるデータ評価装置が提供される。
(Summary of embodiment)
As described above, according to the present embodiment, the first data and the second data obtained from different data sources, the first data and the second data having overlapping attributes are obtained. Based on the input means for inputting and the attribute, each of the first data and the second data is divided into a plurality of sections, and data in the same section in the first data and the second data And calculating a correlation coefficient between the plurality of sections, determining a correlation coefficient satisfying a predetermined condition from the correlation coefficients obtained for each of the plurality of sections, and corresponding to the correlation coefficient There is provided a data evaluation device including an evaluation unit that selects a section and outputs information indicating the section.
前記算出手段は、例えば、前記第1のデータと前記第2のデータのそれぞれについて、複数の区間に分割して得られた各区間に含まれる複数データを所定の期間毎に集約し、集約したデータ間で前記相関係数の算出を行う。 For example, for each of the first data and the second data, the calculation unit aggregates a plurality of data included in each section obtained by dividing the plurality of sections into a plurality of sections and aggregates the data. The correlation coefficient is calculated between data.
前記算出手段は、前記所定の期間として、複数種類の期間を使用し、期間の種類毎に、前記複数の区間における区間毎の相関係数を算出し、前記評価手段は、前記期間の種類毎かつ前記区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する期間の種類及び区間を選択し、当該期間及び区間を示す情報を出力することとしてもよい。 The calculating means uses a plurality of types of periods as the predetermined period, calculates a correlation coefficient for each section in the plurality of sections for each type of period, and the evaluating means calculates the period type In addition, among the correlation coefficients obtained for each section, a correlation coefficient satisfying a predetermined condition is determined, a period type and a section corresponding to the correlation coefficient are selected, and information indicating the period and section May be output.
前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割せずに、所定の期間毎に集約を行い、集約が行われた第1のデータと集約が行われた第2のデータとの間で相関係数を算出し、前記評価手段は、前記区間毎に得られた相関係数と、前記集約が行われた第1のデータと前記集約が行われた第2のデータとの間で算出された相関係数の中で、所定の条件を満たす相関係数を決定することとしてもよい。 The calculation unit aggregates the first data and the second data for each predetermined period without dividing the first data and the second data, and aggregates the first data and the aggregated data. The evaluation means calculates the correlation coefficient obtained for each section, the first data on which the aggregation is performed, and the aggregation Of the correlation coefficients calculated with the second data that has been performed, a correlation coefficient that satisfies a predetermined condition may be determined.
前記所定の条件は、例えば、相関係数が所定の閾値よりも大きいことである。また、前記第1のデータ及び前記第2のデータは、例えば時刻を属性として有するデータである。前記評価手段は、所定の条件を満たす相関係数が得られた区間に対応する部分の前記第1のデータ及び前記第2のデータを出力することとしてもよい。 The predetermined condition is, for example, that the correlation coefficient is larger than a predetermined threshold. Further, the first data and the second data are data having time as an attribute, for example. The evaluation unit may output the first data and the second data of a portion corresponding to a section in which a correlation coefficient satisfying a predetermined condition is obtained.
(第1項)
異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力手段と、
前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出手段と、
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段と
を備えることを特徴とするデータ評価装置。
(第2項)
前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割して得られた各区間に含まれる複数データを所定の期間毎に集約し、集約したデータ間で前記相関係数の算出を行う
ことを特徴とする第1項に記載のデータ評価装置。
(第3項)
前記算出手段は、前記所定の期間として、複数種類の期間を使用し、期間の種類毎に、前記複数の区間における区間毎の相関係数を算出し、
前記評価手段は、前記期間の種類毎かつ前記区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する期間の種類及び区間を選択し、当該期間及び区間を示す情報を出力する
ことを特徴とする第2項に記載のデータ評価装置。
(第4項)
前記算出手段は、前記第1のデータと前記第2のデータのそれぞれについて、前記複数の区間に分割せずに、所定の期間毎に集約を行い、集約が行われた第1のデータと集約が行われた第2のデータとの間で相関係数を算出し、
前記評価手段は、前記区間毎に得られた相関係数と、前記集約が行われた第1のデータと前記集約が行われた第2のデータとの間で算出された相関係数の中で、所定の条件を満たす相関係数を決定する
ことを特徴とする第1項ないし第3項のうちいずれか1項に記載のデータ評価装置。
(第5項)
前記評価手段は、所定の条件を満たす相関係数が得られた区間に対応する部分の前記第1のデータ及び前記第2のデータを出力する
ことを特徴とする第1項ないし第4項のうちいずれか1項に記載のデータ評価装置。
(第6項)
データ評価装置が実行するデータ評価方法であって、
異なるデータソースから得られた第1のデータと第2のデータであって、重複する属性を有する第1のデータと第2のデータを入力する入力ステップと、
前記属性に基づいて、前記第1のデータと前記第2のデータのそれぞれを、複数の区間に分割し、前記第1のデータと前記第2のデータにおける同じ区間のデータ間での相関係数を算出する算出ステップと
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価ステップと
を備えることを特徴とするデータ評価方法。
(第7項)
コンピュータを、第1項ないし第5項のうちいずれか1項に記載のデータ評価装置における各手段として機能させるためのプログラム。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
(Section 1)
Input means for inputting the first data and the second data, the first data and the second data obtained from different data sources, having overlapping attributes;
Based on the attribute, each of the first data and the second data is divided into a plurality of sections, and the correlation coefficient between the data in the same section in the first data and the second data Calculating means for calculating
Among correlation coefficients obtained for each section in the plurality of sections, a correlation coefficient satisfying a predetermined condition is determined, a section corresponding to the correlation coefficient is selected, and information indicating the section is output. Evaluation means
A data evaluation apparatus comprising:
(Section 2)
The calculation means aggregates a plurality of data included in each section obtained by dividing the plurality of sections into the plurality of sections for each of the first data and the second data, and aggregates the data. The correlation coefficient is calculated between
2. The data evaluation device according to
(Section 3)
The calculation means uses a plurality of types of periods as the predetermined period, calculates a correlation coefficient for each section in the plurality of sections for each type of period,
The evaluation means determines a correlation coefficient satisfying a predetermined condition among the correlation coefficients obtained for each type of the period and for each section, and determines the type and section of the period corresponding to the correlation coefficient. Select and output information indicating the period and section
The data evaluation apparatus according to
(Section 4)
The calculation unit aggregates the first data and the second data for each predetermined period without dividing the first data and the second data, and aggregates the first data and the aggregated data. The correlation coefficient is calculated with the second data for which
The evaluation means includes a correlation coefficient obtained for each section and a correlation coefficient calculated between the first data on which the aggregation is performed and the second data on which the aggregation is performed. To determine the correlation coefficient that satisfies the predetermined condition.
4. The data evaluation device according to any one of
(Section 5)
The evaluation unit outputs the first data and the second data of a portion corresponding to a section in which a correlation coefficient satisfying a predetermined condition is obtained.
The data evaluation device according to any one of
(Section 6)
A data evaluation method executed by a data evaluation device,
An input step of inputting first data and second data, which are first data and second data obtained from different data sources, having overlapping attributes;
Based on the attribute, each of the first data and the second data is divided into a plurality of sections, and the correlation coefficient between the data in the same section in the first data and the second data A calculation step for calculating
Among correlation coefficients obtained for each section in the plurality of sections, a correlation coefficient satisfying a predetermined condition is determined, a section corresponding to the correlation coefficient is selected, and information indicating the section is output. Evaluation steps and
A data evaluation method comprising:
(Section 7)
A program for causing a computer to function as each unit in the data evaluation device according to any one of
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
1、2 データソース
100 データ評価装置
101 入力部
102 間隔別時系列データ生成部
103 制約付時系列データ生成部
104 スコア算出部
105 スコア評価部
106 出力部
107 データ記憶部
DESCRIPTION OF
Claims (7)
前記信号強度に基づいて、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報のそれぞれを、複数の区間に分割し、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報における同じ区間のネットワーク品質情報間での相関係数を算出する算出手段と、
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価手段と
を備えることを特徴とするデータ評価装置。 A first network quality information obtained from different data sources and the second network quality information, input for inputting the first network quality information and a second network quality information having a signal strength which is a duplicate attribute Means,
Based on the signal strength , each of the first network quality information and the second network quality information is divided into a plurality of sections, and the same in the first network quality information and the second network quality information . A calculation means for calculating a correlation coefficient between the network quality information of the sections;
Among correlation coefficients obtained for each section in the plurality of sections, a correlation coefficient satisfying a predetermined condition is determined, a section corresponding to the correlation coefficient is selected, and information indicating the section is output. A data evaluation device comprising: an evaluation means.
ことを特徴とする請求項1に記載のデータ評価装置。 It said calculation means for each of said first network quality information and said second network quality information, a plurality network quality information included in each interval obtained by dividing the plurality of sections for every predetermined time period The data evaluation apparatus according to claim 1, wherein the correlation coefficient is calculated between the aggregated network quality information .
前記評価手段は、前記期間の種類毎かつ前記区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する期間の種類及び区間を選択し、当該期間及び区間を示す情報を出力する
ことを特徴とする請求項2に記載のデータ評価装置。 The calculation means uses a plurality of types of periods as the predetermined period, calculates a correlation coefficient for each section in the plurality of sections for each type of period,
The evaluation means determines a correlation coefficient satisfying a predetermined condition among the correlation coefficients obtained for each type of the period and for each section, and determines the type and section of the period corresponding to the correlation coefficient. The data evaluation apparatus according to claim 2, wherein the information is selected and information indicating the period and the section is output.
前記評価手段は、前記区間毎に得られた相関係数と、前記集約が行われた第1のネットワーク品質情報と前記集約が行われた第2のネットワーク品質情報との間で算出された相関係数の中で、所定の条件を満たす相関係数を決定する
ことを特徴とする請求項1ないし3のうちいずれか1項に記載のデータ評価装置。 The calculating means aggregates the first network quality information and the second network quality information for each predetermined period without dividing the first network quality information and the second network quality information . A correlation coefficient between the network quality information of the second network quality information and the aggregated second network quality information ,
The evaluation unit includes a correlation coefficient obtained for each of the sections, the phase calculated between the first second network quality information network quality information and the aggregate has been performed in which the aggregate is performed The data evaluation apparatus according to any one of claims 1 to 3, wherein a correlation coefficient that satisfies a predetermined condition is determined among the number of relations.
ことを特徴とする請求項1ないし4のうちいずれか1項に記載のデータ評価装置。 The said evaluation means outputs the said 1st network quality information and the said 2nd network quality information of the part corresponding to the area from which the correlation coefficient which satisfy | fills a predetermined condition was obtained. 4. The data evaluation device according to any one of 4 above.
異なるデータソースから得られた第1のネットワーク品質情報と第2のネットワーク品質情報であって、重複する属性である信号強度を有する第1のネットワーク品質情報と第2のネットワーク品質情報を入力する入力ステップと、
前記信号強度に基づいて、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報のそれぞれを、複数の区間に分割し、前記第1のネットワーク品質情報と前記第2のネットワーク品質情報における同じ区間のネットワーク品質情報間での相関係数を算出する算出ステップと
前記複数の区間における区間毎に得られた相関係数の中で、所定の条件を満たす相関係数を決定し、当該相関係数に対応する区間を選択し、当該区間を示す情報を出力する評価ステップと
を備えることを特徴とするデータ評価方法。 A data evaluation method executed by a data evaluation device,
A first network quality information obtained from different data sources and the second network quality information, input for inputting the first network quality information and a second network quality information having a signal strength which is a duplicate attribute Steps,
Based on the signal strength , each of the first network quality information and the second network quality information is divided into a plurality of sections, and the same in the first network quality information and the second network quality information . A step of calculating a correlation coefficient between network quality information of the sections, and determining a correlation coefficient satisfying a predetermined condition among the correlation coefficients obtained for each section in the plurality of sections; An evaluation step of selecting an interval corresponding to the number and outputting information indicating the interval.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015213314A JP6595884B2 (en) | 2015-10-29 | 2015-10-29 | Data evaluation apparatus, data evaluation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015213314A JP6595884B2 (en) | 2015-10-29 | 2015-10-29 | Data evaluation apparatus, data evaluation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017085417A JP2017085417A (en) | 2017-05-18 |
JP6595884B2 true JP6595884B2 (en) | 2019-10-23 |
Family
ID=58713340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015213314A Active JP6595884B2 (en) | 2015-10-29 | 2015-10-29 | Data evaluation apparatus, data evaluation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6595884B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4146053B2 (en) * | 1999-12-13 | 2008-09-03 | 富士電機システムズ株式会社 | Flow prediction method in dam or river |
JP4688083B2 (en) * | 2007-06-12 | 2011-05-25 | 日本電信電話株式会社 | Reference value prediction method, system and program |
JP6193400B2 (en) * | 2013-11-20 | 2017-09-06 | 株式会社東芝 | Electric power demand prediction system, electric power demand prediction method, customer profiling system, and customer profiling method |
-
2015
- 2015-10-29 JP JP2015213314A patent/JP6595884B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017085417A (en) | 2017-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI718643B (en) | Method and device for identifying abnormal groups | |
JP4925143B2 (en) | Stream data processing system, stream data processing method, and stream data processing program | |
US20190042956A1 (en) | Automatic configurable sequence similarity inference system | |
US11334463B2 (en) | Detection of computing resource leakage in cloud computing architectures | |
US10572836B2 (en) | Automatic time interval metadata determination for business intelligence and predictive analytics | |
US20160255109A1 (en) | Detection method and apparatus | |
JP2007329415A (en) | Data processing method, data processing program, recording medium recording same program, and data processor | |
US10394986B2 (en) | Model order reduction in transistor level timing | |
US9417981B2 (en) | Data processing system, data processing method, and program | |
US20170199895A1 (en) | Sampling-based deduplication estimation | |
JP2005352787A (en) | Method and apparatus for timing analysis | |
Eyebe Fouda et al. | Efficient detection of the quasi-periodic route to chaos in discrete maps by the three-state test | |
US9965503B2 (en) | Data cube generation | |
US10169364B2 (en) | Gauging accuracy of sampling-based distinct element estimation | |
JP6595884B2 (en) | Data evaluation apparatus, data evaluation method, and program | |
JP2019128646A (en) | Data analysis support system and data analysis support method | |
Duvignau et al. | Piecewise linear approximation in data streaming: Algorithmic implementations and experimental analysis | |
JP5405055B2 (en) | Semiconductor device analysis and design apparatus, and semiconductor device analysis and design method | |
AL-Qutami et al. | Combining Physics and Machine Learning for Multimodal Virtual Flow Metering with Confidence | |
US20130132925A1 (en) | Method, system and program storage device for generating accurate performance targets for active semiconductor devices during new technology node development | |
CN111026879B (en) | Multi-dimensional value-oriented intent-oriented object-oriented numerical calculation method | |
WO2010122748A1 (en) | Correction device, probability density function measuring device, jitter measuring device, jitter separating device, electronic device, correction method, program, and recording medium | |
JP7059599B2 (en) | Search processing program, search processing method and search processing device | |
US20170004511A1 (en) | Identifying Drivers for a Metric-of-Interest | |
US20220253644A1 (en) | Prediction device, prediction method, and prediction program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6595884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |