JP4734559B2 - Time-series data analysis apparatus and time-series data analysis program - Google Patents

Time-series data analysis apparatus and time-series data analysis program Download PDF

Info

Publication number
JP4734559B2
JP4734559B2 JP2004350270A JP2004350270A JP4734559B2 JP 4734559 B2 JP4734559 B2 JP 4734559B2 JP 2004350270 A JP2004350270 A JP 2004350270A JP 2004350270 A JP2004350270 A JP 2004350270A JP 4734559 B2 JP4734559 B2 JP 4734559B2
Authority
JP
Japan
Prior art keywords
series data
time
class
time series
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004350270A
Other languages
Japanese (ja)
Other versions
JP2006163521A (en
Inventor
龍太郎 市瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Inter University Research Institute Corp Research Organization of Information and Systems
Priority to JP2004350270A priority Critical patent/JP4734559B2/en
Publication of JP2006163521A publication Critical patent/JP2006163521A/en
Application granted granted Critical
Publication of JP4734559B2 publication Critical patent/JP4734559B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、時系列データ分析装置および時系列データ分析プログラムに関する。より詳しくは、コンピュータおよび記録媒体を用いた各種データ解析において、時間に応じて変動するデータ値を時刻順に並べて得られる時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出するとともに、該特徴を直感的かつ識別可能に視覚化するための技術に関する。   The present invention relates to a time-series data analysis apparatus and a time-series data analysis program. More specifically, in various data analysis using a computer and a recording medium, a desired result can be obtained or expected time-series data can be obtained from time-series data obtained by arranging data values that vary with time in time order. The present invention relates to a technique for automatically and efficiently extracting a feature and visualizing the feature in an intuitive and distinguishable manner.

時間に応じて変動するデータ値を時刻順に並べて得られる時系列データは、それぞれのデータ値とともに、データ値の推移に意味がある点が特徴的である。この時系列データは、例えばプロセス状態などの物理現象や、あるいは株式市場における銘柄の値動きなどの経済現象を観測して得られる。   Time-series data obtained by arranging data values that change with time in order of time is characteristic in that the transition of the data values is meaningful together with the respective data values. This time-series data can be obtained by observing physical phenomena such as process conditions or economic phenomena such as stock price movements in the stock market.

収集された複数の時系列データを解析する手法が、
特開2004−78812 に開示されている。同手法においては、プラントの制御運転のためプロセス状態を解析する際に、複数の時系列データ相互間の関係を把握するため、取り出した時系列データの組について時間をシフトし、最大の相関をとるシフト時間を探索し、時系列データ間の類似度を算出して得られたプロセス応答モデルを用いて、制御運転のためのルールおよび予測データを得る。
A method to analyze multiple time series data collected
It is disclosed in JP-A-2004-78812. In this method, when analyzing the process state for plant control operation, in order to grasp the relationship between multiple time series data, the time of the extracted time series data set is shifted and the maximum correlation is obtained. Searching for the shift time to be taken, and using the process response model obtained by calculating the similarity between the time series data, the rule and the prediction data for the control operation are obtained.

あるいは、時系列データの特徴を発見する手法が、
Keogh,E.J.and Pazzani,M.J.:Scaling up Dynamic Time Warping for Datamining Applications, In the Proceedings of the Sixth International Conreference on Knowledge Discovery and Data Mining, pp.285−289(2000). に開示されている。同手法においては、各時系列データから生成されたグラフ形状パターンの同一性ないし類似性を評価することにより、時系列データの特徴発見を行う。
Alternatively, a technique to discover the characteristics of time series data
Keoh, E .; J. et al. and Pazzani, M .; J. et al. : Scaling up Dynamic Time Warping for Dataming Applications, The The Proceedings of the Sixth International Conference on Knowledge Discovery and D. Discovery. 285-289 (2000). Is disclosed. In this method, features of time-series data are found by evaluating the identity or similarity of graph shape patterns generated from each time-series data.

しかしながら、解析対象となる時系列データは、必ずしも単位時間毎に連続的に観測されるものではない。殊に、例えばある疾患を持つ患者を被験者として、血液検査データを収集する場合のように、観測不能であった時刻の値(以下、「欠損値」という。)が存在する離散的な観測によってしか、時系列データが得られないことは往々にしてある。このような欠損値を含む時系列データを解析する場合、前者の手法では、欠損値を補完した時系列データについて相関を計算するため、欠損値が多いほどデータ解析の精度が低下する。後者の手法においても、時系列データに欠損値がある場合には、グラフの同一性ないし類似性が維持されるとは限らないため、同様の問題点を生じさせる。   However, the time series data to be analyzed is not necessarily observed continuously every unit time. In particular, for example, when blood test data is collected using a patient having a certain disease as a subject, discrete observations in which time values that could not be observed (hereinafter referred to as “missing values”) exist. However, time series data is often not obtained. When analyzing time-series data including such missing values, the former method calculates the correlation for time-series data supplemented with the missing values, so the accuracy of data analysis decreases as the number of missing values increases. Even in the latter method, if there is a missing value in the time-series data, the same or similar graphs are not always maintained, so that the same problem occurs.

本発明は、上記課題に鑑みてされたものであり、その目的は、時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出する時系列データ分析装置および時系列データ分析プログラムを提供することにある。   The present invention has been made in view of the above problems, and its purpose is to obtain a desired result from time-series data, or to automatically and efficiently extract characteristics of expected time-series data. A series data analysis apparatus and a time series data analysis program are provided.

また、本発明の他の目的は、欠損値を含む時系列データを分析対象とした場合にあっても、特徴抽出の精度を損なわない時系列データ分析装置および時系列データ分析プログラムを提供することにある。   Another object of the present invention is to provide a time-series data analysis apparatus and a time-series data analysis program that do not impair the accuracy of feature extraction even when time-series data including missing values are analyzed. It is in.

さらに、本発明の他の目的は、時系列データの特徴を直感的かつ識別可能に視覚化可能な時系列データ分析装置および時系列データ分析プログラムを提供することにある。   Furthermore, another object of the present invention is to provide a time-series data analysis apparatus and a time-series data analysis program that can visualize the characteristics of time-series data in an intuitive and distinguishable manner.

本発明の時系列データ分析装置は、データ要素として観測時刻と観測値が関連づけられた第1の時系列データを入力する手段と該時系列データを記憶する手段を有する時系列データ収集部と、
前記時系列データ収集部により収集された複数の第1の時系列データのうち、 特徴を抽出すべき時系列データ第1のクラスを、それ以外の時系列データに第2のクラスを、それぞれ付与する分類クラス決定部と、
前記第1および第2のクラスが付与された第2の時系列データを記憶する時系列データ記憶部と、
前記時系列データ記憶部で記憶された前記第2の時系列データに対して、前記観測時刻に前記観測値が存在する場合は、該観測時刻を観測点とし、該観測点の前記観測値を最大値とする凸型関数を生成し、前記前記第1および第2のクラスに対応する係数として、第1のクラスに対応する係数が第2のクラスに対応する係数より大きな値の係数となるように定めて前記凸型関数にかけ、全観測点についての該凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記第2の時系列データの特徴を抽出する特徴抽出部とを備えたことを要旨とする。
ことを要旨とする。
The time- series data analysis apparatus of the present invention includes a means for inputting first time-series data in which observation times and observation values are associated as data elements , and a time-series data collection unit having means for storing the time-series data;
Of the time-series data first plurality collected by the time series data acquisition unit, a first class time-series data to be extracted features, the second class series data at other times, A classification class determination unit to be assigned respectively;
A time-series data storage unit that stores second time-series data to which the first and second classes are assigned;
To the second time-series data stored in the time series data storage unit, if the observed value in the observation time is present, the observation time and observation point, the observed value of the observation point generating a convex function to the maximum value, and the coefficient of the first and the coefficient corresponding to the second class, a value greater than the coefficient of the coefficient corresponding to the first class corresponds to the second class And calculating the sum of the convex functions for all observation points, and extracting the observation points at which the calculated value is equal to or greater than a predetermined threshold value . The gist of the invention is that it includes a feature extraction unit that extracts features of time-series data.
This is the gist.

また、前記特徴抽出部は、
各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出手段と、
前記時系列データ関数値算出手段により算出された前記凸型関数の総和に、前記分類クラス決定部により、当該時系列データに付与された前記第2の時系列データの前記第1のクラスまたは前記第2のクラスに対応する係数として掛け合わせるクラス適用手段と、
すべての第2の時系列データについて、前記時系列データ関数値算出手段と前記クラス適用手段とによる計算処理を繰り返す第1繰り返し計算手段と、
すべてのクラスについて、前記時系列データ関数値算出手段、前記クラス適用手段および前記第1繰り返し計算手段による計算処理を繰り返す第2繰り返し計算手段と、
前記第2繰り返し計算手段により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出手段
を備えたことを要旨とする
In addition, the feature extraction unit
For each time series data, over all times, only for the observation points, time series data function value calculating means for calculating the sum of the convex functions,
The first class of the second time series data added to the time series data by the classification class determination unit or the sum of the convex functions calculated by the time series data function value calculation unit or the Class application means for multiplying as a coefficient corresponding to the second class;
First iterative calculation means for repeating the calculation processing by the time series data function value calculation means and the class application means for all second time series data;
Second iteration calculation means for repeating the calculation process by the time series data function value calculation means, the class application means and the first iteration calculation means for all classes;
The gist of the invention is that it includes observation point extraction means for extracting observation points whose values calculated by the second iterative calculation means are equal to or greater than a predetermined threshold.

前記第1のクラスに対応する係数は+1であり、前記第2のクラスに対応する係数は−1であることを要旨とする。 The summary is that the coefficient corresponding to the first class is +1 and the coefficient corresponding to the second class is -1 .

上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、前記第2の時系列データの観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化部を備えたことを要旨とする。
The time series data analysis device further includes:
Based on the features extracted by the feature extraction unit, wherein the sum of the convex function in the second time series data of the human stations, observation time and the observed plane on the three-dimensional display data values constitute In addition, the gist of the present invention is that a feature visualizing unit for two-dimensionally displaying each threshold value on the plane is provided.

上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測部を備えたことを要旨とする。
The time series data analysis device further includes:
A summary is provided with a class prediction unit that generates a rule based on the feature extracted by the feature extraction unit and predicts a class to be given to the time-series data according to the generated rule .

さらに、時系列データ分析処理をコンピュータに実行させるための時系列データ分析プログラムであって、該プログラムは、前記コンピュータに、
データ要素として観測時刻と観測値が関連づけられた第1の時系列データを入力する手段と該時系列データを記憶する手段に記憶する時系列データ収集処理、
前記時系列データ収集処理により収集された複数の第1の時系列データのうち、特徴を抽出すべき時系列データ第1のクラスを、それ以外の時系列 データに第2のクラスを、それぞれ付与する分類クラス決定処理、
前記第1および第2のクラスが付与された第2の時系列データを記憶する手段に記憶する時系列データ記憶処理、
前記時系列データ記憶処理で記憶された前記第2の時系列データに対して、前記観測時刻に前記観測値が存在する場合は、該観測時刻を観測点とし、該観測点の前記観測値を最大値とする凸型関数を生成し、前記前記第1および第2のクラスに対応する係数として、第1のクラスに対応する係数が第2のクラスに対応する係数より大きな値の係数となるように定めて前記凸型関数にかけ、全観測点についての該凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記第2の時系列データの特徴を抽出する特徴抽出処理
としての機能を実行させることを要旨とする。
Furthermore, a time-series data analysis program for causing a computer to execute time-series data analysis processing, the program,
Means for inputting first time-series data in which observation times and observation values are associated as data elements , and time- series data collection processing for storing the time-series data in the means for storing ,
The time-series data collection process of the time-series data first plurality collected by the first class time-series data to be extracted features, the second class series data at other times, Classification class determination process to be assigned to each
A time-series data storage process for storing in a means for storing the second time-series data to which the first and second classes are assigned,
To the time-series data storing processing the second time series data stored in, if the observed value in the observation time is present, the observation time and observation point, the observed value of the observation point generating a convex function to the maximum value, and the coefficient of the first and the coefficient corresponding to the second class, a value greater than the coefficient of the coefficient corresponding to the first class corresponds to the second class And calculating the sum of the convex functions for all observation points, and extracting the observation points at which the calculated value is equal to or greater than a predetermined threshold value . Feature extraction processing to extract features of time series data
The gist is to execute the function as .

本発明によれば、時系列データから、所望の結果が得られる、ないし期待される時系列データの特徴を自動的かつ効率的に抽出することが可能となる。   According to the present invention, it is possible to automatically and efficiently extract the characteristics of time series data from which a desired result is obtained or expected from time series data.

また、欠損値を含む時系列データを分析対象とした場合にあっても、データが存在する場合と同様の効果が得られるので、特徴抽出の精度を高く維持することができる。   Further, even when time series data including missing values is set as an analysis target, the same effect as when data exists can be obtained, so that the accuracy of feature extraction can be maintained high.

さらに、抽出された時系列データの特徴を直感的かつ識別可能に視覚化することが可能となる。   Furthermore, it is possible to visualize the characteristics of the extracted time-series data in an intuitive and identifiable manner.

以下、図面を参照して、本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.

(1)本実施形態に係る時系列データ分析の原理
本実施形態においては、複数の時系列データのデータ解析において、異なる結果が得られた時系列データが存在するときに、所望する結果、あるいは所望する結果以外の結果が得られるときの時系列データの特徴を、自動的かつ効率的に抽出する。本実施形態に係る手法によれば、時系列データの特徴から今後得られる結果を予想することができ、さらに、ユーザーに結果の理由を説明することで好ましい行動を促したり、あるいはコンピュータを利用した自動制御で所望しない結果を回避することができる。
(1) Principle of time-series data analysis according to the present embodiment In the present embodiment, when there is time-series data obtained with different results in data analysis of a plurality of time-series data, A feature of time-series data when a result other than the desired result is obtained is automatically and efficiently extracted. According to the method according to the present embodiment, it is possible to predict a result obtained in the future from the characteristics of the time series data. Unwanted results can be avoided with automatic control.

本実施形態に係る時系列データ分析装置10への入力は、複数の時系列データおよびその時系列データのクラスを含み、該時系列データ分析装置10からの出力は、当該クラスを特徴付ける時系列データのデータ要素である。   The input to the time-series data analysis apparatus 10 according to the present embodiment includes a plurality of time-series data and a class of the time-series data, and the output from the time-series data analysis apparatus 10 includes time-series data characterizing the class. Data element.

時系列データ分析装置10に入力される時系列データは、ある時系列データt1,...,tnとして示される。例えば、ある疾患を持つ患者から、1日ごとに得られるある血液検査の値をtiとして検査データを取得する。そして、n日目に、ある薬を投薬する場合には、血液の検査値υがn個分の時系列データとして得られる。ここで、時系列データは、欠損値(未観測の値)を含むものであってもよい。この例の場合では、患者が血液検査を毎日受けなくても構わない。 The time series data input to the time series data analysis apparatus 10 includes certain time series data t 1 ,. . . , T n . For example, from a patient having a certain disease, test data is acquired with a blood test value obtained every day as t i . When a certain medicine is administered on the nth day, blood test values υ are obtained as time series data for n pieces. Here, the time series data may include missing values (unobserved values). In this example, the patient does not have to take a blood test every day.

時系列データ分析装置10に入力される時系列データのクラスは、時系列データに対して付与される。各時系列データを分類することにより、各時系列データに付与すべきクラスが決定される。各時系列データに対応して得られた結果に基づき、好ましい結果とそれ以外の結果を区別可能な属性値としてクラスが付与されてよい。例えば、好ましい結果が得られた時系列データ群に属する時系列データのそれぞれには、+1が、それ以外の結果が得られた時系列データ群に属する時系列データのそれぞれには、−1が、付与されてよい。上記の例に従えば、上記のデータに対して、n日目に、ある薬を投与する場合を考える。すると、効果があった患者の時系列データと、効果が無かった患者の時系列データに分類することができる。効果があったクラスをC1、効果が無かったクラスをC2とすると、時系列データは、C1かC2のクラスが割り当てられることになる。ただし、クラスの数は、2つ以上であれば何個でも構わない。さらに、本実施形態におけるクラスは、単数のクラスと複数のクラスに分類されるだけでなく、複数のクラスとその他の複数のクラスとに分類されてもよい。例えば、薬効に関する時系列データの場合には、「著効、有効」にそれぞれ分類される2つのクラスと、「効果無し、不明」にそれぞれ分類される2つのクラスとに分割されてもよい。 The class of time series data input to the time series data analysis device 10 is given to the time series data. By classifying each time series data, a class to be assigned to each time series data is determined. Based on the results obtained corresponding to each time series data, a class may be given as an attribute value that can distinguish a preferable result from other results. For example, +1 is assigned to each of the time series data belonging to the time series data group for which a preferable result is obtained, and −1 is assigned to each of the time series data belonging to the time series data group for which other results are obtained. , May be granted. According to the above example, consider a case where a drug is administered on the nth day with respect to the above data. Then, it can classify | categorize into the time series data of the patient who had an effect, and the time series data of the patient who had no effect. The effect was a Class C 1, effect a no was class When C 2, time-series data will be class C 1 or C 2 is assigned. However, the number of classes is not limited as long as it is two or more. Furthermore, the classes in the present embodiment may be classified not only into a single class and a plurality of classes, but also into a plurality of classes and other classes. For example, in the case of time-series data regarding medicinal effects, it may be divided into two classes each classified as “effective, effective” and two classes respectively classified as “no effect, unknown”.

本実施形態における特徴抽出処理においては、入力データ、すなわち、時系列データとそのクラスが複数与えられ、その中から、あるクラスに特徴的な時系列の現象を抽出するというタスクを実行する。与えられた時系列データを分析することにより、この特徴を抽出し、新たな時系列データが与えられた時に、その特徴があるか否かによって、今後得られるクラスの予測に利用することができる。   In the feature extraction process in this embodiment, input data, that is, time-series data and a plurality of classes thereof are given, and a task of extracting a time-series phenomenon characteristic of a certain class is executed. By analyzing the given time-series data, this feature can be extracted and used to predict future classes depending on whether or not the feature is present when new time-series data is given. .

より具体的には、本実施形態における特徴抽出処理は、各時系列データのうち、欠損値を除き、時間軸上、実データが得られた箇所の値のみを観測点とし、該観測点における観測値がピーク(最高値)となるような凸型関数を用いて、時系列データの対象観測点に対する該凸型関数の値を影響度として算出する。この影響度の算出を、サンプルのそれぞれについて、全時刻の時系列データについて繰り返し実行する。その際、各観測点が属するクラスに定義される係数を掛け合わせる。この処理を、全サンプルについて行い、全サンプルの全観測点(全時刻)について、影響度の総和を算出する。時間軸と時系列データの各値で構成される平面上、所定の閾値以上の値が分布する2次元領域を、特徴領域として抽出する。その際、所望する結果に対応するクラス、すなわち特徴を抽出したいクラスに属する時系列データに与えられる係数は、少なくとも、それ以外の結果に対応するクラスに属する時系列データに与えられる係数より大きいものとする。   More specifically, the feature extraction processing in the present embodiment is performed by using only the value of the location where the actual data is obtained on the time axis, except for missing values, in each time series data, and at the observation point. Using a convex function whose observed value is a peak (maximum value), the value of the convex function with respect to the target observation point of the time series data is calculated as an influence degree. The calculation of the influence degree is repeatedly executed for the time series data of all times for each sample. At that time, the coefficient defined for the class to which each observation point belongs is multiplied. This process is performed for all samples, and the sum of influences is calculated for all observation points (all times) of all samples. A two-dimensional region in which values greater than a predetermined threshold are distributed on a plane composed of values of the time axis and time-series data is extracted as a feature region. At that time, the coefficient given to the time series data belonging to the class corresponding to the desired result, that is, the class whose characteristics are to be extracted, is at least larger than the coefficient given to the time series data belonging to the class corresponding to the other result. And

ここで、観測点とは、時刻(時間単位)とデータ値(観測値)とにより特定される、実際に値の観測された、すなわち実データが存在する箇所をいい、例えば図2においては、サンプルNo.2であれば単位時間3のセルおよび単位時間9のセルがそれぞれ観測点となる。また、凸型関数により示される影響度とは、時系列上における同じ観測点で、別のサンプルが再び観測される尤度を意味する。   Here, the observation point refers to a place where the value is actually observed, that is, the actual data exists, which is specified by the time (time unit) and the data value (observation value). For example, in FIG. Sample No. If it is 2, the cell of unit time 3 and the cell of unit time 9 are the observation points. Further, the influence degree indicated by the convex function means the likelihood that another sample is observed again at the same observation point on the time series.

なお、一般に、あるデータとそのクラスの組が複数与えられ、その中から特徴を見付けることを教師付き学習といい、この教師付き学習のための入力となる時系列データとクラスを、訓練データという。これらはいずれも、人工知能の一研究分野である機械学習で用いられる概念であり、例えば特開平6−96052号公報にも開示がある。   In general, given multiple sets of data and its classes, finding features from them is called supervised learning, and time-series data and classes that serve as inputs for supervised learning are called training data. . Each of these is a concept used in machine learning, which is a research field of artificial intelligence, and is disclosed in, for example, Japanese Patent Laid-Open No. 6-96052.

(2)本実施形態に係る時系列データ分析装置の構成
図1は、第1の実施形態に係る時系列データ分析装置10の構成を示す。本実施形態に係る時系列データ分析装置10は、時系列データ収集部1と、分類クラス決定部2と、時系列データ記憶部21と、時系列データ決定部3と、特徴量抽出部4と、規則学習部15と、特徴視覚化部6と、分類予測算出部7と、理由説明報知部8と、データ制御部9とを具備する。
(2) Configuration of Time Series Data Analysis Device According to this Embodiment FIG. 1 shows a configuration of a time series data analysis device 10 according to the first embodiment. The time-series data analysis apparatus 10 according to the present embodiment includes a time-series data collection unit 1, a classification class determination unit 2, a time-series data storage unit 21, a time-series data determination unit 3, and a feature amount extraction unit 4. A rule learning unit 15, a feature visualization unit 6, a classification prediction calculation unit 7, a reason explanation notification unit 8, and a data control unit 9.

時系列データ収集部1は、複数の時系列データを、時系列データ分析装置10に入力する。この時系列データは、例えばプロセスデータなど任意のデータをモニタリングして得てもよく、あるいは、例えば血液検査の実施など、能動的に分析対象に動作することによって得てもよい。収集された時系列データは、好ましくは、各サンプル(図2におけるNo1,No2,No3,・・・、図7におけるサンプル1、サンプル2、サンプル3、サンプル4、・・・)ごと1レコードが構成され、内蔵メモリあるいは内蔵・外部記録媒体に格納されたテーブルとして参照される。収集される時系列データは、例えば血液検査の脈拍数や血圧のように、異なる種類のデータであってもよい。複数の異なる種類の時系列データを処理する場合には、時系列データ収集部1による時系列データ収集処理以降に実行される、分類クラス決定部2と、時系列データ決定部3と、特徴量抽出部4とが行う各処理は、いずれも、時系列データの種類(属性)ごと独立に実行されることとなる。一方、複数の異なる時系列データを処理する場合にあっても、規則学習部5は、異なる種類の時系列データのそれぞれについて特徴量抽出部4により得られた、異なる種類の特徴を組み合わせて規則を生成するように構成されれば、より有用な規則を生成することが可能となる。特徴視覚化部6においても、複数の特徴を重畳的に表示出力するように構成されれば、複数の特徴把握をより容易にすることができる。また、本実施形態において収集される時系列データは、観測不能な時刻を含んだ、すなわち欠損値を含んだ離散的なデータ群でもよい。この場合には、図2に示すように、欠損値を含む表形式の時系列データが得られることになる。   The time-series data collection unit 1 inputs a plurality of time-series data to the time-series data analysis device 10. The time series data may be obtained by monitoring arbitrary data such as process data, or may be obtained by actively operating on an analysis target such as performing a blood test. The collected time series data preferably has one record for each sample (No1, No2, No3,... In FIG. 2, Sample 1, Sample 2, Sample 3, Sample 4,... In FIG. 7). It is configured and referred to as a table stored in a built-in memory or a built-in / external recording medium. The collected time series data may be different types of data such as a blood test pulse rate and blood pressure. When processing a plurality of different types of time-series data, the classification class determination unit 2, the time-series data determination unit 3, and the feature amount executed after the time-series data collection processing by the time-series data collection unit 1 are performed. Each process performed by the extraction unit 4 is executed independently for each type (attribute) of time-series data. On the other hand, even when processing a plurality of different time-series data, the rule learning unit 5 combines rules of different types obtained by the feature amount extraction unit 4 for each of different types of time-series data. If it is comprised so that it may generate | occur | produce, it will become possible to produce | generate a more useful rule. If the feature visualization unit 6 is configured to display and output a plurality of features in a superimposed manner, the plurality of features can be easily grasped. In addition, the time series data collected in the present embodiment may be a discrete data group including unobservable times, that is, including missing values. In this case, as shown in FIG. 2, tabular time-series data including missing values is obtained.

分類クラス決定部2は、時系列データ収集部1によって収集された時系列データを生成したサンプルのそれぞれ(すなわち時系列データのそれぞれ)に、対応するクラスを決定する。例えば、ある患者の血液検査の時系列データが得られた後に、薬を投与した場合、薬の効果に差が出たものとする。この場合には、効果のあった患者グループと効果の無かった患者グループの2つのクラスに分けることができ、従って、それぞれの血液検査の時系列データに対しても、その属する患者(サンプル)のクラスに従って、効果ありのクラスと効果無しのクラスの2通りに分けることが可能となる。ただし、ここでは、2クラスを例として述べたが、クラスの数は、2つに限定されるものではなく、3つ以上の多数であっても構わない。結果として、各時系列データに対して、一つのクラスラベルが付与される。   The classification class determination unit 2 determines a class corresponding to each of the samples that generate the time series data collected by the time series data collection unit 1 (that is, each of the time series data). For example, when a drug is administered after obtaining time-series data of a blood test of a certain patient, it is assumed that there is a difference in the effect of the drug. In this case, the patient group can be divided into two groups, an effective patient group and an ineffective patient group. Therefore, the time series data of each blood test is also included in the patient (sample) to which the patient belongs. According to the class, it is possible to divide the class into an effective class and an ineffective class. However, although two classes are described here as an example, the number of classes is not limited to two, and may be a large number of three or more. As a result, one class label is assigned to each time series data.

時系列データ記憶部21は、分類クラス決定部2によってクラスが付与された時系列データを、内蔵メモリあるいは内蔵・外部記憶媒体に保持記憶する。   The time-series data storage unit 21 holds and stores the time-series data assigned with the class by the classification class determination unit 2 in the built-in memory or the built-in / external storage medium.

時系列データ決定部3は、収集された時系列データから、データ解析において意味のありそうな時間幅を決定する手段である。例えば、ある薬の効果を見るのに、10年前の血液検査の状態が関与しているとは、経験則上想定しにくい。時系列データ決定部3は、このように明らかに不要な部分のデータを切捨て、必要と思われる部分だけを決定し、特徴量抽出部4に出力する。あるいは、時系列データ決定部3は、時間幅以外にも、例えば、複数の種類(属性)の時系列データが収集された場合には、処理すべき時系列データの種類(属性)のみを選択するよう構成されてよい。例えば、薬効を判定するための時系列データを分析する場合には、時系列データ記憶部21に他の種類の時系列データ(例えば株価の値動きに関する時系列データ)が記憶されていたとしても不要である。時系列データ決定部3は、こうした当該データ分析に不要な時系列データが特徴量抽出部4により処理されるのを防止する。ただし、この時系列データ決定部3では、特徴量抽出処理に関連する時系列データの時間幅(開始時刻と終了時刻を含む)を厳密に決定するのではなく、関係のありそうな時間幅を決定する前処理を施すだけに過ぎない。従って、この時系列データ決定部3は、収集される時系列データのデータ属性によっては、本実施形態において省略することも可能である。時系列データ決定部3での時系列データの選択処理の結果として、時系列データ収集部1によって収集された時系列データよりも洗練された時系列データが得られる。   The time-series data determining unit 3 is a means for determining a time width that seems to be meaningful in data analysis from the collected time-series data. For example, an empirical rule is unlikely that the state of a blood test 10 years ago is involved in looking at the effect of a certain drug. The time-series data determination unit 3 thus discards the obviously unnecessary data, determines only the part deemed necessary, and outputs it to the feature quantity extraction unit 4. Alternatively, the time-series data determination unit 3 selects only the type (attribute) of the time-series data to be processed when, for example, a plurality of types (attributes) of time-series data are collected in addition to the time width. May be configured to. For example, when analyzing time-series data for determining medicinal effects, it is unnecessary even if other types of time-series data (for example, time-series data related to stock price movements) are stored in the time-series data storage unit 21. It is. The time-series data determination unit 3 prevents time-series data unnecessary for the data analysis from being processed by the feature amount extraction unit 4. However, the time series data determination unit 3 does not strictly determine the time width (including the start time and end time) of the time series data related to the feature amount extraction processing, but selects a time width that seems to be relevant. It only gives the preprocessing to decide. Therefore, the time series data determination unit 3 can be omitted in the present embodiment depending on the data attributes of the collected time series data. As a result of the time-series data selection process in the time-series data determination unit 3, time-series data that is more sophisticated than the time-series data collected by the time-series data collection unit 1 is obtained.

特徴量抽出部4は、分類クラス決定部2によってクラスラベルが付与され、時系列データ記憶部21に記憶された時系列データであって、時系列データ決定部3によって選択された範囲の時系列データを入力とし、異なるクラスの弁別に有効である特徴量を抽出する。   The feature quantity extraction unit 4 is time series data that is assigned a class label by the classification class determination unit 2 and is stored in the time series data storage unit 21, and is a time series in a range selected by the time series data determination unit 3. Using data as input, extract feature quantities that are effective for different class discrimination.

特徴量抽出部4が行う特徴量の抽出手法を、以下説明する。まず、データ観測時、観測値(観測対象時刻における時系列データの値)が最高値を持つような凸型関数(convex function)を用いる。この凸型関数は、どのようなものでも構わないが、ここでは、例えば次の関数を使用することができる。
A feature amount extraction method performed by the feature amount extraction unit 4 will be described below. First, at the time of data observation, a convex function (convex function) in which the observed value (the value of the time series data at the observation target time) has the highest value is used. Any convex function may be used, but here, for example, the following function can be used.

ここで、t′,υ′は、それぞれ観測した時間と、観測した時系列データの値とする。またpt,pυは、それぞれの適用領域に対して決定される定数とする。このpt,pυは、正規化パラメータであり、簡単のため、例えば1であってもよい。このとき、関数f(t,υ)は、値を観測した場所(時刻)を最大値とする凸型関数になっており、観測した点よりも離れる程、値が小さくなる。この関数f(t,υ)は、上記のとおり、観測点(観測対象時刻)に対する各時系列データの影響度として考えることが可能である。 Here, t ′ and υ ′ are respectively the observed time and the value of the observed time series data. Further, p t and p υ are constants determined for each application area. These p t and p υ are normalization parameters, and may be 1, for example, for simplicity. At this time, the function f (t, υ) is a convex function whose maximum value is the place (time) at which the value is observed, and the value decreases as the distance from the observed point increases. As described above, this function f (t, υ) can be considered as the degree of influence of each time series data on the observation point (observation target time).

次に、特徴を抽出したいクラスとそれ以外のクラスを弁別するため、以下の関数を定義する。
Next, in order to discriminate the class from which features are to be extracted from other classes, the following function is defined.

ここで、eは、クラスラベルの付与された時系列データ(訓練データ)とし、g(e)は、特徴を調べたいクラスの場合には+1を、それ以外のクラスの場合には−1を返すものとする。例えば、クラスがC1,C2,・・・、C5と5つあった場合に、クラスC2の特徴を調べたいと仮定すると、クラスC2には係数+1を、それ以外のクラスC1、C3、C4およびC5には係数−1を与える。この係数は、要するに特徴を出したいクラスをそれ以外のクラスから弁別するための係数であるので、特徴を調べたいクラスに与えられる係数が、それ以外のクラスに与えられる係数より有意に大きい値であれば、任意の係数であってよい。   Here, e is time-series data (training data) with a class label, and g (e) is +1 for a class whose characteristics are to be examined, and -1 for other classes. Shall be returned. For example, if there are five classes C1, C2,..., C5, and it is desired to examine the characteristics of class C2, class C2 has a coefficient +1, and other classes C1, C3, C4 and C5 is given a coefficient -1. In short, this coefficient is a coefficient for discriminating the class for which the feature is to be obtained from other classes, so the coefficient given to the class for which the feature is to be examined is significantly larger than the coefficients given to the other classes. Any coefficient may be used.

次に全ての訓練データ(クラスラベルの付与された時系列データ)Eの観測点に対して、以下の値を計算する。
Next, the following values are calculated for observation points of all training data (time-series data with class labels) E.

この関数h(t,υ)の値は、対象クラス(特徴を調べたいクラス)の観測点が集中している場所程、大きな値を取り、対象クラス以外の観測点が集中している場所程、小さな値をとる。所定の閾値以上の関数h(t,υ)の値が分布する、時間軸と観測された時系列データ値とが構成する平面上の領域を特定することによって、対象クラスの特徴を表す領域を抽出することが可能となる。ここで、血圧と脈拍数のようにそれぞれ異なる時系列データを解析する場合には、上記の特徴抽出処理は独立に行われる。その結果、対象クラスに特徴的な時系列データの傾向を発見できる。特徴量抽出部4によって発見された特徴は、規則学習部5および特徴視覚化部6に送出される。   The value of the function h (t, υ) is such that the location where the observation points of the target class (the class whose characteristics are to be investigated) are concentrated, the larger the value is, and the location where observation points other than the target class are concentrated. Take a small value. By specifying an area on the plane constituted by the time axis and the observed time-series data values in which the value of the function h (t, υ) equal to or greater than a predetermined threshold is distributed, an area representing the characteristics of the target class is obtained. It becomes possible to extract. Here, when different time series data such as blood pressure and pulse rate are analyzed, the above feature extraction processing is performed independently. As a result, it is possible to find a tendency of time series data characteristic of the target class. The features discovered by the feature quantity extraction unit 4 are sent to the rule learning unit 5 and the feature visualization unit 6.

規則学習部5は、例えばC4.5などの公知の機械学習システムに、特徴量抽出部4によって抽出された特徴を入力することによって、抽出された特徴を、if-thenや決定木のような規則の形態に変換する。この規則学習部5に入力される特徴は、1つとは限らず、複数入力可能であり、またこの特徴は血圧値と脈拍など異なる時系列データから抽出した特徴であっても構わない。その結果、分類クラス決定部2が、収集された時系列データに対して付与すべきクラスを予測する規則を得ることが可能となる。   The rule learning unit 5 inputs the features extracted by the feature amount extraction unit 4 into a known machine learning system such as C4.5, for example, and extracts the extracted features such as if-then and decision trees. Convert to rule form. The feature input to the rule learning unit 5 is not limited to one, and a plurality of features can be input. The feature may be a feature extracted from different time series data such as a blood pressure value and a pulse. As a result, the classification class determining unit 2 can obtain a rule for predicting a class to be given to the collected time series data.

特徴視覚化部6は、関数h(t,υ)を視覚化することによって、特徴の視覚化を行う。関数h(t,υ)は、t,υで構成される平面上に広がる値と見ることが可能である。特徴視覚化部6は、たとえば、関数h(t,υ)を、観測時刻および観測された時系列データのデータ値が構成する平面上三次元表示したり、あるいは、この平面上閾値ごとに等高線表示などの手法により特徴領域をその他の領域から識別可能に表示出力する。例えば、公知の技術である、関数の値の大きさに応じて連続的に色彩の変化をさせて図示する手法を用いれば、特徴の現れる平面上の領域を視覚化することが可能となる。その結果、濃淡や等高線の付加された2次元のグラフを得ることができる。   The feature visualization unit 6 visualizes the feature by visualizing the function h (t, υ). The function h (t, υ) can be regarded as a value spreading on a plane constituted by t and υ. For example, the feature visualizing unit 6 displays the function h (t, υ) on the plane formed by the observation time and the data value of the observed time-series data, or contour lines for each threshold on the plane. The feature region is displayed and output so as to be distinguishable from other regions by a method such as display. For example, using a technique that is illustrated in the art by continuously changing the color according to the magnitude of the value of the function, which is a well-known technique, it is possible to visualize the area on the plane where the feature appears. As a result, a two-dimensional graph with shading and contour lines added can be obtained.

規則学習部5において学習された規則、および特徴視覚化部6において視覚化されたグラフは、分類予測算出部7および理由説明報知部8に送出される。   The rules learned in the rule learning unit 5 and the graph visualized in the feature visualization unit 6 are sent to the classification prediction calculation unit 7 and the reason explanation notification unit 8.

分類予測算出部7は、学習された規則に基づいて、本実施形態に係る時系列データ分析装置10に、新たに時系列データが与えられた場合に、どのようなクラスとなるかの予測を算出する。   Based on the learned rules, the classification prediction calculation unit 7 predicts what class will be obtained when new time-series data is given to the time-series data analysis apparatus 10 according to the present embodiment. calculate.

理由説明報知部8は、例えば学習された規則の決定木を走査することにより、学習された規則を解析し、あるいは視覚化された特徴を解析し、その解析結果を入出力装置を介して、ユーザーに提供する。出力された解析結果を吟味することにより、所望するデータのあり方を考案することができる。   The reason explanation notifying unit 8 analyzes the learned rule by scanning a decision tree of the learned rule, for example, or analyzes the visualized feature, and the analysis result is input via the input / output device. Provide to users. By examining the output analysis results, it is possible to devise the desired data.

データ制御部9は、分類予測算出部7によって得られたクラスの予測と、理由説明報知部8によって得られた望ましいデータの有り方との双方、あるいはいずれか一方を入力とし、最終的に得られるクラスが望ましくなるように行動するよう、時系列データの操作を行う。その結果、データ制御部9の出力として得られる時系列データは、時系列データ収集部1にフィードバックされる。   The data control unit 9 receives the class prediction obtained by the classification prediction calculation unit 7 and / or desirable data obtained by the reason explanation notification unit 8 as input, and finally obtains the data control unit 9. Manipulate time-series data so that certain classes act as desired. As a result, the time series data obtained as the output of the data control unit 9 is fed back to the time series data collection unit 1.

データ制御部9は、また、特徴量抽出部4、規則学習部5、特徴視覚化部6、分類予測算出部7、理由説明報知部8などが出力する処理結果を、適宜入出力装置を介して表示ないし印刷出力するための制御を行う。   The data control unit 9 also appropriately outputs the processing results output by the feature amount extraction unit 4, the rule learning unit 5, the feature visualization unit 6, the classification prediction calculation unit 7, the reason explanation notification unit 8, and the like via an input / output device. Control to display or print out.

(3)例題
本実施形態における時系列データ分析処理を、以下例題により説明する。説明の簡単化のため、ここでは2つのクラスP,Nがあるものとし、P,Nに属する時系列データはそれぞれ100個ずつであるとする。
(3) Example The time-series data analysis processing in the present embodiment will be described below with an example. For simplicity of explanation, it is assumed here that there are two classes P and N, and that there are 100 time-series data belonging to P and N, respectively.

図2は、この時系列データの一部をテーブルで示したものである。各時系列データには上から順番にサンプル番号が付与されており、テーブルの横軸は、単位時間を示す。例えば、サンプルNo.1のデータは、単位時間1の時には、データの観測ができなかったため、欠損値となっている。一方、単位時間2の時には、24.2887という観測値が得られている。そして、サンプルNo.1のクラスはPとなっている。   FIG. 2 shows a part of the time series data in a table. Each time-series data is assigned a sample number in order from the top, and the horizontal axis of the table indicates unit time. For example, sample no. The data of 1 is a missing value because the data could not be observed at the unit time of 1. On the other hand, when the unit time is 2, an observed value of 24.2887 is obtained. And sample no. Class 1 is P.

図2に示される時系列データは、本実施形態に係る時系列データ収集部1によって収集され、その後、分類クラス決定部2によって、P,Nのクラスが付与されたものである。Pは特徴を調べたい対象クラスを、Nはそれ以外のクラスを示すものとする。ここでは、図2に示される時系列データは、時系列データ決定部3によって、時系列データとして着目すべき60単位時間分だけ、データが抽出されたものとする。この時系列データが、特徴量抽出部4に入力される。   The time-series data shown in FIG. 2 is collected by the time-series data collection unit 1 according to the present embodiment, and thereafter, the classes P and N are given by the classification class determination unit 2. P indicates a target class whose characteristics are to be examined, and N indicates other classes. Here, it is assumed that the time-series data shown in FIG. 2 is extracted by the time-series data determination unit 3 for 60 unit times to be noted as time-series data. This time series data is input to the feature quantity extraction unit 4.

図3は、特徴量抽出部4に入力される時系列データを全て表示したものであり、Pのデータを2点鎖線で、Nのデータを破線で示している。横軸が時間を表し、縦軸が観測された時系列データの値を表す。   FIG. 3 shows all the time-series data input to the feature quantity extraction unit 4. P data is indicated by a two-dot chain line, and N data is indicated by a broken line. The horizontal axis represents time, and the vertical axis represents time-series data values observed.

特徴量抽出部4が用いる関数f(t,υ)として、上記の数式1を用いる。ただし、pt,pυは定数とする。
The above formula 1 is used as the function f (t, υ) used by the feature amount extraction unit 4. However, p t and p υ are constants.

図3に示すテーブルのサンプルNo.1のデータの単位時間3について、f(t,υ)は、下記のようになる。
Sample No. of the table shown in FIG. For a unit time 3 of 1 data, f (t, υ) is as follows.

図4は、定数pt,pυを、pt=pυ=1とした場合に、f(t,υ)の値を3次元でグラフ化した図である。図4から明らかなように、単位時間3における観測点で最大になるグラフが得られる。 FIG. 4 is a three-dimensional graph of the value of f (t, υ) when the constants p t and p υ are set to p t = p υ = 1. As is clear from FIG. 4, a graph that is maximum at the observation point in unit time 3 is obtained.

図5は、クラスPが付与されたサンプルNo.1の時系列データ中、時系列データ決定部3によって決定されたすべての単位時間のうち、値が観測されたすべての観測点(例えば、時間1から時間10。ただし、欠損値である単位時間については処理されない)について、f(t,υ)・g(e)を足し合わせて得られるグラフを示す。図5から明らかなように、特徴のある部分ほど関数値が大きくなる。一方、クラスNが付与された時系列データ(図5においてはサンプルNo.4)は、関数g(e)がマイナスとなるため、f(t,υ)・g(e)は下方に凸型の関数となる。したがって、クラスPが付与された時系列データとクラスNが付与された時系列データのf(t,υ)・g(e)を足し合わせると、クラスPが付与された時系列データとクラスNが付与された時系列データとが混在して存在する図5中の領域は関数が打ち消しあう一方で、クラスPが付与された時系列データPのみが観測される領域は、クラスNが付与された時系列データの影響が少なくなり、大きな値となる。   FIG. 5 shows a sample No. to which class P is assigned. Among all the unit times determined by the time-series data determination unit 3 in one time-series data, all observation points where values are observed (for example, time 1 to time 10; however, unit time that is a missing value) Is a graph obtained by adding f (t, υ) · g (e). As is apparent from FIG. 5, the function value increases as the characteristic portion is increased. On the other hand, since the function g (e) is negative in the time series data to which the class N is assigned (sample No. 4 in FIG. 5), f (t, υ) · g (e) is convex downward. Is a function of Therefore, when the time series data to which the class P is assigned and the time series data to which the class N is assigned, f (t, υ) · g (e) are added, the time series data to which the class P is assigned and the class N In the region in FIG. 5 where the time series data to which the class P is added exists, the functions cancel each other, while the region in which only the time series data P to which the class P is assigned is observed is assigned the class N. The influence of the time series data is reduced and becomes a large value.

その結果、全てのサンプルについての時系列データの合計を計算する関数であるh(t,υ)の値が高い(低い)場所ほど、P,Nの弁別に適した場所となる。この関数h(t,υ)の値をある一定の閾値で切れば、複数の特徴を得ることができる。また、血圧値と脈拍のように、複数の違うデータを保持している場合には、別々に処理を施すことで、多くの特徴を得ることができる。上記の例題の場合は、ある時刻からある時刻の間に、観測値がある値からのある値の間にあるというようなものがクラスPに属する時系列データの特徴の一つとして、特徴量抽出部4で得られる。   As a result, a place where the value of h (t, υ), which is a function for calculating the sum of time series data for all samples, is higher (lower) is a more suitable place for discrimination of P and N. If the value of this function h (t, υ) is cut by a certain threshold, a plurality of features can be obtained. Further, when a plurality of different data such as a blood pressure value and a pulse are held, many features can be obtained by performing processing separately. In the case of the above example, as one of the features of the time series data belonging to the class P, a feature value such that an observed value is between a certain value and a certain value from a certain time to a certain time Obtained by the extraction unit 4.

特徴量抽出部4で得られた特徴は、規則学習部5に入力される。規則学習部を構成する手段の一つとして、公知のC4.5を例に取ると、特徴量抽出部4によって得られた特徴は、規則学習部5において属性として用いられ、その特徴が対象データから観測できるか否かによって、決定木が作られることになる。   The features obtained by the feature quantity extraction unit 4 are input to the rule learning unit 5. Taking C4.5 as an example as one of the means constituting the rule learning unit, the feature obtained by the feature quantity extraction unit 4 is used as an attribute in the rule learning unit 5, and the feature is the target data. A decision tree is created depending on whether it can be observed.

一方、h(t,υ)で計算された結果は、特徴視覚化部6によって、例えば公知の視覚化手法を用いることにより視覚化することが可能である。   On the other hand, the result calculated by h (t, υ) can be visualized by the feature visualization unit 6 by using, for example, a known visualization method.

図6は、例えば、関数h(t,υ)の大きさを濃淡で表す手法を用いて、特徴量抽出部4で得られたデータを視覚化したグラフの一例を示す。図6において、図中の暗い部分91は、関数h(t,υ)が所定の閾値以下であった領域を例示的に示すものであって、クラスNが付与された時系列データの特徴が表れた領域であり、一方、図中の明るい部分は、Pの特徴が表れた領域である。   FIG. 6 shows an example of a graph obtained by visualizing the data obtained by the feature quantity extraction unit 4 by using a method of expressing the size of the function h (t, υ) by shading. In FIG. 6, a dark portion 91 in the drawing exemplifies a region where the function h (t, υ) is equal to or less than a predetermined threshold, and the characteristics of the time-series data to which the class N is given are On the other hand, the bright area in the figure is the area where the feature of P appears.

規則学習部5によって得られた決定木などの規則は、分類予測算出部7において時系列データに付与されるクラスの分類予測に用いられる。新たな時系列データが得られた時に、決定木などによる規則を用いることにより、対象の時系列データが、所望する結果が期待されるクラスPに属するか,それ以外のクラスNに属するか、を予測可能となる。この分類予測算出部7によるクラス分類の予測結果に基づいて、データ制御部9は、特定の所望する結果をもたらすようなアクションを指示することができる。例えば、薬の効果があるかないかをクラスとするような場合には、効果があると予測すれば、投与すればよいし、効果が無いと予測すれば、副作用を避けるために、投与しなければよい。   A rule such as a decision tree obtained by the rule learning unit 5 is used for classification prediction of a class given to time-series data in the classification prediction calculation unit 7. When new time-series data is obtained, by using a rule based on a decision tree or the like, whether the target time-series data belongs to a class P in which a desired result is expected or a class N other than that, Can be predicted. Based on the prediction result of the class classification by the classification prediction calculation unit 7, the data control unit 9 can instruct an action that brings about a specific desired result. For example, in the case of classifying whether a drug is effective or not, it can be administered if it is predicted to be effective, and if it is predicted that there is no effect, it should be administered to avoid side effects. That's fine.

一方、規則学習部5によって得られた決定木や、特徴視覚化部6によって視覚化されたグラフは、理由説明報知部8において、ユーザーに対する理由説明を提示する手段として用いられてもよい。ユーザーにとって、ある状況においてどのような行動を取ればいいかの理解も可能になる。この理由説明報知8からの出力を用いて、データ制御部9において、特定の結果をもたらすような行動を提示することができる。例えば、競技がスタートする3分前の心拍数がある一定の範囲にある時に、競技結果が良好なクラスであることが分かれば、3分前にその範囲になるように、競技出場選手がウォーミングアップをすればよいことになる。   On the other hand, the decision tree obtained by the rule learning unit 5 and the graph visualized by the feature visualizing unit 6 may be used as means for presenting the reason explanation to the user in the reason explanation notifying unit 8. Users can understand what actions to take in a given situation. Using the output from the reason explanation notification 8, the data control unit 9 can present an action that brings about a specific result. For example, if the heart rate is within a certain range 3 minutes before the start of the competition, and it turns out that the competition results are good, the competitors will warm up so that the range is within 3 minutes If you do.

(4)本実施形態に係る特徴量抽出処理の処理手順詳細
以下、図7ないし図9を参照して、本実施形態に係る特徴量抽出処理の処理手順詳細を説明する。図7の時系列データが、時系列データ収集部1により収集、記憶されたものとする。図7の時系列データは、例えば図2の時系列データの値を記号化したものである。
(4) Processing Procedure Details of Feature Amount Extraction Processing According to this Embodiment Hereinafter, processing procedure details of the feature amount extraction processing according to this embodiment will be described with reference to FIGS. 7 to 9. It is assumed that the time-series data in FIG. 7 is collected and stored by the time-series data collection unit 1. The time series data in FIG. 7 is, for example, a symbolized value of the time series data in FIG.

図8は、図7の時系列データから特徴量を抽出するための処理手順を示すフローチャートである。図8のフローチャートにおいて使用されているj,k,lは、それぞれ、特徴を出そうとするクラスの番号、サンプルの番号、単位時間の番号を表すのに使われている。   FIG. 8 is a flowchart showing a processing procedure for extracting feature amounts from the time-series data of FIG. J, k, and l used in the flowchart of FIG. 8 are respectively used to represent the number of a class to be featured, the number of a sample, and the number of unit time.

一つのサンプルekは、時系列のデータdklを持っている。ここで、変数lは、単位時間を表しており、例えばdk5は、k番目の例ekの時間5の観測値を表している。jは、クラスの番号を表している。例えば、2個のクラスがある場合には、jは、1か2の値をとることになり、2個のクラスは、C1,C2となる。 One sample ek has time-series data dkl . Here, the variable l represents a unit time, e.g., d k5 represents the observed value of the time 5 of the k-th example e k. j represents the class number. For example, when there are two classes, j takes a value of 1 or 2, and the two classes are C 1 and C 2 .

図8のフローチャートにおいては、各サンプルの時系列データとクラスが入力として与えられる。例えば、医療データにおいては、各患者の薬の効果(効いた、効かない)をクラスとし、各患者の、時系列に沿って観測された血圧データが入力に使われる。   In the flowchart of FIG. 8, the time series data and class of each sample are given as inputs. For example, in the medical data, the effect (effective or ineffective) of the medicine of each patient is taken as a class, and blood pressure data observed along the time series of each patient is used for input.

図8のフローチャートの出力として得られるものは、各クラスに対する特徴を示す関数hj(t,υ)である。この関数hj(t,υ)は、j番目のクラスに対して、時間tと値υから構成される関数となる。 What is obtained as an output of the flowchart of FIG. 8 is a function h j (t, υ) indicating characteristics for each class. This function h j (t, υ) is a function composed of time t and value υ for the jth class.

まず、ステップS51において、クラスjを1つずつ順に選択し(ステップS51、ステップS53、ステップS59)、処理対象のクラスに対して、ステップS55からステップS69までの処理を繰り返すことにより、hj(t,υ)を算出する(ステップS73、ステップS75)。なお、本実施形態においては、必ずしもステップS51、ステップS53およびステップS59に示されるように、1つのクラスとその他のクラスを区別し、1つのクラスごと処理されなくともよい。この場合においては、図8におけるステップS51、ステップS53およびステップS59によって示される処理ループを省略して実行されてよい。 First, in step S51, class j is selected one by one in order (step S51, step S53, step S59), and the processing from step S55 to step S69 is repeated for the class to be processed, whereby h j ( t, υ) is calculated (step S73, step S75). In the present embodiment, as shown in Step S51, Step S53, and Step S59, one class is distinguished from other classes, and it is not necessary to process each class. In this case, the processing loop shown by step S51, step S53, and step S59 in FIG. 8 may be omitted.

ステップS55において、サンプルkを1つずつ順に選択し(ステップS55、ステップS57、ステップS65)、各サンプルごとに、ステップS57からステップS69までの処理を繰り返すことにより、全てのサンプルに対して関数hの算出を実行する。   In step S55, the sample k is selected one by one in order (step S55, step S57, step S65), and the function h is performed on all samples by repeating the processing from step S57 to step S69 for each sample. The calculation of is performed.

ステップS61において、単位時間lを1つ順に選択し(ステップS61、ステップS63、ステップS69)、各サンプルに対して、全ての単位時間(時刻)に亘って、
In step S61, unit times 1 are selected one by one in order (step S61, step S63, step S69), and over all unit times (time) for each sample,

の総和を求める(ステップS71〜ステップS73)。なお、
Is obtained (steps S71 to S73). In addition,

は、数式1におけるf(t,υ)と同じであり、t′にlを、υ′にdklを代入したものである。図8中、*で示された箇所(ステップS67N)は、単位時間中、dklが欠損していた場合であり、この場合には、何も処理せず、次の単位時間についての処理に進む。データが観測された場合には(ステップS67Y)、サンプルekが対象クラスCjに属するか否かで、処理が分かれる。サンプルekが対象クラスCjに属する場合には(ステップS71Y)、h(t,v)=h(t,v)+f,dkl(t,v)が算出され(ステップS73)、一方、サンプルekが対象クラスCjに属さない場合には(ステップS71N)、h(t,v)=h(t,v)−f,dkl(t,v)が算出される(ステップS75)。すなわち、ステップS73およびS75においては、数式2で示した関数g(e)によって場合分けされ、hj(t,υ)が更新される。 Is the same as f (t, υ) in Formula 1, and is obtained by substituting l for t ′ and d kl for υ ′. In FIG. 8, the part indicated by * (step S67N) is a case where d kl is missing during the unit time. In this case, nothing is processed and processing for the next unit time is performed. move on. When data is observed (step S67Y), the processing is divided depending on whether or not the sample e k belongs to the target class C j . When the sample e k belongs to the target class C j (step S71Y), h j (t, v) = h j (t, v) + f l , d kl (t, v) is calculated (step S73). On the other hand, when the sample e k does not belong to the target class C j (step S71N), h j (t, v) = h j (t, v) −f l , d kl (t, v) is calculated. (Step S75). That is, in steps S73 and S75, cases are classified according to the function g (e) shown in Equation 2, and h j (t, υ) is updated.

図9は、異なった種類(属性)の時系列データが収集された場合の、時系列データから特徴量を抽出するための処理手順を示すフローチャートであり、図9のフローチャートにおいて使用されているiは、時系列データの各属性の番号を示す。例えば、医療データの場合には、脈拍や血圧など、異なった属性の複数のデータを収集することができる。このような場合には、図9に示すフローチャートに従った処理を実行することにより、複数の属性から特徴を抽出することができる。なお、属性となる脈拍や血圧のデータは、常に同時刻に取られているのでなくても構わない。   FIG. 9 is a flowchart showing a processing procedure for extracting feature amounts from time series data when different types (attributes) of time series data are collected, and i used in the flowchart of FIG. Indicates the number of each attribute of the time-series data. For example, in the case of medical data, a plurality of data having different attributes such as pulse and blood pressure can be collected. In such a case, it is possible to extract features from a plurality of attributes by executing processing according to the flowchart shown in FIG. Note that the pulse and blood pressure data as attributes may not always be taken at the same time.

まず、ステップS1において、時系列データの属性iを1つずつ順に選択し(ステップS1、ステップS3、ステップS9)、すべての属性に対して、各属性ごとに、図8におけるフローチャートの処理(ステップS51からステップS69)を繰り返すことにより、それぞれの属性に対して、関数hを算出することにより、特徴を抽出する(ステップS5)。   First, in step S1, the attribute i of the time-series data is selected one by one in order (step S1, step S3, step S9), and the processing of the flowchart in FIG. By repeating step S51 to step S69), the feature h is extracted by calculating the function h for each attribute (step S5).

(5)本実施形態に係る時系列データ分析装置のハードウエア構成
図10は、本実施形態による時系列データ分析装置の構成を示すブロック図である。図10に示されるコンピュータ装置100である時系列データ分析装置10において、CPU101は、ROM104および/またはハードディスクドライブ106に格納されたプログラムに従い、RAM105を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU101は、マウス102aまたはキーボード102を介して入力されるユーザの指示に従い、ハードディスクドライブ106に格納されたプログラムに基づき、本実施形態に係る時系列データ分析処理を実行する。ディスプレイインタフェイス103には、CRTやLCDなどのディスプレイが接続され、CPU101が実行する時系列データ分析処理の入力待ち受け画面、処理経過や分析結果などが表示される。リムーバブルメディアドライブ107は、主に、リムーバブルメディアからハードディスクドライブ106へファイルを書き込んだり、ハードディスクドライブ106から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD−ROM、CD−R、CD−R/W、DVD−ROM、DVD−R、DVD−R/W、DVD−RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
(5) Hardware Configuration of Time Series Data Analysis Device According to this Embodiment FIG. 10 is a block diagram showing the configuration of the time series data analysis device according to this embodiment. In the time-series data analysis apparatus 10 which is the computer apparatus 100 shown in FIG. 10, the CPU 101 uses the RAM 105 as a primary storage work memory in accordance with a program stored in the ROM 104 and / or the hard disk drive 106, and uses the entire system. Control. Further, the CPU 101 executes time-series data analysis processing according to the present embodiment based on a program stored in the hard disk drive 106 in accordance with a user instruction input via the mouse 102 a or the keyboard 102. The display interface 103 is connected to a display such as a CRT or LCD, and displays an input standby screen of a time series data analysis process executed by the CPU 101, a process progress, an analysis result, and the like. The removable media drive 107 is mainly used when writing a file from the removable medium to the hard disk drive 106 or writing a file read from the hard disk drive 106 to the removable medium. Removable media include floppy disk (FD), CD-ROM, CD-R, CD-R / W, DVD-ROM, DVD-R, DVD-R / W, DVD-RAM and MO, memory card, CF Cards, smart media, SD cards, memory sticks, etc. can be used.

プリンタインタフェイス108には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス109は、コンピュータ装置をネットワーク12へ接続するためのインターフェースである。 A printer such as a laser beam printer or an ink jet printer is connected to the printer interface 108. The network interface 109 is an interface for connecting a computer device to the network 12.

なお、本実施形態に係る時系列データ分析装置における入力部は、マウス102aあるいはキーボード102に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を本実施形態に係る画像検索表示装置として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。   Note that the input unit in the time-series data analysis apparatus according to the present embodiment is not limited to the mouse 102a or the keyboard 102, and an arbitrary pointing device such as a trackball, a trackpad, or a tablet can be used as appropriate. When the portable information terminal is used as the image search and display device according to the present embodiment, the input unit may be configured with a button, a mode dial, or the like.

また、図10に示した本実施形態に係る時系列データ分析装置のハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。   Further, the hardware configuration of the time-series data analysis apparatus according to the present embodiment shown in FIG. 10 is only an example, and it is needless to say that any other hardware configuration can be used.

殊に、本実施形態に係る時系列データ分析処理は、上記コンピュータ端末装置100あるいはPDA等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをBluetooth(登録商標)等の無線、あるいはインターネット(TCP/IP)、公共電話網(PSTN)、統合サービス・ディジタル網(ISDN)等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)からなるネットワークシステムによって実現されてもよい。端末装置とサーバー装置とを接続したシステムによって本実施形態に係る時系列データ分析処理を実現する場合には、例えば、時系列データの記憶保持、ならびにこれらへの分析処理(特徴量抽出処理)をサーバー装置において稼動するプログラムが実行し、ユーザーからの情報解析のための指示入力および解析結果のブラウジング処理のみをWebブラウザを搭載したクライアント装置が実行してもよい。あるいは、サーバー装置上で稼動するポータルサイトプログラムが、本実施形態に係る時系列データ分析処理の全部または一部を実行してもよい。   In particular, the time-series data analysis processing according to the present embodiment may be realized by the computer terminal device 100 or a portable information terminal device such as a PDA. The computer terminal device and the server device are connected to Bluetooth (registered trademark). Internet or any well-known local area network (LAN) interconnected by wired communication lines such as the Internet (TCP / IP), public telephone network (PSTN), integrated service digital network (ISDN), etc. ) Or a network system composed of a wide area network (WAN). When the time series data analysis processing according to the present embodiment is realized by a system in which a terminal device and a server device are connected, for example, storage and storage of time series data and analysis processing (feature amount extraction processing) for these are performed. A program running on the server device may execute, and a client device equipped with a Web browser may execute only an instruction input for information analysis from a user and a browsing process of an analysis result. Alternatively, the portal site program running on the server device may execute all or part of the time series data analysis processing according to the present embodiment.

コンピュータ端末装置100上で稼動するWebブラウザ上のフォームを使用して、ユーザーがクラス種別や解析条件等のデータをサーバー装置に送信できる。あるいは、本実施形態に係る時系列データ分析処理の全部または一部を記述するJava(登録商標)アプレット等のアプレットを、ネットワークを介してサーバー装置からWebブラウザ上にダウンロードし、ブラウザのウインドウに埋め込ませて実行させることができる。   Using a form on a Web browser running on the computer terminal device 100, the user can send data such as class type and analysis conditions to the server device. Alternatively, an applet such as a Java (registered trademark) applet describing all or part of the time-series data analysis processing according to the present embodiment is downloaded from a server device to a web browser via a network and embedded in a browser window. Can be executed.

以上のとおり、本実施形態によれば、時系列データから、所望の結果が得られる、ないし期待される場合の時系列データの特徴を自動的かつ効率的に抽出することが可能となる。   As described above, according to the present embodiment, it is possible to automatically and efficiently extract the characteristics of time series data when a desired result is obtained or expected from time series data.

また、欠損値を含む時系列データを分析対象とした場合にあっても、データが存在する場合と同様の効果が得られるので、特徴抽出の精度を高く維持することができる。   Further, even when time series data including missing values is set as an analysis target, the same effect as when data exists can be obtained, so that the accuracy of feature extraction can be maintained high.

さらに、抽出された時系列データの特徴を直感的かつ識別可能に視覚化することが可能となる等、有利な効果が得られる。   Furthermore, advantageous effects are obtained, such as the features of the extracted time-series data can be visualized intuitively and distinguishably.

本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含む。さらに、本発明の範囲は、請求項1により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。   The scope of the present invention is not limited to the illustrated and described exemplary embodiments, but includes all embodiments that provide the same effects as those intended by the present invention. Further, the scope of the present invention is not limited to the combination of features of the invention defined by claim 1 but can be defined by any desired combination of specific features among all the disclosed features. .

本発明の一実施形態に係る時系列データ分析装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the time series data analyzer which concerns on one Embodiment of this invention. 本発明の一実施形態に係る時系列データ収集部1に入力される時系列データの一例を示す図である。It is a figure which shows an example of the time series data input into the time series data collection part 1 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る特徴量抽出部4に入力されるデータをグラフ表示した一例を示す図である。It is a figure which shows an example which displayed in graph the data input into the feature-value extraction part 4 which concerns on one Embodiment of this invention. 図2におけるサンプルNo.1の時間3の観測データ値を用いた関数f(t、v)の三次元表示の一例を示す図である。Sample No. 2 in FIG. It is a figure which shows an example of the three-dimensional display of the function f (t, v) using the observation data value of the time 3 of 1. FIG. 図2におけるサンプルNo.1の時間1から時間10の観測データ値を用いた関数f(t、v)の総和の三次元表示の一例を示す図である。Sample No. 2 in FIG. It is a figure which shows an example of the three-dimensional display of the sum total of the function f (t, v) using the observed data value of the time 1 to the time 10 of 1. FIG. 特徴視覚化部6が出力する、関数h(t、v)の値を濃淡により二次元表示した一例を示す図である。It is a figure which shows an example which displayed the value of the function h (t, v) which the characteristic visualization part 6 outputs two-dimensionally with the shading. 図2における時系列データを記号化して得られる時系列データの一例を示す図である。It is a figure which shows an example of the time series data obtained by symbolizing the time series data in FIG. 本発明の一実施形態に係る時系列データ分析装置10の特徴量抽出部4が実行する処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence which the feature-value extraction part 4 of the time series data analysis apparatus 10 which concerns on one Embodiment of this invention performs. 本発明の一実施形態に係る時系列データ分析装置10の特徴量抽出部4が、複数の属性を有する時系列データを処理する場合の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence in case the feature-value extraction part 4 of the time series data analysis apparatus 10 which concerns on one Embodiment of this invention processes the time series data which has a some attribute. 本発明の一実施形態に係る時系列データ分析装置のハードウエア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the time series data analyzer which concerns on one Embodiment of this invention.

符号の説明Explanation of symbols

時系列データ収集部 1
分類クラス決定部 2
時系列データ決定部 3
特徴量抽出部 4
規則学習部 5
特徴視覚化部 6
分類予測算出部 7
理由説明報知部 8
データ制御部 9
時系列データ記憶部 21
Time series data collection part 1
Classification class decision part 2
Time series data decision part 3
Feature extraction unit 4
Rule learning part 5
Feature visualization part 6
Classification prediction calculation unit 7
Reason explanation notification part 8
Data control unit 9
Time-series data storage unit 21

Claims (10)

データ要素として観測時刻と観測値が関連づけられた第1の時系列データを入力する手段と該時系列データを記憶する手段を有する時系列データ収集部と、
前記時系列データ収集部により収集された複数の第1の時系列データのうち、 特徴を抽出すべき時系列データ第1のクラスを、それ以外の時系列データに第2のクラスを、それぞれ付与する分類クラス決定部と、
前記第1および第2のクラスが付与された第2の時系列データを記憶する時系列データ記憶部と、
前記時系列データ記憶部で記憶された前記第2の時系列データに対して、前記観測時刻に前記観測値が存在する場合は、該観測時刻を観測点とし、該観測点の前記観測値を最大値とする凸型関数を生成し、前記前記第1および第2のクラスに対応する係数として、第1のクラスに対応する係数が第2のクラスに対応する係数より大きな値の係数となるように定めて前記凸型関数にかけ、全観測点についての該凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記第2の時系列データの特徴を抽出する特徴抽出部とを具備する
ことを特徴とする時系列データ分析装置。
Means for inputting first time-series data in which observation times and observation values are associated as data elements ; and a time-series data collecting unit having means for storing the time-series data;
Of the time-series data first plurality collected by the time series data acquisition unit, a first class time-series data to be extracted features, the second class series data at other times, A classification class determination unit to be assigned respectively;
A time-series data storage unit that stores second time-series data to which the first and second classes are assigned;
To the second time-series data stored in the time series data storage unit, if the observed value in the observation time is present, the observation time and observation point, the observed value of the observation point generating a convex function to the maximum value, and the coefficient of the first and the coefficient corresponding to the second class, a value greater than the coefficient of the coefficient corresponding to the first class corresponds to the second class And calculating the sum of the convex functions for all observation points, and extracting the observation points at which the calculated value is equal to or greater than a predetermined threshold value . A time series data analysis apparatus comprising: a feature extraction unit that extracts features of time series data.
前記特徴抽出部は、
各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出手段と、
前記時系列データ関数値算出手段により算出された前記凸型関数の総和に、前記分類クラス決定部により、当該時系列データに付与された前記第2の時系列データの前記第1のクラスまたは前記第2のクラスに対応する係数として掛け合わせるクラス適用手段と、
すべての第2の時系列データについて、前記時系列データ関数値算出手段と前記クラス適用手段とによる計算処理を繰り返す第1繰り返し計算手段と、
すべてのクラスについて、前記時系列データ関数値算出手段、前記クラス適用手段および前記第1繰り返し計算手段による計算処理を繰り返す第2繰り返し計算手段と、
前記第2繰り返し計算手段により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出手段とを具備する
ことを特徴とする請求項1に記載の時系列データ分析装置。
The feature extraction unit includes:
For each time series data, over all times, only for the observation points, time series data function value calculating means for calculating the sum of the convex functions,
The first class of the second time series data added to the time series data by the classification class determination unit or the sum of the convex functions calculated by the time series data function value calculation unit or the Class application means for multiplying as a coefficient corresponding to the second class;
First iterative calculation means for repeating the calculation processing by the time series data function value calculation means and the class application means for all second time series data;
Second iteration calculation means for repeating the calculation process by the time series data function value calculation means, the class application means and the first iteration calculation means for all classes;
The time series data analysis apparatus according to claim 1, further comprising observation point extraction means for extracting observation points whose values calculated by the second iterative calculation means are equal to or greater than a predetermined threshold.
前記第1のクラスに対応する係数は+1であり、前記第2のクラスに対応する係数は−1である
ことを特徴とする請求項1または2に記載の時系列データ分析装置。
The coefficient corresponding to the first class is +1, the coefficient corresponding to the second class time-series data analyzing apparatus according to claim 1 or 2, characterized in that it is -1.
上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、前記第2の時系列データの観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化部を具備する
ことを特徴とする請求項1ないし3のいずれか記載の時系列データ分析装置。
The time series data analysis device further includes:
Based on the features extracted by the feature extraction unit, wherein the sum of the convex function in the second time series data of the human stations, observation time and the observed plane on the three-dimensional display data values constitute Or a time series data analysis apparatus according to claim 1, further comprising: a feature visualization unit that performs two-dimensional display in a distinguishable manner for each threshold on the plane.
上記時系列データ分析装置は、さらに、
前記特徴抽出部により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測部を具備する
ことを特徴とする請求項1ないし4のいずれか記載の時系列データ分析装置。
The time series data analysis device further includes:
2. A class prediction unit that generates a rule based on the feature extracted by the feature extraction unit and predicts a class to be assigned to time-series data according to the generated rule. 4. The time-series data analysis device according to any one of 4.
時系列データ分析処理をコンピュータに実行させるための時系列データ分析プログラムであって、該プログラムは、前記コンピュータに、
データ要素として観測時刻と観測値が関連づけられた第1の時系列データを入力する手段と該時系列データを記憶する手段に記憶する時系列データ収集処理、
前記時系列データ収集処理により収集された複数の第1の時系列データのうち、特徴を抽出すべき時系列データ第1のクラスを、それ以外の時系列 データに第2のクラスを、それぞれ付与する分類クラス決定処理、
前記第1および第2のクラスが付与された第2の時系列データを記憶する手段に記憶する時系列データ記憶処理、
前記時系列データ記憶処理で記憶された前記第2の時系列データに対して、前記観測時刻に前記観測値が存在する場合は、該観測時刻を観測点とし、該観測点の前記観測値を最大値とする凸型関数を生成し、前記前記第1および第2のクラスに対応する係数として、第1のクラスに対応する係数が第2のクラスに対応する係数より大きな値の係数となるように定めて前記凸型関数にかけ、全観測点についての該凸型関数の総和を算出し、算出された値が、所定の閾値以上となる観測点を抽出することにより、前記第2の時系列データの特徴を抽出する特徴抽出処理
としての機能を実行させる時系列データ分析プログラム。
A time-series data analysis program for causing a computer to execute time-series data analysis processing, the program having the computer
Means for inputting first time-series data in which observation times and observation values are associated as data elements , and time- series data collection processing for storing the time-series data in the means for storing ,
The time-series data collection process of the time-series data first plurality collected by the first class time-series data to be extracted features, the second class series data at other times, Classification class determination process to be assigned to each
A time-series data storage process for storing in a means for storing the second time-series data to which the first and second classes are assigned,
To the time-series data storing processing the second time series data stored in, if the observed value in the observation time is present, the observation time and observation point, the observed value of the observation point generating a convex function to the maximum value, and the coefficient of the first and the coefficient corresponding to the second class, a value greater than the coefficient of the coefficient corresponding to the first class corresponds to the second class And calculating the sum of the convex functions for all observation points, and extracting the observation points at which the calculated value is equal to or greater than a predetermined threshold value . Feature extraction processing to extract features of time series data
Time-series data analysis program that makes performing the function of as.
前記コンピュータは、前記特徴抽出処理
各時系列データごとに、すべての時刻に亘り、前記観測点のみについて、前記凸型関数の総和を算出する時系列データ関数値算出処理、
前記時系列データ関数値算出手段により算出された前記凸型関数の総和に、当該第2の時系列データに付与された前記第1のクラスまたは前記第2のクラスに対応する係数として掛け合わせるクラス適用処理、
すべての第2の時系列データについて、前記時系列データ関数値算出手段と前記クラス適用手段とによる計算処理を繰り返す第1繰り返し計算処理、
すべてのクラスについて、前記時系列データ関数値算出手段、前記クラス適用手段および前記第1繰り返し計算手段による計算処理を繰り返す第2繰り返し計算処理、
前記第2繰り返し計算手段により算出された値が、所定の閾値以上となる観測点を抽出する観測点抽出処理
としての機能を実行させることを特徴とする請求項6記載の時系列データ分析プログラム。
The computer, the feature extraction process,
For each time series data, over all times, only for the observation points, a time series data function value calculation process for calculating the sum of the convex functions,
Class that multiplies the sum of the convex functions calculated by the time series data function value calculation means as a coefficient corresponding to the first class or the second class assigned to the second time series data Apply processing,
A first iterative calculation process for repeating the calculation process by the time series data function value calculation means and the class application means for all second time series data;
A second iterative calculation process for repeating the calculation process by the time series data function value calculating means, the class applying means and the first iterative calculating means for all classes;
Observation point extraction processing for extracting observation points whose value calculated by the second iterative calculation means is equal to or greater than a predetermined threshold value
The time series data analysis program according to claim 6 , wherein the function is executed .
前記第1のクラスに対応する係数は+1であり、前記第2のクラスに対応する係数は−1である
ことを特徴とする請求項6または7に記載の時系列データ分析プログラム。
The coefficient corresponding to the first class is +1, the time-series data analysis program according to claim 6 or 7 coefficients corresponding to the second class is characterized in that it is -1.
前記コンピュータは、さらに、
前記特徴抽出処理により抽出された特徴に基づいて、前記第2の時系列データの観測点における前記凸型関数の総和を、観測時刻および観測されたデータ値が構成する平面上三次元表示し、または該平面上閾値ごとに識別可能に二次元表示する特徴視覚化処理、
としての機能を実行することを特徴とする請求項6ないし8のいずれか記載の時系列データ分析プログラム。
The computer further includes:
Based on the features extracted by the feature extraction process, the total sum of the convex function in the second time series data of the human stations, observation time and the observed plane on the three-dimensional display data values constitute Or a feature visualization process for two-dimensionally displaying each threshold value in an identifiable manner,
9. The time series data analysis program according to claim 6, wherein the time series data analysis program is executed .
前記コンピュータに、さらに、
前記特徴抽出処理により抽出された特徴に基づいて、規則を生成し、生成された規則に従って、時系列データに付与すべきクラスを予測するクラス予測処理、
としての機能を実行することを特徴とする請求項6ないし9のいずれか記載の時系列データ分析プログラム。
In the computer, it is in La,
A class prediction process for generating a rule based on the feature extracted by the feature extraction process, and predicting a class to be given to the time-series data according to the generated rule;
The time-series data analysis program according to claim 6, wherein the time-series data analysis program according to claim 6 is executed .
JP2004350270A 2004-12-02 2004-12-02 Time-series data analysis apparatus and time-series data analysis program Active JP4734559B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004350270A JP4734559B2 (en) 2004-12-02 2004-12-02 Time-series data analysis apparatus and time-series data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004350270A JP4734559B2 (en) 2004-12-02 2004-12-02 Time-series data analysis apparatus and time-series data analysis program

Publications (2)

Publication Number Publication Date
JP2006163521A JP2006163521A (en) 2006-06-22
JP4734559B2 true JP4734559B2 (en) 2011-07-27

Family

ID=36665505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004350270A Active JP4734559B2 (en) 2004-12-02 2004-12-02 Time-series data analysis apparatus and time-series data analysis program

Country Status (1)

Country Link
JP (1) JP4734559B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182461A (en) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 Time series data mining system

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100790933B1 (en) 2006-12-15 2008-01-03 한국전기연구원 A method and system for transmitting of real time data in power systems
JP4686505B2 (en) * 2007-06-19 2011-05-25 株式会社東芝 Time-series data classification apparatus, time-series data classification method, and time-series data processing apparatus
WO2009017204A1 (en) * 2007-08-01 2009-02-05 Olympus Corporation Clustering method, program, and device
JP5348998B2 (en) * 2008-10-17 2013-11-20 株式会社東芝 Image search apparatus and method
GB2551238B (en) 2014-09-30 2019-04-10 270 Vision Ltd Mapping trajectories of the anatomy of the human or animal body for comparitive analysis
US11449732B2 (en) 2016-09-06 2022-09-20 Nippon Telegraph And Telephone Corporation Time-series-data feature extraction device, time-series-data feature extraction method and time-series-data feature extraction program
CN110134913B (en) * 2018-02-08 2023-08-18 松下知识产权经营株式会社 Data analysis method, data analysis device, and recording medium
JP6892634B2 (en) * 2018-03-15 2021-06-23 オムロン株式会社 Information processing equipment, information processing methods, and programs
JP7056493B2 (en) * 2018-09-28 2022-04-19 日本電信電話株式会社 Data processing equipment, data processing methods and programs
JP7030072B2 (en) * 2019-03-14 2022-03-04 株式会社日立製作所 Time-series data monitoring system and time-series data monitoring method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002330060A (en) * 2001-05-01 2002-11-15 Rikogaku Shinkokai Coefficient calculation supporting device, coefficient calculating device, program for realizing coefficient calculation supporting device or coefficient calculating device, and recording medium with the program stored

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002330060A (en) * 2001-05-01 2002-11-15 Rikogaku Shinkokai Coefficient calculation supporting device, coefficient calculating device, program for realizing coefficient calculation supporting device or coefficient calculating device, and recording medium with the program stored

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182461A (en) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 Time series data mining system
CN104182461B (en) * 2014-07-21 2018-06-26 安徽华贞信息科技有限公司 A kind of Time Series Data Mining system

Also Published As

Publication number Publication date
JP2006163521A (en) 2006-06-22

Similar Documents

Publication Publication Date Title
US20020164070A1 (en) Automatic algorithm generation
JP4734559B2 (en) Time-series data analysis apparatus and time-series data analysis program
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
CN108140025A (en) For the interpretation of result of graphic hotsopt
US20030200191A1 (en) Viewing multi-dimensional data through hierarchical visualization
US10936971B2 (en) Optimization apparatus and optimization method for hyper parameter
JP2003085194A (en) Process analyzing method and information system
JP4376887B2 (en) Method, apparatus, and program for extracting cause compensation for business efficiency degradation in business process
JP7256766B2 (en) Inference basis analysis device and inference basis analysis method
De Brabandere et al. Automating feature construction for multi-view time series data
Banerjee et al. Enhancing Snake Plant Disease Classification through CNN-Random Forest Integration
JP2006163489A (en) Disease onset probability calculating device, and program
JP3563394B2 (en) Screen display system
Jamal et al. Developing and Evaluating Data-Driven Heart Disease Prediction Models by Ensemble Methods on Different Data Mining Tools
KR101064617B1 (en) Method and apparatus for classifying multivariate stream data
Seelam et al. Comparative study of predictive models to estimate employee attrition
Biju Analyzing the predictive capacity of various machine learning algorithms
JP2020204824A (en) Information processing system and information processing method
JP2005122509A (en) Program, system and method for analyzing hierarchical structure data
Kiang et al. A comparative analysis of an extended SOM network and K-means analysis
Hall An Automated Approach to Bee Identi cation from Wing Venation
Tuhaise et al. Pixel classification methods for automatic symptom measurement of cassava brown streak disease
Pistorius et al. Intuitive time-series-analysis-toolbox for inexperienced data scientists
Ngo et al. Tag-Based Annotation for Avatar Face Creation
CN118471540B (en) Cardiovascular case data processing method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150