JP2005258599A - Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium - Google Patents

Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium Download PDF

Info

Publication number
JP2005258599A
JP2005258599A JP2004066451A JP2004066451A JP2005258599A JP 2005258599 A JP2005258599 A JP 2005258599A JP 2004066451 A JP2004066451 A JP 2004066451A JP 2004066451 A JP2004066451 A JP 2004066451A JP 2005258599 A JP2005258599 A JP 2005258599A
Authority
JP
Japan
Prior art keywords
data
probability
memory
autoregressive
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004066451A
Other languages
Japanese (ja)
Inventor
Tomoharu Iwata
具治 岩田
Kazumi Saito
和己 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004066451A priority Critical patent/JP2005258599A/en
Publication of JP2005258599A publication Critical patent/JP2005258599A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To appropriately visually detect predetermined data such as an outlier in given arbitrary multidimensional data. <P>SOLUTION: An outlier visualization apparatus A is used to visualize predetermined data in a plurality of data y forming object data Y by means of a mixed autoregressive model mixing a K number of autoregressive models. In the outlier visualization apparatus A, a model parameter estimation part 11 reads the object data Y into memory, and pairs the data y with input vectors x created from the data y to create a plurality of data D into memory, then an extended probability vector estimation part 12 estimates joint probabilities of the stored data D and classes k into memory, and combines a mean 2 sigma value to the probability vectors to create extended probability vectors into memory, and an outlier visualization part 13 uses the extended probability vectors to visually display the predetermined data. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、経済時系列データ、テキストデータ、生物データなど、任意のデータが与えられたときに、例えば該データに含まれる所定のデータを可視化する方法や装置などに関する。   The present invention relates to a method and apparatus for visualizing predetermined data included in, for example, given data such as economic time series data, text data, and biological data.

近年、大量のデータが電子的に蓄積されつつある。このように電子的に蓄積されるデータから異常値を検出することによって、過去の大きな出来事を知ること、また将来の危機に備えることが、重要な研究課題となっている。
異常値検出のための主要な方法として、正常な状態のデータを利用してモデルを構築し、該モデルとの誤差の大きいデータを異常とするものがある(非特許文献1)。また、異常値を出力する方法としては、横軸にデータ、縦軸に異常の程度をプロットするものがある。
Early statistical detection of anthrax outbreaks by tracking over-the-counter medication sales, A. Goldenberg et.al. Proceedings of the National Academy of Sciences of the United States of America, 99(8):5237-5240,2002
In recent years, a large amount of data has been accumulated electronically. Knowing major past events and preparing for future crises by detecting outliers from electronically stored data are important research issues.
As a main method for detecting an abnormal value, there is a method in which a model is constructed using data in a normal state, and data having a large error from the model is abnormal (Non-Patent Document 1). As a method of outputting an abnormal value, there is a method of plotting data on the horizontal axis and the degree of abnormality on the vertical axis.
Early statistical detection of anthrax outbreaks by tracking over-the-counter medication sales, A. Goldenberg et.al.Proceedings of the National Academy of Sciences of the United States of America, 99 (8): 5237-5240,2002

しかしながら、正常な状態でのモデルを構築し、該構築したモデルとの誤差の大きいデータを異常とすると、モデルの表現能力の欠如のために、異常値ではないのに異常値とみなされてしまうことがある。正確に異常値を検出するために、モデルをより表現能力の高いものにする必要がある。   However, if a model in a normal state is constructed, and data with a large error from the constructed model is regarded as abnormal, it is regarded as an abnormal value even though it is not an abnormal value due to the lack of the ability to express the model. Sometimes. To accurately detect outliers, the model needs to be more expressive.

さらに、従来の異常値の出力法では、異常の程度を知ることはできるが、各異常の性質
を知ることは困難であるという問題点がある。
Furthermore, in the conventional abnormal value output method, it is possible to know the degree of abnormality, but it is difficult to know the nature of each abnormality.

そこで、本発明は、与えられた任意のデータのなかから、例えば異常値といったような所定のデータを適切に可視化して検出することができるようにした、データの可視化方法、データの可視化装置、データの可視化プログラム、及び記憶媒体を提供することを主たる目的とする。   Therefore, the present invention provides a data visualization method, a data visualization device, and the like, which can appropriately detect and detect predetermined data such as an abnormal value from given arbitrary data. The main object is to provide a data visualization program and a storage medium.

前記課題を解決した本発明は、与えられた任意のデータに基づき確率モデルに含まれるパラメータが異なる複数の確率モデルの線形和で記述される混合モデルを構築し、データと各確率モデルとの同時確率と平均2シグマ値を結合したものを表示することにより、異常値といったような所定のデータを可視化することとした。   The present invention that has solved the above problems constructs a mixed model described by a linear sum of a plurality of probability models having different parameters included in the probability model based on given arbitrary data, and simultaneously combines the data and each probability model. By displaying the combination of the probability and the average 2 sigma value, predetermined data such as an abnormal value is visualized.

即ち、本発明は、情報を記憶するメモリを作業領域として演算を行う演算手段を有するコンピュータを用いて、対象データYを構成する複数のデータyのなかの所定のデータを、K個の確率モデルの線形和で記述される混合モデルを用いて可視化するデータの可視化方法に関する。本発明のデータの可視化方法では、前記演算手段が、前記対象データYを読み込んで前記メモリに記憶し、前記データyと各確率モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定して前記メモリに記憶し、前記確率ベクトルに、全確率モデルの所定の確率変数における確率密度である平均確率密度を結合することで拡大確率ベクトルを作成して前記メモリに記憶し、前記拡大確率ベクトルを用いて前記所定のデータを可視化する座標データを作成して前記メモリに記憶することを特徴とする。   That is, the present invention uses a computer having a calculation means for performing calculation using a memory for storing information as a work area, and converts predetermined data among a plurality of data y constituting target data Y into K probability models. The present invention relates to a method for visualizing data that is visualized using a mixed model described by a linear sum. In the data visualization method of the present invention, the calculation means reads the target data Y and stores it in the memory, and sets the probability of the data y and each probability model as a vector as a probability vector. Storing in the memory, creating an expanded probability vector by combining the probability vector with an average probability density that is a probability density in a predetermined random variable of all probability models, storing the expanded probability vector in the memory, and The coordinate data for visualizing the predetermined data is created and stored in the memory.

ここで、確率モデルは、後記する実施形態では、自己回帰モデルであるが、正規分布モデルや多項分布モデルなどを適用することができる。また、混合モデルは、後記する実施形態では、自己回帰混合モデルであるが、確率モデルに対応した他の混合モデルでもよい。また、平均確率密度は、後記する実施形態では、平均2シグマ値であるが、他の平均確率密度でもよい。なお、詳しい解決手段については、後記する実施形態で詳しく説明する。   Here, although the probability model is an autoregressive model in the embodiment described later, a normal distribution model, a multinomial distribution model, or the like can be applied. In the embodiment described later, the mixed model is an autoregressive mixed model, but may be another mixed model corresponding to the probability model. In addition, the average probability density is an average 2 sigma value in the embodiment described later, but other average probability density may be used. Detailed solution means will be described in detail in an embodiment described later.

本発明によれば、与えられた任意のデータのなかから、例えば異常値といったような所定のデータを適切に可視化して検出することができる。   According to the present invention, predetermined data such as an abnormal value can be appropriately visualized and detected from given data.

以下、本発明の「データの可視化方法、データの可視化装置、データの可視化プログラム、及び記憶媒体」を実施するための最良の形態(以下「実施形態」という)を詳細に説明する。なお、以下説明する実施形態は、最初に可視化方法(データの可視化方法)の原理(「可視化方法の基本的な考え方」・「可視化方法の原理・数式の説明」)を説明し、その後、可視化方法などを具現化した「異常値可視化装置」を具体的に説明する。   The best mode (hereinafter referred to as “embodiment”) for carrying out the “data visualization method, data visualization device, data visualization program, and storage medium” of the present invention will be described in detail below. In the embodiment described below, the principle of the visualization method (data visualization method) (“basic concept of visualization method” / “principle of visualization method / description of mathematical formula”) is explained first, and then visualization is performed. The “abnormal value visualization device” embodying the method will be specifically described.

≪可視化方法の基本的な考え方≫
最初に、可視化方法の基本的な考え方を、式(1)〜式(5)を参照して説明する。
≪Basic concept of visualization method≫
First, the basic concept of the visualization method will be described with reference to formulas (1) to (5).

(拡大確率ベクトルの推定)
本実施形態では、可視化するデータは、次の式(1)の構造を有するD*とする。
なお、この式(1)におけるD(i)はi番目のデータ、Nは与えられたデータの総数である。このD(i)は、後記するデータy(t)と後記する入力ベクトルx(t)が対になったものである。補足すると、D(i)は、「入力ベクトルx(i)とデータy(i)とからなるデータ」である。
ちなみに、データD(i)やデータy(t)におけるカッコ内のiやtは、配列変数として定義されているデータを指定するインデックスである。インデックスの名称が異なっても、インデックスの値が同じならば同じデータを指定することができる。
(Estimation of expansion probability vector)
In the present embodiment, the data to be visualized is D * having the structure of the following formula (1).
In this equation (1), D (i) is the i-th data, and N is the total number of given data. This D (i) is a pair of data y (t) to be described later and an input vector x (t) to be described later. Supplementally, D (i) is “data consisting of input vector x (i) and data y (i)”.
Incidentally, i and t in parentheses in data D (i) and data y (t) are indexes that specify data defined as array variables. Even if the index names are different, the same data can be specified as long as the index values are the same.

Figure 2005258599
Figure 2005258599

データD*(つまりデータD(i))は、K個の確率モデルの重み付き線形和によって記述される次の式(2)の混合モデルによって生成される。つまり、混合モデルは、式(2)に示すように、複数の確率モデルの線形和で定義される。なお、後記するように、Kは確率モデルの総数である。 Data D * (that is, data D (i)) is generated by a mixed model of the following equation (2) described by a weighted linear sum of K probability models. That is, the mixed model is defined by a linear sum of a plurality of probability models as shown in Expression (2). As will be described later, K is the total number of probability models.

Figure 2005258599
Figure 2005258599

なお、ΣP(k)=1、P(k)≧0、Θは未知パラメータである。ここで、未知パラメータのΘは後記するAとσの少なくとも1つに相当する。
未知パラメータは、未知パラメータのΘが与えられたもとでのデータD*が生成される確率を最大化することによって推定する。つまり、次の式(3)を最大化することで未知パラメータのΘが推定される。ここで、式(3)の左辺はΘが推定値であることを示す。また、式(3)の右辺は、右辺を最大とするΘを推定値とすることを意味する。ちなみに、式(3)は後記する式(11)〜式(17)に対応する。
Note that ΣP (k) = 1, P (k) ≧ 0, and Θ are unknown parameters. Here, Θ of the unknown parameter corresponds to at least one of A and σ described later.
The unknown parameter is estimated by maximizing the probability that the data D * is generated under the unknown parameter Θ. That is, Θ of the unknown parameter is estimated by maximizing the following equation (3). Here, the left side of Expression (3) indicates that Θ is an estimated value. Further, the right side of Equation (3) means that Θ that maximizes the right side is an estimated value. Incidentally, Expression (3) corresponds to Expression (11) to Expression (17) described later.

Figure 2005258599
Figure 2005258599

データD(i)と各確率モデル(k=1, ... ,K)との同時確率をベクトルにしたものを、次の式(4)で示す確率ベクトルz*(i)とする。なお、ここでもカッコ内のiは配列変数である確率ベクトルの任意の1つを指定するインデックスである。
ここで、式(4)は、「データyと確率モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定」したものである。
A probability vector z * (i) represented by the following equation (4) is a vector obtained by using the simultaneous probability of the data D (i) and each probability model (k = 1,..., K) as a vector. Here, i in parentheses is an index for designating any one of probability vectors that are array variables.
Here, the equation (4) is obtained by “setting a probability vector of the joint probability of the data y and the probability model as a probability vector”.

Figure 2005258599
Figure 2005258599

この確率ベクトルz*(i)に平均2シグマ値(α〜)を結合(付加)したものを、次の式(5)の拡大確率ベクトルz(i)とする。 The probability vector z * (i) combined with (added to) an average 2-sigma value (α˜) is defined as an expanded probability vector z (i) in the following equation (5).

Figure 2005258599
Figure 2005258599

平均2シグマ値とは、全確率モデルの2シグマ値(標準偏差の2倍)における確率密度の平均である。ちなみに、式(4)は後記する式(19)に対応し、式(5)は後記する式(18)に対応する。   The average 2 sigma value is an average of probability density in the 2 sigma value (twice the standard deviation) of the entire probability model. Incidentally, Expression (4) corresponds to Expression (19) described later, and Expression (5) corresponds to Expression (18) described later.

(拡大確率ベクトルの可視化による異常値の可視化)
次に、拡大確率ベクトルを可視化することにより異常値を可視化する手法について説明する。拡大確率ベクトルを、例えば2次元や3次元のベクトルに次元圧縮して可視化する。次元圧縮法としては古典的多次元尺度法、CoPE法など数多く提案されており、どの手法を用いても構わない。後記するのはCoPE法である。
(Visualization of abnormal values by visualization of expansion probability vector)
Next, a method for visualizing an abnormal value by visualizing an expansion probability vector will be described. The expansion probability vector is visualized by, for example, dimensional compression into a two-dimensional or three-dimensional vector. Many methods such as a classical multidimensional scaling method and a CoPE method have been proposed as a dimensional compression method, and any method may be used. What will be described later is the CoPE method.

拡大確率ベクトルのなかで、平均2シグマ値が相対的に高いデータは、異常値の程度が大きい(他のデータとの異なり方が大きい)ものであるということができる。そのため拡大確率ベクトルを可視化することにより、異常値の程度を表す軸ができ、異常値を視覚的に検出することが可能となる。なお、確率ベクトルは各確率モデルに属する確率を表しているため、拡大確率ベクトルを可視化することによって、異常値の程度の大きさだけでなく、異常値がどのような性質を持つかも知ることができる。
補足すると、表示されるデータが複数の確率モデルのうち、どの確率モデルにより生成されたかが検証可能であるので、例えば、異常値と判定されたデータがどの確率モデルにより生成されたかを知り、その確率モデルのパラメータを確認すれば、異常値がどのような性質を持つかを知ることができる。
ちなみに、表示するデータを、例えば確率モデルごとに色分けするなど、一の確率モデルにより処理されたデータと、パラメータが異なる他の確率モデルにより処理されたデータとを、識別可能に表示することで、異常値と判定されたデータがどの確率モデルにより生成されたかを視覚的に知ることができる。
In the expansion probability vector, it can be said that data having a relatively high average 2 sigma value has a large degree of abnormal value (differing from other data is large). Therefore, by visualizing the expansion probability vector, an axis representing the degree of the abnormal value is formed, and the abnormal value can be visually detected. Since the probability vector represents the probability belonging to each probability model, by visualizing the expanded probability vector, it is possible to know not only the magnitude of the abnormal value but also the nature of the abnormal value. it can.
Supplementally, since it is possible to verify which of the plurality of probability models the displayed data was generated by, for example, know which probability model generated the data determined to be an abnormal value, and the probability If you check the parameters of the model, you can know what kind of properties the outliers have.
By the way, by displaying the data to be displayed, for example, by color coding for each probability model, the data processed by one probability model and the data processed by another probability model with different parameters are displayed in an identifiable manner, It is possible to visually know which probability model has generated the data determined to be an abnormal value.

≪可視化方法の原理・数式の説明≫
次に、与えられた任意のデータに含まれる異常値を、混合モデルを用いて可視化する可視化方法の原理と使用する数式を説明する。なお、数式の説明順序は、後で説明するフローチャート(図3など)での処理の説明順序とは必ずしも一致していない。
≪Principle of visualization method ・ Explanation of mathematical expression≫
Next, a principle of a visualization method for visualizing an abnormal value included in given arbitrary data using a mixed model and a mathematical expression to be used will be described. Note that the description order of the mathematical expressions does not necessarily match the description order of the processing in a flowchart (FIG. 3 and the like) described later.

(データ)
まず、与えられた任意のデータ(つまり対象データY)を説明する。本実施形態の可視化方法の適用対象となる対象データYは、次の式(6)の構造をしている。
例えば、y(1)は1983年1月の経済時系列データ、y(2)は翌月の経済時系列データ、y(T)は1983年1月から数えてT番目の月の経済時系列データである。仮にTが240ならば、y(T)は2002年12月の経済時系列データである。つまり、データy(t)は時刻tの経済時系列データ、Tは与えられた時系列の総数である。ちなみに、この経済時系列データは、1983年1月から2002年12までの、「日本のマネタリーベース」、「国際金利」、「卸売物価指数」、「機械受注」、「鉱工業生産指数」、「円ドル為替レート」の月ごとの、6次元の時系列データであるものとする(時刻t=1983年1月〜2002年12月、変数の次元数d=6、時系列の総数T=240)。なお、式(6)の対象データYは、「複数のデータyからなる任意の対象データY」に相当する。ここでは、対象データYとして6次元のデータを示しているが、次元は、1次元以上でよい。
(data)
First, given arbitrary data (that is, target data Y) will be described. The target data Y that is an application target of the visualization method of the present embodiment has a structure of the following formula (6).
For example, y (1) is the economic time series data for January 1983, y (2) is the economic time series data for the next month, and y (T) is the economic time series data for the Tth month counted from January 1983. It is. If T is 240, y (T) is economic time series data of December 2002. That is, data y (t) is economic time series data at time t, and T is the total number of time series given. By the way, this economic time series data is from “January base of Japan”, “International interest rate”, “Wholesale price index”, “Machine orders”, “Industrial production index”, “Yen” “Dollar exchange rate” is assumed to be 6-dimensional time series data for each month (time t = January 1983 to December 2002, variable dimension number d = 6, total number of time series T = 240) . The target data Y in Expression (6) corresponds to “arbitrary target data Y composed of a plurality of data y”. Here, six-dimensional data is shown as the target data Y, but the dimension may be one or more dimensions.

Figure 2005258599
Figure 2005258599

(自己回帰モデルへの入力ベクトル)
対象データYに含まれる異常値を可視化するに際して、対象データYから式(7)で示す構造をした自己回帰モデルへの入力ベクトルx(t)を作成する。なお、x(t)を適宜「入力ベクトル」と略称する。ちなみに、可視化の対象となる対象データYに含まれる「異常値」は、「所定のデータ」に相当する。
(Input vector to autoregressive model)
When the abnormal value included in the target data Y is visualized, an input vector x (t) from the target data Y to the autoregressive model having the structure shown by the equation (7) is created. Note that x (t) is abbreviated as “input vector” as appropriate. Incidentally, the “abnormal value” included in the target data Y to be visualized corresponds to “predetermined data”.

Figure 2005258599
Figure 2005258599

この式(7)で、τは自己回帰モデルの次数を示す。例えば、次数τが2ならば時刻tから1月遡った時刻のデータy(t−1)と2月遡った時刻のデータy(t−2)に基づいて、時刻tにおける入力ベクトルx(t)が作成されることになる。なお、式(7)における「´」は行列の転置である。ちなみに、入力ベクトルx(t)は、dτのベクトルを有するデータになる。ここで、dは前記のとおり変数の次元数(ここでは6)である。例えば、次数τが2の場合は、dτは12になる。   In this equation (7), τ represents the order of the autoregressive model. For example, if the order τ is 2, the input vector x (t at time t is based on the data y (t−1) at the time retroactive to January from the time t and the data y (t−2) at the retroactive time in February. ) Will be created. Note that “′” in Equation (7) is a transpose of a matrix. Incidentally, the input vector x (t) is data having a vector of dτ. Here, d is the number of dimensions of variables (here, 6) as described above. For example, when the order τ is 2, dτ is 12.

(自己回帰モデル)
自己回帰モデルは、次の式(8)で与えられる。すなわち、自己回帰モデルでは、時刻tのデータy(t)を過去τ期間のデータの重み付き線形和と誤差との和で記述する。つまり、時刻tにおけるデータy(t)は、次の式(8)で表現される。
なお、式(8)のAは、dτ×d行列の自己回帰モデルのパラメータ(適宜「パラメータ」という)、εは白色雑音の誤差項である。
(Autoregressive model)
The autoregressive model is given by the following equation (8). That is, in the autoregressive model, the data y (t) at time t is described as the sum of the weighted linear sum of the data in the past τ period and the error. That is, the data y (t) at time t is expressed by the following equation (8).
In Equation (8), A is a parameter of an autoregressive model of dτ × d matrix (referred to as “parameter” as appropriate), and ε is an error term of white noise.

Figure 2005258599
Figure 2005258599

(自己回帰混合モデル)
自己回帰混合モデルでは、次の式(9)のように、時刻tのデータy(t)は、K個の自己回帰モデルの重み付き線形和によって生成されると考える(Kは1以上)。なお、kは、自己回帰モデルを特定(指定)するインデックスであり、1,2,…,Kの値をとる)。
(Autoregressive mixed model)
In the autoregressive mixed model, it is considered that the data y (t) at time t is generated by a weighted linear sum of K autoregressive models as in the following equation (9) (K is 1 or more). Note that k is an index for specifying (designating) an autoregressive model and takes values 1, 2,..., K).

Figure 2005258599
Figure 2005258599

ここで、式(9)の左辺は、入力ベクトルx(t)が解っているときのデータy(t)の確率密度である。また、式(9)の右辺のP(k)は、自己回帰モデルがk番目のときの重みである。同じく右辺のp(y(t)|x(t),k)は、入力ベクトルx(t)と自己回帰モデルがk番と解っているときの入力データy(t)の確率密度である。つまり、この式(9)は、K個の確率モデルの重み付き線形和を示すものでもあるといえる。   Here, the left side of Equation (9) is the probability density of the data y (t) when the input vector x (t) is known. Further, P (k) on the right side of Equation (9) is a weight when the autoregressive model is kth. Similarly, p (y (t) | x (t), k) on the right side is the probability density of the input data y (t) when the input vector x (t) and the autoregressive model are understood to be k-th. That is, this equation (9) can also be said to indicate a weighted linear sum of K probability models.

パラメータを推定するに際して、式(9)の右辺のp(y(t)|x(t),k)は、次の式(10)で求まる。すなわち、自己回帰モデルでは、誤差を正規分布と仮定しているため、K個の自己回帰モデルのうちのk番目の自己回帰モデルに属すとしたときの時刻tのデータy(t)の確率分布(つまり、入力ベクトルx(t)と自己回帰モデルが解っているときの入力データy(t)の確率密度)は次の式(10)で求まる。
なお、Akはk番目の自己回帰モデルのパラメータ、σk 2はk番目の自己回帰モデルのの分散である。ここで、すべての変数の分散は一定かつ独立という仮定をおいている。
In estimating the parameters, p (y (t) | x (t), k) on the right side of the equation (9) is obtained by the following equation (10). In other words, since the error is assumed to be a normal distribution in the autoregressive model, the probability distribution of the data y (t) at time t when it belongs to the kth autoregressive model among the K autoregressive models. (In other words, the input vector x (t) and the probability density of the input data y (t) when the autoregressive model is solved) are obtained by the following equation (10).
Incidentally, A k is a parameter of the k-th autoregressive model, sigma k 2 is the variance of the k th autoregressive model. Here, it is assumed that the variance of all variables is constant and independent.

Figure 2005258599
Figure 2005258599

(モデルパラメータの推定)
自己回帰混合モデルの未知パラメータの推定は次のように行う。
(Model parameter estimation)
The unknown parameter of the autoregressive mixed model is estimated as follows.

Step1; まず、K*=1として、次の式(11)で表される自己回帰モデルの2乗誤差E1を最小にすることでパラメータA1を推定する。
この計算は、最小2乗法で行う。なお、時刻tは、初期値がτ+1であり、終値がTである。前記したとおり、τは自己回帰モデルの次数である。K*はループカウンタである。
Step 1; First, assuming that K * = 1, the parameter A 1 is estimated by minimizing the square error E 1 of the autoregressive model expressed by the following equation (11).
This calculation is performed by the least square method. At time t, the initial value is τ + 1 and the final value is T. As described above, τ is the order of the autoregressive model. K * is a loop counter.

Figure 2005258599
Figure 2005258599

Step2; 1≦s≦K*を満たすsを選び、パラメータを次の式(12)、式(13)のように設定する。sは、パラメータAを選択するインデックスである。ΔAは例えば乱数である。ちなみに、最初にStep2を実行するときは、Step1でK*=1としていることからsは1になる。2度目以降にStep2を実行するときは、再びsが1になることもあり得る。 Step 2; s satisfying 1 ≦ s ≦ K * is selected, and parameters are set as shown in the following equations (12) and (13). s is an index for selecting the parameter A. ΔA is, for example, a random number. Incidentally, when Step 2 is executed for the first time, s becomes 1 since K * = 1 at Step 1. When Step 2 is executed after the second time, s may become 1 again.

Figure 2005258599
Figure 2005258599

Step3; ループカウンタのK*を1つインクリメントする。 Step 3; Increment K * of the loop counter by one.

Step4; データの尤度の対数をとった次の式(13)で、LK *を最大化することによりパラメータ(A、σ、P)を推定する。なお、右辺のΣのなかの第2項の確率密度は、式(10)に相当する。 Step 4: The parameters (A, σ, P) are estimated by maximizing L K * in the following equation (13) that is a logarithm of the likelihood of data. Note that the probability density of the second term in Σ on the right side corresponds to Equation (10).

Figure 2005258599
Figure 2005258599

Step5; K*<Kならば、つまりループカウンタのK*が、自己回帰モデルの総数であるKに満たない場合は、Step2に戻り、Step2以降の処理を行う。 Step5; K * <If K, i.e. of the loop counter K * is, if less than K is the total number of autoregressive model returns to Step2, performs processing after Step2.

ところで、Step4において、解析的にLK *を最大にするパラメータを算出することはできない。このため、EMアルゴリズムを反復することによって、つまり次のE−Step、M−Stepを反復することによって、近似的にLK *を最大にするパラメータを算出する。 By the way, in Step 4, the parameter that maximizes L K * cannot be calculated analytically. Therefore, a parameter that approximately maximizes L K * is calculated by repeating the EM algorithm, that is, by repeating the following E-Step and M-Step.

E−Step; 次の式(14)を用いて、x(t)とy(t)が解っているときのk番目の自己回帰モデルの重みP(k|x(t),y(t))を算出する。   E-Step; The weight P (k | x (t), y (t) of the kth autoregressive model when x (t) and y (t) are known using the following equation (14) ) Is calculated.

Figure 2005258599
Figure 2005258599

M−Step; 次のパラメータ、P(k)、Ak、σk 2を次の式(15)〜式(17)により推定する。なお、P(k)、Ak、σk 2は、自己回帰モデルがk番目のときの、それぞれ、確率密度、パラメータ、分散である。 M-Step; The following parameters, P (k), A k , and σ k 2 are estimated by the following equations (15) to (17). Note that P (k), A k , and σ k 2 are probability density, parameter, and variance, respectively, when the autoregressive model is kth.

Figure 2005258599
Figure 2005258599

(拡大確率ベクトルの推定)
パラメータの推定が終わると自己回帰混合モデルが構築される。この後は、拡大確率ベクトルのz(t)を推定する。z(t)は、次の式(18)により推定(定義)される。
なお、式(18)の拡大確率ベクトルz(t)は、次の式(19)の確率ベクトルz*(t)に次の式(20)の自己回帰混合モデルの平均2シグマ値(α〜)を付加したものである。ちなみに、式(18)は式(5)に対応し、式(19)は式(4)に対応する。
(Estimation of expansion probability vector)
When parameter estimation is complete, an autoregressive mixture model is constructed. Thereafter, z (t) of the expansion probability vector is estimated. z (t) is estimated (defined) by the following equation (18).
Note that the expansion probability vector z (t) in the equation (18) is an average 2 sigma value (α˜) of the autoregressive mixed model in the following equation (20) to the probability vector z * (t) in the following equation (19). ) Is added. Incidentally, equation (18) corresponds to equation (5), and equation (19) corresponds to equation (4).

Figure 2005258599
Figure 2005258599

なお、式(18)と式(19)において、重みPについても確率密度pについても、kは1,2,...,Kまでの値をとる。また、確率ベクトルz*(t)と拡大確率ベクトルz(t)は、各時刻t(t=1〜T)ごとにそれぞれ推定される。ちなみに、式(20)において、分散σk 2は式(17)のものを使用することができる。
ここで、式(19)は、「入力ベクトルxと当該入力ベクトルxに対応する前記データyとからなるデータDと各自己回帰モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定」したものである。
In Expressions (18) and (19), k takes values up to 1, 2,..., K for both weight P and probability density p. Further, the probability vector z * (t) and the expanded probability vector z (t) are estimated at each time t (t = 1 to T), respectively. Incidentally, in the equation (20), the dispersion σ k 2 can use the equation (17).
Here, the equation (19) is set as “the probability vector is a vector in which the simultaneous probability of the data D composed of the input vector x and the data y corresponding to the input vector x and each autoregressive model is set”. Is.

(可視化による異常値検出)
与えられた対象データYからパラメータを推定、自己回帰混合モデルの構築、拡大確率ベクトルの推定が完了すると可視化による異常値検出を行う。本実施形態では、異常値は、各時刻(t=1〜T)の拡大確率ベクトルz(t)をもとに、CoPE法(Connectivity Preserving Embedding法)によって2又は3次元で可視化するものとする。
なお、CoPE法は、「クロスエントロピ最小化に基づくネットワークデータの埋め込み」、情報処理学会論文誌、44(9):1234-1231,2003に詳しく記載されている。
(Abnormal value detection by visualization)
When the parameters are estimated from the given target data Y, the construction of the autoregressive mixed model, and the estimation of the expansion probability vector are completed, the abnormal value is detected by visualization. In this embodiment, the abnormal value is visualized in two or three dimensions by the CoPE method (Connectivity Preserving Embedding method) based on the expansion probability vector z (t) at each time (t = 1 to T). .
The CoPE method is described in detail in “Embedding Network Data Based on Cross-Entropy Minimization”, Transactions of Information Processing Society of Japan, 44 (9): 1234-1231, 2003.

CoPE法では、まず、時刻tがiのときのデータD(i)と時刻tがjのときのデータD(j)の類似度si,jを、時刻iと時刻jの拡大確率ベクトルz(i),z(j)のコサイン類似度によって算出する。この際使用する数式は次の式(21)である。なお、データD(i)は、入力ベクトルx(i)を入力としてデータy(i)を出力とするデータである(yとxとが対になったデータ)。同様に、データD(j)は、入力ベクトルx(j)を入力としてデータy(j)を出力とするデータである。 In the CoPE method, first, the similarity s i, j between the data D (i) when the time t is i and the data D (j) when the time t is j is used as an expansion probability vector z between the time i and the time j. (I) Calculated by the cosine similarity of z (j). The mathematical formula used at this time is the following formula (21). The data D (i) is data having the input vector x (i) as an input and the data y (i) as an output (data in which y and x are paired). Similarly, data D (j) is data having input vector x (j) as input and data y (j) as output.

Figure 2005258599
Figure 2005258599

この式(21)において、分子のz(i)´は、時刻iにおける式(18)の拡大確率ベクトルz(i)の転置を示す。また、分母は拡大確率ベクトルz(i)の絶対値と同z(j)の絶対値の積を示す。   In this equation (21), z (i) ′ of the numerator indicates the transposition of the expansion probability vector z (i) of equation (18) at time i. The denominator represents the product of the absolute value of the expansion probability vector z (i) and the absolute value of z (j).

ここで、riをデータD(i)の座標とする。座標(iがτ+1〜Tまでの全座標)を、riとrjの確率密度p(ri,rj)と類似度si,jのクロスエントロピの和に正則化項を加えた次の式(22)を最小化することにより算出する。 Here, let r i be the coordinates of the data D (i). Coordinates (i is all coordinates to tau + 1 to T), and r i and r j the probability density p (r i, r j) and the similarity s i, a regularization term to the sum of the cross-entropy of j added following This is calculated by minimizing the equation (22).

Figure 2005258599
Figure 2005258599

なお、時刻iは、初期値がτ+1であり、終値がT−1である。また、時刻jは、初期値がτ+2であり、終値がTである。μは正則化項の重みで、例えば可視化結果に基づいて適宜設定される。‖ri2は、座標riの原点からの距離である。 At time i, the initial value is τ + 1 and the final value is T-1. The time j has an initial value of τ + 2 and a final value of T. μ is the weight of the regularization term, and is appropriately set based on the visualization result, for example. ‖R i2 is the distance from the origin of the coordinate r i.

ここで、p(ri,rj)のクロスエントロピは次の式(23)により算出され、この式(23)で必要とするp(ri,rj)は次の式(24)により算出される。 Here, the cross entropy of p (r i , r j ) is calculated by the following equation (23), and p (r i , r j ) required in this equation (23) is calculated by the following equation (24). Calculated.

Figure 2005258599
Figure 2005258599

この座標riを2次元又は3次元でグラフ化して、可視化する。これにより、異常値が視覚的に判別可能になる。 The coordinates r i are visualized by graphing them in two or three dimensions. Thereby, the abnormal value can be visually discriminated.

≪異常値可視化装置の構成≫
次に、前記した原理を踏まえて、与えられたデータ(対象データY)に含まれる異常値を、コンピュータにより可視化する異常値可視化装置を具体的に説明する。
図1は、本発明の一実施形態の異常値可視化装置の構成図である。
≪Configuration of abnormal value visualization system≫
Next, based on the principle described above, an abnormal value visualization apparatus that visualizes an abnormal value included in given data (target data Y) by a computer will be specifically described.
FIG. 1 is a configuration diagram of an abnormal value visualization apparatus according to an embodiment of the present invention.

図1に示すように、異常値可視化装置Aは、演算装置1、入力装置2、記憶装置3、表示装置4がバスに接続された構成をしている。演算装置1は、ハードウェア的には、演算手段としてのCPU(Central Processing Unit)や情報を記憶するメモリとしてのRAM(Random Access Memory)などから構成されている。この演算装置1は、ソフトウェア構成として、モデルパラメータ推定部11、拡大確率ベクトル推定部12、異常値可視化部13を備えている。各部11,12,13の機能は、後で詳しく説明する。なお、モデルパラメータ推定部11、拡大確率ベクトル推定部12、異常値可視化部13は、その基になるプログラムが記憶装置3に記憶されており、異常値可視化装置Aを起動した際、CPUにより記憶装置3からRAM上に読み出されて各部11,12,13として機能するものとする。CPUは、各種情報を記憶するメモリであるRAMを作業領域として、演算結果や演算経過を随時RAMに記憶しつつ各種演算を行う。もちろん、CPUは、CPUが内蔵するキャッシュメモリも作業領域としつつ各種演算を行う。   As shown in FIG. 1, the abnormal value visualization apparatus A has a configuration in which an arithmetic device 1, an input device 2, a storage device 3, and a display device 4 are connected to a bus. In terms of hardware, the arithmetic device 1 includes a CPU (Central Processing Unit) as arithmetic means and a RAM (Random Access Memory) as a memory for storing information. The arithmetic device 1 includes a model parameter estimation unit 11, an expansion probability vector estimation unit 12, and an abnormal value visualization unit 13 as a software configuration. The function of each part 11, 12, 13 will be described in detail later. The model parameter estimator 11, the expansion probability vector estimator 12, and the abnormal value visualization unit 13 have their base programs stored in the storage device 3, and are stored by the CPU when the abnormal value visualization device A is activated. It is assumed that the data is read from the device 3 onto the RAM and functions as the respective units 11, 12, and 13. The CPU performs various calculations while storing the calculation results and calculation progress in the RAM as needed using a RAM, which is a memory for storing various information, as a work area. Of course, the CPU performs various calculations while using the cache memory built in the CPU as a work area.

入力装置2は、キーボード、ネットワークインタフェイスカード、FDDのようなディスクドライブ装置などから構成される入力手段であり、前記した対象データY(経済時系列のデータ)や自己回帰モデルの次数τ、自己回帰モデルの総数Kなどの各種データを異常値可視化装置Aに入力するために用いられる。記憶装置3は、ハードディスク装置などから構成される記憶手段である。本実施形態では、入力装置2から入力された各種データは、記憶装置3に記憶されるものとする。また、記憶装置3は、前記したように、各部11,12,13の基になるプログラムを記憶しているものとする。表示装置4は、例えばグラフィックボード及びそれに接続された液晶モニタであり、異常値可視化部13により可視化されたデータを視覚的に表示する。   The input device 2 is an input means composed of a keyboard, a network interface card, a disk drive device such as an FDD, and the like, the target data Y (economic time series data), the order τ of the autoregressive model, the self It is used to input various data such as the total number K of regression models to the abnormal value visualization apparatus A. The storage device 3 is a storage means configured from a hard disk device or the like. In the present embodiment, it is assumed that various data input from the input device 2 is stored in the storage device 3. Further, as described above, it is assumed that the storage device 3 stores a program that is the basis of the units 11, 12, and 13. The display device 4 is, for example, a graphic board and a liquid crystal monitor connected thereto, and visually displays data visualized by the abnormal value visualization unit 13.

次に、演算装置1にソフトウェア的に(プログラムモジュールとして)構成されるモデルパラメータ推定部11、拡大確率ベクトル推定部12、異常値可視化部13の機能を説明する。   Next, functions of the model parameter estimation unit 11, the expansion probability vector estimation unit 12, and the abnormal value visualization unit 13 configured in software on the arithmetic device 1 (as program modules) will be described.

(モデルパラメータ推定部)
演算装置1のモデルパラメータ推定部11は、式(9)及び式(10)で示す自己回帰混合モデルのパラメータを推定して、自己回帰混合モデルを構築する機能を有する。このため、モデルパラメータ推定部11は、(a)記憶装置3に記憶された式(6)で示す対象データYと次数τ、その他を演算装置1に読み込む処理、(b)演算装置1に読み込んだ対象データYと次数τとから、式(7)の自己回帰モデルへの入力ベクトルを算出する処理、(c)対象データYと入力ベクトルx(t)から、式(11)〜式(17)を用い、自己回帰混合モデルのパラメータなど(A、σ、P(k))を推定する処理を行う機能を有する。なお、読み込んだ対象データYなどや演算の結果・途中経過は、適宜図示しないRAMに記憶して、後段の拡大確率ベクトル推定部12での処理に活用するものとする。本実施形態では、重みのP(k)もパラメータの1つとして説明する。
(Model parameter estimation unit)
The model parameter estimation unit 11 of the arithmetic device 1 has a function of estimating the parameters of the autoregressive mixed model represented by the equations (9) and (10) and constructing the autoregressive mixed model. For this reason, the model parameter estimation unit 11 (a) reads the target data Y and the order τ shown in the equation (6) stored in the storage device 3 into the arithmetic device 1, and (b) reads into the arithmetic device 1. From the target data Y and the order τ, a process for calculating an input vector to the autoregressive model of Expression (7), (c) From the target data Y and the input vector x (t), Expressions (11) to (17) ) And a process for estimating parameters (A, σ, P (k)) of the autoregressive mixed model. It should be noted that the read target data Y and the result of the calculation and the intermediate result are stored in a RAM (not shown) as appropriate, and used for processing in the subsequent expansion probability vector estimation unit 12. In the present embodiment, the weight P (k) will be described as one of the parameters.

(拡大確率ベクトル推定部)
拡大確率ベクトル推定部12は、前記した式(18)〜式(20)を用いて、また、適宜RAMに記憶されているモデルパラメータ推定部11の演算の結果や途中経過を用いて、拡大確率ベクトルz(t)を各時刻t(t=1〜T)ごとにそれぞれ推定する処理を行う機能を有する。
(Expansion probability vector estimation unit)
The expansion probability vector estimation unit 12 uses the above-described equations (18) to (20), and appropriately uses the calculation results of the model parameter estimation unit 11 stored in the RAM and the progress of the expansion probability. It has a function of performing a process of estimating the vector z (t) at each time t (t = 1 to T).

(異常値可視化部)
異常値可視化部13は、前記した式(21)〜式(24)を用いて対象データYに含まれる異常値をCoPE法により可視化する処理を行う機能を有する。
(Abnormal value visualization part)
The abnormal value visualization unit 13 has a function of performing a process of visualizing the abnormal value included in the target data Y by the CoPE method using the equations (21) to (24).

≪異常値可視化装置の動作≫
次に、フローチャートを用いて、前記説明した構成を有する異常値可視化装置Aの動作を説明する。
図2は、読み込んだデータから異常値を可視化するまでの処理の概要を示したフローチャートである。この図2に示すように、異常値可視化装置Aは、ステップS100で、記憶装置3から対象データYを読み込み、「自己回帰混合モデルの構築処理」を行う。なお、この処理を行うのは、図1に示すモデルパラメータ推定部11である。次に、ステップS200で、「拡大確率ベクトルの推定処理」を行う。なお、この処理を行うのは、図1に示す拡大確率ベクトル推定部12である。拡大確率ベクトルの推定処理後は、S300で、「異常値の可視化処理」を行う。なお、この処理を行うのは、図1に示す異常値可視化部13である。
≪Operation of abnormal value visualization system≫
Next, the operation of the abnormal value visualization apparatus A having the above-described configuration will be described using a flowchart.
FIG. 2 is a flowchart showing an outline of processing from the read data until the abnormal value is visualized. As shown in FIG. 2, the abnormal value visualization apparatus A reads the target data Y from the storage device 3 in step S <b> 100 and performs “autoregressive mixture model construction process”. This process is performed by the model parameter estimation unit 11 shown in FIG. Next, in step S200, “expansion probability vector estimation processing” is performed. This process is performed by the expansion probability vector estimation unit 12 shown in FIG. After the expansion probability vector estimation processing, “abnormal value visualization processing” is performed in S300. This process is performed by the abnormal value visualization unit 13 shown in FIG.

(自己回帰混合モデルの構築)
次に、図3のフローチャートを参照して、図2のステップS100の「自己回帰混合モデルの構築処理」を詳細に説明する(適宜図1など参照)。ここで行うのは、式(9)及び式(10)で示す自己回帰混合モデルのパラメータを推定して、自己回帰混合モデルを構築する処理である。以下の説明における動作主体は、モデルパラメータ推定部11である。なお、モデルパラメータ推定部11は、CPUやRAMなどから構成される演算装置1で機能するプログラムモジュールである。
ちなみに、この図3のフローチャートは、コンピュータでの演算処理の順序を考慮して表現しているので、「可視化方法の原理・数式の説明」のところで説明した数式の登場順序とは必ずしも一致しない。この点は、以降の各フローチャート(図4、図5)においても同じである。
(Building an autoregressive mixed model)
Next, the “autoregressive mixture model construction process” in step S100 of FIG. 2 will be described in detail with reference to the flowchart of FIG. 3 (see FIG. 1 as appropriate). What is performed here is a process of constructing an autoregressive mixture model by estimating the parameters of the autoregressive mixture model represented by equations (9) and (10). The operating subject in the following description is the model parameter estimation unit 11. Note that the model parameter estimation unit 11 is a program module that functions in the arithmetic device 1 including a CPU, a RAM, and the like.
Incidentally, since the flowchart of FIG. 3 is expressed in consideration of the order of the arithmetic processing in the computer, it does not necessarily match the appearance order of the mathematical expressions described in “Principle of visualization method / Explanation of mathematical expressions”. This also applies to the subsequent flowcharts (FIGS. 4 and 5).

まず、図3に示すように、モデルパラメータ推定部11は、記憶装置3から演算装置1に、式(6)で示す構造をした対象データYを読み込む(S101)。対象データYは、前記したとおり6次元の経済時系列データである。読み込んだ対象データYについて、式(7)で示す構造をした自己回帰モデルへの入力データx(t)の作成を行う(S102)。なお、式(7)で使われるτは、前記したとおり自己回帰モデルの次数であり、このτは、別途演算装置1に読み込まれているものとする。   First, as illustrated in FIG. 3, the model parameter estimation unit 11 reads the target data Y having the structure represented by Expression (6) from the storage device 3 to the arithmetic device 1 (S101). The target data Y is 6-dimensional economic time series data as described above. With respect to the read target data Y, input data x (t) to an autoregressive model having a structure represented by Expression (7) is created (S102). It is assumed that τ used in Equation (7) is the order of the autoregressive model as described above, and this τ is read into the arithmetic device 1 separately.

次に、ループカウンタK*を初期化して1にする(S103)。なお、ループカウンタK*は、1〜Kまでの整数値をとる。このステップS103は、すべての自己回帰モデルのパラメータを推定するための準備ステップである。 Next, the loop counter K * is initialized to 1 (S103). The loop counter K * takes an integer value from 1 to K. This step S103 is a preparation step for estimating the parameters of all autoregressive models.

続いて、前記ステップS101で読み込んだ対象データYに含まれるデータy(t)と前記ステップS102で作成した入力ベクトルx(t)を用いて、式(11)の2乗最小誤差E1を最小にすることで、パラメータA1を推定する(S104)。ここまでは、自己回帰モデルのパラメータの推定で、次のステップS105以降は、自己回帰混合モデルのパラメータの推定である。 Subsequently, by using the data y (t) included in the target data Y read in step S101 and the input vector x (t) created in step S102, the squared minimum error E 1 of equation (11) is minimized. Thus, the parameter A 1 is estimated (S104). Up to this point, the parameters of the autoregressive model are estimated, and the subsequent steps S105 and after are parameters of the autoregressive mixed model.

パラメータA1を推定した後は、1≦s≦K*を満たす任意のインデックスsを選び、パラメータを式(12)のように設定する(S105)。なお、ループカウンタのK*が1のときは、必ずsは1になる。式(12)のAK*+1=As−ΔAは、添字の部分でK*+1としていることから、次のAK *の値を設定していることになる。 After the parameter A 1 is estimated, an arbitrary index s satisfying 1 ≦ s ≦ K * is selected, and the parameters are set as shown in Expression (12) (S105). When K * of the loop counter is 1, s is always 1. A K * + 1 = As- ΔA of formula (12), since you are K * +1 part of subscript, it means that by setting the value of the next A K *.

パラメータのAを式(12)のように設定すると、ループカウンタK*を1つインクリメントする(S106)。そして、前記したEMアルゴリズムのE−stepを実行する(S107)。つまり、式(14)により、データy(t)と入力ベクトルy(t)が解っているときのk番目の自己回帰モデルの重みを算出する(S107)。
ちなみに、式(11)と式(13)では、各時刻t=τ+1〜Tまでの値を使って、1つのE1、1つのLK *が算出される。一方、式(14)については、複数個のP(k|x(t)、y(t))が算出される。
When the parameter A is set as shown in equation (12), the loop counter K * is incremented by one (S106). Then, E-step of the EM algorithm described above is executed (S107). That is, the weight of the k-th autoregressive model when the data y (t) and the input vector y (t) are known is calculated from the equation (14) (S107).
Incidentally, in Eqs. (11) and (13), one E 1 and one L K * are calculated using values from time t = τ + 1 to T. On the other hand, for Equation (14), a plurality of P (k | x (t), y (t)) is calculated.

次に、前記したEMアルゴリズムのM−stepを実行する(S108)。つまり、式(15)によりP(k)を、式(16)によりσk 2を、式(17)によりAkをそれぞれ推定する。ちなみに、ステップS107で算出した重みP(k|x(t),y(t))を用いて式(15)〜式(17)を実行することから、実行するごとに異なるP(k)、σk 2、Akが推定される。 Next, M-step of the above-described EM algorithm is executed (S108). That is, P (k) is estimated by Expression (15), σ k 2 is estimated by Expression (16), and A k is estimated by Expression (17). Incidentally, since the equations (15) to (17) are executed using the weight P (k | x (t), y (t)) calculated in step S107, P (k), σ k 2 and A k are estimated.

ステップS109とステップS110では、式(13)を用い、推定したパラメータを検証する。パラメータの検証は、式(13)によりデータの尤度の対数をとったLK *を算出し(S109)、これが最大化したときのパラメータを検証済みのパラメータとして採用するものである。なお、本実施形態では、LK *の最大化をLK *が収束したか否かにより判断する(S110)。従って、LK *が収束したならば(S110においてYes)、インクリメントされたK*におけるパラメータの推定が完了する。一方、LK *が収束しないならば(S110においてNo)、ステップS107に戻ってステップS107以降を再度実行し、新たなパラメータを推定して検証を行う。 In step S109 and step S110, the estimated parameter is verified using equation (13). In the parameter verification, L K * obtained by taking the logarithm of the data likelihood is calculated by the equation (13) (S109), and the parameter when this is maximized is adopted as the verified parameter. In the present embodiment, a maximum of L K * L K * is determined by whether or not convergence (S110). Therefore, if L K * has converged (Yes in S110), the parameter estimation for the incremented K * is completed. On the other hand, if L K * does not converge (No in S110), the process returns to step S107 and step S107 and subsequent steps are executed again, and new parameters are estimated and verified.

ちなみに、本実施形態では、LK *が収束したか否かの判断は、ステップS109において算出したLK *の前回値と今回値を比較し、その差の絶対値が所定値未満(以下)ならば収束したと判断するものである。もちろん、LK *が収束したか否かを判断するのはLK *が最大化したか否かを判断するための一例であり、LK *が最大化したか否かの判断の仕方については、本実施形態以外の判断の仕方でもよい。 Incidentally, in the present embodiment, whether or not L K * has converged is determined by comparing the previous value of L K * calculated in step S109 with the current value, and the absolute value of the difference is less than a predetermined value (below). Then, it is judged that it has converged. Of course, determining whether or not L K * has converged is an example for determining whether or not L K * has been maximized, and how to determine whether or not L K * has been maximized. May be a determination method other than this embodiment.

ステップS111では、ループカウンタのK*が自己回帰モデルの総数であるKよりも小さいか(K*<K)否かを判断する。K*<Kならば(ステップS111においてYes)、ステップS105に戻り、ステップS105以降を実行する。つまり、次のK*(次の自己回帰モデル)についてのパラメータの推定を行う。一方、K*<Kでないならば、つまりK*=Kならば(ステップS111においてNo)、自己回帰混合モデルのすべてのパラメータ(P(k),σk 2、Ak)が推定されたので、この図3のフローチャートの処理を終了する。これにより、自己回帰混合モデルが構築される。 In step S111, the loop counter K * to determine whether small or (K * <K) judges than K is the total number of autoregressive model. If K * <K (Yes in step S111), the process returns to step S105, and step S105 and subsequent steps are executed. That is, the parameter for the next K * (next autoregressive model) is estimated. On the other hand, if K * <K, that is, if K * = K (No in step S111), all parameters (P (k), σ k 2 , A k ) of the autoregressive mixture model have been estimated. Then, the process of the flowchart of FIG. Thereby, an autoregressive mixed model is constructed.

(拡大確率ベクトルの推定処理)
次に、図4のフローチャートを参照して、図2のステップS200の「拡大確率ベクトルの推定処理」を詳細に説明する(適宜図など1参照)。以下の説明における動作主体は、拡大確率ベクトル推定部12である。なお、拡大確率ベクトル推定部12は、演算装置1で機能するプログラムモジュールである。
(Expansion probability vector estimation process)
Next, the “expansion probability vector estimation process” in step S200 of FIG. 2 will be described in detail with reference to the flowchart of FIG. The operation subject in the following description is the expansion probability vector estimation unit 12. The expansion probability vector estimation unit 12 is a program module that functions in the arithmetic device 1.

まず、図4に示すように、拡大確率ベクトル推定部12は、ステップS201でt=0として、時刻tを初期化する。これは、t=1〜Tまでのすべての時刻tについて、拡大確率ベクトルを推定するための準備である。ステップS202で、時刻tをインクリメントする(データy(0)が存在しないため)。ステップS203で、「データy(t)と入力ベクトルx(t)」と「各自己回帰モデル(k=1,... ,K)」との同時確率(つまりデータD(t)と各確率モデルとの同時確率)をベクトルにしたものを、式(18)の確率ベクトルz*(t)として設定する。なお、式(18)は、前記したステップS100での演算結果に基づいて設定される。 First, as illustrated in FIG. 4, the expansion probability vector estimation unit 12 initializes time t by setting t = 0 in step S201. This is a preparation for estimating the expansion probability vector for all times t from t = 1 to T. In step S202, the time t is incremented (because there is no data y (0)). In step S203, the simultaneous probability of “data y (t) and input vector x (t)” and “each autoregressive model (k = 1,..., K)” (that is, data D (t) and each probability A vector in which the joint probability with the model) is set as a vector is set as a probability vector z * (t) in Expression (18). Expression (18) is set based on the calculation result in step S100 described above.

次に、自己回帰混合モデルの平均2シグマ値を、ステップS100での演算結果を利用して式(20)により算出する(S204)。そして、この平均2シグマ値を確率ベクトルz*(t)に付加して、式(19)の拡大確率ベクトルz(t)を推定する(S205)。次に、時刻tが時系列の総数であるTより小さいか(t<Tか)を判断する(S206)。tがTに満たない場合(S206でYes)は、ステップS202に戻ってステップS202以降を実行する。つまり、次の時刻tの拡大確率ベクトルz(t)を推定する。一方、ステップS206で、t=Tとなった場合は(Yes)、すべての時刻tについての拡大確率ベクトルが推定されたので、この図4のフローチャートの処理を終了する。 Next, the average 2 sigma value of the autoregressive mixed model is calculated by the equation (20) using the calculation result in step S100 (S204). Then, the average 2 sigma value is added to the probability vector z * (t) to estimate the expansion probability vector z (t) of Expression (19) (S205). Next, it is determined whether time t is smaller than T which is the total number of time series (t <T) (S206). When t is less than T (Yes in S206), the process returns to Step S202 and executes Step S202 and subsequent steps. That is, the expansion probability vector z (t) at the next time t is estimated. On the other hand, if t = T in step S206 (Yes), the expansion probability vectors for all the times t have been estimated, and thus the processing of the flowchart of FIG. 4 ends.

(異常値の可視化処理)
次に、図5のフローチャートを参照して、図2のステップ300の「異常値の可視化処理」を詳細に説明する(適宜図1など参照)。以下の説明における動作主体は、異常値可視化部13である。なお、異常可視化部13は、CPUやRAMなどから構成される演算装置1で機能するプログラムモジュールである。
(Abnormal value visualization processing)
Next, the “abnormal value visualization process” in step 300 of FIG. 2 will be described in detail with reference to the flowchart of FIG. 5 (see FIG. 1 as appropriate). The operation subject in the following description is the abnormal value visualization unit 13. The abnormality visualization unit 13 is a program module that functions in the arithmetic device 1 configured by a CPU, a RAM, and the like.

まず、図5に示すように、異常値可視化部13は、ステップS301により、時刻iのデータD(i)と時刻iとは異なる時刻jのデータD(j)の類似度si,jを、前記したステップS200で算出した時刻iと時刻jの拡大確率ベクトルz(i),z(j)を用いて算出する(式(21)参照)。 First, as shown in FIG. 5, the abnormal value visualization unit 13 determines the similarity s i, j between the data D (i) at time i and the data D (j) at time j different from time i in step S301. The calculation is performed using the expansion probability vectors z (i) and z (j) at time i and time j calculated in step S200 described above (see formula (21)).

次に、ステップS302により、式(22)〜式(24)を用いてriをデータD(i)の座標とする。座標riを、式(23)・式(24)を用いつつ、確率密度p(ri,rj)とのクロスエントロピの和に正則化項を加えた式(22)を最小化することにより求める。 Next, in step S302, r i is set as the coordinate of the data D (i) using the equations (22) to (24). The coordinates ri are obtained by minimizing the expression (22) obtained by adding the regularization term to the sum of the cross entropy with the probability density p (ri, rj) while using the expressions (23) and (24).

以上の結果、他のデータから離れたところに位置するものが異常値であり、異常値が可視化される。   As a result of the above, what is located away from other data is an abnormal value, and the abnormal value is visualized.

≪可視化結果≫
本発明の可視化方法などの有効性を、図6を参照しつつ、経済時系列データを用いた実施例で示す(適宜図1など参照)。なお、図6の(a)から(d)は、本実施形態の異常値可視化装置により異常値を3次元で可視化した結果を示す図である(図面では平面的に表示されている)。
≪Visualization result≫
The effectiveness of the visualization method of the present invention will be shown in an embodiment using economic time series data with reference to FIG. 6 (see FIG. 1 as appropriate). FIGS. 6A to 6D are diagrams showing the results of visualizing abnormal values in three dimensions by the abnormal value visualization apparatus of the present embodiment (displayed in a plane in the drawing).

用いるデータ(対象データY)は、前記したとおり、1983年1月から2002年12月までの「日本のマネタリーベース」、「国際金利」、「卸売物価指数」、「機械受注」、「鉱工業生産指数」、「円ドル為替レート」の月ごとの時系列データで、変数の数d=6、データ数T=240である。この対象データYに対して、前記した自己回帰混合モデルを用いた時系列データの異常値の可視化方法を採用し、自己回帰モデルの次数をτ=1、自己回帰モデルの総数K=1〜4として可視化を行った。ちなみに、Kが1の場合が図6(a)であり、Kが2の場合が図6(b)であり、Kが3の場合が図6(c)であり、Kが4の場合が図6(d)である。各図中の1点が1つの月である。なお、異常値可視化装置Aは、自己回帰モデルごとに点の種類が異なるように表示する機能を有しており、自己回帰モデルが複数ある場合でも、表示されている点が何番目の自己回帰モデルにより生成されたものであるのかが、視覚的に解るようになっている。例えば、図6(b)は、1番目の自己回帰モデルが○印の点で示してあり、2番目の自己回帰モデルが×印の点で示してある。図6(c)は、3番目の自己回帰モデルが△印の点で示してある。また、図6(d)は、4番目の自己回帰モデルが□の点で示してある。   As described above, the data used (target data Y) are “Japanese monetary base”, “international interest rate”, “wholesale price index”, “machine orders”, “industrial production index” from January 1983 to December 2002. ”,“ Yen-dollar exchange rate ”for each month, the number of variables d = 6 and the number of data T = 240. For this target data Y, the method of visualizing abnormal values of time series data using the autoregressive mixed model described above is adopted, the order of the autoregressive model is τ = 1, and the total number of autoregressive models is K = 1-4. As a visualization. Incidentally, the case where K is 1 is FIG. 6A, the case where K is 2 is FIG. 6B, the case where K is 3 is FIG. 6C, and the case where K is 4 is shown in FIG. It is FIG.6 (d). One point in each figure is one month. In addition, the abnormal value visualization apparatus A has a function of displaying different types of points for each autoregressive model, and even if there are a plurality of autoregressive models, the displayed autoregressive point is what number the autoregressive model is. It can be visually understood whether it is generated by the model. For example, in FIG. 6B, the first autoregressive model is indicated by a point with a circle, and the second autoregressive model is indicated with a point with an x mark. In FIG. 6C, the third autoregressive model is indicated by a triangle mark. In FIG. 6D, the fourth autoregressive model is indicated by □.

図6に示すように、この期間に起こった大きな経済事件として、1998年8月のロシア危機がある。異常値の可視化結果を見ると、自己回帰モデルの総数K=1〜4のすべての場合において、ロシア危機の翌月である1998年9月が他の多くの月から大きく離れており、異常値であることが解る。しかしながら、自己回帰モデルの総数Kが1の場合は、他の月も1998年9月近辺に位置されており、異常値が複数存在する。自己回帰モデルの総数Kを2、3としていっても異常値とみなされる月は複数あるが、自己回帰モデルの総数Kが4の場合は、1998年9月のみ異常値となっている。   As shown in Fig. 6, the Russian crisis in August 1998 is a major economic incident that occurred during this period. Looking at the results of abnormal value visualization, in all cases of autoregressive models K = 1 to 4, September 1998, the month following the Russian crisis, was far away from many other months. I understand that there is. However, when the total number K of autoregressive models is 1, other months are also located near September 1998, and there are a plurality of abnormal values. Even if the total number K of the autoregressive model is 2 or 3, there are a plurality of months that are regarded as abnormal values. However, when the total number K of the autoregressive model is 4, only an abnormal value is obtained in September 1998.

これは、自己回帰モデルの総数Kが1の場合、自己回帰混合モデルは線形モデルであるため、データが非線形性を有していた場合、適切にモデル化することができない。そのため、本来は異常値ではないにもかかわらず、モデルの表現能力が低いために異常値とされることがある。しかし、自己回帰モデルの総数Kを増やしていくことによって、モデルの表現能力が高まり、本来の異常値を検出することができる。
このように、本発明によれば、表現力のあるモデルで可視化するので、従来手法よりも良好な異常値の検出が実現できる。
This is because when the total number K of autoregressive models is 1, the autoregressive mixed model is a linear model, and therefore cannot be appropriately modeled if the data has nonlinearity. For this reason, although it is not an abnormal value originally, it may be an abnormal value because the expression ability of the model is low. However, by increasing the total number K of autoregressive models, the model's ability to express increases, and the original abnormal value can be detected.
As described above, according to the present invention, since visualization is performed with a model having expressive power, it is possible to realize detection of abnormal values better than the conventional method.

また、従来の異常値検出手法は、データ空間のなかでの平均からのデータの乖離をもとにしている。しかし、本実施形態では、各データをモデルのパラメータ空間に写像することにより、換言すると、式(2)や式(9)のように、データをある確率モデルから生成されるようにすることにより、対象データYといった生データが有する特徴をより明確にすることができる。   Further, the conventional abnormal value detection method is based on the deviation of the data from the average in the data space. However, in the present embodiment, by mapping each data to the parameter space of the model, in other words, by generating the data from a certain probability model as shown in the equations (2) and (9). The characteristics of the raw data such as the target data Y can be made clearer.

なお、異常値可視化装置は、プログラムにより可視化方法を実行するものであり、この可視化方法をコンピュータに実行させるプログラムは、CDR−ROMやデジタル多目的ディスクなどの記憶媒体に記憶されて流通され、また、通信回線を介して流通され、コンピュータにインストールされて機能する。この可視化方法の実施形態としては、可視化方法を実行するプログラムがインストールされたコンピュータ(つまり異常値可視化装置)が通信回線を介して対象データを取得し、これを可視化し、その結果を、通信回線を介して回答するようにしてもよい。また、拡大確率ベクトルを用いての異常値の可視化処理(図2のステップS300)は、前記CoPE法以外に種々の手法を適用することができる。
また、確率モデルについて、前記実施形態では、自己回帰モデルを用いた例を説明したが、この自己回帰モデルに限定されるものではなく、正規分布モデルや多項分布モデルといった、他の確率モデルを用いてもよい。
また、前記した実施形態では、所定のデータの一例として異常値を可視化したが、所定のデータとして、例えば好ましい値を可視化するようにしてもよい。
つまり、本発明は、前記した実施形態に限定されることなく、その技術思想の及ぶ範囲で幅広く変形実施することができる。
The abnormal value visualization apparatus executes a visualization method by a program, and a program for causing a computer to execute the visualization method is stored and distributed in a storage medium such as a CDR-ROM or a digital multipurpose disk. It is distributed via a communication line and is installed in a computer and functions. As an embodiment of this visualization method, a computer (that is, an abnormal value visualization device) in which a program for executing the visualization method is installed acquires target data via a communication line, visualizes the data, and the result is displayed on the communication line. You may make it answer via. Also, various methods other than the CoPE method can be applied to the abnormal value visualization process using the expansion probability vector (step S300 in FIG. 2).
In the above embodiment, an example using an autoregressive model has been described for the probability model. However, the present invention is not limited to this autoregressive model, and other probability models such as a normal distribution model and a multinomial distribution model are used. May be.
In the above-described embodiment, the abnormal value is visualized as an example of the predetermined data. However, for example, a preferable value may be visualized as the predetermined data.
That is, the present invention is not limited to the above-described embodiment, and can be widely modified within the scope of its technical idea.

本発明の一実施形態の異常値可視化装置の構成図である。It is a block diagram of the abnormal value visualization apparatus of one Embodiment of this invention. 読み込んだデータから異常値を可視化するまでの処理の概要を示したフローチャートである。It is the flowchart which showed the outline | summary of the process until it visualizes an abnormal value from the read data. 図2のステップS100の「自己回帰混合モデルの構築処理」を示すフローチャートである。It is a flowchart which shows "the construction process of the autoregressive mixed model" of step S100 of FIG. 図2のステップS200の「拡大確率ベクトルの推定処理」を示すフローチャートである。It is a flowchart which shows the "expansion probability vector estimation process" of step S200 of FIG. 図2のステップS300の「異常値の可視化処理」を示すフローチャートである。It is a flowchart which shows the "abnormal value visualization process" of step S300 of FIG. 図1の異常値可視化装置により異常値を可視化した結果を示す図であり、(a)はKが1の場合を示し、(b)はKが2の場合を示し、(c)はKが3の場合を示し、(d)はKが4の場合を示す。It is a figure which shows the result of having visualized the abnormal value by the abnormal value visualization apparatus of FIG. 1, (a) shows the case where K is 1, (b) shows the case where K is 2, and (c) shows K being K. The case of 3 is shown, and (d) shows the case where K is 4.

符号の説明Explanation of symbols

A 異常値可視化装置
1 演算装置(演算手段)
11 モデルパラメータ推定部
12 拡大確率ベクトル推定部
13 異常値可視化部
2 入力装置
3 記憶装置
4 表示装置


A Abnormal value visualization device 1 Arithmetic device (calculation means)
DESCRIPTION OF SYMBOLS 11 Model parameter estimation part 12 Expansion probability vector estimation part 13 Abnormal value visualization part 2 Input device 3 Memory | storage device 4 Display apparatus


Claims (9)

情報を記憶するメモリを作業領域として演算を行う演算手段を有するコンピュータを用いて、対象データYを構成する複数のデータyのなかの所定のデータを、K個の確率モデルの線形和で記述される混合モデルを用いて可視化するデータの可視化方法において、
前記演算手段が、
前記対象データYを読み込んで前記メモリに記憶し、
前記データyと各確率モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定して前記メモリに記憶し、
前記確率ベクトルに、全確率モデルの所定の確率変数における確率密度の平均である平均確率密度を結合することで拡大確率ベクトルを作成して前記メモリに記憶し、
前記拡大確率ベクトルを用いて前記所定のデータを可視化する座標データを作成して前記メモリに記憶すること、
を特徴とするデータの可視化方法。
Using a computer having calculation means for performing calculation using a memory for storing information as a work area, predetermined data among a plurality of data y constituting target data Y is described by a linear sum of K probability models. In the data visualization method to visualize using the mixed model
The computing means is
Read the target data Y and store it in the memory;
A vector of the joint probability of the data y and each probability model is set as a probability vector and stored in the memory;
An expanded probability vector is created by combining the probability vector with an average probability density that is an average of the probability density in a predetermined random variable of all probability models, and stored in the memory.
Creating coordinate data for visualizing the predetermined data using the expansion probability vector and storing the coordinate data in the memory;
A method for visualizing data.
情報を記憶するメモリを作業領域として演算を行う演算手段を有するコンピュータを用いて、対象データYを構成する複数のデータyのなかの所定のデータを、パラメータが異なるK個の自己回帰モデルの線形和で記述される自己回帰混合モデルを用いて可視化するデータの可視化方法において、
前記演算手段が、
前記対象データYを読み込んで前記メモリに記憶する手順、
前記対象データYに含まれる複数のデータyと前記自己回帰モデルの次数τに基づいて、前記自己回帰モデルへの入力ベクトルxを複数作成して前記メモリに記憶する手順、
前記複数のデータyと複数の入力ベクトルxとを用いて、前記自己回帰モデルのパラメータを算出して前記メモリに記憶する手順、
自己回帰混合モデルのパラメータを、前記複数のデータyと前記複数の入力ベクトルxとを用いて算出する手順を、前記自己回帰モデルの数だけ順次繰り返して前記メモリに記憶する手順、
前記入力ベクトルxと当該入力ベクトルxに対応する前記データyとからなるデータDと各自己回帰モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定して前記メモリに記憶する手順、
全自己回帰モデルの所定の確率変数における確率密度の平均である平均確率密度を算出して前記メモリに記憶する手順、
前記確率ベクトルに前記平均確率密度を付加することにより拡大確率ベクトルを推定して前記メモリに記憶する手順、
前記拡大確率ベクトルを用いて視覚的に表示するための座標を算出して前記メモリに記憶する手順、
を備え、
このように算出した座標を用いて前記所定のデータを可視化することを特徴とするデータの可視化方法。
Using a computer having calculation means for performing calculation using a memory for storing information as a work area, predetermined data among a plurality of data y constituting target data Y is linearized with K autoregressive models having different parameters. In the data visualization method that visualizes using the autoregressive mixed model described by the sum,
The computing means is
A procedure for reading the target data Y and storing it in the memory;
A step of creating a plurality of input vectors x to the autoregressive model based on a plurality of data y included in the target data Y and the order τ of the autoregressive model and storing the input vector x in the memory;
Using the plurality of data y and the plurality of input vectors x to calculate parameters of the autoregressive model and store them in the memory;
A step of sequentially storing the parameters of the autoregressive mixed model using the plurality of data y and the plurality of input vectors x by the number of the autoregressive model and storing the same in the memory;
A step of setting a vector of the simultaneous probability of the data D consisting of the input vector x and the data y corresponding to the input vector x and each autoregressive model as a probability vector and storing it in the memory;
Calculating an average probability density that is an average of probability densities in a predetermined random variable of the total autoregressive model and storing the average probability density in the memory;
Estimating an expanded probability vector by adding the average probability density to the probability vector and storing it in the memory;
A step of calculating coordinates for visual display using the expansion probability vector and storing them in the memory;
With
A method for visualizing data, wherein the predetermined data is visualized using the coordinates thus calculated.
前記パラメータの算出が、
EMアルゴリズムのE−stepとM−stepを繰り返して実行し、各算出されるパラメータに基づいてデータの尤度の対数をとった判定値を算出し、この判定値を最大化する前記パラメータを検証されたパラメータとして採用する手順であること、
を特徴とする請求項2に記載のデータの可視化方法。
The calculation of the parameter is
Execute E-step and M-step of the EM algorithm repeatedly, calculate a judgment value that is a logarithm of the likelihood of data based on each calculated parameter, and verify the parameter that maximizes this judgment value The procedure to be adopted as
The data visualization method according to claim 2, wherein:
前記拡大確率ベクトルを用いて可視化する手順として、
前記複数のデータDのうちの1つのデータDと、このデータDとは異なる他の1つのデータDとの類似度を、前記拡大確率ベクトルに基づいて算出して前記メモリに記憶する手順、
この類似度に基づいて前記複数のデータの座標を算出して前記メモリに記憶する手順、
を行う、CoPE法を用いること、
を特徴とする請求項2又は請求項3に記載のデータの可視化方法。
As a procedure for visualization using the expansion probability vector,
A step of calculating a similarity between one data D of the plurality of data D and another data D different from the data D based on the expansion probability vector and storing the similarity in the memory;
A procedure for calculating coordinates of the plurality of data based on the similarity and storing them in the memory;
Using a CoPE method,
The data visualization method according to claim 2, wherein:
前記対象データYが、多次元の時系列のデータであることを特徴とする請求項1ないし請求項4のいずれか1項に記載のデータの可視化方法。   5. The data visualization method according to claim 1, wherein the target data Y is multidimensional time-series data. 前記所定の確率変数における確率密度が2シグマ値であり、平均確率密度が2シグマ値であること、
を特徴とする請求項1ないし請求項5のいずれか1項に記載のデータの可視化方法。
The probability density in the predetermined random variable is a 2 sigma value and the average probability density is a 2 sigma value;
The data visualization method according to claim 1, wherein the data visualization method is a data visualization method.
情報を記憶するメモリを作業領域として演算を行う演算手段と前記演算手段での演算結果を表示する表示装置を有して、対象データYを構成する複数のデータyのなかの所定のデータを、パラメータが異なるK個の自己回帰モデルの線形和で記述される自己回帰混合モデルを用いて可視化するデータの可視化装置において、
前記演算手段は、
前記対象データYに含まれる複数のデータyと前記自己回帰モデルの次数τに基づいて、前記自己回帰モデルへの入力ベクトルxを複数作成する機能、
前記複数のデータyと複数の入力ベクトルxを用いて、前記自己回帰モデルのパラメータを算出する機能、
自己回帰混合モデルのパラメータを、前記複数のデータyと前記複数の入力ベクトルxとを用いて算出する手順を、前記自己回帰モデルの数だけ順次繰り返して行う機能、
を備えたモデルパラメータ推定部と、
前記入力ベクトルxを入力として対応する前記データyを出力とする複数のデータDと各自己回帰モデルとの同時確率をベクトルにしたものを確率ベクトルとして設定する機能、
全自己回帰モデルの所定の確率変数における確率密度の平均である平均確率密度を算出する機能、
前記確率ベクトルに前記平均確率密度を付加することにより拡大確率ベクトルを推定する機能、
を備えた拡大確率ベクトル推定部と、
前記複数のデータDのうちの1つのデータDと、このデータDとは異なる他の1つのデータDとの類似度を、前記拡大確率ベクトルに基づいて算出する機能、
この類似度に基づいて、前記複数のデータの座標を算出する機能、
この算出した座標を前記表示装置に表示するように指示する機能、
を備えた異常値可視化部と、
を含んで構成されることを特徴とするデータの可視化装置。
Computation means for performing computation using a memory for storing information as a work area and a display device for displaying the computation results of the computation means, and predetermined data among a plurality of data y constituting the target data Y, In a data visualization apparatus for visualizing using an autoregressive mixed model described by a linear sum of K autoregressive models having different parameters,
The computing means is
A function of creating a plurality of input vectors x to the autoregressive model based on a plurality of data y included in the target data Y and the order τ of the autoregressive model;
A function of calculating parameters of the autoregressive model using the plurality of data y and a plurality of input vectors x;
A function of sequentially repeating the procedure of calculating the parameters of the autoregressive mixed model using the plurality of data y and the plurality of input vectors x by the number of the autoregressive models;
A model parameter estimator comprising:
A function of setting as a probability vector a set of simultaneous probabilities of a plurality of data D having the input vector x as an input and the corresponding data y as an output and each autoregressive model;
A function for calculating an average probability density that is an average of probability densities in a predetermined random variable of the total autoregressive model,
A function of estimating an expanded probability vector by adding the average probability density to the probability vector;
An expanded probability vector estimator comprising:
A function of calculating the similarity between one data D of the plurality of data D and another data D different from the data D based on the expansion probability vector;
A function for calculating coordinates of the plurality of data based on the similarity,
A function for instructing to display the calculated coordinates on the display device;
An abnormal value visualization unit comprising:
A data visualization device comprising:
請求項1ないし請求項6のいずれか1項に記載のデータの可視化方法を、情報を記憶するメモリを作業領域として演算を行う演算手段を有するコンピュータに実行させることを特徴とするデータの可視化プログラム。   7. A data visualization program for causing a computer having computation means for performing computation using the memory for storing information as a work area, the data visualization method according to claim 1. . 請求項1ないし請求項6のいずれか1項に記載のデータの可視化方法を、情報を記憶するメモリを作業領域として演算を行う演算手段を有するコンピュータに実行させる可視化プログラムを記憶したことを特徴とする記憶媒体。   A data visualization method according to any one of claims 1 to 6, characterized in that a visualization program is stored that is executed by a computer having computing means for performing computation using a memory for storing information as a work area. Storage medium.
JP2004066451A 2004-03-09 2004-03-09 Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium Pending JP2005258599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004066451A JP2005258599A (en) 2004-03-09 2004-03-09 Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004066451A JP2005258599A (en) 2004-03-09 2004-03-09 Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium

Publications (1)

Publication Number Publication Date
JP2005258599A true JP2005258599A (en) 2005-09-22

Family

ID=35084276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004066451A Pending JP2005258599A (en) 2004-03-09 2004-03-09 Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium

Country Status (1)

Country Link
JP (1) JP2005258599A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087968A1 (en) * 2007-01-17 2008-07-24 Nec Corporation Change-point detecting method and apparatus
JP2017004068A (en) * 2015-06-04 2017-01-05 アスタミューゼ株式会社 Overseas operations expansion support system, program, and method
CN108829715A (en) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 For detecting the method, equipment and computer readable storage medium of abnormal data
CN113065101A (en) * 2018-01-03 2021-07-02 第四范式(北京)技术有限公司 Visual interpretation method and device of logistic regression model
CN114742477A (en) * 2022-06-09 2022-07-12 未来地图(深圳)智能科技有限公司 Enterprise order data processing method, device, equipment and storage medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087968A1 (en) * 2007-01-17 2008-07-24 Nec Corporation Change-point detecting method and apparatus
US8250005B2 (en) 2007-01-17 2012-08-21 Nec Corporation Change-point detecting method and apparatus
JP2017004068A (en) * 2015-06-04 2017-01-05 アスタミューゼ株式会社 Overseas operations expansion support system, program, and method
CN113065101A (en) * 2018-01-03 2021-07-02 第四范式(北京)技术有限公司 Visual interpretation method and device of logistic regression model
CN113065101B (en) * 2018-01-03 2024-04-02 第四范式(北京)技术有限公司 Visual interpretation method and device for logistic regression model
CN108829715A (en) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 For detecting the method, equipment and computer readable storage medium of abnormal data
CN114742477A (en) * 2022-06-09 2022-07-12 未来地图(深圳)智能科技有限公司 Enterprise order data processing method, device, equipment and storage medium
CN114742477B (en) * 2022-06-09 2022-08-12 未来地图(深圳)智能科技有限公司 Enterprise order data processing method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
LeSage et al. Models for spatially dependent missing data
Xia et al. Persistent homology for the quantitative prediction of fullerene stability
Platiša et al. Channelized Hotelling observers for the assessment of volumetric imaging data sets
Chen et al. Reduced rank regression via adaptive nuclear norm penalization
Li et al. Beyond Moran's I: testing for spatial dependence based on the spatial autoregressive model
JP7061536B2 (en) Optimization device, simulation system and optimization method
Bonassi et al. Bayesian learning from marginal data in bionetwork models
JP5695763B2 (en) Method, apparatus and computer program for visualizing risk assessment value of event series
Lee Carbayes version 4.6: An r package for spatial areal unit modelling with conditional autoregressive priors
Davies et al. Stochastic EM algorithm for generalized exponential cure rate model and an empirical study
Willis et al. Uncertainty in phylogenetic tree estimates
Park et al. Reduced-dimensional monte carlo maximum likelihood for latent gaussian random field models
JP2005258599A (en) Method for visualization of data, apparatus for visualization of data, program for visualization of data, and storage medium
Tan et al. Bayesian inference for the one-factor copula model
Smirnov et al. An O (N) parallel method of computing the Log-Jacobian of the variable transformation for models with spatial interaction on a lattice
Danthurebandara et al. Sequential choice designs to estimate the heterogeneity distribution of willingness-to-pay
Jung Multivariate least-trimmed squares regression estimator
Bui et al. spc4sts: Statistical process control for stochastic textured surfaces in R
Cai et al. Numerical dynamic programming with verification and uncertainty quantification: an application to climate policy
Meidow et al. Algebraic reasoning for the enhancement of data-driven building reconstructions
Shin et al. Dynamic ICAR Spatiotemporal Factor Models
Seo et al. A bayesian nonparametric model for upper record data
US7425959B2 (en) Representation of implicit curves for procedural surfaces
Yang et al. Design variable-sampling control charts using covariate information
Wijayawardhana et al. Statistical Inference on Hierarchical Simultaneous Autoregressive Models with Missing Data