JP4723466B2

JP4723466B2 - データ処理装置及びデータ処理方法及びプログラム

Info

Publication number: JP4723466B2
Application number: JP2006340621A
Authority: JP
Inventors: 一広大野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-12-19
Filing date: 2006-12-19
Publication date: 2011-07-13
Anticipated expiration: 2026-12-19
Also published as: JP2008154010A

Description

本発明は、時系列データの平滑化技術に関する。

不正アクセス検出において、収集されたパケットログから生成された時系列データを解析して異常を検知する手法がある。
この手法では、時系列データと学習データとを比較する。学習データとは時系列データの変化量を測るための基準となるものである。

図１は、例えば、非特許文献１に記載の不正アクセス分析システム１００の構成例を示す。
図１に示す不正アクセス分析システム１００は、例えば図２に示すように、企業等の特定の組織に属するネットワークを監視対象とする。ファイアウォール（Ｆ／Ｗ）、Ｓ−ＮＩＤＳ（ＳｉｇｎａｔｕｒｅｂａｓｅｄＮｅｔｗｏｒｋＩＤＳ（ＩｎｔｒｕｓｉｏｎＤｅｔｅｃｔｉｏｎＳｙｓｔｅｍ）、パケット収集装置からのパケットログ（定点観測データ）を不正アクセス分析システム１００に入力し、リアルタイムに分析を行う。

図１において、情報収集部６は、Ｆ／Ｗ、Ｓ−ＮＩＤＳ、パケット収集装置のパケットログを定期的に収集する。
ログ情報集計部５は、情報収集部６で集められたパケットログから不正アクセスの検知に必要なパケットの情報を集計する。例えば、単位時間当たりの送信元ＩＰアドレス毎パケット数、送信先ポート毎パケット数、或いはパケット長等の集計を行う。
異常検知部４は、ログ情報集計部５により集計されたデータをもとに異常なネットワークトラフィックを検知し早期アラートを出力する。
不正アクセス判定部３は、異常検知部４においてトラフィックの異常状態が検知された場合、不正アクセスが原因であることを判定する機能である。ログ情報集計部５において複数の分析視点での集計を行い、各々に対する異常検知部４の検知の結果を総合的に判断し不正アクセスが原因であることを確定する。また、図示していないセキュリティ情報データベースに格納された既知の脆弱性情報も判定に利用する。例えば、異常検知部４において特定のサービス（ポート）へのパケットの分析結果で異常が検知されており、直近に同サービスの脆弱性が公開されていたのであれば、同脆弱性を悪用した不正アクセスの可能性があると判定できる。
誤検知と判定された場合は、その情報を正常状態して異常検知部４にフィードバックする。
なお、セキュリティ情報データベースとは、例えば、ソフトウェアの最新の脆弱性情報・パッチ情報を管理するデータベースである。
対策部２は、不正アクセス判定部３により不正アクセスが確定された場合、特定ポートへのアクセスの制限、パッチの適用等の指示等、対策の指針を出力する機能である。ネットワーク管理者はこの出力を参考に対策を行う。
ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）１は、早期アラート、不正アクセスの原因、対策情報等を表示する。

次に、時系列データの解析手法の従来技術として、主成分分析を用いた場合の異常検知部４の例を示す。
この主成分分析を用いた手法では、時系列データ中で発生した変動の判定を行う。判定手法は以下の手順に従う。
図２６に、異常検知部４の詳細を示す。
データ取得部４３は、時系列データ（入力データ４２）の入力及び学習データ４１の規定を行う。
分析部４４は、時系列データの特徴量の計算を行う。
判定部４５は、時系列データの異常値の判定を行う。

データ取得部４３では、異常を測定する時系列データの入力と学習データの規定を行う。
学習データとは、前述したように、時系列データの変化量を測るための基準となるものである。これは入力する時系列データの一部分を学習データとする方法と、何らかのモデル化に基づいて作成する方法がある。
図２６の例の場合、学習データを時系列データ内の連続する一定範囲の領域と規定する。

分析部４４では時系列データに対する分析を行う。
ここでは時系列データに関する特徴量を算出する。
分析手法の例としては、データ取得部４３から得た時系列データを単位時間ごとに一定の大きさに分解する。
分解したデータそれぞれに対して分析を行い、少数の特徴量に変換する。
これにより一定期間に発生した多次元の時系列情報がより小さな次元の情報に圧縮される。その結果異常の分析をより高速に行うことが可能になる。

判定部４５では、分析部４４で得られた時系列データの特徴量と先に定義した学習データ４１の比較を行う。
比較の結果、入力データ４２が学習データ４１と異なるものである場合、入力データ４２は異常であると判定する。
比較の手法には特徴量の空間を定義し、入力データ４２を分析し特徴量化したものをこの空間に配置する。その後、入力データ４２の分布を調べ、分布の群から一定量乖離しているものについては異常とみなす方法がある。

上記手順は繰り返し行う。新規の時系列データを解析する際は学習データの規定も再び行う。

また、平滑化処理を行って時系列データの解析を行う従来技術として、例えば、特許文献１、非特許文献２に記載の技術がある。
これらの技術は時系列データの変化点を検出する技術である。
これらの技術では、時系列データに対して移動平均処理を用いた平滑化処理を行っているが、時系列データの全ての領域に対して平滑化を行っている。
つまり、対象とする時系列データ全体に対して平滑化を行うものである。
特開２０００−２１３９４８号公報榊原裕之、藤井誠司、北澤繁樹、平井規郎、鹿島理華、東辰輔、「定点観測による不正アクセス分析システムの提案」、情報処理学会第６８回全国大会、情報処理学会、２００６。竹内純一、山西健司、「忘却型学習アルゴリズムを用いた外れ値検出と変化点検出の統一的扱い」、２０００年情報論的学習理論ワークショップ、２００２。

従来の時系列データの平滑化手法は、平滑化をその時系列データ全体に対して行うものであった。
そのため従来手法をネットワークの異常検知に用いた場合、本来必要な情報まで平滑化されてしまうため、検知性能が低下してしまう。
上記のような時系列データの異常検知手法の場合、学習データの規定方法によって検知性能に問題が生じる場合がある。
例として学習データにノイズが含まれている場合である。
学習データの一部に他とは傾向の異なる突出した値が含まれていた場合、異常の判定に大きな影響を与える。図２６は、従来技術で学習データを用いて検知を行う場合の例を示している。
図２６の例では、時系列データに大きな変動が発生しているか判定する方法として、マハラノビス汎距離の値と学習データ領域の分布を比較する方法を用いている。
従来の異常判定手法では。異常を比較する対象として学習データ（定常域データ）を用いる。
判定処理では学習データ内の情報を分析し、異常判定の閾値を決定する。この学習データ内にノイズなどの傾向が異なる情報が存在していた場合、従来の手法では異常判定の閾値はノイズを含んだものとなり異常の判定が遅れてしまう問題点があった。

従来は、時系列データの変動が発生したとする判定手法として、以下の閾値を用いている。
検知時のデータ値＞学習データ内の最大値のａ倍（ａは定数）
この手法では、学習データ中に他よりも値の大きなデータが混入していた場合、その影響を強く受ける。そのため検知時のデータ値において閾値よりも小さな変動が発生した際、異常を見落とす可能性が高い。

この発明は、このような問題点を解決することを主な目的の一つとしており、学習データの特徴的な箇所を優先的に平滑化し、後の異常検知処理の精度向上を行うことを主な目的とする。

本発明に係るデータ処理装置は、
各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定部と、
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とする。

本発明によれば、データ値が他のデータから乖離しているデータに対して平滑化の度合いを強くするため、ノイズを除去することができ、異常検知の精度を向上することができる。

実施の形態１．
本実施の形態では、学習データとして用いる時系列データに対して平滑化を施し異常検知の妨げとなる情報を除去する。その際、平滑化はデータの傾向が特徴的な領域に対してより強く行う。

図３は、本実施の形態に係る異常検知部４（データ処理装置）の構成例を示す。
本実施の形態に係る異常検知部４は、図１に示す不正アクセス分析システム１００の一部である。不正アクセス分析システム１００の他の要素の詳細は、前述した通りなので、説明は省略する。
なお、不正アクセス分析システム１００は、全体として一つのコンピュータで実現されていてもよいし、不正アクセス分析システム１００に含まれる各要素が異なるコンピュータで実現され、各コンピュータがネットワークで接続されて不正アクセス分析システムが実現される形態でもよい。

また、本実施の形態に係る異常検知部４が含まれる不正アクセス分析システム１００は、前述したように、例えば、図２に示すように、企業等の特定の組織に属するネットワークを監視対象とする。ファイアウォール（Ｆ／Ｗ）、Ｓ−ＮＩＤＳ、パケット収集装置からのパケットログ（定点観測データ）を不正アクセス分析システム１００に入力し、リアルタイムに分析を行う。

図３において、データ入力・処理部４２０は、時系列データである入力データ４１０を単位時間ごとに集計した数を記憶する。この入力データ４１０は、学習データとして用いる時系列データである。なお、以下、入力データ４１０を時系列データともいう。
特徴量分析部４３０は、上記データ入力・処理部４２０で集計された時系列データから主成分得点の計算を行い特徴領域の群に纏める。
突出点判定部４４０（乖離値設定部）は、上記特徴量分析部４３０で得られた特徴領域の群を調査し、他の領域と比較して領域のスコア化を行う。つまり、突出点判定部４４０は、各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを突出率（乖離値）として設定する。なお、具体的には、後述するように、突出点判定部４４０は、各データを所定の領域ごとにグループ化し、領域単位で乖離度合いを解析して突出率を判定する。
平滑化係数算出部４５０は、上記突出点判定部４４０での特徴領域のスコアに従い平滑化に関するパラメータを定める。つまり、平滑化係数算出部４５０は、突出点判定部４４０により判定された突出率を反映させて、データごとに平滑化のための平滑化係数を算出する。
平滑化部４６０は、平滑化係数算出部４５０でのパラメータに従い時系列データの平滑化を実施する。詳細は、後述するが、平滑化部４６０は、平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行う。

ここで、図２４のフローチャートを参照して、本実施の形態に係る異常検知部４（データ処理装置）の動作例（データ処理方法）を概説する。
なお、本実施の形態では、検査対象の時系列データの一部を学習データとすることとし、検査対象の時系列データが入力された際に、図２４のフローチャートに示す処理が開始し、学習データの平滑化が行われる。

先ず、データ入力・処理部４２０が、平滑化の対象となる時系列データである入力データ４１０を入力する（Ｓ２４０１）。前述したように、異常検知の対象となる時系列データの一部を学習データとして用いるため、データ入力・処理部４２０は、異常検知の対象となる時系列データの一部を入力データ４１０として入力する。
そして、データ入力・処理部４２０は、入力データ４１０を所定の単位時間ごとに集計する（Ｓ２４０２）。
その後、データ入力・処理部４２０は、集計後のデータを特徴量分析部４３０、突出点判定部４４０及び平滑化係数算出部４５０のそれぞれに出力する。

次に、特徴量分析部４３０が、データ入力・処理部４２０から出力されたデータを入力するとともに、入力したデータを所定の領域に区分し、領域ごとに特徴量を算出する（Ｓ２４０３）。
データ入力・処理部４２０からのデータは、所定の順序に従って整列されており、この順序に従ってデータを複数の領域（グループ）にグループ化し、各領域に含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する。
そして、特徴量分析部４３０は、領域ごとの特徴量を示したデータを突出点判定部４４０に出力する。

突出点判定部４４０は、各領域の特徴量を２次元平面に配列し、特徴量の分布から突出率（乖離値）を判定する（Ｓ２４０４）（乖離値設定ステップ）。
つまり、突出点判定部４４０は、特徴量分析部４３０によりグループ化された各領域について、各領域の特徴量が他の領域の特徴量から乖離している度合いを突出率として設定する。なお、突出率の詳細については後述する。
その後、突出点判定部４４０は、各領域の突出率を示すデータを平滑化係数算出部４５０に出力する。

平滑化係数算出部４５０は、データ入力・処理部４２０により単位時間ごとに集計されたデータを入力するとともに、突出点判定部４４０から各領域の突出率を示すデータを入力する。
そして、平滑化係数算出部４５０は、データ入力・処理部４２０からの各データに対して対応する領域の突出率を付与し、各データの領域内の相対評価値を算出し、各データの相対評価値と各データが属する領域の突出率とを反映させてデータごとの平滑化係数を算出する（Ｓ２４０５）（平滑化係数算出ステップ）。
ここで、相対評価値とは、あるデータの値が同じ領域に含まれている他のデータと比較してどのような位置づけになるかを示す評価値である。なお、相対評価値の詳細についても後述する。
平滑化係数算出部４５０は、各データの相対評価値及び各データが属する領域の突出率と、平滑化部４６０による平滑化の度合いとが比例関係となる平滑化係数を算出する。
具体的には、相対評価値及び突出率と、平滑化部４６０による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出する。
このように、相対評価値又は突出率が大きいデータに対しては、移動平均の対象とするデータ数を大きくすることで、平滑化の度合いを高める。

最後に、平滑化部４６０が、データ入力・処理部４２０により単位時間ごとに集計されたデータを入力するとともに、平滑化係数算出部４５０から各データの平滑化係数を入力し、平滑化係数に従い各データを平滑化する（Ｓ２４０６）（平滑化ステップ）。
平滑化部４６０は、平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行う。
本実施の形態に示す例では、平滑化係数と同数のデータを用いて移動平均計算を行う。

次に、本実施の形態に係る異常検知部４の動作を詳細に説明する。

データ入力・処理部４２０は、解析を行う対象となる入力データ４１０を単位時間ごとに集計する。初期設定のためのパラメータは以下の通りである。
集計単位時間…観測を行う時系列データを集計する単位時間

入力データ４１０の形式を図４に示す。
なお、図４に示す通し番号は各データを現すもので、説明のために記載しているものであり、実際のデータには存在しない。
入力データ４１０は、例えば送信元ＩＰアドレス毎のパケット数のデータであり、通常、このような入力データ４１０は不定期に発生するため、データ入力・処理部４２０では、あらかじめ指定した集計単位時間ごとにデータをまとめる。
図４では、イベント発生日時（集計前イベント発生日時）は、不規則な時間間隔になっている。

図５は、集計後の入力データの例である。
図５では、イベント発生日時（集計後イベント発生日時）は単位時間に集計を開始した最初の時刻とする。また、イベント発生数（集計後イベント発生数）は単位時間に発生した集計前イベント発生数の総計である。
入力データの単位時間が、｛Ｔ_１、Ｔ_２、Ｔ_３｝、｛Ｔ_４、Ｔ_５｝、｛Ｔ_６、Ｔ_７｝に分かれる場合、集計結果は３種類の情報になる。単位時間｛Ｔ_１、Ｔ_２、Ｔ_３｝のデータを集計した結果は通し番号ａ_１である。集計後イベント発生日時はＴ_１、集計後イベント発生数はＣ_１からＣ_３を加算したものである。
なお、図４と同様に、図５の通し番号も説明のために付加したものであり、実際のデータには存在しない。
また、図５のデータは、図３に示すように、特徴量分析部４３０、突出点判定部４４０及び平滑化係数算出部４５０のそれぞれに出力される。

図１４は、入力データ４１０を５分間隔で集計した場合の例である。
入力データ４１０の先頭８つのイベントが集計されて５つのイベントとなる。
入力データのうち２００６／０７／０１０：００：２０と２００６／０７／０１０：０１：１３、２００６／０７／０１０：０３：０４は開始５分間に発生したイベントであるためひとつのイベントとする。
その際イベント発生日時は先に現れた情報（２００６／０７／０１０：００：２０）を使用し、イベント発生数は両者の合計数１７（４＋８＋５）とする。
同様にイベント発生日時が２００６／０７／０１０：１０：３３と２００６／０７／０１０：１１：３０のもの、２００６／０７／０１０：１６：２２と２００６／０７／０１０：１９：５４のものはひとつにまとめる。
イベントの集計時間内に１度しか発生しない場合（２００６／０７／０１０：２２：４３）はそのまま保持し、集計時間内に１度も発生しない場合はイベント発生時間を単位時間（図１４の場合２００６／０７／０１０：０５：００）、イベント発生数を０とする。

特徴量分析部４３０は、上記データ入力・処理部４２０で集計された時系列データから主成分得点の計算を行い、次に主成分得点の時系列へ変換する。初期設定のためのパラメータは以下の通りである。
主成分対象次元数…主成分分析を計算する次元数

主成分対象次元数は、主成分分析を計算する際の主成分対象行列の列数になる、データ入力・処理部４２０から受けた時系列データを解析する個数である。
特徴量分析部４３０は、時系列データの先頭から主成分対象次元数の個数のデータを取り出し主成分分析にかける。
特徴量分析部４３０の入力データの例を図６に示す。
特徴量分析部４３０の入力データである図６のデータと、データ入力・処理部４２０の出力データである図５のデータは同じである。
図５と図６では、以降の説明の便宜のため表記方法が異なっているが、図５の通し番号ａ_１の集計後イベント発生日時Ｔ_１、集計後イベント発生数Ｃ_１＋Ｃ_２＋Ｃ_３が、図６の通し番号ｄ_１のイベント発生日時Ｔ_１、イベント発生数Ｃ_１に対応し、図５の通し番号ａ_２の集計後イベント発生日時Ｔ_４、集計後イベント発生数Ｃ_４＋Ｃ_５が、図６の通し番号ｄ_２のイベント発生日時Ｔ_２、イベント発生数Ｃ_２に対応する関係である。以降の行についても同様である。

ここで、主成分対象次元数をｋとしたとき、時系列データの先頭からｋ個ずつまとめてグループ化し、グループごと（領域ごと）に処理を行う。図６の例の場合ｄ_１からｄ_ｋまでのイベント発生数から１行ｋ列の行列を作成し、この行列に含まれる要素を一つのグループ（領域）として主成分分析を行う。取り扱う行列は以下のようになる。
（Ｃ_１、Ｃ_２、．．．、Ｃ_ｋ）
その後、時系列データから次のｋ個を取り出し同様に行列を作成して主成分分析を行う。この処理を順次繰り返す。

主成分分析の結果、ｋ個の時系列データを表す主成分得点の時系列が得られる。主成分得点は第１、第２、…と複数の得点が出るが、そのうち先頭２つを以降の工程で使用する。
時系列データから作成した配列と主成分分析で得られた特徴量の関係を図７に示す。

図７において、ＰＣ_１＿１およびＰＣ_２＿１は、入力の時系列データから作成した配列（Ｃ_１、Ｃ_２、．．．、Ｃ_ｋ）をあらわす特徴量である。以下の配列についても同様である。

図１５は、特徴量分析部４３０による上記の手順を時系列データで表した例である。
はじめに時系列データ（データ入力・処理部４２０による集計後の時系列データ）を先頭からｋ要素ずつ分割したｎ個の部分時系列（領域）を作成する。
次に、それぞれの部分時系列に対して主成分分析を行う。
主成分分析の概念を図１６に示す。
この結果一つの部分時系列あたり２つの主成分得点が得られた。
本工程の出力として、特徴量分析部４３０は、イベントの発生時間と特徴量を記述した図８に示すデータを作成し、突出点判定部４４０に出力する。

突出点判定部４４０は、図９に示すようなデータを入力し、上記特徴量分析部４３０で得られた特徴領域の群を調査し、他の領域と比較して領域のスコア化を行う。なお、図９では、説明の便宜のために通し番号を付与しているが、実際のデータにはなく、実際は、図８と同じ形式のデータを入力する。
突出点判定部４４０による特徴領域の調査は、具体的には、上記特徴量分析部４３０からの入力から第１特徴量と第２特徴量を取り出し、２次元平面へ配置する。配置の方法は、例えば、第１特徴量をＹ軸の座標に配置し、第２特徴量をＸ軸の座標とする。

図１７は、特徴量分析部４３０からの入力データ（図９）を２次元の特徴量空間（主成分空間）へ配置した図である。
通し番号（ａ）から（ｆ）までの特徴量のうち（ｃ）の特徴量が群から乖離していることがわかる。

次に、突出点判定部４４０は、特徴量空間（主成分空間）の分布をもとに群からの乖離を計算する。
ここで、群からの乖離を示す値を突出率と定義する。突出率は０から１までの数値をとり群の重心からの乖離度を示す。
群の重心を求める方法には母集団平均を求める方法がある。また群からの乖離を算出するにはマハラノビス汎距離の算出がある。
図１０は、突出点判定部４４０の出力データである。突出点判定部４４０は、時系列データ中のイベント発生日時に対応する突出率Ｐを付加する。

図１８は、特徴量分析部４３０からの入力データから突出率を設定する際の概念を示す。
個々の部分時系列の特徴量空間分布を調査すると、（ｃ）の特徴量が他よりも乖離していたことがわかった。そこで、突出点判定部４４０は、乖離の度合いの大きい（ｃ）の領域については意図的に他よりも突出率を高く設定している。

なお、ここでは、各領域の乖離の度合いを示す値として、比率である突出率を用いているが、乖離の度合いを示すことができれば、比率でなくてもよい。

平滑化係数算出部４５０は、上記突出点判定部４４０での特徴領域のスコアに従い時系列データの各点の情報に関して平滑化処理に使用する係数の算出を行う。初期設定のためのパラメータは以下の通りである。
集計単位時間…観測を行う時系列データを集計する単位時間

平滑化係数算出部４５０が突出点判定部４４０から入力するデータは図１１の通りである。
図１１における領域の部分は、項目の位置関係を示すためのもので、実際のデータには存在しない。従って、平滑化係数算出部４５０が突出点判定部４４０から入力するデータは、実際には図８と同様である。また、図１１の領域とは、図１５において説明した部分時系列を示している。

また、平滑化係数算出部４５０は、図３に示すように、データ入力・処理部４２０から単位時間当たりの時系列データを入力する。
平滑化係数算出部４５０がデータ入力・処理部４２０から入力するデータは、図６と同様である。
平滑化係数算出部４５０は、図６の各々のデータに対して、図１２に示すように、突出点判定部４４０により割り当てられた領域を設定する。
このように、平滑化係数算出部４５０は、図６のデータ入力・処理部４２０からデータに対して対応する領域を設定することにより、各データに対して対応する領域の突出率を付与する。

特徴量分析部４３０による主成分対象次元数をｋとしたとき、１つの領域にはｋ個の時系列データが含まれる。つまり、図９の例において、領域ｒ_１には、Ｔ_１とＣ_１の対からＴ_ｋとＣ_ｋの対までのｋ個のデータが含まれる。いま、データｉに対する突出率をＰ_ｉとした場合に、領域ｒ_ｊ（ｊ＝１、．．．、ｍ）のすべてのデータｉに対して平滑化係数Ｍ_ｉ（ｉ＝１、．．．、ｎ）を計算する際のアルゴリズムは以下の通りである。

数１において、ｍａｘ（ｒ_ｊ）は、領域ｒ_ｊに含まれるｋ個のデータのうち、イベント発生数Ｃにおける最大値を取得する処理を示す。
また、ｍｉｎ（ｒ_ｊ）は、領域ｒ_ｊに含まれるｋ個のデータのうち、イベント発生数Ｃにおける最小値を取得する処理を示す。
右辺の第３項、すなわち、（Ｃ_ｉ−ｍｉｎ（ｒ_ｊ））／（（ｍａｘ（ｒ_ｊ）−ｍｉｎ（ｒ_ｊ））は、領域ｒ_ｊに含まれる各々のイベント発生数Ｃ_ｉが当該領域ｒ_ｊに含まれる他のイベント発生数との比較においてどのような位置づけになるかという計算であり、各々のイベント発生数Ｃ_ｉの相対評価値を算出する計算である。
このように、平滑化係数Ｍ_ｉは、各データの相対評価値及び各データが属する領域の突出率とに基づく係数であり、後述するように、相対評価値及び突出率と、平滑化部４６０による移動平均計算の対象とするデータ数とが比例関係となる。
平滑化係数算出部４５０の出力データは、図１３に示す通りであり、図１２のデータに対して、平滑化係数Ｍ_ｉが追加されたものである。

次に、平滑化部４６０は、平滑化係数をもとに時系列データの平滑化を行う。
平滑化部４６０は、図３に示すように、データ入力・処理部４２０から単位時間当たりの時系列データを入力する。
平滑化部４６０がデータ入力・処理部４２０から入力するデータは、図６と同様である。
そして、平滑化部４６０は、データ入力・処理部４２０から単位時間当たりの時系列データに対して、平滑化係数算出部４５０からの出力データ（図１３）を用いて、平滑化を行う。
具体的な平滑化には、サンプル値を可変にした移動平均手法を用いる。
以下は、移動平均手法の定義である。いま、以下のようなｘ_ｉを中心とした前後ｑ個の時系列が存在するとする。

本実施の形態に係る平滑化部４６０の行う移動平均計算の式は以下の通りである。

数３において、ｙ_ｉは、平滑化後のイベント発生数Ｃ_ｉの値を示す。
数３において、ｘ_ｉは、イベント発生数Ｃ_ｉを意味する。
また、ｍ_ｉを移動平均値と呼ぶ。移動平均値ｍ_ｉは、平滑化部４６０による移動平均計算の対象とするデータ数を示す。
移動平均値ｍ_ｉは、平滑化係数Ｍ_ｉと同値である。
通常は移動平均値は一定（上記の数２では、ｑ個で固定）であるが、本実施の形態では移動平均値ｍ_ｉは、平滑化係数算出部４５０により算出された平滑化係数Ｍ_ｉに連動させている。
つまり、平滑化係数Ｍ_ｉの値により、平滑化部４６０による移動平均計算の対象とするデータ数が変化する。
平滑化係数Ｍ_ｉが大きくなれば、換言すれば、各々のイベント発生数Ｃ_ｉの相対評価値及び各々のイベント発生数Ｃ_ｉの突出率Ｐ_ｉの少なくとも一方が大きくなれば、移動平均計算の対象となるデータ数が大きくなり、この結果、多くのイベント発生数の値が反映されて平滑化の度合いが大きくなる。平滑化係数Ｍ_ｉが大きなデータは、前後のデータ又は領域と比較して突出した傾向にあるデータであるため、平滑化の度合いを大きくして平準化する。

以上のように、本実施の形態では、定常領域の各地点の値を移動平均で求める。その際、移動平均値ｍ_ｉの値を平滑化係数Ｍ_ｉを元に決定する。
定常領域のある点が特徴量空間の群に含まれる領域であった場合、移動平均値ｍ_ｉは小さいため元の情報を保持する。つまり、値は大きく変化しない。
また時系列データのある点が特徴量空間の群に含まれない領域であった場合、移動平均値ｍ_ｉが大きくなるので、突出した情報を平滑化する。

図１９は、時系列データの平滑化の概念を示す。
これまでの工程で、領域ごとの平滑化係数は時系列の値が大きいほど移動平均値が大きくなるよう設定されている。すなわち値の突出している箇所ほど強くノイズ除去が働くようになる。図１９では（ｂ）の領域が強く平滑化がかかることになる。

このようにして平滑化処理が行われた後の時系列データを学習データとし、異常検知部４は図３に図示していない手段において、この学習データを用いて異常検知を行う。

このように、本実施の形態では、ノイズ情報が混入した時系列データに対して、主成分分析と部分的な移動平均処理を行うことによって、学習データを伴うネットワーク異常検知処理に効果的な時系列データの平滑化を行うことができる。

なお、上記の説明では、特徴量分析において２種類の特徴量を用いることとしたが、２種類に限らず、１種類でもよいし、３種類以上であってもよい。
また、上記の説明では、計算の高速化のために、時系列データを領域に分け、領域ごとに特徴量を算出し、領域ごとの特徴量に基づき各領域の突出率を判定したが、領域に分けることなく個々のデータのデータ値に基づいてデータごとに突出率を判定するようにしてもよい。

本実施の形態では、時系列データを単位時間ごとに集計した数を記憶するデータ入力・処理手段と、上記データ入力・処理手段で集計された時系列データから主成分得点の計算を行い主成分得点の時系列へ変換する主成分分析手段と、上記主成分分析手段で得られた主成分得点の時系列を先頭から一定数ごとに特徴領域の群に纏める領域編集処理手段と、上記領域編集処理手段で得られた特徴領域の群を調査し他の領域と比較して領域のスコア化を行う突出点判定手段と、上記突出点判定手段での特徴領域のスコアに従い平滑化に関するパラメータを定める平滑化係数判定手段と、上記平滑化係数判定手段でのパラメータに従い時系列データの平滑化を実施する平滑化手段とを有する異常検知部（データ処理装置）について説明した。

実施の形態２．
時系列データを平滑化する形態として、変動の大きな時系列データへの対応が考えられる。
図２０の上段のように時系列データの傾向が前半と後半で変化していた場合、主成分分析の結果得られる特徴量空間（主成分空間）は、大きく２つの群に分割される。
図２０の例では、領域（ａ）〜（ｃ）が一つの群を形成し、領域（ｅ）〜（ｆ）が別の群を形成する。
このような場合、突出率を正確に判定することができず、時系列データの平滑化係数の判定が困難になる。

本実施の形態では、これを解決するために突出点判定部４４０に以下のような機能を追加する。
なお、本実施の形態に係る異常検知部４の構成は図３に示したものと同様であり、各要素の処理の工程は突出点判定部４４０以外は実施の形態１と同じである。

図２０の前段に示すように、実施の形態１の突出点判定部４４０は、時系列データの突出率を算出する際、入力されたデータ全てを対象にしていた。この結果、領域（ａ）〜（ｃ）が一つの群を形成し、領域（ｅ）〜（ｆ）が別の群を形成する主成分空間となっていた。
本実施の形態では、突出点判定部４４０は、近隣の領域のみを用いて突出率の算出を行うことで時系列データの変動に対応する。

図２０の下段は実施の形態２に係る突出点判定部４４０の突出率判定手法を示す概念図である。
時系列データ（ａ）の領域に関する突出率を算出する際は隣り合う両側の領域（ｚ）〜（ｂ）を元にする。つまり、領域（ｚ）〜（ｂ）のそれぞれの特徴量を特徴量空間に配置し、それぞれの特徴量を比較して、突出率を判定する。
同様に、領域（ｂ）に関する突出率の算出は領域（ａ）〜（ｃ）を用いる。

なお、実施の形態１による突出率判定の手法（図２０の上段）と、実施の形態２による突出率判定の手法（図２０の下段）の区別は、例えば、時系列データのデータ量が一定量以上であれば、実施の形態２の手法により、一定量未満の場合であれば実施の形態１の手法によるという運用が考えられる。

以上のように、本実施の形態では、突出点判定部４４０は、各領域（グループ）の特徴量と、各領域に近接する任意数の領域の特徴量との関係に基づいて、各領域の突出率（乖離値）を設定する。
なお、上記の説明では、突出率の算出を行う領域の両隣の領域のみを用いることにしているが、両隣に限らず、近接する任意数の領域を用いることができる。例えば、前後５領域ずつを用いてもよいし、先行する５つの領域のみを用いるようにしてもよい。

このように、本実施の形態によれば、平滑化を行う時系列データが変動のあるものである場合、突出率を求めるために用いる時系列領域を狭めることで、時系列データの変動による影響を小さくすることができる。これにより時系列のどの部分においても突出した箇所を検出することが可能になる。

実施の形態３．
実施の形態２に示した事例の派生として、平滑化を行う時系列データの特徴量が頻繁に分布する場合がある。この場合、特徴量の数によっては特徴量空間上の群で判断した場合、群の主従関係が逆になり突出率の判定を誤る場合がある。

図２１は突出率を誤って判定した例を示す。
図２１では時系列データに突出している領域（（ａ）、（ｃ）〜（ｆ））が多く出現している。
このデータを主成分分析し、特徴量空間に配置した場合、突出している領域の方が群としての割合が大きくなる。
群を構成している領域の大小関係から、突出率を算出すると群から乖離している領域は（ｂ）の領域であると判断され、突出率を算出する関係が逆転してしまう。
このため、領域（ｂ）の突出率が高く、その他の領域の突出率が低くなり、実態からかけ離れてしまう。

このような事態を是正するため、本実施の形態に係る突出点判定部４４０は、領域間の具体的な値を把握する。
特徴量空間の分布から見ると、領域（ａ）、（ｃ）〜（ｆ）が中心であると見られる。
しかし各領域の平均値を求めると、領域（ｂ）の平均値が他よりも小さいことが分かり、この場合の特徴量空間は領域（ｂ）からの乖離を求める必要があることがわかる。
本実施の形態に係る突出点判定部４４０は、このように、各領域に含まれるデータ値の平均値を求めて、より実態に則した突出率の判定を行う。
なお、本実施の形態に係る異常検知部４の構成は図３に示したものと同様であり、各要素の処理の工程は突出点判定部４４０以外は実施の形態１と同じである。

このように、本実施の形態に係る突出点判定部は、領域（グループ）ごとに領域内のデータの平均値を算出し、各領域の平均値と、各領域の特徴量と他の領域の特徴量との関係とに基づき、各領域の突出率（乖離値）を設定する。

以上のように、本実施の形態によれば、特徴量空間の分布からみた時系列データの突出点判定が困難な場合、個々の領域の平均値を求めることで誤った判定を防ぐことができる。

実施の形態４．
本実施の形態では、異常検知システムに学習データを蓄積する例を説明する。
つまり、本実施の形態では、異常検知に先立って学習データの平滑化を行い、平滑化された後の学習データを蓄積しておき、異常検知の際に蓄積している学習データを利用する。

図２２の左側は、従来の異常検知システムにおける処理の流れの概略を示す。
入力データから得られたデータは異常検知システムで解析され異常であった場合、警告を行う。
従来は、入力データが異常であるかどうかを比較するため、入力データ中から正常である領域を学習データとして用いた。この学習データは入力データが更新されるたびに新たに規定し直していたが、学習データを蓄積すると過去の実績も使用できることになり検知精度が向上すると考えられる。ただし入力データには異常な値が含まれているため、学習データを蓄積する前段階で実施の形態１に示した手順を用いて平滑化を行う。
図２２の右側がその処理の流れの概略である。

本実施の形態では、異常検知システムの学習データの蓄積処理に用いる。
通常の平滑化と異なり特徴的な部分を優先的に平滑化するため、入力データにノイズ情報が含まれていた場合でも学習データとして活用することが可能である。

実施の形態５．
本実施の形態では、時系列情報の検索システムでの利用方法について説明する。
図２３は、このような検索システムの処理の流れの概略を示す。
図２３の左側に示す従来のシステムでは時系列情報を入力すると辞書データベースが辞書データを参照し類似するパターンを選定する。
しかし、時系列情報は特徴が多岐に渡るため同一の情報は検索が困難である。
関連する類似の情報を検索するためには平滑化の処理が必要であるが、単純に平滑化してしまうと入力データの情報が失われるため、検索は困難である。また入力データにノイズが混入していた場合はそのままでは検索を行うことができない。
この場合も実施の形態１に示したようなノイズ情報を優先的に平滑化する手法が有効である。

図２３の右側は、本実施の形態に係る方式の処理の流れの概略を示す。
入力データをそのまま検索のキーとせず、実施の形態１に示す手法により平滑化を行う。これにより検索範囲の拡大とノイズの対処が可能になる。
つまり、辞書データベースにおいて辞書データとの照合の対象になるデータ（検知パターン）に対して実施の形態１に示した平滑化部による平滑化を行い、平滑化後のデータ（検知パターン）を辞書データベースに出力する。
辞書データベースでは、平滑後のデータ（検知パターン）に合致する辞書データを検索して、検索結果を応答する。

本実施の形態では、平滑化処理を時系列情報の検索システムの検索処理に用いる。
このようにすることで、ノイズ情報を取り除いてもノイズ情報以外の時系列情報は保存されるため検索精度の向上が可能になる。

最後に、実施の形態１〜５に示した不正アクセス分析システム１００及び異常検知部４のハードウェア構成例について説明する。

図２５は、本実施の形態１〜５に示す不正アクセス分析システム１００及び異常検知部４のハードウェア資源の一例を示す図である。なお、図２５の構成は、あくまでも不正アクセス分析システム１００及び異常検知部４のハードウェア構成の一例を示すものであり、不正アクセス分析システム１００及び異常検知部４のハードウェア構成は図２５に記載の構成に限らず、他の構成であってもよい。

図２５において、不正アクセス分析システム１００及び異常検知部４は、プログラムを実行するＣＰＵ９１１（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介して、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９１３、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１４、通信ボード９１５、表示装置９０１、キーボード９０２、マウス９０３、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。更に、ＣＰＵ９１１は、ＦＤＤ９０４（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）、コンパクトディスク装置９０５（ＣＤＤ）、プリンタ装置９０６、スキャナ装置９０７と接続していてもよい。また、磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信ボード９１５、キーボード９０２、スキャナ装置９０７、ＦＤＤ９０４などは、入力部、入力装置の一例である。
また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力部、出力装置の一例である。

通信ボード９１５は、例えば、ＬＡＮ（ローカルエリアネットワーク）、インターネット、ＷＡＮ（ワイドエリアネットワーク）などに接続されていてもよい。
磁気ディスク装置９２０には、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、オペレーティングシステム９２１、ウィンドウシステム９２２により実行される。

上記プログラム群９２３には、本実施の形態１〜５の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
ファイル群９２４には、実施の形態１〜５の説明において、「〜の判断」、「〜の計算」、「〜の比較」、「〜の評価」、「〜の判定」、「〜の設定」、「〜の集計」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態１〜５で説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ等の記録媒体に記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、本実施の形態１〜５の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」、であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」、「〜手段」として説明しているものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、本実施の形態１〜５の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、本実施の形態１殻の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。

このように、本実施の形態１〜５に示す不正アクセス分析システム１００及び異常検知部４は、処理装置たるＣＰＵ、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。

実施の形態１に係る不正アクセス分析システムの構成例を示す図。実施の形態１に係る不正アクセス分析システムと監視対象との関係を示す図。実施の形態１に係る異常検知部の構成例を示す図。実施の形態１に係るデータ入力・処理部の集計前の入力データの例を示す図。実施の形態１に係るデータ入力・処理部の集計後の入力データの例を示す図。実施の形態１に係る特徴量分析部の入力データの例を示す図。実施の形態１に係る特徴量分析部における時系列データと特徴量の関係の例を示す図。実施の形態１に係る特徴量分析部の出力形式の例を示す図。実施の形態１に係る突出点判定部の入力データの例を示す図。実施の形態１に係る突出点判定部の出力データの例を示す図。実施の形態１に係る平滑化係数算出部の突出点判定部からの入力データの例を示す図。実施の形態１に係る平滑化係数算出部のデータ入力・処理部からの入力データの例を示す図。実施の形態１に係る平滑化係数算出部の出力データの例を示す図。実施の形態１に係るデータ入力・処理部のデータ集計処理の具体例を示す図。実施の形態１に係る特徴量分析部の領域化処理の具体例を示す図。実施の形態１に係る特徴量分析部の主成分分析処理の具体例を示す図。実施の形態１に係る突出点判定部の主成分空間への配置処理の具体例を示す図。実施の形態１に係る突出点判定部の突出点判定処理の具体例を示す図。実施の形態１に係る平滑化部の平滑化処理の具体例を示す図。実施の形態２に係る突出点判定部の突出点判定処理の具体例を示す図。実施の形態３に係る突出点判定部の突出点判定処理の具体例を示す図。実施の形態４に係る方式を示す図。実施の形態５に係る方式を示す図。実施の形態１に係る異常検知部の動作例を示すフローチャート図。実施の形態１〜５に係る不正アクセス分析システム及び異常検知部のハードウェア構成例を示す図。従来技術を説明する図。

符号の説明

１ＧＵＩ、２対策部、３不正アクセス判定部、４異常検知部、５ログ情報集計部、６情報収集部、１００不正アクセス分析システム、４１０入力データ、４２０データ入力・処理部、４３０特徴量分析部、４４０突出点判定部、４５０平滑化係数算出部、４６０平滑化部。

Claims

各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定部と、
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とするデータ処理装置。
前記平滑化係数算出部は、
前記乖離値設定部により設定された乖離値に応じて、前記平滑化部による平滑化の度合いが変化するように平滑化係数を算出することを特徴とする請求項１に記載のデータ処理装置。
前記乖離値設定部は、
所定の順序に従って整列されている複数のデータの解析を行い、
前記平滑化部は、
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部は、
前記乖離値設定部により設定された乖離値と、前記平滑化部による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出することを特徴とする請求項１に記載のデータ処理装置。
前記データ処理装置は、更に、
所定の順序に従って整列されている複数のデータを前記順序に従って複数のグループにグループ化し、各グループに含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する特徴量分析部を有し、
前記乖離値設定部は、
前記特徴量分析部によりグループ化された各グループについて、各グループの特徴量が他のグループの特徴量から乖離している度合いを乖離値として設定し、
前記平滑化係数算出部は、
各データが属するグループ内における各データのデータ値の相対評価値を算出するとともに、各データの相対評価値と各データが属するグループの乖離値とを反映させて、データごとに平滑化のための平滑化係数を算出することを特徴とする請求項１に記載のデータ処理装置。
前記平滑化係数算出部は、
相対評価値及び乖離値と、前記平滑化部による平滑化の度合いとが比例関係となる平滑化係数を算出することを特徴とする請求項４に記載のデータ処理装置。
前記平滑化部は、
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部により算出された平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行うことを特徴とする請求項４に記載のデータ処理装置。
前記乖離値設定部は、
各グループの特徴量と、各グループに近接する任意数のグループの特徴量との関係に基づいて、各グループの乖離値を設定することを特徴とする請求項４に記載のデータ処理装置。
前記乖離値設定部は、
グループごとにグループ内のデータの平均値を算出し、各グループの平均値と、各グループの特徴量と他のグループの特徴量との関係とに基づき、各グループの乖離値を設定することを特徴とする請求項４に記載のデータ処理装置。
前記データ処理装置は、
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データが入力された際に、前記乖離値設定部による乖離値の設定を開始することを特徴とする請求項１に記載のデータ処理装置。
前記データ処理装置は、
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データの入力前に、前記平滑化部によるデータの平滑化を完了して学習データの生成を完了していることを特徴とする請求項１に記載のデータ処理装置。
前記データ処理装置は、
所定の辞書データを蓄積する辞書データベースに接続されており、
前記辞書データベースにおいて辞書データとの照合の対象になるデータに対して前記平滑化部による平滑化を行い、平滑化後のデータを前記辞書データベースに出力することを特徴とする請求項１に記載のデータ処理装置。
コンピュータが、各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定ステップと、
コンピュータが、前記乖離値設定ステップにより設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出ステップと、
コンピュータが、前記平滑化係数算出ステップにより算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化ステップとを有することを特徴とするデータ処理方法。
各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定処理と、
前記乖離値設定処理により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出処理と、
前記平滑化係数算出処理により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化処理とをコンピュータに実行させることを特徴とするプログラム。