JP2017010552A - 単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法 - Google Patents

単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法 Download PDF

Info

Publication number
JP2017010552A
JP2017010552A JP2016121204A JP2016121204A JP2017010552A JP 2017010552 A JP2017010552 A JP 2017010552A JP 2016121204 A JP2016121204 A JP 2016121204A JP 2016121204 A JP2016121204 A JP 2016121204A JP 2017010552 A JP2017010552 A JP 2017010552A
Authority
JP
Japan
Prior art keywords
time series
data
univariate
block size
univariate time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016121204A
Other languages
English (en)
Other versions
JP6611677B2 (ja
Inventor
アリジット ウキル
Ukil Arijit
アリジット ウキル
ソマ バンドヨパディアイ
Bandyopadhyay Soma
ソマ バンドヨパディアイ
アルパン パル
Arpan Pal
アルパン パル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2017010552A publication Critical patent/JP2017010552A/ja
Application granted granted Critical
Publication of JP6611677B2 publication Critical patent/JP6611677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor

Abstract

【課題】単変量時系列信号に対してリアルタイムで外れ値を検出する。
【解決手段】システムは、データソースから、複数のデータセットを含む単変量時系列信号を受け取る。システムは、複数のデータセットについてデータセットの標準偏差を計算する。その後、システムは、データセットの最適サンプルブロックサイズ及びデータセットの臨界サンプルサイズを計算する。さらに、システムは、データセットの最適使用可能ブロックサイズを決定する。システムは、上記複数のデータセットを、最適使用可能ブロックサイズに基づいたブロックにセグメント化する。システムは、上記各ブロック上で外れ値検出技術を実行することによって、外れ値を検出し、これによって、外れ値検出方法の結果の精確度及び正確度への影響を最小限にすると同時に、改良された実行時間を確保する。
【選択図】図4

Description

[関連出願の相互参照及び優先権]
本特許出願は、2015年6月17日に出願されたインド特許出願2324/MUM/2015号に対して優先権が主張され、その内容は、参照により本書に援用される。
本書に記述されている主題(発明の対象)は、概して、外れ値、言い換えれば、時系列信号の誤りデータポイント、のリアルタイム検出に関する。
物理的パラメータをモニタするのに用いられるセンサーによって大量のデータが生成される。データはその後、センサーの配備の領域に関連する有意イベントを特定するために用いられる。一例を挙げると、イリゲーションパラメータをモニタする分野でセンサーが展開(配備)され得、このようなセンサーは、ワイヤレスセンサーネットワーク(WSN)またはジェネリックセンサーネットワークを形成する。センサーは、WSN中のノードとして特定され得る。WSN中のノードは、データ、すなわちイリゲーションパラメータを、セントラルノード又はサーバーに連続的に送信する。従って、サーバーにより受け取られるデータ量は膨大で、有意イベントの決定に多くの処理が必要になる可能性がある。他の例では、センサーは、人の心臓活動をモニタするために用いられ得る。心臓活動に対応するデータはその後、心奇形やさらなる医療診断を特定するために用いられる。従って、結果を導き出すために処理される大量のデータが必要である。
処理に用いられる大量のデータは、外れ値の同定により削減され得る。外れ値は、大量のデータ中に存在する有意イベントを特定するのに有用である。正確な外れ値の検出技術は、大量の処理用のデータのサンプルを必要とする。従って、大量のサンプルの処理は、実行される多くの計算を必要とし、それゆえ、高度の実行時間を使う。計算数を削減するため、より少数のサンプルが処理のために用いられ得る。しかし、サンプル数の削減と同時に、外れ値の検出は、フォールスアラーム(誤報)、すなわち、有意イベントを指し示す外れ値の誤った同定につながる可能性がある。フォールスアラーム数の増加は正確度の低下のことを指している。
図1を参照して、正確度と実行時間の関係のグラフ表示について説明する。サンプルサイズ、つまり、外れ値を検出する方法で使われるサンプル数は、その方法と関連している正確度及び実行時間に影響を与える。実行時間、つまり、サンプル数を分析するために必要な時間は、サンプルサイズの増加とともに増えていく。同時に、正確度、言い換えれば、フォールスアラームの発生率はサンプルサイズの増加とともに低減する。図1はまた、最適オペレーティングポイントを示す。最適オペレーティングポイントは、フォールスアラーム率が実行時間の最適値とともに最小となるようなサンプルサイズを指し示す。
本発明の要旨は、単変量時系列信号に対してリアルタイムで外れ値を検出するためのシステム及び方法と関連した態様を導入するために提供され、下記の詳細な説明においてさらに説明される。本発明の要旨は、主張した主題(発明の対象)の本質的特徴を確認することを目的としているのではなく、主張した主題の範囲の決定または制限に使用されるものでもない。
一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出する方法が開示される。この方法は、データソースから単変量時系列信号を受け取ることを含むことができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含むことができる。上記方法は、複数のデータセットについてデータセットの標準偏差(σ)を計算することをさらに含むことができる。上記方法は、上記標準偏差(σ)を利用することで、データセットの最適サンプルブロックサイズ(n)を計算することをさらに含むことができる。上記方法は、上記標準偏差(σ)、上記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づいて、データセットの臨界サンプルサイズ(ncritical)を計算することをさらに含むことができる。上記方法はまた、データセットの最適使用可能ブロックサイズ(noperational)を決定することを含むことができる。各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むことができる。上記方法は、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出することをさらに含むことができる。
一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出するシステムが開示される。このシステムは、プロセッサ及び該プロセッサと結合しているメモリを含み、メモリに格納されたプログラム命令を実行する。プロセッサは、データソースから単変量時系列信号を受け取ることができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含むことができる。上記プロセッサはさらに、複数のデータセットについてデータセットの標準偏差(σ)を計算することができる。上記プロセッサはさらに、上記標準偏差(σ)を利用することにより、データセットの最適サンプルブロックサイズ(n)を計算することができる。上記プロセッサは、上記標準偏差(σ)、上記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づくデータセットの臨界サンプルサイズ(ncritical)を計算することができる。上記プロセッサはさらに、データセットの最適使用可能ブロックサイズ(noperational)を決定することができる。上記プロセッサはさらに、上記複数のデータセットを、上記最適使用可能ブロックサイズ(noperational)に基づいたブロックにセグメント化することができる。各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むことができる。上記プロセッサは、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出することができる。
一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出するコンピュータ装置で実行可能なプログラムを具現化する非一時的なコンピュータ可読媒体が開示される。上記プログラムは、データソースから単変量時系列信号を受け取るプログラムコードを含むことができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含むことができる。上記プログラムは、複数のデータセットについてデータセットの標準偏差(σ)を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、上記標準偏差(σ)を利用することにより、データセットの最適サンプルブロックサイズ(n)を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、上記標準偏差(σ)、上記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づくデータセットの臨界サンプルサイズ(ncritical)を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、データセットの最適使用可能ブロックサイズ(noperational)を決定するためのプログラムコードをさらに含むことができる。上記プログラムは、上記複数のデータセットを、上記最適使用可能ブロックサイズ(noperational)に基づいたブロックにセグメント化するためのプログラムコードをさらに含むことができる。各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むことができる。上記プログラムは、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するためのプログラムコードをさらに含むことができる。
詳細な説明は添付図面に関連して記述される。図において、参照符号で最初に出てくる左端の数字は、図を特定するものである。同等の特徴(特性)や構成要素を指し示すために、図面を通して同じ番号が用いられる。
従来技術における周知のサンプルサイズに関する正確度と実行時間との関係についてのグラフ表示図である。 本発明の対象の一実施例による、単変量時系列信号における外れ値の検出のためのシステムのネットワーク実行を示す図である。 本発明の対象の一実施例による、計算待ち時間とブロックサイズとの関係についての典型的なグラフ表示図である。 本発明の対象の一実施例による、精確度とブロックサイズとの関係についての典型的なグラフ表示図である。 本発明の対象の一実施例による、単変量時系列信号において外れ値を検出する方法を説明するフローチャートである。
本発明の主題における、単変量時系列信号に対してリアルタイムで外れ値を検出するためのシステム及び方法を記載する。
上記システムは、データソースから単変量時系列信号を受け取ることができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含むことができる。上記システムは、複数のデータセットについてデータセットの標準偏差(σ)を計算することができる。上記システムは、上記標準偏差(σ)を利用することで、データセットの最適サンプルブロックサイズ(n)及びデータセットの臨界サンプルサイズ(ncritical)をさらに計算することができる。さらに、上記システムは、データセットの最適使用可能ブロックサイズ(noperational)を決定することができる。さらに、上記システムは、上記複数のデータセットを、上記最適使用可能ブロックサイズに基づいたブロックにセグメント化することができる。各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むことができる。続いて上記システムは、上記各ブロック上で外れ値検出技術を実行することによって、外れ値を検出することができる。このように、上記システムは、上述した方法を用いて、単変量時系列信号に対してリアルタイムで外れ値を検出することができる。
記載された、単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法は、あらゆるコンピュータシステム、環境及び/又は設定において実施され得る態様とともに、次のような典型的なシステムに照らして実施形態が記載されている。
図2に関し、本発明の対象の実施態様に従って、単変量時系列信号に対してリアルタイムで外れ値を検出するシステム202が示される。本発明の主題は、システム202がコンピュータ上で実施されることを考慮して説明されるが、当然のことながら、システム202はまた、これらに限定されることはないが、スマートフォン、タブレット、ノートパッド、個人用ディジタル補助端末、携帯用デバイス、ラップトップコンピュータ、ノートブック、ワークステーション、メインフレームコンピュータ、サーバー、ネットワークサーバーを含む様々なコンピュータシステムで実施し得る。一実施形態において、システム202は、クラウドベース環境で実施し得る。当然のことながら、システム202は、一つ以上のユーザデバイス204−1,204−2…204−N(これらをまとめて以下、ユーザデバイス204またはユーザデバイス204内のアプリケーションと称する)を介して多数のユーザによってアクセス可能である。ユーザデバイス204の例としては、限定されないが、ウェブカメラ付きポータブルコンピュータ、カメラ付き個人用ディジタル補助端末、カメラ付き携帯用デバイス、及びディジタルカメラを含むことができる。ユーザデバイス204は、ネットワーク206を通じてシステム202と通信的に結合される。
一つの実施において、ネットワーク206は、無線ネットワーク、有線ネットワーク、またはそれらの組み合わせであり得る。ネットワーク206は、例えばイントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、及び同類のもの等、様々なネットワークのタイプの一つとして実施することができる。ネットワーク206は、専用ネットワーク、共有ネットワークのどちらかであり得る。共有ネットワークは、互いとコミュニケーションをとるために様々なプロトコル、例えば、ハイパーテキストトランスファープロトコル(HTTP)、トランスミッションプロトコル、通信制御プロトコル/インターネットプロトコル(TCP/IP)、ワイヤレスアプリケーションプロトコル(WAP)などを用いる、様々な種類のネットワークとの関連を表す。ネットワーク206はさらに、、ルーター、ブリッジ、サーバー、コンピュータデバイス、ストレージデバイス等を含む様々なネットワークデバイスを含むことができる。
一実施形態において、図2を用いて説明したように、システム202は、少なくとも一つのプロセッサ210、メモリ212、及び入出力(I/O)インターフェース214を含むことができる。さらに、少なくとも一つのプロセッサ210は、一つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、ディジタルシグナルプロセッサ、中央処理装置、状態機械、論理回路、及び/又は演算命令に基づいて信号を操作するあらゆるデバイスとして実行され得る。少なくとも一つのプロセッサ210は、幾つかある機能の中で特に、メモリ212に保存されたコンピュータ可読命令を取り出し、実行するように構成されている。
I/Oインターフェース214は、例えばウェブインターフェース、グラフィカルユーザインターフェースなど様々な種類のソフトウェア、ハードウェアインターフェースを含むことができる。I/Oインターフェース214は、システム202に、ユーザと直接に情報のやり取りをすることを許可し得る。さらに、I/Oインターフェース214は、システム202に、ウェブサーバや外部データサーバー(図示せず)などの他のコンピュータデバイスと通信することを可能にし得る。I/Oインターフェース214は、例えばLAN、ケーブル等の有線ネットワーク、WLAN、セルラー方式または衛星による通信等の無線ネットワークの多種多様なネットワーク及びプロトコルの種類の範囲内で、多数のコミュニケーションを容易にすることができる。
メモリ212は、当技術分野で知られている、例えば、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)等の揮発性メモリ及び/又は、リードオンリーメモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、磁気テープ等の不揮発性メモリ等のあらゆるコンピュータ可読媒体を含むことができる。
一実施形態において、システム202は、分析されるべきサンプルの分布内に存在するバイアスを除去するための大きなサンプルサイズを必要とし得る。大きなサンプルサイズの使用は、実行時間の増加を引き起こす場合があり、それゆえ効率の減少に至る。一つの事例において、システム202は、カートシス(尖度)パターンを準備するためにデータブロックの尖度を決定することができる。尖度の大きいパターンの場合、システム202は、ロスナーフィルタリング技術を使うことができる他、ハンペルフィルタリング技術を使うことができる。さらに、正確度を良くするために、システム202は、フォールスアラームを最小限にする必要がある。フォールスアラームは、マスキング効果及びスワンピング効果を含み得る。一つの事例において、システム202は、マスキング効果を最小限にするためにハンペルフィルタリング技術を使うことができ、スワンピング効果を最小限にするためにロスナーフィルタリング技術を使うことができる
一つの事例において、Nは、単変量時系列信号のデータセットそれぞれに存在する単変量時系列データエレメントの数を示すことができ、nは、最適サンプルブロックサイズを示すことができる。マスキング効果アッテネーターに対する実行時間は、τmnとされ、スワンプリング効果アッテネーターに対する実行時間は、τsnとされる。一般にハンペルフィルタリング技術は、ロスナーフィルタリング技術よりも少ない計算で行うので、τmn≪τsnである。ハンペルフィルタリング技術の計算の複雑性は、Ο(N)、ロスナーフィルタリング技術の計算の複雑性は、Ο(N)であり得る。
一つの実施において、システム202は、データソースから単変量時系列信号を受け取ることができる。単変量の期間は、式、方程式、及び単一変数を有する関数を参照することができる。データソースはメモリ212であり得、センサーまたはデバイスでキャプチャーされた保存データを有する。上記センサーまたはデバイスは、スマートメータ、加速度計、脳波図(EEG)、心電計(ECG)、または他のデバイスを含むことができる。一事例において、単変量時系列信号は、複数のデータセットを含むことができる。さらに、複数のデータセットのうちの各データセットはN個の単変量時系列データエレメントを含む。
一実施形態において、システム202は、単変量時系列信号に関連しているアプリケーションの臨界の時間を決定することができる。一つの事例において、臨界の時間は、リアルタイムまたは疑似的なリアルタイムであり得る。かかる事例中、システム202は、複数のデータセットについてデータセットの標準偏差(σ)を計算することができる。上記システムは、周知の統計的技術を用いて標準偏差(σ)を計算することができる。
標準偏差(σ)の計算において、システム202は、データセットの最適サンプルブロックサイズを計算することができる。一つの事例において、システム202は、下記のような式1を用いて最適サンプルブロックサイズ(n)を計算することができる。
上記式1において、εは精確度損失を示し、δは正確度を示す。さらに、εとδは、アプリケーションに依存する場合がある。
サンプルブロックサイズ(n)の計算後、システム202は、上記標準偏差(σ)、上記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づくデータセットの臨界サンプルサイズ(ncritical)を計算することができる。一つの事例において、システム202は、下記のような式2を用いて、臨界サンプルサイズ(ncritical)を計算することができる。
臨界サンプルサイズ(ncritical)の計算後、システム202は、データセットの最適使用可能ブロックサイズ(noperational)を決定することができる。一つの事例において、システム202は、下記に示す式3を用いて、最適使用可能ブロックサイズ(noperational)を決定することができる。
最適ブロックサイズ(noperational)の決定後、システム202は、最適使用可能ブロックサイズ(noperational)に基づき、複数のデータセットをブロックにセグメント化することができる。各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むことができる。続いてシステム202は、N/noperationalデータエレメントを含む各ブロック上で外れ値検出技術を実行することによって、外れ値を検出することができる。一つの事例において、システム202は、外れ値の検出に対し、ロスナーフィルタリング技術及びハンペルフィルタリング技術のような教師なし技術を使うことができる。
上記記載についてさらに説明するために、一例が提供される。一つの事例において、スマートメータのデータは、外れ値の検出ために分析され得る。精確度(1−ε)の値は0.8とされ得る。正確度(δ)の値は0.8とされ得る。一つの事例において、12*10は、言い換えれば、サンプリングする単変量時系列データエレメント(N)の数である。システム202によって計算される標準偏差(σ)は、300であり得る。システム202は、精確度(1−ε)、正確度(δ)、単変量時系列データエレメントの数N、及び標準偏差(σ)に基づいた上記式2を用いて、臨界サンプルサイズ(ncritical)を決定することができる。この場合の期間、システム202によって決定された臨界サンプルサイズ(ncritical)は、100とすることができる。従って、システム202は、外れ値を検出するために100の単変量時系列データブロックの分析を120回行うことが必要であり得る。ある事例における外れ値検出技術は、ロスナーフィルタリング技術を使うことができ、総使用時間は、120 * O(10)で算出される。もう一つの例では、ロスナーフィルタリングが全体のサンプルにおいて使用される間、計算時間は、O(144 * 1016)である。従って、システム202は、従来型の時間性能(O(144 * 1016))に比べてよりよい実行時間性能(120 * O(10))を提供する。
図3aを参照すると、計算待ち時間とブロックサイズとの関係についての典型的なグラフ表示について説明されている。図3aは、サンプルサイズが40000である時、計算待ち時間の最適値を示す実験データを例示する。この場合における40000のサンプルサイズは、最適オペレーティングポイントとして特定される。図3bを参照すると、精確度とブロックサイズとの関係についての典型的なグラフ表示が説明される。図3bは、サンプルサイズが40000である中で精確度の最高値を示す実験データを説明する。従って、システム202は、サンプルサイズが40000である中で、言い換えれば最適オペレーティングポイントにおいて、精確度の最大値に達する。
一実施形態において、システム202は、最適オペレーティングポイントで動作することにより、効率性及び有効性を同時に達成することができる。システム202は、単変量時系列信号の不安定な内容を特定するため、外れ値を更に用いることができる。システムは、プライバシーの測定、不正検出及び他のアプリケーションに対し、上記不安定な内容を更に利用することができる。
ここで図4を参照すると、本発明対象の実施形態に従って、単変量時系列信号に対してリアルタイムで外れ値を検出する方法400が示されている。方法400は、コンピュータ実行可能命令との一般の関係において記載され得る。一般に、コンピュータ実行可能命令は、特殊な機能を果たすまたは特有の抽象データ型を実行する、ルーチン、プログラム、
オブジェクト、コンポーネント、データ構造、手続(手順)、モジュール、関数、その他を含むことができる。方法400はまた、通信ネットワークを介してリンクしたリモート処理デバイスによって機能が実行される、分散コンピューティング環境で行われ得る。分散コンピューティング環境において、コンピュータ実行可能命令は、メモリストレージデバイスを含むローカル及びリモートコンピュータストレージ媒体に格納され得る。
開示された方法400における順序は、制限することを意図しておらず、開示された方法の幾つかのブロックは、方法400または代替方法を実行するいかなる組み合わせも可能である。さらに、個々のブロックは、ここに記載された要旨の精神と範囲から逸脱することなく、方法400から削除され得る。さらに、上記方法は、いかなる適切なハードウェア、ソフトウェア、ファームウェア、あるいはそれらの組み合わせで実施されることが可能である。しかしながら、説明を簡単にするために、以下に記載の実施形態において、方法400は、上記システム202により実現されると考えられ得る。
ブロック402において、単変量時系列信号はデータソースから受け取られ得る。単変量時系列信号は、複数のデータセットを含むことができる。一実施において、単変量時系列信号はプロセッサ210により受け取られ得る。一実施において、単変量時系列信号はプロセッサ210により受け取られ得る。
ブロック404において、複数のデータセットについてデータセットの標準偏差が計算され得る。一実施において、標準偏差は、プロセッサ210によって計算され得る。
ブロック406で、複数のデータセットの最適サンプルブロックサイズは、上記標準偏差を用いて計算され得る。一実施において、上記最適サンプルブロックサイズは、プロセッサ210によって計算され得る。
ブロック408で、データセットの臨界サンプルサイズが計算され得る。臨界サンプルサイズは、標準偏差、単変量時系列データエレメントの数、所定の正確度、及び精確度、に基づいて計算され得る。一実施において、上記臨界サンプルサイズは、プロセッサ210によって計算され得る。
ブロック410で、データセットの最適使用可能ブロックサイズが決定され得る。一実施において、データセットの最適使用可能ブロックサイズは、プロセッサ210によって決定され得る。
ブロック412で、複数のデータセットは、最適使用可能ブロックサイズに基づき、ブロックにセグメント化され得る。一実施において、複数のデータセットは、プロセッサ210によって、ブロックにセグメント化され得る。
ブロック414で、外れ値は、ブロック上の外れ値検出技術を実行することにより、検出され得る。一実施において、外れ値は、プロセッサ210によって、検出され得る。
単変量時系列信号における外れ値を検出する方法及びシステムの実施は、構造的特徴及び/又は方法に特有の言語で説明されてきたが、当然のことながら、添付のクレームは、説明される具体的な特徴または方法に必ずしも限定されない。むしろ、具体的な特徴及び方法は、単変量時系列信号における外れ値の検出の実施の例として開示される。上述の典型的な実施形態は、いくつかの利点を提供する。開示内容面について実行することは必要でないが、以下の特徴によって提供される利点を含むことができる。
一部の実施形態は、システム及び方法が、単変量時系列信号の不安定な内容を特定するため単変量時系列信号における外れ値を検出することを可能にする。
一部の実施形態は、さらにシステム及び方法が、プライバシーの測定、及び不正検出のため単変量時系列信号の不安定な内容を利用することを可能にする。
一部の実施形態は、システム及び方法が、単変量時系列信号における外れ値を検出するため最適オペレーティングポイントを導き出すことを可能にする。
一部の実施形態は、システム及び方法が、最適オペレーティングポイントに基づいて効率性及び有効性を達成することを可能にする。
一部の実施形態は、システム及び方法が、結果の正確度に僅かな損害を伴う、教師なし外れ値検出方法の計算性能を向上させることを可能にする。

Claims (11)

  1. 単変量時系列信号に対してリアルタイムで外れ値を検出する方法であって、
    プロセッサ(210)によって、データソースから単変量時系列信号を受け取るステップであって、単変量時系列信号は複数のデータセットを含み、該データセットのそれぞれのデータセットはN個の単変量時系列データエレメントを含む、ステップと、
    プロセッサ(210)によって、複数のデータセットについてデータセットの標準偏差(σ)を計算するステップと、
    プロセッサ(210)によって、上記標準偏差(σ)を利用することで、データセットの最適サンプルブロックサイズ(n)を計算するステップと、
    プロセッサ(210)によって、上記標準偏差(σ)、上記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づいて、データセットの臨界サンプルサイズ(ncritical)を計算するステップと、
    プロセッサ(210)によって、データセットの最適使用可能ブロックサイズ(noperational)を決定するステップと、
    プロセッサ(210)によって、前記複数のデータセットを、前記最適使用可能ブロックサイズ(noperational)に基づいたブロックにセグメント化するステップであって、各ブロックは、前記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むステップと、
    プロセッサ(210)によって、前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するステップと、
    を含む方法。
  2. 前記最適サンプルブロックサイズ(n)は、次式を用いて計算される、請求項1の方法。
  3. 前記臨界サンプルサイズ(ncritical)は、次式を用いて計算される、請求項1の方法。
  4. 前記最適使用可能ブロックサイズ(noperational)は、次式を用いて決定される、請求項1の方法。
  5. 前記外れ値検出技術は、ロスナーフィルタリング技術及びハンペルフィルタリング技術と同等の教師なし技術を含む、請求項1の方法。
  6. 単変量時系列信号に対してリアルタイムで外れ値を検出するシステムであって、
    プロセッサ(210)と、
    該プロセッサと結合しているメモリ(212)と、を含み、前記プロセッサは、前記メモリに格納されたプログラム命令を実行するために、
    データソースから単変量時系列信号を受け取ることであり、該単変量時系列信号は複数のデータセットを含み、複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含むこと、
    複数のデータセットについてデータセットの標準偏差(σ)を計算すること、
    前記標準偏差(σ)を利用することにより、データセットの最適サンプルブロックサイズ(n)を計算すること、
    前記標準偏差(σ)、前記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づくデータセットの臨界サンプルサイズ(ncritical)を計算すること、
    データセットの最適使用可能ブロックサイズ(noperational)を決定すること、
    前記複数のデータセットを、前記最適使用可能ブロックサイズ(noperational)に基づいたブロックにセグメント化することであり、各ブロックは、前記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含むこと、及び
    前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出すること、が可能である、
    システム。
  7. 前記最適サンプルブロックサイズ(n)は、次式を用いて計算される、請求項6のシステム。
  8. 前記臨界サンプルサイズ(ncritical)は、次式を用いて計算される、請求項6のシステム。
  9. 前記最適使用可能なブロックサイズ(noperational)は、次式を用いて決定される、請求項6のシステム。
  10. 前記外れ値検出技術は、ロスナーフィルタリング技術及びハンペルフィルタリング技術と同等の教師なし技術を含む、請求項6のシステム。
  11. 単変量時系列信号に対してリアルタイムで外れ値を検出するコンピュータ装置で実行可能なプログラムを具現化する非一時的なコンピュータ可読媒体であって、該プログラムは、
    データソースから単変量時系列信号を受け取るプログラムコードであって、前記単変量時系列信号は、複数のデータセットを含み、複数のデータセットのそれぞれのデータセットは、N個の単変量時系列データエレメントを含む、プログラムコードと、
    複数のデータセットについてデータセットの標準偏差(σ)を計算するためのプログラムコードと、
    前記標準偏差(σ)を利用することにより、データセットの最適サンプルブロックサイズ(n)を計算するためのプログラムコードと、
    前記標準偏差(σ)、前記N個の単変量時系列データエレメント、所定の正確度(δ)及び結果(アウトカム)の精確度(1−ε)に基づくデータセットの臨界サンプルサイズ(ncritical)を計算するためのプログラムコードと、
    データセットの最適使用可能ブロックサイズ(noperational)を決定するためのプログラムコードと、
    前記複数のデータセットを、前記最適使用可能ブロックサイズ(noperational)に基づいたブロックにセグメント化するためのプログラムコードであって、各ブロックは、上記N個の単変量時系列データエレメントのうちのN/noperationalデータエレメントを含む、プログラムコードと、
    前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するためのプログラムコードと、
    を含む、非一時的なコンピュータ可読媒体。
JP2016121204A 2015-06-17 2016-06-17 単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法 Active JP6611677B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN2324/MUM/2015 2015-06-17
IN2324MU2015 2015-06-17

Publications (2)

Publication Number Publication Date
JP2017010552A true JP2017010552A (ja) 2017-01-12
JP6611677B2 JP6611677B2 (ja) 2019-11-27

Family

ID=56178264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016121204A Active JP6611677B2 (ja) 2015-06-17 2016-06-17 単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法

Country Status (5)

Country Link
US (1) US10733264B2 (ja)
EP (1) EP3107000A3 (ja)
JP (1) JP6611677B2 (ja)
CN (1) CN106257438B (ja)
AU (1) AU2016204093B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452665B2 (en) * 2017-06-20 2019-10-22 Vmware, Inc. Methods and systems to reduce time series data and detect outliers
CN108008176B (zh) * 2017-11-22 2019-11-12 福州大学 一种光伏阵列实时状态监测与故障定位系统
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
FR3108186B1 (fr) * 2020-03-16 2022-03-25 Thales Sa Procédé de consolidation d'un ensemble de données pour de la maintenance prédictive et dispositif associé
CN115165553B (zh) * 2022-06-10 2023-05-30 中复神鹰碳纤维股份有限公司 一种碳纤维复丝拉伸强度测试数值的取舍方法
CN115496424B (zh) * 2022-11-09 2023-04-28 广东能创科技有限公司 一种甲醇制氢工艺安全管理方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395250B1 (en) * 2000-10-11 2008-07-01 International Business Machines Corporation Methods and apparatus for outlier detection for high dimensional data sets
US7277843B1 (en) 2002-07-15 2007-10-02 Network Physics Method for real-time auto-detection of outliers
US7904279B2 (en) 2004-04-02 2011-03-08 Test Advantage, Inc. Methods and apparatus for data analysis
US7917338B2 (en) * 2007-01-08 2011-03-29 International Business Machines Corporation Determining a window size for outlier detection
US8140301B2 (en) 2007-04-30 2012-03-20 International Business Machines Corporation Method and system for causal modeling and outlier detection
US8041597B2 (en) 2008-08-08 2011-10-18 Fair Isaac Corporation Self-calibrating outlier model and adaptive cascade model for fraud detection
US9069725B2 (en) * 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US8914317B2 (en) * 2012-06-28 2014-12-16 International Business Machines Corporation Detecting anomalies in real-time in multiple time series data with automated thresholding
US9355071B2 (en) * 2013-03-01 2016-05-31 Sas Institute Inc. System and method for Multivariate outlier detection
IN2014MU00871A (ja) * 2014-03-14 2015-09-25 Tata Consultancy Services Ltd
US10915602B2 (en) * 2015-03-18 2021-02-09 Micro Focus Llc Automatic detection of outliers in multivariate data
US10713683B2 (en) * 2015-06-09 2020-07-14 Oath Inc. Outlier data detection
EP3136297A1 (en) * 2015-08-27 2017-03-01 Tata Consultancy Services Limited System and method for determining information and outliers from sensor data

Also Published As

Publication number Publication date
US20160371228A1 (en) 2016-12-22
EP3107000A2 (en) 2016-12-21
CN106257438B (zh) 2019-03-29
AU2016204093B2 (en) 2018-01-25
AU2016204093A1 (en) 2017-01-12
CN106257438A (zh) 2016-12-28
EP3107000A3 (en) 2016-12-28
JP6611677B2 (ja) 2019-11-27
US10733264B2 (en) 2020-08-04

Similar Documents

Publication Publication Date Title
JP6611677B2 (ja) 単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法
US10743819B2 (en) System and method for determining information and outliers from sensor data
US20180136994A1 (en) Fast Automated Detection of Seasonal Patterns in Time Series Data Without Prior Knowledge of Seasonal Periodicity
CN111971942B (zh) 季节性数据的异常检测和处理
US20150269050A1 (en) Unsupervised anomaly detection for arbitrary time series
US10938847B2 (en) Automated determination of relative asset importance in an enterprise system
US20170206462A1 (en) Method and apparatus for detecting abnormal contention on a computer system
US8751414B2 (en) Identifying abnormalities in resource usage
US10268836B2 (en) System and method for detecting sensitivity content in time-series data
US20180121275A1 (en) Method and apparatus for detecting and managing faults
US20200233774A1 (en) System and Method for Efficient Estimation of High Cardinality Time-Series Models
WO2017018377A1 (ja) 分析方法、分析装置、および分析プログラム
US11567797B2 (en) Cloud application scaler
JP5003566B2 (ja) ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム
Hong et al. DAC‐Hmm: detecting anomaly in cloud systems with hidden Markov models
WO2017072854A1 (ja) 監視装置、監視システムおよび監視方法
CN117033146B (zh) 指定共识合约执行进程的识别方法、装置、设备及介质
JP2018073241A (ja) 検知装置、検知方法および検知プログラム
WO2020234977A1 (ja) 情報処理装置、作成方法および作成プログラム
US20150149829A1 (en) Failure detecting apparatus and failure detecting method
CN107665258B (zh) 文件系统可用性确定方法及装置
JP7323235B2 (ja) 画像追跡装置、画像追跡方法、及びプログラム
CN108255669A (zh) 监视计算机基础设施中执行的应用的批处理的方法和系统
JP2018190281A (ja) データ処理装置、データ処理方法およびプログラム
US11888718B2 (en) Detecting behavioral change of IoT devices using novelty detection based behavior traffic modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180829

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180918

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20181109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191029

R150 Certificate of patent or registration of utility model

Ref document number: 6611677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250