JP2017010552A

JP2017010552A - 単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法

Info

Publication number: JP2017010552A
Application number: JP2016121204A
Authority: JP
Inventors: アリジットウキル; Ukil Arijit; ソマバンドヨパディアイ; Bandyopadhyay Soma; アルパンパル; Arpan Pal
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2015-06-17
Filing date: 2016-06-17
Publication date: 2017-01-12
Anticipated expiration: 2036-06-17
Also published as: US20160371228A1; EP3107000A2; CN106257438B; AU2016204093B2; AU2016204093A1; CN106257438A; EP3107000A3; JP6611677B2; US10733264B2

Abstract

【課題】単変量時系列信号に対してリアルタイムで外れ値を検出する。
【解決手段】システムは、データソースから、複数のデータセットを含む単変量時系列信号を受け取る。システムは、複数のデータセットについてデータセットの標準偏差を計算する。その後、システムは、データセットの最適サンプルブロックサイズ及びデータセットの臨界サンプルサイズを計算する。さらに、システムは、データセットの最適使用可能ブロックサイズを決定する。システムは、上記複数のデータセットを、最適使用可能ブロックサイズに基づいたブロックにセグメント化する。システムは、上記各ブロック上で外れ値検出技術を実行することによって、外れ値を検出し、これによって、外れ値検出方法の結果の精確度及び正確度への影響を最小限にすると同時に、改良された実行時間を確保する。
【選択図】図４

Description

［関連出願の相互参照及び優先権］
本特許出願は、２０１５年６月１７日に出願されたインド特許出願２３２４／ＭＵＭ／２０１５号に対して優先権が主張され、その内容は、参照により本書に援用される。

本書に記述されている主題（発明の対象）は、概して、外れ値、言い換えれば、時系列信号の誤りデータポイント、のリアルタイム検出に関する。

物理的パラメータをモニタするのに用いられるセンサーによって大量のデータが生成される。データはその後、センサーの配備の領域に関連する有意イベントを特定するために用いられる。一例を挙げると、イリゲーションパラメータをモニタする分野でセンサーが展開（配備）され得、このようなセンサーは、ワイヤレスセンサーネットワーク（ＷＳＮ）またはジェネリックセンサーネットワークを形成する。センサーは、ＷＳＮ中のノードとして特定され得る。ＷＳＮ中のノードは、データ、すなわちイリゲーションパラメータを、セントラルノード又はサーバーに連続的に送信する。従って、サーバーにより受け取られるデータ量は膨大で、有意イベントの決定に多くの処理が必要になる可能性がある。他の例では、センサーは、人の心臓活動をモニタするために用いられ得る。心臓活動に対応するデータはその後、心奇形やさらなる医療診断を特定するために用いられる。従って、結果を導き出すために処理される大量のデータが必要である。

処理に用いられる大量のデータは、外れ値の同定により削減され得る。外れ値は、大量のデータ中に存在する有意イベントを特定するのに有用である。正確な外れ値の検出技術は、大量の処理用のデータのサンプルを必要とする。従って、大量のサンプルの処理は、実行される多くの計算を必要とし、それゆえ、高度の実行時間を使う。計算数を削減するため、より少数のサンプルが処理のために用いられ得る。しかし、サンプル数の削減と同時に、外れ値の検出は、フォールスアラーム（誤報）、すなわち、有意イベントを指し示す外れ値の誤った同定につながる可能性がある。フォールスアラーム数の増加は正確度の低下のことを指している。

図１を参照して、正確度と実行時間の関係のグラフ表示について説明する。サンプルサイズ、つまり、外れ値を検出する方法で使われるサンプル数は、その方法と関連している正確度及び実行時間に影響を与える。実行時間、つまり、サンプル数を分析するために必要な時間は、サンプルサイズの増加とともに増えていく。同時に、正確度、言い換えれば、フォールスアラームの発生率はサンプルサイズの増加とともに低減する。図１はまた、最適オペレーティングポイントを示す。最適オペレーティングポイントは、フォールスアラーム率が実行時間の最適値とともに最小となるようなサンプルサイズを指し示す。

本発明の要旨は、単変量時系列信号に対してリアルタイムで外れ値を検出するためのシステム及び方法と関連した態様を導入するために提供され、下記の詳細な説明においてさらに説明される。本発明の要旨は、主張した主題（発明の対象）の本質的特徴を確認することを目的としているのではなく、主張した主題の範囲の決定または制限に使用されるものでもない。

一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出する方法が開示される。この方法は、データソースから単変量時系列信号を受け取ることを含むことができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含むことができる。上記方法は、複数のデータセットについてデータセットの標準偏差（σ）を計算することをさらに含むことができる。上記方法は、上記標準偏差（σ）を利用することで、データセットの最適サンプルブロックサイズ（ｎ）を計算することをさらに含むことができる。上記方法は、上記標準偏差（σ）、上記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づいて、データセットの臨界サンプルサイズ（ｎ_critical）を計算することをさらに含むことができる。上記方法はまた、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定することを含むことができる。各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むことができる。上記方法は、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出することをさらに含むことができる。

一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出するシステムが開示される。このシステムは、プロセッサ及び該プロセッサと結合しているメモリを含み、メモリに格納されたプログラム命令を実行する。プロセッサは、データソースから単変量時系列信号を受け取ることができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含むことができる。上記プロセッサはさらに、複数のデータセットについてデータセットの標準偏差（σ）を計算することができる。上記プロセッサはさらに、上記標準偏差（σ）を利用することにより、データセットの最適サンプルブロックサイズ（ｎ）を計算することができる。上記プロセッサは、上記標準偏差（σ）、上記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づくデータセットの臨界サンプルサイズ（ｎ_critical）を計算することができる。上記プロセッサはさらに、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定することができる。上記プロセッサはさらに、上記複数のデータセットを、上記最適使用可能ブロックサイズ（ｎ_operational）に基づいたブロックにセグメント化することができる。各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むことができる。上記プロセッサは、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出することができる。

一実施において、単変量時系列信号に対してリアルタイムで外れ値を検出するコンピュータ装置で実行可能なプログラムを具現化する非一時的なコンピュータ可読媒体が開示される。上記プログラムは、データソースから単変量時系列信号を受け取るプログラムコードを含むことができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含むことができる。上記プログラムは、複数のデータセットについてデータセットの標準偏差（σ）を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、上記標準偏差（σ）を利用することにより、データセットの最適サンプルブロックサイズ（ｎ）を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、上記標準偏差（σ）、上記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づくデータセットの臨界サンプルサイズ（ｎ_critical）を計算するためのプログラムコードをさらに含むことができる。上記プログラムは、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定するためのプログラムコードをさらに含むことができる。上記プログラムは、上記複数のデータセットを、上記最適使用可能ブロックサイズ（ｎ_operational）に基づいたブロックにセグメント化するためのプログラムコードをさらに含むことができる。各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むことができる。上記プログラムは、上記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するためのプログラムコードをさらに含むことができる。

詳細な説明は添付図面に関連して記述される。図において、参照符号で最初に出てくる左端の数字は、図を特定するものである。同等の特徴（特性）や構成要素を指し示すために、図面を通して同じ番号が用いられる。
従来技術における周知のサンプルサイズに関する正確度と実行時間との関係についてのグラフ表示図である。本発明の対象の一実施例による、単変量時系列信号における外れ値の検出のためのシステムのネットワーク実行を示す図である。本発明の対象の一実施例による、計算待ち時間とブロックサイズとの関係についての典型的なグラフ表示図である。本発明の対象の一実施例による、精確度とブロックサイズとの関係についての典型的なグラフ表示図である。本発明の対象の一実施例による、単変量時系列信号において外れ値を検出する方法を説明するフローチャートである。

本発明の主題における、単変量時系列信号に対してリアルタイムで外れ値を検出するためのシステム及び方法を記載する。
上記システムは、データソースから単変量時系列信号を受け取ることができる。単変量時系列信号は、複数のデータセットを含むことができる。複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含むことができる。上記システムは、複数のデータセットについてデータセットの標準偏差（σ）を計算することができる。上記システムは、上記標準偏差（σ）を利用することで、データセットの最適サンプルブロックサイズ（ｎ）及びデータセットの臨界サンプルサイズ（ｎ_critical）をさらに計算することができる。さらに、上記システムは、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定することができる。さらに、上記システムは、上記複数のデータセットを、上記最適使用可能ブロックサイズに基づいたブロックにセグメント化することができる。各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むことができる。続いて上記システムは、上記各ブロック上で外れ値検出技術を実行することによって、外れ値を検出することができる。このように、上記システムは、上述した方法を用いて、単変量時系列信号に対してリアルタイムで外れ値を検出することができる。

記載された、単変量時系列信号に対してリアルタイムで外れ値を検出するシステム及び方法は、あらゆるコンピュータシステム、環境及び／又は設定において実施され得る態様とともに、次のような典型的なシステムに照らして実施形態が記載されている。

図２に関し、本発明の対象の実施態様に従って、単変量時系列信号に対してリアルタイムで外れ値を検出するシステム２０２が示される。本発明の主題は、システム２０２がコンピュータ上で実施されることを考慮して説明されるが、当然のことながら、システム２０２はまた、これらに限定されることはないが、スマートフォン、タブレット、ノートパッド、個人用ディジタル補助端末、携帯用デバイス、ラップトップコンピュータ、ノートブック、ワークステーション、メインフレームコンピュータ、サーバー、ネットワークサーバーを含む様々なコンピュータシステムで実施し得る。一実施形態において、システム２０２は、クラウドベース環境で実施し得る。当然のことながら、システム２０２は、一つ以上のユーザデバイス２０４−１，２０４−２…２０４−Ｎ（これらをまとめて以下、ユーザデバイス２０４またはユーザデバイス２０４内のアプリケーションと称する）を介して多数のユーザによってアクセス可能である。ユーザデバイス２０４の例としては、限定されないが、ウェブカメラ付きポータブルコンピュータ、カメラ付き個人用ディジタル補助端末、カメラ付き携帯用デバイス、及びディジタルカメラを含むことができる。ユーザデバイス２０４は、ネットワーク２０６を通じてシステム２０２と通信的に結合される。

一つの実施において、ネットワーク２０６は、無線ネットワーク、有線ネットワーク、またはそれらの組み合わせであり得る。ネットワーク２０６は、例えばイントラネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、及び同類のもの等、様々なネットワークのタイプの一つとして実施することができる。ネットワーク２０６は、専用ネットワーク、共有ネットワークのどちらかであり得る。共有ネットワークは、互いとコミュニケーションをとるために様々なプロトコル、例えば、ハイパーテキストトランスファープロトコル（ＨＴＴＰ）、トランスミッションプロトコル、通信制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ワイヤレスアプリケーションプロトコル（ＷＡＰ）などを用いる、様々な種類のネットワークとの関連を表す。ネットワーク２０６はさらに、、ルーター、ブリッジ、サーバー、コンピュータデバイス、ストレージデバイス等を含む様々なネットワークデバイスを含むことができる。

一実施形態において、図２を用いて説明したように、システム２０２は、少なくとも一つのプロセッサ２１０、メモリ２１２、及び入出力（Ｉ／Ｏ）インターフェース２１４を含むことができる。さらに、少なくとも一つのプロセッサ２１０は、一つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、ディジタルシグナルプロセッサ、中央処理装置、状態機械、論理回路、及び／又は演算命令に基づいて信号を操作するあらゆるデバイスとして実行され得る。少なくとも一つのプロセッサ２１０は、幾つかある機能の中で特に、メモリ２１２に保存されたコンピュータ可読命令を取り出し、実行するように構成されている。

Ｉ／Ｏインターフェース２１４は、例えばウェブインターフェース、グラフィカルユーザインターフェースなど様々な種類のソフトウェア、ハードウェアインターフェースを含むことができる。Ｉ／Ｏインターフェース２１４は、システム２０２に、ユーザと直接に情報のやり取りをすることを許可し得る。さらに、Ｉ／Ｏインターフェース２１４は、システム２０２に、ウェブサーバや外部データサーバー（図示せず）などの他のコンピュータデバイスと通信することを可能にし得る。Ｉ／Ｏインターフェース２１４は、例えばＬＡＮ、ケーブル等の有線ネットワーク、ＷＬＡＮ、セルラー方式または衛星による通信等の無線ネットワークの多種多様なネットワーク及びプロトコルの種類の範囲内で、多数のコミュニケーションを容易にすることができる。

メモリ２１２は、当技術分野で知られている、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）等の揮発性メモリ及び／又は、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスク、磁気テープ等の不揮発性メモリ等のあらゆるコンピュータ可読媒体を含むことができる。

一実施形態において、システム２０２は、分析されるべきサンプルの分布内に存在するバイアスを除去するための大きなサンプルサイズを必要とし得る。大きなサンプルサイズの使用は、実行時間の増加を引き起こす場合があり、それゆえ効率の減少に至る。一つの事例において、システム２０２は、カートシス（尖度）パターンを準備するためにデータブロックの尖度を決定することができる。尖度の大きいパターンの場合、システム２０２は、ロスナーフィルタリング技術を使うことができる他、ハンペルフィルタリング技術を使うことができる。さらに、正確度を良くするために、システム２０２は、フォールスアラームを最小限にする必要がある。フォールスアラームは、マスキング効果及びスワンピング効果を含み得る。一つの事例において、システム２０２は、マスキング効果を最小限にするためにハンペルフィルタリング技術を使うことができ、スワンピング効果を最小限にするためにロスナーフィルタリング技術を使うことができる

一つの事例において、Ｎは、単変量時系列信号のデータセットそれぞれに存在する単変量時系列データエレメントの数を示すことができ、ｎは、最適サンプルブロックサイズを示すことができる。マスキング効果アッテネーターに対する実行時間は、τ_ｍｎとされ、スワンプリング効果アッテネーターに対する実行時間は、τ_ｓｎとされる。一般にハンペルフィルタリング技術は、ロスナーフィルタリング技術よりも少ない計算で行うので、τ_ｍｎ≪τ_ｓｎである。ハンペルフィルタリング技術の計算の複雑性は、Ο（Ｎ）、ロスナーフィルタリング技術の計算の複雑性は、Ο（Ｎ^２）であり得る。

一つの実施において、システム２０２は、データソースから単変量時系列信号を受け取ることができる。単変量の期間は、式、方程式、及び単一変数を有する関数を参照することができる。データソースはメモリ２１２であり得、センサーまたはデバイスでキャプチャーされた保存データを有する。上記センサーまたはデバイスは、スマートメータ、加速度計、脳波図（ＥＥＧ）、心電計（ＥＣＧ）、または他のデバイスを含むことができる。一事例において、単変量時系列信号は、複数のデータセットを含むことができる。さらに、複数のデータセットのうちの各データセットはＮ個の単変量時系列データエレメントを含む。

一実施形態において、システム２０２は、単変量時系列信号に関連しているアプリケーションの臨界の時間を決定することができる。一つの事例において、臨界の時間は、リアルタイムまたは疑似的なリアルタイムであり得る。かかる事例中、システム２０２は、複数のデータセットについてデータセットの標準偏差（σ）を計算することができる。上記システムは、周知の統計的技術を用いて標準偏差（σ）を計算することができる。

標準偏差（σ）の計算において、システム２０２は、データセットの最適サンプルブロックサイズを計算することができる。一つの事例において、システム２０２は、下記のような式１を用いて最適サンプルブロックサイズ（ｎ）を計算することができる。

上記式１において、εは精確度損失を示し、δは正確度を示す。さらに、εとδは、アプリケーションに依存する場合がある。

サンプルブロックサイズ（ｎ）の計算後、システム２０２は、上記標準偏差（σ）、上記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づくデータセットの臨界サンプルサイズ（ｎ_critical）を計算することができる。一つの事例において、システム２０２は、下記のような式２を用いて、臨界サンプルサイズ（ｎ_critical）を計算することができる。

臨界サンプルサイズ（ｎ_critical）の計算後、システム２０２は、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定することができる。一つの事例において、システム２０２は、下記に示す式３を用いて、最適使用可能ブロックサイズ（ｎ_operational）を決定することができる。

最適ブロックサイズ（ｎ_operational）の決定後、システム２０２は、最適使用可能ブロックサイズ（ｎ_operational）に基づき、複数のデータセットをブロックにセグメント化することができる。各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むことができる。続いてシステム２０２は、Ｎ／ｎ_operationalデータエレメントを含む各ブロック上で外れ値検出技術を実行することによって、外れ値を検出することができる。一つの事例において、システム２０２は、外れ値の検出に対し、ロスナーフィルタリング技術及びハンペルフィルタリング技術のような教師なし技術を使うことができる。

上記記載についてさらに説明するために、一例が提供される。一つの事例において、スマートメータのデータは、外れ値の検出ために分析され得る。精確度（１−ε）の値は０．８とされ得る。正確度（δ）の値は０．８とされ得る。一つの事例において、１２*１０^３は、言い換えれば、サンプリングする単変量時系列データエレメント（Ｎ）の数である。システム２０２によって計算される標準偏差（σ）は、３００であり得る。システム２０２は、精確度（１−ε）、正確度（δ）、単変量時系列データエレメントの数Ｎ、及び標準偏差（σ）に基づいた上記式２を用いて、臨界サンプルサイズ（ｎ_critical）を決定することができる。この場合の期間、システム２０２によって決定された臨界サンプルサイズ（ｎ_critical）は、１００とすることができる。従って、システム２０２は、外れ値を検出するために１００の単変量時系列データブロックの分析を１２０回行うことが必要であり得る。ある事例における外れ値検出技術は、ロスナーフィルタリング技術を使うことができ、総使用時間は、１２０ * Ｏ（１０^４）で算出される。もう一つの例では、ロスナーフィルタリングが全体のサンプルにおいて使用される間、計算時間は、Ｏ（１４４ * １０^１６）である。従って、システム２０２は、従来型の時間性能（Ｏ（１４４ * １０^１６））に比べてよりよい実行時間性能（１２０ * Ｏ（１０^４））を提供する。

図３ａを参照すると、計算待ち時間とブロックサイズとの関係についての典型的なグラフ表示について説明されている。図３ａは、サンプルサイズが４００００である時、計算待ち時間の最適値を示す実験データを例示する。この場合における４００００のサンプルサイズは、最適オペレーティングポイントとして特定される。図３ｂを参照すると、精確度とブロックサイズとの関係についての典型的なグラフ表示が説明される。図３ｂは、サンプルサイズが４００００である中で精確度の最高値を示す実験データを説明する。従って、システム２０２は、サンプルサイズが４００００である中で、言い換えれば最適オペレーティングポイントにおいて、精確度の最大値に達する。

一実施形態において、システム２０２は、最適オペレーティングポイントで動作することにより、効率性及び有効性を同時に達成することができる。システム２０２は、単変量時系列信号の不安定な内容を特定するため、外れ値を更に用いることができる。システムは、プライバシーの測定、不正検出及び他のアプリケーションに対し、上記不安定な内容を更に利用することができる。

ここで図４を参照すると、本発明対象の実施形態に従って、単変量時系列信号に対してリアルタイムで外れ値を検出する方法４００が示されている。方法４００は、コンピュータ実行可能命令との一般の関係において記載され得る。一般に、コンピュータ実行可能命令は、特殊な機能を果たすまたは特有の抽象データ型を実行する、ルーチン、プログラム、
オブジェクト、コンポーネント、データ構造、手続（手順）、モジュール、関数、その他を含むことができる。方法４００はまた、通信ネットワークを介してリンクしたリモート処理デバイスによって機能が実行される、分散コンピューティング環境で行われ得る。分散コンピューティング環境において、コンピュータ実行可能命令は、メモリストレージデバイスを含むローカル及びリモートコンピュータストレージ媒体に格納され得る。

開示された方法４００における順序は、制限することを意図しておらず、開示された方法の幾つかのブロックは、方法４００または代替方法を実行するいかなる組み合わせも可能である。さらに、個々のブロックは、ここに記載された要旨の精神と範囲から逸脱することなく、方法４００から削除され得る。さらに、上記方法は、いかなる適切なハードウェア、ソフトウェア、ファームウェア、あるいはそれらの組み合わせで実施されることが可能である。しかしながら、説明を簡単にするために、以下に記載の実施形態において、方法４００は、上記システム２０２により実現されると考えられ得る。

ブロック４０２において、単変量時系列信号はデータソースから受け取られ得る。単変量時系列信号は、複数のデータセットを含むことができる。一実施において、単変量時系列信号はプロセッサ２１０により受け取られ得る。一実施において、単変量時系列信号はプロセッサ２１０により受け取られ得る。

ブロック４０４において、複数のデータセットについてデータセットの標準偏差が計算され得る。一実施において、標準偏差は、プロセッサ２１０によって計算され得る。

ブロック４０６で、複数のデータセットの最適サンプルブロックサイズは、上記標準偏差を用いて計算され得る。一実施において、上記最適サンプルブロックサイズは、プロセッサ２１０によって計算され得る。

ブロック４０８で、データセットの臨界サンプルサイズが計算され得る。臨界サンプルサイズは、標準偏差、単変量時系列データエレメントの数、所定の正確度、及び精確度、に基づいて計算され得る。一実施において、上記臨界サンプルサイズは、プロセッサ２１０によって計算され得る。

ブロック４１０で、データセットの最適使用可能ブロックサイズが決定され得る。一実施において、データセットの最適使用可能ブロックサイズは、プロセッサ２１０によって決定され得る。

ブロック４１２で、複数のデータセットは、最適使用可能ブロックサイズに基づき、ブロックにセグメント化され得る。一実施において、複数のデータセットは、プロセッサ２１０によって、ブロックにセグメント化され得る。

ブロック４１４で、外れ値は、ブロック上の外れ値検出技術を実行することにより、検出され得る。一実施において、外れ値は、プロセッサ２１０によって、検出され得る。

単変量時系列信号における外れ値を検出する方法及びシステムの実施は、構造的特徴及び／又は方法に特有の言語で説明されてきたが、当然のことながら、添付のクレームは、説明される具体的な特徴または方法に必ずしも限定されない。むしろ、具体的な特徴及び方法は、単変量時系列信号における外れ値の検出の実施の例として開示される。上述の典型的な実施形態は、いくつかの利点を提供する。開示内容面について実行することは必要でないが、以下の特徴によって提供される利点を含むことができる。

一部の実施形態は、システム及び方法が、単変量時系列信号の不安定な内容を特定するため単変量時系列信号における外れ値を検出することを可能にする。

一部の実施形態は、さらにシステム及び方法が、プライバシーの測定、及び不正検出のため単変量時系列信号の不安定な内容を利用することを可能にする。

一部の実施形態は、システム及び方法が、単変量時系列信号における外れ値を検出するため最適オペレーティングポイントを導き出すことを可能にする。

一部の実施形態は、システム及び方法が、最適オペレーティングポイントに基づいて効率性及び有効性を達成することを可能にする。

一部の実施形態は、システム及び方法が、結果の正確度に僅かな損害を伴う、教師なし外れ値検出方法の計算性能を向上させることを可能にする。

Claims

単変量時系列信号に対してリアルタイムで外れ値を検出する方法であって、
プロセッサ（２１０）によって、データソースから単変量時系列信号を受け取るステップであって、単変量時系列信号は複数のデータセットを含み、該データセットのそれぞれのデータセットはＮ個の単変量時系列データエレメントを含む、ステップと、
プロセッサ（２１０）によって、複数のデータセットについてデータセットの標準偏差（σ）を計算するステップと、
プロセッサ（２１０）によって、上記標準偏差（σ）を利用することで、データセットの最適サンプルブロックサイズ（ｎ）を計算するステップと、
プロセッサ（２１０）によって、上記標準偏差（σ）、上記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づいて、データセットの臨界サンプルサイズ（ｎ_critical）を計算するステップと、
プロセッサ（２１０）によって、データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定するステップと、
プロセッサ（２１０）によって、前記複数のデータセットを、前記最適使用可能ブロックサイズ（ｎ_operational）に基づいたブロックにセグメント化するステップであって、各ブロックは、前記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むステップと、
プロセッサ（２１０）によって、前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するステップと、
を含む方法。
前記最適サンプルブロックサイズ（ｎ）は、次式を用いて計算される、請求項１の方法。
前記臨界サンプルサイズ（ｎ_critical）は、次式を用いて計算される、請求項１の方法。
前記最適使用可能ブロックサイズ（ｎ_operational）は、次式を用いて決定される、請求項１の方法。
前記外れ値検出技術は、ロスナーフィルタリング技術及びハンペルフィルタリング技術と同等の教師なし技術を含む、請求項１の方法。
単変量時系列信号に対してリアルタイムで外れ値を検出するシステムであって、
プロセッサ（２１０）と、
該プロセッサと結合しているメモリ（２１２）と、を含み、前記プロセッサは、前記メモリに格納されたプログラム命令を実行するために、
データソースから単変量時系列信号を受け取ることであり、該単変量時系列信号は複数のデータセットを含み、複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含むこと、
複数のデータセットについてデータセットの標準偏差（σ）を計算すること、
前記標準偏差（σ）を利用することにより、データセットの最適サンプルブロックサイズ（ｎ）を計算すること、
前記標準偏差（σ）、前記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づくデータセットの臨界サンプルサイズ（ｎ_critical）を計算すること、
データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定すること、
前記複数のデータセットを、前記最適使用可能ブロックサイズ（ｎ_operational）に基づいたブロックにセグメント化することであり、各ブロックは、前記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含むこと、及び
前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出すること、が可能である、
システム。
前記最適サンプルブロックサイズ（ｎ）は、次式を用いて計算される、請求項６のシステム。
前記臨界サンプルサイズ（ｎ_critical）は、次式を用いて計算される、請求項６のシステム。
前記最適使用可能なブロックサイズ（ｎ_operational）は、次式を用いて決定される、請求項６のシステム。
前記外れ値検出技術は、ロスナーフィルタリング技術及びハンペルフィルタリング技術と同等の教師なし技術を含む、請求項６のシステム。
単変量時系列信号に対してリアルタイムで外れ値を検出するコンピュータ装置で実行可能なプログラムを具現化する非一時的なコンピュータ可読媒体であって、該プログラムは、
データソースから単変量時系列信号を受け取るプログラムコードであって、前記単変量時系列信号は、複数のデータセットを含み、複数のデータセットのそれぞれのデータセットは、Ｎ個の単変量時系列データエレメントを含む、プログラムコードと、
複数のデータセットについてデータセットの標準偏差（σ）を計算するためのプログラムコードと、
前記標準偏差（σ）を利用することにより、データセットの最適サンプルブロックサイズ（ｎ）を計算するためのプログラムコードと、
前記標準偏差（σ）、前記Ｎ個の単変量時系列データエレメント、所定の正確度（δ）及び結果（アウトカム）の精確度（１−ε）に基づくデータセットの臨界サンプルサイズ（ｎ_critical）を計算するためのプログラムコードと、
データセットの最適使用可能ブロックサイズ（ｎ_operational）を決定するためのプログラムコードと、
前記複数のデータセットを、前記最適使用可能ブロックサイズ（ｎ_operational）に基づいたブロックにセグメント化するためのプログラムコードであって、各ブロックは、上記Ｎ個の単変量時系列データエレメントのうちのＮ／ｎ_operationalデータエレメントを含む、プログラムコードと、
前記ブロック上で外れ値検出技術を実行することによって、リアルタイムで外れ値を検出するためのプログラムコードと、
を含む、非一時的なコンピュータ可読媒体。