JP2020053036A - データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法 - Google Patents

データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法 Download PDF

Info

Publication number
JP2020053036A
JP2020053036A JP2019160779A JP2019160779A JP2020053036A JP 2020053036 A JP2020053036 A JP 2020053036A JP 2019160779 A JP2019160779 A JP 2019160779A JP 2019160779 A JP2019160779 A JP 2019160779A JP 2020053036 A JP2020053036 A JP 2020053036A
Authority
JP
Japan
Prior art keywords
data
test data
quartile
determining
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019160779A
Other languages
English (en)
Other versions
JP7346176B2 (ja
JP2020053036A5 (ja
Inventor
アジャイ・ラガバン
Raghavan Ajay
ライアン・エイ・ロッシ
A Rossi Ryan
ジュンホ・パク
Jungho Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2020053036A publication Critical patent/JP2020053036A/ja
Publication of JP2020053036A5 publication Critical patent/JP2020053036A5/ja
Application granted granted Critical
Publication of JP7346176B2 publication Critical patent/JP7346176B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】異常検出を容易にするためのシステムを提供する。【解決手段】システムによる方法は、動作中コンピューティングデバイスによって複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する。試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する。それぞれの群の四分位数間範囲を判定する。それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する。【選択図】図5

Description

本開示は、概して、異常を検出することに関する。より具体的には、本開示は、データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法に関する。
異常検出又は外れ値検出は、データセット内の予期されるパターン又は他のものに適合しない項目又は事象を特定するデータマイニング方法である。異常検出は、様々な分野、例えば、製造、医療領域、及びエネルギー関連分野に関連する。例えば、製造では、エネルギー使用は、機械を有する工場又は多くの機械を有するデータセンタを運営する際などに、かなりのコストを損なう可能性がある。この目的のために、異常を特定することは、より効率的な製造システムを提供することができ、次にこれは、コストを低減し、システム及びその組成構成要素又は部品の全体的な効率を向上させることができる。
使用される異常検出方法のタイプは、必要とされる分類のタイプに基づいて異なり得る。1つの方法は、四分位数間範囲(Inter−quartile Range、IQR)方法である。IQRは、データセットを、3つの「四分位数」によって分離された4つの部分に分割することに基づくばらつきの尺度である。IQRは、第3の四分位数から減算された第1の四分位数であり、「ミッドスプレッド」又は「ミドル50%」とも呼ばれる。IQR分析又は方法は、異常又は外れ値を特定するために使用されることがあり、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。
しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元又はより高い次元のデータセット(時系列データの2つのセットなど)では、IQR分析は、それ自体では十分に実施されないことがある。したがって、標準的なIQR分析は、スケーリングのロバストな尺度を提供し、一次元のデータセット内の外れ値を特定することができるが、二次元のデータセットでは標準的なIQR分析は、スケーリングの正確な尺度を提供しないことがある。更に、二次元又はより高い次元のデータセットでは、標準的なIQR分析は、外れ値を特定することを潜在的に損ね得るか、又は正常なデータ点を外れ値として誤って特定することがある。これは、データマイニング及び異常検出のための非効率的なシステムをもたらし得る。
一実施形態は、異常検出を容易にするためのシステムを提供する。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する。本システムは、それぞれの群の四分位数間範囲を判定する。本システムは、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する。
いくつかの実施形態では、本システムは、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を実施する。措置には、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、第1の変数又は1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び内部からデータ系列が取得されるデバイスの物理的構成要素を調節することのうちの1つ以上が含まれる。
いくつかの実施形態では、本システムは、コンピューティングデバイスによって、試験データの新しいセットの異常を検出するための要求を受信し、新しいセットは、第1の変数及び1つ以上の第2の変数の新しいデータ系列を含み、試験データの新しいセットは、ユーザが分類された異常に対処するために措置を実施した後に、コンピューティングデバイスによって取得される。本システムは、試験データの新しいセットを、試験データのセットのいくつか群と同じ数の新しい群に分割する。本システムは、内部の第1の試験データ点が異常として分類されたそれぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定する。本システムは、それぞれの群内の第1の試験データ点が、それぞれの新しい群内で依然として発生しているかどうかを判定し、その判定は、分類された異常に対処するためにユーザによって実施された措置が成功しているかどうかを示す。
いくつかの実施形態では、試験データのセットをいくつかの群に分割することは、アルゴリズムに基づく自動プロセス、試験データのセットを取得することに関与するセンサ又は機械の解像度、試験データのセットに関連する以前の又は履歴データであって、コンピューティングデバイスによって取得される、以前の又は履歴データ、コンピューティングデバイスのユーザの事前又は過去の知識であって、試験データのセットに関連し、かつコンピューティングデバイスのユーザによって取得される、事前又は過去の知識、並びにより高い次元のデータセットの重要な変数を表す構成要素に基づいて、試験データのセットのデータ分布を分解することであって、構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解することのうちの1つ以上に基づいており、それぞれの群の四分位数間範囲を判定することは、構成要素に基づいて、四分位数分析を実施することを更に含む。
いくつかの実施形態では、試験データのセットを分割し、それぞれの群の四分位数間範囲を判定することは、異常として分類される試験データ点の存在を含む、試験データのセット内の分割された群にわたる複数の従属変数に基づいて、試験データのセット内の正規分布を自動的に分類することを更に含む。
いくつかの実施形態では、データ系列は、第1の変数及び1つ以上の第2の変数の時系列データを含み、第1の変数の時系列データは、異常検出の対象であり、1つ以上の第2の変数の時系列データは、第1の変数の時系列データに影響を及ぼす。
いくつかの実施形態では、それぞれの群の四分位数間範囲を判定することは、それぞれの群内の第2の試験データのセットを、第2の試験データのセットの中央値に基づいて4つの部分に分割することを更に含み、4つの部分を分離する3つの値は、第1の四分位数、第2の四分位数、及び第3の四分位数であり、四分位数間範囲は、第1の四分位数と第3の四分位数との間の差である。それぞれの群の四分位数間範囲を判定することは、第1の四分位数から、所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算することによって、第2の試験データのセットの下限を特定することと、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算することによって、第2の試験データのセットの上限を特定することとを更に含む。
いくつかの実施形態では、それぞれの群内の第1の試験データ点を異常として分類することは、第1の試験データ点が下限と上限との間に収まらないと判定することに更に基づく。
いくつかの実施形態では、第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、本システムは、第1の四分位数を、第2のセット内のn個の最小データ点の中央値として設定し、第3の四分位数を、第2のセット内のn個の最大データ点の中央値として設定する。第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、本システムは、第1の四分位数を、第2のセット内のm個の最小データ点の中央値として設定し、第3の四分位数を、第2のセット内のm個の最大データ点の中央値として設定し、第2の四分位数を、第2のセット内のデータ点の通常の中央値として設定する。
本発明の一実施形態による、異常検出を容易にするための例示的な環境を例示している。 従来技術による、四分位数間範囲を判定するための例示的なダイアグラムを例示している。 従来技術による、四分位数間範囲の分析に基づいて異常をうまく検出することができなかった例示的な結果を例示している。 本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。 本発明の一実施形態による、元の一次元データのセットの例示的な確率密度を提示している。 本発明の一実施形態による、別の変数を追加した、図4Aの一次元データの例示的な試験データを提示している。 本発明の一実施形態による、例示的な試験データをビン又は群に分割することを含む、図4Bの例示的な試験データを提示している。 本発明の一実施形態による、分割されたビン又は群の試験データに対して四分位数間範囲の分析を実施することを含む、図4Cの例示的な試験データを提示している。 本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。 本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。 本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。 本発明の一実施形態による、異常検出を容易にする例示的な分散コンピュータ及び通信システムを例示している。 本発明の一実施形態による、異常検出を容易にする例示的な装置を例示している。
本明細書に記載される実施形態は、データを「ビン」に分割し、各ビンに対してIQR分析を実施することに基づいて、少なくとも2つの相互依存変数のデータ系列における異常を効率的かつ正確に特定するという問題を解決する。
上に論じられるように、異常を特定することは、多くの領域(例えば、製造、医療分野、及びエネルギー関連分野)においてより効率的なシステムを提供することができ、次に、コストを低減し、システム及びその組成構成要素又は部品の全体的な効率を向上させることができる。使用される異常検出方法のタイプは、必要とされる分類のタイプに基づいて異なり得る。1つの方法は、四分位数間範囲(IQR)方法である。IQRは、データセットを、3つの「四分位数」によって分離された4つの部分に分割することに基づくばらつきの尺度である。IQRは、第3の四分位数から減算された第1の四分位数であり、「ミッドスプレッド」又は「ミドル50%」とも呼ばれる。IQR分析又は方法は、異常又は外れ値を特定するために使用されることがあり、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。
しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元又はより高い次元のデータセット(時系列データの2つのセットなど)では、IQR分析は、それ自体では十分に実施されないことがある。したがって、標準的なIQR分析は、スケーリングのロバストな尺度を提供し、一次元のデータセット内の外れ値を特定することができるが、二次元のデータセットでは標準的なIQR分析は、スケーリングの正確な尺度を提供しないことがある。更に、二次元又はより高い次元のデータセットでは、標準的なIQR分析は、外れ値を特定することを潜在的に損ね得るか、又は正常なデータ点を外れ値として誤って特定することがある。これは、データマイニング及び異常検出のための非効率的なシステムをもたらし得る。
図3に関連して以下に記載されるように、本明細書に記載される実施形態は、この課題を、最初に(各セットが相互依存変数のデータを表す)データ系列の複数のセットをいくつかの別個の群又は「ビン」に分割し、その後各ビン内のデータに対してIQR分析を実施してデータ系列内の異常を検出するシステムを提供することによって対処する。つまり、本システムは、データの少なくとも1つの他の次元又は従属変数の範囲にわたってIQR分析を実施する。
したがって、本明細書に記載される実施形態は、「ビン分割された」IQR分析を使用して、少なくとも2つの次元又は変数にわたってデータ系列内の異常を検出する効率を向上させるコンピュータシステムを提供する。データ系列は、例えば、時系列データを含み得るか、又は周波数スペクトルを網羅し得る。本システムは、複数の相互依存変数又は次元のデータ系列におけるデータマイニング及び外れ値検出を強化及び改善し、改善は基本的に技術的である。改善は、異常をより効率的に特定することによって、より効率的な製造システム又は他の物理的システムをもたらし得る。システム管理者又は他のユーザは、特定された異常に基づいて改善措置、是正措置、又は他の措置をとって、製造又は他の物理的システムの全体的な効率を向上させることができる。例えば、後で取得された時系列データは、以前に検出された異常(複数可)がもはや発生しないことをユーザに示すことができる。
更に、本明細書に記載される実施形態は、技術的課題(検出された異常に基づいて、ユーザが、例えば、異常を除去するか又はそれらに対処するための措置をとることを可能にすることによって、製造又は他の物理的システムの効率を向上させること)に対して、技術的解決策(例えば、複数の相互依存変数又は次元にわたる時系列データのセットをビンに分割してから、各ビンに対してIQR分析を実施して異常を分類すること)を提供する。
「ビン」及び「群」という用語は、本開示において互換的に使用され、試験データの(より大きい又は親)セットを分割することによって作成される複数のデータセットを指す。試験データのセット(又は分割された/ビン分割された試験データのセット)は、複数のデータ点を含み得る。
試験データのセットは、試験データのセットの「タイプ」に基づいて、いくつかのビン又は群に分割され得る。試験データのセットのタイプは、例えば、測定される物理的パラメータ、内部から測定値が取得される物理的デバイス若しくはセンサ、かかるデバイス若しくはセンサの物理的成分、又はユーザ若しくはシステムによって判定されるカテゴリに依存し得る。
「IQR方法」及び「IQR分析」という用語は、本開示において互換的に使用され、四分位数間範囲を検出し、中央値、下限、及び上限を判定し、並びに下限及び上限を含む四分位数間範囲に基づいて外れ値を分類するか若しくは異常を検出するプロセスを指す。
図1は、本発明の一実施形態による、異常検出を容易にするための例示的な環境100を例示している。環境100は、デバイス102及び関連付けられたユーザ112、デバイス104及び関連付けられたユーザ114、並びにデバイス106を含み得る。デバイス102、104、及び106は、ネットワーク120を介して互いに通信し得る。環境100はまた、ある期間及び周期的な間隔にわたってデータを記録することができるセンサを有する物理的物体を含み得る。例えば、環境100は、デバイス132.1〜132.m及びセンサ134.1〜134.nを含み得る部屋130と、外部温度センサ136とを含み得る。センサ134.1〜134.nは、部屋130内で消費される加熱、換気、及び空調(heating,ventilation,and air conditioning、HVAC)エネルギーの量、又は部屋130内の特定のデバイスによって消費若しくは使用されるHVACエネルギーの量など、部屋の物理的特徴を監視し得る。外部温度センサ136は、同じ建物の内部であるか又は内部に部屋130が存在する建物の外部であるかに関わらず、部屋の外部の空気の温度を監視し得る。
動作中、センサは、それらのそれぞれの測定された試験データをデバイス104に送信し得る。例えば、デバイス104は、センサ134.1から試験データ142を取得することができ、センサ136から試験データ144を取得することもできる。試験データ142及び144は、時系列データを含むことができ、周波数スペクトルを網羅することもできる。同じ又は異なる時間において、ユーザ112は、部屋130のセンサ134.1〜134.n及び外部温度センサ136に関連するある特定の試験データに関する異常152を要求するためのコマンドを送信することができ、これは、試験データ154入手コマンドをデバイス104に送信することをもたらし得る。
デバイス104は、試験データ142及び144を取得し得、試験データ142及び144を結合し得る。デバイス104は、ネットワーク120を介して、結合された試験データ146をデバイス106に送信し得る。結合された試験データ146と共に異常152要求コマンドを受信すると、デバイス106は、結合された試験データ146をいくつかのビンに分割し得る(関数154)。その後、デバイス106は、各ビン内のデータに対してIQR分析を実施し得る(関数156)。IQR分析中、デバイス106は、結合された試験データ146から(及び具体的には、分割された試験データの各ビン又は群内の試験データ点から)試験データ点を特定することができ、これらの試験データ点は、下限及び上限がIQR分析に基づいて判定されるそれぞれのビンの下限及び上限によって定義される範囲内にはない。デバイス106は、ネットワーク120を介して、試験データ内のデータ点の分類(複数可)158をデバイス102に送信し返すことができる。
分類(複数可)158を受信すると、デバイス102は、分類(複数可)に基づいて所定の規則を実行することを含み得る措置160を実施し得る。例えば、所定の規則は、試験データを取得することに関与するセンサ又はデバイスに関連する物理的構成要素又はユニットを自動的に調節することを含み得る。ユーザ112はまた、他の履歴データを考慮して、分類された異常を再検討することを含み得る措置162を実施し得る。ユーザ112はまた、分類された異常の原因を改善又は発見することをもたらす措置を実施することができ、かかる異常が再び発生するのを防止するための手段をとることができる。
つまり、分類(複数可)158により、デバイス102及びユーザ112の両方が、別個のビン又は群に対して実施されるIQR分析に基づいて、強化されたデータマイニング及び外れ値検出の結果を使用することを可能にする。例えば、異常152要求コマンドへの応答(すなわち、分類(複数可)158)に基づいて、ユーザ112は、部屋130及び部屋130内のデバイス132.1〜132.mに関連付けられた製造システム又は他の物理的システムの動作及び性能に影響を及ぼし、その動作及び性能を向上させ得る措置を実施するか又はとることができる。措置は、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置であり得る。ユーザ112はまた、ユーザ112の措置が任意の以前に検出された異常の除去又は削除を含む意図された効果を有するかどうかを判定するために、その後の試験データを監視、観察、及び分類することもできる。
つまり、ユーザ112は、センサから取得された新しい結合された試験データと共にデバイス106によって受信され得る新しい異常要求コマンドを送信することができる。デバイス106は、データをビンに分割し、新たにビン分割されたデータに対してIQR分析を実施することができる。デバイス106は、デバイス102及びユーザ112に新しい分類を送信し返すことができ、これにより、デバイス102及びユーザ112が、以前に実施された措置(すなわち、それぞれ措置160及び162)が意図された効果を有するかどうか(すなわち、以前に検出された異常がもはや発生しないかどうか)を判定することを可能にする。
したがって、本明細書に記載される実施形態は、少なくとも2つの変数又は次元にわたって時系列データ内の異常検出を向上させ強化し、かつデータマイニング及び外れ値検出のためのシステム全体の効率を更に向上させるシステムを提供する。
図2Aは、従来技術による、四分位数間範囲を判定するための例示的なダイアグラム200を例示している。ダイアグラム200は、青い破線によって示されるように、水平状態に表されるデータを含み得る。本システムは、表わされたデータセットを「四分位数」に分割することができ、この場合、四分位数は、ランク順序付けされたデータセットを4つの等しい部分に分割する。四分位数は、これらの部分を分離する値である。第1、第2、及び第3の四分位数は、それぞれ「Q1」、「Q2」、及び「Q3」と呼ぶことができる。本システムは、中央値202を判定することができ、かつ第1の四分位数(「Q1」)204及び第3の四分位数(「Q3」)206を更に判定することができる。四分位数間範囲(「IQR」)210は、Q3とQ1との間の差として定義され得る。IQR(「ミッドスプレッド」又は「ミドル50%」と呼ばれる場合もある)は、75位の百分位数と25位の百分位数との間、又は上位四分位数Q3と下位四分位数Q1との間の差に等しい。
更に、本システムは、第1の四分位数Q1から、1.5などの所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算(すなわち、Q1−1.5×IQR)することによって、下限212を判定し得る。本システムはまた、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算(すなわち、Q3+1.5×IQR)することによって、上限214を判定し得る。下限212及び上限214によって定義される範囲の外側に収まる任意のデータは、異常又は外れ値と考慮され得る。つまり、下限212と上限214との間に収まらない任意のデータ点は、異常又は外れ値として分類され得る。例えば、外れ値222は、上限214よりも大きい(すなわち、下限212と上限214との間に収まらない)データ点である。したがって、データ点222は、外れ値として分類される。
上で論じられるように、IQR方法は、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元のデータセットでは、IQR方法は、それ自体では十分に実施されないことがある。図2Bは、従来技術による、四分位数間範囲の分析に基づいて異常をうまく検出することができなかった結果の例示的なダイアグラム230を例示している。指標に示されるように、検出された異常292は小さい黒丸で示され、一次元データに対してIQR分析を使用して検出されなかった異常294は黒丸を囲む太字の楕円形で示される。
ダイアグラム230に示されるように、一次元データyは、他の要因又は変数xによる効果に基づいて、y|x=x、y|x=x、y|x=x、及びy|x=xの合計として構成されると仮定する。各行は、他の従属変数xの1つの値(例えばx)に基づいて、一次元データyに対する個々のIQR分析を表すことができる。例えば、本システムは、データy|x=x(240)に対してIQR241分析を実施し得る。IQR241は、下限242及び上限244を含むことができ、この場合、これらの限度の外側に収まるデータは異常と考慮され得る。同様に、本システムは、データy|x=x(250)に対してIQR251分析を実施して、そのデータセットの異常を判定すること、データy|x=x(260)に対してIQR261分析を実施して、そのデータセットの異常を判定すること、及びデータy|x=x(270)に対してIQR271を実施して、そのデータセットの異常を判定することができる。本システムは、これらの4つのIQR分析の合計281を判定することができ、これは、二次元のデータセット全体の下限及び上限を判定することを含む。個々のIQR241、251、261、及び271による検出された異常のうちのいくつかは検出された異常としても合計281内に現れるが、合計281内に現れない個々のIQRによるいくつかの検出された異常が依然として存在することに留意されたい。例えば、IQR251による検出された異常252及びIQR261による異常262は、検出された異常として合計281内にもはや現れない。代わりに、これらの以前に検出された異常はここで、データ263及びデータ253として合計281の下限と上限との間に現れる。
したがって、IQR方法を二次元データに対して直接使用することは、異常の不正確な特定、例えば、(以前に検出された)異常252及び262を見落とすか又は正しく検出することができないことをもたらすことがある。これは、不正確な結果につながる可能性があり、効率の悪い全体システムを更にもたらし得る。
図3は、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート300を提示している。動作中、本システムは、第1の変数及び1つ以上の第2の変数のデータ系列(例えば、2つの時系列データy及びx、式中、yは異常検出の対象である)を含む試験データのセットを判定する(動作302)。第2のデータxは、第1のデータyの挙動に影響を及ぼすことが知られている。第2のデータxについて、本システムは、データをn個のビンに分割する(動作304)。本システムは、i番目のビン内のデータの指標をとり(動作306)(式中、iは0〜nの値である)、その指標を次の動作に渡す。第1のデータyについて、本システムは、選択された指標(y|x=x)を有するデータを判定する(動作312)。本システムは、選択された指標を有するデータ(すなわち、i番目のビン内のデータ)に対してIQR分析を実施する(動作314)。選択された指標(すなわち、i番目のビン内のデータ)に対するIQR分析に基づいて、本システムは、i番目のビン内の異常を判定する(動作316)。本システムは、判定された異常を保存することもできる。
残っているビンが存在しない(すなわち、現在の指標iがビンの数n以上である)場合(決定318)、動作は戻る。残っているビンが存在する(すなわち、現在の指標iがビンの数n未満である)場合(決定320)、本システムは、(iをi+1に設定することによって)iを増分し、動作は動作306に戻る。
図4Aは、本発明の一実施形態による、元の一次元データのセットの例示的な確率密度のグラフ400を提示している。グラフ400は、確率密度を示すx軸と、(キロワット時(Kilowatt hour、kWh)で測定した場合の)「部屋1」の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ400内の赤色は、一次元データを示す。
図4Bは、本発明の一実施形態による、別の変数を追加した、図4Aの一次元データの例示的な試験データのグラフ420を提示している。グラフ420は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ420では、別の次元又は変数のデータがグラフ400の一次元データに追加されている。グラフ420内の赤色は、二次元データを示す。
図4Cは、本発明の一実施形態による、例示的な試験データをビン又は群に分割することを含む、図4Bの例示的な試験データのグラフ440を提示している。グラフ440は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ440では、垂直の青い破線は、ビン又は群間の分離を示す。つまり、本システムは、ビンの数nを判定し、これは、例えば、自動プロセス、アルゴリズム、データを取得することに関与するセンサ若しくは機械の解像度、又はデータに関連し、コンピューティングデバイス若しくはユーザによって取得された履歴データ若しくは知識に基づき得る。グラフ440では、各ビンの測定単位又はサイズは2℃である。例えば、ビン442は、6〜8℃の外部温度に基づいて、部屋のACエネルギーの合計に関するグラフ440からのデータを含む。
図4Dは、本発明の一実施形態による、分割されたビン又は群の試験データに対して四分位数間範囲の分析を実施することを含む、図4Cの例示的な試験データのグラフ460を提示している。グラフ460は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ460では、垂直の青い破線は、ビン又は群間の分離を示す。本システムは、各ビンに対してIQR分析を実施し得る。各ビンにおいて、黒い実線は上限及び下限を示し、緑の「+」記号はそれぞれのビンの中央値を示す。グラフ460内の赤色は、それぞれのビンに対するIQR分析に基づいて、正常として分類されているか、又は異常若しくは外れ値としては分類されていない二次元データを示す。グラフ460内の青色は、それぞれのビンに対するIQR分析に基づいて、異常若しくは外れ値としては分類されている二次元データを示す。
例えば、(グラフ440のビン442に対応する)ビン462では、上限と下限との間(すなわち、黒い実線)に収まる赤色のデータは正常なデータ点と考慮され得る一方、上限を超えて(又は上限と下限との間の範囲の外側に)収まる青色のデータは異常なデータ点又は外れ値として考慮され得る。
図5は、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート500を提示している。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する(動作502)。データ系列は、時系列データを含み得るか、又は周波数スペクトルを網羅し得る。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(動作504)。本システムは、それぞれの群の四分位数間範囲を判定する(動作506)。本システムは、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し(動作508)、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する。
図6Aは、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート600を提示している。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含む(動作602)。1つ以上の第2の変数は、第1の変数に依存する。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(動作604)。本システムは、それぞれの群内の第2の試験データのセットを、第2の試験データのセットの中央値に基づいて4つの部分に分割し、4つの部分を分離する3つの値は、第1の四分位数、第2の四分位数、及び第3の四分位数であり、四分位数間範囲は、第1の四分位数と第3の四分位数との間の差である(動作606)。本システムは、それぞれの群について、第2の試験データのセットの中央値に基づいて、第1の四分位数、第2の四分位数、第3の四分位数、及び四分位数間範囲を判定する(動作608)。本システムは、第1の四分位数から、所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算することによって、第2の試験データのセットの下限を特定する(動作610)。本システムはまた、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算することによって、第2の試験データのセットの上限を特定する(動作612)。本システムは、第2の試験データのセット内のそれぞれのデータ点について、それぞれの試験データ点が下限と上限との間に収まるかどうかを判定する(動作614)。図6AのラベルAに記載されるように、この動作は継続する。
図6Bは、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート620を提示している。動作中、それぞれの試験データ点が下限と上限との間に収まると本システムが判定(決定622)した場合、本システムは、それぞれの試験データ点を正常として分類し(決定632)、動作は決定628に留まる。
それぞれの試験データ点が下限と上限との間に収まらないと本システムが判定(決定622)した場合、本システムは、それぞれの試験データ点を異常として分類する(動作624)。本システムは、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を(例えば、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置を介して、第1の変数又は第2の変数に影響を及ぼす物理的パラメータを調節することによって、及び内部からデータ系列(例えば、時系列データ)が取得されるデバイスの物理的構成要素を調節することによって)実施する(動作626)。動作626は、それぞれの群について、すべての異常が分類された後(例えば、それぞれの群内の第2の試験データのセットについて、決定628が「いいえ」という応答を返した後)、又は試験データのセット全体について、すべての異常が分類された後(例えば、決定630が「いいえ」という応答を返した後)に行われ得ることに留意されたい。
第2の試験データのセット内にいずれかの残っているデータ点が存在する場合(決定628)、動作は図6Aの動作614に戻る。第2の試験データのセット内に残っているデータ点が存在しない場合(決定628)、本システムは、試験データのセット内にいずれかの残っている群が存在するかどうかを判定する(決定630)。存在する場合には、動作が図6Aの動作606に戻る。試験データのセット内に残っている群が存在しない場合(決定630)、動作は戻る。
図7は、本発明の一実施形態による、異常検出を容易にする例示的な分散コンピュータ及び通信システム702を例示している。コンピュータシステム702は、プロセッサ704、メモリ706、記憶デバイス708を含む。メモリ706は、管理されたメモリとして機能する揮発性メモリ(例えば、RAM)を含むことができ、1つ以上のメモリプールを記憶するために使用され得る。更に、コンピュータシステム702は、ディスプレイデバイス710、キーボード712、及びポインティングデバイス714に連結され得る。記憶デバイス708は、オペレーティングシステム716、コンテンツ処理システム718、及びデータ732を記憶し得る。
コンテンツ処理システム718は、命令を含むことができ、これらの命令は、コンピュータシステム702によって実行されると、コンピュータシステム702に本開示に記載される方法及び/又はプロセスを実施させ得る。具体的には、コンテンツ処理システム718は、コンピュータネットワーク(通信モジュール720)を介して他のネットワークノードとの間でデータパケットを送受信するための命令を含み得る。データパケットは、データ、データ系列、時系列データ、試験データ、データのセット、データ点、要求、コマンド、及び応答を含み得る。
コンテンツ処理システム718は、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定する(通信モジュール720及びデータ取得モジュール722)ための命令を更に含むことができ、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する。コンテンツ処理システム718は、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(データ分割モジュール724)ための命令を更に含み得る。コンテンツ処理システム718は、それぞれの群の四分位数間範囲を判定する(IQR実施モジュール726)ための命令を更に含み得る。コンテンツ処理システム718は、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し(データ分類モジュール728)、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する(データ分類モジュール728)ための命令を更に含み得る。
コンテンツ処理システム718はまた、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を実施する(措置実施モジュール730)ための命令を含むことができ、措置には、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、第1の変数又は1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び内部からデータ系列が取得されるデバイスの物理的構成要素を調節することのうちの1つ以上が含まれる。
データ732は、入力として必要とされるか、又は本開示に記載される方法及び/又はプロセスによって出力されるときに生成される任意のデータを含み得る。具体的には、データ732は少なくとも、データと、試験データのセットと、複数のデータ点と、第1の変数と、1つ以上の第2の変数と、第1及び第2の変数の時系列データ又は周波数スペクトルと、いくつかの群又はビンと、時系列データのタイプと、四分位数間範囲と、試験データ点の分類と、異常として分類される試験データ点と、正常なデータ点として分類される試験データ点と、複数の変数の時系列データの強化されたデータマイニング及び外れ値検出のインジケータと、措置のインジケータと、改善措置又は是正措置と、第1の変数又は第2の変数に影響を及ぼす物理的パラメータのインジケータと、内部から時系列データが取得されるデバイスの物理的構成要素のインジケータと、異常検出の対象と、自動プロセスと、アルゴリズムと、アルゴリズムに基づく自動プロセスと、センサ又は機械の解像度と、以前の又は履歴データと、事前又は過去の知識と、中央値と、第1の四分位数と、第2の四分位数と、第3の四分位数と、4つの部分のインジケータと、下限と、上限と、偶数と、奇数とを記憶し得る。
図8は、本発明の一実施形態による、異常検出を容易にする例示的な装置800を例示している。装置800は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る複数のユニット又は装置を備え得る。装置800は、1つ以上の集積回路を使用して実現することができ、図8に示されるものよりも少ないか又は多くのユニット若しくは装置を含み得る。更に、装置800は、コンピュータシステムに統合され得るか、又は他のコンピュータシステム及び/若しくはデバイスと通信することができる別個のデバイスとして実現され得る。具体的には、装置800は、図7のコンピュータシステム702のモジュール720〜730と同様の機能又は動作を実施するユニット802〜812を備えることができ、通信ユニット802、データ取得ユニット804、データ分割ユニット806、IQR実施ユニット808、データ分類ユニット810、及び措置実施ユニット812を含む。
発明を実施するための形態に記載されるデータ構造及びコードは、典型的には、コンピュータ可読記憶媒体に記憶され、コンピュータ可読記憶媒体は、コンピュータシステムが使用するためのコード及び/又はデータを記憶することができる任意のデバイス又は媒体であり得る。コンピュータ可読記憶媒体としては、揮発性メモリ、不揮発性メモリ、非一時的コンピュータ可読記憶媒体、ディスクドライブ、磁気テープ、CD(コンパクトディスク)、DVD(デジタル多用途ディスク若しくはデジタルビデオディスク)などの磁気及び光学記憶デバイス、又は現在知られているか若しくは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体が挙げられるが、これらに限定されない。
発明を実施するための形態の節に記載される方法及びプロセスは、上に論じられるようなコンピュータ可読記憶媒体内に記憶され得るコード及び/又はデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び/又はデータを読み取り、実行するとき、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及びプロセスを実施する。
更に、上に記載される方法及びプロセスは、ハードウェアモジュール又は装置内に含まれ得る。ハードウェアモジュール又は装置としては、特定用途向け集積回路(application−specific integrated circuit、ASIC)チップ、フィールドプログラマブルゲートアレイ(field−programmable gate array、FPGA)、特定の時間に特定のソフトウェアモジュール又はコード片を実行する専用の若しくは共有プロセッサ、及び現在知られている若しくは今後開発される他のプログラム可能論理デバイスが挙げられ得るが、これらに限定されない。ハードウェアモジュール又は装置は、起動されると、それらの内部に含まれる方法及びプロセスを実施する。

Claims (20)

  1. 異常検出を容易にするためのコンピュータ実装方法であって、前記方法が、
    コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、第1の変数及び1つ以上の第2の変数のデータ系列を含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
    前記試験データのセットを前記データ系列のタイプに基づいていくつかの群に分割することと、
    それぞれの群の四分位数間範囲を判定することと、
    前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
    それによって、複数の変数の前記データ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、方法。
  2. 前記コンピューティングデバイスのユーザによって、前記分類された異常に対処するための措置を実施することを更に含み、
    前記措置には、
    前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、
    前記第1の変数又は前記1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び
    内部から前記データ系列が取得されるデバイスの物理的構成要素を調節すること、のうちの1つ以上が含まれる、請求項1に記載の方法。
  3. 前記コンピューティングデバイスによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数及び前記1つ以上の第2の変数の新しいデータ系列を含み、
    前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピューティングデバイスによって取得される、受信することと、
    前記試験データの新しいセットを、前記試験データのセットの前記いくつかの群と同じ数の新しい群に分割することと、
    内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
    前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項2に記載の方法。
  4. 前記試験データのセットを前記いくつかの群に分割することが、
    アルゴリズムに基づく自動プロセス、
    前記試験データのセットを取得することに関与するセンサ又は機械の解像度、
    前記試験データのセットに関連する以前の又は履歴データであって、前記コンピューティングデバイスによって取得される、以前の又は履歴データ、
    前記コンピューティングデバイスのユーザの事前又は過去の知識であって、前記試験データのセットに関連し、かつ前記コンピューティングデバイスの前記ユーザによって取得される、事前又は過去の知識、並びに
    より高い次元のデータセットの重要な変数を表す構成要素に基づいて、前記試験データのセットのデータ分布を分解することであって、前記構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解すること、のうちの1つ以上に基づいており、
    前記それぞれの群の前記四分位数間範囲を判定することが、前記構成要素に基づいて、四分位数分析を実施することを更に含む、請求項1に記載の方法。
  5. 前記試験データのセットを分割すること、及び前記それぞれの群の前記四分位数間範囲を判定することが、
    異常として分類される試験データ点の存在を含む、前記試験データのセット内の前記分割された群にわたる複数の従属変数に基づいて、前記試験データのセット内の正規分布を自動的に分類することを更に含む、請求項1に記載の方法。
  6. 前記データ系列が、前記第1の変数及び前記1つ以上の第2の変数の時系列データを含み、
    前記第1の変数の前記時系列データが、前記異常検出の対象であり、
    前記1つ以上の第2の変数の前記時系列データが、前記第1の変数の前記時系列データに影響を及ぼす、請求項1に記載の方法。
  7. 前記それぞれの群の前記四分位数間範囲を判定することが、
    前記それぞれの群内の第2の試験データのセットを、前記第2の試験データのセットの中央値に基づいて4つの部分に分割することであって、
    前記4つの部分を分離する3つの値が、第1の四分位数、第2の四分位数、及び第3の四分位数であり、
    前記四分位数間範囲が、前記第1の四分位数と前記第3の四分位数との間の差である、分割することと、
    前記第1の四分位数から、所定の値によってスケーリングされた前記四分位数間範囲に等しい第1の量を減算することによって、前記第2の試験データのセットの下限を特定することと、
    前記第3の四分位数に、前記所定の値によってスケーリングされた前記四分位数間範囲に等しい第2の量を加算することによって、前記第2の試験データのセットの上限を特定することと、を更に含む、請求項1に記載の方法。
  8. 前記それぞれの群内の前記第1の試験データ点を異常として分類することが、前記第1の試験データ点が前記下限と前記上限との間に含まれないと判定することに更に基づく、請求項7に記載の方法。
  9. 前記第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、前記方法が、
    前記第1の四分位数を、前記第2のセット内のn個の最小データ点の中央値として設定することと、
    前記第3の四分位数を、前記第2のセット内のn個の最大データ点の中央値として設定することと、を更に含み、
    前記第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、前記方法が、
    前記第1の四分位数を、前記第2のセット内のm個の最小データ点の中央値として設定することと、
    前記第3の四分位数を、前記第2のセット内のm個の最大データ点の中央値として設定することと、
    前記第2の四分位数を、前記第2のセット内のデータ点の通常の中央値として設定することと、を更に含む、請求項7に記載の方法。
  10. 異常検出を容易にするためのコンピュータシステムであって、
    プロセッサと、
    前記プロセッサによって実行されると、前記プロセッサにある方法を実施させる命令を記憶する記憶デバイスと、を備え、前記方法が、
    前記コンピュータシステムによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、第1の変数及び1つ以上の第2の変数のデータ系列を含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
    前記試験データのセットを前記データ系列のタイプに基づいていくつかの群に分割することと、
    それぞれの群の四分位数間範囲を判定することと、
    前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
    それによって、複数の変数の前記データ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、コンピュータシステム。
  11. 前記方法が、
    前記コンピュータシステムのユーザによって、前記分類された異常に対処するための措置を実施することを更に含み、
    前記措置には、
    前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、
    前記第1の変数又は前記1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び
    内部から前記データ系列が取得されるデバイスの物理的構成要素を調節すること、のうちの1つ以上が含まれる、請求項10に記載のコンピュータシステム。
  12. 前記方法が、
    前記コンピューティングデバイスによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数及び前記1つ以上の第2の変数の新しいデータ系列を含み、
    前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピューティングデバイスによって取得される、受信することと、
    前記試験データの新しいセットを、前記試験データのセットのいくつかの群と同じ数の新しい群に分割することと、
    内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
    前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項11に記載のコンピュータシステム。
  13. 前記試験データのセットを前記いくつかの群に分割することが、
    アルゴリズムに基づく自動プロセス、
    前記試験データのセットを取得することに関与するセンサ又は機械の解像度、
    前記試験データのセットに関連する以前の又は履歴データであって、前記コンピューティングデバイスによって取得される、以前の又は履歴データ、
    前記コンピューティングデバイスのユーザの事前又は過去の知識であって、前記試験データのセットに関連し、かつ前記コンピューティングデバイスの前記ユーザによって取得される、事前又は過去の知識、並びに
    より高い次元のデータセットの重要な変数を表す構成要素に基づいて、前記試験データのセットのデータ分布を分解することであって、前記構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解すること、のうちの1つ以上に基づいており、
    前記それぞれの群の前記四分位数間範囲を判定することが、前記構成要素に基づいて、四分位数分析を実施することを更に含む、請求項10に記載のコンピュータシステム。
  14. 前記試験データのセットを分割し、前記それぞれの群の前記四分位数間範囲を判定することが、
    異常として分類される試験データ点の存在を含む、前記試験データのセット内の前記分割された群にわたる複数の従属変数に基づいて、前記試験データのセット内の正規分布を自動的に分類することを更に含む、請求項10に記載のコンピュータシステム。
  15. 前記データ系列が、前記第1の変数及び前記1つ以上の第2の変数の時系列データを含み、
    前記第1の変数の前記時系列データが、前記異常検出の対象であり、
    前記1つ以上の第2の変数の前記時系列データが、前記第1の変数の前記時系列データに影響を及ぼす、請求項10に記載のコンピュータシステム。
  16. 前記それぞれの群の前記四分位数間範囲を判定することが、
    前記それぞれの群内の第2の試験データのセットを、前記第2の試験データのセットの中央値に基づいて4つの部分に分割することであって、
    前記4つの部分を分離する3つの値が、第1の四分位数、第2の四分位数、及び第3の四分位数であり、
    前記四分位数間範囲が、前記第1の四分位数と前記第3の四分位数との間の差である、分割することと、
    前記第1の四分位数から、所定の値によってスケーリングされた前記四分位数間範囲に等しい第1の量を減算することによって、前記第2の試験データのセットの下限を特定することと、
    前記第3の四分位数に、前記所定の値によってスケーリングされた前記四分位数間範囲に等しい第2の量を加算することによって、前記第2の試験データのセットの上限を特定することと、を更に含む、請求項10に記載のコンピュータシステム。
  17. 前記それぞれの群内の前記第1の試験データ点を異常として分類することが、前記第1の試験データ点が前記下限と前記上限との間に含まれないと判定することに更に基づく、請求項16に記載のコンピュータシステム。
  18. 前記第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、前記方法が、
    前記第1の四分位数を、前記第2のセット内のn個の最小データ点の中央値として設定することと、
    前記第3の四分位数を、前記第2のセット内のn個の最大データ点の中央値として設定することと、を更に含み、
    前記第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、前記方法が、
    前記第1の四分位数を、前記第2のセット内のm個の最小データ点の中央値として設定することと、
    前記第3の四分位数を、前記第2のセット内のm個の最大データ点の中央値として設定することと、
    前記第2の四分位数を、前記第2のセット内のデータ点の通常の中央値として設定することと、を更に含む、請求項16に記載のコンピュータシステム。
  19. コンピュータによって実行されると、前記コンピュータにある方法を実施させる命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記方法が、
    前記コンピュータによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、第1の変数及び1つ以上の第2の変数のデータ系列を含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
    前記試験データのセットを前記データ系列のタイプに基づいていくつかの群に分割することと、
    それぞれの群の四分位数間範囲を判定することと、
    前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
    それによって、複数の変数の前記データ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、非一時的コンピュータ可読記憶媒体。
  20. 前記方法が、
    前記コンピュータのユーザによって、前記分類された異常に対処するための措置を実施することであって、前記措置が、
    前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、
    前記第1の変数又は前記第2の変数に影響を及ぼす物理的パラメータを調節すること、及び
    内部から前記データ系列が取得されるデバイスの物理的構成要素を調節すること、のうちの1つ以上を含む、実施することと、
    前記コンピュータによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数及び前記1つ以上の第2の変数の新しいデータ系列を含み、
    前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピューティングデバイスによって取得される、受信することと、
    前記試験データの新しいセットを、前記試験データのセットのいくつかの群と同じ数の新しい群に分割することと、
    内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
    前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項19に記載の記憶媒体。
JP2019160779A 2018-09-26 2019-09-04 データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法 Active JP7346176B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/143,223 US11157346B2 (en) 2018-09-26 2018-09-26 System and method for binned inter-quartile range analysis in anomaly detection of a data series
US16/143,223 2018-09-26

Publications (3)

Publication Number Publication Date
JP2020053036A true JP2020053036A (ja) 2020-04-02
JP2020053036A5 JP2020053036A5 (ja) 2022-09-12
JP7346176B2 JP7346176B2 (ja) 2023-09-19

Family

ID=68165425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019160779A Active JP7346176B2 (ja) 2018-09-26 2019-09-04 データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法

Country Status (3)

Country Link
US (1) US11157346B2 (ja)
EP (1) EP3629197A1 (ja)
JP (1) JP7346176B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7483095B2 (ja) 2022-04-26 2024-05-14 株式会社日立製作所 産業システムのための多目的異常検出システム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881617B (zh) * 2020-07-02 2024-03-26 上海电气风电集团股份有限公司 数据处理方法、风力发电机组的性能评估方法及系统
US12012094B2 (en) * 2020-12-07 2024-06-18 Ford Global Technologies, Llc Detecting vehicle presence at a site
CN112883056B (zh) * 2021-03-11 2023-08-11 杭州广立微电子股份有限公司 一种半导体测试数据处理方法及装置
CN114820225B (zh) * 2022-06-28 2022-09-13 成都秦川物联网科技股份有限公司 基于关键词识别和处理制造问题的工业物联网及控制方法
CN115188186B (zh) * 2022-06-28 2024-02-20 公安部交通管理科学研究所 一种区域内交通流量监测方法
CN115098740B (zh) * 2022-07-25 2022-11-04 广州市海捷计算机科技有限公司 一种基于多源异构数据源的数据质量检测方法及装置
CN115858894B (zh) * 2023-02-14 2023-05-16 温州众成科技有限公司 一种可视化的大数据分析方法
CN116070150B (zh) * 2023-03-06 2023-06-09 济南市计量检定测试院 基于呼吸机运行参数的异常监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080375A1 (en) * 2011-09-23 2013-03-28 Krishnamurthy Viswanathan Anomaly detection in data centers
US20150341246A1 (en) * 2013-12-27 2015-11-26 Metafor Software Inc. System and method for anomaly detection in information technology operations

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19811574A1 (de) * 1998-03-17 1999-09-23 Siemens Ag Verfahren und Vorrichtung zum Überwachen der Funktionsfähigkeit eines Katalysators einer Brennkraftmaschine
US8417477B2 (en) * 2001-05-24 2013-04-09 Test Acuity Solutions, Inc. Methods and apparatus for local outlier detection
US20030191723A1 (en) * 2002-03-28 2003-10-09 Foretich James Christopher System and method for valuing real property
EP1989561A2 (en) * 2006-02-17 2008-11-12 Test Advantage, Inc. Methods and apparatus for data analysis
US20070257017A1 (en) * 2006-05-04 2007-11-08 Deangelis Alfred R Calibrated thermal sensing system
US8014880B2 (en) * 2006-09-29 2011-09-06 Fisher-Rosemount Systems, Inc. On-line multivariate analysis in a distributed process control system
US7919973B2 (en) * 2007-06-22 2011-04-05 Microchip Technology Incorporated Method and apparatus for monitoring via's in a semiconductor fab
JP5609176B2 (ja) * 2010-03-12 2014-10-22 富士通株式会社 コンフィグレーション方法及びコンフィグレーション制御回路
EP2543840B1 (en) * 2011-07-06 2015-01-28 Ford Global Technologies, LLC Method for estimating the actual efficiency of catalysts placed in an exhaust path of a combustion engine during the operation time
US8914317B2 (en) * 2012-06-28 2014-12-16 International Business Machines Corporation Detecting anomalies in real-time in multiple time series data with automated thresholding
MY172616A (en) * 2013-03-13 2019-12-06 Telekom Malaysia Berhad A system for analysing network traffic and a method thereof
US20180268264A1 (en) * 2015-01-28 2018-09-20 Hewlett Packard Enterprise Development Lp Detecting anomalous sensor data
JP6313730B2 (ja) * 2015-04-10 2018-04-18 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 異常検出システムおよび方法
US9747152B2 (en) * 2015-04-27 2017-08-29 Splunk Inc. Tracking incomplete transactions in correlation with application errors
EP3096253A1 (en) * 2015-05-19 2016-11-23 Universidad de Vigo System, computer-implemented method and computer program product for individualized multiple-disease quantitative risk assessment
US10042697B2 (en) * 2015-05-28 2018-08-07 Oracle International Corporation Automatic anomaly detection and resolution system
US9913583B2 (en) * 2015-07-01 2018-03-13 Rememdia LC Health monitoring system using outwardly manifested micro-physiological markers
EP3156941A1 (en) * 2015-10-12 2017-04-19 Siemens Aktiengesellschaft System, method and a computer program product for analyzing data
US10472206B2 (en) * 2015-12-04 2019-11-12 Otis Elevator Company Sensor failure detection and fusion system for a multi-car ropeless elevator system
US10387445B2 (en) * 2016-01-06 2019-08-20 International Business Machines Corporation Hybrid method for anomaly classification
US9753935B1 (en) * 2016-08-02 2017-09-05 Palantir Technologies Inc. Time-series data storage and processing database system
US11165856B2 (en) * 2017-04-25 2021-11-02 Citrix Systems, Inc. Detecting uneven load balancing through multi-level outlier detection
US10216695B1 (en) * 2017-09-21 2019-02-26 Palantir Technologies Inc. Database system for time series data storage, processing, and analysis
US20190102361A1 (en) * 2017-09-29 2019-04-04 Linkedin Corporation Automatically detecting and managing anomalies in statistical models
US10867455B2 (en) * 2017-10-20 2020-12-15 Appliedea, Inc. Diagnostics, prognostics, and health management for vehicles using kinematic clusters, behavioral sensor data, and maintenance impact data
US10496460B2 (en) * 2017-11-15 2019-12-03 Bank Of America Corporation System for technology anomaly detection, triage and response using solution data modeling
US10929258B1 (en) * 2017-12-21 2021-02-23 Innovative Defense Technologies, LLC Method and system for model-based event-driven anomalous behavior detection
WO2019187099A1 (ja) * 2018-03-30 2019-10-03 株式会社日立製作所 身体機能自立支援装置およびその方法
US10832196B2 (en) * 2018-08-31 2020-11-10 Kinaxis Inc. Analysis and correction of supply chain design through machine learning
US11061915B2 (en) * 2018-10-25 2021-07-13 Palo Alto Research Center Incorporated System and method for anomaly characterization based on joint historical and time-series analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080375A1 (en) * 2011-09-23 2013-03-28 Krishnamurthy Viswanathan Anomaly detection in data centers
US20150341246A1 (en) * 2013-12-27 2015-11-26 Metafor Software Inc. System and method for anomaly detection in information technology operations

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7483095B2 (ja) 2022-04-26 2024-05-14 株式会社日立製作所 産業システムのための多目的異常検出システム

Also Published As

Publication number Publication date
EP3629197A1 (en) 2020-04-01
JP7346176B2 (ja) 2023-09-19
US20200097351A1 (en) 2020-03-26
US11157346B2 (en) 2021-10-26

Similar Documents

Publication Publication Date Title
JP7346176B2 (ja) データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法
US11902316B2 (en) Real-time cybersecurity status system with event ticker
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
US9379951B2 (en) Method and apparatus for detection of anomalies in integrated parameter systems
CN111178760B (zh) 风险监测方法、装置、终端设备及计算机可读存储介质
JP7285187B2 (ja) 履歴及び時系列の共同分析に基づく異常の特性評価のためのシステム及び方法
US20180107528A1 (en) Aggregation based event identification
EP2854053A1 (en) Defect prediction method and device
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
US9524223B2 (en) Performance metrics of a computer system
JPWO2014132611A1 (ja) システム分析装置、及び、システム分析方法
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
CN108804914A (zh) 一种异常数据检测的方法及装置
US9690639B2 (en) Failure detecting apparatus and failure detecting method using patterns indicating occurrences of failures
AU2017417179B2 (en) Alarm processing devices, methods, and systems
US20200027046A1 (en) Smart monitoring
US10372719B2 (en) Episode mining device, method and non-transitory computer readable medium of the same
US11601325B2 (en) Method and system for evaluating peer groups for comparative anomaly
US9054995B2 (en) Method of detecting measurements in service level agreement based systems
WO2023082792A1 (zh) 参数寻优方法和装置
EP4369679A1 (en) Data analytics on measurement data
EP3835977A1 (en) Method for generating triples from log entries
JP2024008280A (ja) 誤検知対応システム、誤検知対応方法及び誤検知対応プログラム
CN117056214A (zh) 一种变异测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190912

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220902

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R150 Certificate of patent or registration of utility model

Ref document number: 7346176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150