JP2021018813A - データセットにおける異常の根本原因を検出する方法およびシステム - Google Patents
データセットにおける異常の根本原因を検出する方法およびシステム Download PDFInfo
- Publication number
- JP2021018813A JP2021018813A JP2020116162A JP2020116162A JP2021018813A JP 2021018813 A JP2021018813 A JP 2021018813A JP 2020116162 A JP2020116162 A JP 2020116162A JP 2020116162 A JP2020116162 A JP 2020116162A JP 2021018813 A JP2021018813 A JP 2021018813A
- Authority
- JP
- Japan
- Prior art keywords
- variables
- data
- analysis
- data set
- target variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
式中、V1、V2、…、Vnは複数の変数を示し、Yは目標変数(102)を示し、β0、β1、…、βnは回帰モデルの重みを示す。回帰モデルは、異常値データセットおよび正常値データセット(205)に適合される。回帰モデルの重みの間の差は異常値データセットに適合され、正常値データセット(205)は計算され、閾値よりも大きい差を有する1つ以上の変数(805)は、複数の変数に対して実施される回帰に基づいて、検出された1つ以上の異常の原因として識別される。
コンピュータシステム
図9は、本開示と一致する実施形態を実現する、例示のコンピュータシステム(900)のブロック図を示している。一実施形態では、コンピュータシステム(900)は、データセットにおける異常の根本原因を検出するための、変数をランク付けする方法を実現するのに使用されてもよい。コンピュータシステム(900)は、中央処理装置(「CPU」または「プロセッサ」)(902)を含んでもよい。プロセッサ(902)は、実行時間に動的にリソースを割り振るようにプログラムコンポーネントを実行する、少なくとも1つのデータプロセッサを含んでもよい。プロセッサ(902)は、統合システム(バス)コントローラ、メモリ(202)管理制御装置、浮動小数点装置、グラフィックス処理装置、デジタル信号処理装置などの専用処理装置を含んでもよい。
102 目標変数
103 メタデータ
104A 数値データセット
104B カテゴリデータセット
104C 時間データセット
104D 空間データセット
105 異常値検出部
106 異常値データセット
107 変数識別部
108 識別された変数データセット
109 ランキング部
110 ランク付けされたばらつき
111 グラフ表示
200 ランキングシステム
201 入出力インターフェース
202 メモリ
203 プロセッサ
204 データ
205 正常値データセット
206 他のデータ
207 モジュール
208 入力モジュール
(209) 出力モジュール
(210) 他のモジュール
601 クラスタ解析
602 クラスタ群
603 距離測定値
604 四分位解析
605 四分位間距離と比較
606 時系列解析
607 予測限界値
608 データ集計
801 相関解析
802 異常値データ相関
803 正常値データ相関
804 相関差
805 1つ以上の変数
900 コンピュータシステム
901 入出力インターフェース
902 プロセッサ
903 ネットワークインターフェース
904 記憶装置インターフェース
905 メモリ
906 ユーザインターフェース
907 オペレーティングシステム
908 ウェブサーバ
909 通信ネットワーク
910 入力デバイス
911 出力デバイス
912 遠隔デバイス
Claims (20)
- ランキングシステム(200)によって、データセット(101)からの複数の変数と、前記データセット(101)における目標変数(102)とを取得するステップと、
前記ランキングシステム(200)によって、前記複数の変数に対する前記目標変数のばらつきを識別して、前記ばらつきに存在する異常値に基づいて、前記複数の変数に対する前記目標変数(102)のばらつきにおける1つ以上の異常を検出するステップと、
前記ランキングシステム(200)によって、前記複数の変数に対して実施される1つ以上の統計的解析に基づいて、前記検出された1つ以上の異常を引き起こす前記複数の変数から、1つ以上の変数を識別するステップと、
前記ランキングシステム(200)によって、前記識別された1つ以上の変数(805)それぞれに対する前記目標変数(102)のばらつきであって、前記データセット(101)における異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきを、ランク付けするステップとを含む、データセット(101)における異常の根本原因を検出するための、変数をランク付けする方法。 - 前記複数の変数が、前記複数の変数のメタデータ(103)に基づいて、1つ以上のデータ型に集計される、請求項1に記載の方法。
- 前記1つ以上のデータ型が、数値データ型、カテゴリデータ型、時間データ型、および空間データ型のうち少なくとも1つを含む、請求項2に記載の方法。
- 前記メタデータ(103)が、前記複数の変数のデータ型を識別する規則セット、前記識別された1つ以上の変数(805)それぞれに対する前記目標変数(102)のばらつきを表示するための1つ以上のグラフ表示(111)、およびグラフ表示(111)がサポートする前記1つ以上のデータ型、ならびに前記複数の変数に対する前記目標変数(102)のばらつきを解析する1つ以上のデータ解析方法、および対応するデータ解析方法がサポートする前記1つ以上のデータ型のうち、少なくとも1つを含む、請求項2に記載の方法。
- 前記1つ以上のデータ解析方法が、クラスタ解析(601)、四分位解析(604)、および時系列解析(606)のうち少なくとも1つを含む、請求項4に記載の方法。
- 前記1つ以上の異常を検出するステップが、
各ばらつきに、前記複数の変数のデータ型に基づいて、1つ以上のデータ解析方法から少なくとも1つのデータ解析方法を適用するステップと、
前記適用された少なくとも1つのデータ解析方法の結果に基づいて、前記複数の変数に存在する異常値を識別するステップとを含む、請求項4に記載の方法。 - 各ばらつきの前記複数のデータ点から逸脱した少なくとも1つのデータ点を示す前記異常値が、集計された異常値データセット(106)と、前記異常値を有さない前記複数の変数の集計された正常値データセット(205)とを生成するのに使用される、請求項1に記載の方法。
- 前記1つ以上の変数(805)を識別するステップが、
前記1つ以上の統計的解析から少なくとも1つの統計的解析を、集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の集計された正常値データセット(205)に適用するステップと、
前記集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の前記集計された正常値データセット(205)に対する、前記統計的解析の結果の間の差を計算することによって、前記1つ以上の変数(805)を識別するステップとを含む、請求項1に記載の方法。 - 前記1つ以上の統計的解析が、相関解析(801)、回帰、および学習アルゴリズムのうち少なくとも1つを含む、請求項1に記載の方法。
- 前記識別された1つ以上の変数(805)それぞれに対する前記目標変数(102)の前記ばらつきのランク付けが、集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の集計された正常値データセット(205)に対する、統計的解析の結果の間の計算された差に基づいており、前記ばらつきを表示するため、前記1つ以上のグラフ表示(111)からグラフ表示(111)が選択される、請求項1に記載の方法。
- プロセッサ(203)と、
前記プロセッサに通信可能に連結され、前記プロセッサ(203)の命令を格納するメモリ(202)とを備え、該命令が実行されると、前記プロセッサ(203)が、
データセット(101)からの複数の変数と、前記データセット(101)における目標変数(102)とを取得し、
前記複数の変数に対する前記目標変数(102)のばらつきを識別して、前記ばらつきに存在する異常値に基づいて、前記複数の変数に対する前記目標変数(102)のばらつきにおける1つ以上の異常を検出し、
前記複数の変数に対して実施される1つ以上の統計的解析に基づいて、前記検出された1つ以上の異常を引き起こす前記複数の変数から、1つ以上の変数(805)を識別し、
前記識別された1つ以上の変数(805)それぞれに対する前記目標変数(102)のばらつきであって、前記データセット(101)における異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきをランク付けする、ランキングシステム(200)。 - 前記プロセッサ(203)が、前記複数の変数のメタデータ(103)に基づいて、前記取得された複数の変数を1つ以上のデータ型に集計するように構成された、請求項11に記載のランキングシステム(200)。
- 前記1つ以上のデータ型が、数値データ型、カテゴリデータ型、時間データ型、および空間データ型のうち少なくとも1つを含む、請求項12に記載のランキングシステム(200)。
- 前記メタデータ(103)が、前記複数の変数のデータ型を識別する規則セット、前記識別された1つ以上の変数(805)それぞれに対する前記目標変数(102)のばらつきを表示するための1つ以上のグラフ表示(111)、およびグラフ表示(111)がサポートする前記1つ以上のデータ型、ならびに前記複数の変数に対する前記目標変数(102)のばらつきを解析する1つ以上のデータ解析方法、および対応するデータ解析方法がサポートする前記1つ以上のデータ型のうち、少なくとも1つを含む、請求項12に記載のランキングシステム(200)。
- 前記1つ以上のデータ解析方法が、クラスタ解析(601)、四分位解析(604)、および時系列解析(606)のうち少なくとも1つを含む、請求項14に記載のランキングシステム(200)。
- 前記プロセッサ(203)が、前記1つ以上の異常を検出するように構成され、
各ばらつきに、前記複数の変数のデータ型に基づいて、1つ以上のデータ解析方法から少なくとも1つのデータ解析方法を適用するステップと、
前記適用された少なくとも1つのデータ解析方法の結果に基づいて、前記複数の変数に存在する異常値を識別するステップとを含む、請求項11に記載のランキングシステム(200)。 - 前記プロセッサ(203)が、前記複数の変数における識別された異常値に基づいて、集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の集計された正常値データセット(205)を生成するように構成され、更に前記異常値が、各ばらつきの前記複数のデータ点から逸脱した少なくとも1つのデータ点を示す、請求項11に記載のランキングシステム(200)。
- 前記プロセッサ(203)が、前記1つ以上の変数(805)を識別するように構成され、
前記1つ以上の統計的解析から少なくとも1つの統計的解析を、集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の集計された正常値データセット(205)に適用するステップと、
前記集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の前記集計された正常値データセット(205)に対する、前記統計的解析の結果の間の差を計算することによって、前記1つ以上の変数(805)を識別するステップとを含む、請求項11に記載のランキングシステム(200)。 - 前記1つ以上の統計的解析が、相関解析(801)、回帰、および学習アルゴリズムのうち少なくとも1つを含む、請求項11に記載のランキングシステム(200)。
- 前記プロセッサ(203)が、集計された異常値データセット(106)、および前記異常値を有さない前記複数の変数の集計された正常値データセット(205)に対する、統計的解析の結果の間の計算された差に基づいて、前記識別された1つ以上の変数(805)それぞれに対して、前記目標変数(102)の前記ばらつきをランク付けするように構成され、前記ばらつきを表示するため、前記1つ以上のグラフ表示(111)からグラフ表示(111)が選択される、請求項11に記載のランキングシステム(200)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201941028908 | 2019-07-18 | ||
IN201941028908 | 2019-07-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021018813A true JP2021018813A (ja) | 2021-02-15 |
JP6935551B2 JP6935551B2 (ja) | 2021-09-15 |
Family
ID=74566076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020116162A Active JP6935551B2 (ja) | 2019-07-18 | 2020-07-06 | データセットにおける異常の根本原因を検出する方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6935551B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022083A (zh) * | 2022-07-12 | 2022-09-06 | 中国人民银行清算总中心 | 一种异常定界方法和装置 |
CN115098740A (zh) * | 2022-07-25 | 2022-09-23 | 广州市海捷计算机科技有限公司 | 一种基于多源异构数据源的数据质量检测方法及装置 |
CN115392812A (zh) * | 2022-10-31 | 2022-11-25 | 成都飞机工业(集团)有限责任公司 | 一种异常根因定位方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132543A (ja) * | 2000-10-25 | 2002-05-10 | Hitachi Ltd | 計算機システムの管理方法 |
JP2007018216A (ja) * | 2005-07-07 | 2007-01-25 | Nec Corp | 適正在庫量算出システム及び適正在庫量算出方法 |
JP2011192097A (ja) * | 2010-03-16 | 2011-09-29 | Hitachi Ltd | 異常検知方法およびそれを用いた情報処理システム |
JP2015046133A (ja) * | 2013-08-29 | 2015-03-12 | 日本電信電話株式会社 | 制御装置、計算資源管理方法及び計算資源管理プログラム |
US20170102978A1 (en) * | 2015-10-07 | 2017-04-13 | Business Objects Software Ltd. | Detecting anomalies in an internet of things network |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
-
2020
- 2020-07-06 JP JP2020116162A patent/JP6935551B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132543A (ja) * | 2000-10-25 | 2002-05-10 | Hitachi Ltd | 計算機システムの管理方法 |
JP2007018216A (ja) * | 2005-07-07 | 2007-01-25 | Nec Corp | 適正在庫量算出システム及び適正在庫量算出方法 |
JP2011192097A (ja) * | 2010-03-16 | 2011-09-29 | Hitachi Ltd | 異常検知方法およびそれを用いた情報処理システム |
JP2015046133A (ja) * | 2013-08-29 | 2015-03-12 | 日本電信電話株式会社 | 制御装置、計算資源管理方法及び計算資源管理プログラム |
US20170102978A1 (en) * | 2015-10-07 | 2017-04-13 | Business Objects Software Ltd. | Detecting anomalies in an internet of things network |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022083A (zh) * | 2022-07-12 | 2022-09-06 | 中国人民银行清算总中心 | 一种异常定界方法和装置 |
CN115022083B (zh) * | 2022-07-12 | 2024-05-10 | 中国人民银行清算总中心 | 一种异常定界方法和装置 |
CN115098740A (zh) * | 2022-07-25 | 2022-09-23 | 广州市海捷计算机科技有限公司 | 一种基于多源异构数据源的数据质量检测方法及装置 |
CN115392812A (zh) * | 2022-10-31 | 2022-11-25 | 成都飞机工业(集团)有限责任公司 | 一种异常根因定位方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6935551B2 (ja) | 2021-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11670021B1 (en) | Enhanced graphical user interface for representing events | |
JP6935551B2 (ja) | データセットにおける異常の根本原因を検出する方法およびシステム | |
US10210189B2 (en) | Root cause analysis of performance problems | |
US11636160B2 (en) | Related content identification for different types of machine-generated data | |
US9436718B2 (en) | Systems and methods of generating and using a bitmap index | |
US11388211B1 (en) | Filter generation for real-time data stream | |
US10565172B2 (en) | Adjusting application of a set of data quality rules based on data analysis | |
US20220276946A1 (en) | Detection of computing resource leakage in cloud computing architectures | |
US20150256475A1 (en) | Systems and methods for designing an optimized infrastructure for executing computing processes | |
US8928663B2 (en) | Visualizing correlations in multi-dimensional data | |
US10938684B2 (en) | Disparate monitoring for IoT | |
US9043327B1 (en) | Performing flexible pivot querying of monitoring data using a multi-tenant monitoring system | |
US11036701B2 (en) | Data sampling in a storage system | |
US10353890B2 (en) | Automatic enumeration of data analysis options and rapid analysis of statistical models | |
US20170019462A1 (en) | Management method and computer | |
US10628978B2 (en) | Method and system for processing input data for display in an optimal visualization format | |
Ahmad et al. | A survey on big data analytics | |
US11847598B2 (en) | Method and system for analyzing process flows for a process performed by users | |
US20170300539A1 (en) | Method and result summarizing apparatus for providing summary reports options on query results | |
US10628452B2 (en) | Providing multidimensional attribute value information | |
US20240105284A1 (en) | User interface and backend system for pathogen analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6935551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |