JP2022083983A - コンピュータシステム、コンピュータプログラム及びコンピュータ実装方法(時系列データから導出されるデータ品質ベースの信頼度計算) - Google Patents
コンピュータシステム、コンピュータプログラム及びコンピュータ実装方法(時系列データから導出されるデータ品質ベースの信頼度計算) Download PDFInfo
- Publication number
- JP2022083983A JP2022083983A JP2021183697A JP2021183697A JP2022083983A JP 2022083983 A JP2022083983 A JP 2022083983A JP 2021183697 A JP2021183697 A JP 2021183697A JP 2021183697 A JP2021183697 A JP 2021183697A JP 2022083983 A JP2022083983 A JP 2022083983A
- Authority
- JP
- Japan
- Prior art keywords
- data
- kpi
- values
- value
- formulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000004590 computer program Methods 0.000 title claims abstract description 18
- 238000004088 simulation Methods 0.000 claims description 129
- 238000009472 formulation Methods 0.000 claims description 128
- 239000000203 mixture Substances 0.000 claims description 128
- 238000012545 processing Methods 0.000 claims description 88
- 238000005259 measurement Methods 0.000 claims description 79
- 238000006467 substitution reaction Methods 0.000 claims description 48
- 230000008439 repair process Effects 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 14
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 208000018910 keratinopathic ichthyosis Diseases 0.000 abstract description 309
- 238000004422 calculation algorithm Methods 0.000 description 88
- 238000003860 storage Methods 0.000 description 58
- 238000007689 inspection Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 37
- 238000004458 analytical method Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 26
- 238000004891 communication Methods 0.000 description 21
- 238000012512 characterization method Methods 0.000 description 19
- 238000012360 testing method Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 230000002085 persistent effect Effects 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 238000004886 process control Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 239000000834 fixative Substances 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
- Complex Calculations (AREA)
Abstract
【課題】エラーを示す問題点を有するデータの置換データに対する信頼度値を提供するコンピュータシステム、コンピュータプログラム及びコンピュータ実装方法(時系列データから導出されるデータ品質ベースの信頼度計算)を提供する。【解決手段】方法は、潜在的に誤りのあるデータインスタンスを特定する段階と、潜在的に誤りのあるデータインスタンスに対する予測される置換値を判定する段階と、夫々の予測された置換値に対する信頼度値を判定する段階と、予測される置換値のうちの1つの予測される置換値を用いて潜在的に誤りのあるデータインスタンスを解消する段階と、潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を生成する段階と、を含む。データの問題点、置換データ及び信頼度値はKPIに関連する。【選択図】図5C
Description
本開示は、時系列データ内の訂正されたデータに対する信頼度値を計算することに関し、より具体的には、1つ又は複数のエラーを示す問題点を有するデータに対する置換データの信頼度値を提供し、当該データの問題点、置換データ及び信頼度値は、1つ又は複数の重要業績評価指標(KPI)に関する。
事業体及び住居エンティティを含む多くの既知のエンティティは、例えば、モノのインターネット(IoT)デバイス、スマートホームデバイス、人の活動、機器活動度などの様々なソースから時系列データを収集するシステムを含む。収集されたデータは、省エネルギー、占有割り当てなどを促進するために分析され得る。
ときどき、制御されるデバイスの誤動作、それぞれのセンシングデバイスの誤動作、データ収集システムに関する問題点、データストレージシステム又はデータ伝送システムなどの様々な理由に起因して、収集された時系列データの一部に誤りがあり得る。
システム、コンピュータプログラム製品及び方法が、時系列データ内の訂正されたデータに対する信頼度値を計算するために提供される。
1つの態様において、時系列データ内の訂正されたデータに対する信頼度値を計算するために、コンピュータシステムが提供される。システムは、1つ又は複数の処理デバイス及び当該1つ又は複数の処理デバイスに動作可能に連結された少なくとも1つのメモリデバイスを含む。1つ又は複数の処理デバイスは、時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定し、1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定するように構成される。1つ又は複数の処理デバイスはまた、1つ又は複数の予測される値のそれぞれの予測された置換値に対する信頼度値を判定し、1つ又は複数の予測される置換値のうちの1つの予測される置換値を用いて1つ又は複数の潜在的に誤りのあるデータインスタンスを解消するように構成される。1つ又は複数の処理デバイスは、さらに、1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を生成するように構成される。
別の態様において、時系列データ内の訂正されたデータに対する信頼度値を計算するために、コンピュータプログラム製品が提供される。コンピュータプログラム製品は、1つ又は複数のコンピュータ可読記憶媒体及び当該1つ又は複数のコンピュータ記憶媒体上にまとめて格納されたプログラム命令を含む。製品はまた、時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定するプログラム命令を含む。製品は、さらに、1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定するプログラム命令を含む。製品はまた、1つ又は複数の予測される値のそれぞれの予測された置換値に対する信頼度値を判定するプログラム命令を含む。製品は、さらに、1つ又は複数の予測される置換値の1つの予測される置換値を用いて1つ又は複数の潜在的に誤りのあるデータインスタンスを解消するプログラム命令を含む。製品はまた、1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を生成するプログラム命令を含む。
さらに別の態様において、時系列データ内の訂正されたデータに対する信頼度値を計算するために、コンピュータ実装方法が提供される。方法は、時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定する段階を含む。方法はまた、1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定する段階を含む。方法は、さらに、1つ又は複数の予測される置換値のそれぞれの予測された置換値に対する信頼度値を判定する段階を含む。方法はまた、1つ又は複数の予測される置換値の1つの予測される置換値を用いて1つ又は複数の潜在的に誤りのあるデータインスタンスを解消する段階を含む。方法は、さらに、1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を生成する段階を含む。
本概要は、本開示の各態様、あらゆる実装もしくはあらゆる実施形態又はこれらの組み合わせを示すことは意図していない。これらの特徴及び他の特徴並びに利点は、添付図面と併せて本実施形態に関する以下の詳細な説明から明らかになろう。
本願に含まれる図面は、明細書に組み込まれ、その一部を形成する。それらは、本開示の実施形態を示しており、本記述と共に、本開示の原理を説明する役割を果たす。図面は特定の実施形態を例示するものであり、本開示を限定するものではない。
本開示は、様々な修正及び代替形態に補正可能であり、一方で図面には、それらの具体的内容が例示の目的で示されており、以下に詳細に説明されている。しかしながら、説明される特定の実施形態に本開示を限定する意図はないことを理解されたい。その反対に、本開示の精神及び範囲に含まれる修正例、均等例及び改変例のすべてをカバーする意図である。
本明細書において一般的に説明され、図に示される本実施形態のコンポーネントは、多岐にわたる異なる構成に配置されてよく、設計されてよいことが容易に理解されるであろう。故に、図に示されるような本実施形態の装置、システム、方法及びコンピュータプログラム製品の実施形態に関する以下の詳細な説明は、特許請求されるものとして実施形態の範囲を限定する意図はないが、単に選択された実施形態を表すものに過ぎない。さらに、本明細書では、特定の実施形態が例示の目的で説明されているが、実施形態の精神及び範囲から逸脱することなく様々な修正が行われてよいことが理解される。
本明細書全体にわたって、「選択した実施形態」、「少なくとも1つの実施形態」、「一実施形態」、「別の実施形態」、「他の実施形態」又は「実施形態」及び同様の言い回しへの言及は、実施形態に関連して説明される特有の特徴、構造又は特性が少なくとも1つの実施形態に含まれることを意味する。故に、本明細書全体にわたる様々な箇所において、「選択した実施形態」、「少なくとも1つの実施形態」、「一実施形態において」、「別の実施形態」、「他の実施形態」又は「実施形態」という表現の出現は、必ずしも同じ実施形態を指すわけではない。
例示的な実施形態は、図面を参照することにより最もよく理解され、全体にわたって、同様のパーツは同様の数字により指定されている。以下の説明は、例示の目的のみで意図されており、本明細書において、特許請求されるような実施形態と一致するデバイス、システム及び処理の特定の選択される実施形態を単に示しているだけである。
本開示は、クラウドコンピューティングに対する具体的な説明を含むが、本明細書で列挙される技術の実装は、クラウドコンピューティング環境に限定されるものではないことを理解されたい。むしろ、本開示の実施形態は、現在は知られていない又はもっと後になって開発されるあらゆる他のタイプのコンピューティング環境と連携して実装されることが可能である。
クラウドコンピューティングは、最小限の管理努力又はサービスのプロバイダとのやり取りで、迅速にプロビジョニング及びリリースされることができる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン及びサービス)の共有プールへの便利なオンデマンドネットワークアクセスを可能にするサービス提供のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル及び少なくとも4つの展開モデルを含み得る。
特性は以下のとおりである。
オンデマンドセルフサービス:クラウドコンシューマは、サービスのプロバイダとのヒューマンインタラクションを要求することなく、必要に応じて自動的に、サーバ時刻及びネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングできる。
幅広いネットワークアクセス:能力はネットワーク上で利用可能であり、異種のシンクライアント及びシッククライアントのプラットフォーム(例えば、携帯電話、ラップトップ及びPDA)による使用を促進する標準的なメカニズムを通じてアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースはプールされ、要求に従って動的に割り当て及び再割り当てされる異なる物理及び仮想リソースを持つマルチテナントモデルを用いて、複数のコンシューマにサービス提供する。コンシューマは、一般に、提供されるリソースの厳密な場所についての制御又は知識を有しないが、より高い抽象化レベル(例えば、国、州又はデータセンタ)で場所を指定することが可能であり得るという点で、場所独立性の意味がある。
迅速な伸縮性:能力は、すばやくスケールアウトするために、迅速かつ弾力的に、いくつかの場合では自動的にプロビジョニングされ得、すばやくスケールインするために迅速にリリースされ得る。コンシューマにとって、プロビジョニングに利用可能な能力はしばしば無制限にあるように見え、任意の量を任意の時点で購入され得る。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント)に対して適切ないくつかの抽象化レベルでのメータリング能力を利用して、リソース使用を自動的に制御して最適化する。リソースの利用状況をモニタリング、制御及び報告することでき、利用されるサービスのプロバイダ及びコンシューマの両方に対し透明性を提供する。
サービスモデルは以下のとおりである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される能力は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインタフェースを通じて、様々なクライアントデバイスからアクセス可能である。コンシューマは、限定的なユーザ固有のアプリケーション構成設定は例外であり得るが、ネットワーク、サーバ、オペレーティングシステム、ストレージ又はさらには個々のアプリケーション能力を含む基本的なクラウドインフラストラクチャを管理又は制御しない。
サービスとしてのプラットフォーム(PaaS):コンシューマに提供される能力は、プロバイダによりサポートされるプログラミング言語及びツールを用いてコンシューマが作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム又はストレージを含む基本的なクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション及び場合によってはアプリケーションホスティング環境構成を介したコントロールを有する。
サービスとしてのインフラストラクチャ(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク及び他の基礎的なコンピューティングリソースをプロビジョニングすることであり、コンシューマは、オペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを展開及び実行可能である。コンシューマは、基本的なクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを介したコントロール、及び、場合によっては選択したネットワーキングコンポーネント(例えば、ホストファイヤウォール)の限定的な制御を有する。
展開モデルは、以下のとおりである。
プライベートクラウド:クラウドインフラストラクチャは、ある組織のためのみに動作される。クラウドインフラストラクチャは、その組織又はサードパーティにより管理されてよく、オンプレミス又はオフプレミスに存在してよい。
コミュニティクラウド:クラウドインフラストラクチャは、いくつかの組織により共有され、関心事(例えば、ミッション、セキュリティ要件、ポリシ、及びコンプライアンス考慮事項)を共有する特定のコミュニティをサポートする。クラウドインフラストラクチャは、その組織又はサードパーティにより管理されてよく、オンプレミス又はオフプレミスに存在してよい。
パブリッククラウド:クラウドインフラストラクチャは、一般公衆又は大きな産業グループに対して利用可能にされ、クラウドサービスを販売する組織により所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、独自のエンティティのままであるが、データ及びアプリケーションポータビリティ(例えば、クラウド間の負荷バランスを取るためのクラウドバースティング)を可能にする標準化又はプロプライエタリ技術により共に結びつけられた2つ又はそれより多くのクラウド(プライベート、コミュニティ又はパブリック)の合成である。
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの中核には、相互接続されたノードで構成されるネットワークを含むインフラストラクチャが存在する。
ここで図1を参照すると、例示的なクラウドコンピューティング環境50が示される。図示されるように、クラウドコンピューティング環境50は、1つ又は複数のクラウドコンピューティングノード10を含み、例えば、パーソナルデジタルアシスタント(PDA)又はセルラフォン54A、デスクトップコンピュータ54B、ラップトップコンピュータ54Cもしくは車両コンピュータシステム54N又はその組み合わせなどのクラウドコンシューマにより用いられるローカルコンピューティングデバイスは、当該ノードと通信してよい。ノード10は、互いと通信してよい。ノード10は、上記で説明されたプライベート、コミュニティ、パブリックもしくはハイブリッドクラウド又はそれら組み合わせなどの1つ又は複数のネットワーク内で、物理的又は仮想的にグループ化されてよい(図示されていない)。これにより、クラウドコンピューティング環境50は、クラウドコンシューマがローカルコンピューティングデバイス上のリソースを維持する必要のないサービスとしてのインフラストラクチャ、サービスとしてのプラットフォームもしくはサービスとしてのソフトウェア又はその組み合わせを提供できるようにする。図1に示されるコンピューティングデバイス54A-Nのタイプは、専ら例示的なものを意図し、コンピューティングノード10及びクラウドコンピューティング環境50は、任意のタイプのネットワークもしくはネットワークアドレス指定可能な接続(例えば、ウェブブラウザを用いて)又はその両方を介して、任意のタイプのコンピュータ化されたデバイスと通信できることが理解される。
ここで図2を参照すると、クラウドコンピューティング環境50(図1)により提供される機能的抽象化レイヤのセットが示されている。図2に示されるコンポーネント、レイヤ及び機能は、専ら例示的なものであることを意図しており、本開示の実施形態は、これらに限定されるものではないことを予め理解されたい。描かれているように、以下のレイヤ及び対応する機能が提供される。
ハードウェア及びソフトウェアレイヤ60は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例としては、メインフレーム61と、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ62と、サーバ63と、ブレードサーバ64と、ストレージデバイス65と、ネットワーク及びネットワークコンポーネント66とが含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67及びデータベースソフトウェア68を含む。
仮想化レイヤ70は、仮想エンティティの以下の例が提供されてよい抽象化レイヤを提供し、その例とは、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティングシステム74並びに仮想クライアント75である。
1つの例において、管理レイヤ80は、以下で説明される機能を提供してよい。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。測定及び価格設定82は、リソースがクラウドコンピューティング環境内で用いられる際のコスト追跡及びこれらのリソースの消費に対する請求書又はインボイスを提供する。1つの例において、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウドコンシューマの身元確認及びタスク、並びに、データ及び他のリソースのための保護を提供する。ユーザポータル83は、コンシューマ及びシステム管理者に対し、クラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービスレベルアグリーメント(SLA)プランニング及び遂行85は、SLAに従って将来の要件が予期されるクラウドコンピューティングリソースに対する事前取り決め及び調達を提供する。
ワークロードレイヤ90は、クラウドコンピューティング環境が利用され得るための機能の例を提供する。このレイヤから提供され得るワークロード及び機能の例は、マッピング及びナビゲーション91と、ソフトウェア開発及びライフサイクル管理92と、仮想クラスルームでの教育配信93と、データ解析処理94と、トランザクション処理95と、時系列データに対する信頼度値の計算96とを含む。
図3を参照すると、本明細書において、コンピュータシステム100と称される例示的なデータ処理システムのブロック図が提供される。システム100は、単一の場所にあるコンピュータシステム/サーバにおいて具現化されてよい、又は、少なくとも1つの実施形態において、コンピューティングリソースを共有するクラウドベースのシステムにおいて構成されてよい。例えば、限定することなく、コンピュータシステム100は、クラウドコンピューティングノード10として用いられてよい。
コンピュータシステム100の態様は、単一の場所にあるコンピュータシステム/サーバにおいて具現化されてよい、又は、少なくとも1つの実施形態において、本明細書で説明されるシステム、ツール及び処理を実装するクラウドベースサポートシステムとして、コンピューティングリソースを共有するクラウドベースのシステムにおいて構成されてよい。コンピュータシステム100は、多くの他の汎用又は専用のコンピュータシステム環境又は構成で動作可能である。コンピュータシステム100と共に用いるのに好適であってよい周知のコンピュータシステム、環境もしくは構成又はその組み合わせ例として、限定されるものではないが、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドデバイス又はラップトップデバイス、マイクロプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、及び、上記のシステム、デバイス及びそれらの均等物の任意の物を含むファイルシステム(例えば、分散ストレージ環境及び分散クラウドコンピューティング環境)が含まれる。
コンピュータシステム100は、コンピュータシステム100により実行されるプログラムモジュールなどのコンピュータシステムが実行可能な命令の一般的なコンテキストで説明されてよい。一般に、プログラムモジュールは、特定のタスクを実行する、又は、特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータシステム100は、タスクが通信ネットワークを通じてリンクされたリモート処理デバイスにより実行される分散クラウドコンピューティング環境で実施されてよい。分散クラウドコンピューティング環境において、プログラムモジュールは、メモリストレージデバイスを含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方に配置されてよい。
図3に示されるように、コンピュータシステム100は、汎用コンピューティングデバイスの形式で示されている。コンピュータシステム100のコンポーネントは、限定されるものではないが、1つ又は複数のプロセッサ又は処理デバイス104(プロセッサ及び処理ユニットと称される場合がある)、例えば、ハードウェアプロセッサと、システムメモリ106(メモリデバイスと称される場合がある)と、システムメモリ106を含む様々なシステムコンポーネントを処理デバイス104に連結する通信バス102とを含んでよい。通信バス102は、任意のいくつかのタイプのバス構造のうちの1つ又は複数を表し、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート及び任意の様々なバスアーキテクチャを用いるプロセッサ又はローカルバスを含む。例示であって限定の目的ではなく、そのようなアーキテクチャとしては、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクススタンダードアソシエーション(VESA)ローカルバス及びペリフェラルコンポーネントインターコネクト(PCI)バスが含まれる。コンピュータシステム100は、典型的には、様々なコンピュータシステム可読媒体を含む。そのような媒体は、コンピュータシステム100によりアクセス可能な任意の利用可能な媒体であってよく、そのような媒体は、揮発性媒体及び不揮発性媒体の両方、リムーバブル及び非リムーバブル媒体を含む。さらに、コンピュータシステム100は、1つ又は複数の永続ストレージデバイス108、通信ユニット110、入力/出力(I/O)ユニット112及びディスプレイ114を含んでよい。
処理デバイス104は、システムメモリ106にロードされ得るソフトウェアに対する命令を実行するようにサービス提供する。処理デバイス104は、特定の実装に応じて、複数のプロセッサ、マルチコアプロセッサ又は他の特定のタイプのプロセッサであってよい。本明細書においてアイテムについて用いられるような数は、1つ又は複数のアイテムを意味する。さらに、処理デバイス104は、単一チップ上にメインプロセッサがセカンダリプロセッサと共に存在する複数の異種プロセッサシステムを用いて実装されてよい。別の例示として、処理デバイス104は、同じタイプの複数のプロセッサを含む対称的なマルチプロセッサシステムであってよい。
システムメモリ106及び永続ストレージ108は、ストレージデバイス116の例である。ストレージデバイスは、情報を格納することが可能なハードウェアの任意の部分であってよく、情報は、例えば、限定することなく、データ、機能的形式のプログラムコード及び/又は一時的ベース及び/又は永続的ベースのいずれかの他の好適な情報などである。システムメモリ106は、これらの例において、例えば、ランダムアクセスメモリ又は任意の他の好適な揮発性又は不揮発性のストレージデバイスであってよい。システムメモリ106は、ランダムアクセスメモリ(RAM)もしくはキャッシュメモリ又はその両方などの揮発性メモリの形態のコンピュータシステム可読媒体を含んでよい。
永続ストレージ108は、特定の実装に応じて、様々な形式を取ってよい。例えば、永続ストレージ108は、1つ又は複数のコンポーネント又はデバイスを含んでよい。例えば、限定することなく、永続ストレージ108は、非リムーバブルの不揮発性磁気媒体(図示されていない、典型的に「ハードドライブ」と呼ばれる)との間で読み出し及び書き込みをするために提供され得る。図示されていないが、リムーバルの不揮発性磁気ディスク(例えば、「フロッピーディスク」)との間で読み出し及び書き込みを行うための磁気ディスクドライブと、CD-ROM、DVD-ROM又は他の光学的媒体などのリムーバル不揮発性光ディスクとの間で読み出し又は書き込みを行うための光ディスクドライブとが提供され得る。そのような例において、それぞれは、1つ又は複数のデータメディアインタフェースにより通信バス102に接続されてよい。
通信ユニット110は、これらの例において、他のコンピュータシステム又はデバイスとの通信を提供してよい。これらの例において、通信ユニット110は、ネットワークインタフェースカードである。通信ユニット110は、物理リンク及び無線通信リンクのいずれか又は両方の使用を通じて通信を提供してよい。
入力/出力ユニット112は、コンピュータシステム100に接続され得る他のデバイスとのデータの入力及び出力を可能にし得る。例えば、入力/出力ユニット112は、キーボード、マウスもしくはいくつかの他の好適な入力デバイス又はこれらの組み合わせを通じてユーザ入力のための接続を提供してよい。さらに、入力/出力ユニット112は、プリンタに出力を送信してよい。ディスプレイ114は、ユーザに情報を表示するメカニズムを提供してよい。コンピュータシステム100内の様々なデバイス間での通信の確立を促進する入力/出力ユニット112の例は、限定することなく、ネットワークカード、モデム及び入力/出力インタフェースカードを含む。さらに、コンピュータシステム100は、ネットワークアダプタ(図3において示されていない)を介して、ローカルエリアネットワーク(LAN)、一般的なワイドエリアネットワーク(WAN)もしくはパブリックネットワーク(例えば、インターネット)又はその組み合わせなどの1つ又は複数のネットワークと通信してよい。図示されていないが、他のハードウェアコンポーネントもしくはソフトウェアコンポーネント又はその両方がコンピュータシステム100と併せて用いられることができることを理解されたい。そのようなコンポーネントの例は、制限されるものではないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ及びデータアーカイブストレージシステムが含まれる。
オペレーティングシステム、アプリケーションもしくはプログラム又はその組み合わせのための命令は、ストレージデバイス116内に配置されてよく、ストレージデバイス116は、通信バス102を通じて処理デバイス104と通信する。これらの例示において、命令は、永続ストレージ108上の機能的形式である。これらの命令は、処理デバイス104により実行されるために、システムメモリ106にロードされてよい。異なる実施形態のプロセスは、コンピュータ実装命令を用いて処理デバイス104によって実行されてよく、当該命令は、システムメモリ106などのメモリ内に配置されてよい。これらの命令は、処理デバイス104内のプロセッサにより読み出されて実行され得るプログラムコード、コンピュータ使用可能プログラムコード又はコンピュータ可読プログラムコードと称されてよい。異なる実施形態におけるプログラムコードは、システムメモリ106又は永続ストレージ108などの異なる物理的又は有形のコンピュータ可読媒体上に具現化されてよい。
プログラムコード118は、選択的に取り外し可能であるコンピュータ可読媒体120上に機能的形式で配置されてよく、処理デバイス104による実行のために、コンピュータシステム100にロードされてよく、又は、転送されてよい。これらの例において、プログラムコード118及びコンピュータ可読媒体120は、コンピュータプログラム製品122を形成してよい。1つの例において、コンピュータ可読媒体120は、コンピュータ可読記憶媒体124又はコンピュータ可読信号媒体126であってよい。コンピュータ可読記憶媒体124は、例えば、永続ストレージ108の一部であるハードドライブなどのストレージデバイスに転送するために、永続ストレージ108の一部であるドライブ又は他のデバイスに挿入される又は配置される光ディスク又は磁気ディスクを含んでよい。コンピュータ可読記憶媒体124はまた、コンピュータシステム100に接続されるハードドライブ、サムドライブ又はフラッシュメモリなどの永続ストレージの形式を取ってもよい。いくつかの例において、コンピュータ可読記憶媒体124は、コンピュータシステム100から取り外し可能でなくてよい。
代替的に、プログラムコード118は、コンピュータ可読信号媒体126を用いてコンピュータシステム100に転送されてよい。コンピュータ可読信号媒体126は、例えば、プログラムコード118を含む伝搬されたデータ信号であってよい。例えば、コンピュータ可読信号媒体126は、電磁信号、光学信号もしくは任意の他の適切なタイプの信号又はこれらの組み合わせであってよい。これらの信号は、無線通信リンク、光ファイバケーブル、同軸ケーブル、有線もしくは任意の他の適切なタイプの通信リンク又はその組み合わせなどの通信リンクを経由して伝送されてよい。つまり、例示において、通信リンクもしくは接続又はその両方は、物理的であってよく、又は無線であってよい。
いくつかの例示的な実施形態において、プログラムコード118は、ネットワーク経由で別のデバイス又はコンピュータシステムから、コンピュータ可読信号媒体126を通じて永続ストレージ108にダウンロードされて、コンピュータシステム100内で用いられてよい。例えば、サーバコンピュータシステム内のコンピュータ可読記憶媒体内に格納されたプログラムコードは、ネットワーク経由でサーバからコンピュータシステム100にダウンロードされてよい。プログラムコード118を提供するコンピュータシステムは、サーバコンピュータ、クライアントコンピュータ、又はプログラムコード118を格納及び送信可能ないくつかの他のデバイスであってよい。
プログラムコード118は、例示であって限定の目的ではなく、システムメモリ106内に格納されてよい1つ又は複数のプログラムモジュール(図3示されていない)並びにオペレーティングシステム、1つ又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでよい。オペレーティングシステム、1つ又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータ又はこれらのいくつかの組み合わせの各々は、ネットワーク環境の実装を含んでよい。プログラムコード118のプログラムモジュールは一般に、本明細書に説明されるような実施形態の機能もしくは方法論又はその両方を実行する。
コンピュータシステム100について例示される異なる複数のコンポーネントは、異なる実施形態が実装され得る方式に関するアーキテクチャ上の限定をもたらすことを意味しているわけではない。異なる例示的な実施形態は、コンピュータシステム100について例示されたものに加えて又はその代わりとなるコンポーネントを含むコンピュータシステムにおいて実装されてよい。
本開示は、統合の考え得る任意の技術的な詳細レベルにおけるシステム、方法もしくはコンピュータプログラム製品又はこれらの組み合わせであってよい。コンピュータプログラム製品は、プロセッサに、本開示の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は、複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持及び格納できる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、限定されるものではないが、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は、前述の任意の好適な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、その上に命令が記録されたパンチカード又は溝に浮き彫りされた構造などの機械的にエンコードされたデバイス及び前述の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書で用いられるように、例えば、無線波又は他の自由に伝搬される電磁波、導波路又は他の送信媒体(例えば、ファイバ光ケーブルを通過する光パルス)を通じて伝搬される電磁波又は有線を通じて伝送される電気信号といった、一時的信号それ自体として解釈されないものとする。
本明細書に説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされてよく、又は、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワーク又はこれらの組み合わせといったネットワーク経由で外部コンピュータもしくは外部ストレージデバイスにダウンロードされてよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ又はその組み合わせを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされてよく、又は、例えばインターネット、ローカルエリアネットワーク、広域ネットワークもしくは無線ネットワーク又はこれらの組み合わせといったネットワーク経由で外部コンピュータもしくは外部ストレージデバイスにダウンロードされてよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ又はその組み合わせを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本開示の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、又は、Smalltalk(登録商標)又はC++などのオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの手続型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせにおいて記述されたソースコード又はオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、全部がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、又は全体がリモートコンピュータ上でもしくはサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、又は、(例えば、インターネットサービスプロバイダを利用してインターネットを通じて)外部コンピュータに接続されてもよい。いくつかの実施形態において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本開示の態様を実行すべく、コンピュータ可読プログラム命令の状態情報を用いてコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。
本開示の態様は、本開示の実施形態による方法、装置(システム)及びコンピュータプログラム製品のフローチャート図もしくはブロック図又はその両方を参照して本明細書で説明される。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサ又は他のプログラマブルデータ処理装置に提供されて、マシンを生成してよく、当該命令は、当該コンピュータのプロセッサ又は他のプログラマブルデータ処理装置により実行され、フローチャートもしくはブロック図又はその両方のブロック又は複数のブロックに指定された機能/動作を実装するための手段を形成する。これらのコンピュータ可読プログラム命令はまたコンピュータ可読記憶媒体内に格納されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置及び/又は他のデバイスに対し、特定の態様で機能するよう命令し得、その結果、格納された命令を有するコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図のブロック又は複数のブロックに指定された機能/動作の態様を実装する命令を含む製品を備えるようになる。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、当該コンピュータ、当該他のプログラム可能装置又は他のデバイス上で一連の動作ステップが実行されて、コンピュータ実装プロセスを生成してよく、その結果、当該コンピュータ、他のプログラム可能装置又は他のデバイス上で実行される当該命令が、フローチャートもしくはブロック図又はその両方のブロック又は複数のブロックに指定された機能/動作を実装する。
図におけるフローチャート及びブロック図は、本開示の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の考えられる実装のアーキテクチャ、機能及び処理を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント又は命令の一部を表す場合がある。いくつかの代替的な実装において、ブロックに示されている機能は、図に示されている順序以外で現れてよい。例えば、連続して示される2つのブロックは、実際には、1つのステップとして実行され、部分的又は全体的に時間的に重複する方法で、同時に、又は実質的に同時に実行され得るか、又は、場合によっては、関連する機能に応じてブロックが逆の順序で実行され得る。ブロック図もしくはフローチャート図又はその組み合わせの各ブロック、並びに、ブロック図もしくはフローチャート図又はその組み合わせにおけるブロックの組み合わせは、指定された機能又は行動を実行する専用ハードウェアベースのシステムによって実装できる、又は、専用ハードウェア及びコンピュータ命令の組み合わせを実行できることにも留意されたい。
事業体及び住居エンティティを含む多くの既知のエンティティは、例えば、モノのインターネット(IoT)デバイス、スマートホームデバイス、人の活動、機器活動度などの様々なソースから時系列データを収集するシステムを含む。収集されたデータは、省エネルギー、占有割り当てなどを促進するために分析され得る。ときどき、制御されるデバイスの誤動作、それぞれのセンシングデバイスの誤動作、データ収集システムに関する問題点、データストレージシステム又はデータ伝送システムなどの様々な理由に起因して、収集された時系列データの一部に誤りがあり得る。例えば、一実施形態において、占有管理システムは、ピーク負荷値に関する電力使用量を評価し、誤り占有データ値に応じてピーク使用料を回避すべく、関連する空間にある予め定められたデバイスの電気供給の停止を誤って開始してしまう可能性がある。
また、多くの既知のエンティティは、1つ又は複数の重要業績評価指標(KPI)を保有しており、本明細書で用いられるように、KPIは、1つ又は複数の重要な目標と関連付けられた1つ又は複数の測定可能な指標を指す。KPIは、これらの重要な目標を満たした時点での成功の評価を通じて重要な目標を達成することを促進する。企業規模のKPIが用いられてよく、並びに、より低いレベルの下位組織固有のKPI、例えば、売り上げ、マーケティング、HR、ITサポート及びメンテナンスKPIが用いられてよいという点で、KPIは、スケーラブルである。いくつかの実施形態において、KPIは、1つ又は複数の文書において明示的に特定及び説明され、いくつかの実施形態において、KPIは、収集されたデータの解析に応じて明らかになり、「隠れた」KPIが「発見」されるかもしれず、以前に規定されていたKPIが検証され得る。
1つ又は複数のセンサデバイスから時系列データを収集することに対して、システム、コンピュータプログラム製品及び方法が本明細書において開示及び説明されている。いくつかの実施形態において、システムは、データ品質-KPI予測信頼度エンジンを含む。収集された時系列データは、本明細書において、「元のデータ」及び「元の時系列データストリーム」と称される。示されない限り、各時系列データのストリームは、様々な実施形態について本明細書で説明されるように、単一のセンシングデバイスに又は複数のセンサに由来し、当該ストリームは、組み合わせ、例えば、それぞれのセンサからの出力、又は、オークションにかけられた、又は、別の方法で選択された複数のセンサのうちの1つのセンサからの出力の集約のいずれかである。また、示されない限り、システムは、本明細書で説明されるように、データストリームの数に応じて、限定することなく、複数のデータストリームを同時に分析するように構成される。したがって、システムは、本明細書で説明されるように、個々のデータストリームを分析するように構成される。
1つ又は複数の実施形態において、それぞれのデータストリーム内に埋め込まれたデータの品質が分析され、2段階プロセスを通じてそれぞれのデータに関するそれぞれの1つ又は複数のKPIに応じて、判定が行われる。初めに、データパケットのような元のデータの品質がセンサからデータ検査モジュールに伝送され、データパケットは、データ検査モジュール内に埋め込まれたデータ検査サブモジュールにより検査される。いくつかの場合、1つ又は複数のデータパケットは、潜在的に欠陥のあるデータを含むものとして、それぞれのデータパケットを特定する問題点を含んでよい。そのような問題点の1つは、サンプリング周波数と関連付けられ得る。例えば、限定することなく、データ検査サブモジュールは、データセンサのサンプリング周波数をチェックして、データに複数のサンプリング周波数が存在するかどうか、例えば、サンプリング周波数に偶発的な混乱(occasional perturbation)があるかどうか、及び、連続したサンプリング周波数の変化があるかどうかを判定する。また、例えば、限定することなく、データ検査サブモジュールは、データのタイムスタンプをチェックして、データにタイムスタンプが欠損しているかどうか、連続的な延長された継続時間にデータが欠損しているかどうか、及び、変化したフォーマットのタイムスタンプがあるかどうかを判定する。また、例えば、限定することなく、データ検査サブモジュールは、構文的な値の問題点をチェックして、数値であると推定されるデータが、「非数(NaN)」、及び、不適切な数値の丸め及び端数切り捨てであるデータの広範な継続時間を含むかどうかを判定する。さらに、例えば、限定することなく、データ検査サブモジュールは、セマンティックな値の問題点をチェックし、データのいずれかが異常イベント及びノイズの多いデータを含むかどうかを判定する。したがって、データ検査サブモジュールは、ストリーム内のデータを調査し、データが予め定められた許容範囲内にあるかどうか、及び、データ内及びエラーにおいて何らかの疑わしいエラーがあるかどうかを判定する。
いくつかの実施形態では、2つの様式、すなわち、(上述したように)データ品質を判定するためにシステムが操作しようとしている元のデータの処理、及び、データに適用される予定の1つ又は複数のKPI策定の判定がある。本明細書で用いられるように、KPI策定は、1つ又は複数のKPI特性を含み、KPI特性はまた、限定することなく、策定の詳細、例えば、限定することなく、1つ又は複数のデータの問題点を含み、策定のアルゴリズムは、アルゴリズム自体と、それぞれのKPIの任意のパラメータ及び定義とを対象とする。いくつかの実施形態では、データ検査モジュール通じて、両方の様式が実行される、すなわち、データ検査サブモジュールを通じて、データ品質が評価され、データ検査サブモジュールに動作可能に連結されるKPI特性判定サブモジュールを通じて、KPIで特徴付けられた策定評価が実行される。いくつかの実施形態において、KPI特性判定サブモジュールは、データ検査モジュールに動作可能に連結される別個のモジュールである。したがって、データ検査の特徴及び関連のあるKPI策定特性の判定が密接に統合される。
少なくともいくつかの実施形態において、そのようなKPI策定特性の少なくとも一部は、典型的には、到着したデータストリームを操作して、それぞれのKPIをサポートするために必要な出力データ及び機能をユーザに提供するアルゴリズムとして実装される。また、いくつかの実施形態において、KPI策定は、KPI特性判定サブモジュール内に埋め込まれるKPI策定サブモジュール内に容易に配置される。したがって、前述したように、データは、初めに、一定の許容範囲内にあることを検証すべくチェックされ、それから第2に、1つ又は複数の特定のKPIと潜在的に誤りのあるデータとに何らかの関連性があるかどうかの判定が行われる。1つ又は複数の実施形態において、収集された元のデータの少なくとも一部は、いずれのKPIとも関連付けられておらず、したがって、そのような誤りのある元のデータは、所与のKPIに対するインパクトは強くない。したがって、関連する問題点の初期の識別を実行すべく、シンプルなKPI関連性テストが実行される。例えば、限定することなく、1つ又は複数の特定のKPIが平均ベースの策定を用いており、かつ、それぞれのデータストリーム内の潜在的に誤りのあるデータが順序のないタイムスタンプを含む場合、当該順序のないタイムスタンプは、それぞれの1つ又は複数のKPIに対して何も影響を与えないと判定される。同様に、1つ又は複数の特定のKPIが中央値又はモードベースの策定である場合、それぞれのデータストリーム内の外れ値の存在は、それぞれのKPIに対して何も影響を与えない。したがって、いくつかの誤りのあるデータ特性は、特定のKPIに対して影響がないかもしれず、そのようなデータは、本明細書においてさらに説明されるKPIに関連する解析とは関係ない。
いくつかの実施形態において、採用され得るKPI関連性を判定するための1つのさらなるメカニズムは、既知の誤りのないデータと、いくつかの実施形態では、誤りの疑いがあるデータと有する元の時系列データストリームの少なくとも一部を、KPI策定サブモジュール内の1つ又は複数のそれぞれのKPI策定に渡して、それらから数値を生成する、すなわち、それらから元のKPIテスト値を生成する。具体的には、誤りのある値がないデータは、少なくとも1つの値を既知の誤りのある値に変更するように操作されてよく、それにより、それぞれの1つ又は複数のKPIからインピュートされるKPIテスト値を生成すべくそれらにも渡されるインピュートされるエラーを運んでいるデータを生成する。いくつかの実施形態において、注入されるエラーは、限定することなく、元のデータストリーム内のデータのいくつかのランダム選択、及び、欠損データの問題点が関連しているかどうかを判定するためのそのようなランダムなデータの除去、及び、外れ値の問題点が関連するかどうかを判定するための、既知の誤りのないデータと、確立された許容範囲を超えて拡張することが知られている注入値とのランダム選択を含んでよい。元のKPIテスト値に対して、インピュートされるKPIテスト値が比較され、その間に十分な類似性がある場合、元のデータ、すなわち、元のデータと関連付けられた問題点は、それぞれのKPIに関連するものとして分類される。インピュートされるKPIテスト値と元のKPIテスト値との間の類似性が十分でない場合、前述の問題点を含む元のデータは、それぞれのKPIに関係ないものとして分類される。したがって、元のデータストリーム内の疑わしい、又は別の方法で特定されるデータエラー間に何らかの関連関係があるかどうかを判定すべく、その中に埋め込まれる予め定められたエラーを有するデータは、それぞれのKPI策定に対して誤りのあるデータの何らかの関連性及び相当な影響があるかどうかを判定するために用いられる。
少なくともいくつかの実施形態において、KPI特性判定が実行される。KPI特性評価と称される場合がある各KPI特性判定に対する基礎は、1つ又は複数のKPI、例えば、ビジネスについては1つ又は複数のビジネス固有のKPI、及び、個人住居については1つ又は複数の住居固有のKPIを含む。いくつかの実施形態において、KPIは、予め定められており、例えば、特定の事業目標を達成することを目指して、成功の明示的な測定又はそれらの不足として説明される。いくつかの実施形態において、KPIは、その他の点で、事業目標を達成するための未確認の測定を判定すべく、業務データの収集及び解析に応じて展開され、それにより、1つ又は複数の追加のKPIの特定が容易になる。したがって、元のものに関わらず、KPIは、元のデータにおいて発見されるそれぞれの問題点に対して、KPI内で関連する固有の性質を合致させるために、いくつかの例では、関連する問題点の特定を容易にするために利用可能である。
1つ又は複数の実施形態において、元のデータがデータ検査モジュールへと伝送されたときに、KPI特性判定オペレーションがその場で実行される。また、リアルタイムに生成される元のデータの問題点の性質は前もって知られていないので、データ検査及びKPI特性判定は、リアルタイムに動的に行われることになる。したがって、それぞれのKPIのそれぞれの策定内に埋め込まれるそれぞれの特性を用いたそれぞれのKPIの判定は、到着した元のデータに影響を与えている問題点の判定と併せて実行される。KPI特性判定の少なくとも一部は、元のデータと関連付けられるそれぞれのKPIの性質を判定することを含む。いくつかの実施形態において、到着した元のデータの一部は、KPIと何も関連付けられておらず、このデータは、本開示に関してはこれ以上操作されることはなく、任意の埋め込まれている問題点は無視され、そのままデータが処理されるか、又は、問題点の通知が1つ又は複数の方式でユーザに伝送されるかのいずれかである。他の実施形態において、到着した元のデータと関連するKPI策定との関係がさらに判定される。
実施形態において、KPI策定は、2つのタイプの策定、すなわち、「観測可能なボックス」及び「観測可能でないボックス」策定のうちの1つにグループ化される。観測可能なボックスKPI策定は、検査のために利用可能である、すなわち、詳細が観測され、KPI特性判定サブモジュールは、観測可能なボックスサブモジュールを含む。観測可能でないボックスKPI策定は、動作及びその中に含まれるアルゴリズムに応じて不透明であり、例えば、限定することなく、それぞれの観測可能でないボックスアルゴリズム及び動作は、実際にはプロプライエタリであってよく、それぞれのユーザは、それらのコンテンツに対するいくつかのレベルの秘密性及び機密性を要求する。KPI特性判定サブモジュールは、観測可能でないボックスサブモジュールを含む。観測可能なボックス及び観測可能でないボックスKPI策定の両方についてのいくつかの実施形態では、関連するアルゴリズムは、限定することなく、最大値の判定、最小値の判定、平均値の判定、中央値の判定、及び、他の統計上の判定、例えば、限定することなく、標準偏差解析のうちの1つ又は複数を含む問題点を用いたデータに関する周辺の元のデータ値の1つ又は複数の解析を適切なKPI特性策定が含むか否かを調査する。前述したように、それぞれの元のデータとKPI策定特性との間に関係がない場合、本開示ごとの問題点を抱えるデータに対して、さらなる動作が取られることはない。したがって、(両方ともユーザにより供給される)KPIとの関係を有する元のデータと関連付けられたこれらの問題点について、観測可能なボックスか観測可能でないボックスかのKPI策定の性質、すなわち、特性が、関連するKPIに悪影響を与え得る関連するデータ品質の問題点を適切に分類でき、後続の最適化を実行できるように判定される。
1つ又は複数の実施形態において、スナップショット生成モジュールは、既知の埋め込まれている問題点を有する誤りのあるデータ及びそれぞれのKPI策定特性を含むデータ検査モジュールの出力を受信する。スナップショット生成モジュールは、元のデータのシミュレーションを容易にする製品に配置される1つ又は複数のモデルを通じて、それぞれのデータ値のシミュレーションを通じてシミュレーションされたデータのスナップショットを生成するように構成される。いくつかの実施形態において、方法ベースのシミュレーション及びポイントベースのシミュレーションが用いられる。当該シミュレーションのいずれかは、同時に両方を含む誤りのあるデータにおける問題点の性質に関わらず用いられてよく、一方、いくつかの実施形態では、2つのシミュレーションの選択が元のデータの品質問題の性質に基づいており、いくつかの実施形態では、当該選択は、ユーザにより生成される予め定められた命令に基づいてよい。しかしながら、一般に、方法ベースのシミュレーションは、欠損している値の問題点を処理するために上手く構成されており、ポイントベースのシミュレーションは、外れ値の問題点を処理するために上手く構成されている。
例えば、いくつかの実施形態において、ユーザによる以前の試行は、データが連続的な延長された継続時間に欠損しているか、又は、構文的な値の問題点が存在するどうかに基づいて、欠損データが判定され得ることを示していたかもしれない、すなわち、数値であると推定されるデータは、判定されるNaN又は不適切な数値の丸めもしくは端数切り捨てであるデータの広範な継続時間を含む。そのため、方法ベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。セマンティックな値の問題点がある場合、すなわち、データのいくつかが、異常イベント又は一貫したもしくはパターン化されたノイズの多いデータを含む場合、外れ値の問題点が判定され得る。そのため、ポイントベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。同様に、方法ベースのシミュレーション又はポイントベースのシミュレーションが、指定された条件に対してより良いシミュレーションをもたらすかどうかが不確定であり得ると、ユーザが判定した場合、いずれかがより良いシミュレーションをもたらす場合のこれらの条件について、上述したように、両方のシミュレーション方法が用いられてよい。
スナップショット生成モジュールは、方法ベースのシミュレーションを用いて、1つ又は複数の修復の方法を分析するように構成され、各修復の方法は、例えば、限定することなく、平均値、中央値などを判定するためのアルゴリズムを含んでよい。さらに、方法ベースのシミュレーションサブモジュールは、KPI策定特性が観測可能でないボックスであるか、観測可能なボックスであるかに関わらず用いられてよい。各修復の方法は、もしその特定の修復の方法が用いられるのであれば、誤りのある値に対する潜在的な解決手段又は置換として、それぞれのシミュレーションスナップショットに含まれる1つ又は複数のインピュートされた値の生成を含む。特に、インピュートされた値は、潜在的な置換値であってもよい、又は、潜在的な置換値でなくてもよい。修復の方法が、特定の存在する条件に対して一番良い又は最も正しい置換値をもたらすということに関して、予め定められた概念がないので、複数のモデルが用いられており、各モデルは、それぞれの修復の方法を実行するために用いられる。いくつかの実施形態において、方法ベースのシミュレーションサブモジュールは、KPI策定サブモジュールに通信可能に連結される。また、誤りのあるデータに対してインピュートされた値を計算するために用いられる誤りのないデータの一部は、特定の修復技術に依存する。例えば、欠損している値をすべての値の平均値と置き換えると判定された場合、それぞれのデータの実質的に完成したセットが修復モジュールにおいて用いられる。代替的に、欠損している値を計算するために、周辺の3つの値のみが用いられる場合、これら周辺の値のみが修復モジュールにより用いられる。したがって、方法ベースのシミュレーションは、誤りのない元のデータの1つ又は複数のシミュレーションスナップショット、及び、各誤りのある元のデータ値に対するインピュートされた値を生成するために用いられ、各シミュレーションされた値は、特定の修復方法が用いられたときに、データ値がどのように見えるのかを示しており、それにより、複数のインピュートされた値を生成し、各インピュートされた値は、異なる修復方法の結果である。
少なくともいくつかの実施形態において、データ収集は、それらが収集されときにデータポイント内のパターンの判定を容易するヒューリスティックベースの特徴の使用を含む。本明細書で用いられるように、用語「データポイント」及び用語「データエレメント」は、同じ意味で用いられる。いくつかの条件下で、元のデータの1つ又は複数のインスタンスは、確立されたデータパターンにデータポイントの値が応じるべき確率に基づいた閾値を超えるそれぞれのデータポイントに起因して間違っているように見えるかもしれない。例えば、限定することなく、見掛けのデータ偏位、すなわち、データ急上昇又は急下降は、誤りのあるデータパケットを通じて、又は、リアルタイムに発生する正確な描写に応じてのいずれかで、生成されてよい。したがって、スナップショット生成モジュールは、さらに、ポイントベースのシミュレーションを用いて、エラーを分析し、明らかに誤りのあるデータが実際に誤りのあるデータであるかどうかを判定するように構成される。
1つ又は複数の実施形態において、データは、既知の誤りのない元のデータ及び疑わしい潜在的に誤りのあるデータポイントを含み、潜在的に誤りのあるデータ値が正しいか、誤りがあるかの確率の判定を開始すべく、様々な構成で組み合わされる。各潜在的に誤りのあるデータ値は、離散的な「正しい」又は離散的な「誤り」のいずれかとして個別に推定され、潜在的に誤りのあるデータ値は、それらを既知の誤りのない元のデータと区別するために、「推定されるデータポイント」と称される。そのため、推定されるデータポイントは、伝送されたときの元のデータ値、及び、正しいか又は誤りかのいずれかとして推定されるラベルを有する。残りの解析は、推定されるデータポイントに限定的に焦点を合わせる。具体的には、前述のシミュレーションスナップショットにおいて収集された推定されるデータポイントのあらゆる可能な組み合わせのすべてが評価される。離散的な「正しい」ラベル及び離散的な「誤り」ラベルの可能な組み合わせのすべての生成、及び、そのようなものの後続の集約は、「最良」のアクションが誤りのあるデータを訂正するか、又は、正確なデータを受け入れるかについてのさらなる判定をしやすくする。これらの動作は、「正しい」又は「誤り」である疑わしい潜在的に誤りのあるデータ値の1つ又は複数の確率を判定することを通じて、誤りがあるかもしれない、又は、誤りがないかもしれない元のデータと関連付けられた許容される間違いを考慮する。例えば、限定することなく、誤りのあるデータポイントがある例について、23個、つまり8個の組み合わせがポイントベースのシミュレーションにより生成される。当該組み合わせのそれぞれにおいて、誤りのある値のいくつかが間違って特定され、いくつかは、誤りとして正確に特定されることが想定される。そのため、各組み合わせについて、誤りのある値は、予め定められた修正方法に基づいてインピュートされた値と置き換えられる。したがって、各組み合わせは、正しい及び正しくないデータポイントの異なるセットを有し、予め定められた修正技術に基づいて、異なるインピュートされた値が必要になる。
離散的な「正しい」及び「誤り」と推定されるデータポイントの各可能な組み合わせの総数は、推定されるデータポイントの数と共に指数関数的に増え(すなわち、2xであり、x=推定されるデータ値の数である)、すべての可能な組み合わせを生成し、それらを処理することは、時間及びリソース集中型となり得る。推定されるデータポイントの各組み合わせは、潜在的なシミュレーションであり、潜在的なシミュレーションとして組み合わせのそれぞれを処理することは、単に、処理するオーバヘッドを増加させるだけである。したがって、推定されるデータポイントの説明される可能な組み合わせがさらに考慮されるが、しかしながら、推定されるデータポイントの可能な組み合わせは、すべての可能な組み合わせのサブセットのみがさらに考慮されるように「プルーニングされる」。したがって、ポイントベースのシミュレーションサブモジュールは、スナップショット最適化サブモジュールに動作可能に連結される。そのような実施形態において、スナップショット最適化の特徴は、前述したように、KPI策定特性が観測可能でないボックスであるか、観測可能なボックスであるかに関わらず判定されるKPI策定特性を用いることを通じて採用される。例えば、限定することなく、最大値、最小値、平均値及び中央値の解析のためのKPI策定特性は、推定されるデータポイントのシミュレーションをフィルタリングするために用いられ得る。したがって、スナップショット最適化モジュールは、KPI策定サブモジュールに通信可能に連結される。一般に、プルーニングプロセスを通じて渡すのに成功したインピュートされた値と推定されるデータポイントのこれらの組み合わせのみが、モデルを通じて疑わしいポイント値のそれぞれのシミュレーションを生成し、誤りのない元のデータと、特定された誤りのあるデータに対してインピュートされた値とを用いてそれぞれのシミュレーションスナップショットを生成するために存続し、疑わしい誤りのあるポイント値の一部は、実際には、誤りがないかもしれず、それらの置換の必要がない。
少なくともいくつかの実施形態において、シミュレーションスナップショットは、スナップショット生成モジュールにより作成され、方法ベースであるか、又は、ポイントベースであるかが、KPI値推定モジュールに伝送される。上述したように、各シミュレーションスナップショットは、誤りのない元のデータと、誤りのあるデータに対してインピュートされた値とを含む。インピュートされた値及び関連する元のデータのそれぞれは、予測される置換値、すなわち、それぞれのシミュレーションスナップショットにあるインピュートされた値のそれぞれに対して推定されるスナップショット値を生成するために、それぞれのKPI策定に提示される。各推定されるスナップショット値は、時系列データストリーム上の誤りのない元のデータについてのコンテキスト内にあるそれぞれのKPI策定に少なくとも部分的に基づいている。したがって、KPI値推定モジュールに伝送されるシミュレーションスナップショットごとに、1つ又は複数の予測される置換値、すなわち、推定されるスナップショット値が生成される。
いくつかの実施形態において、推定されるスナップショット値は、推定されるスナップショット値のそれぞれに対して、(以下でさらに説明される)信頼度値の形式で解析スコアを生成する信頼度測定モジュールに伝送される。誤りのあるデータに対する各それぞれの採点された推定されるスナップショット値について、最高の信頼度値が選択され、それぞれの推定されるスナップショット値は、ここで、誤りのあるデータを置き換えるために選択されたKPI値に昇格され、選択されたKPI値は、推定されるKPI値と称される。したがって、推定されるKPI値は、潜在的に誤りのあるデータインスタンスを解消するために、1つ又は複数の予測される置換値から選択される値(すなわち、推定されるスナップショット値)である。
1つ又は複数の実施形態では、さらに、信頼度測定モジュールは、それぞれの情報を受信して、推定されるKPI値及び追加の情報の選択を促進して、選択されていた推定されるKPI値の説明を生成する。一般に、信頼度測定モジュールは、前述のシミュレーションのうちの1つ又は複数を通じて生成される推定されるスナップショット値をそれぞれの元の誤りのあるデータと比較する。比較の結果の少なくとも1つは、推定されるスナップショット値のそれぞれに対する数値の形式のそれぞれの信頼度値である。データのそれぞれのスナップショットに適用されるようなそれぞれの信頼度値は、それぞれの推定されるスナップショット値が正しいという信頼度の予測されるレベルを示す。比較的低い信頼度値は、推定されるKPI値を含むそれぞれの推定されるスナップショット値が用いられるべきではない、又は、注意して用いられるかのいずれかであることを示す。比較的高い信頼度値は、推定されるKPI値を含むそれぞれの推定されるスナップショット値が用いられるべきであることを示す。関連する信頼度値に対する閾値は、ユーザにより確立されてよく、また、1つ又は複数のモデルを訓練するために用いられてよく、両方の条件が選択を完全に自動化することを容易にする。さらに、後続の動作が自動化され得る。例えば、限定することなく、所定の閾値を下回る信頼度値について、それぞれの推定されるスナップショット値は、元のデータストリームを利用して、ネイティブアプリケーション内のさらなる処理のために渡されることはない。同様に、所定の閾値を上回る信頼度値について、それぞれの選択された推定されるKPI値は、元のデータを利用して、ネイティブアプリケーション内のさらなる処理のために渡される。したがって、本明細書で説明されるようなシステム及び方法は、不用意な動作を防ぐ、又は、条件及び正確なデータの指示に従って適切な動作を開始する方式で自動的に元のデータストリーム内の誤りのあるデータを用いて問題点を正す。
さらに、推定されるKPI値に対する信頼度値が100%ではない可能性があるので、信頼度測定モジュールは、特定のシミュレーションされたスナップショットの選択についての詳細及び証拠に推定されるKPI値をもたらすことを通じて、1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を提供する説明サブモジュールを含む。説明サブモジュールは、限定することなく、データセットにおいて検出された問題点のタイプ、生成されるシミュレーションの数及び性質、様々なシミュレーションから取得されるスコアの統計的特性、及び、スコアの比較を含むそのような詳細を提供する。したがって、信頼度測定モジュールは、KPI値推定モジュールからシミュレーションされたスナップショットの様々な値、及び、それぞれの推定されるKPI値の選択の明確性をさらに提供すべく、ユーザが値の分散の性質を理解しやすくするための情報を生成する。
いくつかの実施形態において、信頼度測定モジュールはまた、そのような値をサポートすべく、前述の信頼度値並びに詳細及び証拠を生成することを促進する複数の追加のサブモジュールを含む。これらの実施形態のいくつかにおいて、3つの信頼度測定サブモジュール、すなわち、品質ベースの信頼度測定サブモジュールと、スプレッドベースの信頼度測定サブモジュールと、品質及びスプレッドベースの信頼度測定サブモジュールとが用いられる。
品質ベースの信頼度測定サブモジュールは、KPI値推定モジュールから取得した値の大きさを考慮に入れて、例えば、KPI値の大きさが50であるか、又は、1050であるかといった関連する信頼度測定情報を生成するように構成され、結果として得られるKPI値における信頼度は、追加のデータ及び条件の観点から異なり得る。スプレッドベースの信頼度測定サブモジュールは、シミュレーションされた値がある範囲を検討し、関連する信頼度測定情報を生成する、すなわち、KPI値の絶対的な大きさの代わりに、スプレッドベースの信頼度測定は、KPI値の平均、最小、最大及び標準偏差のような統計的特性を用いており、したがって、実質的には、大きさにより影響されることはない。品質及びスプレッドベースの信頼度測定サブモジュールは、値の大きさ並びに範囲を検討し、関連する信頼度測定情報を生成する。
図4を参照すると、システム、すなわち、時系列データ内の訂正されたデータに対する信頼度値を計算するように構成される時系列データ置換信頼度システム400を示す概略図が提供される。時系列データ置換信頼度システム400は、特定される時系列データ置換信頼度システム400以外のものに対して、本明細書では、「システム400」と称される。システム400は、1つ又は複数のメモリデバイス406(1つのみが示されている)に通信可能及び動作可能に連結される1つ又は複数の処理デバイス404(1つのみが示されている)を含む。システム400はまた、通信バス402を通じて処理デバイス404及びメモリデバイス406に通信可能に連結されるデータストレージシステム408を含む。1つ又は複数の実施形態において、通信バス402、処理デバイス404、メモリデバイス406及びデータストレージシステム408は、図3に示されるそれらと同等のもの、すなわち、通信バス102、処理デバイス104、システムメモリ106及び永続ストレージデバイス108とそれぞれ同様である。
1つ又は複数の実施形態において、システム400は、本明細書で説明されるように、限定することなく、電気処理(例えば、エネルギー管理システム)、機械処理(機械管理システム)、電気機械処理(工業生産システム)及び金融的処理を含むシステム400の動作を可能にする任意の処理を動作させるように構成されるプロセス制御システム410を含む。いくつかの実施形態では、プロセス制御システム410は、システム400に通信可能に連結される外部システムである。図示及び本明細書で説明されるように、処理デバイス404、メモリデバイス406及びデータストレージシステム408は、いくつかの実施形態において、(図3に示される)入力/出力ユニット112を通じてプロセス制御システム410に通信可能に連結される。
プロセス制御システム410は、それぞれの1つ又は複数の処理と連動する1つ又は複数の処理デバイス412を含み、処理デバイス412は、処理デバイス404及びメモリデバイス406を通じて関連するプログラム命令のインタラクションを通じて生成されるデバイス/プロセス制御コマンド414を実行する。プロセス制御システム410はまた、処理デバイス412及びそれぞれの処理をモニタリングするために用いられ、処理デバイス412へのフィードバック418(例えば、限定することなく、「センサ正常動作」及び「センサ誤動作」信号)を生成するセンサを含むセンサ群416と、センサ群416の処理測定出力を代表する元のデータ422と以下で称されるデータパケットを含む1つ又は複数の元の時系列データストリーム420とを含む。
メモリデバイス406は、元の時系列データストリーム420を受信して、デバイス/プロセス制御コマンド414を生成するように構成されるプロセス制御アルゴリズム及びロジックエンジン430を含む。また、いくつかの実施形態において、メモリデバイス406は、データ品質-KPI予測信頼度エンジン440を含む。1つ又は複数の実施形態において、データ品質-KPI予測信頼度エンジン440は、その中に埋め込まれる1つ又は複数のモデル442を含む。システム400はまた、データ品質-KPI予測信頼度エンジン440の出力444を受信すべく、通信バス402に通信可能に連結される1つ又は複数の出力デバイス450を含む。データ品質-KPI予測信頼度エンジン440のモジュール及びサブモジュールは図5に関連して説明される。
データストレージシステム408は、限定することなく、(元の時系列データストリーム420を通じて補足される)元の時系列データ462と、信頼度値及び説明464とを含むデータ品質-KPI予測信頼度データ460を格納する。データストレージシステム408は、策定468、性質及び特性470(本明細書において同じ意味で用いられる)、並びに、それぞれの測定値472を含むビジネスKPI466も格納し、策定468は、特性470及び測定値472を含む。
図5Aを参照すると、フローチャートが提供され、時系列データ内の訂正されたデータに対する信頼度値を計算するための処理500を示す。また、図4を参照すると、データ品質-KPI予測信頼度エンジン440のモジュール及びサブモジュールの少なくとも一部も図5Aに関連して示され及び説明される。
1つ又は複数の実施形態において、それぞれの元の時系列データストリーム420内に埋め込まれる(元のデータ422と実質的に同様である)元のデータ504の品質が分析され、2段階プロセスを通じてそれぞれの元のデータ504に関連するそれぞれの1つ又は複数のKPIに応じて、判定が行われる。初めに、データパケットとしての元のデータ504の品質は、(センサ群416と実質的に同様である)センサ群502のそれぞれのセンサから(データ品質-KPI予測信頼度エンジン440内に存在する)データ検査モジュール510に伝送され、データパケットは、データ検査モジュール510内に埋め込まれるデータ検査サブモジュール512により検査される。少なくともいくつかの実施形態において、さらに説明されるように、データ検査モジュール510はまた、統合されたKPI特性判定特徴を含み、それにより、データ検査サブモジュール512が冗長になることを回避する。
いくつかの実施形態において、元のデータ504の1つ又は複数のデータパケットは、潜在的に欠陥のあるデータを含むものとして、それぞれのデータパケットを特定する問題点を含んでよい。そのような問題点の1つは、サンプリング周波数と関連付けられ得る。例えば、限定することなく、データ検査サブモジュール512は、センサ群502のサンプリング周波数をチェックして、元のデータ504に複数のサンプリング周波数が存在するかどうか、例えば、サンプリング周波数に偶発的な混乱(occasional perturbation)があるかどうか、及び、連続したサンプリング周波数の変化があるかどうかを判定する。また、例えば、限定することなく、データ検査サブモジュール512は、元のデータ504のタイムスタンプをチェックして、元のデータ504にタイムスタンプが欠損しているかどうか、連続的な延長された継続時間に元のデータ504が欠損しているかどうか、及び、変化したフォーマットのタイムスタンプがあるかどうかを判定する。また、例えば、限定することなく、データ検査サブモジュール512は、構文的な値の問題点をチェックして、数値であると推定されるデータが、「非数(NaN)」、及び、不適切な数値の丸め及び端数切り捨てであるデータ504の広範な継続時間を含むかどうかを判定する。さらに、例えば、限定することなく、データ検査サブモジュール512は、セマンティックな値の問題点をチェックし、元のデータ504のいずれかが、異常イベント及びノイズの多いデータを含むかどうかを判定する。したがって、データ検査サブモジュール512は、それぞれの元の時系列データストリーム420内の元のデータ504を調査し、元のデータ504が予め定められた許容範囲内にあるかどうか、及び、元のデータ504内及びエラーの性質において、何らかの疑わしいエラーがあるかどうかを判定する。
いくつかの実施形態では、2つの様式、すなわち、(上述したように)データ品質を判定するためにシステム400が操作しようとしている元のデータ504の処理、及び、元のデータ504に適用される予定の1つ又は複数のKPI策定468の判定がある。本明細書で用いられるように、KPI策定468は、1つ又は複数のKPI特性470を含み、KPI特性470はまた、限定することなく、策定468の詳細、例えば、限定することなく、1つ又は複数のデータの問題点を含み、策定468のアルゴリズムは、アルゴリズム自体と、それぞれのKPI466の任意のパラメータ及び定義を対象とする。策定468、特性470及び測定472を含むKPI466は、データストレージシステム408に格納される。いくつかの実施形態では、データ検査モジュール510を通じて、両方の様式が実行される、すなわち、データ検査サブモジュール512を通じて、データ品質が評価され、データ検査サブモジュール512に動作可能に連結されるKPI特性判定サブモジュール514を通じて、KPI策定特性評価が実行される。いくつかの実施形態において、KPI特性判定サブモジュール514は、データ検査モジュール510に動作可能に連結される別個のモジュールである。したがって、データ検査特徴及び関連のあるKPI策定特性470の判定が密接に統合される。
少なくともいくつかの実施形態において、そのようなKPI策定特性470の少なくとも一部は、典型的には、到着した元の時系列データストリーム420を操作して、それぞれのKPI466をサポートするために必要な出力データ及び機能をユーザに提供するアルゴリズムとして実装される。また、いくつかの実施形態において、KPI策定468は、KPI特性判定サブモジュール514内に埋め込まれるKPI策定サブモジュール516内に容易に配置され、そのようなKPI策定468は、データストレージシステム408からインポートされ得る。したがって、前述したように、元のデータ504は、初めに、一定の許容範囲内にあることを検証すべくチェックされ、それから第2に、1つ又は複数の特定のKPI466と任意の潜在的に誤りのあるデータとに何らかの関連性があるかどうかの判定が行われる。1つ又は複数の実施形態において、収集された元のデータ504の少なくとも一部は、いずれのKPI466とも関連付けられておらず、したがって、そのような誤りのある元のデータ504は、所与のKPI466に対するインパクトは強くない。したがって、関連する問題点の初期の識別を実行すべく、シンプルなKPI関連性テストが実行される。例えば、限定することなく、1つ又は複数の特定のKPI466は、平均ベースの策定を用いており、かつ、それぞれの元の時系列データストリーム420内の潜在的に誤りのあるデータ504が順序のないタイムスタンプを含む場合、当該順序のないタイムスタンプは、それぞれの1つ又は複数のKPI466に対して何も影響を与えないと判定される。同様に、1つ又は複数の特定のKPI466が中央値又はモードベースの策定468である場合、それぞれの元の時系列データストリーム420内の外れ値の存在は、それぞれのKPI466に対して何も影響を与えない。したがって、いくつかの誤りのあるデータ特性は、特定のKPI466に対して影響がないかもしれず、そのようなデータは、本明細書においてさらに説明されるKPIに関連する解析とは関係ない。
いくつかの実施形態において、採用され得るKPI関連性を判定するための1つのさらなるメカニズムは、既知の誤りのないデータと、いくつかの実施形態では、誤りの疑いがあるデータとを有する元の時系列データストリーム420の少なくとも一部を、KPI策定サブモジュール516内の1つ又は複数のそれぞれのKPI策定468に渡して、それらから数値を生成する、すなわち、それらから元のKPIテスト値を生成する。具体的には、誤りのある値がないデータは、少なくとも1つの値を既知の誤りのある値に変更するように操作されてよく、それにより、それぞれの1つ又は複数のKPI策定468からインピュートされるKPIテスト値を生成すべくそれらにも渡されるインピュートされるエラーを運んでいるデータを生成する。
図6を参照すると、関連する問題点を特定するための例示的なアルゴリズム600を示すテキスト図が提示される。また、図4及び図5Aを参照すると、アルゴリズム600は、KPI策定サブモジュール516内に存在する。アルゴリズム600は、問題点リストオペレーション602を含み、潜在的なデータエラーの問題点についての予め定められたセットは、アルゴリズム600内の選択のためにリスト化されており、各潜在的なデータエラーの問題点は、1つ又は複数の対応するモデル442を含む。データ特定オペレーション604は、元の時系列データストリーム420内の元のデータ504のどの部分が潜在的なエラー、潜在的なデータ置換、及び、置換の信頼度判定のために分析されるかを特定するために実行される。いくつかの実施形態において、データ品質-KPI予測信頼度エンジン440は、元の時系列データストリーム420の複数のストリームを同時に調査するためにスケーラブルであり、限定することなく、元のデータ504のごく一部を含み、すべての元の時系列データストリーム420にあるすべての元のデータ504へとスケールアップする。ユーザにより開発されるようなKPI策定468は、KPI策定の特定及び検索オペレーション606において特定及び検索され、分析対象の選択された元のデータ504は、元のデータ-KPI策定オペレーション608におけるそれぞれのKPI策定468を通じて渡される。問題点リストオペレーション602から影響のある問題点は、影響のある問題点解析選択アルゴリズム610を通じて、一度に1つずつ又は並行して同時に、のいずれかを通じて循環される。
1つ又は複数の実施形態において、インピュートされたデータ注入オペレーション614を通じて、インピュートされた誤りのあるデータを有する元のデータ504の少なくとも一部を注入することを含むデータ-問題点サブアルゴリズム612が実行される。いくつかの実施形態において、注入されるエラーは、限定することなく、元の時系列データストリーム420内の元のデータ504のいくつかのランダム選択、欠損データの問題点が関連するかどうかを判定するためのそのようなランダムデータの除去を含んでよい。さらに、注入されるエラーは、限定することなく、外れ値の問題点が関連するかどうかを判定するための、既知の誤りのない元のデータ504と、確立された許容範囲を超えて拡張されることが知られている注入値とのランダム選択を含んでよい。インピュートされるデータは、KPIテスト値生成オペレーション616を通じて、インピュートされるKPIテスト値を判定するために、KPI策定468を通じて伝送される。オペレーション616からインピュートされるKPIテスト値は、KPI値比較オペレーション618を通じたオペレーション608からの元のKPIテスト値と比較され、比較オペレーション618に応じて、問題点判定オペレーション620が実行される。いくつかの実施形態において、インピュートされるKPIテスト値及び元のKPIテスト値に十分な類似性がある場合、元のデータ504、すなわち、元のデータ504と関連する問題点は、それらのKPI策定468を通じてそれぞれのKPI466に関連するものとして分類される。インピュートされるKPIテスト値と元のKPIテスト値との間の類似性が十分でない場合、前述の問題を含む元のデータ504は、それらのKPI策定468を通じて、それぞれのKPI466とは関係ないものとして分類される。問題点リストオペレーション602からの問題点の枯渇を通じてサブアルゴリズム612を実行すると、サブアルゴリズム612は終了622し、アルゴリズム600は終了624する。したがって、元の時系列データストリーム420内の疑わしい、又は別の方法で特定されるデータエラー間に何らかの関連関係があるかどうかを判定すべく、その中に埋め込まれる予め定められたエラーを有するデータは、それぞれのKPI策定468に対して誤りのあるデータの何らかの関連性及び相当な影響があるかどうかを判定するために用いられる。
再び図4及び図5Aを参照すると、少なくともいくつかの実施形態において、KPI特性判定が実行される。各KPI特性判定の基礎は、KPI特性評価と称される場合があり、1つ又は複数のKPI466を含む。例えば、限定することなく、ビジネスに対する基礎は、1つ又は複数のビジネス固有のKPI466であり、個人住居について、その基礎は、1つ又は複数の住居固有のKPI466である。いくつかの実施形態において、本明細書で開示される時系列データ置換信頼度システム400を可能にする任意のエンティティベースのKPIが用いられる。
いくつかの実施形態において、KPI466は、予め定められており、例えば、特定の事業目標を達成することを目指して、成功の明示的な測定又はそれらの不足として説明される。いくつかの実施形態において、KPI466は、の他の点で、事業目標を達成するための未確認の測定を判定すべく、業務データの収集及び解析に応じて展開され、それにより、1つ又は複数の追加のKPI466の特定が容易になる。したがって、元のものに関わらず、元のデータにおいて発見されるそれぞれの問題点504に対して、KPI466は、それぞれのKPI策定468内で関連する固有の特性を合致させるために、いくつかの例では、関連する問題点の特定を容易するために利用可能である。
1つ又は複数の実施形態において、元のデータ504がデータ検査モジュール512に伝送されたときに、KPI特性判定オペレーションが実行される。また、リアルタイムに生成される元のデータの問題点の性質は前もって知られていないので、データ検査及びKPI特性判定は、リアルタイムに動的に行われることになる。したがって、それぞれのKPI466のそれぞれの策定468内に埋め込まれるそれぞれの特性470を用いたそれぞれのKPI466の判定は、到着した元のデータ422に影響を与えている問題点の判定と併せて実行される。KPI特性判定の少なくとも一部は、元のデータ504と関連付けられているそれぞれのKPI466の性質を判定することを含む。
いくつかの実施形態において、到着した元のデータ504の一部は、KPI466と何も関連付けられておらず、このデータは、本開示に関してはこれ以上操作されることはなく、任意の埋め込まれている問題点は無視され、そのままデータが処理されるか、又は、例えば、限定することなく、出力デバイス450の1つ又は複数を通じて、問題点の通知が1つ又は複数の方式でユーザに伝送されるかのいずれかである。他の実施形態において、到着した元のデータと関連するKPI策定468との関係がさらに判定される。
実施形態において、KPI策定468は、2つのタイプの策定、すなわち、「観測可能なボックス」及び「観測可能でないボックス」策定のうちの1つにグループ化される。観測可能なボックス及び観測可能でないボックスKPI策定の両方のいくつかの実施形態において、関連するアルゴリズムは、限定することなく、最大値の判定、最小値の判定、平均値の判定、中央値の判定、及び、他の統計上の判定、例えば、限定することなく、モード値の判定及び標準偏差解析のうちの1つ又は複数を含む、問題点を有するデータに関する周辺の元のデータ値の1つ又は複数の解析を適切なKPI特性策定が含むか否かを調査する。
少なくともいくつかの実施形態において、観測可能なボックスKPI策定468は、検査のために利用可能である、すなわち、詳細が観測され、KPI特性判定サブモジュール514は、観測可能なボックスサブモジュール518を含む。図7を参照すると、観測可能なボックスKPI解析のための例示的なアルゴリズム700を示すテキスト図が提供される。また、図4及び図5Aを参照すると、アルゴリズム700は、観測可能なボックスサブモジュール518内に存在する。アルゴリズム700は、KPI策定提示オペレーション702を含み、それぞれのKPI策定468の特性は、本明細書で説明されるようなユーザ及びシステム400に明確に示される。アルゴリズムはまた、解析木オペレーション704を含み、KPI特性470は、KPI466の詳細が様々なコードブロックを利用可能な場合、AST内のノードとして解析され、理解可能であり得るように、それぞれのプログラミング言語内のソースコードを表現する抽象構文木(AST)としてKPI特性470を生成するために、ASTに変換される。図7に示されるように、アルゴリズム700は、第1のサブアルゴリズム、すなわち、AST内の特定のノードが関数、例えば、限定することなく、さらに説明されるような数学的な演算であるかどうかを判定するように構成される関数解析オペレーション706を含む。
図7に示される実施形態において、第2のサブアルゴリズム、すなわち、中央値判定オペレーション708は、KPI特性割当オペレーション710が実行されるように、元のデータ504の中央値の判定を定義するこれらのKPI策定特性470に対して実行され、この場合、割り当てられたKPI特性470は、処理500の後続の部分のための「中央値」である。次に、中央値判定オペレーション708は終了する712。いくつかの実施形態において、アルゴリズムは、他のタイプのKPI特性、例えば、限定することなく、最大値の判定、最小値の判定、平均値の判定及び他の統計上の判定、例えば、限定することなく、モード値の判定及び標準偏差解析に対する第1のサブアルゴリズムの1つ又は複数のさらなる部分を含む。図7の例示的な実施形態において、第3のサブアルゴリズム、すなわち、平均値判定オペレーション714は、KPI特性割当オペレーション716が実行されるように、元のデータ504の平均値の判定を定義するこれらのKPI策定特性470に対して実行され、この場合、割り当てられたKPI特性470は、処理500の後続の部分のための「平均値」である。次に、平均値判定オペレーション714は終了する718。任意の残りの可能なKPI策定特性470は、上述したように、同様に判定される。関数解析オペレーション706が完了すると、終了する720。
さらに、1つ又は複数の実施形態において、図7に示されるように、アルゴリズム700は、第4のサブアルゴリズム、すなわち、AST内の特定のノードが2項演算、例えば、限定することなく、別のエレメントを作成する2つのエレメント又はオペランドを用いる数学的な演算であるかどうかを判定するように構成される2項演算解析オペレーション722を含む。図7に示される実施形態において、第5のサブアルゴリズム、すなわち、除算サブアルゴリズム724は、元のデータ504の除算演算を定義するこれらのKPI策定特性470に対して実行される。除算演算は、第6のサブアルゴリズム、すなわち、統合された加算オペランド及び長さオペランド、又は、統合された平均値アルゴリズム726を含み、長さオペランド又はオペレーションは、KPI特性割当オペレーション728が実行されるように、加算される項目の数を提供し、この場合、割り当てられたKPI特性470は、処理500の後続の部分のための「平均値」である。統合された平均値アルゴリズム726は終了し730、除算サブアルゴリズム724は終了し732、2項演算サブアルゴリズム722が終了する734。オープンサブアルゴリズム736は、さらに、関数及び2項演算を超えたさらなる演算がユーザにより要された場合に示される。解析木オペレーション704は、それぞれのKPI466と関連付けられるそれぞれの観測可能なボックスオペレーションのすべてが特定された場合に終了する738。
少なくともいくつかの実施形態において、観測可能でないボックスKPI策定468は、動作及びその中に含まれるアルゴリズムに応じて不透明であり、例えば、限定することなく、それぞれの観測可能でないボックスアルゴリズム及び動作は、実際にはプロプライエタリであってよく、それぞれのユーザは、それらのコンテンツに対するいくつかのレベルの秘密性及び機密性を要求する。いくつかの実施形態において、そのような観測可能でないボックス策定は、アプリケーションプログラミングインタフェース(API)の形式を取り得る。したがって、観測可能でないボックスKPI策定468内のKPI策定特性470を判定するための1つのメカニズムは、策定のシミュレーションを通じて元のデータ504をテストするための元のデータ504の繰り返しのサンプリングを含む。したがって、KPI特性判定サブモジュール514は、観測可能でないボックスサブモジュール520を含む。
図8を参照すると、観測不可能なボックスKPI解析のための例示的なアルゴリズム800を示すテキスト図が提供される。また、図4及び図5Aを参照すると、アルゴリズム800は、観測可能でないボックスサブモジュール520内に存在する。少なくともいくつかの実施形態において、アルゴリズム800は、データサブセット生成オペレーション802を含み、元のデータ504は、K個のサブセットのデータに分割され、各サブセットは、M個のデータポイントをその中に有し、Mは予め定められた定数である。例えば、限定することなく、100個のデータポイントのストリングは、それぞれ20個のポイントの5つのサブセットに分割され得る。そのようなサブセットの生成は、特定のエラーが繰り返し発生しているか、又は、単一のインスタンスのエラー、すなわち、1回限りのエラーであるかの判定を容易にする。アルゴリズム800はまた、観測可能でないボックス計算内で用いられ得る潜在的なKPI策定特性470のすべてを特定するように構成されるKPI策定特性リストオペレーション804を含む。本明細書で前述したように、そのようなKPI策定特性470は、限定することなく、平均値の判定(「平均」)、中央値の判定(「中央」)、モード値の判定(「モード」)、最大値の判定(「最大」)、最小値の判定(「最小」)及び他の統計上の判定、例えば、限定することなく、標準偏差解析のうちの1つ又は複数を含む。これらのKPI策定特性470のそれぞれは、誤りのあるデータの潜在的な問題点を特定するために、1つ又は複数の観測可能でないボックスモデルベースのシミュレーションを通じて調査され、観測可能でないボックスモデルベースのシミュレーションは、スナップショット生成に関して本明細書でさらに説明されるシミュレーションモデル化とは直接的には関係していない。
1つ又は複数の実施形態において、元のKPI評価オペレーション806が実行され、各データサブセットの各データエレメントは、それぞれの観測可能でないボックスモデルを用いることを通じて処理され、そのようなモデルは、未だに判定されていない。本明細書で用いられるように、用語「データポイント」及び用語「データエレメント」は、同じ意味で用いられる。したがって、100個のデータポイント又は元のデータ504のデータエレメントの実施形態において、100個のそれぞれのKPI値、すなわち、元のデータ504の5つのサブセットのそれぞれに対して、20個のKPI値がある。そのため、100個の処理データエレメントは、実際の観測可能でないボックス策定を通じて100個の元のKPI値を生成するために、それらが何であれ、観測可能でないボックス策定を通じて処理され得る。また、いくつかの実施形態において、シミュレーション/相関関係サブアルゴリズム810を含む相関関係オペレーション808が実行される。具体的には、1つ又は複数の実施形態において、シミュレーションされるKPI評価オペレーション812が実行され、元のデータ504の各データエレメントは、KPI策定特性リストオペレーション804において特定された各KPI策定特性470のそれぞれのモデルを用いることを通じて分析される。元のKPI値-シミュレーションされたKPI値相関関係オペレーション814が実行され、元のKPI値の各値は、KPI策定特性リストオペレーション804から特定されたKPI策定特性470の各モデルを通じて生成された各それぞれのシミュレーションされたKPI値と比較される。そのため、100個のデータエレメントを用いた実施形態については、KPI策定特性リストオペレーション804から特定される各KPI策定特性470に対して100個の相関関係がある。いくつかの実施形態において、相関関係の強度、例えば、限定することなく、弱い相関関係及び強い相関関係を判定するために、相関関係があるデータエレメントの各セットの統計的な評価が実行され、各相関関係の定義は、ユーザにより確立され得る。強い相関関係は、シミュレーションされたKPI策定が実際の観測可能でないボックスKPI策定468に従うことを示す。弱い相関関係は、シミュレーションされたKPI策定が実際の観測可能でないボックスKPI策定468と連携していないことを示す。相関関係を通じた処理が完了すると、シミュレーション/相関関係サブアルゴリズム810は終了する816。観測不可能なボックスKPI解析のためのアルゴリズム800は、KPI策定特性選択オペレーション818を含み、最も高い相関係数のある特性が選択される。観測可能でないボックスKPI策定が判定されると、アルゴリズム800は終了する820。
データ検査モジュール510の出力522は、その中に何らかのデータエラーあるかどうか、及び、もしあれば、影響を受けるKPI策定特性470があるかどうかを判定するための元のデータ504の解析を含む。エラーがない場合、それぞれのデータは、もはやプロセス500を通じて処理されることはなく、KPI特性判定サブモジュール514内のオペレーションが呼び出されることはなく、出力522がない。元のデータ504内にデータエラーがある場合、出力522は、KPI特性判定サブモジュール514の解析に基づいて、データの問題点が特定されたKPIに対する関連するかどうかを判定524する判定オペレーション524に伝送される。前述したように、それぞれの元のデータ504とKPI策定特性470との間に関係がない場合、「ない(No)」判定が生成され、本開示ごとの問題点を抱えるデータに対して、さらなる動作が取られることはない。ユーザは、要望があれば、データエラーに対して他の措置を取ることを選択してよい。「はい(Yes)」判定について、すなわち、それぞれの性質を通じて、(ユーザにより両方供給される)KPIと関係を有する元のデータ504と関連付けられるこれらのデータエラーの問題点について、判定オペレーション524の出力526は、さらなる処理のために伝送され、出力526は、出力522と実質的に同様である。したがって、観測可能なボックスであるか、又は、観測可能でないボックスであるかについての誤りのあるデータに対するKPI策定468の特性470が関連するKPIに悪影響を与えると判定された場合、エラーは、それが適切に分類されることができ、かつ、後続の最適化を実行できるようにさらに分析される。
図5Bを参照すると、図5Aに示されるフローチャートの続きが提供され、時系列データ内の訂正されたデータに対する信頼度値を計算するためのプロセス500をさらに示す。また、図4を参照すると、1つ又は複数の実施形態において、プロセス500は、出力526をスナップショット生成モジュール530に送信することをさらに含む。スナップショット生成モジュール530は、既知の埋め込まれている問題点を有する誤りのあるデータと、それぞれのKPI策定特性470の識別情報とを含むデータ検査モジュール510の出力526を受信する。スナップショット生成モジュール530は、元のデータ504のシミュレーションを容易にすべく、製品に配置される1つ又は複数のモデルを通じて、それぞれのデータ値のシミュレーションを通じたシミュレーションされたデータのスナップショットを生成するように構成される。
図9を参照すると、概略図が提供され、スナップショット生成モジュール530と実質的に同様のスナップショット生成モジュール904を用いたスナップショットシミュレーションのためのプロセス900の一部を示す。また、図5Bを参照すると、スナップショット生成モジュール904への出力526を通じて伝送される元のデータ504と実質的に同様の元のデータ902は、さらに評価される。(その中に埋め込まれている誤りのあるデータの問題点を有する)元のデータ902は、本明細書でさらに説明されるように、シミュレーションされたデータを含む複数のシミュレーションスナップショット906を生成すべく、(図4に示されるモデル442と実質的に同様の)複数のモデル532を通じて処理される。シミュレーションされたデータスナップショット906は、コンテキストのみのために、図9に示されるKPIインタフェース908及び信頼度測定910のために後で用いられる。
再び図4及び図5Bを参照すると、いくつかの実施形態において、方法ベースのシミュレーション及びポイントベースのシミュレーションが用いられる。当該のシミュレーションのいずれかが、同時に両方を含む誤りのあるデータにおける問題点の性質に関わらず用いられてよい一方、いくつかの実施形態では、2つのシミュレーションの選択が元のデータの品質問題の性質に基づいており、いくつかの実施形態では、選択は、ユーザにより生成される予め定められた命令に基づいてよい。しかしながら、一般に、方法ベースのシミュレーションは、欠損している値の問題点を処理するために上手く構成されており、ポイントベースのシミュレーションは、外れ値の問題点を処理するために上手く構成されている。
例えば、いくつかの実施形態において、ユーザによる以前の試行は、データが連続的な延長された継続時間に欠損しているか、又は、構文的な値の問題点が存在するどうかに基づいて、欠損データが判定され得ることを示していたかもしれない、すなわち、数値であると推定されるデータは、判定されるNaN又は不適切な数値の丸めもしくは端数切り捨てであるデータの広範な継続時間を含む。そのため、方法ベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。セマンティックな値の問題点がある場合、すなわち、データのいくつかが、異常イベント又は一貫したもしくはパターン化されたノイズの多いデータを含む場合、外れ値の問題点が判定され得る。そのため、ポイントベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。同様に、方法ベースのシミュレーション又はポイントベースのシミュレーションが、指定された条件に対してより良いシミュレーションをもたらすかどうかが不確定であり得ると、ユーザが判定した場合、いずれかがより良いシミュレーションをもたらし得る場合のこれらの条件について、上述したように、両方のシミュレーション方法が用いられてよい。
例えば、いくつかの実施形態において、ユーザによる以前の試行は、データが連続的な延長された継続時間に欠損しているか、又は、構文的な値の問題点が存在するどうかに基づいて、欠損データが判定され得ることを示していたかもしれない、すなわち、数値であると推定されるデータは、判定されるNaN又は不適切な数値の丸めもしくは端数切り捨てであるデータの広範な継続時間を含む。そのため、方法ベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。セマンティックな値の問題点がある場合、すなわち、データのいくつかが、異常イベント又は一貫したもしくはパターン化されたノイズの多いデータを含む場合、外れ値の問題点が判定され得る。そのため、ポイントベースのシミュレーションは、前述の条件に対してより良い解析をもたらし得る。同様に、方法ベースのシミュレーション又はポイントベースのシミュレーションが、指定された条件に対してより良いシミュレーションをもたらすかどうかが不確定であり得ると、ユーザが判定した場合、いずれかがより良いシミュレーションをもたらし得る場合のこれらの条件について、上述したように、両方のシミュレーション方法が用いられてよい。
1つ又は複数の実施形態において、スナップショット生成モジュール530は、方法ベースのシミュレーションを用いて、1つ又は複数の修復の方法を分析するように構成され、各修復の方法は、例えば、限定することなく、データエラーにより影響を受けるそれぞれのKPI466に応じて、平均値、中央値などを少なくとも部分的に判定するためのアルゴリズムを含んでよい。しかしながら、修復の方法は、必ずしもKPI策定特性470に限定されるものではない。スナップショット生成モジュール530は、KPI策定特性470が観測可能でないボックスであるか、又は、観測可能なボックスであるかに関わらず用いられ得る方法ベースのシミュレーションサブモジュール534を含む。
図10を参照すると、方法ベースのシミュレーションを生成するためのプロセス1000を示す概略図が提示される。また、図4及び図5Bを参照すると、方法ベースのシミュレーションは、方法ベースのシミュレーションサブモジュール534を通じて生成される。埋め込まれた問題点を有する誤りのあるデータ、及び、それぞれのKPI策定特性470の識別情報を含むデータ検査モジュール510の出力526の一部は、誤りのないデータ1004の10個のインスタンス及び誤りのあるデータ1006の3つのインスタンスを有するスニペット1002として示される。データスニペット1002は、修復の方法M1、M2、M3及びM4を含む複数の修復の方法1010へと伝送され、各修復の方法M1~M4は、異なるそれぞれのモデル532と関連付けられており、番号4は非限定的である。各修復の方法M1~M4は、もしその特定の修復の方法が用いられるのであれば、誤りのある値に対する潜在的な解決手段又は置換としてそれぞれのシミュレーションスナップショットに含まれる1つ又は複数のインピュートされた値の生成を含む。修復の方法M1~M4が、特定の現在誤りのあるデータ1006に対して一番良い又は最も正しい潜在的な置換値をもたらすということに関して、予め定められた概念がないので、複数のモデル532が用いられており、各モデル532は、それぞれの修復の方法M1~M4を実行するために用いられる。いくつかの実施形態において、方法ベースのシミュレーションサブモジュール534は、その中に存在するKPI策定468へのアクセスの準備のために、KPI策定サブモジュール516に通信可能に連結される。
少なくともいくつかの実施形態において、複数のシミュレーションされたデータスナップショット1020が生成される。例えば、例示的な実施形態において、修復の方法M1は、それぞれのモデル532を利用して、シミュレーションされたデータスナップショット1022においてインピュートされた値1024を計算する。いくつかの実施形態において、誤りのあるデータ1006に対してインピュートされた値1024を計算するために用いられる誤りのないデータ1004の一部は、それぞれの修復の方法M1と関連付けられる特定の修復技術に依存する。例えば、欠損している値をすべての値の平均値と置き換えると判定された場合、それぞれの誤りのないデータ1004の実質的に完成したセットがそれぞれの修復の方法M1において用いられる。代替的に、誤りのないデータ1004の周辺の3つの値のみが欠損している値、すなわち、誤りのあるデータ1006を計算するために用いられる場合、誤りのないデータ1004のこれら周辺の値のみがそれぞれの修復の方法M1により用いられる。同様に、シミュレーションされたデータスナップショット1032、1042及び1052は、それぞれの修復の方法M2~M4を通じて生成され、それぞれのインピュートされた値1034、1044及び1054を含む。修復の方法M1~M4が異なるので、それぞれのインピュートされた値1024、1034、1044及び1054も異なっている方が良い。図4及び図5Bを参照すると、シミュレーションされたデータスナップショット1022、1032、1042及び1052は、方法ベースのシミュレーションサブモジュール534からの出力536として示されており、出力536は、いくつかの実施形態において、データストレージシステム408内に存在するデータシミュレーションスナップショットストレージモジュール538に伝送される。
例示的な実施形態などの少なくとも1つの実施形態において、誤りのあるデータ1006の3つのインスタンスは、実質的に同一である。少なくとも1つの実施形態において、誤りのあるデータ1006のインスタンスのそれぞれは異なる。したがって、複数のモデル532及び修復の方法M1~M4が誤りのあるデータ1006のすべてに対して用いられるので、各異なるエラーに対して複数のそれぞれのインピュートされた値1024、1034、1044及び1054を生成することが容易になる。したがって、修復の方法M1~M4の形式の方法ベースのシミュレーションは、誤りのない元のデータ1004の1つ又は複数のシミュレーションスナップショット1022、1032、1042及び1052、及び、各誤りのある元のデータ値1006に対してインピュートされた値1024、1034、1044及び1054を生成するために用いられ、インピュートされた値1024、1034、1044及び1054のそれぞれは、特定の修復の方法M1~M4が用いられる場合に、データ値がどのように見えるのかを示し、インピュートされた値1024、1034、1044及び1054のそれぞれは、異なる修復の方法M1~M4の成果物である。
少なくともいくつかの実施形態において、センサ群416を通じた元の時系列データストリーム420の収集は、それらが収集される際のデータエレメント内のパターンの判定を容易にするヒューリスティックベースの特徴の使用を含む。いくつかの条件下で、元のデータ422の1つ又は複数のインスタンスは、確立されたデータパターンにデータエレメントの値が応じるべき確率に基づいた閾値を超えるそれぞれのデータエレメントに起因して間違っているように見えるかもしれない。例えば、限定することなく、見掛けのデータ偏位、すなわち、データ急上昇又は急下降は、誤りのあるデータパケットを通じて、又は、リアルタイムに発生する正確な描写に応じてのいずれかで生成されてよい。したがって、スナップショット生成モジュール530は、さらに、ポイントベースのシミュレーションを用いて、エラーを分析し、明らかに誤りのあるデータが実際に誤りのあるデータであるかどうかを判定するように構成される、すなわち、スナップショット生成モジュール530は、ポイントベースのシミュレーションサブモジュール540を含む。
図11を参照すると、ポイントベースのシミュレーションのためのプロセス1100を示す概略図が提供される。また、図4及び図5Bを参照すると、ポイントベースのシミュレーションは、ポイントベースのシミュレーションサブモジュール540を通じて生成される。埋め込まれた問題点を有する誤りのあるデータ、及び、それぞれのKPI策定特性470の識別情報を含むデータ検査モジュール510の出力526の一部は、誤りのないデータポイント1104の10個のインスタンス及び疑わしい潜在的に誤りのあるデータポイント1106の3つのインスタンスを有するデータスニペット1102として示される。疑わしい潜在的に誤りのあるデータポイント1106の3つのインスタンスは、個別に1106A、1106B及び1106Cと称され、まとめて、1106と称される。1つ又は複数の実施形態において、既知の誤りのない元のデータ、すなわち、誤りのないデータポイント1104及び疑わしい潜在的に誤りのあるデータポイント1106を含むデータスニペット1102は、疑わしい潜在的に誤りのあるデータポイント1106の値が正しいか、又は、誤りがあるかの確率の判定を開始するための構成のマトリックス1110に組み合わせられる。図示されるように、マトリックス1110は、3つの疑わしい潜在的に誤りのあるデータポイント1106、すなわち、23を有する、又は、3つの疑わしい潜在的に誤りのあるデータポイント1106の8通りの組み合わせに基づいている。マトリックス1110は、3つの列1112、1114及び1116、すなわち、それぞれ、疑わしい潜在的に誤りのあるデータポイント1106A、1106B及び1106Cのそれぞれに1つずつで構成されている。結果として得られる8つの行は、個別にD1からD8と称され、まとめて1120と称され、3つの疑わしい潜在的に誤りのあるデータポイント1106の利用可能な組み合わせを含む。
3つの疑わしい潜在的に誤りのあるデータポイント1106のそれぞれは、離散的な「正しい」又は離散的な「誤り」のいずれかとして個別に推定され、潜在的に誤りのあるデータ値は、それらを既知の誤りのない元のデータ、すなわち、誤りのないデータポイント1104と区別するために「推定されるデータポイント」と称される。図11に示されるように、推定される誤りのあるデータポイントは、まとめて1130と称される。疑わしい潜在的に誤りのあるデータポイント1106Aと関連付けられているこれらの推定される誤りのあるデータポイント1130は、個別に示されており、列1112において1122、1132、1162及び1182と称されている。また、疑わしい潜在的に誤りのあるデータポイント1106Bと関連付けられているこれらの推定される誤りのあるデータポイント1130は、個別に示されており、列1114において1124、1144、1164及び1174と称されている。さらに、疑わしい潜在的に誤りのあるデータポイント1106Cと関連付けられているこれらの推定される誤りのあるデータポイント1130は、個別に示されており、列1116において1126、1146、1176及び1186と称されている。
同様の方式で、図11に示されるように、推定される正しいデータポイントは、まとめて1140と称されている。疑わしい潜在的に誤りのあるデータポイント1106Aと関連付けられているこれらの推定される正しいデータポイント1140は、個別に示されており、列1112において1142、1152、1172及び1192と称されている。また、疑わしい潜在的に誤りのあるデータポイント1106Bと関連付けられているこれらの推定される正しいデータポイント1140は、個別に示されており、列1114において1134、1154、1184及び1194と称されている。さらに、疑わしい潜在的に誤りのあるデータポイント1106Cと関連付けられているこれらの推定される正しいデータポイント1140は、個別に示されており、列1116において1136、1146、1166及び1196と称されている。マトリックス1120のシミュレーションスナップショット542が実行される。
したがって、第1行D1は、推定される誤りのあるデータポイント1130として3つの疑わしい潜在的に誤りのあるデータポイント1106をすべて表す。同様に、第8行D8は、推定される正しいデータポイント1140として3つの疑わしい潜在的に誤りのあるデータポイント1106をすべて表す。第2行、第3行及び第4行D2、D3及びD4は、それぞれ、推定される誤りのあるデータポイント1130として、3つの疑わしい潜在的に誤りのあるデータポイント1106のうちの1つのみ、及び、推定される正しいデータポイント1140として、3つの疑わしい潜在的に誤りのあるデータポイント1106のうちの2つを表す。第5行、第6行及び第7行D5、D6及びD7は、それぞれ、推定される誤りのあるデータポイント1130として3つの疑わしい潜在的に誤りのあるデータポイント1106のうちの2つ、及び、推定される正しいデータポイント1140として3つの疑わしい潜在的に誤りのあるデータポイント1106のうちの1つのみを表す。
そのため、推定される誤りのあるデータポイント1130及び推定される正しいデータポイント1140は、伝送されたときの元のデータ値、及び、正しいか又は誤りがあるかのいずれかとして離散的な推定されるラベルを有する。残りの解析は、推定される誤りのあるデータポイント1130及び推定される正しいデータポイント1140に限定的に焦点を合わせる。具体的には、D1からD8として示されるような推定されるデータポイント1130及び1140のあらゆる可能な組み合わせのすべては、さらなる評価のために前述のシミュレーションスナップショット542において収集される。離散的な「正しい」ラベル、すなわち、推定される正しいデータポイント1140、及び、離散的な「誤り」ラベル、すなわち、推定される誤りのあるデータポイント1130及びそのようなものの後続の集約のすべての可能な組み合わせの生成は、「最良」のアクション、及び「最良」のアクションが誤りのあるデータを訂正するか、又は、正確なデータを受け入れるかについてのさらなる判定をしやすくする。これらの動作は、疑わしい潜在的に誤りのあるデータ値のうちの1つ又は複数の確率が「正しい」か又は「誤り」であると判定したことを通じて、誤りかもしれない又はそうではないかもしれないデータスニペット1102内の元のデータと関連付けられている許容される間違い考慮する。組み合わせD1からD8のそれぞれにおいて、疑わしい潜在的に誤りのある値1106のいくつかが誤りとして間違って特定され、いくつかは、誤りとして正確に特定されることが想定される。そのため、組み合わせD1からD8のそれぞれについて、誤りのある値は、限定されるものではないが、図10に関して説明されるものと同様の予め定められた修正方法に基づいてインピュートされた値と置き換えられる。したがって、各組み合わせD1からD8は、正しい及び正しくないデータポイントの異なるセットを有し、予め定められた修正技術に基づいて異なるインピュートされた値を必要とする。
上述したように、ポイントベースのシミュレーションは、外れ値の問題点を処理するために上手く構成され、外れ値の問題点は、図11における例示的な実施形態をさらに説明するために用いられる。上述したように、パターンは、データスニペット1102、及び、それぞれのデータエレメントの値が確立されたデータパターンに応じるべき確率を含む元のデータ504において識別されてよい。したがって、離散的な「誤り」推定されるデータポイント1130は、これに割り当てられるパーセント保証で誤りのあるものとして誤判定される確率を有する。3つの疑いの可能性がある誤りのある値1106のそれぞれの確率は、値1106に誤りがあるかそうでないかを判定するために用いされる。様々な8つの組み合わせD1からD8が評価される際に、D1からD8のそれぞれが真である確率が判定され、真である確率が最も高いこれらの行D1からD8は、さらなる解析に提出される。D1からD8の全確率は100%である。例えば、限定することなく、D1における各ポイント1122、1124及び1126のヒューリスティック解析及びそれらの関連する合計した確率を考慮すると、誤りがあるD1における3つのポイントのすべてが、(3つの値がすべて正しい)行D8のように、比較的低い確率を有すると判定され得る。これら2つの行D1及びD8は、これ以上考慮されることはない。特に、誤りのある値がない行D8が正しいという確率が最も高いこれらの実施形態について、さらなる解析が実行される必要はなく、値1106は、さらに説明されるように、下流工程を通じて訂正されることはない。したがって、真である確率がより高い値の組み合わせがさらに処理される。
一般に、離散的な「正しい」及び「誤り」推定されるデータポイント1130及び1140の各可能な組み合わせの総数は、推定されるデータポイントの数と共に指数関数的に増え(すなわち、2xであり、x=推定されるデータ値生成の数である)、すべての可能な組み合わせを生成し、それらを処理することは、時間及びリソース集中型となり得る。推定されるデータポイントの各組み合わせは、潜在的なシミュレーションであり、潜在的なシミュレーションとして組み合わせのそれぞれを処理することは、単に、処理するオーバヘッドを増加させるだけである。したがって、推定されるデータポイント1130及び1140の説明される可能な組み合わせD1からD8がさらに考慮されるが、しかしながら、推定されるデータポイント1130及び1140の可能な組み合わせは、すべての可能な組み合わせのサブセットのみがさらに考慮されるように「プルーニングされる」。上述したように、初期のプルーニングは、潜在的に誤りのある値の低い確率の組み合わせがさらなる処理から除外される際に発生する。
ポイントベースのシミュレーションサブモジュール540は、スナップショット最適化サブモジュール544に動作可能に連結される。そのような実施形態において、スナップショット最適化の特徴は、前述したように、KPI策定特性470が観測可能でないボックスであるか、又は、観測可能なボックスであるかに関わらず判定されるKPI策定特性470を用いることを通じて利用される。例えば、限定することなく、最大値、最小値、平均値及び中央値の解析のためのKPI策定特性470は、推定されるデータポイント1130及び1140のシミュレーションをフィルタリングするために用いられ得る。したがって、スナップショット最適化モジュール544は、KPI策定サブモジュール516に通信可能に連結される。一般に、プルーニングプロセスを通じて渡すのに成功した推定されるデータポイントのこれらの組み合わせのみが、モデルを通じて疑わしいポイント値のそれぞれのシミュレーションを生成し、誤りのない元のデータと、特定された誤りのあるデータに対してインピュートされた値とを用いてそれぞれのシミュレーションスナップショットを生成するために存続し、疑わしい誤りのあるポイント値の一部は、実際には、誤りがないかもしれず、それらの置換の必要がない。
図12を参照すると、(図5Bに示されるように)スナップショット最適化サブモジュール544内での実行のために構成されるスナップショットオプティマイザのための例示的なアルゴリズム1200を示すテキスト図が提供される。図4、図5A、図5B及び図11を参照すると、アルゴリズム1200は、KPI特性判定サブモジュール514により以前に判定されたものとして、かつ、図6~図8に関して説明したようなKPI策定特性470を判定するオペレーション1202を含む。マトリックス1120のように例示的な実施形態において表されるようなデータ、つまり、上述したように低い確率に起因して除外されている残りの行に埋め込まれるデータは、さらに、データ提示オペレーション1204を通じて本明細書において説明されるようなプルーニング効果を生成するために分析される。上述したように、例示的な埋め込みは、外れ値を分析することを含む。1つ又は複数の実施形態において、第1のサブアルゴリズム、すなわち、「最高」サブアルゴリズム1206が実行のために考慮される。以前に判定されたKPI策定特性470が最高の特性であるというイベントにおいて、修正されたデータオペレーション1208がモデル532の1つ又は複数を通じて実行される。修正されたデータオペレーション1208は、疑わしい潜在的に誤りのあるデータ1106が、元のデータ504のデータスニペット1102の上昇ピーク内の外れ値であるかどうかを判定することを含む。データスニペット1102が上昇傾向を示しておらず、それにより、上昇ピークのいずれの機会も除外している場合、アルゴリズム1200は、次のオペレーションのセットに進む。データスニペット1102が上昇傾向を示している場合、影響を受ける外れ値は、疑わしい誤りのあるデータに実際には誤りがあったといういくつかのレベルの確実性をもたらす以前に説明した確率値を用いて、修正されたデータオペレーション1208ごとの上昇傾向に対して平滑効果をもたらす値と置き換えられる。これらのデータポイントは、1つ又は複数のモデル532を通じたシミュレーションのために選択される。データ置換識別情報又は「修正」が実行されると、最高サブアルゴリズム1206は終了する1210。
第2のサブアルゴリズム、すなわち、「最低」サブアルゴリズム1212が実行のために考慮される。以前に判定されたKPI策定特性470が最低の特性であるというイベントにおいて、修正されたデータオペレーション1214は、モデル532の1つ又は複数を通じて実行される。修正されたデータオペレーション1214は、疑わしい潜在的に誤りのあるデータ1106が元のデータ504のデータスニペット1102の下降ピーク内の外れ値であるかどうかを判定することを含む。データスニペット1102が下降傾向を示しておらず、それにより、下降ピークのいずれの機会も除外している場合、アルゴリズム1200は、次のオペレーションのセットに進む。データスニペット1102が下降傾向を示している場合、影響を受ける外れ値は、疑わしい誤りのあるデータに実際には誤りがあったといういくつかのレベルの確実性をもたらす以前に説明した確率値を用いて、修正されたデータオペレーション1214ごとの下降傾向に対して平滑効果をもたらす値と置き換えられる。これらのデータポイントは、1つ又は複数のモデル532を通じたシミュレーションのために選択される。データ修復又は「修正」が実行されると、最低サブアルゴリズム1212が終了する1216。
第3のサブアルゴリズム、すなわち、「平均値」サブアルゴリズム1218が実行のために考慮される。以前に判定されたKPI策定特性470が平均的な特性であるというイベントにおいて、修正されたデータオペレーション1220は、1つ又は複数のモデル532を通じて実行される。修正されたデータオペレーション1220は、すべての問題点、すなわち、影響を受ける疑いのある潜在的に誤りのあるデータ1106、及び、上述したそれぞれの確率のすべてを検討することを通じて、疑わしい潜在的に誤りのあるデータ1106が外れ値であるかどうかを判定すること、及び、互いに関連するそれぞれの値の近傍に基づいて、それらを潜在的に誤りのあるデータ値の1つ又は複数のクラスタにグループ化することを含む。いくつかの実施形態において、クラスタリングするための基礎として用いられる平均的な特性を示す潜在的に誤りのあるデータ値の複数のクラスタがあってよい。クラスタ検討オペレーション1222が実行され、代表点、例えば、限定することなく、各クラスタからの平均値の収集がシミュレーションのための代表点とみなされる。シミュレーションのためのデータ選択が1つ又は複数のモデル532を通じて実行されると、平均値サブアルゴリズム1218が終了する1224。
第4のサブアルゴリズム、すなわち、「中央値」サブアルゴリズム1226が実行のために考慮される。以前に判定されたKPI策定特性470が中央値の特性であるというイベントにおいて、修正されたデータオペレーション1228は、モデル532の1つ又は複数を通じて実行される。修正されたデータオペレーション1228は、すべての問題点、すなわち、影響を受ける疑いのある潜在的に誤りのあるデータ1106及び上述したそれぞれの確率のすべてを検討することを通じて、疑わしい潜在的に誤りのあるデータ1106が外れ値であるかどうかを判定することを含む。疑わしい潜在的に誤りのあるデータ1106が実際に外れ値である場合、中央値ベースのKPIが値の混乱による影響を受けないので、当該データに対してさらなる動作が取られることはなく、中央値サブアルゴリズム1226は終了する1230。いくつかの実施形態において、サブアルゴリズム1206、1212、1218及び1226は、並行して同時に実行されてよい。最適化されたシミュレーションされたデータスナップショット546として示されるスナップショット最適化モジュール544の出力は、いくつかの実施形態では、データストレージシステム408内に存在するデータシミュレーションスナップショットストレージモジュール538に伝送される。したがって、複数のシミュレーションスナップショット536及び546は、さらなる処理のために生成され、シミュレーションスナップショット536及び546は、他の多数のインピュートされた値を大幅に減らす方式で生成される。
引き続き図4、図5B、図10及び図11を参照すると、少なくともいくつかの実施形態において、シミュレーションスナップショット536及び546は、スナップショット生成モジュールにより作成され、方法ベースであるか、又は、ポイントベースであるかがKPI値推定モジュール550に伝送される。上述したように、シミュレーションスナップショット536及び546の各シミュレーションスナップショットは、誤りのない元のデータ(例えば、1004及び1104)と、確立された誤りのあるデータに対してインピュートされた値(例えば、1006及び1106)とを含む。インピュートされた値及び関連する元のデータのそれぞれは、予測される置換値、すなわち、それぞれのシミュレーションスナップショット536及び546におけるインピュートされた値のそれぞれに対して推定されるスナップショット値を生成するために、それぞれのKPI策定468に提示される。そのため、元のデータ504もKPI値推定モジュール550に伝送される。
図13を参照すると、KPI値推定処理1300の少なくとも一部を示すグラフィック図が提示される。また、図4及び図5Bを参照すると、シミュレーションスナップショット536及び546に対して推定されるスナップショット値は、それぞれのKPI策定468に基づいており、時系列データストリーム上の誤りのない元のデータのコンテキスト内にある。したがって、KPI値推定モジュール550に伝送される各シミュレーションスナップショット536及び546に対して、予測される置換値、すなわち、推定されるスナップショット値が生成される。図13は、横軸(Y軸)1302及び縦軸(X軸)1304を示す。Y軸1302は、41.8から42.6まで広がることが示されており、値は無名数である。X軸1304は、無価値及び無名数が示されている。値の性質は重要ではないが、しかしながら、処理1300は、シミュレーションスナップショット536及び546を提示されるKPI策定特性470に応じて判定される値の一部を示す。元のKPI値1306、すなわち、それぞれのKPI策定468を通じて誤りの疑いがあるデータを処理することにより生成される値が基準として提示され、それぞれの値は、42.177である。シミュレーションされるKPI最大値スナップショット1308は、42.548の推定されるスナップショット値を提示し、シミュレーションされるKPI平均値スナップショット1310は、42.091の推定されるスナップショット値を提示し、シミュレーションされるKPI最小値スナップショット1312は、41.805の推定されるスナップショット値を提示する。これらの推定されるスナップショット値は、処理500の後続の部分の議論で用いられる。
図5Cを参照すると、図5A及び図5Bに示されるフローチャートの続きが提供され、時系列データ内の訂正されたデータに対する信頼度値を計算するための処理500を示す。また、図5Bを参照すると、KPI値推定モジュール550の出力は、推定されるポイントベースのスナップショット値552、推定される方法ベースのスナップショット値554及び元のデータ504を含み、これらは、KPI値推定モジュール550に通信可能に連結される信頼度測定モジュール570に伝送される。一般に、信頼度測定モジュール570内のKPI値推定モジュール550におけるシミュレーションスナップショットから生成される誤りのあるデータに対するそれぞれの推定されるスナップショット値ごとに、推定されるスナップショット値は、個別に採点される。それぞれの採点法は、採点された推定されるポイントベースのスナップショット値562、すなわち、それぞれの信頼度値を有する推定されるポイントベースのスナップショット値552を生成することを含む。さらに、それぞれの採点法は、採点された推定される方法ベースのスナップショット値564、すなわち、それぞれの信頼度値を有する推定される方法ベースのスナップショット値554を生成する。信頼度値の生成は以下でさらに説明される。最高の解析スコアが選択され、それぞれの推定されるスナップショット値は、ここで、誤りのあるデータを置き換えるために選択されたKPI値へと昇格され、選択されたKPI値は、推定されるKPI値566と称される。したがって、推定されるKPI値566は、潜在的に誤りのあるデータインスタンスを解消するために、1つ又は複数の予測される置換値から選択された値(すなわち、採点された推定されるスナップショット値562及び564)である。
いくつかの実施形態において、信頼度測定モジュール570は、信頼度値並びに詳細及び証拠の生成を促進して、そのような値をサポートする複数の追加のサブモジュールを含む。これらの実施形態のいくつかにおいて、3つの信頼度測定サブモジュール、すなわち、品質ベースの信頼度測定サブモジュール572、スプレッドベースの信頼度測定サブモジュール574、及び、品質及びスプレッドベースの信頼度測定サブモジュール576が用いられる。
品質ベースの信頼度測定サブモジュール572は、KPI値推定モジュール550から取得される値の大きさを考慮に入れて、それぞれの信頼度スコアを含む関連する信頼度測定情報を生成するように構成される。例えば、限定することなく、KPI値の大きさが50であるか、又は、1050であるかといった結果として得られるKPI値における信頼度は、追加のデータ及び条件の観点から異なり得る。スプレッドベースの信頼度測定サブモジュール574は、シミュレーションされた値があり、それぞれの信頼度スコアを含む関連する信頼度測定情報を生成する範囲を検討する。KPI値の絶対的な大きさの代わりに、スプレッドベースの信頼度測定は、KPI値の平均、最小、最大及び標準偏差のような統計的特性を用いており、したがって、実質的には、大きさにより影響されることはない。品質及びスプレッドベースの信頼度測定サブモジュール576は、大きさ並び値の範囲を検討して、それぞれの信頼度スコアを含む関連する信頼度測定情報を生成する。いくつかの実施形態において、サブモジュール572、574及び576の3つすべてが並行して用いられ、それぞれの結果が選択のために考慮及び評価される。いくつかの実施形態において、サブモジュール572、574及び576のうちの1つ又は2つのみが、到着した推定されるKPI値566の性質及び他のデータ568(以下でさらに説明される)に基づいて選択される。
図14を参照すると、グラフィック/テキスト図が提供され、数値的な信頼度測定の生成1400を示す。また、図5B及び図5Cを参照すると、推定されるポイントベースのスナップショット値552及び推定される方法ベースのスナップショット値554の信頼度値が生成される。線形的なグラフィカル表現1410は、図13に示される4つの値と共に提示される。具体的には、(図5Cに示される)他のデータ568、例えば、限定することなく、41.805の推定されるスナップショット値を有するKPI最小値スナップショット値1412、42.091の推定されるスナップショット値を有するシミュレーションされたKPI平均スナップショット値1414、42.117の元のKPI値1416、及び、42.548の推定されるスナップショット値を有するKPI最大値スナップショット値1418は示される。また、図14に提示されるものは、第1のセットの信頼度測定評価アルゴリズム、すなわち、最大偏差信頼度測定アルゴリズム1430である。信頼度測定1Aのアルゴリズムは、元のKPI値1416に応じて、推定されるスナップショット値1412、1414及び1418の最大分散間の関係を判定する。信頼度測定1Bのアルゴリズムは、シミュレーションされたKPI平均スナップショット値1414に応じて、推定されるスナップショット値1412、1414及び1418の最大分散間の関係を判定する。さらに、図14に提示されるものは、第2のセットの信頼度測定評価アルゴリズム、すなわち、平均偏差信頼度測定アルゴリズム1440である。信頼度測定2Aのアルゴリズムは、元のKPI値1416に応じて、元のKPI値1416と、シミュレーションされたKPI平均スナップショット値1414との間の分散の関係を判定する。信頼度測定2Bのアルゴリズムは、シミュレーションされたKPI平均スナップショット値1414に応じて、元のKPI値1416と、シミュレーションされたKPI平均スナップショット値1414との間の分散の関係を判定する。また、図14は、スプレッドベースの測定アルゴリズム1450、すなわち、シミュレーションされたKPI最大値1418と、シミュレーションされたKPI最小値1412との間のスプレッド1454に応じて、元のKPI値1416と、シミュレーションされたKPI平均スナップショット値1414との間の偏差1452を評価する信頼度測定3のアルゴリズムを提示する。信頼度測定1A及び1Bの最大偏差信頼度測定アルゴリズム1430、及び、信頼度測定2A及び2Bの平均偏差信頼度測定アルゴリズム1440は、品質ベースの信頼度測定サブモジュール572及び品質及びスプレッドベースの信頼度測定サブモジュール576内に存在する。同様に、スプレッドベースの測定アルゴリズム1450の信頼度測定3のアルゴリズムは、スプレッドベースの信頼度測定サブモジュール574及び品質及びスプレッドベースの信頼度測定サブモジュール576内に存在する。
また、図15を参照すると、グラフィック図、すなわち、カラムチャート1500が提供され、アルゴリズムから計算された値と、その間の比較を用いて図14において提供される値とを用いた信頼度測定を示す。カラムチャート1500は、0%と100%との間に広がる計算された信頼度値の値を代表する縦軸(Y軸1502)を含む。カラムチャート1500はまた、信頼度測定1A、1B、2A、2B及び3を特定する横軸(X軸)1504を含む。信頼度測定2A及び2Bの信頼度値は、99.8の最も高い値を提供する。したがって、シミュレーションされたKPI平均スナップショット値1414は、誤りのあるデータに対する最高の信頼度値を提供する。少なくともいくつかの実施形態において、シミュレーションされたKPI平均スナップショット値1414は、本例についての推定されるKPI値566である。
一般に、信頼度測定モジュール570は、前述のシミュレーションのうちの1つ又は複数を通じて生成される推定されるスナップショット値552及び554をそれぞれの元の誤りのあるデータと比較する。比較の結果の少なくとも1つは、推定されるスナップショット値552及び554が誤りのあるデータに対して適切な置換であることの信頼度のレベルを示すデータのそれぞれのスナップショットに適用されるように、推定されるスナップショット値552及び554のそれぞれに対する数値の形式の信頼度値である。比較的低い信頼度値は、結果として得られる推定されるKPI値566を含むそれぞれの推定されるスナップショット値552及び554が用いられるべきではない、又は、注意して用いられる、のいずれかであることを示す。比較的高い信頼度値は、結果として得られる推定されるKPI値566を含むそれぞれの推定されるスナップショット値552及び554が用いられるべきではないことを示す。関連する信頼度値の閾値は、ユーザにより確立されてよく、また、1つ又は複数のモデルを訓練するために用いられてよく、両方の条件は、選択を完全に自動化することを容易にする。さらに、後続の動作が自動化され得る。例えば、限定することなく、所定の閾値を下回る信頼度値について、推定されるKPI値566は、元のデータストリーム420を利用して、ネイティブアプリケーション内のさらなる処理、例えば、プロセス制御システム410に対して渡されることはない。同様に、所定の閾値を上回る信頼度値について、推定されるKPI値566は、元のデータ422を利用して、ネイティブアプリケーション内のさらなる処理のために渡される。したがって、本明細書で説明されるようなシステム及び方法は、不用意な動作を防ぐ、又は、条件及び正確なデータの指示に従って適切な動作を開始する方式で自動的に元のデータストリーム420内の誤りのあるデータを用いて問題点を正す。
図5Cを再び参照すると、信頼度測定モジュール570は、信頼度測定サブモジュール572、574及び576から信頼度ベースのデータ580を受信するように構成される説明サブモジュール578を含む。信頼度ベースのデータ580は、限定することなく、推定されるKPI値566及びその関連する信頼度値、推定されるKPI値566の選択と関連付けられるそれぞれの情報及び追加の情報を含み、限定することなく、それぞれの信頼度値を含む推定されるスナップショット値552及び554のすべてを含む他のデータ568を含む、選択された推定されるKPI値566の説明を生成する。さらに、予測、すなわち、推定されるKPI値566に対する信頼度値が100%ではない可能性があるので、説明サブモジュール578は、推定されるKPI値566として、特定の採点された推定されるスナップショット値562及び564の選択についての詳細及び証拠を提供することを通じて、1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を提供する。説明サブモジュール578は、限定することなく、データセットにおいて検出された問題点のタイプ、生成されるシミュレーションの数及び性質、様々なシミュレーションから取得されるスコアの統計的特性及びスコアの比較を含むそのような詳細を提供する。したがって、信頼度測定モジュール570は、採点された推定されるスナップショット値562及び564及び情報に対して様々な信頼度測定を生成して、採点された推定されるスナップショット値562及び564の分散の性質をユーザが理解することを促進し、さらに、それぞれの推定されるKPI値566の選択の明確性をもたらし、それにより、処理500の出力として信頼度スコア及び説明582を生成する。
また、図16を参照すると、テキスト図が提供され、信頼度測定説明1600を示す。信頼度測定説明1600において提供されるデータは、実質的に一目瞭然である。
本明細書において開示されるように、システム、コンピュータプログラム製品及び方法は、誤りのある時系列データを不注意に処理し、それらから想定外の結果に出くわす可能性があることについての欠点及び制限を克服することを促進する。例えば、それぞれのデータが生成される際に、所与のビジネスKPIについて、本明細書で説明される自動化されたシステム及び方法は、データ品質の問題点がそれぞれのビジネスKPIに対するインパクトが強いか否かを決定する。さらに、本明細書で説明されるシステム及び方法は、関連するデータの問題点を特定できるように関連するビジネスKPIの性質(又は、特性)を特定し、正確なKPI策定が明示的に見えるか否か、すなわち、策定が実際は観測可能なボックスであるか、又は、観測可能でないボックスであるかに関わらず、最適化を実行できる。また、本明細書で説明されるシステム及び方法は、誤りのあるデータに対する置換値の採点された予測を選択することにより特定されたデータの問題点を解消する。さらに、本明細書で説明されるシステム及び方法は、可能な置換値の選択を最適化して、システムのリソースを効率的に用いる。また、採点された予測は、推定される信頼度測定及び値の理由に関する信頼度値の説明と共に、数値化された信頼度値を伴う。したがって、本明細書で説明されるように、データ品質の問題点は、所与のKPIの解析に基づいてフィルタリングされ、データは、所与のKPIの測定に対するその影響を計算し、予測された置換値の信頼度をさらに測定するために、様々なシナリオを考慮して、品質の問題点を緩和するために修正される。
さらに、本明細書で開示されるようなシステム、コンピュータプログラム製品及び方法の特徴は、限定的にビジネスベースの実施形態における実装を超えて広がり得る。誤りのある時系列データを不注意に処理し、それらから想定外の結果に出くわす可能性があるという同様の欠点及び制限を克服するために、ビジネスでない実装も想定される。具体的には、適切にそれぞれの機能を実行する時系列データに依存する任意のコンピュータ実装処理は、本開示における特徴の実装を通じて改善され得る。例えば、限定することなく、住居及び車両のユーザを含むIoTデバイスから収集された任意の時系列データの使用は、最も高い信頼度を有する欠損データ値の置換を通じて、不注意にかつ不必要に自動化された動作を回避する。具体的には、住居のユーザについて、それぞれの電気事業者から誤って低い電圧を示している誤りのあるデータは、さもなければそれぞれの住居への十分な電力供給を妨害する低電圧保護回路を不注意にかつ不必要にアクティブにすることが防止され得る。そのような実装において、1つのそれぞれのKPIは、住居のユーザに電力の継続性を維持することであり得る。また、具体的には、車両のユーザについて、過度の推進メカニズム温度を誤って示す誤りのあるデータは、自動化された緊急エンジン停止を不注意にかつ不必要にアクティブにすることが防止され得る。そのような実装において、1つのそれぞれのKPIは、車両のユーザに対する推進力の継続性を維持することであり得る。
したがって、本明細書で開示される実施形態は、誤りのある時系列データと関連付けられた問題点を効率的に効果的にかつ自動的に特定し、関連するデータの問題点を特定でき、正確なKPI特性が素直に定義されているか否か、すなわち、KPI策定が、実際に観測可能なボックスであるか、又は、観測可能でないボックスであるかについての最適化を実行できるようにビジネスKPIの特性を特定することを通じて、データ品質の問題点が、所与のビジネスKPIに対するインパクトが強いか否かを判定し、調査された潜在的な解決策についての信頼度解析を提示しつつ、特定されたデータの問題点を解消するためのメカニズムを提供することによりコンピュータ技術に対する改善をもたらす。
本開示の様々な実施形態の説明は、例示目的で記載されており、網羅的であること、あるいは、開示された実施形態への限定を意図していない。説明された実施形態の範囲及び趣旨から逸脱することなく、当業者には多くの修正例及び変形例が自明であろう。本明細書で用いられる用語は、実施形態の原理、市場で見られる技術の実用的な適用又はそれに対する技術的改善を最もよく説明し、あるいは、本明細書に開示された実施形態を他の当業者が理解できるように選択されている。
Claims (20)
- コンピュータシステムであって、
1つ又は複数の処理デバイス、及び、前記1つ又は複数の処理デバイスに動作可能に連結される少なくとも1つのメモリデバイスを備え、前記1つ又は複数の処理デバイスは、
時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定し、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定し、
前記1つ又は複数の予測される置換値のそれぞれの予測された置換値に対する信頼度値を判定し、
前記1つ又は複数の予測される置換値のうちの1つの予測される置換値を用いて前記1つ又は複数の潜在的に誤りのあるデータインスタンスを解消し、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスの前記解消に関する説明根拠を生成する
ように構成される、システム。 - 前記1つ又は複数の処理デバイスは、さらに、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスを通じて影響を受ける1つ又は複数の重要業績評価指標(KPI)を特定するように構成される、請求項1に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
1つ又は複数のKPI策定特性が前記1つ又は複数の潜在的に誤りのあるデータインスタンスと関連付けられていることを判定するように構成され、前記1つ又は複数のKPIの各KPIは、それらの1つ又は複数の策定を含み、前記1つ又は複数の策定の各策定は、それらの1つ又は複数の特性を含む、請求項2に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
観測可能なKPI策定を分析し、それにより、観測可能なボックス策定を分析し、
観察不可能なKPI策定を分析し、それにより、観測可能でないボックス策定を分析する
ように構成される、請求項3に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
1つ又は複数のシミュレーションスナップショットを生成するように構成され、前記1つ又は複数のシミュレーションスナップショットの各シミュレーションスナップショットは、1つ又は複数のインピュートされた値を含み、前記1つ又は複数の予測される置換値のそれぞれの予測された置換値は、前記1つ又は複数のインピュートされた値及び前記1つ又は複数のKPI策定特性に少なくとも部分的に基づいている、請求項3又は4に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスの各潜在的に誤りのあるデータインスタンスに、分散的な正しいラベル及び分散的な誤りのあるラベルのうちの一方を交互に割り当ることを含む前記1つ又は複数の潜在的に誤りのあるデータインスタンスから複数の推定されるデータポイントを生成することと、
前記複数の推定されるデータポイントのすべての可能な組み合わせのセットを生成することと、
前記複数の推定されるデータポイントに実際には誤りがある確率を判定することと、
前記複数の推定されるデータポイントのすべての可能な組み合わせの前記セットのサブセットのみに対する複数のポイントベースのシミュレーションスナップショットを生成することであって、前記複数のポイントベースのシミュレーションスナップショットの各ポイントベースのシミュレーションスナップショットは、前記1つ又は複数のインピュートされた値を含む、生成することと
を有するポイントベースのシミュレーションを通じて前記複数のシミュレーションスナップショットを生成し、
各潜在的に誤りのあるデータインスタンスに対する前記1つ又は複数のインピュートされた値を生成することであって、前記1つ又は複数のインピュートされた値の各インピュートされた値は、それぞれの修復オペレーションを通じて生成される、生成すること
を有する方法ベースのシミュレーションを通じて複数のシミュレーションスナップショットを生成する
ように構成される、請求項5に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
前記1つ又は複数のKPI策定特性を用いることを通じて、スナップショット最適化の特徴を利用することを有する前記複数の推定されるデータポイントのすべての可能な組み合わせの前記セットの前記サブセットを生成するように構成される、請求項6に記載のシステム。 - 前記1つ又は複数の処理デバイスは、さらに、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスを解消し、品質ベースの信頼度測定及びスプレッドベースの信頼度測定の1つ又は複数を通じて、前記1つ又は複数の潜在的に誤りのあるデータインスタンスの解消に関する説明根拠を生成するように構成される、請求項1から7のいずれか一項に記載のシステム。 - プロセッサに、
時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定する手順と、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定する手順と、
前記1つ又は複数の予測される置換値のそれぞれの予測された置換値に対する信頼度値を判定する手順と、
前記1つ又は複数の予測される置換値の1つの予測される置換値を用いて、前記1つ又は複数の潜在的に誤りのあるデータインスタンスを解消する手順と、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスの前記解消に関する説明根拠を生成する手順と
を実行させるためのコンピュータプログラム。 - 前記プロセッサに、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスを通じて影響を受ける1つ又は複数の重要業績評価指標(KPI)を特定する手順をさらに実行させる、請求項9に記載のコンピュータプログラム。 - 前記プロセッサに、
KPI策定特性の1つ又は複数が前記1つ又は複数の潜在的に誤りのあるデータインスタンスと関連付けられていることを判定する手順であって、前記1つ又は複数のKPIの各KPIは、それらの1つ又は複数の策定を含み、前記1つ又は複数の策定の各策定は、それらの1つ又は複数の特性を含む、手順をさらに実行させる、請求項10に記載のコンピュータプログラム。 - 前記プロセッサに、
1つ又は複数のシミュレーションスナップショットを生成する手順であって、前記1つ又は複数のシミュレーションスナップショットの各シミュレーションスナップショットは、前記1つ又は複数のインピュートされた値を含み、前記1つ又は複数の予測される置換値のそれぞれの予測された置換値は、前記1つ又は複数のインピュートされた値及び前記1つ又は複数のKPI策定特性に少なくとも部分的に基づいている、手順をさらに実行させる、請求項11に記載のコンピュータプログラム。 - コンピュータ実装方法であって、
時系列データストリーム内の1つ又は複数の潜在的に誤りのあるデータインスタンスを特定する段階と、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスに対する1つ又は複数の予測される置換値を判定する段階と、
前記1つ又は複数の予測される置換値のそれぞれの予測された置換値に対する信頼度値を判定する段階と、
前記1つ又は複数の予測される値のうちの1つの予測される値を用いて前記1つ又は複数の潜在的に誤りのあるデータインスタンスを解消する段階と、
前記1つ又は複数の潜在的に誤りのあるデータインスタンスの前記解消に関する説明根拠を生成する段階と
を備える方法。 - 前記1つ又は複数の潜在的に誤りのあるデータインスタンスを通じて影響を受ける1つ又は複数の重要業績評価指標(KPI)を特定する段階をさらに備える、請求項13に記載の方法。
- 前記1つ又は複数のKPIの各KPIは、それらの1つ又は複数の策定を含み、前記1つ又は複数の策定の各策定は、それらの1つ又は複数の特性を含み、前記方法は、
前記1つ又は複数のKPI策定特性のうちの1つ又は複数が前記1つ又は複数の潜在的に誤りのあるデータインスタンスと関連付けられていることを判定する段階をさらに備える、請求項14に記載の方法。 - 前記1つ又は複数のKPI策定特性を判定する段階は、
観測可能なKPI策定を分析し、それにより、観測可能なボックス策定を分析する段階と、
観察不可能なKPI策定を分析し、それにより、観測可能でないボックス策定を分析する段階と
を有する、請求項15に記載の方法。 - 前記1つ又は複数の予測される置換値を判定する段階は、
1つ又は複数のシミュレーションスナップショットを生成する段階であって、前記1つ又は複数のシミュレーションスナップショットの各シミュレーションスナップショットは、前記1つ又は複数のインピュートされた値を含み、前記1つ又は複数の予測される置換値のそれぞれの予測された置換値は、前記1つ又は複数のインピュートされた値及び前記1つ又は複数のKPI策定特性に少なくとも部分的に基づいている、段階を有する、請求項15又は16に記載の方法。 - 前記1つ又は複数の潜在的に誤りのあるデータインスタンスの各潜在的に誤りのあるデータインスタンスに、分散的な正しいラベル及び分散的な誤りのあるラベルのうちの一方を交互に割り当てることを含む前記1つ又は複数の潜在的に誤りのあるデータインスタンスから複数の推定されるデータポイントを生成することと、
前記複数の推定されるデータポイントのすべての可能な組み合わせのセットを生成することと、
前記複数の推定されるデータポイントに実際には誤りがある確率を判定することと、
前記複数の推定されるデータポイントのすべて可能な組み合わせの前記セットのサブセットのみに対する複数のポイントベースのシミュレーションスナップショットを生成することであって、前記複数のポイントベースのシミュレーションスナップショットの各ポイントベースのシミュレーションスナップショットは、前記1つ又は複数のインピュートされた値を含む、生成することと
を有するポイントベースのシミュレーションを通じて前記複数のシミュレーションスナップショットを生成する段階と、
各潜在的に誤りのあるデータインスタンスに対する前記1つ又は複数のインピュートされた値を生成することであって、前記1つ又は複数のインピュートされた値の各インピュートされた値は、それぞれの修復オペレーションを通じて生成される、生成すること
を有する方法ベースのシミュレーションを通じて複数のシミュレーションスナップショットを生成する段階と
のうちの1つ又は複数をさらに備える、請求項17に記載の方法。 - 前記1つ又は複数のKPI策定特性を用いることを通じて、スナップショット最適化の特徴を利用することを有する前記複数の推定されるデータポイントのすべての可能な組み合わせの前記セットの前記サブセットを生成する段階をさらに備える、請求項18に記載の方法。
- 前記1つ又は複数の潜在的に誤りのあるデータインスタンスを解消し、前記説明根拠を生成する段階は、
品質ベースの信頼度測定及びスプレッドベースの信頼度測定のうちの1つ又は複数を用いる段階を有する、請求項13から19のいずれか一項に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/105,036 US11314584B1 (en) | 2020-11-25 | 2020-11-25 | Data quality-based confidence computations for KPIs derived from time-series data |
US17/105,036 | 2020-11-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022083983A true JP2022083983A (ja) | 2022-06-06 |
Family
ID=81259704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021183697A Pending JP2022083983A (ja) | 2020-11-25 | 2021-11-10 | コンピュータシステム、コンピュータプログラム及びコンピュータ実装方法(時系列データから導出されるデータ品質ベースの信頼度計算) |
Country Status (5)
Country | Link |
---|---|
US (2) | US11314584B1 (ja) |
JP (1) | JP2022083983A (ja) |
CN (1) | CN114546256A (ja) |
DE (1) | DE102021125859A1 (ja) |
GB (1) | GB2603252A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024181119A1 (ja) | 2023-02-28 | 2024-09-06 | 日東紡績株式会社 | ガラス繊維用ガラス組成物、ガラス繊維、ガラス繊維織物およびガラス繊維強化樹脂組成物 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11711287B2 (en) * | 2021-12-08 | 2023-07-25 | Ayla Networks, Inc. | Unified recommendation engine |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07306846A (ja) * | 1994-05-13 | 1995-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 時系列データ予測方法 |
US6591398B1 (en) * | 1999-02-12 | 2003-07-08 | Sony Corporation | Multiple processing system |
US6691244B1 (en) * | 2000-03-14 | 2004-02-10 | Sun Microsystems, Inc. | System and method for comprehensive availability management in a high-availability computer system |
US6745353B2 (en) * | 2001-03-15 | 2004-06-01 | Intel Corporation | Method and apparatus for sliding window link physical error detection |
US7278062B2 (en) * | 2003-01-09 | 2007-10-02 | Freescale Semiconductor, Inc. | Method and apparatus for responding to access errors in a data processing system |
US8589323B2 (en) * | 2005-03-04 | 2013-11-19 | Maxsp Corporation | Computer hardware and software diagnostic and report system incorporating an expert system and agents |
JP5712407B2 (ja) * | 2008-01-23 | 2015-05-07 | ザ・リージェンツ・オブ・ジ・ユニバーシティ・オブ・カリフォルニアThe Regents Of The University Of California | 行動監視及び較正用システム及び方法 |
US8879643B2 (en) * | 2008-04-15 | 2014-11-04 | Qualcomm Incorporated | Data substitution scheme for oversampled data |
US8032352B2 (en) * | 2008-05-08 | 2011-10-04 | International Business Machines Corporation | Device, system, and method of storage controller simulating data mirroring |
JP4803212B2 (ja) * | 2008-05-28 | 2011-10-26 | ソニー株式会社 | データ処理装置、データ処理方法、及びプログラム |
US8165705B2 (en) * | 2008-07-10 | 2012-04-24 | Palo Alto Research Center Incorporated | Methods and systems for continuously estimating persistent and intermittent failure probabilities for production resources |
JP5091894B2 (ja) * | 2009-03-13 | 2012-12-05 | 株式会社日立製作所 | ストリーム回復方法、ストリーム回復プログラム、および、障害回復装置 |
US20130227343A1 (en) * | 2012-02-28 | 2013-08-29 | O2Micro, Inc. | Circuits and Methods for Replacing Defective Instructions |
JP5983362B2 (ja) * | 2012-11-29 | 2016-08-31 | 富士通株式会社 | 試験方法、試験プログラム、および、試験制御装置 |
US9489283B1 (en) * | 2013-03-14 | 2016-11-08 | The Mathworks, Inc. | Unified hardware and software debugging |
JP6151795B2 (ja) * | 2013-11-11 | 2017-06-21 | 株式会社日立製作所 | 管理計算機および計算機システムの管理方法 |
JP6566631B2 (ja) * | 2014-11-28 | 2019-08-28 | キヤノン株式会社 | 予測装置、予測方法、及びプログラム |
CA3128629A1 (en) | 2015-06-05 | 2016-07-28 | C3.Ai, Inc. | Systems and methods for data processing and enterprise ai applications |
DE102015218890A1 (de) * | 2015-09-30 | 2017-03-30 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Generieren eines Ausgangsdatenstroms |
US10268711B1 (en) | 2016-01-26 | 2019-04-23 | Amazon Technologies, Inc. | Identifying and resolving data quality issues amongst information stored across multiple data sources |
US10127125B2 (en) * | 2016-10-21 | 2018-11-13 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
US10997515B2 (en) * | 2017-02-03 | 2021-05-04 | Adxcel Inc. | Fast multi-step optimization technique to determine high performance cluster |
US10628252B2 (en) * | 2017-11-17 | 2020-04-21 | Google Llc | Real-time anomaly detection and correlation of time-series data |
US11003811B2 (en) * | 2018-02-09 | 2021-05-11 | International Business Machines Corporation | Generating samples of outcomes from a quantum simulator |
EP3528433B1 (en) | 2018-02-16 | 2021-02-17 | Tata Consultancy Services Limited | Data analyses using compressive sensing for internet of things (iot) networks |
US11860971B2 (en) * | 2018-05-24 | 2024-01-02 | International Business Machines Corporation | Anomaly detection |
US10884839B2 (en) * | 2018-06-07 | 2021-01-05 | Bank Of America Corporation | Processing system for performing predictive error resolution and dynamic system configuration control |
US20190392252A1 (en) * | 2018-06-25 | 2019-12-26 | New Relic, Inc. | Systems and methods for selecting a forecast model for analyzing time series data |
US10727867B2 (en) * | 2018-06-28 | 2020-07-28 | Western Digital Technologies, Inc. | Error correction decoding augmented with error tracking |
US11615208B2 (en) * | 2018-07-06 | 2023-03-28 | Capital One Services, Llc | Systems and methods for synthetic data generation |
US11023353B2 (en) * | 2018-08-24 | 2021-06-01 | Vmware, Inc. | Processes and systems for forecasting metric data and anomaly detection in a distributed computing system |
US10999122B2 (en) * | 2018-08-29 | 2021-05-04 | Oracle International Corporation | Identification of computer performance anomalies with a logical key performance indicator network |
US10802910B2 (en) * | 2018-09-17 | 2020-10-13 | Intel Corporation | System for identifying and correcting data errors |
US20200097810A1 (en) | 2018-09-25 | 2020-03-26 | Oracle International Corporation | Automated window based feature generation for time-series forecasting and anomaly detection |
US11284284B2 (en) * | 2019-08-13 | 2022-03-22 | T-Mobile Usa, Inc. | Analysis of anomalies using ranking algorithm |
US11163630B2 (en) * | 2019-10-18 | 2021-11-02 | Dell Products L.P. | Using real-time analytics to manage application features |
-
2020
- 2020-11-25 US US17/105,036 patent/US11314584B1/en active Active
-
2021
- 2021-10-05 DE DE102021125859.6A patent/DE102021125859A1/de active Pending
- 2021-11-10 GB GB2116120.3A patent/GB2603252A/en active Pending
- 2021-11-10 JP JP2021183697A patent/JP2022083983A/ja active Pending
- 2021-11-24 CN CN202111400516.1A patent/CN114546256A/zh active Pending
-
2022
- 2022-03-29 US US17/656,886 patent/US11860727B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024181119A1 (ja) | 2023-02-28 | 2024-09-06 | 日東紡績株式会社 | ガラス繊維用ガラス組成物、ガラス繊維、ガラス繊維織物およびガラス繊維強化樹脂組成物 |
Also Published As
Publication number | Publication date |
---|---|
DE102021125859A1 (de) | 2022-05-25 |
US11860727B2 (en) | 2024-01-02 |
CN114546256A (zh) | 2022-05-27 |
US11314584B1 (en) | 2022-04-26 |
GB2603252A (en) | 2022-08-03 |
US20220237074A1 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977389B2 (en) | Anonymity assessment system | |
US11620582B2 (en) | Automated machine learning pipeline generation | |
US10216622B2 (en) | Diagnostic analysis and symptom matching | |
US20200394542A1 (en) | Automatic visualization and explanation of feature learning output from a relational database for predictive modelling | |
JP2022083983A (ja) | コンピュータシステム、コンピュータプログラム及びコンピュータ実装方法(時系列データから導出されるデータ品質ベースの信頼度計算) | |
US11302096B2 (en) | Determining model-related bias associated with training data | |
US11354297B2 (en) | Detecting positivity violations in multidimensional data | |
WO2019142345A1 (ja) | セキュリティ情報処理装置、情報処理方法及び記録媒体 | |
US11972382B2 (en) | Root cause identification and analysis | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
US20220309391A1 (en) | Interactive machine learning optimization | |
US10678926B2 (en) | Identifying security risks in code using security metric comparison | |
KR102411291B1 (ko) | 스마트공장 데이터 품질평가 방법 | |
US11237951B1 (en) | Generating test data for application performance | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
Arndt | Big Data and software engineering: prospects for mutual enrichment | |
US11928047B2 (en) | Contextual data generation for application testing in mixed reality simulations | |
US20210036974A1 (en) | Generating process flow models using unstructure conversation bots | |
US20170109670A1 (en) | Crowd-Based Patterns for Identifying Executions of Business Processes | |
US11205092B2 (en) | Clustering simulation failures for triage and debugging | |
US20210149793A1 (en) | Weighted code coverage | |
Holmström Olsson et al. | How to get good at data: 5 steps | |
US20200364610A1 (en) | System and method for scalable, interactive, collaborative topic identification and tracking | |
CN118159943A (zh) | 人工智能模型学习自省 | |
US20230106490A1 (en) | Automatically improving data annotations by processing annotation properties and user feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220518 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240411 |