DE102021125859A1

DE102021125859A1 - Konfidenzberechnungen auf datenqualitätsgrundlage für aus zeitreihendaten abgeleitete kpis

Info

Publication number: DE102021125859A1
Application number: DE102021125859.6A
Authority: DE
Inventors: Vitobha Munigala; Diptikalyan Saha; Sattwati Kundu; Geetha Adinarayan
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-25
Filing date: 2021-10-05
Publication date: 2022-05-25
Also published as: JP2022083983A; GB2603252A; US11860727B2; US11314584B1; CN114546256A; US20220237074A1

Abstract

Vorgelegt wird ein System, Computerprogrammprodukt und Verfahren zum Bereitstellen von Konfidenzwerten für Ersatzdaten für Daten mit Problemen, die auf Fehler hinweisen, wobei die Datenprobleme, die Ersatzdaten und die Konfidenzwerte in einer Beziehung zu einer oder mehreren Leistungskennzahlen (Key Performance Metrics, KPls) stehen. Das Verfahren enthält ein Identifizieren einer oder mehrerer potenziell fehlerhafter Dateninstanzen und ein Ermitteln eines oder mehrerer vorhergesagter Ersatzwerte für die potenziell fehlerhaften Dateninstanzen. Das Verfahren enthält des Weiteren ein Ermitteln eines Konfidenzwerts für jeden vorhergesagten Ersatzwert und ein Berichtigen der einen oder der mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte. Das Verfahren enthält außerdem ein Erzeugen einer erläuternden Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen.

Description

HINTERGRUND
Die vorliegende Offenbarung bezieht sich auf ein Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten und im Besonderen auf ein Bereitstellen von Konfidenzwerten für Ersatzdaten für Daten, die Probleme haben, welche auf einen oder mehrere Fehler hinweisen, wobei die Datenprobleme, die Ersatzdaten und die Konfidenzwerte in einer Beziehung zu einer oder mehreren Leistungskennzahlen (Key Performance Indicators, KPIs) stehen.
Viele bekannte Entitäten wie z.B. Geschäftsentitäten und Immobilienentitäten enthalten Systeme, die Zeitreihendaten von verschiedenen Quellen sammeln, z.B. von Internet-der-Dinge-Einheiten (Internet of Things, loT), Smart-Home-Einheiten, von menschlicher Aktivität, Einheitenaktivität usw. Die gesammelten Daten können analysiert werden, um eine Energieeinsparung, Belegungszuweisung usw. zu ermöglichen. Gelegentlich kann ein Teil der gesammelten Zeitreihendaten aus verschiedenen Gründen fehlerhaft sein, z.B. aufgrund einer Fehlfunktion einer gesteuerten Einheit, einer entsprechenden Fehlfunktion einer Messeinheit und aufgrund von Problemen in Zusammenhang mit den Datensammelsystemen, Datenspeichersystemen oder Datenübertragungssystemen.
KURZDARSTELLUNG
Bereitgestellt wird ein System, Computerprogrammprodukt und Verfahren zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten.
Gemäß einem Aspekt wird ein Computersystem zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten bereitgestellt. Das System enthält eine oder mehrere Verarbeitungseinheiten und mindestens eine Arbeitsspeichereinheit, die mit der einen oder den mehreren Verarbeitungseinheiten wirkverbunden wird. Die eine oder die mehreren Verarbeitungseinheiten werden konfiguriert, um eine oder mehrere potenziell fehlerhafte Dateninstanzen in einem Zeitreihen-Datenstrom zu identifizieren und einen oder mehrere vorhergesagte Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen zu ermitteln. Die eine oder die mehreren Verarbeitungseinheiten werden außerdem konfiguriert, um einen Konfidenzwert für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Werte zu ermitteln und die eine oder die mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu berichtigen. Die eine oder die mehreren Verarbeitungseinheiten werden des Weiteren konfiguriert, um eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen zu erzeugen.
Gemäß einem weiteren Aspekt wird ein Computerprogrammprodukt zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten bereitgestellt. Das Computerprogrammprodukt enthält ein bzw. eine oder mehrere computerlesbare Speichermedien und Programmanweisungen, die gemeinsam auf dem einen oder den mehreren Computerspeichermedien gespeichert werden. Das Produkt enthält außerdem Programmanweisungen, um eine oder mehrere potenziell fehlerhafte Dateninstanzen in einem Zeitreihen-Datenstrom zu identifizieren. Das Produkt enthält des Weiteren Programmanweisungen, um einen oder mehrere vorhergesagte Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen zu ermitteln. Das Produkt enthält außerdem Programmanweisungen, um einen Konfidenzwert für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Werte zu ermitteln. Das Produkt enthält des Weiteren Programmanweisungen, um die eine oder die mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu berichtigen. Das Produkt enthält außerdem Programmanweisungen, um eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen zu erzeugen.
Gemäß einem weiteren Aspekt wird ein computerrealisiertes Verfahren zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten bereitgestellt. Das Verfahren enthält ein Identifizieren einer oder mehrerer potenziell fehlerhafter Dateninstanzen in einem Zeitreihen-Datenstrom. Das Produkt enthält außerdem ein Ermitteln eines oder mehrerer vorhergesagter Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen. Das Verfahren enthält des Weiteren ein Ermitteln eines Konfidenzwerts für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte. Das Verfahren enthält außerdem ein Berichtigen der einen oder der mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte. Das Verfahren enthält des Weiteren ein Erzeugen einer erläuternden Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen.
Die vorliegende Zusammenfassung soll nicht jeden Aspekt, jede Realisierung und/oder jede Ausführungsform der vorliegenden Offenbarung veranschaulichen. Diese und andere Merkmale und Vorzüge werden aus der folgenden ausführlichen Beschreibung der einen bzw. mehreren vorliegenden Ausführungsformen offensichtlich, die in Verbindung mit den beigefügten Zeichnungen zu lesen sind.
Figurenliste
Die in der vorliegenden Anmeldung enthaltenen Zeichnungen sind in die Beschreibung eingebettet und bilden einen Bestandteil hiervon. Sie veranschaulichen Ausführungsformen der vorliegenden Offenbarung und dienen neben der Beschreibung dazu, die Grundsätze der Offenbarung zu erläutern. Die Zeichnungen veranschaulichen bestimmte Ausführungsformen und bilden keine Beschränkung der Offenbarung.

1 ist eine schematische Darstellung, die eine Cloud-Computing-Umgebung gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
2 ist ein Blockschaubild, das einen Satz von funktionalen Abstraktionsmodellschichten veranschaulicht, die gemäß manchen Ausführungsformen der vorliegenden Offenbarung durch die Cloud-Computing-Umgebung bereitgestellt werden.
3 ist ein Blockschaubild, das ein Computersystem/einen Server veranschaulicht, das bzw. der gemäß manchen Ausführungsformen der vorliegenden Offenbarung als ein Unterstützungssystem auf Cloud-Grundlage verwendet werden kann, um die hierin beschriebenen Prozesse zu realisieren.
4 ist eine schematische Darstellung, die ein System veranschaulicht, mit dem gemäß manchen Ausführungsformen der vorliegenden Offenbarung ein Konfidenzwert für korrigierte Daten innerhalb von Zeitreihendaten berechnet werden kann.
5A ist ein Ablaufplan, der einen Prozess zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
5B ist eine Fortsetzung des in 5A gezeigten Ablaufplans, der einen Prozess zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
5C ist eine Fortsetzung des in den 5A und 5B gezeigten Ablaufplans, der einen Prozess zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
6 ist eine Textdarstellung, die einen Algorithmus zum Identifizieren relevanter Probleme gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
7 ist eine Textdarstellung, die einen Algorithmus zur Analyse von KPIs der einsehbaren Box gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
8 ist eine Textdarstellung, die einen Algorithmus zur Analyse von KPIs der nicht einsehbaren Box gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
9 ist eine schematische Darstellung, die einen Teil eines Prozesses für eine Momentaufnahmen-Simulation gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
10 ist eine schematische Darstellung, die einen Prozess für Simulationen auf Verfahrensgrundlage gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
11 ist eine schematische Darstellung, die einen Prozess für Simulationen auf Punktgrundlage gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
12 ist eine Textdarstellung, die einen Algorithmus für einen Momentaufnahmenoptimierer gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
13 ist eine Grafikdarstellung, die eine KPI-Wert-Inferenz gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
14 ist eine Grafik-/Textdarstellung, die eine Erzeugung von Konfidenzmaßen gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
15 ist eine Grafikdarstellung, die Konfidenzmaße gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
16 ist eine Textdarstellung, die Konfidenzwert-Erläuterungen gemäß manchen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.

Obwohl die vorliegende Offenbarung für verschiedene Modifizierungen und alternative Formen offen ist, wurden Besonderheiten hiervon in den Zeichnungen beispielhaft gezeigt und werden im Detail beschrieben. Dabei versteht sich jedoch von selbst, dass die vorliegende Offenbarung nicht auf die bestimmten beschriebenen Ausführungsformen beschränkt sein soll. Vielmehr sollen alle Modifizierungen, Entsprechungen und Alternativen abgedeckt sein, die unter den gedanklichen Wesensgehalt und inhaltlichen Umfang der vorliegenden Offenbarung fallen.
AUSFÜHRLICHE BESCHREIBUNG
Es dürfte offensichtlich sein, dass die Komponenten der vorliegenden Ausführungsformen, wie sie hierin allgemein beschrieben und in den Figuren veranschaulicht werden, in einer großen Vielfalt von verschiedenen Konfigurationen angeordnet und konzipiert werden können. Die folgende ausführliche Beschreibung der Ausführungsformen der Vorrichtung, des Systems, Verfahrens und Computerprogrammprodukts der vorliegenden Ausführungsformen, wie sie in den Figuren dargestellt werden, ist daher nicht als Beschränkung des inhaltlichen Umfangs der Ausführungsformen, sondern lediglich als repräsentativ für ausgewählte Ausführungsformen zu verstehen. Obwohl hierin zum Zwecke der Veranschaulichung spezifische Ausführungsformen beschrieben wurden, dürfte zusätzlich klar sein, dass verschiedene Änderungen vorgenommen werden können, ohne vom gedanklichen Wesensgehalt und inhaltlichen Umfang der Ausführungsformen abzuweichen.
Wenn in dieser Beschreibung von „einer ausgewählten Ausführungsform“, „mindestens einer Ausführungsform“, „einer einzigen Ausführungsform“, „einer weiteren Ausführungsform“, „anderen Ausführungsformen“ oder „einer Ausführungsform“ und ähnlichen Begriffen die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder ein bestimmtes Charakteristikum, das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform enthalten ist. Daher bezieht sich nicht jedes Auftreten der Formulierungen „eine ausgewählte Ausführungsform“, „mindestens eine Ausführungsform“, „bei einer einzigen Ausführungsform“, „eine weitere Ausführungsform“, „andere Ausführungsformen“ oder „eine Ausführungsform“ an verschiedenen Stellen dieser Beschreibung notwendigerweise auf dieselbe Ausführungsform.
Die veranschaulichten Ausführungsformen lassen sich am besten mit Blick auf die Zeichnungen verstehen, bei denen gleichartige Teile durchweg mit gleichlautenden Bezugsziffern kenntlich gemacht werden. Die folgende Beschreibung ist nur als Beispiel zu verstehen und zeigt lediglich bestimmte ausgewählte Ausführungsformen von Einheiten, Systemen und Prozessen, die mit den hierin beanspruchten Ausführungsformen in Einklang stehen.
Es sei klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing enthält. Vielmehr können Ausführungsformen der vorliegenden Offenbarung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später entwickelter Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften, mindestens drei Dienstmodelle und mindestens vier Einsatzmodellen enthalten.
Bei den Eigenschaften handelt es sich um die Folgenden.
On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfähigkeiten wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Fähigkeiten über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Fähigkeiten können für eine schnelle horizontale Skalierung (Scale-out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Fähigkeiten häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfähigkeit auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Der Ressourcenverbrauch kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Benutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die Folgenden.
Software as a Service (SaaS): Die dem Nutzer bereitgestellte Fähigkeit besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfähigkeiten, mit der möglichen Ausnahme von eingeschränkten nutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Fähigkeit besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen für Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Fähigkeit besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Einsatzmodellen handelt es sich um die Folgenden.
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Zielsetzung, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und sich in den eigenen Räumen oder in fremden Räumen befinden.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Nutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Mittelpunkt des Cloud Computing steht eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten enthält.
Unter Bezugnahme auf 1 wird eine veranschaulichende Cloud-Computing-Umgebung 50 dargestellt. Wie gezeigt ist, enthält die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10, mit denen von Cloud-Benutzern verwendete lokale Datenverarbeitungseinheiten wie z.B. der elektronische Assistent (Personal Digital Assistant, PDA) oder das Mobiltelefon 54A, der Desktop Computer 54B, der Laptop Computer 54C und/oder das Automobil-Computer-System 54N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in einem oder mehreren Netzwerken wie Private, Community, Public oder Hybrid Clouds zusammengefasst werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder aber in einer Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Benutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten der in 1 gezeigten
Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
Unter Bezugnahme auf 2 wird ein Satz von funktionalen Abstraktionsschichten gezeigt, die durch die Cloud-Computing-Umgebung 50 (1) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 2 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Offenbarung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 60 enthält Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe Computer 61; auf der RISC(Reduced Instruction Set Computer)-Architektur beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. In einigen Ausführungsformen enthalten Software-Komponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbank-Software 68.
Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71, virtueller Speicher 72, virtuelle Netzwerke 73, darunter virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
In einem Beispiel kann eine Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 81 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 82 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen aufweisen. Eine Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 84 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, sodass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (Service Level Agreement, SLA) 85 stellt die Vorab-Anordnung und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einer SLA bereit.
Eine Arbeitslastenschicht 90 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalytikverarbeitung 94; Transaktionsverarbeitung 95; und Berechnen eines Konfidenzwerts für Zeitreihendaten 96.
Unter Bezugnahme auf 3 wird ein Blockschaubild eines Beispiel-Datenverarbeitungssystems bereitgestellt, das hierin als ein Computersystem 100 bezeichnet wird. Das System 100 kann in einem Computersystem/Server an einem einzigen Ort enthalten sein oder kann in mindestens einer Ausführungsform in einem System auf Cloud-Grundlage konfiguriert werden, das Rechenressourcen gemeinsam nutzt. Zum Beispiel, und ohne darauf beschränkt zu sein, kann das Computersystem 100 als ein Cloud-Computing-Knoten 10 verwendet werden.
Aspekte des Computersystems 100 können in einem Computersystem/Server an einem einzigen Ort enthalten sein oder können in mindestens einer Ausführungsform in einem System auf Cloud-Grundlage, das Rechenressourcen gemeinsam nutzt, als ein Unterstützungssystem auf Cloud-Grundlage konfiguriert werden, um das hierin beschriebene System bzw. die hierin beschriebenen Werkzeuge und Prozesse zu realisieren. Das Computersystem 100 kann mit zahlreichen anderen Universal- oder Spezial-Computersystemumgebungen oder -konfigurationen betrieben werden. Ohne darauf beschränkt zu sein, sind Beispiele für bekannte Computersysteme, -umgebungen und/oder - konfigurationen, die für eine Verwendung mit dem Computersystem 100 geeignet sein können, Personal-Computersysteme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Mehrprozessorsysteme, Systeme auf Grundlage von Mikroprozessoren, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Mini-Computersysteme, Mainframe-Computersysteme und Dateisysteme (z.B. verteilte Cloud-Computing-Umgebungen), die ein beliebiges der obigen Systeme bzw. eine beliebige der obigen Einheiten enthalten, und dergleichen.
Das Computersystem 100 lässt sich im allgemeinen Zusammenhang von Anweisungen beschreiben, die durch ein Computersystem ausführbar sind, wie z.B. Programmmodule, die durch das Computersystem 100 ausgeführt werden. Allgemein können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen und dergleichen enthalten, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen realisieren. Das Computersystem 100 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, wo Aufgaben von entfernt angeordneten Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk miteinander verbunden werden. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in entfernt angeordneten Computersystem-Speichermedien wie beispielsweise Arbeitsspeichereinheiten befinden.
Wie in 3 gezeigt, wird das Computersystem 100 in Gestalt einer Universal-Datenverarbeitungseinheit gezeigt. Ohne hierauf beschränkt zu sein, können die Komponenten des Computersystems 100 einen oder mehrere Prozessoren bzw. eine oder mehrere Verarbeitungseinheiten 104 (mitunter auch als Prozessoren und Verarbeitungseinheiten bezeichnet) wie z.B. Hardware-Prozessoren, einen (mitunter auch als Arbeitsspeichereinheit bezeichneten) Systemarbeitsspeicher 106 und einen Datenübertragungsbus 102 aufweisen, der verschiedene Systemkomponenten wie z.B. den Systemarbeitsspeicher 106 mit der Verarbeitungseinheit 104 verbindet. Der Datenübertragungsbus 102 steht für mindestens eine von beliebigen mehreren Arten von Busstrukturen, z.B. ein Arbeitsspeicherbus oder ein Arbeitsspeicher-Controller, ein Peripheriebus, ein Accelerated Graphics Port (AGP) und ein Prozessor- oder lokaler Bus, wobei eine beliebige aus einer Vielfalt von Busarchitekturen verwendet werden kann. Beispielhaft und nicht als Beschränkung zu verstehen, enthalten derartige Architekturen einen ISA-Bus (Industry Standard Architecture), einen MCA-Bus (Micro Channel Architecture), einen EISA-Bus (Enhanced ISA), einen lokalen VESA-Bus (Video Electronics Standards Association) und einen PCI-Bus (Peripheral Component Interconnect). Das Computersystem 100 enthält üblicherweise eine Vielfalt von Medien, die durch ein Computersystem lesbar sind. Derartige Medien können beliebige verfügbare Medien sein, auf die das Computersystem 100 zugreifen kann, und sowohl flüchtige als auch nicht flüchtige, entfernbare als auch nicht entfernbare Medien enthalten. Zusätzlich kann das Computersystem 100 eine oder mehrere persistente Speichereinheiten 108, Datenübertragungseinheiten 110, Eingabe/Ausgabe(I/O)-Einheiten 112 und Anzeigen 114 enthalten.
Die Verarbeitungseinheit 104 dient zum Ausführen von Anweisungen für Software, die in den Systemarbeitsspeicher 106 geladen werden kann. Die Verarbeitungseinheit 104 kann eine Anzahl von Prozessoren, ein Mehrkernprozessor oder eine andere Art von Prozessor sein, abhängig von der jeweiligen Realisierung. Wie hierin in Bezug auf ein Element verwendet, bedeutet eine Anzahl ein oder mehrere Elemente. Des Weiteren kann die Verarbeitungseinheit 104 unter Verwendung einer Anzahl heterogener Prozessorsysteme realisiert werden, bei denen auf einem einzigen Chip ein Hauptprozessor mit sekundären Prozessoren vorhanden ist. In einem weiteren veranschaulichenden Beispiel kann die Verarbeitungseinheit 104 ein symmetrisches Mehrprozessorsystem sein, das mehrere Prozessoren desselben Typs enthält.
Der Systemarbeitsspeicher 106 und der persistente Speicher 108 sind Beispiele für Speichereinheiten 116 Eine Speichereinheit kann eine beliebige Hardware-Einheit sein, die in der Lage ist, Informationen wie z.B., ohne darauf beschränkt zu sein, Daten, in funktionsspezifischer Form vorliegender Programmcode und/oder andere geeignete Informationen vorübergehend und/oder dauerhaft zu speichern. Der Systemarbeitsspeicher 106 kann in diesen Beispielen zum Beispiel ein Direktzugriffsspeicher (Random Access Memory, RAM) oder jede andere geeignete flüchtige oder nicht flüchtige Speichereinheit sein. Der Systemarbeitsspeicher 106 kann ein durch ein Computersystem lesbares Medium in Form eines flüchtigen Arbeitsspeichers wie z.B. eines Direktzugriffsspeichers (RAM) und/oder eines Cache-Arbeitsspeichers enthalten.
Der persistente Speicher 108 kann abhängig von der betreffenden Realisierung verschiedene Formen annehmen. So kann der persistente Speicher 108 zum Beispiel eine oder mehrere Komponenten oder Einheiten enthalten. Zum Beispiel und ohne darauf beschränkt zu sein, kann der persistente Speicher 108 zum Lesen von und Schreiben auf ein nicht entfernbares, nicht flüchtiges magnetisches Medium bereitgestellt werden (das nicht gezeigt und üblicherweise als eine „Festplatte“ bezeichnet wird). Obwohl hierin nicht abgebildet, können ein Magnetplattenlaufwerk zum Lesen von und Schreiben auf eine entfernbare, nicht flüchtige Magnetplatte (z.B. eine Diskette) sowie ein optisches Plattenlaufwerk zum Lesen von oder Schreiben auf eine entfernbare, nicht flüchtige optische Platte wie z.B. ein CD-ROM, ein DVD-ROM oder ein anderes optisches Medium bereitgestellt werden. In solchen Fällen kann jedes Laufwerk über eine oder mehrere Datenmedienschnittstellen mit dem Datenübertragungsbus 102 verbunden werden.
Die Datenübertragungseinheit 110 kann in diesen Beispielen eine Datenübertragung mit anderen Computersystemen oder -einheiten bereitstellen. In diesen Beispielen ist die Datenübertragungseinheit 110 eine Netzwerkschnittstellenkarte. Die Datenübertragungseinheit 110 kann eine Datenübertragung sowohl über physische als auch über drahtlose Datenübertragungsverbindungen bereitstellen.
Die Eingabe/Ausgabe-Einheit 112 ermöglicht eine Eingabe und Ausgabe von Daten in andere bzw. aus anderen Einheiten, die mit dem Computersystem 100 verbunden werden können. Zum Beispiel kann die Eingabe/Ausgabe-Einheit 112 über eine Tastatur, eine Maus und/oder eine anderweitige geeignete Eingabeeinheit eine Verbindung für eine Benutzereingabe bereitstellen. Des Weiteren kann die Eingabe/Ausgabe-Einheit 112 eine Ausgabe an einen Drucker senden. Die Anzeige 114 kann einen Mechanismus zum Anzeigen von Daten für einen Benutzer bereitstellen. Beispiele für die Eingabe/AusgabeEinheiten 112, die eine Herstellung einer Datenübertragung zwischen einer Vielfalt von Einheiten innerhalb des Computersystems 100 ermöglichen, enthalten Netzwerkkarten, Modems und Eingabe/Ausgabe-Schnittstellenkarten, ohne darauf beschränkt zu sein. Zusätzlich kann das Computersystem 100 über einen (in 3 nicht gezeigten) Netzwerkadapter mit einem oder mehreren Netzwerken Daten austauschen, z.B. mit einem lokalen Netzwerk (Local Area Network, LAN), einem Weitverkehrsnetzwerk (Wide Area Network, WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet). Obwohl sie nicht gezeigt werden, sollte klar sein, dass auch andere Hardware- und/oder Software-Komponenten in Verbindung mit dem Computersystem 100 verwendet werden könnten. Beispiele für solche Komponenten sind, ohne darauf beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerksstapel, RAID-Systeme, Bandlaufwerke und Datenarchivierungsspeichersysteme
Anweisungen für das Betriebssystem, für Anwendungen und/oder Programme können in den Speichereinheiten 116 gespeichert werden, die über den Datenübertragungsbus 102 mit der Verarbeitungseinheit 104 Daten austauschen. In diesen veranschaulichenden Beispielen liegen die Anweisungen in einer funktionsspezifischen Form in dem persistenten Speicher 108 vor. Diese Anweisungen können in den Systemarbeitsspeicher 106 geladen werden, um durch die Verarbeitungseinheit 104 ausgeführt zu werden. Die Prozesse der verschiedenen Ausführungsformen können durch die Verarbeitungseinheit 104 unter Verwendung von computerrealisierten Anweisungen durchgeführt werden, die sich in einem Arbeitsspeicher wie z.B. dem Systemarbeitsspeicher 106 befinden können. Diese Anweisungen werden als Programmcode, computernutzbarer Programmcode oder computerlesbarer Programmcode bezeichnet, der durch einen Prozessor in der Verarbeitungseinheit 104 gelesen und ausgeführt werden kann. Der Programmcode in den verschiedenen Ausführungsformen kann auf verschiedenen physischen oder gegenständlichen, computerlesbaren Speichereinheiten enthalten sein, wie beispielsweise dem Systemarbeitsspeicher 106 oder dem persistenten Speicher 108.
Der Programmcode 118 kann sich in einer funktionsspezifischen Form auf dem computerlesbaren Medium 120 befinden, das wahlweise entfernbar ist, und kann in das Computersystem 100 geladen bzw. an dieses übertragen werden, um durch die Verarbeitungseinheit 104 ausgeführt zu werden. Der Programmcode 118 und das computerlesbare Medium 120 bilden in diesen Beispielen ein
Computerprogrammprodukt 122. In einem Beispiel kann das computerlesbare Medium 120 ein computerlesbares Speichermedium 124 oder ein computerlesbares Signalmedium 126 sein. Das computerlesbare Speichermedium 124 kann zum Beispiel eine optische oder magnetische Platte enthalten, die für eine Übertragung an eine Speichereinheit wie z.B. eine Festplatte, die Teil des persistenten Speichers 108 ist, in ein Laufwerk oder eine andere Einheit geschoben oder gelegt wird, das bzw. die Teil des persistenten Speichers 108 ist. Das computerlesbare Speichermedium 124 kann außerdem in Form eines persistenten Speichers vorliegen, z.B. als eine Festplatte, ein USB-Stick oder ein Flash-Arbeitsspeicher, die bzw. der mit dem Computersystem 100 verbunden wird. In manchen Fällen ist das computerlesbare Speichermedium 124 möglicherweise nicht aus dem Computersystem 100 entfernbar.
Alternativ kann der Programmcode 118 unter Verwendung des computerlesbaren Signalmediums 126 an das Computersystem 100 übertragen werden. Das computerlesbare Signalmedium 126 kann zum Beispiel ein verbreitetes Datensignal sein, das den Programmcode 118 enthält. Zum Beispiel kann das computerlesbare Signalmedium 126 ein elektromagnetisches Signal, ein optisches Signal und/oder jede andere geeignete Art von Signal sein. Diese Signale können über Datenübertragungsverbindungen wie z.B. drahtlose Datenverarbeitungsverbindungen, ein Lichtwellenleiterkabel, ein Koaxialkabel, eine Leitung und/oder jede andere geeignete Art von Datenübertragungsleitung übertragen werden. Anders ausgedrückt können die Datenübertragungsverbindung und/oder die Verbindung in den veranschaulichenden Beispielen physisch oder drahtlos sein.
Bei manchen veranschaulichenden Ausführungsformen kann der Programmcode 118 über ein Netzwerk von einer weiteren Einheit oder einem weiteren Computersystem durch das computerlesbare Signalmedium 126 in den persistenten Speicher 108 heruntergeladen werden, um innerhalb des Computersystems 100 verwendet zu werden. Zum Beispiel kann der auf einem computerlesbaren Speichermedium in einem Server-Computersystem gespeicherte Programmcode über ein Netzwerk von dem Server in das Computersystem 100 heruntergeladen werden. Das den Programmcode 118 bereitstellende Computersystem kann ein Server-Computer, ein Client-Computer oder eine anderweitige Einheit sein, die in der Lage ist, den Programmcode 118 zu speichern und zu übertragen.
Der Programmcode 118 kann ein oder mehrere (in 3 nicht gezeigte) Programmmodule enthalten, die, zum Beispiel und ohne darauf beschränkt zu sein, in dem Systemspeicher 106 gespeichert werden können, ebenso wie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule und Programmdaten. Jedes der Betriebssysteme, des einen oder der mehreren Anwendungsprogramme, der anderen Programmmodule und der Programmdaten oder einer Kombination hiervon können jeweils eine Realisierung einer Netzwerkumgebung enthalten. Die Programmmodule des Programmcodes 118 führen im Allgemeinen die Funktionen und/oder Verfahrensweisen von hierin beschriebenen Ausführungsformen aus.
Die verschiedenen für das Computersystem 100 veranschaulichten Komponenten sind nicht als architektonische Beschränkung der Art und Weise zu verstehen, wie verschiedene Ausführungsformen realisiert werden können. Vielmehr können die verschiedenen veranschaulichenden Ausführungsformen in einem Computersystem realisiert werden, das Komponenten zusätzlich zu den bzw. anstelle der für das Computersystem 100 veranschaulichten Komponenten enthält.
Bei der vorliegenden Offenbarung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen möglichen Grad an technischer Integration handeln. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder -medien) mit computerlesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Offenbarung auszuführen.
Bei dem computerlesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Anweisungsausführungseinheit behalten und speichern kann. Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des computerlesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein RAM, ein ROM, ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert werden, und jede geeignete Kombination daraus. Ein computerlesbares Speichermedium soll in der Verwendung hierin nicht als transitorische Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei computerlesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Offenbarung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandseinstellende Daten, Konfigurationsdaten für eine integrierte Schaltung oder sowohl um Quellcode als auch um Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Nutzers, teilweise auf dem Computer des Nutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Nutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Nutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, Field Programmable Gate Arrays) oder programmierbare Logikanordnungen (PLA, Programmable Logic Arrays) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Offenbarung durchzuführen.
Aspekte der vorliegenden Offenbarung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Offenbarung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels computerlesbarer Programmanweisungen ausgeführt werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block oder den Blöcken des Ablaufplans und/oder des Blockschaubilds festgelegten Funktionen/Schritte erzeugen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert werden, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der bzw. des in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen computerrealisierten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion bzw. Funktionen aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zum Beispiel können zwei nacheinander gezeigte Blöcke in Wirklichkeit als ein Schritt erfolgen, gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Viele bekannte Entitäten wie z.B. Geschäftsentitäten und Immobilienentitäten enthalten Systeme, die Zeitreihendaten von verschiedenen Quellen sammeln, z.B. von Internet-der-Dinge-Einheiten (Internet of Things, loT), Smart-Home-Einheiten, menschlicher Aktivität, Einheitenaktivität usw. Die gesammelten Daten können analysiert werden, um eine Energieeinsparung, Belegungszuweisung usw. zu ermöglichen. Gelegentlich kann ein Teil der gesammelten Zeitreihendaten aus verschiedenen Gründen fehlerhaft sein, z.B. aufgrund einer Fehlfunktion einer gesteuerten Einheit, einer entsprechenden Fehlfunktion einer Messeinheit und aufgrund von Problemen in Zusammenhang mit den Datensammelsystemen, Datenspeichersystemen oder Datenübertragungssystemen. Bei einer Ausführungsform beurteilt zum Beispiel ein Belegungsverwaltungssystem einen Stromverbrauch in Bezug auf einen Spitzenlastwert und initiiert als Reaktion auf einen fehlerhaften Belegungsdatenwert unter Umständen fälschlicherweise eine Abschaltung von vorgegebenen Einheiten an den zugehörigen Orten, um Spitzenverbrauchsgebühren zu vermeiden.
Ebenso besitzen viele bekannte Entitäten eine oder mehrere Leistungskennzahlen (KPls), wobei KPI, wie hierin verwendet, einen oder mehrere messbare Indikatoren bezeichnet, die einem oder mehreren zentralen Zielen zugehörig sind. Die KPIs ermöglichen ein Erreichen der zentralen Ziele, indem der Erfolg beim Erreichen solcher zentralen Ziele evaluiert wird. KPIs sind insofern skalierbar, als sowohl unternehmensweite KPIs als auch auf einem niedrigeren Niveau angeordnete, für eine Teilorganisation spezifische KPIs verwendet werden können, z.B. Vertriebs-, Marketing-, Personalwesen-, IT-Unterstützungs- und Wartungs-KPIs. Bei manchen Ausführungsformen werden die KPIs in einem oder mehreren Dokumenten explizit identifiziert und beschrieben, und bei manchen Ausführungsformen treten die KPIs als eine Funktion einer Analyse der gesammelten Daten auf, wobei „verborgene“ KPIs „aufgedeckt“ und zuvor angegebene KPIs verifiziert werden können.
Hierin wird ein System, Computerprodukt und Verfahren offenbart und beschrieben, das auf ein Sammeln von Zeitreihendaten von einer oder mehreren Sensoreinheiten gerichtet ist. Bei manchen Ausführungsformen enthält das System eine Engine für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen. Die gesammelten Zeitreihendaten werden hierin als „die ursprünglichen Daten“ und „die ursprünglichen Zeitreihen-Datenströme“ bezeichnet. Soweit nicht anderweitig angegeben, stammt jeder Strom von Zeitreihendaten, wie hierin für die verschiedenen Ausführungsformen erörtert, von einer einzigen Messeinheit oder von einer Mehrzahl von Sensoren, wobei der Strom entweder eine Kombination wie z.B. eine Aggregation der Ausgaben von den betreffenden Sensoren oder eine Ausgabe von einem einzigen Sensor der Mehrzahl von Sensoren ist, der auktioniert oder anderweitig ausgewählt wurde. Soweit nicht anderweitig angegeben, wird das hierin beschriebene System außerdem konfiguriert, um ohne Beschränkung der Anzahl von Datenströmen eine Mehrzahl von Datenströmen gleichzeitig zu analysieren. Entsprechend wird das hierin beschriebene System konfiguriert, um einzelne Datenströme zu analysieren.
Bei einer oder mehreren Ausführungsformen wird die Qualität der innerhalb der betreffenden Datenströme eingebetteten Daten analysiert, und anhand eines zweistufigen Prozesses wird eine Ermittlung in Bezug auf die betreffende eine oder die betreffenden mehreren KPIs durchgeführt, die in Beziehung zu den betreffenden Daten stehen. Zunächst wird die Qualität der ursprünglichen Daten analysiert, während Datenpakete von den Sensoren an ein Datenprüfmodul übertragen werden, wobei die Datenpakete durch ein Datenprüf-Teilmodul geprüft werden, das innerhalb des Datenprüfmoduls eingebettet ist. In manchen Fällen können ein oder mehrere Datenpakte Probleme enthalten, welche die betreffenden Datenpakete als potenziell fehlerhafte Daten enthaltend kenntlich machen. Ein solches Problem kann der Sampling-Häufigkeit zugehörig sein. Zum Beispiel und ohne darauf beschränkt zu sein, überprüft das Datenprüf-Teilmodul die Sampling-Häufigkeit der Datensensoren, um zu ermitteln, ob mehrere Sampling-Häufigkeiten in den Daten vorhanden sind, z.B., ob es gelegentliche Störungen in der Sampling-Häufigkeit gibt und ob es fortwährende Veränderungen der Sampling-Häufigkeit gibt. Zum Beispiel und ohne darauf beschränkt zu sein, überprüft das Datenprüf-Teilmodul außerdem die Zeitmarken der Daten, um zu ermitteln, ob etwaige Zeitmarken in den Daten fehlen, ob die Daten für eine länger anhaltende Dauer fehlen und ob es Zeitmarken in verschiedenen Formaten gibt. Zum Beispiel und ohne darauf beschränkt zu sein, nimmt das Datenprüf-Teilmodul darüber hinaus eine Überprüfung auf syntaktische Probleme mit Werten vor, um zu ermitteln, ob vermeintlich numerische Daten über eine längere Dauer hinweg Daten enthalten, die „Nichtzahlen“ (Not-a-Number, NaN) sind, sowie eine falsche numerische Rundung und Kürzung. Zum Beispiel und ohne darauf beschränkt zu sein, nimmt das Datenprüf-Teilmodul zusätzlich eine Überprüfung auf semantische Probleme mit Werten vor, um zu ermitteln, ob irgendwelche der Daten anomale Ereignisse und verrauschte Daten enthalten. Entsprechend untersucht das Datenprüf-Teilmodul die Daten in den Strömen und ermittelt, ob die Daten innerhalb vorgegebener Toleranzen liegen und ob es etwaige vermutete Fehler in den Daten gibt, sowie die Beschaffenheit der Fehler.
Bei manchen Ausführungsformen gibt es zwei Modalitäten, d.h. ein Verarbeiten der ursprünglichen Daten, die das System zu verarbeiten versucht, um eine Datenqualität zu ermitteln (wie oben beschrieben), und ein Verarbeiten einer oder mehrerer KPI-Formulierungen, von denen vorgesehen ist, dass sie auf die Daten angewendet werden sollen. Wie hierin verwendet, enthalten die KPI-Formulierungen ein oder mehrere KPI-Charakteristika, wobei die KPI-Charakteristika auch, ohne darauf beschränkt zu sein, die Einzelheiten der Formulierung enthalten, z.B. und ohne darauf beschränkt zu sein, ein oder mehrere Datenprobleme, auf welche die Algorithmen der Formulierungen gerichtet sind, die Algorithmen selbst sowie etwaige Parameter und Definitionen der betreffenden KPIs. Bei manchen Ausführungsformen werden beide Modalitäten durch das Datenprüfmodul ausgeführt, d.h. die Datenqualität wird durch das Datenprüf-Teilmodul evaluiert, und die Evaluierungen der durch die KPI charakterisierten Formulierung werden durch ein Teilmodul zur Ermittlung des KPI-Charakteristikums ausgeführt, das mit dem Datenprüf-Teilmodul wirkverbunden wird. Bei manchen Ausführungsformen ist das Teilmodul zur Ermittlung des KPI-Charakteristikums ein separates Modul, das mit dem Datenprüfmodul wirkverbunden wird. Entsprechend sind die Datenprüfmerkmale und die Ermittlung der relevanten KPI-Formulierungscharakteristika eng integriert.
Bei mindestens manchen Ausführungsformen wird mindestens ein Teil solcher KPI-Formulierungscharakteristika üblicherweise als Algorithmen realisiert, um die eingehenden Datenströme zu verarbeiten und einem Benutzer die notwendigen Ausgabedaten und die Funktionalität zur Unterstützung der betreffenden KPIs bereitzustellen. Bei manchen Ausführungsformen befinden sich die KPI-Formulierungen zudem leicht zugänglich innerhalb eines Teilmoduls der KPI-Formulierungen, das innerhalb des Teilmoduls zur Ermittlung des KPI-Charakteristikums eingebettet wird. Wie zuvor beschrieben, werden die Daten somit zunächst überprüft, um zu verifizieren, ob sie innerhalb bestimmter Toleranzen liegen, und zweitens wird eine Ermittlung durchgeführt, ob es einen wie auch immer gearteten Zusammenhang der potenziell fehlerhaften Daten mit einer oder mehreren bestimmten KPIs gibt. Bei einer oder mehreren Ausführungsformen ist mindestens ein Teil der gesammelten ursprünglichen Daten keinen wie auch immer gearteten KPIs zugehörig, und somit wirken sich solche fehlerhaften ursprünglichen Daten nicht nachteilig auf eine bestimmte KPI aus. Um eine anfängliche Identifizierung von relevanten Problemen auszuführen, wird daher ein einfacher KPI-Relevanztest durchgeführt. Wenn zum Beispiel und ohne darauf beschränkt zu sein, eine oder mehrere bestimmte KPIs eine Formulierung auf Durchschnittsgrundlage verwenden und die potenziell fehlerhaften Daten in den betreffenden Datenströmen ungeordnete Zeitmarken enthalten, wird ermittelt, dass die ungeordneten Zeitmarken keinerlei nachteilige Auswirkung auf die betreffende eine oder die betreffenden mehreren KPIs haben. Wenn entsprechend eine oder mehrere bestimmte KPIs Formulierungen auf Median- oder Modusgrundlage sind, erzeugt das Vorhandensein von Ausreißern in den betreffenden Datenströmen keinerlei nachteilige Auswirkung auf die betreffenden KPIs. Entsprechend haben manche fehlerhaften Datenattribute unter Umständen keinen Effekt auf eine bestimmte KPI, und solche Daten sind nicht von Belang für die hierin weiter beschriebenen KPI-bezogenen Analysen.
Bei manchen Ausführungsformen besteht ein weiterer Mechanismus zum Ermitteln einer KPI-Relevanz, der verwendet werden kann, darin, dass mindestens ein Teil der ursprünglichen Zeitreihen-Datenströme mit bekannten, nicht fehlerhaften Daten - und, bei manchen Ausführungsformen, vermutlich fehlerhaften Daten - an eine oder mehrere betreffende KPI-Formulierungen in dem Teilmodul der KPI-Formulierungen weitergeleitet wird, um daraus numerische Werte zu erzeugen, d.h. um daraus ursprüngliche KPI-Testwerte zu erzeugen. Konkret können Daten ohne fehlerhafte Werte bearbeitet werden, um mindestens einen Wert in einen bekannten, fehlerhaften Wert zu ändern, wodurch imputierte, fehlerbelastete Daten erzeugt werden, die ebenfalls an die betreffende eine oder die betreffenden mehreren KPIs weitergeleitet werden, um daraus imputierte KPI-Testwerte zu erzeugen. Bei manchen Ausführungsformen können die eingestreuten Fehler, ohne darauf beschränkt zu sein, eine Zufallsauswahl mancher der Daten in dem ursprünglichen Datenstrom und eine Entfernung solcher Zufallsdaten, um zu ermitteln, ob Probleme mit fehlenden Daten relevant sind, sowie eine Zufallsauswahl bekannter, nicht fehlerhafter Daten und ein Einstreuen von Werten enthalten, von denen bekannt ist, dass sie über festgelegte Toleranzen hinausgehen, um zu ermitteln, ob Probleme mit Ausreißern relevant sind. Die imputierten KPI-Testwerte werden mit den ursprünglichen KPI-Testwerten verglichen, und wenn es eine ausreichende Ähnlichkeit zwischen ihnen gibt, werden die ursprünglichen Daten, d.h. die den ursprünglichen Daten zugehörigen Probleme, als relevant für die betreffenden KPIs gekennzeichnet. Wenn es eine nicht ausreichende Ähnlichkeit zwischen den imputierten KPI-Testwerten und den ursprünglichen KPI-Testwerten gibt, werden die ursprünglichen Daten mit den oben erwähnten Problemen als für die betreffenden KPIs nicht relevant gekennzeichnet. Um zu ermitteln, ob es etwaige relevante Beziehungen zwischen den vermutlichen oder anderweitig identifizierten Datenfehlern in dem ursprünglichen Datenstrom gibt, werden entsprechend Daten mit darin eingebetteten, vorgegebenen Fehlern verwendet, um zu ermitteln, ob es einen wie auch immer gearteten relevanten und wahrnehmbaren Effekt der fehlerhaften Daten auf die betreffenden KPI-Formulierungen gibt.
Bei mindestens manchen Ausführungsformen wird eine Ermittlung des KPI-Charakteristikums durchgeführt. Die Grundlage für jede, mitunter auch als KPI-Charakterisierung bezeichnete Ermittlung des KPI-Charakteristikums enthält eine oder mehrere KPIs, z.B. für ein Geschäft eine oder mehrere geschäftsspezifische KPIs, und für eine Privatimmobilie eine oder mehrere immobilienspezifische KPIs. Bei manchen Ausführungsformen werden die KPIs vorgegeben und beschrieben, z.B. als explizite Messwerte eines Erfolgs oder eines Mangels hieran, spezifische Geschäftsziele zu erreichen. Bei manchen Ausführungsformen werden die KPIs als eine Funktion einer Sammlung und Analyse von Geschäftsdaten entwickelt, um andernfalls nicht identifizierte Messwerte für ein Erreichen von Geschäftszielen zu ermitteln und dadurch die Identifizierung einer oder mehrerer zusätzlicher KPIs zu ermöglichen. Entsprechend sind die KPIs unabhängig von den Ursprüngen verfügbar, um die zugehörigen inhärenten Eigenschaften innerhalb der KPIs mit den betreffenden Problemen zu vergleichen, die in den ursprünglichen Daten gefunden werden, und in manchen Fällen eine Identifizierung der relevanten Probleme zu ermöglichen.
Bei einer oder mehreren Ausführungsformen werden die Operationen zur Ermittlung des KPI-Charakteristikums vor Ort ausgeführt, während die ursprünglichen Daten an das Datenprüfmodul übertragen werden. Da die Beschaffenheit der in Echtzeit erzeugten Probleme in den ursprünglichen Daten im Vorhinein nicht bekannt ist, müssen die Datenprüfungen und Ermittlungen des KPI-Charakteristikums zudem dynamisch in Echtzeit erfolgen. Aus diesem Grund werden die Ermittlungen der betreffenden KPIs mit den betreffenden Charakteristika, die innerhalb der betreffenden Formulierungen der betreffenden KPIs eingebettet sind, gemeinsam mit den Ermittlungen der Probleme ausgeführt, die sich auf die eingehenden ursprünglichen Daten auswirken. Mindestens ein Teil der Ermittlungen des KPI-Charakteristikums enthält ein Ermitteln der Beschaffenheit der betreffenden KPIs, die den ursprünglichen Daten zugehörig sind. Bei manchen Ausführungsformen wird ein Teil der eingehenden ursprünglichen Daten keinen wie auch immer gearteten KPIs zugewiesen, und diese Daten werden im Zuge dieser Offenbarung nicht weiterverarbeitet, und etwaige eingebettete Probleme werden entweder ignoriert und die Daten in ihrer bestehenden Form verarbeitet, oder eine Problembenachrichtigung wird auf eine oder mehrere Weisen an den Nutzer übertragen. Bei anderen Ausführungsformen werden die Beziehungen zwischen den eingehenden ursprünglichen Daten und den zugehörigen KPI-Formulierungen weiter ermittelt.
Bei Ausführungsformen werden die KPI-Formulierungen in zwei Arten von Formulierungen eingeteilt, d.h. in Formulierungen einer „observable.box“ (einsehbare Box) und einer „unobservable.box“ (nicht einsehbare Box). Die KPI-Formulierungen der einsehbaren Box sind für eine Prüfung verfügbar, d.h. die Einzelheiten sind einsehbar, und das Teilmodul zur Ermittlung des KPI-Charakteristikums enthält ein Teilmodul der einsehbaren Box. Bei den KPI-Formulierungen der nicht einsehbaren Box ist nicht erkennbar, welche Operationen und Algorithmen darin enthalten sind, zum Beispiel und ohne darauf beschränkt zu sein, können die betreffenden Algorithmen und Operationen der nicht einsehbaren Box proprietärer Natur sein, und die betreffenden Nutzer können einen Grad an Geheimhaltung und Vertraulichkeit für die Inhalte darin benötigen. Das Teilmodul zur Ermittlung des KPI-Charakteristikums enthält ein Teilmodul der nicht einsehbaren Box. Bei manchen Ausführungsformen der KPI-Formulierungen sowohl der einsehbare als auch der nicht einsehbaren Box untersuchen die zugehörigen Algorithmen, ob die betreffende Formulierung des KPI-Charakteristikums eine oder mehrere Analysen der umgebenden ursprünglichen Datenwerte in Bezug auf die Daten mit Problemen enthält, z.B. und ohne darauf beschränkt zu sein, eine oder mehrere Maximalwert-Ermittlungen, Minimalwert-Ermittlungen, Mittelwert-Ermittlungen, Medianwert-Ermittlungen und andere statistische Ermittlungen, z.B. und ohne darauf beschränkt zu sein, Analysen der Standardabweichung. Wenn es keine Beziehung zwischen den betreffenden ursprünglichen Daten und dem KPI-Formulierungscharakteristikum gibt, wird gemäß dieser Offenbarung, wie zuvor dargelegt, keine weitere Maßnahme für die problembehafteten Daten ergriffen. Entsprechend werden für diejenigen Probleme, die ursprünglichen Daten zugehörig sind, welche in Beziehung zu einer KPI stehen (beide durch den Nutzer bereitgestellt), die Eigenschaften, d.h. die Charakteristika der KPI-Formulierungen, unabhängig davon, ob sie der einsehbaren Box oder der nicht einsehbaren Box angehören, ermittelt, sodass die relevanten Datenqualitätsprobleme, die sich nachteilig auf eine dazugehörige KPI auswirken können, einwandfrei klassifiziert und die nachfolgenden Optimierungen durchgeführt werden können.
Bei einer oder mehreren Ausführungsformen empfängt ein Momentaufnahmen-Erzeugermodul die Ausgaben des Datenprüfmoduls, welche die fehlerhaften Daten mit den bekannten, eingebetteten Problemen und die betreffenden KPI-Formulierungscharakteristika enthalten. Das Momentaufnahmen-Erzeugermodul wird konfiguriert, um Momentaufnahmen von simulierten Daten durch eine Simulation der betreffenden Datenwerte durch ein oder mehrere Modelle zu erzeugen, die in der Produktion verwendet werden, um die Simulation der ursprünglichen Daten zu ermöglichen. Bei manchen Ausführungsformen werden Simulationen auf Verfahrensgrundlage und Simulationen auf Punktgrundlage verwendet. Obwohl unabhängig von der Beschaffenheit der Probleme in den fehlerhaften Daten beide Simulationen verwendet werden können, z.B. auch gleichzeitig, erfolgt die Auswahl einer der beiden Simulationen bei manchen Ausführungsformen auf Grundlage der Beschaffenheit der Probleme in den ursprünglichen Daten, und bei manchen Ausführungsformen kann die Auswahl auf Grundlage von vorgegebenen Anweisungen erfolgen, die durch den Nutzer erzeugt werden. Allerdings werden die Simulationen auf Verfahrensgrundlage im Allgemeinen besser zum Verarbeiten von Problemen mit fehlenden Werten konfiguriert, und die Simulationen auf Punktgrundlage werden besser zum Verarbeiten von Problemen mit Ausreißerwerten konfiguriert.
Zum Beispiel können bei manchen Ausführungsformen frühere Versuchsdurchläufe durch einen Nutzer darauf hingewiesen haben, dass fehlende Daten auf Grundlage dessen ermittelt werden können, ob Daten für eine länger anhaltende Dauer fehlen oder ob syntaktische Probleme mit Werten vorhanden sind, d.h. vermeintlich numerische Daten enthalten über eine längere Dauer hinweg Daten, die Nichtzahlen sind, oder es wird eine falsche numerische Rundung oder Kürzung ermittelt. Aus diesem Grund können Simulationen auf Verfahrensgrundlage bessere Analysen für die oben genannten Bedingungen bereitstellen. Probleme mit Ausreißerwerten können ermittelt werden, wenn es semantische Probleme mit Werten gibt, d.h. manche der Daten enthalten anomale Ereignisse oder dauerhaft verrauschte Daten oder verrauschte Daten mit Mustern. Aus diesem Grund können Simulationen auf Punktgrundlage bessere Analysen für die oben genannten Bedingungen bereitstellen. Wenn ein Nutzer ermittelt, dass es womöglich unklar ist, ob die Simulationen auf Verfahrensgrundlage oder auf Punktgrundlage bessere Simulationen für die angegebenen Bedingungen bereitstellen, können für diejenigen Bedingungen, bei denen eines der Verfahren unter Umständen bessere Simulationen bereitstellt, wie oben beschrieben beide Simulationsverfahren verwendet werden.
Das Momentaufnahmen-Erzeugermodul wird konfiguriert, um Simulationen auf Verfahrensgrundlage zu verwenden, um eine Analyse auf ein oder mehrere Korrekturverfahren durchzuführen, wobei jedes Korrekturverfahren, zum Beispiel und ohne darauf beschränkt zu sein, Algorithmen zum Ermitteln von Mitteln, Medianen usw. enthalten kann. Unabhängig davon, ob die KPI-Formulierungscharakteristika der nicht einsehbaren Box oder der einsehbaren Box angehören, kann zusätzlich ein Teilmodul der Simulationen auf Verfahrensgrundlage verwendet werden. Jedes Korrekturverfahren enthält eine Erzeugung eines oder mehrerer imputierter Werte, die in der betreffenden Simulationsmomentaufnahme als potenzielle Lösungen oder als Ersatz für die fehlerhaften Werte enthalten wären, wenn dieses bestimmte Korrekturverfahren verwendet würde. Dabei wird darauf verwiesen, dass die imputierten Werte potenzielle Ersatzwerte sein können, jedoch nicht müssen. Da es keine vorgefassten Meinungen dazu gibt, welches der Korrekturverfahren die besten oder korrektesten Ersatzwerte für die bestimmten vorliegenden Bedingungen bereitstellt, wird eine Mehrzahl von Modellen verwendet, wobei jedes Modell verwendet wird, um das betreffende Korrekturverfahren auszuführen. Bei manchen Ausführungsformen wird das Teilmodul der Simulationen auf Verfahrensgrundlage mit dem Teilmodul der KPI-Formulierungen kommunikativ gekoppelt. Außerdem ist der Anteil von nicht fehlerhaften Daten, der zur Berechnung der imputierten Werte für die fehlerhaften Daten verwendet wird, von der jeweiligen Korrekturmethode abhängig. Wenn zum Beispiel ermittelt wird, dass ein fehlender Wert durch das Mittel aller Werte ersetzt wird, wird in dem Korrekturmodul ein im Wesentlichen vollständiger Satz von betreffenden Daten verwendet. Wenn hingegen nur die umgebenden drei Werte verwendet werden, um den fehlenden Wert zu berechnen, werden nur diese umgebenden Werte durch das Korrekturmodul verwendet. Entsprechend werden Simulationen auf Verfahrensgrundlage verwendet, um eine oder mehrere Simulationsmomentaufnahmen der nicht fehlerhaften ursprünglichen Daten und imputierten Werte für jeden fehlerhaften ursprünglichen Datenwert zu erzeugen, wobei jeder simulierte Datenwert angibt, wie der Datenwert aussehen würde, wenn das betreffende Korrekturverfahren verwendet würde, wodurch eine Mehrzahl von imputierten Werten erzeugt wird, bei denen jeder imputierte Wert ein Produkt eines anderen Korrekturverfahrens ist.
Bei mindestens manchen Ausführungsformen enthält die Datensammlung Merkmale auf Heuristikgrundlage, die Ermittlungen von Mustern in den Datenpunkten ermöglichen, während diese gesammelt werden. Wie hierin verwendet, werden der Begriff „Datenpunkt“ und der Begriff „Datenelement“ austauschbar verwendet. Unter bestimmten Umständen können eine oder mehrere Instanzen der ursprünglichen Daten scheinbar inkorrekt sein, da die betreffenden Datenpunkte einen Schwellenwert überschreiten, der auf einer Wahrscheinlichkeit dessen beruht, wie der Datenpunktwert als eine Funktion der bestimmten Datenmuster lauten sollte. Zum Beispiel, und ohne darauf beschränkt zu sein, kann eine scheinbare Datenabweichung, d.h. ein Datenausschlag nach oben oder nach unten, entweder durch ein fehlerhaftes Datenpaket oder als eine Funktion einer exakten Wiedergabe dessen erzeugt werden, was gerade in Echtzeit geschieht. Aus diesem Grund wird das Momentaufnahmen-Erzeugermodul des Weiteren konfiguriert, um die Fehler zu analysieren und zu ermitteln, ob scheinbar fehlerhafte Daten tatsächlich fehlerhafte Daten sind.
Bei einer oder mehreren Ausführungsformen werden die Daten wie z.B. die bekannten, korrekten ursprünglichen Daten und die vermutlich potenziell fehlerhaften Datenpunkte zu verschiedenen Konfigurationen kombiniert, um Ermittlungen von Wahrscheinlichkeiten dazu zu initiieren, ob die potenziell fehlerhaften Datenwert korrekt oder fehlerhaft sind. Jeder potenziell fehlerhafte Datenwert wird einzeln entweder als diskret „korrekt“ oder als diskret „fehlerhaft“ inferiert, und die potenziell fehlerhaften Datenwerte werden dann als „inferierte Datenpunkte“ bezeichnet, um sie von den bekannten, korrekten ursprünglichen Daten zu unterscheiden. Somit haben die inferierten Datenpunkte einen ursprünglichen Datenwert, wie er übertragen wird, und eine inferierte Kennzeichnung als entweder korrekt oder fehlerhaft. Der Rest der Analyse konzentriert sich ausschließlich auf die inferierten Datenpunkte. Konkret wird die gesamte Bandbreite aller möglichen Kombinationen der inferierten Datenpunkte evaluiert, die in der oben erwähnten Simulationsmomentaufnahme gesammelt werden. Die Erzeugung aller möglichen Kombinationen von diskreten, „korrekten“ Kennzeichnungen und diskreten, „fehlerhaften“ Kennzeichnungen und deren darauffolgende Aggregierung ermöglicht weitere Ermittlungen von „besten“ Aktionen und ob mit diesen Aktionen fehlerhafte Daten korrigiert oder korrekte Daten akzeptiert werden sollen. Diese Operationen betrachten die akzeptierten Ungenauigkeiten, die ursprünglichen Daten zugehörig sind, die unter Umständen fehlerhaft sind, indem sie die Wahrscheinlichkeiten ermitteln, dass einer oder mehrere der vermutlich potenziell fehlerhaften Datenwerte „korrekt“ oder „fehlerhaft“ sind. Zum Beispiel und ohne darauf beschränkt zu sein, werden in einem Fall von fehlerhaften Datenpunkten 2³ oder 8 Kombinationen durch die Simulation auf Punktgrundlage erzeugt. Für jede der Kombinationen wird angenommen, dass manche der fehlerhaften Werte fälschlicherweise identifiziert werden und manche korrekterweise als fehlerhaft identifiziert werden. Somit werden für jede Kombination die fehlerhaften Werte auf Grundlage eines vorgegebenen Korrekturverfahrens durch einen imputierten Wert ersetzt. Daher hat jede Kombination einen anderen Satz von korrekten und inkorrekten Datenpunkten und benötigt auf Grundlage der vorgegebenen Korrekturmethode andere imputierte Werte.
Die Gesamtzahl einer jeden möglichen Kombination der diskreten „korrekten“ und „fehlerhaften“, inferierten Datenpunkte wächst exponentiell mit der Anzahl der inferierten Datenpunkte (d.h. 2^x, wobei x = die Anzahl der inferierten Datenwerte), und ein Erzeugen aller möglichen Kombinationen und deren Verarbeitung kann zeit- und ressourcenaufwendig sein. Jede Kombination von inferierten Datenpunkten ist eine potenzielle Simulation, und ein Verarbeiten einer jeden der Kombinationen als eine potenzielle Simulation erhöht lediglich den Verarbeitungsaufwand. Aus diesem Grund werden die beschriebenen möglichen Kombinationen von inferierten Datenpunkten zwar weiter herangezogen; die möglichen Kombinationen von inferierten Datenpunkten werden jedoch „bereinigt“, sodass nur ein Teilsatz aller möglichen Kombinationen weiter herangezogen wird. Somit wird das Teilmodul der Simulationen auf Punktgrundlage mit einem Teilmodul zur Momentaufnahmenoptimierung kommunikativ gekoppelt. Bei solchen Ausführungsformen werden die Momentaufnahmen-Optimierungsmerkmale unter Verwendung der KPI-Formulierungscharakteristika verwendet, die wie zuvor beschrieben ermittelt werden, unabhängig davon, ob die KPI-Formulierungscharakteristika der nicht einsehbaren Box oder der einsehbaren Box angehören. Zum Beispiel und ohne darauf beschränkt zu sein, können KPI-Formulierungscharakteristika für Maximum-, Minimum-, Mittel- und Mediananalysen verwendet werden, um die Simulationen der inferierten Datenpunkte zu filtern. Somit wird das Momentaufnahmen-Optimierungsmodul mit dem Teilmodul der KPI-Formulierungen kommunikativ gekoppelt. Im Allgemeinen bleiben nur diejenigen Kombinationen von inferierten Datenpunkten mit den imputierten Werten erhalten, die den Bereinigungsprozess erfolgreich durchlaufen, um die betreffenden Simulationen der vermutlichen Punktwerte durch die Modelle zu erzeugen und die betreffenden Simulationsmomentaufnahmen mit den nicht fehlerhaften ursprünglichen Daten und imputierten Werten für die identifizierten, fehlerhaften Daten zu erzeugen, wobei ein Teil der als fehlerhaft vermuteten Punktwerte in Wirklichkeit womöglich nicht fehlerhaft ist und nicht ersetzt werden muss.
Bei mindestens manchen Ausführungsformen werden die Simulationsmomentaufnahmen, die - ob auf Verfahrensgrundlage oder Punktgrundlage - durch die Momentaufnahmen-Erzeugermodule erzeugt werden, an ein KPI-Wert-Inferenzmodul übertragen. Wie oben dargelegt, enthält jede Simulationsmomentaufnahme die nicht fehlerhaften ursprünglichen Daten und imputierte Werte für die fehlerhaften Daten. Jeder der imputierten Werte und der zugehörigen ursprünglichen Daten wird der betreffenden KPI-Formulierung vorgelegt, um einen vorhergesagten Ersatzwert zu erzeugen, d.h. einen inferierten Momentaufnahmenwert für jeden der imputierten Werte in den betreffenden Simulationsmomentaufnahmen. Jeder inferierte Momentaufnahmenwert beruht mindestens teilweise auf der betreffenden KPI-Formulierung in Zusammenhang mit den nicht fehlerhaften ursprünglichen Daten in dem Zeitreihen-Datenstrom. Aus diesem Grund werden für jede Simulationsmomentaufnahme, die an das KPI-Wert-Inferenzmodul übertragen wird, ein oder mehrere vorhergesagte Ersatzwerte erzeugt, d.h. inferierte Momentaufnahmenwerte.
Bei manchen Ausführungsformen werden die inferierten Momentaufnahmenwerte an ein Konfidenzmaße-Modul übertragen, um für jeden der inferierten Momentaufnahmenwerte Analysewertungen in Form von (weiter unten erörterten) Konfidenzwerten zu erzeugen. Für jeden betreffenden mit einer Wertung versehenen, inferierten Momentaufnahmenwert für die fehlerhaften Daten wird ein bester Konfidenzwert ausgewählt, und der betreffende inferierte Momentaufnahmenwert wird nun auf den ausgewählten KPI-Wert erhöht, um die fehlerhaften Daten zu ersetzen, wobei der ausgewählte KPI-Wert als der inferierte KPI-Wert bezeichnet wird. Entsprechend ist der inferierte KPI-Wert derjenige Wert, der aus einem oder mehreren vorhergesagten Ersatzwerten (d.h. den inferierten Momentaufnahmenwerten) ausgewählt wird, um die potenziell fehlerhaften Dateninstanzen zu berichtigen.
Bei einer oder mehreren Ausführungsformen empfängt zusätzlich das Konfidenzmaße-Modul die betreffenden Informationen, um die Auswahl des inferierten KPI-Werts zu ermöglichen, sowie zusätzliche Informationen, um eine Erläuterung des ausgewählten inferierten KPI-Werts zu erzeugen. Im Allgemeinen vergleicht das Konfidenzmaße-Modul die inferierten Momentaufnahmenwerte, die durch eine oder mehrere der oben erwähnten Simulationen erzeugt werden, mit den betreffenden fehlerhaften ursprünglichen Daten. Mindestens eines der Ergebnisse des Vergleichs sind die betreffenden Konfidenzwerte in Gestalt von numerischen Werten für jeden der inferierten Momentaufnahmenwerte. Die betreffenden Konfidenzwerte, die auf die betreffenden Momentaufnahmen der Daten angewendet werden, geben ein vorhergesagtes Konfidenzniveau dafür an, dass die betreffenden inferierten Momentaufnahmenwerte korrekt sind. Ein vergleichsweise niedriger Konfidenzwert gibt an, dass der betreffende inferierte Momentaufnahmenwert, wie z.B. der inferierte KPI-Wert, entweder nicht oder nur unter Vorbehalt verwendet werden sollte. Ein vergleichsweise hoher Konfidenzwert gibt an, dass die betreffenden inferierten Momentaufnahmenwerte, wie z.B. der inferierte KPI-Wert, verwendet werden sollten. Die Schwellenwerte für die zugehörigen Konfidenzwerte können durch den Nutzer festgelegt werden und können auch verwendet werden, um ein oder mehrere Modelle zu trainieren, wobei beides Voraussetzungen sind, um eine vollständige Automatisierung der Auswahl zu ermöglichen. Darüber hinaus können die nachfolgenden Aktionen automatisiert werden. Zum Beispiel und ohne darauf beschränkt zu sein, werden für Konfidenzwerte unterhalb eines vorgegebenen Schwellenwerts die betreffenden inferierten Momentaufnahmenwerte nicht zur weiteren Verarbeitung innerhalb der nativen Anwendung unter Verwendung des ursprünglichen Datenstroms weitergeleitet. Auf ähnliche Weise wird für Konfidenzwerte oberhalb eines vorgegebenen Schwellenwerts der betreffende ausgewählte, inferierte KPI-Wert zur weiteren Verarbeitung innerhalb der nativen Anwendung unter Verwendung der ursprünglichen Daten weitergeleitet. Entsprechend korrigieren die hierin beschriebenen Systeme und Verfahren die Probleme mit den fehlerhaften Daten in dem ursprünglichen Datenstrom automatisch auf eine Weise, die unbeabsichtigte Aktionen vermeidet oder geeignete Aktionen initiiert, wie die Bedingungen und die korrekten Daten dies vorgeben.
Da es möglich ist, dass der Konfidenzwert für den inferierten KPI-Wert nicht 100 % beträgt, enthält das Konfidenzmaße-Modul zusätzlich ein erläuterndes Teilmodul, um eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen bereitzustellen, indem die Einzelheiten und Nachweise zur Auswahl der betreffenden simulierten Momentaufnahme mit dem inferierten KPI-Wert bereitgestellt werden. Das erläuternde Teilmodul stellt solche Einzelheiten bereit, wie z.B. und ohne darauf beschränkt zu sein, die Arten von in dem Datensatz erkannten Problemen, die Anzahl und Beschaffenheit der erzeugten Simulationen, die statistischen Eigenschaften der Wertungen, die aus verschiedenen Simulationen erhalten werden, und einen Vergleich der Wertungen. Entsprechend erzeugt das Konfidenzmaße-Modul verschiedene Werte für die simulierten Momentaufnahmen von dem KPI-Wert-Inferenzmodul sowie die Informationen, damit der Nutzer die Eigenschaften der Verteilung der Werte verstehen kann, um weiter Klarheit über die Auswahl der betreffenden inferierten KPI-Werte zu schaffen.
Bei manchen Ausführungsformen enthält das Konfidenzmaße-Modul außerdem eine Mehrzahl von zusätzlichen Teilmodulen, um ein Erzeugen der oben erwähnten Konfidenzwerte und der Einzelheiten und Nachweise zur Unterstützung solcher Werte zu erzeugen. Bei manchen dieser Ausführungsformen werden drei Konfidenzmaße-Teilmodule verwendet, d.h. ein Teilmodul für Konfidenzmaße auf Quantitätsgrundlage, ein Teilmodul für Konfidenzmaße auf Verteilungsgrundlage und ein Teilmodul für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage.
Das Teilmodul für Konfidenzmaße auf Quantitätsgrundlage wird konfiguriert, um die Größenordnung der Werte heranzuziehen, die von dem KPI-Wert-Inferenzmodul erhalten werden, und die zugehörigen Konfidenzmaße-Informationen zu erzeugen, z.B. kann die Konfidenz des resultierenden KPI-Werts abhängig von den zusätzlichen Daten und Gegebenheiten variieren, ob die Größenordnung des KPI-Werts nun 50 oder 1050 beträgt. Das Teilmodul für Konfidenzmaße auf Verteilungsgrundlage zieht die Spanne heran, in der sich die simulierten Werte bewegen, und erzeugt die zugehörigen Konfidenzmaße-Informationen, d.h. anstatt der absoluten Größenordnung der KPI-Werte verwenden die Konfidenzmaße auf Verteilungsgrundlage die statistischen Eigenschaften wie Mittel, Min, Max und Standardabweichung der KPI-Werte und sind somit im Wesentlichen unbeeinflusst durch die Größenordnung. Das Teilmodul für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage zieht die Größenordnung sowie die Spanne der Werte heran, um die zugehörigen Konfidenzmaße-Informationen zu erzeugen.
Unter Bezugnahme auf 4 wird eine schematische Darstellung bereitgestellt, die ein System veranschaulicht, d.h. ein System 400 für die Konfidenz des Ersatzes von Zeitreihendaten, das konfiguriert wird, um einen Konfidenzwert für korrigierte Daten innerhalb von Zeitreihendaten zu berechnen. In Bezug auf jedes System mit Ausnahme des identifizierten Systems 400 für die Konfidenz des Ersatzes von Zeitreihendaten wird das System 400 für die Konfidenz des Ersatzes von Zeitreihendaten hierin als „das System 400“ bezeichnet. Das System 400 enthält eine oder mehrere Verarbeitungseinheiten 404 (von denen nur eine gezeigt wird), die mit einer oder mehreren Arbeitsspeichereinheiten 406 (von denen nur eine gezeigt wird) kommunikativ gekoppelt und mit diesen wirkverbunden werden. Das System 400 enthält außerdem ein Datenspeichersystem 408, das über einen Datenübertragungsbus 402 mit der Verarbeitungseinheit 404 und der Arbeitsspeichereinheit 406 verbunden wird. Bei einer oder mehreren Ausführungsformen haben der Datenübertragungsbus 402, die Verarbeitungseinheit 404, die Arbeitsspeichereinheit 406 und das Datenspeichersystem 408 Ähnlichkeit mit ihren in 3 gezeigten Gegenstücken, d.h. dem Datenübertragungsbus 102, der
Verarbeitungseinheit 104, dem Systemarbeitsspeicher 106 bzw. den persistenten Speichereinheiten 108.
Bei einer oder mehreren Ausführungsformen enthält das System 400 ein Prozess-Steuerungssystem 410, das konfiguriert wird, um jeden Prozess durchzuführen, der einen Betrieb des Systems 400 wie hierin beschrieben ermöglicht, z.B. ohne darauf beschränkt zu sein, elektrische Prozesse (z.B. Energieverwaltungssysteme), mechanische Prozesse (Maschinenverwaltungssysteme), elektromechanische Prozesse (industrielle Fertigungssysteme) und Finanzprozesse. Bei manchen Ausführungsformen ist das Prozess-Steuerungssystem 410 ein externes System, das mit dem System 400 kommunikativ gekoppelt wird. Wie hierin gezeigt und beschrieben, werden die Verarbeitungseinheit 404, die Arbeitsspeichereinheit 406 und das Datenspeichersystem 408 bei manchen Ausführungsformen über die (in 3 gezeigte) Eingabe/Ausgabe-Einheit 112 dem Prozess-Steuerungssystem 410 kommunikativ gekoppelt.
Das Prozess-Steuerungssystem 410 enthält eine oder mehrere Prozesseinheiten 412, die eine Schnittstelle mit den betreffenden einen oder mehreren Prozessen bilden, wobei die Prozesseinheiten 412 Einheiten-/Prozess-Steuerungsbefehle 414 ausführen, die durch die Interaktion der zugehörigen Programmierungsanweisungen durch die Verarbeitungseinheit 404 und die Arbeitsspeichereinheit 406 erzeugt werden. Das Prozess-Steuerungssystem 410 enthält auch eine Sensorsuite 416, welche die Sensoren enthält, die verwendet werden, um die Prozesseinheiten 412 und die betreffenden Prozesse zu überwachen, eine Rückmeldung 418 an die Prozesseinheiten 412 (z.B. und ohne darauf beschränkt zu sein, Signale für „Sensor funktioniert normal“ und „Sensor hat Fehlfunktion“) sowie einen oder mehrere ursprüngliche Zeitreihen-Datenströme 420 zu erzeugen, die Datenpakete enthalten, hierin als ursprüngliche Daten 422 bezeichnet, die für die Prozess-Messwertausgaben der Sensorsuite 416 stehen.
Die Arbeitsspeichereinheit 406 enthält eine Engine 430 für Prozess-Steuerungsalgorithmen und -logik, die konfiguriert wird, um die ursprünglichen Zeitreihen-Datenströme 420 zu empfangen und die Einheiten-/Prozess-Steuerungsbefehle 414 zu erzeugen. Bei manchen Ausführungsformen enthält die Arbeitsspeichereinheit 406 außerdem eine Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen. Bei einer oder mehreren Ausführungsformen enthält die Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen ein oder mehrere darin eingebettete Modelle 442. Das System 400 enthält außerdem eine oder mehrere Ausgabeeinheiten 450, die mit dem Datenübertragungsbus 402 kommunikativ gekoppelt werden, um eine Ausgabe 444 der Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen zu empfangen. Module und Teilmodule der Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen werden in Bezug auf 5 erörtert.
Das Datenspeichersystem 408 speichert Konfidenzdaten 460 für Datenqualität-zu-KPI-Vorhersagen, die, ohne darauf beschränkt zu sein, (über die ursprünglichen Zeitreihen-Datenströme 420 erfasste) ursprüngliche Zeitreihendaten 462 sowie Konfidenzwerte und Erläuterungen 464 enthalten. Das Datenspeichersystem 408 speichert außerdem die Geschäfts-KPIs 466 mit Formulierungen 468, Eigenschaften und Charakteristika 470 (hierin austauschbar verwendet) sowie betreffenden Maßen 472, wobei die Formulierungen 468 die Charakteristika 470 und die Maße 472 enthalten.
Unter Bezugnahme auf 5A wird ein Ablaufplan bereitgestellt, der einen Prozess 500 zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten veranschaulicht. Unter Bezugnahme auf 4 wird außerdem mindestens ein Teil der Module und Teilmodule der Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen auch in Bezug auf 5A veranschaulicht und erörtert.
Bei einer oder mehreren Ausführungsformen wird die Qualität der innerhalb der betreffenden ursprünglichen Zeitreihen-Datenströme 420 eingebetteten ursprünglichen Daten 504 (die im Wesentlichen den ursprünglichen Daten 422 gleichen) analysiert, und anhand eines zweistufigen Prozesses wird eine Ermittlung in Bezug auf die eine oder die mehreren betreffenden KPIs durchgeführt, die in Beziehung zu den betreffenden ursprünglichen Daten 504 stehen. Zunächst wird die Qualität der ursprünglichen Daten 504 analysiert, während Datenpakete von den betreffenden Sensoren der Sensorsuite (die im Wesentlichen der Sensorsuite 416 gleicht) an ein Datenprüfmodul 510 übertragen werden (das sich innerhalb der Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen befindet), wobei die Datenpakete durch ein Datenprüf-Teilmodul 512 geprüft werden, das innerhalb des Datenprüfmoduls 510 eingebettet ist. Bei mindestens manchen Ausführungsformen enthält das Datenprüfmodul 510, wie oben dargelegt, auch integrierte Merkmale zur Ermittlung des KPI-Charakteristikums, wodurch eine Redundanz des Datenprüf-Teilmoduls 512 vermieden wird.
Bei manchen Ausführungsformen können ein oder mehrere Datenpakte der ursprünglichen Daten 504 Probleme enthalten, welche die betreffenden Datenpakete als potenziell fehlerhafte Daten enthaltend kenntlich machen. Ein solches Problem kann der Sampling-Häufigkeit zugehörig sein. Zum Beispiel, und ohne darauf beschränkt zu sein, überprüft das Datenprüf-Teilmodul 512 die Sampling-Häufigkeit der Sensorsuite 502, um zu ermitteln, ob mehrere Sampling-Häufigkeiten in den ursprünglichen Daten 504 vorhanden sind, z.B., ob es gelegentliche Störungen in der Sampling-Häufigkeit gibt und ob es fortwährende Veränderungen der Sampling-Häufigkeit gibt. Zum Beispiel, und ohne darauf beschränkt zu sein, überprüft das Datenprüf-Teilmodul 512 außerdem die Zeitmarken der ursprünglichen Daten 504, um zu ermitteln, ob etwaige Zeitmarken in den ursprünglichen Daten 504 fehlen, ob die ursprünglichen Daten 504 für eine länger anhaltende Dauer fehlen und ob es Zeitmarken in verschiedenen Formaten gibt. Zum Beispiel, und ohne darauf beschränkt zu sein, nimmt das Datenprüf-Teilmodul 512 darüber hinaus eine Überprüfung auf syntaktische Probleme mit Werten vor, um zu ermitteln, ob vermeintlich numerische Daten über eine längere Dauer hinweg Daten 504 enthalten, die „Nichtzahlen“ (NaN) sind, sowie eine falsche numerische Rundung und Kürzung. Zum Beispiel, und ohne darauf beschränkt zu sein, nimmt das Datenprüf-Teilmodul 512 zusätzlich eine Überprüfung auf semantische Probleme mit Werten vor, um zu ermitteln, ob irgendwelche der ursprünglichen Daten 504 anomale Ereignisse und verrauschte Daten enthalten. Entsprechend untersucht das Datenprüf-Teilmodul 512 die ursprünglichen Daten 504 in dem betreffenden ursprünglichen Zeitreihen-Datenstrom 420 und ermittelt, ob die ursprünglichen Daten 504 innerhalb vorgegebener Toleranzen liegen und ob es etwaige vermutete Fehler in den ursprünglichen Daten 504 gibt, sowie die Beschaffenheit der Fehler.
Bei manchen Ausführungsformen gibt es zwei Modalitäten, d.h. ein Verarbeiten der ursprünglichen Daten 504, die das System 400 zu verarbeiten versucht, um eine Datenqualität zu ermitteln (wie oben beschrieben), und ein Verarbeiten der einen oder der mehreren KPI-Formulierungen 468, von denen vorgesehen ist, dass sie auf die ursprünglichen Daten 504 angewendet werden sollen. Wie hierin verwendet, enthalten die KPI-Formulierungen 468 das eine oder die mehreren KPI-Charakteristika 470, wobei die KPI-Charakteristika 470 auch, ohne darauf beschränkt zu sein, die Einzelheiten der Formulierung 468 enthalten, z.B. und ohne darauf beschränkt zu sein, ein oder mehrere Datenprobleme, auf welche die Algorithmen der Formulierungen 468 gerichtet sind, die Algorithmen selbst und etwaige Parameter und Definitionen der betreffenden KPIs 466. Die KPIs 466 mit den Formulierungen 468, den Charakteristika 470 und den Maßen 472 werden in dem Datenspeichersystem 408 gespeichert. Bei manchen Ausführungsformen werden beide Modalitäten durch das Datenprüfmodul 510 ausgeführt, d.h. die Datenqualität wird durch das Datenprüf-Teilmodul 512 evaluiert, und die Evaluierungen des KPI-Formulierungscharakteristikums werden durch ein Teilmodul 514 zur Ermittlung des KPI-Charakteristikums ausgeführt, das mit dem Datenprüf-Teilmodul 512 wirkverbunden wird. Bei manchen Ausführungsformen ist das Teilmodul 514 zur Ermittlung des KPI-Charakteristikums ein separates Modul, das mit dem Datenprüfmodul 510 wirkverbunden wird. Entsprechend sind die Datenprüfmerkmale und die Ermittlung der relevanten KPI-Formulierungscharakteristika 470 eng integriert.
Bei mindestens manchen Ausführungsformen wird mindestens ein Teil der derartigen KPI-Formulierungscharakteristika 470 üblicherweise als Algorithmen realisiert, um die eingehenden ursprünglichen Zeitreihen-Datenströme 420 zu verarbeiten und einem Benutzer die notwendigen Ausgabedaten und die Funktionalität zur Unterstützung der betreffenden KPIs 466 bereitzustellen. Bei manchen Ausführungsformen befinden sich die KPI-Formulierungen 468 zudem leicht zugänglich innerhalb eines Teilmoduls 516 der KPI-Formulierungen, das innerhalb des Teilmoduls 514 zur Ermittlung des KPI-Charakteristikums eingebettet wird, wobei die derartigen KPI-Formulierungen 468 aus dem Datenspeichersystem 408 importiert werden können. Wie zuvor beschrieben, werden die ursprünglichen Daten 504 somit zunächst überprüft, um zu verifizieren, ob sie innerhalb bestimmter Toleranzen liegen, und zweitens wird eine Ermittlung durchgeführt, ob es einen wie auch immer gearteten Zusammenhang von etwaigen potenziell fehlerhaften Daten mit einer oder mehreren der bestimmten KPIs 466 gibt. Bei einer oder mehreren Ausführungsformen ist mindestens ein Teil der gesammelten ursprünglichen Daten 504 keinen wie auch immer gearteten KPIs zugehörig, und somit wirken sich solche fehlerhaften ursprünglichen Daten nicht nachteilig auf eine bestimmte KPI 466 aus. Um eine anfängliche Identifizierung von relevanten Problemen auszuführen, wird daher ein einfacher KPI-Relevanztest durchgeführt. Wenn zum Beispiel und ohne darauf beschränkt zu sein, eine oder mehrere der bestimmten KPIs 466 eine Formulierung auf Durchschnittsgrundlage verwenden und die potenziell fehlerhaften Daten 504 in den betreffenden ursprünglichen Zeitreihen-Datenströmen 420 ungeordnete Zeitmarken enthalten, wird ermittelt, dass die ungeordneten Zeitmarken keinerlei nachteilige Auswirkung auf die betreffende eine oder die betreffenden mehreren KPIs 466 haben. Wenn entsprechend eine oder mehrere der bestimmten KPIs 466 die Formulierungen 468 auf Median- oder Modusgrundlage sind, erzeugt das Vorhandensein von Ausreißern in den betreffenden ursprünglichen Zeitreihen-Datenströmen 420 keinerlei nachteilige Auswirkung auf die betreffenden KPIs 466. Entsprechend haben manche fehlerhaften Datenattribute unter Umständen keinen Effekt auf eine bestimmte KPI 466, und solche Daten sind nicht von Belang für die hierin weiter beschriebenen KPI-bezogenen Analysen.
Bei manchen Ausführungsformen besteht ein weiterer Mechanismus zum Ermitteln einer KPI-Relevanz, der verwendet werden kann, darin, dass mindestens ein Teil der ursprünglichen Zeitreihen-Datenströme 420 mit bekannten, nicht fehlerhaften Daten - und bei manchen Ausführungsformen mit vermutlich fehlerhaften Daten - an eine oder mehrere der betreffenden KPI-Formulierungen 468 in dem Teilmodul 516 der KPI-Formulierungen weitergeleitet wird, um daraus numerische Werte zu erzeugen, d.h. um daraus ursprüngliche KPI-Testwerte zu erzeugen. Konkret können Daten ohne fehlerhafte Werte bearbeitet werden, um mindestens einen Wert in einen bekannten fehlerhaften Wert zu ändern, wodurch imputierte, fehlerbelastete Daten erzeugt werden, die ebenfalls an die betreffende eine oder die betreffenden mehreren KPI-Formulierungen 468 weitergeleitet werden, um daraus imputierte KPI-Testwerte zu erzeugen.
Unter Bezugnahme auf 6 wird eine Textdarstellung vorgelegt, die einen Beispielalgorithmus 600 zum Identifizieren relevanter Probleme veranschaulicht. Unter Bezugnahme auch auf die 4 und 5A befindet sich der Algorithmus 600 innerhalb des Teilmoduls 516 der KPI-Formulierungen. Der Algorithmus 600 enthält eine Problemauflistungsoperation 602, wobei ein vorgegebener Satz von potenziellen Datenfehlerproblemen für eine Auswahl innerhalb des Algorithmus 600 aufgelistet wird und jedes potenzielle Datenfehlerproblem ein oder mehrere der entsprechenden Modelle 442 enthält. Eine Datenidentifizierungsoperation 604 wird ausgeführt, um zu identifizieren, welcher Teil der ursprünglichen Daten 504 in den ursprünglichen Zeitreihen-Datenströmen 420 auf potenzielle Fehler, einen potenziellen Datenersatz und Konfidenzermittlungen des Ersatzes analysiert wird. Bei manchen Ausführungsformen ist die Engine 440 für die Konfidenz von Datenqualität-zu-KPI-Vorhersagen skalierbar, um mehrere Ströme der ursprünglichen Zeitreihen-Datenströme 420 gleichzeitig zu untersuchen, z.B. und ohne darauf beschränkt zu sein, einen kleinen Teil der ursprünglichen Daten 504 sowie ein Heraufskalieren bis hin zu allen ursprünglichen Daten 504 in allen ursprünglichen Zeitreihen-Datenströmen 420. Die durch den Nutzer entwickelten KPI-Formulierungen 468 werden in einer Identifizierungs- und Abrufoperation 606 der KPI-Formulierungen identifiziert und abgerufen, und die ausgewählten, zu analysierenden ursprünglichen Daten 504 werden durch die betreffenden KPI-Formulierungen 468 in einer Ursprüngliche-Daten-zu-KPI-Formulierungsoperation 608 weitergeleitet. Die sich auswirkenden Probleme aus der Problemauflistungsoperation 602 werden entweder jeweils einzeln oder gleichzeitig parallel durch einen Auswahl-Algorithmus 610 zur Analyse der sich auswirkenden Probleme geleitet.
Bei einer oder mehreren Ausführungsformen wird ein Daten-zu-Problemen-Teilalgorithmus 612 ausgeführt, der ein Einstreuen von imputierten Fehlerdaten durch eine Operation 614 für die Einstreuung imputierter Daten in mindestens einen Teil der ursprünglichen Daten 504 enthält. Bei manchen Ausführungsformen können die eingestreuten Fehler, ohne darauf beschränkt zu sein, eine Zufallsauswahl einiger der ursprünglichen Daten 504 in dem ursprünglichen Zeitreihen-Datenstrom 420 und eine Entfernung solcher Zufallsdaten enthalten, um zu ermitteln, ob Probleme mit fehlenden Daten relevant sind. Zusätzlich können die eingestreuten Fehler, ohne darauf beschränkt zu sein, eine Zufallsauswahl der bekannten, nicht fehlerhaften ursprünglichen Daten 504 und ein Einstreuen von Werten enthalten, von denen bekannt ist, dass sie über festgelegte Toleranzen hinausgehen, um zu ermitteln, ob Probleme mit Ausreißern relevant sind. Die imputierten Daten werden durch die KPI-Formulierungen 468 übertragen, um durch eine Operation 616 zur Erzeugung von KPI-Testwerten imputierte KPI-Testwerte zu ermitteln. Die imputierten KPI-Testwerte aus der Operation 616 werden über eine KPI-Wert-Vergleichsoperation 618 mit den ursprünglichen KPI-Testwerten aus der Operation 608 verglichen, und eine Problemermittlungsoperation 620 wird als eine Funktion der Vergleichsoperation 618 ausgeführt. Wenn es eine ausreichende Ähnlichkeit zwischen den imputierten KPI-Testwerten und den ursprünglichen KPI-Testwerten gibt, werden bei manchen Ausführungsformen die ursprünglichen Daten 504, d.h. die den ursprünglichen Daten 504 zugehörigen Probleme, durch ihre KPI-Formulierungen 468 als relevant für die betreffenden KPIs 466 gekennzeichnet. Wenn es eine unzureichende Ähnlichkeit zwischen den imputierten KPI-Testwerten und den ursprünglichen KPI-Testwerten gibt, werden die ursprünglichen Daten 504 mit den oben erwähnten Problemen durch ihre KPI-Formulierungen 468 als für die betreffenden KPIs 466 nicht relevant gekennzeichnet. Indem beim Ausführen des Teilalgorithmus 612 die Probleme aus der Problemauflistungsoperation 602 abgearbeitet werden, wird der Teilalgorithmus 612 beendet 622, und der Algorithmus 600 wird beendet 624. Um zu ermitteln, ob es etwaige relevante Beziehungen zwischen den vermutlichen oder anderweitig identifizierten Datenfehlern in dem ursprünglichen Zeitreihen-Datenstrom 420 gibt, werden entsprechend Daten mit darin eingebetteten vorgegebenen Fehlern verwendet, um zu ermitteln, ob es einen wie auch immer gearteten relevanten und wahrnehmbaren Effekt der fehlerhaften Daten auf die betreffenden KPI-Formulierungen 468 gibt.
Unter erneuter Bezugnahme auf die 4 und 5A wird bei mindestens manchen Ausführungsformen eine Ermittlung des KPI-Charakteristikums durchgeführt. Die Grundlage für jede Ermittlung des KPI-Charakteristikums, die mitunter auch als KPI-Charakterisierung bezeichnet wird, enthält eine oder mehrere KPIs 466. Zum Beispiel und ohne darauf beschränkt zu sein, sind die Grundlage für ein Geschäft eine oder mehrere geschäftsspezifische KPIs 466, und für eine Privatimmobilie sind die Grundlage eine oder mehrere immobilienspezifische KPIs 466. Bei manchen Ausführungsformen können beliebige KPIs auf Entitätsgrundlage verwendet werden, die das hierin offenbarte System 400 für die Ersetzung von Zeitreihendaten ermöglichen.
Bei manchen Ausführungsformen werden die KPIs 466 vorgegeben und beschrieben, z.B. als explizite Messwerte eines Erfolgs oder eines Mangels hieran, spezifische Geschäftsziele zu erreichen. Bei manchen Ausführungsformen werden die KPIs 466 als eine Funktion einer Sammlung und Analyse von Geschäftsdaten entwickelt, um andernfalls nicht identifizierte Messwerte für ein Erreichen von Geschäftszielen zu ermitteln und dadurch die Identifizierung einer oder mehrerer zusätzlicher KPIs 466 zu ermöglichen. Entsprechend sind die KPIs 466 unabhängig von den Ursprüngen verfügbar, um die zugehörigen inhärenten Eigenschaften innerhalb der KPI-Formulierungen 468 mit den betreffenden Problemen zu vergleichen, die in den ursprünglichen Daten 504 gefunden werden und in manchen Fällen eine Identifizierung der relevanten Probleme zu ermöglichen.
Bei einer oder mehreren Ausführungsformen werden die Operationen zur Ermittlung des KPI-Charakteristikums vor Ort ausgeführt, während die ursprünglichen Daten 504 an das Datenprüfmodul 512 übertragen werden. Da die Beschaffenheit der in Echtzeit erzeugten Probleme in den ursprünglichen Daten im Vorhinein nicht bekannt ist, müssen die Datenprüfungen und Ermittlungen des KPI-Charakteristikums zudem dynamisch in Echtzeit erfolgen. Aus diesem Grund werden die Ermittlungen der betreffenden KPIs 466 mit den betreffenden Charakteristika 470, die innerhalb der betreffenden Formulierungen 468 der betreffenden KPIs 466 eingebettet sind, gemeinsam mit den Ermittlungen der Probleme ausgeführt, welche sich auf die eingehenden ursprünglichen Daten 422 auswirken. Mindestens ein Teil der Ermittlungen des KPI-Charakteristikums enthält ein Ermitteln der Beschaffenheit der betreffenden KPIs 466, die den ursprünglichen Daten 504 zugehörig sind.
Bei manchen Ausführungsformen wird ein Teil der eingehenden ursprünglichen Daten 504 keinen der KPIs 466 zugewiesen, und diese Daten werden im Zuge dieser Offenbarung nicht weiterverarbeitet, und etwaige eingebettete Probleme werden entweder ignoriert und die Daten in ihrer bestehenden Form verarbeitet, oder eine Problembenachrichtigung wird auf eine oder mehrere Weisen an den Nutzer übertragen, z.B. und ohne darauf beschränkt zu sein, durch eine oder mehrere der Ausgabeeinheiten 450. Bei anderen Ausführungsformen werden die Beziehungen zwischen den eingehenden ursprünglichen Daten und den zugehörigen KPI-Formulierungen 468 weiter ermittelt.
Bei Ausführungsformen werden die KPI-Formulierungen 468 in zwei Arten von Formulierungen eingeteilt, d.h. in Formulierungen der „einsehbaren Box“ und der „nicht einsehbaren Box“. Bei manchen Ausführungsformen der KPI-Formulierungen sowohl der einsehbaren als auch der nicht einsehbaren Box untersuchen die zugehörigen Algorithmen, ob die betreffende Formulierung des KPI-Charakteristikums eine oder mehrere Analysen der umgebenden ursprünglichen Datenwerte in Bezug auf die Daten mit Problemen enthält, z.B. und ohne darauf beschränkt zu sein, eine oder mehrere Maximalwert-Ermittlungen, Minimalwert-Ermittlungen, Mittelwert-Ermittlungen, Medianwert-Ermittlungen und andere statistische Ermittlungen, z.B. und ohne darauf beschränkt zu sein, Moduswert-Ermittlungen und Analysen der Standardabweichung.
Bei mindestens manchen Ausführungsformen sind die KPI-Formulierungen 458 der einsehbaren Box für eine Prüfung verfügbar, d.h. die Einzelheiten sind einsehbar, und das Teilmodul 514 zur Ermittlung des KPI-Charakteristikums enthält ein Teilmodul 518 der einsehbaren Box. Unter Bezugnahme auf 7 wird eine Textdarstellung bereitgestellt, die einen Beispielalgorithmus 700 zur Analyse von KPIs der einsehbaren Box veranschaulicht. Unter Bezugnahme auch auf die 4 und 5A befindet sich der Algorithmus 700 innerhalb des Teilmoduls 518 der einsehbaren Box. Der Algorithmus 700 enthält eine Operation 702 zur Vorlage der KPI-Formulierungen, bei der Charakteristika der betreffenden KPI-Formulierungen 468 dem Nutzer und dem System 400 wie hierin beschrieben klar dargelegt werden. Der Algorithmus enthält außerdem eine Parse-Baumoperation 704, bei der die KPI-Charakteristika 470 in einen abstrakten Syntaxbaum (Abstract Syntax Tree, AST) übersetzt werden, um die KPI-Charakteristika 470 als eine AST-Repräsentation des Quellcodes in der betreffenden Programmiersprache zu erzeugen, sodass, wenn die Einzelheiten der KPI 466 verfügbar sind, die verschiedenen Codeblöcke als Knoten in dem AST analysiert werden können und verständlich sind. Wie in 7 gezeigt, enthält der Algorithmus 700 einen ersten Teilalgorithmus, d.h. eine Funktionsanalyseoperation 706, die konfiguriert wird, um einen bestimmten Knoten in dem AST als eine Funktion zu ermitteln, z.B. und ohne darauf beschränkt zu sein, eine mathematische Funktion, wie sie weiter erörtert wird.
Bei der in 7 gezeigten Ausführungsform wird ein zweiter Teilalgorithmus, d.h. eine Median-Emittlungsoperation 708, für diejenigen KPI-Formulierungscharakteristika 470 ausgeführt, die eine Medianwert-Ermittlung der ursprünglichen Daten 504 definieren, sodass eine Operation 710 zur Zuweisung des KPI-Charakteristikums ausgeführt wird, wobei in diesem Fall das zugewiesene KPI-Charakteristikum 470 für die darauffolgenden Teile des Prozesses 500 „„Median“ lautet. Danach wird die Median-Ermittlungsoperation 708 beendet 712. Bei manchen Ausführungsformen enthält der Algorithmus einen oder mehrere Teile des ersten Teilalgorithmus für andere Arten von KPI-Charakteristika, z.B. und ohne darauf beschränkt zu sein, Maximalwert-Ermittlungen, Minimalwert-Ermittlungen, Mittelwert-Ermittlungen und andere statistische Ermittlungen, z.B. ohne darauf beschränkt zu sein, Moduswert-Ermittlungen und Analysen der Standardabweichung. Bei der in 7 veranschaulichten Ausführungsform wird ein dritter Teilalgorithmus, d.h. eine Mittel-Ermittlungsoperation 714, für diejenigen KPI-Formulierungscharakteristika 470 ausgeführt, die eine Mittelwert-Ermittlung der ursprünglichen Daten 504 definieren, sodass eine Operation 716 zur Zuweisung des KPI-Charakteristikums ausgeführt wird, wobei in diesem Fall das zugewiesene KPI-Charakteristikum 470 für die darauffolgenden Teile des Prozesses 500 „Mittel“ lautet. Danach wird die Mittel-Ermittlungsoperation 714 beendet 718. Etwaige verbleibende mögliche KPI-Formulierungscharakteristika 470 werden, wie oben beschrieben, auf ähnliche Weise ermittelt. Im Anschluss daran wird die Funktionsanalyseoperation 706 beendet 720.
Wie in 7 gezeigt, enthält der Algorithmus 700 bei einer oder mehreren Ausführungsformen einen vierten Teilalgorithmus, d.h. eine Operation 722 zur Analyse von binären Operationen, die konfiguriert wird, um zu ermitteln, ob ein bestimmter Knoten in dem AST eine binäre Operation ist, z.B. und ohne darauf beschränkt zu sein, eine mathematische Funktion, die zwei Elemente oder Operanden verwendet, um ein weiteres Element zu erzeugen. Bei der in 7 gezeigten Ausführungsformen wird ein fünfter Teilalgorithmus, d.h. ein Divisionsteilalgorithmus 724, für diejenigen KPI-Formulierungscharakteristika 470 ausgeführt, die eine Divisionsoperation der ursprünglichen Daten 504 definieren. Die Divisionsoperation enthält einen sechsten Teilalgorithmus, d.h. einen Algorithmus 726 des integrierten Summenoperanden und len-Operanden oder integrierten Mittels, wobei der len-Operand oder die len-Operation die Anzahl von summierten Elementen bereitstellt, sodass eine Operation 728 zur Zuweisung des KPI-Charakteristikums ausgeführt wird, wobei in diesem Fall das zugewiesene KPI-Charakteristikum für die darauffolgenden Teile des Prozesses 500 „Mittel“ lautet. Der Teilalgorithmus 726 des integrierten Mittels wird beendet 730, der
Divisionsteilalgorithmus 724 wird beendet 732, und der Teilalgorithmus 722 der binären Operation wird beendet 734. Ein offener Teilalgorithmus 736 wird gezeigt, falls weitere, über die Funktions- und binären Operationen hinausgehenden Operationen durch den Nutzer benötigt werden. Die Parse-Baumoperation 704 wird beendet 738, wenn alle betreffenden Operationen der einsehbaren Box, die den betreffenden KPIs 466 zugehörig sind, identifiziert sind.
Bei mindestens manchen Ausführungsformen ist bei den KPI-Formulierungen 468 der nicht einsehbaren Box nicht erkennbar, welche Operationen und Algorithmen darin enthalten sind, zum Beispiel und ohne darauf beschränkt zu sein, können die betreffenden Algorithmen und Operationen der nicht einsehbaren Box proprietärer Natur sein, und die betreffenden Nutzer können einen Grad an Geheimhaltung und Vertraulichkeit für die Inhalte darin benötigen. Bei manchen Ausführungsformen können solche Formulierungen der nicht einsehbaren Box die Form einer Anwendungsprogrammierschnittstelle (Application Programming Interface, API) annehmen. Aus diesem Grund enthält ein Mechanismus zum Ermitteln der KPI-Formulierungscharakteristika 470 innerhalb der KPI-Formulierungen 468 der nicht einsehbaren Box ein wiederholtes Sampling der ursprünglichen Daten 504, um die ursprünglichen Daten 504 durch Simulationen der Formulierungen zu testen. Entsprechend enthält das Teilmodul 514 zur Ermittlung des KPI-Charakteristikums ein Teilmodul 520 der nicht einsehbaren Box.
Unter Bezugnahme auf 8 wird eine Textdarstellung bereitgestellt, die einen Beispielalgorithmus 800 zur Analyse von KPIs der nicht einsehbaren Box veranschaulicht. Unter Bezugnahme auch auf die 4 und 5A befindet sich der Algorithmus 800 innerhalb des Teilmoduls 520 der nicht einsehbaren Box. Bei mindestens manchen Ausführungsformen enthält der Algorithmus 800 eine Operation 802 zur Erzeugung eines Datenteilsatzes, bei der die ursprünglichen Daten 504 in K Teilsätze von Daten unterteilt werden, wobei jeder Teilsatz M Datenpunkte hat und M eine vorgegebene Konstante ist. Zum Beispiel und ohne darauf beschränkt zu sein, kann eine Folge von 100 Datenpunkten in fünf Teilsätze zu je 20 Punkten unterteilt werden. Durch die Erzeugung solcher Teilsätze kann ermittelt werden, ob ein bestimmter Fehler wiederholt auftritt oder ob es sich um eine einzige Instanz eines Fehlers handelt, d.h. einen einmaligen Fehler. Der Algorithmus 800 enthält außerdem eine Operation 804 zur Auflistung der KPI-Formulierungscharakteristika, die konfiguriert wird, um alle potenziellen KPI-Formulierungscharakteristika 470 zu identifizieren, die bei den Berechnungen der nicht einsehbaren Box verwendet werden können. Wie hierein bereits beschrieben, enthalten solche KPI-Formulierungscharakteristika 470, ohne darauf beschränkt zu sein, eine oder mehrere Mittelwert-Ermittlungen („Mittel“), Medianwert-Ermittlungen („Median“), Moduswert-Ermittlungen („Modus“), Maximalwert-Ermittlungen („Max“), Minimalwert-Ermittlungen („Min“) und andere statistische Ermittlungen, z.B. und ohne darauf beschränkt zu sein, Analysen der Standardabweichung. Jedes dieser KPI-Formulierungscharakteristika 470 wird durch eine oder mehrere Simulationen auf Grundlage des Modells der nicht einsehbaren Box untersucht, um potenzielle Probleme von fehlerhaften Daten zu identifizieren, wobei die Simulationen auf Grundlage des Modells der nicht einsehbaren Box nicht direkt mit der Simulationsmodellierung in Beziehung stehen, die hierin in Bezug auf die Momentaufnahmenerzeugung weiter erörtert wird.
Bei einer oder mehreren Ausführungsformen wird eine Operation 806 zur Bewertung der ursprünglichen KPIs ausgeführt, wobei jedes Datenelement eines jeden Datenteilsatzes unter Verwendung des betreffenden Modells der nicht einsehbaren Box verarbeitet wird, wobei ein solches Modell noch nicht festgelegt ist. Wie hierin verwendet, werden der Begriff „Datenpunkt“ und der Begriff „Datenelement“ austauschbar verwendet. Daher gibt es bei einer Ausführungsform von 100 Datenpunkten oder Datenelementen der ursprünglichen Daten 504 100 betreffende KPI-Werte, d.h. 20 KPI-Werte für jeden der fünf Teilsätze der ursprünglichen Daten 504. Die 100 Prozessdatenelemente werden somit durch die Formulierungen der nicht einsehbaren Box verarbeitet, unabhängig von ihrer Beschaffenheit, um durch die tatsächlich der nicht einsehbaren Box angehörenden Formulierungen 100 ursprüngliche KPI-Werte zu erzeugen. Außerdem wird bei manchen Ausführungsformen eine Korrelationsoperation 808 ausgeführt, die einen Simulations-/Korrelationsteilalgorithmus 810 enthält. Konkret wird bei einer oder mehreren Ausführungsformen eine Operation 812 zur Bewertung der simulierten KPIs ausgeführt, wobei jedes Datenelement der ursprünglichen Daten 504 unter Verwendung eines betreffenden Modells eines jeden KPI-Formulierungscharakteristikums 470 verarbeitet wird, das in der Operation 804 zur Auflistung der KPI-Formulierungscharakteristika identifiziert wird. Eine Operation 814 zur Korrelation der KPI-Werte mit den simulierten KPI-Werten wird ausgeführt, wobei jeder Wert der ursprünglichen KPI-Werte mit jedem betreffenden simulierten KPI-Wert verglichen wird, der durch jedes Modell der KPI-Formulierungscharakteristika 470 erzeugt wird, die anhand der Operation 804 zur Auflistung der KPI-Formulierungscharakteristika identifiziert werden. Somit gibt es für die Ausführungsform mit 100 Datenelementen 100 Korrelationen für jedes der KPI-Formulierungscharakteristika 470, die anhand der Operation 804 zur Auflistung der KPI-Formulierungscharakteristika identifiziert werden. Bei manchen Ausführungsformen wird eine statistische Evaluierung eines jeden Satzes von korrelierten Datenelementen ausgeführt, um eine Stärke der Korrelation zu ermitteln, z.B. und ohne darauf beschränkt zu sein, eine schwache Korrelation und eine starke Korrelation, wobei Definitionen einer jeden Korrelation durch den Nutzer festgelegt werden können. Eine starke Korrelation gibt an, dass die simulierten KPI-Formulierungen mit den tatsächlich der nicht einsehbaren Box angehörenden KPI-Formulierungen 468 in Einklang stehen. Eine schwache Korrelation gibt an, dass die simulierten KPI-Formulierungen nicht mit den tatsächlich der nicht einsehbaren Box angehörenden KPI-Formulierungen 468 in Einklang stehen. Sobald die Verarbeitung durch die Korrelationen abgeschlossen ist, wird der Simulations-/Korrelationsteilalgorithmus 810 beendet 816. Der Algorithmus 800 zur Analyse von KPIs der einsehbaren Box enthält eine Operation 818 zur Auswahl des KPI-Formulierungscharakteristikums, bei der das am stärksten korrelierte Charakteristikum ausgewählt wird. Sobald die KPI-Formulierungen der nicht einsehbaren Box ermittelt sind, endet 820 der Algorithmus 800.
Die Ausgabe 522 des Datenprüfmoduls 510 enthält die Analyse der ursprünglichen Daten 504, um zu ermitteln, ob es darin etwaige Datenfehler gibt, sowie die betroffenen KPI-Formulierungscharakteristika 470, sofern vorhanden. Wenn es keine Fehler gibt, werden die betreffenden Daten nicht mehr durch den Prozess 500 verarbeitet, wobei die Operationen innerhalb des Teilmoduls 514 zur Ermittlung des KPI-Charakteristikums nicht aufgerufen werden und es die Ausgabe 522 nicht gibt. Wenn es einen Datenfehler in den ursprünglichen Daten 504 gibt, wird die Ausgabe 522 an eine Ermittlungsoperation 524 übertragen, die auf Grundlage der Analysen des Teilmoduls 514 zur Ermittlung des KPI-Charakteristikums ermittelt 524, ob die Datenprobleme für die identifizierte KPI relevant sind. Wenn es keine Beziehung zwischen den betreffenden ursprünglichen Daten 504 und den KPI-Formulierungscharakteristika 470 gibt, wird, wie zuvor dargelegt, gemäß dieser Offenbarung eine Ermittlung „Nein“ erzeugt und keine weitere Maßnahme für die problembehafteten Daten ergriffen. Falls gewünscht, kann der Nutzer wahlweise eine andere Aktion für die Datenfehler durchführen. Bei einer Ermittlung „Ja“, d.h. für diejenigen Datenfehlerprobleme, die den ursprünglichen Daten 504 zugehörig sind, die in Beziehung zu einer KPI stehen (beide durch den Nutzer bereitgestellt), wird durch die betreffenden Eigenschaften eine Ausgabe 526 der Ermittlungsoperation 524 zur weiteren Verarbeitung übertragen, wobei die Ausgabe 526 im Wesentlichen der Ausgabe 522 gleicht. Wenn hingegen ermittelt wird, dass sich die Charakteristika 470 der KPI-Formulierungen 468 für fehlerhafte Daten, unabhängig davon, ob sie der einsehbaren Box oder der nicht einsehbaren Box angehören, nachteilig auf eine dazugehörige KPI auswirken, wird der Fehler weiter analysiert, sodass er angemessen klassifiziert werden kann und die darauffolgenden Optimierungen durchgeführt werden können.
Unter Bezugnahme auf 5B wird eine Fortsetzung des in 5A gezeigten Ablaufplans bereitgestellt, der den Prozess 500 zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten veranschaulicht. Unter Bezugnahme auch auf 4 enthält der Prozess 500 bei einer oder mehreren Ausführungsformen des Weiteren ein Übertragen der Ausgabe 526 an ein Momentaufnahmen-Erzeugermodul 530. Das Momentaufnahmen-Erzeugermodul 530 empfängt die Ausgabe 526 des Datenprüfmoduls 510, das die fehlerhaften Daten mit den bekannten, eingebetteten Problemen und eine Identifizierung der betreffenden KPI-Formulierungscharakteristika 470 enthält. Das Momentaufnahmen-Erzeugermodul 530 wird konfiguriert, um Momentaufnahmen von simulierten Daten durch eine Simulation der betreffenden Datenwerte durch ein oder mehrere Modelle zu erzeugen, die in der Produktion verwendet werden, um die Simulation der ursprünglichen Daten 504 zu ermöglichen.
Unter Bezugnahme auf 9 wird eine schematische Darstellung bereitgestellt, die einen Teil eines Prozesses 900 für eine Momentaufnahmensimulation unter Verwendung eines Momentaufnahmen-Erzeugermoduls 904 veranschaulicht, das im Wesentlichen dem Momentaufnahmen-Erzeugermodul 530 gleicht. Unter Bezugnahme auch auf 5B werden die ursprünglichen Daten 902 weiter evaluiert, die im Wesentlichen den ursprünglichen Daten 504 gleichen, die über die Ausgabe 526 an das Momentaufnahmen-Erzeugermodul 904 übertragen werden. Die ursprünglichen Daten 902 (mit den darin eingebetteten Problemen mit fehlerhaften Daten) werden durch eine Mehrzahl von Modellen 532 verarbeitet (die im Wesentlichen den in 4 gezeigten Modellen 442 gleichen), um eine Mehrzahl von Simulationsmomentaufnahmen 906 zu erzeugen, die simulierte Daten enthalten, wie hierin weiter erörtert wird. Die simulierten Datenmomentaufnahmen 906 werden anschließend für eine KPI-Inferenz 908 und einen Konfidenzmesswert 910 verwendet, die in 9 lediglich aus Kontextgründen gezeigt werden.
Unter erneuter Bezugnahme auf die 4 und 5B werden bei manchen Ausführungsformen Simulationen auf Verfahrensgrundlage und Simulationen auf Punktgrundlage verwendet. Obwohl unabhängig von der Beschaffenheit der Probleme in den fehlerhaften Daten beide Simulationen verwendet werden können, z.B. auch gleichzeitig, erfolgt die Auswahl einer der beiden Simulationen bei manchen Ausführungsformen auf Grundlage der Beschaffenheit der Probleme in den ursprünglichen Daten, und bei manchen Ausführungsformen kann die Auswahl auf Grundlage von vorgegebenen Anweisungen erfolgen, die durch den Nutzer erzeugt werden. Allerdings werden die Simulationen auf Verfahrensgrundlage im Allgemeinen besser zum Verarbeiten von Problemen mit fehlenden Werten konfiguriert, und die Simulationen auf Punktgrundlage werden besser zum Verarbeiten von Problemen mit Ausreißerwerten konfiguriert. Zum Beispiel können bei manchen Ausführungsformen frühere Versuchsdurchläufe durch einen Nutzer darauf hingewiesen haben, dass fehlende Daten auf Grundlage dessen ermittelt werden können, ob Daten für eine länger anhaltende Dauer fehlen oder ob syntaktische Probleme mit Werten vorhanden sind, d.h. vermeintlich numerische Daten enthalten über eine längere Dauer hinweg Daten, die Nichtzahlen sind, oder es wird eine falsche numerische Rundung oder Kürzung ermittelt. Aus diesem Grund können Simulationen auf Verfahrensgrundlage bessere Analysen für die oben genannten Bedingungen bereitstellen. Probleme mit Ausreißerwerten können ermittelt werden, wenn es semantische Probleme mit Werten gibt, d.h. manche der Daten enthalten anomale Ereignisse oder dauerhaft verrauschte Daten oder verrauschte Daten mit Mustern. Aus diesem Grund können Simulationen auf Punktgrundlage bessere Analysen für die oben genannten Bedingungen bereitstellen. Wenn ein Nutzer ermittelt, dass es womöglich unklar ist, ob die Simulationen auf Verfahrensgrundlage oder auf Punktgrundlage bessere Simulationen für die angegebenen Bedingungen bereitstellen, können für diese Bedingungen, bei denen eines der Verfahren unter Umständen bessere Simulationen bereitstellt, wie oben beschrieben beide Simulationsverfahren verwendet werden.
Bei einer oder mehreren Ausführungsformen wird das Momentaufnahmen-Erzeugermodul 530 konfiguriert, um Simulationen auf Verfahrensgrundlage zu verwenden, um eine Analyse auf eines oder mehrere Korrekturverfahren durchzuführen, wobei jedes Korrekturverfahren, zum Beispiel und ohne darauf beschränkt zu sein, Algorithmen zum Ermitteln von Mitteln, Medianen usw. mindestens teilweise als eine Funktion der betreffenden KPI 466 enthalten kann, auf die sich die Datenfehler auswirken. Allerdings sind die Korrekturverfahren nicht notwendigerweise auf die KPI-Formulierungscharakteristika 470 beschränkt. Das Momentaufnahmen-Erzeugermodul 530 enthält ein Teilmodul 534 für Simulationen auf Verfahrensgrundlage, das unabhängig davon verwendet werden kann, ob die KPI-Formulierungscharakteristika 470 der nicht einsehbaren Box oder der einsehbaren Box angehören.
Unter Bezugnahme auf 10 wird eine schematische Darstellung vorgelegt, die einen Prozess 1000 zum Erzeugen von Simulationen auf Verfahrensgrundlage veranschaulicht. Unter Bezugnahme auch auf die 4 und 5B werden die Simulationen auf Verfahrensgrundlage durch das Teilmodul 534 der Simulationen auf Verfahrensgrundlage erzeugt. Ein Teil der Ausgabe 526 des Datenprüfmoduls 510, das die fehlerhaften Daten mit den eingebetteten Problemen und die Identifizierung der betreffenden KPI-Formulierungscharakteristika 470 enthält, wird als ein Fragment 1002 mit zehn Instanzen von nicht fehlerhaften Daten 1004 und drei Instanzen von fehlerhaften Daten 1006 gezeigt. Das Datenfragment 1002 wird an eine Mehrzahl von Korrekturverfahren 1010 wie z.B. Korrekturverfahren M1, M2, M3 und M4 übertragen, wobei jedes der Korrekturverfahren M1 bis M4 einem unterschiedlichen betreffenden Modell 532 zugehörig ist und die Zahl Vier nicht als Beschränkung zu verstehen ist. Jedes der Korrekturverfahren M1 bis M4 enthält eine Erzeugung eines oder mehrerer imputierter Werte, die in der betreffenden Simulationsmomentaufnahme als potenzielle Lösungen oder als Ersatz für die fehlerhaften Werte enthalten wären, wenn dieses bestimmte Korrekturverfahren verwendet würde. Da es keine vorgefassten Meinungen dazu gibt, welches der Korrekturverfahren M1 bis M4 die besten oder korrektesten potenziellen Ersatzwerte für die bestimmten vorliegenden fehlerhaften Daten 1006 bereitstellt, wird die Mehrzahl der Modelle 532 verwendet, wobei jedes Modell 532 verwendet wird, um das jeweilige Korrekturverfahren M1 bis M4 auszuführen. Bei manchen Ausführungsformen wird das Teilmodul 534 für Simulationen auf Verfahrensgrundlage mit dem Teilmodul 516 der KPI-Formulierungen kommunikativ gekoppelt, um einen leichten Zugang zu den darin befindlichen KPI-Formulierungen 468 zu ermöglichen.
Bei mindestens manchen Ausführungsformen wird eine Mehrzahl von simulierten Datenmomentaufnahmen 1020 erzeugt. Zum Beispiel verwendet bei der veranschaulichten Ausführungsform das Korrekturverfahren M1 das betreffende Modell 532, um imputierte Werte 1024 in einer simulierten Datenmomentaufnahme 1022 zu erzeugen. Bei manchen Ausführungsformen ist der Anteil der nicht fehlerhaften Daten 1004, der zur Berechnung der imputierten Werte 1024 für die fehlerhaften
Daten 1006 verwendet wird, von der jeweiligen Korrekturmethode abhängig, die dem betreffenden Korrekturverfahren M1 zugehörig ist. Wenn zum Beispiel ermittelt wird, dass ein fehlender Wert durch das Mittel aller Werte ersetzt wird, wird in dem betreffenden Korrekturverfahren M1 ein im Wesentlichen vollständiger Satz der betreffenden nicht fehlerhaften Daten 1004 verwendet. Wenn alternativ nur die umgebenden drei Werte der nicht fehlerhaften Daten 1004 verwendet werden, um den fehlenden Wert, d.h. die fehlerhaften Daten 1006, zu berechnen, werden nur diese umgebenden Werte der nicht fehlerhaften Daten 1004 durch das betreffende Korrekturverfahren M1 verwendet. Entsprechend werden simulierte Datenmomentaufnahmen 1032, 1042 und 1052 durch die betreffenden Korrekturverfahren M2 bis M4 erzeugt, z.B. betreffende imputierte Werte 1034, 1044 und 1054. Da sich die Korrekturverfahren M1 bis M4 unterscheiden, ist zu erwarten, dass auch die betreffenden imputierten Werte 1024, 1034, 1044 und 1054 unterschiedlich sind. Unter Bezugnahme auf die 4 und 5B werden die simulierten Datenmomentaufnahmen 1022, 1032, 1042 und 1052 als eine Ausgabe 536 aus dem Teilmodul 534 für Simulationen auf Verfahrensgrundlage gezeigt, wobei die Ausgabe 536 an ein Modul 538 zur Speicherung von Datensimulationsmomentaufnahmen übertragen wird, das sich bei manchen Ausführungsformen innerhalb des Datenspeichersystems 408 befindet.
Bei mindestens einer Ausführungsform wie z.B. der beispielhaften Ausführungsform sind die drei Instanzen der fehlerhaften Daten 1006 im Wesentlichen identisch. Bei mindestens einer Ausführungsform ist jede der Instanzen der fehlerhaften Daten 1006 unterschiedlich. Da für alle fehlerhaften Daten 1006 mehrere der Modelle 532 und Korrekturverfahren M1 bis M4 verwendet werden, wird ein Erzeugen mehrerer der betreffenden imputierten Werten 1024, 1034, 1044 und 1054 für jeden unterschiedlichen Fehler ermöglicht. Entsprechend werden Simulationen auf Verfahrensgrundlage in Gestalt der Korrekturverfahren M1 bis M4 verwendet, um eine oder mehrere der Simulationsmomentaufnahmen 1022, 1032, 1042 und 1052 der nicht fehlerhaften ursprünglichen Daten 1004 und imputierten Werte 1024, 1034, 1044 und 1054 für jeden fehlerhaften ursprünglichen Datenwert 1006 zu erzeugen, wobei jeder der imputierten Werte 1024, 1034, 1044 und 1054 angibt, wie der Datenwert aussehen würde, wenn das betreffende Korrekturverfahren M1 bis M4 verwendet würde, wobei jeder der imputierten Werte 1024, 1034, 1044 und 1054 ein Produkt eines anderen Korrekturverfahrens M1 bis M4 ist.
Bei mindestens manchen Ausführungsformen enthält die Sammlung der ursprünglichen Zeitreihen-Datenströme 420 durch die Sensorsuite 416 eine Verwendung von Merkmalen auf Heuristikgrundlage, die Ermittlungen von Mustern in den Datenelementen ermöglichen, während diese gesammelt werden. Unter bestimmten Umständen können eine oder mehrere Instanzen der ursprünglichen Daten 422 scheinbar inkorrekt sein, da die betreffenden Datenelemente einen Schwellenwert überschreiten, der auf einer Wahrscheinlichkeit dessen beruht, wie der Datenelementwert als eine Funktion der bestimmten Datenmuster lauten sollte. Zum Beispiel, und ohne darauf beschränkt zu sein, kann eine scheinbare Datenabweichung, d.h. ein Datenausschlag nach oben oder nach unten, entweder durch ein fehlerhaftes Datenpaket oder als eine Funktion einer exakten Wiedergabe dessen erzeugt werden, was gerade in Echtzeit geschieht. Aus diesem Grund wird das Momentaufnahmen-Erzeugermodul 530 des Weiteren konfiguriert, um Simulationen auf Punktgrundlage zu verwenden, um die Fehler zu analysieren und zu ermitteln, ob scheinbar fehlerhafte Daten tatsächlich fehlerhafte Daten sind, d.h. das Momentaufnahmen-Erzeugermodul 530 enthält ein Teilmodul 540 für Simulationen auf Punktgrundlage.
Unter Bezugnahme auf 11 wird eine schematische Darstellung bereitgestellt, die einen Prozess 1100 für Simulationen auf Punktgrundlage veranschaulicht. Unter Bezugnahme auch auf die 4 und 5B werden die Simulationen auf Punktgrundlage durch das Teilmodul 540 der Simulationen auf Punktgrundlage erzeugt. Ein Teil der Ausgabe 526 des Datenprüfmoduls 510, das die fehlerhaften Daten mit den eingebetteten Problemen und der Identifizierung der betreffenden KPI-Formulierungscharakteristika 470 enthält, wird als ein Datenfragment 1102 mit zehn Instanzen von nicht fehlerhaften Datenpunkten 1104 und drei Instanzen von vermutlich potenziell fehlerhaften Datenpunkten 1106 gezeigt. Die drei Instanzen der vermutlich potenziell fehlerhaften Datenpunkte 1106 werden einzeln als 1106A, 1106B und 1106C und zusammenfassend als 1106 bezeichnet. Bei einer oder mehreren Ausführungsformen wird das Datenfragment 1102 wie z.B. die bekannten, korrekten ursprünglichen Daten, d.h. die nicht fehlerhaften Datenpunkte 1104 und die vermutlich potenziell fehlerhaften Datenpunkte 1106, in einer Matrix 1110 von Konfigurationen kombiniert, um Ermittlungen von Wahrscheinlichkeiten dazu zu initiieren, ob die Werte der vermutlich potenziell fehlerhaften Datenpunkte 1106 korrekt oder fehlerhaft sind. Wie gezeigt, beruht die Matrix 1110 auf den drei vermutlich potenziell fehlerhaften Datenpunkten 1106, d.h. mit 2³ oder acht möglichen Kombinationen der drei vermutlich potenziell fehlerhaften Datenpunkte 1106. Die Matrix 1110 wird mit drei Spalten 1112, 1114 und 1116 konfiguriert, d.h. einer Spalte für jeden der vermutlich potenziell fehlerhaften Datenpunkte 1106A, 1106B bzw. 1106C. Die resultierenden acht Zeilen, die einzeln als D1 bis D8 und zusammenfassend als 1120 bezeichnet werden, enthalten die verfügbaren Kombinationen der drei vermutlich potenziell fehlerhaften Datenpunkte 1106.
Jeder der drei vermutlich potenziell fehlerhaften Datenpunkte 1106 wird einzeln entweder als diskret „korrekt“ oder als diskret „fehlerhaft“ inferiert, und die potenziell fehlerhaften Datenwerte werden dann als „inferierte Datenpunkte“ bezeichnet, um sie von den bekannten, korrekten ursprünglichen Daten, d.h. den nicht fehlerhaften Datenpunkten 1104 zu unterscheiden. Wie in 11 gezeigt, werden die inferierten, fehlerhaften Datenpunkte zusammenfassend als 1130 bezeichnet. Diejenigen inferierten, fehlerhaften Datenpunkte 1130, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106A zugehörig sind, werden in der Spalte 1112 einzeln gezeigt und als 1122, 1132, 1162 und 1182 bezeichnet. Diejenigen inferierten, fehlerhaften Datenpunkte 1130, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106B zugehörig sind, werden außerdem in der Spalte 1114 einzeln gezeigt und als 1124, 1144, 1164 und 1174 bezeichnet. Des Weiteren werden diejenigen inferierten, fehlerhaften Datenpunkte 1130, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106C zugehörig sind, in der Spalte 1116 einzeln gezeigt und als 1126, 1146, 1176 und 1186 bezeichnet.
Wie in 11 gezeigt, werden auf eine ähnliche Weise die inferierten, korrekten Datenpunkte zusammenfassend als 1140 bezeichnet, und diejenigen inferierten, korrekten Datenpunkte, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106A zugehörig sind, werden in der Spalte 1112 einzeln gezeigt und als 1142, 1152, 1172 und 1192 bezeichnet. Außerdem werden diejenigen inferierten, korrekten Datenpunkte 1140, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106B zugehörig sind, außerdem in der Spalte 1114 einzeln gezeigt und als 1134, 1154, 1184 und 1194 bezeichnet. Des Weiteren werden diejenigen inferierten, korrekten Datenpunkte 1140, die dem vermutlich potenziell fehlerhaften Datenpunkt 1106C zugehörig sind, in der Spalte 1116 einzeln gezeigt und als 1136, 1146, 1166 und 1196 bezeichnet. Eine Simulationsmomentaufnahme 542 der Matrix 1120 wird ausgeführt.
Somit repräsentiert die erste Zeile D1 alle drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, fehlerhaften Datenpunkte 1130. Entsprechend repräsentiert die achte Zeile D8 alle drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, korrekten Datenpunkte 1140. Die zweite, dritte und vierte Zeile D2, D3 bzw. D4 repräsentieren nur einen der drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, korrekten Datenpunkte 1130 und zwei der drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, korrekten Datenpunkte 1140. Die fünfte, sechste und siebte Zeile D5, D6 bzw. D7 repräsentieren zwei der drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, korrekten Datenpunkte 1130 und nur einen der drei vermutlich potenziell fehlerhaften Datenpunkte 1106 als die inferierten, korrekten Datenpunkte 1140.
Somit haben die inferierten, fehlerhaften Datenpunkte 1130 und die inferierten, korrekten Datenpunkte 1140 einen ursprünglichen Datenwert entsprechend seiner Übertragung und eine inferierte Kennzeichnung, die entweder korrekt oder fehlerhaft lautet. Die verbleibende Analyse konzentriert sich ausschließlich auf die inferierten, fehlerhaften Datenpunkte 1130 und die inferierten, korrekten Datenpunkte 1140. Konkret wird die gesamte Bandbreite aller möglichen Kombinationen der als D1 bis D8 gezeigten inferierten Datenpunkte 1130 und 1140 in der oben erwähnten Simulationsmomentaufnahme 542 zur weiteren Evaluierung gesammelt. Die Erzeugung aller möglichen Kombinationen von diskreten, „korrekten“ Kennzeichnungen, d.h. den inferierten, korrekten Datenpunkten 1140, und diskreten, „fehlerhaften“ Kennzeichnungen, d.h. den inferierten, fehlerhaften Datenpunkten 1130, und deren darauffolgende Aggregierung ermöglicht weitere Ermittlungen von „besten“ Aktionen und ob mit diesen Aktionen fehlerhafte Daten korrigiert oder korrekte Daten akzeptiert werden sollen. Diese Operationen betrachten die akzeptierten Ungenauigkeiten, die den ursprünglichen Daten in dem Datenfragment 1102 zugehörig sind, die möglicherweise fehlerhaft sind, indem sie die Wahrscheinlichkeiten ermitteln, dass einer oder mehrere der vermutlich potenziell fehlerhaften Datenwerte „korrekt“ oder „fehlerhaft“ sind. Für jede der Kombinationen D1 bis D8 wird angenommen, dass manche der vermutlich potenziell fehlerhaften Werte 1106 fälschlicherweise als fehlerhaft identifiziert werden und manche korrekterweise als fehlerhaft identifiziert werden. Somit werden für jede Kombination D1 bis D8 die fehlerhaften Werte auf Grundlage eines vorgegebenen Korrekturverfahrens durch einen imputierten Wert ersetzt, ähnlich und ohne darauf beschränkt zu sein, wie dies mit Blick auf die 10 dargelegt wird. Daher hat jede Kombination D1 bis D8 einen anderen Satz von korrekten und inkorrekten Datenpunkten und benötigt auf Grundlage der vorgegebenen Korrekturmethode andere imputierte Werte.
Wie oben beschrieben, werden die Simulationen auf Punktgrundlage besser zum Verarbeiten von Problemen mit Ausreißerwerten konfiguriert, und Ausreißerprobleme werden verwendet, um die beispielhafte Ausführungsform aus 11 weiter zu beschreiben. Wie oben beschrieben, können in den ursprünglichen Daten 504 wie z.B. dem Datenfragment 1102 Muster sowie eine Wahrscheinlichkeit dessen festgestellt werden, wie die betreffenden Datenelementwerte als eine Funktion der bestimmten Datenmuster lauten sollten. Den diskreten „fehlerhaften“, inferierten Datenpunkten 1130 wird daher eine Wahrscheinlichkeit, fälschlicherweise als fehlerhaft eingestuft zu werden, mit einer prozentualen Gewissheit zugewiesen. Die Wahrscheinlichkeiten eines jeden der drei vermutlich potenziell fehlerhaften Werte 1106 werden verwendet, um zu ermitteln, ob die Werte 1106 fehlerhaft sind oder nicht. Während die variierenden acht Kombinationen D1 bis D8 evaluiert werden, wird die Wahrscheinlichkeit ermittelt, dass jede der Kombinationen D1 bis D8 wahr ist, und diejenigen Zeilen D1 bis D8, die mit der höchsten Wahrscheinlichkeit wahr sind, werden zur weiteren Analyse übergeben. Die Gesamtwahrscheinlichkeit von D1 bis D8 beträgt 100 %. Zum Beispiel, und ohne darauf beschränkt zu sein, kann aufgrund der heuristischen Analyse eines jeden der Punkte 1122, 1124 und 1126 in D1, und der zugehörigen summierten Wahrscheinlichkeiten hiervon ermittelt werden, dass es vergleichsweise unwahrscheinlich ist, dass alle drei Punkte in D1 fehlerhaft sind, ebenso wie dies für die Zeile D8 gilt (da alle drei Werte korrekt sind). Diese beiden Zeilen D1 und D8 werden nicht weiter betrachtet. Dabei ist zu beachten, dass für diejenigen Ausführungsformen, bei denen die Zeile D8, die keine fehlerhaften Werte enthält, mit der höchsten Wahrscheinlichkeit korrekt ist, keine weitere Analyse ausgeführt werden muss, und die Werte 1106 durch die nachfolgenden Operationen nicht korrigiert werden, wie weiter beschrieben wird. Entsprechend werden die Kombinationen von Werten weiterverarbeitet, die mit der höchsten Wahrscheinlichkeit wahr sind.
Im Allgemeinen wächst die Gesamtzahl einer jeden möglichen Kombination der diskreten „korrekten“ und „fehlerhaften“, inferierten Datenpunkte 1130 und 1140 exponentiell mit der Anzahl der inferierten Datenpunkte (d.h. 2^x, wobei x = die Anzahl der inferierten Datenwerte), und ein Erzeugen aller möglichen Kombinationen und deren Verarbeitung kann zeit- und ressourcenaufwendig sein. Jede Kombination von inferierten Datenpunkten ist eine potenzielle Simulation, und ein Verarbeiten einer jeden der Kombinationen als eine potenzielle Simulation erhöht lediglich den Verarbeitungsaufwand. Aus diesem Grund werden die beschriebenen möglichen Kombinationen D1 bis D8 der inferierten Datenpunkte 1130 und 1140 zwar weiter herangezogen; die möglichen Kombinationen der inferierten Datenpunkte 1130 und 1140 werden jedoch „bereinigt“, sodass nur ein Teilsatz aller möglichen Kombinationen weiter herangezogen wird. Wie oben beschrieben, findet das ursprüngliche Bereinigen statt, indem wenig wahrscheinliche Kombinationen von potenziell fehlerhaften Werten von der weiteren Verarbeitung ausgeschlossen werden.
Somit wird das Teilmodul 540 der Simulationen auf Punktgrundlage mit einem Teilmodul 544 zur Momentaufnahmenoptimierung kommunikativ gekoppelt. Bei solchen Ausführungsformen werden die Momentaufnahmen-Optimierungsmerkmale unter Verwendung der KPI-Formulierungscharakteristika 470 verwendet, die wie zuvor beschrieben ermittelt werden, unabhängig davon, ob die KPI-Formulierungscharakteristika 470 der nicht einsehbaren Box oder der einsehbaren Box angehören. Zum Beispiel und ohne darauf beschränkt zu sein, können die KPI-Formulierungscharakteristika 470 für Maximum-, Minimum-, Mittel- und Mediananalysen verwendet werden, um die Simulationen der inferierten Datenpunkte 1130 und 1140 zu filtern. Somit wird das Momentaufnahmen-Optimierungsmodul 544 mit dem Teilmodul 516 der KPI-Formulierungen kommunikativ gekoppelt. Im Allgemeinen bleiben nur diejenigen Kombinationen von inferierten Datenpunkten erhalten, die den Bereinigungsprozess erfolgreich durchlaufen, um die betreffenden Simulationen der vermutlichen Punktwerte durch die Modelle zu erzeugen und die betreffenden Simulationsmomentaufnahmen mit den nicht fehlerhaften ursprünglichen Daten und imputierten Werten für die identifizierten, fehlerhaften Daten zu erzeugen, wobei ein Teil der als fehlerhaft vermuteten Punktwerte in Wirklichkeit womöglich nicht fehlerhaft ist und nicht ersetzt werden muss.
Unter Bezugnahme auf 12 wird eine Textdarstellung bereitgestellt, die einen Beispielalgorithmus 1200 für einen Momentaufnahmen-Optimierer veranschaulicht, der für eine Ausführung innerhalb des Teilmoduls 544 zur Momentaufnahmenoptimierung konfiguriert wird (wie in 5B gezeigt). Unter Bezugnahme auf die 4, 5A, 5B und 11 enthält der Algorithmus 1200 eine Operation, um das KPI-Formulierungscharakteristikum 470 zu ermitteln 1202, wie dies zuvor durch das Teilmodul 514 zur Ermittlung des KPI-Charakteristikums ermittelt und unter Bezugnahme auf die 6 bis 8 beschrieben wird. Die in der beispielhaften Ausführungsform als die Matrix 1120 repräsentierten Daten, d.h. die Daten, die in den verbleibenden Zeilen eingebettet sind und die nicht aufgrund geringer Wahrscheinlichkeiten wie oben beschrieben eliminiert wurden, werden weiter analysiert, um den Bereinigungseffekt wie hierin beschrieben durch eine Datenvorlageoperation 1204 zu erzeugen. Wie oben beschrieben, enthält die beispielhafte Einbettung ein Analysieren von Ausreißern. Bei einer oder mehreren Ausführungsformen wird ein erster Teilalgorithmus, d.h. ein „Maximum“-Teilalgorithmus 1206, für eine Ausführung in Betracht gezogen. Falls das zuvor ermittelte KPI-Formulierungscharakteristikum 470 ein Maximum-Charakteristikum ist, wird eine modifizierte Datenoperation 1208 durch eines oder mehrere der Modelle 532 ausgeführt. Die modifizierte Datenoperation 1208 enthält ein Ermitteln, ob die vermutlich potenziell fehlerhaften Daten 1106 Ausreißer innerhalb steigender Spitzenwerte des Datenfragments 1102 der ursprünglichen Daten 504 sind. Wenn das Datenfragment 1102 keinen steigenden Trend aufweist, sodass die Möglichkeit eines steigenden Spitzenwerts ausgeschlossen wird, fährt der Algorithmus 1200 mit dem nächsten Satz von Operationen fort. Wenn das Datenfragment 1102 einen steigenden Trend aufweist, werden die in der modifizierten Datenoperation 1208 ermittelten betreffenden Ausreißer durch Werte ersetzt, die einen Glättungseffekt für den steigenden Trend bereitstellen, wobei die zuvor beschriebenen Wahrscheinlichkeitswerte einen gewissen Grad an Gewissheit bereitstellen, dass die als fehlerhaft vermuteten Daten tatsächlich fehlerhaft waren. Diese Datenpunkte werden für eine Simulation durch eines oder mehrere der Modelle 532 gesammelt. Sobald die Datenersatz-Identifizierungen oder „Fehlerbehebungen“ ausgeführt wurden, wird der Maximum-Teilalgorithmus 1206 beendet 1210.
Ein zweiter Teilalgorithmus, d.h. ein „Minimum“-Teilalgorithmus 1212, wird für eine Ausführung in Betracht gezogen. Falls das zuvor ermittelte KPI-Formulierungscharakteristikum 470 ein Minimum-Charakteristikum ist, wird eine modifizierte Datenoperation 1214 durch eines oder mehrere der Modelle 532 ausgeführt. Die modifizierte Datenoperation 1214 enthält ein Ermitteln, ob die vermutlich potenziell fehlerhaften Daten 1106 Ausreißer innerhalb fallender Spitzenwerte des Datenfragments 1102 der ursprünglichen Daten 504 sind. Wenn das Datenfragment 1102 keinen fallenden Trend aufweist, sodass die Möglichkeit eines fallenden Spitzenwerts ausgeschlossen wird, fährt der Algorithmus 1200 mit dem nächsten Satz von Operationen fort. Wenn das Datenfragment 1102 einen fallenden Trend aufweist, werden die in der modifizierten Datenoperation 1214 ermittelten betreffenden Ausreißer durch Werte ersetzt, die einen Glättungseffekt für den fallenden Trend bereitstellen, wobei die zuvor beschriebenen Wahrscheinlichkeitswerte einen gewissen Grad an Gewissheit bereitstellen, dass die als fehlerhaft vermuteten Daten tatsächlich fehlerhaft waren. Diese Datenpunkte werden für eine Simulation durch eines oder mehrere der Modelle 532 gesammelt. Sobald die Datenreparaturen oder „Fehlerbehebungen“ ausgeführt sind, wird der Minimum-Teilalgorithmus 1212 beendet 1216.
Ein dritter Teilalgorithmus, d.h. ein „Mittel“-Teilalgorithmus 1218, wird für eine Ausführung in Betracht gezogen. Falls das zuvor ermittelte KPI-Formulierungscharakteristikum 470 ein Mittel-Charakteristikum ist, wird eine modifizierte Datenoperation 1220 durch eines oder mehrere der Modelle 532 ausgeführt. Die modifizierte Datenoperation 1220 enthält ein Ermitteln, ob die vermutlich potenziell fehlerhaften Daten 1106 Ausreißer sind, indem alle Probleme, d.h. alle betroffenen vermutlich potenziell fehlerhaften Daten 1106 und die oben erörterten jeweiligen Wahrscheinlichkeiten herangezogen werden und auf Grundlage der Nähe der dazugehörigen jeweiligen Werte in einen oder mehrere Cluster von potenziell fehlerhaften Datenwerten gruppiert werden. Bei manchen Ausführungsformen kann es mehrere Cluster der potenziell fehlerhaften Datenwerte geben, was darauf hinweist, dass das Mittel-Charakteristikum als die Grundlage für das Clustern verwendet wird. Eine Cluster-Heranziehungsoperation 1222 wird ausgeführt, wobei eine Sammlung von repräsentativen Punkten, z.B. und ohne darauf beschränkt zu sein, ein Mittelwert aus jedem Cluster als repräsentative Punkte für eine Simulation herangezogen werden. Sobald die Datenauswahlvorgänge für eine Simulation durch eines oder mehrere der Modelle 532 ausgeführt sind, wird der Mittel-Teilalgorithmus 1218 beendet 1224.
Ein vierter Teilalgorithmus, d.h. ein „Median“-Teilalgorithmus 1226, wird für eine Ausführung in Betracht gezogen. Falls das zuvor ermittelte KPI-Formulierungscharakteristikum 470 ein Median-Charakteristikum ist, wird eine modifizierte Datenoperation 1228 durch eines oder mehrere der Modelle 532 ausgeführt. Die modifizierte Datenoperation 1228 enthält ein Ermitteln, ob die vermutlich potenziell fehlerhaften Daten 1106 Ausreißer sind, indem alle Probleme herangezogen werden, d.h. alle betroffenen, vermutlich potenziell fehlerhaften Daten 1106 und die oben erörterten jeweiligen Wahrscheinlichkeiten. Wenn die vermutlich potenziell fehlerhaften Daten 1106 tatsächlich Ausreißer sind und da KPIs auf Median-Grundlage durch die Wert-Störungen nicht betroffen sind, wird für die Daten keine weitere Maßnahme ergriffen, und der Median-Teilalgorithmus 1226 endet 1230. Bei manchen Ausführungsformen können die Teilalgorithmen 1206, 1212, 1218 und 1226 gleichzeitig und parallel ausgeführt werden. Die als eine optimierte, simulierte Datenmomentaufnahme 546 gezeigte Ausgabe des Momentaufnahmen-Optimierungsmoduls 544 wird an das Modul 538 zur Speicherung von Datensimulationsmomentaufnahmen übertragen, das sich bei manchen Ausführungsformen innerhalb des Datenspeichersystems 408 befindet. Entsprechend wird eine Mehrzahl der Simulationsmomentaufnahmen 536 und 546 zur weiteren Verarbeitung erzeugt, wobei die Simulationsmomentaufnahmen 536 und 546 so erzeugt werden, dass die andernfalls große Anzahl von imputierten Werten beträchtlich reduziert wird.
Unter weiterer Bezugnahme auf die 4, 5B, 10 und 11 werden bei mindestens manchen Ausführungsformen die Simulationsmomentaufnahmen 536 und 546, die - ob auf Verfahrensgrundlage oder Punktgrundlage - durch die Momentaufnahmen-Erzeugermodule erzeugt werden, an ein KPI-Wert-Inferenzmodul 550 übertragen. Wie oben dargelegt, enthält jede Simulationsmomentaufnahme der Simulationsmomentaufnahmen 536 und 546 die nicht fehlerhaften ursprünglichen Daten (z.B. 1004 und 1104) sowie imputierte Werte für die als fehlerhaft bestimmten Daten (z.B. 1006 und 1106). Jeder der imputierten Werte und der zugehörigen ursprünglichen Daten wird der betreffenden KPI-Formulierung 468 vorgelegt, um einen vorhergesagten Ersatzwert zu erzeugen, d.h. einen inferierten Momentaufnahmenwert für jeden der imputierten Werte in den betreffenden Simulationsmomentaufnahmen 536 und 546. Somit werden auch die ursprünglichen Daten 504 an das KPI-Wert-Inferenzmodul 550 übertragen.
Unter Bezugnahme auf 13 wird eine Grafikdarstellung vorgelegt, die mindestens einen Teil eines KPI-Wert-Inferenzprozesses 1300 veranschaulicht. Unter Bezugnahme auch auf die 4 und 5B beruhen die inferierten Momentaufnahmenwerte für die Simulationsmomentaufnahmen 536 und 546 auf der betreffenden KPI-Formulierung 468 und stehen in Zusammenhang mit den nicht fehlerhaften ursprünglichen Daten in dem Zeitreihen-Datenstrom. Aus diesem Grund wird für jede der Simulationsmomentaufnahmen 536 und 546, die an das KPI-Wert-Inferenzmodul 550 übertragen werden, ein vorhergesagter Ersatzwert erzeugt, d.h. ein inferierter Momentaufnahmenwert. 13 zeigt eine Abszisse (Y-Achse) 1302 und eine Ordinate (X-Achse) 1304. Die Y-Achse 1302 wird als von 41.8 bis 42.6 reichend gezeigt, wobei die Werte keine Einheiten haben. Die X-Achse 1304 wird ohne Werte und ohne Einheiten gezeigt. Die Beschaffenheit der Werte ist nicht von Bedeutung; allerdings zeigt der Prozess 1300 einen Teil der ermittelten Werte als eine Funktion der KPI-Formulierungscharakteristika 470, die mit den Simulationsmomentaufnahmen 536 und 546 vorgelegt werden. Der ursprüngliche KPI-Wert 1306, d.h. der Wert, der durch ein Verarbeiten der vermutlich fehlerhaften Daten durch die betreffenden KPI-Formulierungen 468 erzeugt wird, wird als eine Referenz vorgelegt, wobei der betreffende Wert 42.177 lautet. Die simulierte KPI-Max-Momentaufnahme 1308 legt einen inferierten Momentaufnahmenwert 42.548 vor, die simulierte KPI-Mittel-Momentaufnahme 1310 legt einen inferierten Momentaufnahmenwert 42.091 vor, und die simulierte KPI-Min-Momentaufnahme 1312 legt einen inferierten Momentaufnahmenwert 41.805 vor. Diese inferierten Momentaufnahmenwerte werden in den Erörterungen der nachfolgenden Teile des Prozesses 500 verwendet.
Unter Bezugnahme auf 5C wird eine Fortsetzung des in den 5A und 5B gezeigten Ablaufplans bereitgestellt, der den Prozess 500 zum Berechnen eines Konfidenzwerts für korrigierte Daten innerhalb von Zeitreihendaten veranschaulicht. Unter Bezugnahme auch auf 5B enthalten die Ausgaben des KPI-Wert-Inferenzmoduls 550 inferierte Momentaufnahmenwerte 552 auf Punktgrundlage, inferierte Momentaufnahmenwerte 554 auf Verfahrensgrundlage, und die ursprünglichen Daten 504, die an ein Konfidenzmaße-Modul 570 übertragen werden, das mit dem KPI-Wert-Inferenzmodul 550 kommunikativ gekoppelt wird. Im Allgemeinen werden für jeden betreffenden inferierten Momentaufnahmenwert für die fehlerhaften Daten, der aus den Simulationsmomentaufnahmen in dem KPI-Wert-Inferenzmodul 550 erzeugt wird, innerhalb des Konfidenzmaße-Moduls 570 die inferierten Momentaufnahmenwerte einzeln mit einer Wertung versehen. Die betreffende Wertungsvergabe enthält ein Erzeugen von mit einer Wertung versehenen, inferierten Momentaufnahmenwerten 562 auf Punktgrundlage, d.h. der inferierten Momentaufnahmenwerte 552 auf Punktgrundlage mit betreffenden Konfidenzwerten. Zusätzlich erzeugt die betreffende Wertungsvergabe mit einer Wertung versehene, inferierte Momentaufnahmenwerte 564 auf Verfahrensgrundlage, d.h. die inferierten Momentaufnahmenwerte 554 auf Verfahrensgrundlage mit betreffenden Konfidenzwerten. Die Erzeugung der Konfidenzwerte wird weiter unten dargelegt. Die beste Analysewertung wird ausgewählt, und der betreffende inferierte Momentaufnahmenwert wird auf den ausgewählten KPI-Wert erhöht, um die fehlerhaften Daten zu ersetzen, wobei der ausgewählte KPI-Wert als der inferierte KPI-Wert 566 bezeichnet wird. Entsprechend ist der inferierte KPI-Wert 566 der Wert, der aus einem oder mehreren vorhergesagten Ersatzwerten (d.h. den mit einer Wertung versehenen, inferierten Momentaufnahmenwerten 562 und 564) ausgewählt wird, um die potenziell fehlerhaften Dateninstanzen zu berichtigen.
Bei manchen Ausführungsformen enthält das Konfidenzmaße-Modul 570 eine Mehrzahl von zusätzlichen Teilmodulen, um ein Erzeugen der Konfidenzwerte und der Einzelheiten und Nachweise zur Unterstützung solcher Werte zu erzeugen. Bei manchen dieser Ausführungsformen werden drei Konfidenzmaße-Teilmodule verwendet, d.h. ein Teilmodul 572 für Konfidenzmaße auf Quantitätsgrundlage, ein Teilmodul 574 für Konfidenzmaße auf Verteilungsgrundlage und ein Teilmodul 576 für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage.
Das Teilmodul 572 für Konfidenzmaße auf Quantitätsgrundlage wird konfiguriert, um die Größenordnung der Werte heranzuziehen, die von dem KPI-Wert-Inferenzmodul 550 erhalten werden, und die zugehörigen Konfidenzmaße-Informationen zu erzeugen, z.B. die betreffenden Konfidenzwertungen. Zum Beispiel, und ohne hierauf beschränkt zu sein, kann sich die Konfidenz des resultierenden KPI-Werts je nach zusätzlichen Daten und Gegebenheiten leicht unterscheiden, ob die Größenordnung des KPI-Werts nun 50 oder 1050 beträgt. Das Teilmodul 574 für Konfidenzmaße auf Verteilungsgrundlage zieht die Spanne heran, in der sich die simulierten Werte bewegen, und erzeugt die zugehörigen Konfidenzmaße-Informationen, z.B. die betreffenden Konfidenzwertungen. Anstatt der absoluten Größenordnung der KPI-Werte verwenden die Konfidenzmaße auf Verteilungsgrundlage die statistischen Eigenschaften wie Mittel, Min, Max und Standardabweichung der KPI-Werte und sind somit im Wesentlichen unbeeinflusst durch die Größenordnung. Das Teilmodul 576 für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage zieht die Größenordnung sowie die Spanne der Werte heran, um die zugehörigen Konfidenzmaße-Informationen zu erzeugen, z.B. die betreffenden Konfidenzwertungen. Bei manchen Ausführungsformen werden alle drei Teilmodule 572, 574 und 576 parallel verwendet, und die Ergebnisse eines jeden werden für eine Auswahl herangezogen und bewertet. Auf Grundlage der Beschaffenheit des eingehenden inferierten KPI-Werts 566 und sonstiger Daten 568 (weiter unten erörtert) werden bei manchen Ausführungsformen nur ein oder zwei der Teilmodule 572, 574 und 576 ausgewählt.
Unter Bezugnahme auf 14 wird eine Grafik-/Textdarstellung bereitgestellt, die eine Erzeugung 1400 der numerischen Konfidenzmaße veranschaulicht. Unter Bezugnahme auch auf die 5B und 5C werden die Konfidenzwerte der inferierten Momentaufnahmenwerte 552 auf Punktgrundlage und der inferierten Momentaufnahmenwerte 554 auf Verfahrensgrundlage erzeugt. Dargestellt wird eine lineare Grafikdarstellung 1410 mit den vier in 13 gezeigten Werten. Konkret werden die sonstigen (in 5C gezeigten) Daten 568 gezeigt, z.B. und ohne darauf beschränkt zu sein, der simulierte KPI-Min-Momentaufnahmenwert 1412 mit dem inferierten Momentaufnahmenwert 41.805, der simulierte KPI-Mittel-Momentaufnahmenwert 1414 mit dem inferierten Momentaufnahmenwert 42.091, der ursprüngliche KPI-Wert 1416 42.117 sowie der simulierte KPI-Max-Momentaufnahmenwert 1418 mit dem inferierten Momentaufnahmenwert 42.548. In 14 wird außerdem ein erster Satz von Konfidenzmaß-Bewertungsalgorithmen vorgelegt, d.h. Konfidenzmaß-Algorithmen 1430 der maximalen Standardabweichungen. Der Algorithmus für das Konfidenzmaß 1A ermittelt die Beziehung zwischen der maximalen Varianz der inferierten Momentaufnahmenwerte 1412, 1414 und 1418 als eine Funktion des ursprünglichen KPI-Werts 1416. Der Algorithmus für das Konfidenzmaß 1B ermittelt die Beziehung zwischen der maximalen Varianz der inferierten Momentaufnahmenwerte 1412, 1414 und 1418 als eine Funktion des simulierten KPI-Mittel-Momentaufnahmenwerts 1414. In 14 wird außerdem ein zweiter Satz von Konfidenzmaß-Bewertungsalgorithmen vorgelegt, d.h. Konfidenzmaß-Algorithmen 1440 der mittleren Standardabweichungen. Der Algorithmus für das Konfidenzmaß 2A ermittelt die Beziehung der Varianz zwischen dem ursprünglichen KPI-Wert 1416 und dem simulierten KPI-Mittel-Momentaufnahmenwert 1414 als eine Funktion des ursprünglichen KPI-Werts 1416. Der Algorithmus für das Konfidenzmaß 2B ermittelt die Beziehung der Varianz zwischen dem ursprünglichen KPI-Wert 1416 und dem simulierten KPI-Mittel-Momentaufnahmenwert 1414 als eine Funktion des simulierten KPI-Mittel-Momentaufnahmenwerts 1414. Außerdem legt 14 einen Algorithmus 1450 für Maße auf Verteilungsgrundlage vor, d.h. einen Algorithmus für das Konfidenzmaß 3, der die Abweichung 1452 zwischen dem ursprünglichen KPI-Wert 1416 und dem simulierten KPI-Mittel-Momentaufnahmenwert 1414 als eine Funktion der Verteilung 1454 zwischen dem simulierten KPI-Max-Wert 1418 und dem simulierten KPI-Min-Wert 1412 evaluiert. Die Konfidenzmaß-Algorithmen 1430 der maximalen Standardabweichungen für die Konfidenzmaße 1A und 1B und die Konfidenzmaß-Algorithmen 1440 der mittleren Standardabweichungen für die Konfidenzmaße 2A und 2B befinden sich innerhalb des Teilmoduls 572 für Konfidenzmaße auf Quantitätsgrundlage und des Teilmoduls 576 für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage. Entsprechend befindet sich der Algorithmus für das Konfidenzmaß 3 des Algorithmus 1450 für Maße auf Verteilungsgrundlage innerhalb des Teilmoduls 574 für Konfidenzmaße auf Verteilungsgrundlage und des Teilmoduls 576 für Konfidenzmaße auf Quantitäts- und Verteilungsgrundlage.
Unter Bezugnahme auf 15 wird außerdem eine Grafikdarstellung, d.h. ein Spaltendiagramm 1500, bereitgestellt, die Konfidenzmaße mit Werten veranschaulicht, die aus den in 14 bereitgestellten Algorithmen und Werten berechnet werden, wobei diese miteinander verglichen werden. Das Spaltendiagramm 1500 enthält eine Ordinate (Y-Achse 1502), die für den Wert der berechneten Konfidenzwerte steht und von 0 % bis 100 % reicht. Das Spaltendiagramm 1500 enthält außerdem eine Abszisse (X-Achse) 1504, welche die Konfidenzmaße 1A, 1B, 2A, 2B, und 3 identifiziert. Die Konfidenzwerte der Konfidenzmaße 2A und 2B stellen die höchsten Werte in Höhe von 99,8 bereit. Aus diesem Grund stellt der simulierte KPI-Mittel-Momentaufnahmenwert 1414 den besten Konfidenzwert für die fehlerhaften Daten bereit. Bei mindestens manchen Ausführungsformen ist der simulierte KPI-Mittel-Momentaufnahmenwert 1414 der inferierte KPI-Wert 566 für das vorliegende Beispiel.
Im Allgemeinen vergleicht das Konfidenzmaße-Modul 570 die inferierten Momentaufnahmenwerte 552 und 554, die durch eine oder mehrere der oben erwähnten Simulationen erzeugt werden, mit den betreffenden fehlerhaften ursprünglichen Daten. Mindestens eines der Ergebnisse des Vergleichs ist ein Konfidenzwert in Form eines numerischen Werts für jeden der inferierten Momentaufnahmenwerte 552 und 554, der auf die betreffende Momentaufnahme der Daten angewendet wird und ein Konfidenzniveau dafür angibt, dass die inferierten Momentaufnahmenwerte 552 und 554 ein geeigneter Ersatz für die fehlerhaften Daten sind. Ein vergleichsweise niedriger Konfidenzwert gibt an, dass die betreffenden inferierten Momentaufnahmenwerte 552 und 554, wie z.B. der resultierende inferierte KPI-Wert 566, nicht verwendet werden sollten oder nur unter Vorbehalt. Ein vergleichsweise hoher Konfidenzwert gibt an, dass die betreffenden inferierten Momentaufnahmenwerte 552 und 554, wie z.B. der resultierende inferierte KPI-Wert 566, verwendet werden sollten. Die Schwellenwerte für die zugehörigen Konfidenzwerte können durch den Nutzer festgelegt werden und können auch verwendet werden, um ein oder mehrere Modelle zu trainieren, wobei beides Voraussetzungen sind, um eine vollständige Automatisierung der Auswahl zu ermöglichen. Darüber hinaus können die nachfolgenden Aktionen automatisiert werden. Zum Beispiel, und ohne darauf beschränkt zu sein, wird bei Konfidenzwerten unterhalb eines vorgegebenen Schwellenwerts der inferierte KPI-Wert 566 nicht zur weiteren Verarbeitung innerhalb der nativen Anwendung wie z.B. des Prozesssteuerungssystems 410 unter Verwendung des ursprünglichen Datenstroms 420 weitergeleitet. Auf ähnliche Weise wird für Konfidenzwerte oberhalb eines vorgegebenen Schwellenwerts der inferierte KPI-Wert 566 zur weiteren Verarbeitung innerhalb der nativen Anwendung unter Verwendung der ursprünglichen Daten 422 weitergeleitet. Entsprechend korrigieren die Systeme und Verfahren wie hierin beschrieben die Probleme mit den fehlerhaften Daten in dem ursprünglichen Datenstrom 420 automatisch auf eine Weise, die unbeabsichtigte Aktionen vermeidet oder geeignete Aktionen initiiert, wie die Bedingungen und die korrekten Daten dies vorgeben.
Unter erneuter Bezugnahme auf 5C enthält das Konfidenzmaße-Modul 570 ein erläuterndes Teilmodul 578, das konfiguriert wird, um Daten 580 auf Konfidenzgrundlage von den Konfidenzmaße-Teilmodulen 572, 574 und 576 zu empfangen. Die Daten 580 auf Konfidenzgrundlage enthalten, ohne darauf beschränkt zu sein, den inferierten KPI-Wert 566 und seinen zugehörigen Konfidenzwert, die betreffenden Informationen, die der Auswahl des inferierten KPI-Werts 566 zugehörig sind, sowie zusätzliche Informationen, um eine Erläuterung des inferierten KPI-Werts 566, der ausgewählt wurde, zu erzeugen, z.B. die sonstigen Daten 568, die, ohne darauf beschränkt zu sein, sämtliche inferierten Momentaufnahmenwerte 552 und 554 wie z.B. die betreffenden Konfidenzwerte enthalten. Da es möglich ist, dass der Konfidenzwert für den vorhergesagten, d.h. inferierten, KPI-Wert 566 nicht 100 % beträgt, enthält das erläuternde Modul 578 eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen, indem die Einzelheiten und Nachweise zur Auswahl der betreffenden mit einer Wertung versehenen, inferierten Momentaufnahmenwerte 562 und 564 als der inferierte KPI-Wert 566 bereitgestellt werden. Das erläuternde Teilmodul 578 stellt solche Einzelheiten bereit, wie z.B. und ohne darauf beschränkt zu sein, die Arten von in dem Datensatz erkannten Problemen, die Anzahl und Beschaffenheit der erzeugten Simulationen, die statistischen Eigenschaften der Wertungen, die aus verschiedenen Simulationen erhalten werden, und einen Vergleich der Wertungen. Entsprechend erzeugt das Konfidenzmaße-Modul 570 verschiedene Konfidenzmesswerte für die mit einer Wertung versehenen, inferierten Momentaufnahmenwerte 562 und 564 sowie die Informationen, damit der Nutzer die Eigenschaften der Verteilung der mit einer Wertung versehenen, inferierten Momentaufnahmenwerte 562 und 564 verstehen kann, um weitere Klarheit über die Auswahl der betreffenden inferierten KPI-Werte 566 zu schaffen und dadurch eine Konfidenzwertung und Erläuterung 582 als eine Ausgabe des Prozesses zu erzeugen.
Unter Bezugnahme auf 16 wird außerdem eine Textdarstellung bereitgestellt, die Erläuterungen 1600 zu Konfidenzmaßen veranschaulicht. Die in den Erläuterungen 1600 zu Konfidenzmaßen bereitgestellten Daten erklären sich größtenteils von selbst.
Das hierin offenbarte System, Computerprogrammprodukt und Verfahren ermöglicht ein Überwinden der Nachteile und Beschränkungen einer unbeabsichtigten Verarbeitung von fehlerhaften Zeitreihendaten und eines potenziellen Auftretens unbeabsichtigter Konsequenzen hieraus. Zum Beispiel entscheidet das hierin beschriebene System und Verfahren, während die betreffenden Daten erzeugt werden und für eine bestimmte Geschäfts-KPI, ob sich ein Datenqualitätsproblem nachteilig auf die betreffende Geschäfts-KPI auswirkt. Zusätzlich identifiziert das hierin beschriebene System und Verfahren die dazugehörigen Eigenschaften (oder Charakteristika) der Geschäfts-KPI, sodass relevante Datenprobleme identifiziert und Optimierungen durchgeführt werden können, unabhängig davon, ob die genauen KPI-Charakteristika offen definiert sind oder nicht, d.h. ob die KPI-Formulierungen von ihrer Beschaffenheit her der beobachtbaren Box oder der nicht beobachtbaren Box angehören. Zudem löst das hierin beschriebene System und Verfahren die identifizierten Datenprobleme durch ein Auswählen einer mit einer Wertung versehenen Vorhersage eines Ersatzwerts für die fehlerhaften Daten. Des Weiteren optimiert das hierin beschriebene System und Verfahren eine Auswahl der möglichen Ersatzwerte, um Systemressourcen effizient zu verwenden. Darüber hinaus werden die mit einer Wertung versehenen Vorhersagen von quantifizierten Konfidenzwerten begleitet, mit einer Erläuterung der Konfidenzwerte hinsichtlich der inferierten Konfidenzmaße und der Gründe für die Werte. Entsprechend werden, wie hierin beschrieben, Datenqualitätsprobleme auf Grundlage der Analyse bestimmter KPIs gefiltert, und Daten werden modifiziert, um die Qualitätsprobleme abzumildern, wobei verschiedene Szenarien in Betracht gezogen werden, um ihre Auswirkung auf den Messwert einer bestimmten KPI zu berechnen und zusätzlich die Konfidenz der vorhergesagten Ersatzwerte zu messen.
Zusätzlich können die Merkmale des hierin offenbarten Systems, Computerprogrammprodukts und Verfahrens über die Realisierung in Ausführungsformen auf einer reinen Geschäftsgrundlage hinaus erweitert werden. Auch nicht geschäftsbezogene Realisierungen sind vorstellbar, um ähnliche Nachteile und Beschränkungen einer unbeabsichtigten Verarbeitung von fehlerhaften Zeitreihendaten und eines potenziellen Auftretens unbeabsichtigter Konsequenzen hieraus zu überwinden. Konkret kann jeder computerrealisierte Prozess, der sich auf Zeitreihendaten stützt, um die jeweiligen Funktionen einwandfrei auszuführen, durch eine Realisierung der Merkmale in dieser Offenbarung verbessert werden. Zum Beispiel, und ohne darauf beschränkt zu sein, vermeidet eine wie auch immer geartete Verwendung von Zeitreihendaten, die von loT-Einheiten wie z.B. Immobilien- und Fahrzeugnutzern gesammelt werden, unbeabsichtigte und unnötige automatisierte Aktionen, indem fehlende Datenwerte durch die höchste Konfidenz ersetzt werden. Konkret kann bei Immobiliennutzern verhindert werden, dass fehlerhafte Daten, die fälschlicherweise auf eine Unterspannung von dem betreffenden Stromversorger hindeuten, unbeabsichtigt und unnötigerweise eine Unterspannungs-Schutzschaltung aktivieren, die andernfalls eine zufriedenstellende Stromversorgung der betreffenden Immobilie unterbrechen würde. Bei einer solchen Realisierung könnte eine entsprechende KPI dazu dienen, dem Immobiliennutzer kontinuierlich Strom bereitzustellen. Bei Fahrzeugnutzern kann konkret verhindert werden, dass fehlerhafte Daten, die fälschlicherweise auf zu hohe Temperaturen des Antriebsmechanismus hindeuten, unbeabsichtigt und unnötigerweise automatisierte Notabschaltungen des Motors aktivieren. Bei einer solchen Realisierung kann eine entsprechende KPI dazu dienen, dem Fahrzeugnutzer einen kontinuierlichen Antrieb bereitzustellen.
Somit stellen die hierin offenbarten Ausführungsformen eine Verbesserung für Computertechnologie bereit, indem sie einen Mechanismus zum effizienten, effektiven und automatischen Identifizieren von Problemen, die fehlerhaften Zeitreihendaten zugehörig sind, ein Ermitteln, ob sich ein Datenqualitätsproblem nachteilig auf eine bestimmte Geschäfts-KPI auswirkt, indem die Charakteristika der Geschäfts-KPI identifiziert werden, sodass relevante Datenprobleme identifiziert werden können und Optimierungen durchgeführt werden können, unabhängig davon, ob die genauen KPI-Charakteristika offen definiert sind oder nicht, d.h. ob die KPI-Formulierungen von ihrer Beschaffenheit her der beobachtbaren Box oder der nicht beobachtbaren Box angehören, und ein Lösen der identifizierten Datenprobleme bereit, während eine Konfidenzanalyse der untersuchten potenziellen Lösungen vorgelegt wird.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Offenbarung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Modifikationen und Abwandlungen möglich sind, ohne von Umfang und Geist der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien bestmöglich zu erläutern bzw. anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims

Computersystem, aufweisend: eine oder mehrere Verarbeitungseinheiten und mindestens eine Arbeitsspeichereinheit, die mit der einen oder den mehreren Verarbeitungseinheiten wirkverbunden wird, wobei die eine oder die mehreren Verarbeitungseinheiten konfiguriert werden, um: eine oder mehrere potenziell fehlerhafte Dateninstanzen in einem Zeitreihen-Datenstrom zu identifizieren; einen oder mehrere vorhergesagte Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen zu ermitteln; einen Konfidenzwert für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu ermitteln; die eine oder die mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu berichtigen; und eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen zu erzeugen.
System nach Anspruch 1, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: eine oder mehrere Leistungskennzahlen (Key Performance Metrics, KPIs) zu identifizieren, die durch die eine oder die mehreren potenziell fehlerhaften Dateninstanzen nachteilig beeinflusst werden.
System nach Anspruch 2, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: ein oder mehrere KPI-Formulierungscharakteristika zu ermitteln, die der einen oder den mehreren potenziell fehlerhaften Dateninstanzen zugehörig sind, wobei jede KPI der einen oder der mehreren KPIs eine oder mehrere Formulierungen hiervon enthält, wobei jede Formulierung der einen oder der mehreren Formulierungen ein oder mehrere Charakteristika hiervon enthält.
System nach Anspruch 3, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: KPI-Formulierungen zu analysieren, die einsehbar sind, um dadurch Formulierungen der einsehbaren Box zu analysieren; und KPI-Formulierungen zu analysieren, die nicht einsehbar sind, um dadurch Formulierungen der nicht einsehbaren Box zu analysieren.
System nach Anspruch 3, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: eine oder mehrere Simulationsmomentaufnahmen zu erzeugen, wobei jede Simulationsmomentaufnahme einen oder mehrere imputierte Werte enthält, wobei jeder vorhergesagte Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte mindestens teilweise auf dem einen oder den mehreren imputierten Werten und der einen oder den mehreren KPI-Formulierungscharakteristika beruht.
System nach Anspruch 5, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: eine Mehrzahl von Simulationsmomentaufnahmen durch Simulationen auf Punktgrundlage zu erzeugen, aufweisend: Erzeugen einer Mehrzahl von inferierten Datenpunkten aus der einen oder den mehreren potenziell fehlerhaften Dateninstanzen, aufweisend ein abwechselndes Zuweisen einer diskreten korrekten Kennzeichnung und einer diskreten fehlerhaften Kennzeichnung zu jeder potenziell fehlerhaften Dateninstanz der einen oder der mehreren potenziell fehlerhaften Dateninstanzen; Erzeugen eines Satzes aller möglichen Kombinationen der Mehrzahl von inferierten Datenpunkte; Ermitteln von Wahrscheinlichkeiten, dass die Mehrzahl von inferierten Datenpunkten tatsächlich fehlerhaft ist; und Erzeugen der Mehrzahl von Simulationsmomentaufnahmen auf Punktgrundlage für lediglich einen Teilsatz des Satzes aller möglichen Kombinationen der Mehrzahl von inferierten Datenpunkten, wobei jede Simulationsmomentaufnahme auf Punktgrundlage der Mehrzahl von Simulationsmomentaufnahmen auf Punktgrundlage den einen oder die mehreren imputierten Werte enthält; und Erzeugen einer Mehrzahl von Simulationsmomentaufnahmen durch Simulationen auf Verfahrensgrundlage, aufweisend: Erzeugen des einen oder der mehreren imputierten Werte für jede potenziell fehlerhafte Dateninstanz, wobei jeder imputierte Wert des einen oder der mehreren imputierten Werte durch eine entsprechende Korrekturoperation erzeugt wird.
System nach Anspruch 6, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: den Teilsatz des Satzes aller möglichen Kombinationen der Mehrzahl von inferierten Datenpunkten zu erzeugen, aufweisend eine Verwendung von Momentaufnahmen-Optimierungsmerkmalen unter Verwendung der KPI-Formulierungscharakteristika.
System nach Anspruch 1, wobei die eine oder die mehreren Verarbeitungseinheiten des Weiteren konfiguriert werden, um: die eine oder die mehreren potenziell fehlerhaften Dateninstanzen zu berichtigen und die erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen durch ein oder mehrere Konfidenzmaße auf Quantitätsgrundlage und Konfidenzmaße auf Verteilungsgrundlage zu erzeugen.
Programmprodukt, aufweisend: ein oder mehrere computerlesbare Speichermedien; und Programmanweisungen, die gemeinsam auf dem einen oder den mehreren Computerspeichermedien gespeichert werden, wobei die Programmanweisungen aufweisen: Programmanweisungen, um eine oder mehrere potenziell fehlerhafte Dateninstanzen in einem Zeitreihen-Datenstrom zu identifizieren; Programmanweisungen, um einen oder mehrere vorhergesagte Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen zu ermitteln; Programmanweisungen, um einen Konfidenzwert für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu ermitteln; Programmanweisungen, um die eine oder die mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte zu berichtigen; und Programmanweisungen, um eine erläuternde Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen zu erzeugen.
Computerrealisiertes Verfahren, aufweisend: Identifizieren einer oder mehrerer potenziell fehlerhafter Dateninstanzen in einem Zeitreihen-Datenstrom; Ermitteln eines oder mehrerer vorhergesagter Ersatzwerte für die eine oder die mehreren potenziell fehlerhaften Dateninstanzen; Ermitteln eines Konfidenzwerts für jeden vorhergesagten Ersatzwert des einen oder der mehreren vorhergesagten Ersatzwerte; Berichtigen der einen oder der mehreren potenziell fehlerhaften Dateninstanzen mit einem vorhergesagten Wert des einen oder der mehreren vorhergesagten Werte; und Erzeugen einer erläuternden Grundlage für die Berichtigung der einen oder der mehreren potenziell fehlerhaften Dateninstanzen.