EP2810192A2

EP2810192A2 - Bearbeitung einer datenmenge

Info

Publication number: EP2810192A2
Application number: EP13716973.6A
Authority: EP
Inventors: Holger Last; Christof STÖRMANN; Stefan Hagen Weber
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG
Priority date: 2012-05-29
Filing date: 2013-03-25
Publication date: 2014-12-10
Also published as: WO2013178376A2; IN2014DN07790A; US10191938B2; CN104321770A; US20150339345A1; DE102012208999A1; WO2013178376A3

Abstract

Es wird vorgeschlagen, mindestens einen Treffer in einer großen Datenmenge anhand eines graphischen Suchmusters zu finden, wobei das graphische Suchmuster von einem Benutzer vorzugsweise über eine graphische Schnittstelle neu erstellt oder modifiziert wird. Hierbei ist es von Vorteil, dass der Benutzer intuitiv komplexe Suchen umsetzen kann und eine graphische Darstellung von Eigenschaften und/oder Zusammenhängen für die Suche gezielt nutzen kann. Die Erfindung kann beispielsweise im Data-Mining, bei der Überwachung von Zuständen oder bei der automatisierten Alarmierung eingesetzt werden.

Description

Beschreibung

Bearbeitung einer Datenmenge Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung und ein System zur Bearbeitung einer (großen) Datenmenge, insbesondere zum Auffinden mindestens eines Treffers in der Datenmenge . Informationstechnologien produzieren mit fortschreitender

Durchdringung der Gesellschaft eine beachtliche Flut von Da^¬ ten und Informationen. Eine wachsende Herausforderung ist es, das Wissen in diesen Daten für unterschiedliche Anwendungen nutzbar zu machen.

Unter Data-Mining (der englische Begriff bedeutet etwa "aus einem Datenberg etwas Wertvolles extrahieren") versteht man die systematische Anwendung von Methoden, die meist statis^¬ tisch-mathematisch begründet sind, auf einen Datenbestand mit dem Ziel, neue Muster zu erkennen. Hierbei geht es auch um die Verarbeitung sehr großer Datenbestände (die nicht mehr manuell verarbeitet werden könnten) , wofür effiziente Metho^¬ den benötigt werden, deren Zeitkomplexität sie für solche Da^¬ tenmengen geeignet macht. Die Methoden finden aber auch für kleinere Datenmengen Anwendung. In der Praxis, vor allem im deutschen Sprachgebrauch, etablierte sich der angelsächsische Begriff "Data-Mining" für den gesamten Prozess der so genannten "Knowledge Discovery in Databases" (Wissensentdeckung in Datenbanken; KDD) , der auch Schritte wie die Vorverarbeitung beinhaltet (vergleiche: http://de.wikipedia.org/wiki/Data- Mining) .

In der Praxis erweckt Data-Mining oft falsche Erwartungen, wonach sich "interessantes Wissens" automatisch - also ohne wesentlichen Beitrag des Benutzers - extrahieren lassen sollte. Dieser Ansatz wird auch als "Unsupervised Machine Lear- ning" (etwa: maschinelles Lernen ohne Überwachung) bezeichnet . In den letzten Jahrzehnten wurden mehrere Algorithmen entwickelt, die interessante Teilaspekte aus großen Datenmengen extrahieren können. Jedoch besteht das "interessante Wissen", das automatisch extrahiert werden kann, immer aus relativ einfachen Aspekten wie häufigen Muster, bestimmten Clustern und Strukturen, die in den Daten gesucht (und ggf. gefunden) werden. Die Interpretation und Bewertung der Güte des algorithmisch extrahierten Wissens liegt beim Benutzer.

Ferner ist eine Interaktion mit dem Benutzer nötig. Beispielsweise erfordert ein Algorithmus zur Anomalie-Erkennung vorab eine Definition von normalem Verhalten oder die Bereitstellung von normalen Daten durch den Benutzer. Dieser Ansatz wird auch als "Supervised Machine Learning" (etwa: überwach^¬ tes maschinelles Lernen) oder "Active Learning" (aktives Ler^¬ nen) bezeichnet. Je komplexer die Fragenstellungen an ein Da- ta-Mining System sind, umso ausführlicher gestaltet sich die Interaktion mit dem Benutzer.

Hierbei besteht das Problem einer geeigneten Kommunikations^¬ möglichkeit zwischen dem Benutzer und der Maschine, z.B. in Form einer vorteilhaften Mensch-Maschine-Schnittstelle. Dies liegt daran, dass zwischen der maschinell extrahierten Information und dem für den Menschen Brauchbaren eine große Diskrepanz besteht: Beispielsweise ist es erforderlich, Mo^¬ dellparameter interaktiv zu beeinflussen, um sukzessive den Anteil nutzbaren Wissens zu maximieren. Gerade große Daten- mengen mit komplexen Zusammenhängen stellen hierbei erhebliche Anforderungen an die Leistungsfähigkeit des Systems.

"Visual Analytics" (VA) ist bekannt als ein interdisziplinä^¬ rer Ansatz, der die Vorteile aus unterschiedlichen For- schungsgebieten verbindet. Das Ziel der Visual Analytics-

Methode ist es, Erkenntnisse aus großen und komplexen Daten^¬ sätzen zu gewinnen. Der Ansatz kombiniert die Stärken der automatischen Datenanalyse mit den Fähigkeiten des Menschen, schnell Muster oder Trends visuell zu erfassen. Durch geeig^¬ nete Interaktionsmechanismen können Daten visuell exploriert und Erkenntnisse gewonnen werden (vergleiche:

http : //de . wikipedia . org/wiki/Visual_Analytics ) .

Die Interaktion auf der graphischen Darstellung bekannter VA Systeme besteht im Wesentlichen aus einem Selektieren interessanter Mustern, die in den Daten bereits vorhanden sind. Hierbei ist der Nutzer auf bereits existierende Muster be- schränkt. Eine weitergehende Flexibilität wird ihm nicht ge^¬ währt .

Die Aufgabe der Erfindung besteht darin, die vorstehend ge^¬ nannten Nachteile zu vermeiden und insbesondere eine effi- ziente Möglichkeit für die Suche nach Informationen in großen Datenmengen zu schaffen.

Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesonde- re den abhängigen Ansprüchen entnehmbar.

Zur Lösung der Aufgabe wird ein Verfahren angegeben zur Bearbeitung einer Datenmenge, insbesondere zur Suche von Treffern in einer großen Datenmenge,

- bei dem ein graphisches Suchmuster erstellt wird,

- bei dem das Suchmuster in mindestens eine Abfrage um^¬ gewandelt wird,

- bei dem die Abfrage auf eine Datenmenge angewandt

wird .

Dieser Ansatz ermöglicht eine automatische Mustererkennung basierend auf einer interaktiv erstellten, visuellen Suchanfrage. Somit kann der Benutzer als Suchmuster ein existierendes Muster selektieren oder ein Suchmuster auf existierenden Daten erstellen bzw. modifizieren oder aber ein Suchmuster ohne Vorlage zu erstellen und nach seinen Vorstellungen zu adaptieren. Das graphische Suchmuster schafft für den Benutzer einen einfachen Zugang zu komplexen Abfragestrukturen, die er leicht erfassen und modifizieren kann. Die graphischen Muster werden in die mindestens eine Abfrage übersetzt und auf die Datenmenge angewandt; so werden Treffer gefunden, die auf dem graphischen Suchmuster basieren.

Hierbei sei angemerkt, dass die Erstellung des Suchmusters auch eine Modifikation bestehender Daten oder eines bereits vorhandenen Suchmusters umfassen kann. Eine Weiterbildung ist es, dass das Suchmuster über eine gra^¬ phische Benutzerschnittstelle erstellt wird.

Die graphische Benutzerschnittstelle kann z.B. einen graphi^¬ schen Editor umfassen.

Eine andere Weiterbildung ist es, dass das Suchmuster mittels eines zwei- oder dreidimensionalen Scanners und/oder mittels mindestens einer Kamera erstellt wird. Beispielsweise können Bewegungen oder Interaktionen des Benutzers mit der Maschine erfasst und geeignet in eine Modifi^¬ kation des Suchmusters umgesetzt werden. So kann der Benutzer mittels einer Kamera und/oder mittels eines Scanners Daten virtuell modellieren und so das graphische Suchmuster seinen Vorstellungen entsprechend anpassen.

Insbesondere ist es eine Weiterbildung, dass das Suchmuster basierend auf Daten der Datenmenge oder auf anderen Daten und/oder basierend auf mindestens einem anderen Suchmuster erstellt wird.

Auch ist es eine Weiterbildung, dass das Suchmuster in mindestens eine Abfrage umgewandelt wird, indem die graphische Repräsentation des Suchmusters in Regeln, Bedingungen

und/oder Zustände konvertiert wird. Ferner ist es eine Weiterbildung, dass das Verfahren iterativ eingesetzt wird, wobei das Suchmuster in jedem Iterations^¬ schritt erstellt (z.B. verändert) wird. Im Rahmen einer zusätzlichen Weiterbildung wird die Abfrage auf eine Datenmenge angewandt und mindestens ein Treffer in der Datenmenge bestimmt.

Hierbei ist es eine Weiterbildung, dass die Abfrage auf eine Datenmenge angewandt wird und eine vorgegebene Aktion ausge^¬ führt wird, wenn ein mit dem Suchmuster übereinstimmende Treffer ermittelt wurde.

Der übereinstimmende Treffer kann eine vorgegebene Ähnlich- keit, z.B. ein Mindestmaß einer Ähnlichkeit mit dem Suchmus^¬ ter, aufweisen.

Eine nächste Weiterbildung besteht darin, dass die vorgegebe^¬ ne Aktion mindestens einen Mitteilung, Anzeige und/oder Alar- mierung umfasst.

Somit kann die vorgestellte Lösung für automatisierte Überwa^¬ chungs-Anwendungen eingesetzt werden. Beispielsweise kann eine automatisierte Alarmierung erfolgen bei der Erkennung be- stimmter Trends und Konstellationen zur Aufdeckung von Fehlfunktionen eines Netzes, o.ä.

Eine Ausgestaltung ist es, dass die Abfrage auf eine Daten^¬ menge angewandt wird und die am besten mit dem Suchmuster übereinstimmenden Treffer bestimmt werden.

Hierzu ist es eine Weiterbildung, dass die Treffer in einer vorgegebenen Reihenfolge, insbesondere entsprechend einer Gü^¬ te der Übereinstimmung mit dem Suchmuster, dargestellt oder referenziert werden. Eine alternative Ausführungsform besteht darin, dass das Suchmuster in mindestens eine Abfrage umgewandelt wird, wobei das das Suchmuster skaliert und/oder normiert wird. Die Normierung kann eine Stauchung und/oder Streckung des Zeitintervalls umfassen.

Eine nächste Ausgestaltung ist es, dass Eigenschaften des Suchmusters extrahiert werden, wobei diese extrahierten Ei- genschaften zumindest teilweise als veränderbare Parameter dargestellt werden.

Diese extrahierten Eigenschaften erweitern die Schnittstelle zwischen der Maschine und dem Benutzer. Der Benutzer kann z.B. die Eigenschaften des Suchmusters (graphisch) verändern und bekommt (z.B. nach Durchlauf der Suche) eine Aktualisie^¬ rung der Treffer angezeigt.

Auch ist es eine Ausgestaltung, dass das Suchmuster und/oder die Abfrage als Zielfunktion für ein maschinelles Lernverfahren eingesetzt wird.

Beispielsweise kann das Suchmuster zur Suche von ähnlichen Mustern, zur Markierung von Bereichen (Clustern) in der Da- tenmenge (oder einem Teil davon) eingesetzt werden.

Zusätzlich wird die vorstehende Aufgabe gelöst mittels einer Vorrichtung zur Bearbeitung einer Datenmenge mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass

- ein graphisches Suchmuster erstellbar ist,

- das Suchmuster in mindestens eine Abfrage umwandelbar ist,

- die Abfrage auf eine Datenmenge anwendbar ist. Auch wird die obige Aufgabe gelöst mittels eines Systems um^¬ fassend mindestens eine solche Vorrichtung. Die vorstehend gemachten Ausführungen betreffend das Verfahren gelten entsprechend auch für die Vorrichtung sowie das System. Die hier vorgestellte Lösung umfasst ferner ein Computerpro^¬ grammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen .

Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z.B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z.B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt .

Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszei- chen versehen sein.

Es zeigen:

Fig.lA eine Datenmenge, die über einer Zeitachse eine be- reitgestellte Gesamtleistung in Megawattstunden (MWh) angibt mit einem Ausschnitt;

Fig.lB der Ausschnitt aus Fig.lA; Fig. IC ein graphisches Suchmuster, das von dem Benutzer mittels einer graphischen Schnittstelle, z.B. einem Editor, modifiziert wurde; Fig.2 ein schematisches Ablaufdiagramm mit Schritten des hier vorgestellten Verfahrens.

Der vorliegende Ansatz schlägt insbesondere vor, ausgehend von ähnlichen Mustern aus existierenden Daten oder nach eigenen Vorgaben ein Suchmuster, z.B. durch einen Editiervorgang, zu bestimmen.

Dabei handelt es sich vorzugsweise um ein graphisches Such- muster, das beispielsweise über einen graphischen Editor bearbeitet und/oder erstellt wird.

Das so bestimmte (editierte oder angepasste) Suchmuster kann (aber muss nicht) identisch zu den Daten sein, die der Benut- zer in einer Datenmenge (also einer Vielzahl von Daten, auch bezeichnet als Datenbasis) finden möchte.

Im Gegensatz zu bestehenden Systemen hat der Benutzer die Möglichkeit, durch eine graphische Bearbeitung (z.B. durch ein Ziehen eines Rahmens) eine Untermenge von existierenden Daten zu definieren.

Somit ist es möglich, dass der Benutzer ein Suchmuster gezielt nach seinen Vorstellungen generieren und/oder verändern kann. Damit ist er nicht länger darauf angewiesen, dass er genau das Suchmuster, das er anwenden möchte, zuerst in den Daten finden muss bevor er es auf die Datenmenge bzw. auf die weiteren Daten anwenden kann. Das Suchmuster ist vorzugsweise ein graphisches Muster, das z.B. über einen graphischen Editor, mittels Datenpunkten und/oder in Form einer Freihandzeichnung eingegeben oder modifiziert wird. Entsprechend können unterschiedliche Eingabe^¬ möglichkeiten realisiert werden: So kann das graphische Mus- ter auch auf einem Blatt gezeichnet und digitalisiert werden. Zwei- oder höherdimensionale Muster sind möglich und können von dem Benutzer eingesetzt werden, die eigene Suche in der Datenmenge effizienter zu gestalten. Mittels einer Muster-Eingabe wird das Suchmuster von dem Be^¬ nutzer eingegeben und/oder modifiziert und abgespeichert. Ein solches gespeichertes Suchmuster kann wiederholt verwendet oder weiter modifiziert werden.

Bei der Muster-Eingabe kann es sich um den graphischen Editor, eine graphische Benutzeroberfläche, einen zwei- oder dreidimensionalen Scanner, eine Kamera, o.a. handeln.

Mit dem Suchmuster kann mindestens eines der folgenden Ziele verfolgt bzw. erreicht werden:

1. Es kann eine Eingrenzung (Drilldown) auf Daten, die

gleich dem Suchmuster sind oder die eine vorgegebene Ähnlichkeit zu dem Suchmuster aufweisen, erfolgen. Beispielsweise kann ein Maß für eine Übereinstimmung zwischen Suchmuster und gefundenen Daten bestimmt und ausgegeben werden; vorzugsweise können die Treffer in den Daten entsprechend ihrer Übereinstimmung (also dem Maß) sortiert angezeigt werden.

2. Es wird ein möglichst repräsentatives Suchmuster be^¬ stimmt, indem an Hand der Datenmenge das Suchmuster au^¬ tomatisiert normiert wird, um die Häufigkeit der Treffer innerhalb der Datenmenge zu erhöhen. Eine solche Normie^¬ rung kann z.B. eine Stauchung und/oder eine Streckung des Zeitintervalls umfassen.

3. Es können bestimmte Eigenschaften des Suchmusters extra^¬ hiert werden. Diese extrahierten Eigenschaften erweitern die Schnittstelle zwischen der Maschine und dem Benut^¬ zer. Der Benutzer kann z.B. die Eigenschaften des Suchmusters (graphisch) verändern und bekommt eine Aktuali^¬ sierung der Treffer angezeigt.

4. Suchmuster kann als eine Zielfunktion für maschinel

Lernverfahren verwendet werden. Beispielsweise kann das Suchmuster zur Suche von ähnlichen Mustern, zur Markierung von Bereichen (Clustern) in einem bestehenden Datensatz eingesetzt werden. 5. Das Suchmuster kann (z.B. als maschinell gelerntes Such^¬ muster) in Überwachungs-Anwendungen eingesetzt werden. Beispielsweise kann eine automatisierte Alarmierung er^¬ folgen bei der Erkennung bestimmter Trends und Konstellationen zur Aufdeckung von Fehlfunktionen eines Netzes, o.a.

Beispiel: Interaktive Suche in Energiedaten

Beispielsweise kann zur Analyse bzw. Optimierung nationaler und/oder regionaler Stromerzeugung ein Ausbau von alternativen Energiequellen näher betrachtet werden im Hinblick auf unterschiedliche Optimierungsziele, z.B. Kosten, C02- Emission, o.ä. Die Analyse erfolgt für große Datenmengen, die auch Wetterda^¬ ten und Verbraucherdaten für beliebige Standorte enthalten können. Systematische manuelle Suchen wären immens zeitauf- wändig, fehleranfällig und teilweise - sofern (theoretisch) überhaupt durchführbar - jedenfalls nicht praktikabel.

Eine beispielhafte Fragestellung könnte sein: "Wann und wo kann Solarenergie existierende Kernenergie verdrängen?"

Untersucht wird hierbei eine bestimmte Mischung aus Energie- quellen. Spezifische könnte die Frage lauten: "Gibt es in ei^¬ ner Region zu irgendeinem Zeitpunkt Konstellationen, wo eine gewünschte Energieform (z.B. Solarenergie) oder ein Mischung mit Solarenergie die Basislast der Energieversorgung beste^¬ hend aus Wasserkraft und Atomenergie ersetzen kann?"

Beispielhaft seien die folgenden Energieformen genannt: Solar-, Windenergie, Kernkraft, Biomasse, Öl, Gas, Wasserkraft, Gas-und-Dampf (GuD) , Kohle. -

Ausgehend von der vorstehenden exemplarischen Fragestellung ergibt sich für den Benutzer ein Suchmuster, das graphisch definiert oder in graphischer Form selektiert und gegebenen- falls modifiziert werden kann.

Fig.lA zeigt einen Ausschnitt aus der Datenmenge, die über einer Zeitachse die bereitgestellte Gesamtleistung in MWh an^¬ gibt. Gezeigt sind in Fig.lA die folgenden Energieformen:

- Wasserkraft 101,

- Kernkraft 102,

- Öl 103,

- GuD 104,

- Kohle 105,

- Gas 106,

- Biomasse 107,

- Solarenergie 108,

- Windkraft 110. Der Benutzer kann selbst ein geeignetes Suchmuster graphisch bestimmen. Alternativ selektiert der Benutzer einen Ausschnitt 109 aus dem in Fig.lA gezeigten Diagramm. Dieser Ausschnitt 109 ist zur Veranschaulichung nochmals in Fig.lB dargestellt. Der Ausschnitt 109 entspricht somit einer Stichpro- be aus der Datenmenge, die als eine Ausgangsbasis für das Suchmuster dient.

Fig. IC zeigt ein Suchmuster, das von dem Benutzer graphisch, z.B. mit einem Editor, modifiziert wurde. Die mit dem Such- muster verbundene Aussage lautet: "Solarenergie 108 verdrängt Kernkraft 102".

Dieses Suchmuster kann nun verwendet werden, um in der Datenmenge Treffer zu finden, die der oben beschriebenen Aussage (mit einer vorgegebenen Mindest-Ähnlichkeit ) entsprechen und somit die vorstehend genannte beispielhafte Frage beantwor^¬ ten. Hierbei können nicht nur Treffer gefunden werden, die mit dem Suchmuster identisch sind, sondern es können auch solche Teildaten als Treffer identifiziert werden, die eine vorgegebene Mindest-Ähnlichkeit mit dem Suchmuster aufweisen.

Fig.2 zeigt ein schematisches Ablaufdiagramm mit Schritten des hier vorgestellten Verfahrens.

In einem Schritt 201 wird ein Suchmuster erstellt, z.B. ba^¬ sierend auf vorhandenen Daten oder vorhandenen Suchmustern. Alternativ kann das Suchmuster auch ohne Vorlage erstellt werden. Die Erstellung kann ein Modifizieren oder ein Neuerstellen umfassen. Beispielsweise kann hierfür eine graphische Benutzerschnittstelle oder ein graphisches Eingabemedium genutzt werden. In einem Schritt 202 wird das Suchmuster in mindestens seine Abfrage umgewandelt und in einem Schritt 203 wird die mindes^¬ tens eine Abfrage auf die Datenmenge angewandt.

Optional (nicht in Fig.2 dargestellt) kann in einem nächsten Schritt der oder die Treffer - ggf. priorisiert - ausgegeben werden. Anschließend kann zu Schritt 201 rückverzweigt wer^¬ den .

In einer Schritt 204 wird festgestellt, ob (mindestens) ein Treffer in der Datenmenge gefunden wurde. Ein Treffer kann ein Teil der Datenmenge sein, der mit dem Suchmuster eine vorgegebene (Mindest- ) Ähnlichkeit aufweist. Ist dies der Fall, so wird in einem Schritt 205 eine vorgegebene Aktion durchgeführt, z.B. ein Alarm ausgelöst. Anschließend kann zu Schritt 203 oder - wie in Fig.2 gezeigt - zu Schritt 201 rückverzweigt werden.

Wird in der Schritt 204 kein Treffer ermittelt, so kann zu Schritt 203 verzweigt werden. Beispielhafter Ablauf / Workflow:

Die hier vorgeschlagene interaktive Suche kann in Verbindung mit einem Visual Analytics System eingesetzt werden. Ein Ab^¬ lauf kann dabei beispielhaft wie folgt aussehen bzw. zumin^¬ dest einen Teil der folgenden Schritte umfassen:

1. Optional: Auswertung von Daten und Darstellung der Ergebnisse; Interkation mit der Auswertung/Darstellung der Daten. Die Daten basieren auf der Datenmenge (Datenba^¬ sis) oder auf bereits existierenden Suchmustern.

2. Definition eines Suchmusters z.B. mittels graphischer Eingabe. Das Suchmuster kann über eine beliebige graphische Benutzerschnittstelle eingegeben werden. Anhand des Suchmusters werden Regeln definiert, die z.B. in Form einer Abfrage von der Maschine umgesetzt werden. Vor^¬ zugsweise werden die Daten bzw. das Suchmuster in geeigneter Form angezeigt. Der Benutzer kann unterschiedliche Interaktionsmöglichkeiten erhalten, z.B. zum Selektieren, zum Verändern des Suchmusters, zum Zeichnen neuer Suchmuster .

3. Anfrage an das System basierend auf dem Suchmuster

4. Bearbeitung der Anfrage durch das System: a) Das Suchmuster wird maschinell in Informationen umgesetzt ("übersetzt")_/ die das Suchmuster beschrei^¬ ben. Diese Informationen werden genutzt, um eine maschinelle Suche durchzuführen. b) Es erfolgt die Auswahl eines Ähnlichkeitsmaßes, das es erlaubt, Daten, die dem Suchmuster ähnlich sind, in der Datenmenge zu finden. Beispiele für Ähnlichkeitsmaße sind: Pearson-Koeffizient , Kosinus- Ähnlichkeit, etc. c) Es werden die Ähnlichkeiten berechnet (z.B. Abstände zwischen Suchmuster und Daten der Datenmenge) . d) Optional können die N ähnlichsten Treffer gruppiert werden . e) Die Treffer werden nach ihrer Güte (z.B. Ähnlichkeit) sortiert; beispielsweise werden die besten Treffer zuerst angezeigt. f) Optional kann ein Schwellwert (Alarmierungswert ) vorgegeben sein. Wenn die Ähnlichkeit den Schwell^¬ wert erreicht oder überschreitet kann eine vorgege^¬ bene Aktion ausgeführt werden. Auch können mehrere Schwellwerte definiert und geprüft und/oder mit mehreren vorgegebenen Aktionen verknüpft werden. Auf diese Weise ist es möglich, automatisiert einen Alarm auszulösen (oder eine sonstige vorgegeben Aktion einzuleiten) , sofern das Suchmuster mit einer vorgegebenen Güte in den Daten gefunden wurde. g) Es wird eine Verteilung der gefundenen ähnlichen Treffer berechnet. Aufbereitung der Ergebnisse a) Die Treffer (Muster) werden angezeigt. b) Optional können die Gruppen (Cluster) der Treffer angezeigt werden. c) Es wird eine Verteilung der gefundenen Treffer in den relevanten bzw. in vorgegebenen Dimensionen angezeigt . d) Eine Rangfolge der Treffer kann als eine Heatmap angezeigt werden, wobei optional eine Farbskala pro Gruppierung verwendet werden kann. Eine Heatmap (englisch für "Hitzekarte") ist ein Diagramm zur Visualisierung von Daten, deren abhängige Werte einer zweidimensionalen Definitionsmenge als Farben repräsentiert werden. Sie dient dazu in einer großen Datenmenge intuitiv und schnell markante Werte erfassen zu können (vergleiche:

http : //de . wikipedia . org/wiki /Heatmap) .

Weitere Ausgestaltungen und Vorteile:

Ein Vorteil ist die verbesserte Interaktionsfähigkeit zwi^¬ schen dem Benutzer und dem System. Durch grundsätzliche Änderungsmöglichkeiten über das übliche Markieren und Eingrenzen hinaus erhält der Benutzer die Möglichkeit, eine Suchanfrage auf eine große Datenmenge mittels eines visuellen Suchmusters zu bestimmen. Dies ermöglicht auf flexible Art die Implemen^¬ tierung einer "visuellen Anfrage", die von der Maschine automatisch in eine Abfrage für die Datenmenge umgewandelt wird. Somit kann der Benutzer flexibel intuitiv seine Vorstellungen für die Suchanfrage bestimmen, wobei z.B. durch die visuelle zwei- oder dreidimensionale (ggf. auch farbige) Beschreibung des Suchmusters ein mächtiges Suchwerkzeug bereitgestellt wird .

Dies hat wiederum den Vorteil, dass der Benutzer das Suchmus^¬ ter besser auf seine Anforderungen ausrichten kann und somit weniger Iterationen für die Suche nach den gewünschten Daten in der großen Datenmenge anfallen.

Insbesondere können bestimmte Muster, die nur andeutungsweise oder gar nicht in den Daten vorkommen, bestimmt werden. Durch die Suche nach Daten, die zu dem Suchmuster ähnlich sind, kann gewährleistet werden, dass vielversprechende Treffer ge- funden werden.

Der vorgestellte Ansatz eignet sich für eine Vielzahl von Anwendungen, z.B. die Überwachung großer Datenmengen, die Alar- mierung bei Eintreten komplexer Szenarien bzw. vor deren tatsächlichen Eintreten. So ist es z.B. möglich, im Rahmen des Energie-System-Designs in einer Echtzeit-Überwachung Suchmus^¬ ter zu definieren, die nur in Extremsituationen, z.B. kurz vor einem Blackout im Strom-Verteilungsnetz vorkommen.

Beispielsweise kann es sich bei den Suchmustern um Raum-Zeit- Daten einer Geo-Datenbank handeln. Somit wird vorgeschlagen, mindestens einen Treffer in einer großen Datenmenge anhand eines graphischen Suchmusters zu finden, wobei das graphische Suchmuster von einem Benutzer vorzugsweise über eine graphische Schnittstelle neu erstellt oder modifiziert wird. Hierbei ist es von Vorteil, dass der Benutzer intuitiv komplexe Suchen umsetzen kann und eine graphische Darstellung von Eigenschaften und/oder Zusammenhängen für die Suche gezielt nutzen kann. Die Erfindung kann beispielsweise im Data-Mining, bei der Überwachung von Zuständen oder bei der automatisierten Alarmierung eingesetzt werden.

Obwohl die Erfindung im Detail durch das mindestens eine ge^¬ zeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Claims

Patentansprüche

1. Verfahren zur Bearbeitung einer Datenmenge,

- bei dem ein graphisches Suchmuster erstellt wird

(201) ,

- bei dem das Suchmuster in mindestens eine Abfrage um' gewandelt wird (202),

- bei dem die Abfrage auf eine Datenmenge angewandt

wird (203) .

2. Verfahren nach Anspruch 1, bei dem das Suchmuster über eine graphische Benutzerschnittstelle erstellt wird.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Suchmuster mittels eines zwei- oder dreidimensi^¬ onalen Scanners und/oder mittels mindestens einer Kamera erstellt wird.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Suchmuster basierend auf Daten der Datenmenge oder auf anderen Daten und/oder basierend auf mindestens einem anderen Suchmuster erstellt wird.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Suchmuster in mindestens eine Abfrage umgewan^¬ delt wird, indem die graphische Repräsentation des Such^¬ musters in Regeln, Bedingungen und/oder Zustände konvertiert wird.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren iterativ eingesetzt wird, wobei das Such^¬ muster in jedem Iterationsschritt erstellt wird.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Abfrage auf eine Datenmenge angewandt wird und mindestens ein Treffer in der Datenmenge bestimmt wird. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Abfrage auf eine Datenmenge angewandt wird und eine vorgegebene Aktion ausgeführt wird (205) , wenn ein mit dem Suchmuster übereinstimmende Treffer ermittelt wurde (204) .

Verfahren nach Anspruch 8, bei dem die vorgegebene Akti^¬ on mindestens einen Mitteilung, Anzeige und/oder Alarmierung umfasst.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Abfrage auf eine Datenmenge angewandt wird und die am besten mit dem Suchmuster übereinstimmenden Treffer bestimmt werden.

Verfahren nach Anspruch 10, bei dem die Treffer in einer vorgegebenen Reihenfolge, insbesondere entsprechend ei- ner Güte der Übereinstimmung mit dem Suchmuster, darge- stellt oder referenziert werden .

Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Suchmuster in mindestens eine Abfrage umgewan^¬ delt wird, wobei das das Suchmuster skaliert und/oder normiert wird.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem Eigenschaften des Suchmusters extrahiert werden, wo^¬ bei diese extrahierten Eigenschaften zumindest teilweise als veränderbare Parameter dargestellt werden.

Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Suchmuster und/oder die Abfrage als Zielfunktion für ein maschinelles Lernverfahren eingesetzt wird.

15. Vorrichtung zur Bearbeitung einer Datenmenge mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass - ein graphisches Suchmuster erstellbar ist, - das Suchmuster in mindestens eine Abfrage umwandelbai ist,

- die Abfrage auf eine Datenmenge anwendbar ist.

16. System umfassend mindestens eine Vorrichtung nach An^¬ spruch 15.

17. Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Pro^¬ grammcodeteile, die dazu geeignet sind, die Schritte de Verfahrens nach einem der Ansprüche 1 bis 14 durchzufüh ren .

18. Computerlesbaren Speichermediums umfassend von einem Computer ausführbare Anweisungen, die dazu geeignet sind, dass der Computer Schritte des Verfahrens nach ei nem der Ansprüche 1 bis 14 durchführt.