Verfahren und Vorrichtung zur automatischen Verarbeitung von Daten in einem Zellen-Format
Die Erfindung betrifft ein Verfahren zur automatischen
Verarbeitung von Daten mit den Merkmalen des Anspruchs 1 und ein System zur automatischen Verarbeitung von Daten mit den Merkmalen des Anspruchs 14.
In vielen Anwendungen liegen Daten in einem Zellenformat vor, wie es z.B. aus Spreadsheets bekannt ist. Üblicherweise können damit Daten einer Kategorie (z.B. in vertikal angeordneten Zellen) mit Daten aus anderen Kategorien (z.B. in horizontal angeordneten Zellen) verknüpft werden. Die Begriffe Zellen und Datenzellen werden hier synonym verwendet.
Dabei dienen Daten in Zellen-Format immer wieder als Importlnd / oder Export-Format für Programme. Die Anordnung der Daten in Zellen-Format hat sich als Schnittstelle zwischen Programmen etabliert .
Wenn Daten im Zellen-Format in ein Programm importiert v/erden sollen, ist es vorteilhaft, diese Daten vor dem Import
automatisch an die Informationsstruktur des Programms
anzupassen .
Es besteht daher die Aufgabe, ein Verfahren und eine
Vorrichtung zu entwickeln, bei der ein Datensatz automatisch so verändert wird, dass er bestimmte Vorgaben erfüllt.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Dabei werden Daten, insbesondere 'weichen Daten, in Zellenformat automatisch bearbeitet in, wobei
a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird,
b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle, insbesondere in der Nachbarschaft der ersten Zelle generiert wird,
c) in Abhängigkeit von mindestens einem vorbestimmten
Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.
Die automatische Ermittlung einer Maßzahl für die Ähnlichkeit von Datenzellen ermöglicht die weitere Bearbeitung der Daten. Dabei ist es vorteilhaft, wenn die Schritte b) und c) bis zu einem Abbruchkriterium, durchgeführt werden.
Die Erweiterung des Datenrechtecks erfolgt dabei
vorteilhafterweise in Abhängigkeit vom Vergleich der
berechneten Maßzahl für eine Ähnlichkeit und einem
vorbestimmten Schwellenwert .
In einer vorteilhaften Ausführungsform wird festgestellt, dass ausgehend von einer mit Daten gefüllten Datenzelle automatisch ermittelt wird, ob eine Beschriftung vorhanden ist. Unter einer Beschriftung ist hier ein String zu verstehen, der für eine Reihe von Zellen als eine Beschriftung aufgefasst werden kann. Die Verwendung der der Beschriftungsinformation ist für die spätere Weiterverarbeitung der reinen Zahleninformation
hilfreich, da die Zahl in einen Kontext gestellt wird.
Ferner ist es vorteilhaft, wenn die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen
Datentyps, des jeweiligen Nachkommastellen-Formats , der
jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer
Formeleigenschaft der jeweiligen Datenzellen, eines jeweils definierten Schutzes der Datenzelle, der jeweiligen Höhe der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen
Datenzellen und / oder der Struktur einer Formel in der
Datenzelle bestimmt wird. Auf diese Art und Weise kann eine aussagekräftige Bewertung der Ähnlichkeit erfolgen. Dabei können die Kriterien insbesondere in Kombination angewendet werden .
Da nicht alle dieser Kriterien in einem konkreten
Anwendungsfall gleichwertig sind, ist es vorteilhaft, wenn die Kriterien mit einem Gewichtungsfaktor versehen werden.
Für die weitere Auswertung der Daten ist es vorteilhaft, wenn Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst werden. Dies erlaubt eine verbesserte Zuordnung der Daten.
In vielen Fällen weisen Datenblätter ähnliche Strukturen auf, wie z.B. Umsatzzahlen über Jahre. Daher ist es vorteilhaft, wenn eine automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist. Damit kann das Verfahren im Laufe der Zeit schneller und besser erkennen, welche Daten sinnvoll in die Analyse einzubeziehen sind.
Ferner ist es vorteilhaft, wenn auf Grund der
Ähnlichkeitsanalyse automatisch eine Datei generiert 'wird, die Datenzellen aufweist, denen auf Grund der Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind.
Auch ist es vorteilhaft, wenn die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein
Tabellenkalkulationsprograinm integriert sind. Damit ist es möglich bereits in einem Tabellenkalkulationsprogramm die Analyse weicher Daten vorzunehmen.
Tabellenkalkulationsprogramme sind 'weit verbreitet und bieten Daten in Zellenformaten an, so dass hier eine vorteilhaft Verwendung des Verfahrens möglich ist.
In einer weiteren vorteilhaften Ausführungsform wird ein ermitteltes Datenrechteck automatisch in eine Datenbank integriert, die insbesondere mit einer Eingabeschablone verknüpft ist. Unter einer Eingabeschablone wird z.B. eine Eingabemaske verstanden .
Dabei ist es besonders vorteilhaft, wenn Daten mit ihren
Beschriftungen mit bereits in der Datenbank vorhandenen Daten und deren Beschriftung automatisch verglichen werden.
Vorteilhaft ist es insbesondere, wenn eine syntaktische
Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird. Damit kann automatisch die Ähnlichkeit von Datenzellen bestimmt werden.
Mit Vorteil kann das Verfahren in Zusammenhang mit einer
Tabellenkalkulation angewandt werden. Dafür können die
Berechnung der Maßzahl und die Anpassung der Größe des
Datenrechtecks in ein Tabellenkalkulationsprogramm integriert sein. So kann z.B. ermittelt werden, welche Bereiche in einem Datenblatt untereinander ähnlich sind, so dass diese ggf.
hervorgehoben, dass darauf Cursor gerichtet werden kann und / oder als eigene Datei abgespeichert werden kann.
Die Aufgabe wird auch durch ein System zur automatischen
Bearbeitung von Daten in Zellenformat gemäß Anspruch 14 gelöst, wobei eine Startzelle als erste Datenzelle für ein
Datenrechteck ausgewählt wird, mit einem Mittel zur
automatischen Bestimmung einer Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten Datenzelle, wobei in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die
Ähnlichkeit entscheidbar ist, ob das Datenrechteck in
horizontaler und / oder vertikaler Richtung erweitert wird.
Eine besonders vorteilhafte Lösung liegt vor, wenn ein
Tabellenkalkulationsprogramm ein integriertes System gemäß Anspruch 14 aufweist.
In Zusammenhang mit den Figuren werden Ausführungsbeispiele des Verfahrens und des Systems beschrieben. Dabei zeigen:
Fig. 1 ein Flussdiagramm einer Ausführungsform des
Verfahrens ;
Fia. 2 eine Darstellung eines einheitlichen XML-Envelope;
Fia. 3 eine schematische Darstellung des Datenaustauschs
zwischen einem Client und einem Server;
Fig. eine Bildschirmabbildung einer Exce 1-Datei, als
Datenquelle für das Verfahren;
Fig. 5 einen Ausschnitt aus der Tabelle der Fig. 4;
Fig. 6 eine tabellarische Darstellung der Berechnung der
Ähnlichkeiten zwischen Datenzellen;
Fig. 7 eine tabellarische Darstellung der Berechnung der Ähnlichkeiten zwischen weiteren Datenzeilen;
Fig, 8-10 eine Darstellung der Charakterisierung benachbarter
Datenzellen;
Fig. 11 ein Flussdiagrainm des Grundalgorithmus ;
Fig. 12-13 ein Beispiel für die Ermittlung von Größenordnungen
von Zellinhalten;
Fig. 14 ein Beispiel für die Erkennung von Streifenmustern ;
Fig. 15 ein Beispiel für die Erfassung von Beschriftungen;
Fig. 16 ein Flussdiagrainm für die Erfassung ähnlicher
Bereiche ;
Fig. 17-18 ein Beispiel für eine Ähnlichkeit ssucne ;
Fig. 19 ein Beispiel für die automatische Zuordnung eines
Datenrechtecks über die Beschriftung zu einem
Fragebogen ;
ein Beispiel für eine Tabelle nach der Bearbeitun der Datenzeilen,;
ein Beispiel für XML-Code für syntaktis
Unifikation;
Fig. 22 eine Ansicht eines Fragebogens.
Im Folgenden v/erden einige Ausführungsformen beispielhaft beschrieben .
Bei den Ausführungsbeispielen geht es darum, eine technische Schnittstelle bereitzustellen, Vielehe eine automatisierte, intelligente Verarbeitung externer Daten sicherstellt. Die technische Herausforderung liegt hier in der eigenständigen Analyse von Internetbasierten Daten zu exogenen Informationen, wie z.B. Strategieinformationen 'wie Märkte, Wettbewerber, Trends, Finanzdaten und die automatisierte Zuordnung zu
Fragebogeninhalten, ohne dass der Anwender diesen
Übertragungsprozess manuell unterstützen muss. Auch die
Bereitstellung technischer Schnittstellen zu Excel gehört dazu.
Als Beispiel für die Ausführungsformen 'wird die Verarbeitung von Daten im Zellen-Format in Verbindung mit der Software Solyp beschrieben, die u.a. in dem Buch von A. Zimmermann,
„Praxisorientierte Unternehmensplanung mit harten und weichen Daten: Das Strategische Führungssystem" beschrieben ist.
Grundsätzlich sind die hier beschrieben Ausführungsformen auch mit anderen Softwaresystemen umsetzbar. So ist es z.B. möglich, die automatische Berechnung der Maßzahl für die Ähnlichkeit und die Anpassung des Datenrechteckes in einem
Tabellenkalkulationsprogramm zu integriere .
Im Umfeld weicher Daten (z.B. Daten ohne eine harte,
vorbestimmte Formatbeschreibung und / oder Daten mit einer mit Ausnahmen behaftete Formatbeschreibung) ist es unabdingbar, auch das Thema „externe Schnittstellen" in diesem Licht zu sehen .
Ein Beispiel für weiche Daten si d betriebswirtschaftliche Informationen, die sich nicht durch Kennzahlen ausdrücken lassen .
Neben den harten Systemschnittstellen zu IT-technisch wohlbekannten Vorsystemen wie SAP-BW, zeichnet sich das
tägliche Geschäft mit weiche Daten für die vielen einzelnen Anwender dadurch aus, dass sie in persönlicher Verantwortung mit einer Vielzahl von anderen Stellen strategische und weiche Informationen austauschen.
Im Gegensatz zum generischen Excel-Export aus dem SOLYP System zum Beliefern externer Systeme, existiert bisher noch keine zufriedenstellende Lösung zum Importieren beliebiger Daten aus beliebigen Vorsystemen, also einer weichen Schnittstelle in dem Sinne, dass keinerlei harte, technische Formatbeschreibung vorausgesetzt wird.
Zum einen ist der heutige harte Excel-Import für einen
Fragebogen {d.h. einem Abfrageschablone für einen
Dateneingebenden) neu und individuell zu entwickeln; ganz zu schweigen vom Aufwand, die Daten in eben dieser Form zu
liefern. In diesem. Zusammenhang stellt ein Fragebogen eine strukturierte Schablone dar, in die nicht besonders für diese Schablone angepasste Daten aus einer Datenquelle importiert werden können. Der hier beschriebene Algorithmus analysiert die Informationen in der Datenquelle, um. u.a. Ähnlichkeiten, zu ermitteln. Diese berechneten Informationen werden dann in die Schablone importiert, wobei die Schablone nur allgemeine
Vorgaben enthält, die eine Zuordnung der analysierten Daten aus der Datenquelle ermöglichen. Solche Vorgaben können z.B. die Metadaten {Tabellenname, Fremdschlüssel, Spaltennamen etc.) einer relationalen Datenbank sein, die mit der Schablone verknüpft ist .
Damit ist es möglich, die in die Datenbank integrierten Daten mit bereits in der Datenbank vorhandenen Daten zu vergleichen.
Somit rauss die Schablone nicht über umfangreiche Vorgaben verfügen, die die Zuordnung ermöglichen; die „Intelligenz" für
die Zuordnung der Daten steckt im Verfahren, nicht in der
Datenbank oder der Schablone oder der Datenquelle.
Zum anderen ist die Möglichkeit Daten via Ausschneiden,
Kopieren, Einfügen ( Cut /Copy/Paste ) über die Zwischenablage in SOLYP zu übernehmen, mit sehr viel manuellem Aufwand verbunden. Ziel der hier beschriebenen Ausführungsform ist es, genau diese Lücke zu füllen und es zu ermöglichen, mit minimalem Aufwand Daten aus nicht vorab bekannten Quellen entgegenzunehmen, ihre Struktur anhand von vorgegebenen Mustern automatisiert zu analysieren und sie dann im dazu passenden Solyp Datenformat, d.h. einem Fragebogen abzulegen.
Eine Ausführungsform des Gesamtverfahrens gliedert sich in drei Phasen, wobei die wichtigste zweite Phase wiederum drei Stufen durchläuft .
In Fig. 1 wird ein Flussdiagramm, dargestellt, bei dem diese Phasen dargestellt sind.
Die Phase der Syntaktischen Unifikation (Fig. 1, Schritte 1.1 bis 1.5) ist grundsätzlich bereits bekannt.
Die Phase der automatischen Analyse (Fig. 1, Schritte 2.1 bis 2.3) betrifft die automatische Verarbeitung der Daten im
Zellen-Format, die hier neu beschrieben wird.
In der dritten Phase werden dann verschiedenen Möglichkeiten der Weiterverarbeitung (Fig. 1, Schritte 3.1 bis 3.2
beschrieben) .
1. Syntaktische Unifikation
Aus einer beliebigen Quelle und in beliebigem Daten-Format sollen Daten in eine Software, insbesondere Solyp übernommen werden. Dazu 'wird auf einem Client (z.B. einem. Browser) eine Datenquelle ausgewählt (Fig. 1: Schritt 1.1; Fig. 3: Schritt 1), die per Knopfdruck oder via Drag ' n ' Drop auf einen Server
(Fig. 1: Schritt 1.2; Fig. 3: Schritt 2) übertragen wird. Dies wird auch als „binary upload" bezeichnet .
Auf dem Server sind für verschiedene Datei-Formate (d.h. File- Formate - nicht zu verwechseln mit dem freien Format der Daten innerhalb der Datei) Leseroutinen installiert, um das File zu öffnen und in ein einheitliches Dateiformat (z.B. xml) zu übertragen (Fig. 1: Schritt 1.3; Fig. 3: Schritt 3).
Bei dieser Umwandlung - im Beispiel aus einem Excel Format - bleiben (möglichst) alle inhaltlichen Aspekte (z.B. definiert durch Kriterien, die im Folgenden noch näher erläutert v/erden) erhalten (dazu gehören auch Layout und ähnliches) und es geht nur die technische Nutzbarkeit für das Programm (hier Excel) verloren (Fig. 1: Schritt 1.4) . Es ist also theoretisch
möglich, aus dieser XML-Repräsentation wieder eine
„Originalkopie'" herzustellen .
Somit werden beliebige, insbesondere auch proprietäre
Dateiformate in XML-Daten umgewandelt, mit denen dann eine Weiterverarbeitung der Daten möglich ist. Mögliche Dateiformate können z.B. von Textverarbeitungsprogrammen wie z.B. Word oder OpenOffice, oder Präsentationsprogrammen, wie z.B. PowerPoint erzeugt werden. Auch PDF-Formate und HTML-Dokumente können als Ausgangspunkt für die Umwandlung dienen.
Das Verfahren und System, gemäß der hier vorliegenden
Beschreibung weist somit eine Art Transformator von
proprietären Dateiformaten in ein XML-Format auf. Das
einheitliche XML-Format enthält dann eine Repräsentation des Zellenformats und ggf. auch der Verbindungen zwischen den
Datenzellen (z.B. Formeln) .
Praktisch wird ein einheitlicher XML-Envelope definiert (Fig. 2), indem sich, je nach File-Format, adäquate Repräsentationen einbetten lassen (zwei Beispiele) :
• Eine übliche Excel-Datei (*.xls) wird von Makros befreit und z.B. in ein Derivat des „CALS Table Model" OASIS Technical Memorandum TM 9502:1995 (http: //www . oasis- open.org/specs/a5Q2.htm) überführt . Layout-Informationen sowie Formel-Quelltext bleiben zusammen mit den Zahlen und Textwerten erhalten. Siehe z.B. auch M11-M-38784B
Standard :
8 Für eine Quelle in HTML, also eine allgemein übliche
Webseite im Internet, wird der HTML-Quellcode von
dynamischen .Javascript-Bestandteilen befreit und in xhtml transkribiert .
In ähnlicher Weise lassen sich Powerpoint Dateien im .ppt
Format {ebenfalls ein proprietäres Format) bearbeiten.
In den Fig. 2 und Fig. 21 wird an einem Beispiel gezeigt, wie ein XML-Download (siehe Fig. 3, Schritt) aussehen kann. Fig. 2 zeigt dabei eine Visualisierung der XML-Grammatik.
Die resultierende XML-Datei wird nun an die Client-Komponente zurückgegeben (Fig. 1: Schritt 1.5; Fig. 3: Schritt 4), die nun ohne spezielle Bibliotheken zur Dateikonvertierung die
Quelldaten analysieren und eingeschränkt präsentieren kann.
Fig. 4 zeigt eine Bildschirmabbildung einer Excel-Datei, die als Datenquelle für das Verfahren dienen kann. Im Folgenden wird die automatische Analyse beschrieben, die von diesem
Format ausgeht .
2. Automat i sche Ana1yse
Die automatische Analyse der Daten findet vorteilhafterweise auf Seiten des Clients (d.h. des Browsers) statt, um. zum. einen die teuere, zentrale Rechenleistung des Servers zu entlasten und beliebig zu skalieren.
Ziel ist es, Bereiche (d.h. Datenzellen) in der Quelle, d.h. hier einer .xlsx Datei oder deren Repräsentation in xml, zu
identifizieren, die bestimmte strukturelle {z.B. rechteckiger Bereich von Zahlen in einer Tabelle) oder inhaltliche (z.B. „EBIT" als Kennzahl und „2010" als aktuelles Jahr) Merkmale aufweisen. Diese Bereiche Vierden im Folgenden als
„Datenrechtecke" bezeichnet. Der Begriff inhaltliches Merkmal ist so zu verstehen, dass es Identifier (z.B. eine Überschrift) in der Datenquelle gibt, die bestimmte Daten (z.B. in den benachbarten Datenzellen) kategorisieren . Für die folgende Beschreibung kommt es also nicht auf den Inhalt dem Sinn nach an, sondern in der Zuordnung von Datenzellen zu einem
Identifier .
Anschließend wird dieser Bereich einem Teil eines Fragebogens automatisch zugeordnet, indem aus der Form der Information (z.B. erste Spalte und Spaltenüberschriften) auf die fachliche Dimensionierung geschlossen wird (z.B. verschiedene Kennzahlen in mehreren Jahren) . Somit ist es möglich, den Identifier in dem Fragebogen (z.B. Datenbank verknüpft mit Eingabeschablone) zu ermitteln, um dann eine Umwandlung der maßgeblichen Daten zu erreichen .
Der Fragebogen entspricht dabei einer Datenbanktabelle, die fachliche Dimensionierung entspricht dem. primarv key dieser Tabelle, die Zuordnung ist eine Suchanfrage nach dem primary key im Metadatenrepository der Datenbank.
2.1 „Datenrechteck"
Anhand von Informationen in der Datei ist es möglich das
Datenrecheck zu charakterisieren (Fig. 1: Schritt 2.1) . Dabei stehen eine Reihe von Parametern zur Verfügung, die von
Programmen, die mit Zellen-Formaten umgehen zur Verfügung gestellt werden. Ausgehend von einer ersten Datenzelle können diese z.B. durch folgende Kriterien charakterisiert werden:
* Datentyp
• Nachkommastellen
• Größenordnung
• Fett /Kurs! /Farbe/Schrift /Rahmen
• Formel
• Zellschutz
• Zellenhöhe/breite
Ein weiteres Kriterium ist die Struktur einer Formel in einer der Datenzellen. Selbst wenn die Zahlen in Formeln benachbarter Zellen unterschiedlich sind, so ka n die syntaktische Struktur (Zerlegung in Terme) einer Formel (z.B. eine Summe, einer exponentieller Ausdruck etc.) Aufschluss über die Ähnlichkeit der zu vergleichenden Zellen geben. Die syntaktische Struktur erlaubt die Analyse der Formel ohne Zahlen- und / oder
Datenzeilenbezug .
Ein weiteres Kriterium kann der Bezug der Datenzellen in einer Formel sein. Dabei kann ein absoluter Bezug oder ein relative Bezug ausgewertet werden.
Auch kann die Semantik einer Formel als Kriterium verwendet werden, indem z.B. automatisch erkannt wird, dass zwei Arten von MittelWertberechnung in zwei Datenzellen enthalten sind, deren Syntax unterschiedlich ist, das Ziel der Berechnung aber ähnlich ist.
Dabei ist es auch möglich, dass automatisch erkannt wird, das eine fehlende Formel in Nachbarschaft von existierenden Formeln extra- oder interpoliert wird. Dazu wird in die Datenzelle ohne Formel eine Formel geschrieben, die sich aus den umliegenden ergibt. Es kann dann eine Plausibilität skontrolle durchgeführt werden, ob z.B. ein Zahlenwert, der anstelle der Formel in der Datenzelle steht, wertmäßig mit der extra- oder interpolierten Formel übereinstimmt oder wertmäßig in der gleichen
Größenordnung liegt.
Grundsätzlich ist es möglich, einige oder alle dieser Kriterien zur Charakterisierung zu verwenden.
In Fig. 5 ist beispielhaft ein Ausschnitt aus Fig. 4
dargestellt. Die Zahl „89,3" soll als erste Datenzelle dienen, von der ausgehend automatisch eine Ähnlichkeit zu Nachbar- Datenzellen ermittelt wird, da die technische Bewertung der „Ähnlichkeit" zweier Zellen von besonderer Bedeutung für das automatische Verfahren ist. Die Ähnlichkeit zweier Datenzellen wird über den Abgleich der jeweiligen Kriterien gebildet.
Für "jedes Kriterium wird einzeln eine prozentuale „Ähnlichkeit" gebildet. Dann wird zur Erhöhung der Fehlertoleranz der
schlechteste Wert gestrichen und die übrigen Werte mit einer (gelernten) Gewichtung addiert.
In Fig. 6 ist in Form einer Tabelle die Berechnung der
Ähnlichkeit zwischen den Datenzellen „89,3" und „161,6" (linke Nachbar-Datenzelle von „89,3", siehe Fig. 8) dargestellt. Da beide das Kriterium einer ZAHL erfüllen, beträgt die
Übereinstimmung 100%. Da dieses Kriterium eine hohe Bedeutung hat, geht es in die Ähnlichkeitsberechnung mit einem Gewicht von 30% ein. Die Formatierung der Nachkommastellen geht mit einem relativ geringen Gewicht in die Berechnung ein, hier 5%. Die Übereinstimmung zwischen den Datenzellen beträgt hier 100%.
In die Ähnlichkeit fließt auch die Größenordnung der Zahlen ein, um z.B. Ausreißer zu ermitteln. Im vorliegenden Beispiel werden die Größenordnungen über ein logarithmisches Maß
ermittelt. Hier werden die dekadischen Logarithmen ermittelt, bei sich eine absolute Differenz von 0,26 zwischen den Werten ergibt. In Prozent umgerechnet v/ird die Übereinstimmung als 100 - 26 = 74% angegeben.
Die übrigen Kriterien in Fig. 6, d.h. Formatierung (Fett/
Kursiv Farbe/ Schrifttype/ Rahmen etc.), Formel, Zellschutz
und Zellenhöhe und -breite sind bei beiden Datenzellen identisch, so dass hier 100% Übereinstimmung besteht.
Bei dem Kriterium „Formel" kann entweder der berechnete Wert verglichen werden oder die Formel als „Text" einem. Längen- und / oder Strukturvergleich unterzogen Vierden.
Wenn die Übereinstimmungen ermittelt worden sind, kann ein Ausreißer bestimmt werden. Im Beispiel der Fig. 6 wurde das Kriterium der Größenordnung als Ausreißer definiert, da in diesem. Kriterium die Übereinstimmung am geringsten war. Die Streichung dieses Ergebnisses, ergibt den besten Gesamtwert, was im Übrigen als Definition des Ausreißers verstanden werden kann .
Die Gesamtähnlichkeit (letzte Zeile in Fig. 6) 'wir dann aus den Übereinstimmungen (unter Berücksichtigung der Gewichte) berechnet, wobei im Divisor die Summe der relevanten Gewichte (d.h. ohne Ausreißer) steht.
Die Gesamtähnlichkeit der Datenzellen mit den Zahlen „89,3" und „161,6" wird mit 100% berechnet.
Im Zusammenhang mit Fig. 7 wird eine analoge Berechnung für die Ähnlichkeit der Datenzellen mit den Zahlen „89,3" und „2003" (siehe auch Fig. 9) durchgeführt, wobei das Verfahren zwar nicht die inhärente Bedeutung der Zahl „2003" als Jahreszahl kennt, aber durch die später beschriebene Methode des
Vergleichs mit Dimensionswerten kategor isiert wird. Im. Beispiel Fig. 7 ist dieser Umstand nicht berücksichtigt.
Es sei darauf hingewiesen, dass im Beispiel der Fig. 7 der Ausreißer etwas anders bestimmt wird, da hier bei drei
Kriterien eine Übereinstimmung von 0% ermittelt wurde. Als Ausreißer wird das Kriterium, mit der höchsten Gewichtung, hier also die „Größenordnung" als Ausreißer gewertet. Demnach ist der Divisor bei der Berechnung der Gesamtbewertung 1-0,15.
Wird beispielsweise eine formatierte Jahreszahl als
Spaltenüberschrift mit einem Umsatzwert verglichen, so ergibt sich sowohl bei Toleranzschwellen von 90% als auch 80% die korrekte Bewertung der Unähnlichkeit . Somit stellt das
Verfahren automatisch (ohne Vorkenntnisse) fest, das zwischen den Datenzellen mit den Zahlen „89,3" und „2003" eine
erhebliche Unähnlichkeit besteht. Die Toleranzschwelle ist die Grenze bei der der prozentuale Ähnlichkeitswert als Ja/Nein- Entscheidung „Ahnlich" interpretiert wird.
Von der ersten Datenzelle ausgehend werden sowohl vertikal (siehe Fig. 8), als auch horizontal (siehe Fig. 9) zuerst die unmittelbaren und dann 'weiteren Nachbarn (siehe Fig. 10) ebenfalls charakterisiert und mit der Ausgangscharakterisierung verglichen. Dieser Vergleich führt zu dem positiven Ergebnis „ähnlich", 'wenn nur wenige Aspekte (bis zu einem gewichteten Sc we11wert) unterschied1 ich sind .
Auf diese Weise entsteht zuerst eine Zeile bzw. Spalte relativ ähnlicher Datenzellen. Als nächster Schritt wird dieser
zunächst eindimensionale Streifen in der zweiten Dimension auf die Nachbarn erweitert, falls diese „ähnlich" genug sind. Nun wird dieses Verfahren immer wieder in den beiden Richtungen wiederholt, bis sich eine möglichst große, rechteckige Fläche „ähnlicher" Datenzellen ergibt.
Da in der Praxis die strategisch relevanten Informationen nicht unbedingt vollständig vorliegen, ist die konstruktive
Behandlung von Leerzellen ein wichtiger Punkt. Per definitionem ist eine Datenzelle zu einer benachbarten Leerzelle „ähnlich". Die Ausbreitung des Datenbereichs stoppt also nicht an leeren Datenzellen, 'wobei selbstverständlich verhindert 'werden muss, dass vollständig ungefüllte Bereiche und insbesondere die
Restfläche eines Datensheets nicht als zum Datenbereich gehörig interpretiert wird.
Der Grundalgorithmus (siehe Fig. 11) zur Suche des
Datenrechtecks ist damit umrissen. In Fig. 11 ist eine
Ausführungsform dargestellt, bei der ausgehend von einer
Startdatenzelle zunächst in horizontaler Richtung die
Ähnlichkeit benachbarter Datenzellen bestimmt wird. Wenn die Ähnlichkeit einen bestimmten Schwellenwert_l erreicht ist, 'wird das Datenrechteck in horizontaler Richtung erweitert .
Anschließend wird die Ähnlichkeit in vertikaler Richtung bestimmt. Wenn ein bestimmter Schwellenwert_2 erreicht ist, wird das Datenrechteck um eine vertikale Nachbar-Datenzelle erweitert und das Verfahren wird mit der Berechnung in
horizontaler Richrung weitergeführt. Ist Schwellenwert_2 nicht erreicht, wird geprüft, ob im Schritt vorher eine horizontale Erweiterung vorgenommen wurde. Wenn ja, dann wird mit der wiederholten Bestimmung der Ähnlichkeit in horizontaler
Richtung fortgefahren. Wenn nicht, dann hat der Algorithmus ein stabiles Rechteck identifiziert, dass weder horizontal, noch vertikal erweiterbar ist und das Programm hat seine Aufgabe erfüllt .
Im Folgenden werden noch zwei weiter vorteilhafte Ergänzungen beschriebe .
Ausgehend vom Beispiel {Fig. 4) KPI (d.h. Key Performance
Indicator) x Jahr kann die Größenordnung verschiedener KPIs sehr unterschiedlich sein und im Einzelfall passt auch der Datentyp 'wie von EBIT und EBIT-Marge nicht zusammen (Fig. 12) .
Deshalb wird in den beiden Richtungen mit unterschiedlichen Schwellwerten für „ähnliche" Werte gearbeitet. Es steht zu Beginn nicht fest, welche Richtung sich stärker Unterscheiden darf, sondern beide Hypothesen betrachtet und die mit besserer „Gesamtähnlichkeit" gewählt (Fig. 13) . In Fig. 13 sind die unterschiedlichen Prozentangaben für die Ähnlichkeit durch Doppelpfeile in x- und in y-Richtung angegeben.
Noch einen Schritt weiter geht die Erkennung von
„Streifenmustern". Nach jeder Jahresspalte kann beispielsweise der prozentuale Wachstumswert zum Folgelahr aufgeführt sein. Es wechseln sich Prozent- und Absolutwerte, eventuell noch durch unterschiedliches Layout hervorgehoben, gegenseitig ab. Zur automatischen Erkennung dieser Datenlage werden zwei
Datenzellen gemeinsam betrachtet, die dann als Paar zum
benachbarten Folgepaar auf „Ähnlichkeit" geprüft werden. In Fig. 14 ist dargestellt, das zu jeder Jahresspalte noch eine prozentuale Änderung gehört.
2.2 Zusätzliche Suche nach Schlüsselwörtern
Nachdem ein Datenbereich, d.h. das Datenrechteck in der Quelle identifiziert wurde (siehe Fig. 1, Schritt 2.1; Fig. 11), wird in diesem Schritt die Klassifizierung dadurch abgeschlossen, dass die noch fehlende Beschriftungsinformation hinzugefügt wird .
An allen vier Seiten des Datenrechtecks können sich
Spaltenköpfe, Zei 1enbeschriftungen , Kommentarspa11en,
Summenzeilen und ähnliches anschließen. Dazu wird das bisher ermittelte Datenrechteck sowohl horizontal als auch vertikal erweitert, so dass bis zu neun Anschnitte entstehen: das
Datenrechteck in der Mitte, vier Seiten mit Köpfen und
Beschriftungen, sowie vier Eckbereiche, die entweder leer sind oder z.B. statischen Text enthalten. In Fig. 15
umfasst das Datenrechteck 9x4 Datenzellen. Die umgebenden
Beschriftungen sind durch Umkreisung dargestellt. Die
Beschriftung oberhalb umfasst 9x1 Datenzellen, die Beschriftung unterhalb ebenfalls 9x1 Datenzellen. Links und rechts sind jeweils 1x4 Zellen angeordnet. Hinzukommen jeweils Zellen in den Ecken, die in Fig. 15 durch Kreuze hervorgehoben sind.
Um die Ausmaße der Randbereiche zu bestimmen kommen zwei kombinierte Strategien zum Einsatz. Die erste Strategie ist in Fig. 16 in Form eines Flussdiagramms beschrieben. Es sei darauf hingewiesen, dass diese Ausführungsform des Verfahrens
grundsätzlich unabhängig als auch in Kombination mit dem
Verfahren zur Ermittlung eines Datenrechtecks (z.B. Fig. 11) verwendbar ist.
Die beschriebene "Suche nach Schlüsselwörtern" kann auch schon im Zusammenhang mit der Suche nach dem Datenrechteck verwendet werden. Hierzu bekommt ein Merkmalsvektor für jede fachliche Dimension ("Zeit", "Marktteilnehmer" etc.) jeweils einen
Eintrag, der die Zugehörigkeit des Zellwertes zur
entsprechenden Dimension mit einer Ähnlichkeit von 0% bis 100% bewertet. Dies geschieht sowohl über inhaltliche Muster
(Regulär Expressions) als auch unter Zugriff auf die
vorhandenen Daten (z.B. die Bezeichnung einer Entität) in den Dimensionssystemen des Zielsystems .
Somit steht für die automatisierte Ähnlichkeitsbetrachtung im Algorithmus ein weiteres, eher semantisches Merkmal bereit, das schon während der Analyse zur Identifikation des Daten- oder Überschriften-Rechtecks beiträgt. Praktisch lassen sich dadurch z.B. Text zellen mit Kommentaren (also ohne
Dimensionsübereinstimmung) von Textzellen mit Namen von
Marktteilnehmern (Suchtreffer in einer Tabelle der
Marktteilnehmer) unterscheiden, obwohl diese unter Umständen das gleiche Zell-Layout verwenden.
Neben der Analyse mit dem Algorithmus gemäß Fig. 16 zur
Identifikation von in sich ähnlichen Bereichen, wird
vorteilhafterweise zusätzlich auch der konkrete Inhalt der Datenzellen in der Ähnlichkeitsanalyse betrachtet. Da sich in der Beschriftung häufig die Bezeichnungen der Werte einer
Dimension eines Datenwürfels befinden, wird jeder Zellwert im Raum aller bisher bekannten Dimensionsausprägungen gesucht und im Falle eines gefundenen Wertes dieses Kriterium zusätzlich in der Ähnlichkeitsbetrachtung dazugerechnet .
Hierdurch lassen sich beispielsweise Jahreszahlen, die Namen von Wettbewerbern oder Scoring-Symbole „-+" schon größtenteils eindeutig zuordnen. Es entsteht somit für jede Datenzelle ein neues vergleichbares Merkmal „zugeordnete Dimension", das in der „Ähnlichkeit ssuche" für Bereiche mit herangezogen wird (Fig. 17 und 18) .
In Fig. 17 sind zwei unterschiedliche Ausschnitte aus den
Stammdaten einer, das Verfahren verwendenden Rahmenapplikation dargestellt. Bei der linken Darstellung ist eine Spalte mit Jahreszahlen erfasst worden, bei der rechten Darstellung eine Reihe von Mitbewerbern, hier Automobilfirmen.
In einer Ausführungsform des Verfahrens wird in der Datenbank gesucht, ob diese Daten bereits einmal vorgekommen sind. Diesen können Dimensionsattribute zugeordnet Vierden, wie z.B. in Fig. 18 für die Werte BMW und VW; beides sind Marktteilnehmer { MT ) . Daraus lässt sich wieder eine Ähnlichkeit berechnen, hier 100%.
In der Praxis kann diese Analyse auch schon initial für das primäre Datenrechteck durchgeführt, kommt aber Aufgrund der Zahlenlast igkeit dort meist nicht zum Tragen.
2.3 Vergleiche mit Dimensionierung der Datenwürfel
Die über die Suche nach Schlüsselwörtern erfolgte Zuordnung von Dimensionen zu Datenzellen ermöglicht die Zuordnung von
Dimensionen zu kompletten Zeilen-/ Spaltenbeschriftungen, also die Einordnung des erkannten Datenbereichs in ein
mult idimensionales Datenmodell {Fig. 1, Schritt 2,3), der auch als Datenwürfel bezeichnet werden kann.
Ein Datenwürfel kann als mehrdimensionale Matrix aufgefasst werden, wobei die Spalten und Reihen die Dimensionen
darstellen, die Dateneinträge stellen die Information in dem Datenwürfel dar.
Somit wird beispielsweise ein Bereich aus Festkommazahlen mit Jahreszahlen als Spaltenköpfen und betriebswirtschaftlichen Kenn zahIbeZeichnunge wie „EBIT" für die Beschriftung der Zeilen als 2-dimensionales Grid in den Dimensionen ,,ΚΡΙ x Jahr erkannt .
Als letzter automatischer Schritt erfolgt nun die Zuordnung zu einem Fragebogen (in Fig. 19 mit „QUEST_PART" bezeichnet), indem nach dem Vorkommen dieser Dimensionskombination im.
Gesamtkatalog aller Fragebögen gesucht wird. Die
Dimensionskombination „KPI x Jahr" wird so beispielsweise dem zentralen Datenbereich des Fragebogens „Finanz ziele im
Businessplan" (in Fig. 19 mit „BUPLA DATA" bezeichnet)
zugeordnet .
Sollte diese Zuordnung nicht eindeutig sein, so deutet entweder ein statischer Text im Eckbereich der Quelle auf den richtigen Fragebogen, oder es werden dem Endanwender, wie nachfolgend beschrieben, die verschiedenen Treffer zur manuellen Auswahl angeboten ,
In obigem Beispiel {siehe auch Fig. 19) kennzeichnet „ZI" die alleinige Verwendung der Dimension „Jahr" (KPI ist implizit) und von den drei damit möglichen Fragebögen wurde sich für den „BUPLAN 810" entschieden.
In Fig. 20 ist ein Endprodukt nach der Bearbeitung der
Datenzellen dargestellt. Die ähnlichen Bereiche, z.B.
Jahreszahlen sind gekennzeichnet. Das Verfahren auch
automatisch erkannt, dass die Datenzellen A6 bis A9
Marktteilnehmer, die Datenzellen B5 bis J5 Jahre und die
Datenzellen B6 bis J9 Marktanteile enthalten.
Somit wird automatisch auf Grund der Ähnlichkeitsanalyse eine Datei generiert, deren Datenzellen bestimmte Attribute zuordbar sind .
3. Weitere Datenverarbeitung
Für die weitere Verarbeitung des automatisch berechneten
Datenrechtecks gibt es eine Reihe weiterer
Verarbeitungsmögl ichkeiten .
Die Ausführungsform gemäß Fig. 1 kann z.B. mit einem lernenden System gekoppelt sein, so dass bestimmte zusammenhänge zwischen den Datenzellen und der Struktur eines Spreadsheets gespeichert werden .
In Fig. 22 ist eine Ansicht eines Fragebogens dargestellt, in den die Daten aus Fig. 20 eingelesen wurden. Mit dem. zuvor besch iebenen Verfahren konnten die Daten aus einer externen Quelle, bei der die Zahlen in einem ganz anderen Zusammenhang standen, erfasst und analysiert werden. Dabei stellt das
Verfahren automatisch Zusammenhänge her, die letztlich eine qualifizierte Datenübernahme wie in der der Fig. 22 dargestellt ermöglichen .