EP2601594A1

EP2601594A1 - Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format

Info

Publication number: EP2601594A1
Application number: EP11749377.5A
Authority: EP
Inventors: Martin RÜGAMER
Original assignee: SOLYP Informatik GmbH
Current assignee: SOLYP Informatik GmbH
Priority date: 2010-08-06
Filing date: 2011-08-04
Publication date: 2013-06-12
Also published as: WO2012017056A1

Abstract

Die Erfindung betrifft ein Verfahren und ein System zur automatischen Bearbeitung von Daten, insbesondere weichen Daten, in Zellenformat, wobei a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird, b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweite Datenzelle, insbesondere in der Nachbarschaft der ersten Datenzelle generiert wird, c) in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.

Description

Verfahren und Vorrichtung zur automatischen Verarbeitung von Daten in einem Zellen-Format

Die Erfindung betrifft ein Verfahren zur automatischen

Verarbeitung von Daten mit den Merkmalen des Anspruchs 1 und ein System zur automatischen Verarbeitung von Daten mit den Merkmalen des Anspruchs 14.

In vielen Anwendungen liegen Daten in einem Zellenformat vor, wie es z.B. aus Spreadsheets bekannt ist. Üblicherweise können damit Daten einer Kategorie (z.B. in vertikal angeordneten Zellen) mit Daten aus anderen Kategorien (z.B. in horizontal angeordneten Zellen) verknüpft werden. Die Begriffe Zellen und Datenzellen werden hier synonym verwendet.

Dabei dienen Daten in Zellen-Format immer wieder als Importlnd / oder Export-Format für Programme. Die Anordnung der Daten in Zellen-Format hat sich als Schnittstelle zwischen Programmen etabliert .

Wenn Daten im Zellen-Format in ein Programm importiert v/erden sollen, ist es vorteilhaft, diese Daten vor dem Import

automatisch an die Informationsstruktur des Programms

anzupassen .

Es besteht daher die Aufgabe, ein Verfahren und eine

Vorrichtung zu entwickeln, bei der ein Datensatz automatisch so verändert wird, dass er bestimmte Vorgaben erfüllt.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Dabei werden Daten, insbesondere 'weichen Daten, in Zellenformat automatisch bearbeitet in, wobei a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird,

b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle, insbesondere in der Nachbarschaft der ersten Zelle generiert wird,

c) in Abhängigkeit von mindestens einem vorbestimmten

Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.

Die automatische Ermittlung einer Maßzahl für die Ähnlichkeit von Datenzellen ermöglicht die weitere Bearbeitung der Daten. Dabei ist es vorteilhaft, wenn die Schritte b) und c) bis zu einem Abbruchkriterium, durchgeführt werden.

Die Erweiterung des Datenrechtecks erfolgt dabei

vorteilhafterweise in Abhängigkeit vom Vergleich der

berechneten Maßzahl für eine Ähnlichkeit und einem

vorbestimmten Schwellenwert .

In einer vorteilhaften Ausführungsform wird festgestellt, dass ausgehend von einer mit Daten gefüllten Datenzelle automatisch ermittelt wird, ob eine Beschriftung vorhanden ist. Unter einer Beschriftung ist hier ein String zu verstehen, der für eine Reihe von Zellen als eine Beschriftung aufgefasst werden kann. Die Verwendung der der Beschriftungsinformation ist für die spätere Weiterverarbeitung der reinen Zahleninformation

hilfreich, da die Zahl in einen Kontext gestellt wird. Ferner ist es vorteilhaft, wenn die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen

Datentyps, des jeweiligen Nachkommastellen-Formats , der

jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer

Formeleigenschaft der jeweiligen Datenzellen, eines jeweils definierten Schutzes der Datenzelle, der jeweiligen Höhe der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen

Datenzellen und / oder der Struktur einer Formel in der

Datenzelle bestimmt wird. Auf diese Art und Weise kann eine aussagekräftige Bewertung der Ähnlichkeit erfolgen. Dabei können die Kriterien insbesondere in Kombination angewendet werden .

Da nicht alle dieser Kriterien in einem konkreten

Anwendungsfall gleichwertig sind, ist es vorteilhaft, wenn die Kriterien mit einem Gewichtungsfaktor versehen werden.

Für die weitere Auswertung der Daten ist es vorteilhaft, wenn Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst werden. Dies erlaubt eine verbesserte Zuordnung der Daten.

In vielen Fällen weisen Datenblätter ähnliche Strukturen auf, wie z.B. Umsatzzahlen über Jahre. Daher ist es vorteilhaft, wenn eine automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist. Damit kann das Verfahren im Laufe der Zeit schneller und besser erkennen, welche Daten sinnvoll in die Analyse einzubeziehen sind.

Ferner ist es vorteilhaft, wenn auf Grund der

Ähnlichkeitsanalyse automatisch eine Datei generiert 'wird, die Datenzellen aufweist, denen auf Grund der Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind. Auch ist es vorteilhaft, wenn die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein

Tabellenkalkulationsprograinm integriert sind. Damit ist es möglich bereits in einem Tabellenkalkulationsprogramm die Analyse weicher Daten vorzunehmen.

Tabellenkalkulationsprogramme sind 'weit verbreitet und bieten Daten in Zellenformaten an, so dass hier eine vorteilhaft Verwendung des Verfahrens möglich ist.

In einer weiteren vorteilhaften Ausführungsform wird ein ermitteltes Datenrechteck automatisch in eine Datenbank integriert, die insbesondere mit einer Eingabeschablone verknüpft ist. Unter einer Eingabeschablone wird z.B. eine Eingabemaske verstanden .

Dabei ist es besonders vorteilhaft, wenn Daten mit ihren

Beschriftungen mit bereits in der Datenbank vorhandenen Daten und deren Beschriftung automatisch verglichen werden.

Vorteilhaft ist es insbesondere, wenn eine syntaktische

Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird. Damit kann automatisch die Ähnlichkeit von Datenzellen bestimmt werden.

Mit Vorteil kann das Verfahren in Zusammenhang mit einer

Tabellenkalkulation angewandt werden. Dafür können die

Berechnung der Maßzahl und die Anpassung der Größe des

Datenrechtecks in ein Tabellenkalkulationsprogramm integriert sein. So kann z.B. ermittelt werden, welche Bereiche in einem Datenblatt untereinander ähnlich sind, so dass diese ggf.

hervorgehoben, dass darauf Cursor gerichtet werden kann und / oder als eigene Datei abgespeichert werden kann. Die Aufgabe wird auch durch ein System zur automatischen

Bearbeitung von Daten in Zellenformat gemäß Anspruch 14 gelöst, wobei eine Startzelle als erste Datenzelle für ein

Datenrechteck ausgewählt wird, mit einem Mittel zur

automatischen Bestimmung einer Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten Datenzelle, wobei in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die

Ähnlichkeit entscheidbar ist, ob das Datenrechteck in

horizontaler und / oder vertikaler Richtung erweitert wird.

Eine besonders vorteilhafte Lösung liegt vor, wenn ein

Tabellenkalkulationsprogramm ein integriertes System gemäß Anspruch 14 aufweist.

In Zusammenhang mit den Figuren werden Ausführungsbeispiele des Verfahrens und des Systems beschrieben. Dabei zeigen:

Fig. 1 ein Flussdiagramm einer Ausführungsform des

Verfahrens ;

Fia. 2 eine Darstellung eines einheitlichen XML-Envelope;

Fia. 3 eine schematische Darstellung des Datenaustauschs

zwischen einem Client und einem Server;

Fig. eine Bildschirmabbildung einer Exce 1-Datei, als

Datenquelle für das Verfahren;

Fig. 5 einen Ausschnitt aus der Tabelle der Fig. 4;

Fig. 6 eine tabellarische Darstellung der Berechnung der

Ähnlichkeiten zwischen Datenzellen; Fig. 7 eine tabellarische Darstellung der Berechnung der Ähnlichkeiten zwischen weiteren Datenzeilen;

Fig, 8-10 eine Darstellung der Charakterisierung benachbarter

Datenzellen;

Fig. 11 ein Flussdiagrainm des Grundalgorithmus ;

Fig. 12-13 ein Beispiel für die Ermittlung von Größenordnungen

von Zellinhalten;

Fig. 14 ein Beispiel für die Erkennung von Streifenmustern ;

Fig. 15 ein Beispiel für die Erfassung von Beschriftungen;

Fig. 16 ein Flussdiagrainm für die Erfassung ähnlicher

Bereiche ;

Fig. 17-18 ein Beispiel für eine Ähnlichkeit ssucne ;

Fig. 19 ein Beispiel für die automatische Zuordnung eines

Datenrechtecks über die Beschriftung zu einem

Fragebogen ;

ein Beispiel für eine Tabelle nach der Bearbeitun der Datenzeilen,;

ein Beispiel für XML-Code für syntaktis

Unifikation; Fig. 22 eine Ansicht eines Fragebogens.

Im Folgenden v/erden einige Ausführungsformen beispielhaft beschrieben .

Bei den Ausführungsbeispielen geht es darum, eine technische Schnittstelle bereitzustellen, Vielehe eine automatisierte, intelligente Verarbeitung externer Daten sicherstellt. Die technische Herausforderung liegt hier in der eigenständigen Analyse von Internetbasierten Daten zu exogenen Informationen, wie z.B. Strategieinformationen 'wie Märkte, Wettbewerber, Trends, Finanzdaten und die automatisierte Zuordnung zu

Fragebogeninhalten, ohne dass der Anwender diesen

Übertragungsprozess manuell unterstützen muss. Auch die

Bereitstellung technischer Schnittstellen zu Excel gehört dazu.

Als Beispiel für die Ausführungsformen 'wird die Verarbeitung von Daten im Zellen-Format in Verbindung mit der Software Solyp beschrieben, die u.a. in dem Buch von A. Zimmermann,

„Praxisorientierte Unternehmensplanung mit harten und weichen Daten: Das Strategische Führungssystem" beschrieben ist.

Grundsätzlich sind die hier beschrieben Ausführungsformen auch mit anderen Softwaresystemen umsetzbar. So ist es z.B. möglich, die automatische Berechnung der Maßzahl für die Ähnlichkeit und die Anpassung des Datenrechteckes in einem

Tabellenkalkulationsprogramm zu integriere .

Im Umfeld weicher Daten (z.B. Daten ohne eine harte,

vorbestimmte Formatbeschreibung und / oder Daten mit einer mit Ausnahmen behaftete Formatbeschreibung) ist es unabdingbar, auch das Thema „externe Schnittstellen" in diesem Licht zu sehen .

Ein Beispiel für weiche Daten si d betriebswirtschaftliche Informationen, die sich nicht durch Kennzahlen ausdrücken lassen . Neben den harten Systemschnittstellen zu IT-technisch wohlbekannten Vorsystemen wie SAP-BW, zeichnet sich das

tägliche Geschäft mit weiche Daten für die vielen einzelnen Anwender dadurch aus, dass sie in persönlicher Verantwortung mit einer Vielzahl von anderen Stellen strategische und weiche Informationen austauschen.

Im Gegensatz zum generischen Excel-Export aus dem SOLYP System zum Beliefern externer Systeme, existiert bisher noch keine zufriedenstellende Lösung zum Importieren beliebiger Daten aus beliebigen Vorsystemen, also einer weichen Schnittstelle in dem Sinne, dass keinerlei harte, technische Formatbeschreibung vorausgesetzt wird.

Zum einen ist der heutige harte Excel-Import für einen

Fragebogen {d.h. einem Abfrageschablone für einen

Dateneingebenden) neu und individuell zu entwickeln; ganz zu schweigen vom Aufwand, die Daten in eben dieser Form zu

liefern. In diesem. Zusammenhang stellt ein Fragebogen eine strukturierte Schablone dar, in die nicht besonders für diese Schablone angepasste Daten aus einer Datenquelle importiert werden können. Der hier beschriebene Algorithmus analysiert die Informationen in der Datenquelle, um. u.a. Ähnlichkeiten, zu ermitteln. Diese berechneten Informationen werden dann in die Schablone importiert, wobei die Schablone nur allgemeine

Vorgaben enthält, die eine Zuordnung der analysierten Daten aus der Datenquelle ermöglichen. Solche Vorgaben können z.B. die Metadaten {Tabellenname, Fremdschlüssel, Spaltennamen etc.) einer relationalen Datenbank sein, die mit der Schablone verknüpft ist .

Damit ist es möglich, die in die Datenbank integrierten Daten mit bereits in der Datenbank vorhandenen Daten zu vergleichen.

Somit rauss die Schablone nicht über umfangreiche Vorgaben verfügen, die die Zuordnung ermöglichen; die „Intelligenz" für die Zuordnung der Daten steckt im Verfahren, nicht in der

Datenbank oder der Schablone oder der Datenquelle.

Zum anderen ist die Möglichkeit Daten via Ausschneiden,

Kopieren, Einfügen ( Cut /Copy/Paste ) über die Zwischenablage in SOLYP zu übernehmen, mit sehr viel manuellem Aufwand verbunden. Ziel der hier beschriebenen Ausführungsform ist es, genau diese Lücke zu füllen und es zu ermöglichen, mit minimalem Aufwand Daten aus nicht vorab bekannten Quellen entgegenzunehmen, ihre Struktur anhand von vorgegebenen Mustern automatisiert zu analysieren und sie dann im dazu passenden Solyp Datenformat, d.h. einem Fragebogen abzulegen.

Eine Ausführungsform des Gesamtverfahrens gliedert sich in drei Phasen, wobei die wichtigste zweite Phase wiederum drei Stufen durchläuft .

In Fig. 1 wird ein Flussdiagramm, dargestellt, bei dem diese Phasen dargestellt sind.

Die Phase der Syntaktischen Unifikation (Fig. 1, Schritte 1.1 bis 1.5) ist grundsätzlich bereits bekannt.

Die Phase der automatischen Analyse (Fig. 1, Schritte 2.1 bis 2.3) betrifft die automatische Verarbeitung der Daten im

Zellen-Format, die hier neu beschrieben wird.

In der dritten Phase werden dann verschiedenen Möglichkeiten der Weiterverarbeitung (Fig. 1, Schritte 3.1 bis 3.2

beschrieben) .

1. Syntaktische Unifikation

Aus einer beliebigen Quelle und in beliebigem Daten-Format sollen Daten in eine Software, insbesondere Solyp übernommen werden. Dazu 'wird auf einem Client (z.B. einem. Browser) eine Datenquelle ausgewählt (Fig. 1: Schritt 1.1; Fig. 3: Schritt 1), die per Knopfdruck oder via Drag ' n ' Drop auf einen Server (Fig. 1: Schritt 1.2; Fig. 3: Schritt 2) übertragen wird. Dies wird auch als „binary upload" bezeichnet .

Auf dem Server sind für verschiedene Datei-Formate (d.h. File- Formate - nicht zu verwechseln mit dem freien Format der Daten innerhalb der Datei) Leseroutinen installiert, um das File zu öffnen und in ein einheitliches Dateiformat (z.B. xml) zu übertragen (Fig. 1: Schritt 1.3; Fig. 3: Schritt 3).

Bei dieser Umwandlung - im Beispiel aus einem Excel Format - bleiben (möglichst) alle inhaltlichen Aspekte (z.B. definiert durch Kriterien, die im Folgenden noch näher erläutert v/erden) erhalten (dazu gehören auch Layout und ähnliches) und es geht nur die technische Nutzbarkeit für das Programm (hier Excel) verloren (Fig. 1: Schritt 1.4) . Es ist also theoretisch

möglich, aus dieser XML-Repräsentation wieder eine

„Originalkopie'" herzustellen .

Somit werden beliebige, insbesondere auch proprietäre

Dateiformate in XML-Daten umgewandelt, mit denen dann eine Weiterverarbeitung der Daten möglich ist. Mögliche Dateiformate können z.B. von Textverarbeitungsprogrammen wie z.B. Word oder OpenOffice, oder Präsentationsprogrammen, wie z.B. PowerPoint erzeugt werden. Auch PDF-Formate und HTML-Dokumente können als Ausgangspunkt für die Umwandlung dienen.

Das Verfahren und System, gemäß der hier vorliegenden

Beschreibung weist somit eine Art Transformator von

proprietären Dateiformaten in ein XML-Format auf. Das

einheitliche XML-Format enthält dann eine Repräsentation des Zellenformats und ggf. auch der Verbindungen zwischen den

Datenzellen (z.B. Formeln) .

Praktisch wird ein einheitlicher XML-Envelope definiert (Fig. 2), indem sich, je nach File-Format, adäquate Repräsentationen einbetten lassen (zwei Beispiele) : • Eine übliche Excel-Datei (*.xls) wird von Makros befreit und z.B. in ein Derivat des „CALS Table Model" OASIS Technical Memorandum TM 9502:1995 (http: //www . oasis- open.org/specs/a5Q2.htm) überführt . Layout-Informationen sowie Formel-Quelltext bleiben zusammen mit den Zahlen und Textwerten erhalten. Siehe z.B. auch M11-M-38784B

Standard :

⁸ Für eine Quelle in HTML, also eine allgemein übliche

Webseite im Internet, wird der HTML-Quellcode von

dynamischen .Javascript-Bestandteilen befreit und in xhtml transkribiert .

In ähnlicher Weise lassen sich Powerpoint Dateien im .ppt

Format {ebenfalls ein proprietäres Format) bearbeiten.

In den Fig. 2 und Fig. 21 wird an einem Beispiel gezeigt, wie ein XML-Download (siehe Fig. 3, Schritt) aussehen kann. Fig. 2 zeigt dabei eine Visualisierung der XML-Grammatik.

Die resultierende XML-Datei wird nun an die Client-Komponente zurückgegeben (Fig. 1: Schritt 1.5; Fig. 3: Schritt 4), die nun ohne spezielle Bibliotheken zur Dateikonvertierung die

Quelldaten analysieren und eingeschränkt präsentieren kann.

Fig. 4 zeigt eine Bildschirmabbildung einer Excel-Datei, die als Datenquelle für das Verfahren dienen kann. Im Folgenden wird die automatische Analyse beschrieben, die von diesem

Format ausgeht .

2. Automat i sche Ana1yse

Die automatische Analyse der Daten findet vorteilhafterweise auf Seiten des Clients (d.h. des Browsers) statt, um. zum. einen die teuere, zentrale Rechenleistung des Servers zu entlasten und beliebig zu skalieren.

Ziel ist es, Bereiche (d.h. Datenzellen) in der Quelle, d.h. hier einer .xlsx Datei oder deren Repräsentation in xml, zu identifizieren, die bestimmte strukturelle {z.B. rechteckiger Bereich von Zahlen in einer Tabelle) oder inhaltliche (z.B. „EBIT" als Kennzahl und „2010" als aktuelles Jahr) Merkmale aufweisen. Diese Bereiche Vierden im Folgenden als

„Datenrechtecke" bezeichnet. Der Begriff inhaltliches Merkmal ist so zu verstehen, dass es Identifier (z.B. eine Überschrift) in der Datenquelle gibt, die bestimmte Daten (z.B. in den benachbarten Datenzellen) kategorisieren . Für die folgende Beschreibung kommt es also nicht auf den Inhalt dem Sinn nach an, sondern in der Zuordnung von Datenzellen zu einem

Identifier .

Anschließend wird dieser Bereich einem Teil eines Fragebogens automatisch zugeordnet, indem aus der Form der Information (z.B. erste Spalte und Spaltenüberschriften) auf die fachliche Dimensionierung geschlossen wird (z.B. verschiedene Kennzahlen in mehreren Jahren) . Somit ist es möglich, den Identifier in dem Fragebogen (z.B. Datenbank verknüpft mit Eingabeschablone) zu ermitteln, um dann eine Umwandlung der maßgeblichen Daten zu erreichen .

Der Fragebogen entspricht dabei einer Datenbanktabelle, die fachliche Dimensionierung entspricht dem. primarv key dieser Tabelle, die Zuordnung ist eine Suchanfrage nach dem primary key im Metadatenrepository der Datenbank.

2.1 „Datenrechteck"

Anhand von Informationen in der Datei ist es möglich das

Datenrecheck zu charakterisieren (Fig. 1: Schritt 2.1) . Dabei stehen eine Reihe von Parametern zur Verfügung, die von

Programmen, die mit Zellen-Formaten umgehen zur Verfügung gestellt werden. Ausgehend von einer ersten Datenzelle können diese z.B. durch folgende Kriterien charakterisiert werden:

* Datentyp • Nachkommastellen

• Größenordnung

• Fett /Kurs! /Farbe/Schrift /Rahmen

• Formel

• Zellschutz

• Zellenhöhe/breite

Ein weiteres Kriterium ist die Struktur einer Formel in einer der Datenzellen. Selbst wenn die Zahlen in Formeln benachbarter Zellen unterschiedlich sind, so ka n die syntaktische Struktur (Zerlegung in Terme) einer Formel (z.B. eine Summe, einer exponentieller Ausdruck etc.) Aufschluss über die Ähnlichkeit der zu vergleichenden Zellen geben. Die syntaktische Struktur erlaubt die Analyse der Formel ohne Zahlen- und / oder

Datenzeilenbezug .

Ein weiteres Kriterium kann der Bezug der Datenzellen in einer Formel sein. Dabei kann ein absoluter Bezug oder ein relative Bezug ausgewertet werden.

Auch kann die Semantik einer Formel als Kriterium verwendet werden, indem z.B. automatisch erkannt wird, dass zwei Arten von MittelWertberechnung in zwei Datenzellen enthalten sind, deren Syntax unterschiedlich ist, das Ziel der Berechnung aber ähnlich ist.

Dabei ist es auch möglich, dass automatisch erkannt wird, das eine fehlende Formel in Nachbarschaft von existierenden Formeln extra- oder interpoliert wird. Dazu wird in die Datenzelle ohne Formel eine Formel geschrieben, die sich aus den umliegenden ergibt. Es kann dann eine Plausibilität skontrolle durchgeführt werden, ob z.B. ein Zahlenwert, der anstelle der Formel in der Datenzelle steht, wertmäßig mit der extra- oder interpolierten Formel übereinstimmt oder wertmäßig in der gleichen

Größenordnung liegt. Grundsätzlich ist es möglich, einige oder alle dieser Kriterien zur Charakterisierung zu verwenden.

In Fig. 5 ist beispielhaft ein Ausschnitt aus Fig. 4

dargestellt. Die Zahl „89,3" soll als erste Datenzelle dienen, von der ausgehend automatisch eine Ähnlichkeit zu Nachbar- Datenzellen ermittelt wird, da die technische Bewertung der „Ähnlichkeit" zweier Zellen von besonderer Bedeutung für das automatische Verfahren ist. Die Ähnlichkeit zweier Datenzellen wird über den Abgleich der jeweiligen Kriterien gebildet.

Für ^"jedes Kriterium wird einzeln eine prozentuale „Ähnlichkeit" gebildet. Dann wird zur Erhöhung der Fehlertoleranz der

schlechteste Wert gestrichen und die übrigen Werte mit einer (gelernten) Gewichtung addiert.

In Fig. 6 ist in Form einer Tabelle die Berechnung der

Ähnlichkeit zwischen den Datenzellen „89,3" und „161,6" (linke Nachbar-Datenzelle von „89,3", siehe Fig. 8) dargestellt. Da beide das Kriterium einer ZAHL erfüllen, beträgt die

Übereinstimmung 100%. Da dieses Kriterium eine hohe Bedeutung hat, geht es in die Ähnlichkeitsberechnung mit einem Gewicht von 30% ein. Die Formatierung der Nachkommastellen geht mit einem relativ geringen Gewicht in die Berechnung ein, hier 5%. Die Übereinstimmung zwischen den Datenzellen beträgt hier 100%.

In die Ähnlichkeit fließt auch die Größenordnung der Zahlen ein, um z.B. Ausreißer zu ermitteln. Im vorliegenden Beispiel werden die Größenordnungen über ein logarithmisches Maß

ermittelt. Hier werden die dekadischen Logarithmen ermittelt, bei sich eine absolute Differenz von 0,26 zwischen den Werten ergibt. In Prozent umgerechnet v/ird die Übereinstimmung als 100 - 26 = 74% angegeben.

Die übrigen Kriterien in Fig. 6, d.h. Formatierung (Fett/

Kursiv Farbe/ Schrifttype/ Rahmen etc.), Formel, Zellschutz und Zellenhöhe und -breite sind bei beiden Datenzellen identisch, so dass hier 100% Übereinstimmung besteht.

Bei dem Kriterium „Formel" kann entweder der berechnete Wert verglichen werden oder die Formel als „Text" einem. Längen- und / oder Strukturvergleich unterzogen Vierden.

Wenn die Übereinstimmungen ermittelt worden sind, kann ein Ausreißer bestimmt werden. Im Beispiel der Fig. 6 wurde das Kriterium der Größenordnung als Ausreißer definiert, da in diesem. Kriterium die Übereinstimmung am geringsten war. Die Streichung dieses Ergebnisses, ergibt den besten Gesamtwert, was im Übrigen als Definition des Ausreißers verstanden werden kann .

Die Gesamtähnlichkeit (letzte Zeile in Fig. 6) 'wir dann aus den Übereinstimmungen (unter Berücksichtigung der Gewichte) berechnet, wobei im Divisor die Summe der relevanten Gewichte (d.h. ohne Ausreißer) steht.

Die Gesamtähnlichkeit der Datenzellen mit den Zahlen „89,3" und „161,6" wird mit 100% berechnet.

Im Zusammenhang mit Fig. 7 wird eine analoge Berechnung für die Ähnlichkeit der Datenzellen mit den Zahlen „89,3" und „2003" (siehe auch Fig. 9) durchgeführt, wobei das Verfahren zwar nicht die inhärente Bedeutung der Zahl „2003" als Jahreszahl kennt, aber durch die später beschriebene Methode des

Vergleichs mit Dimensionswerten kategor isiert wird. Im. Beispiel Fig. 7 ist dieser Umstand nicht berücksichtigt.

Es sei darauf hingewiesen, dass im Beispiel der Fig. 7 der Ausreißer etwas anders bestimmt wird, da hier bei drei

Kriterien eine Übereinstimmung von 0% ermittelt wurde. Als Ausreißer wird das Kriterium, mit der höchsten Gewichtung, hier also die „Größenordnung" als Ausreißer gewertet. Demnach ist der Divisor bei der Berechnung der Gesamtbewertung 1-0,15. Wird beispielsweise eine formatierte Jahreszahl als

Spaltenüberschrift mit einem Umsatzwert verglichen, so ergibt sich sowohl bei Toleranzschwellen von 90% als auch 80% die korrekte Bewertung der Unähnlichkeit . Somit stellt das

Verfahren automatisch (ohne Vorkenntnisse) fest, das zwischen den Datenzellen mit den Zahlen „89,3" und „2003" eine

erhebliche Unähnlichkeit besteht. Die Toleranzschwelle ist die Grenze bei der der prozentuale Ähnlichkeitswert als Ja/Nein- Entscheidung „Ahnlich" interpretiert wird.

Von der ersten Datenzelle ausgehend werden sowohl vertikal (siehe Fig. 8), als auch horizontal (siehe Fig. 9) zuerst die unmittelbaren und dann 'weiteren Nachbarn (siehe Fig. 10) ebenfalls charakterisiert und mit der Ausgangscharakterisierung verglichen. Dieser Vergleich führt zu dem positiven Ergebnis „ähnlich", 'wenn nur wenige Aspekte (bis zu einem gewichteten Sc we11wert) unterschied1 ich sind .

Auf diese Weise entsteht zuerst eine Zeile bzw. Spalte relativ ähnlicher Datenzellen. Als nächster Schritt wird dieser

zunächst eindimensionale Streifen in der zweiten Dimension auf die Nachbarn erweitert, falls diese „ähnlich" genug sind. Nun wird dieses Verfahren immer wieder in den beiden Richtungen wiederholt, bis sich eine möglichst große, rechteckige Fläche „ähnlicher" Datenzellen ergibt.

Da in der Praxis die strategisch relevanten Informationen nicht unbedingt vollständig vorliegen, ist die konstruktive

Behandlung von Leerzellen ein wichtiger Punkt. Per definitionem ist eine Datenzelle zu einer benachbarten Leerzelle „ähnlich". Die Ausbreitung des Datenbereichs stoppt also nicht an leeren Datenzellen, 'wobei selbstverständlich verhindert 'werden muss, dass vollständig ungefüllte Bereiche und insbesondere die

Restfläche eines Datensheets nicht als zum Datenbereich gehörig interpretiert wird. Der Grundalgorithmus (siehe Fig. 11) zur Suche des

Datenrechtecks ist damit umrissen. In Fig. 11 ist eine

Ausführungsform dargestellt, bei der ausgehend von einer

Startdatenzelle zunächst in horizontaler Richtung die

Ähnlichkeit benachbarter Datenzellen bestimmt wird. Wenn die Ähnlichkeit einen bestimmten Schwellenwert_l erreicht ist, 'wird das Datenrechteck in horizontaler Richtung erweitert .

Anschließend wird die Ähnlichkeit in vertikaler Richtung bestimmt. Wenn ein bestimmter Schwellenwert_2 erreicht ist, wird das Datenrechteck um eine vertikale Nachbar-Datenzelle erweitert und das Verfahren wird mit der Berechnung in

horizontaler Richrung weitergeführt. Ist Schwellenwert_2 nicht erreicht, wird geprüft, ob im Schritt vorher eine horizontale Erweiterung vorgenommen wurde. Wenn ja, dann wird mit der wiederholten Bestimmung der Ähnlichkeit in horizontaler

Richtung fortgefahren. Wenn nicht, dann hat der Algorithmus ein stabiles Rechteck identifiziert, dass weder horizontal, noch vertikal erweiterbar ist und das Programm hat seine Aufgabe erfüllt .

Im Folgenden werden noch zwei weiter vorteilhafte Ergänzungen beschriebe .

Ausgehend vom Beispiel {Fig. 4) KPI (d.h. Key Performance

Indicator) x Jahr kann die Größenordnung verschiedener KPIs sehr unterschiedlich sein und im Einzelfall passt auch der Datentyp 'wie von EBIT und EBIT-Marge nicht zusammen (Fig. 12) .

Deshalb wird in den beiden Richtungen mit unterschiedlichen Schwellwerten für „ähnliche" Werte gearbeitet. Es steht zu Beginn nicht fest, welche Richtung sich stärker Unterscheiden darf, sondern beide Hypothesen betrachtet und die mit besserer „Gesamtähnlichkeit" gewählt (Fig. 13) . In Fig. 13 sind die unterschiedlichen Prozentangaben für die Ähnlichkeit durch Doppelpfeile in x- und in y-Richtung angegeben. Noch einen Schritt weiter geht die Erkennung von

„Streifenmustern". Nach jeder Jahresspalte kann beispielsweise der prozentuale Wachstumswert zum Folgelahr aufgeführt sein. Es wechseln sich Prozent- und Absolutwerte, eventuell noch durch unterschiedliches Layout hervorgehoben, gegenseitig ab. Zur automatischen Erkennung dieser Datenlage werden zwei

Datenzellen gemeinsam betrachtet, die dann als Paar zum

benachbarten Folgepaar auf „Ähnlichkeit" geprüft werden. In Fig. 14 ist dargestellt, das zu jeder Jahresspalte noch eine prozentuale Änderung gehört.

2.2 Zusätzliche Suche nach Schlüsselwörtern

Nachdem ein Datenbereich, d.h. das Datenrechteck in der Quelle identifiziert wurde (siehe Fig. 1, Schritt 2.1; Fig. 11), wird in diesem Schritt die Klassifizierung dadurch abgeschlossen, dass die noch fehlende Beschriftungsinformation hinzugefügt wird .

An allen vier Seiten des Datenrechtecks können sich

Spaltenköpfe, Zei 1enbeschriftungen , Kommentarspa11en,

Summenzeilen und ähnliches anschließen. Dazu wird das bisher ermittelte Datenrechteck sowohl horizontal als auch vertikal erweitert, so dass bis zu neun Anschnitte entstehen: das

Datenrechteck in der Mitte, vier Seiten mit Köpfen und

Beschriftungen, sowie vier Eckbereiche, die entweder leer sind oder z.B. statischen Text enthalten. In Fig. 15

umfasst das Datenrechteck 9x4 Datenzellen. Die umgebenden

Beschriftungen sind durch Umkreisung dargestellt. Die

Beschriftung oberhalb umfasst 9x1 Datenzellen, die Beschriftung unterhalb ebenfalls 9x1 Datenzellen. Links und rechts sind jeweils 1x4 Zellen angeordnet. Hinzukommen jeweils Zellen in den Ecken, die in Fig. 15 durch Kreuze hervorgehoben sind.

Um die Ausmaße der Randbereiche zu bestimmen kommen zwei kombinierte Strategien zum Einsatz. Die erste Strategie ist in Fig. 16 in Form eines Flussdiagramms beschrieben. Es sei darauf hingewiesen, dass diese Ausführungsform des Verfahrens grundsätzlich unabhängig als auch in Kombination mit dem

Verfahren zur Ermittlung eines Datenrechtecks (z.B. Fig. 11) verwendbar ist.

Die beschriebene "Suche nach Schlüsselwörtern" kann auch schon im Zusammenhang mit der Suche nach dem Datenrechteck verwendet werden. Hierzu bekommt ein Merkmalsvektor für jede fachliche Dimension ("Zeit", "Marktteilnehmer" etc.) jeweils einen

Eintrag, der die Zugehörigkeit des Zellwertes zur

entsprechenden Dimension mit einer Ähnlichkeit von 0% bis 100% bewertet. Dies geschieht sowohl über inhaltliche Muster

(Regulär Expressions) als auch unter Zugriff auf die

vorhandenen Daten (z.B. die Bezeichnung einer Entität) in den Dimensionssystemen des Zielsystems .

Somit steht für die automatisierte Ähnlichkeitsbetrachtung im Algorithmus ein weiteres, eher semantisches Merkmal bereit, das schon während der Analyse zur Identifikation des Daten- oder Überschriften-Rechtecks beiträgt. Praktisch lassen sich dadurch z.B. Text zellen mit Kommentaren (also ohne

Dimensionsübereinstimmung) von Textzellen mit Namen von

Marktteilnehmern (Suchtreffer in einer Tabelle der

Marktteilnehmer) unterscheiden, obwohl diese unter Umständen das gleiche Zell-Layout verwenden.

Neben der Analyse mit dem Algorithmus gemäß Fig. 16 zur

Identifikation von in sich ähnlichen Bereichen, wird

vorteilhafterweise zusätzlich auch der konkrete Inhalt der Datenzellen in der Ähnlichkeitsanalyse betrachtet. Da sich in der Beschriftung häufig die Bezeichnungen der Werte einer

Dimension eines Datenwürfels befinden, wird jeder Zellwert im Raum aller bisher bekannten Dimensionsausprägungen gesucht und im Falle eines gefundenen Wertes dieses Kriterium zusätzlich in der Ähnlichkeitsbetrachtung dazugerechnet . Hierdurch lassen sich beispielsweise Jahreszahlen, die Namen von Wettbewerbern oder Scoring-Symbole „-+" schon größtenteils eindeutig zuordnen. Es entsteht somit für jede Datenzelle ein neues vergleichbares Merkmal „zugeordnete Dimension", das in der „Ähnlichkeit ssuche" für Bereiche mit herangezogen wird (Fig. 17 und 18) .

In Fig. 17 sind zwei unterschiedliche Ausschnitte aus den

Stammdaten einer, das Verfahren verwendenden Rahmenapplikation dargestellt. Bei der linken Darstellung ist eine Spalte mit Jahreszahlen erfasst worden, bei der rechten Darstellung eine Reihe von Mitbewerbern, hier Automobilfirmen.

In einer Ausführungsform des Verfahrens wird in der Datenbank gesucht, ob diese Daten bereits einmal vorgekommen sind. Diesen können Dimensionsattribute zugeordnet Vierden, wie z.B. in Fig. 18 für die Werte BMW und VW; beides sind Marktteilnehmer { MT ) . Daraus lässt sich wieder eine Ähnlichkeit berechnen, hier 100%.

In der Praxis kann diese Analyse auch schon initial für das primäre Datenrechteck durchgeführt, kommt aber Aufgrund der Zahlenlast igkeit dort meist nicht zum Tragen.

2.3 Vergleiche mit Dimensionierung der Datenwürfel

Die über die Suche nach Schlüsselwörtern erfolgte Zuordnung von Dimensionen zu Datenzellen ermöglicht die Zuordnung von

Dimensionen zu kompletten Zeilen-/ Spaltenbeschriftungen, also die Einordnung des erkannten Datenbereichs in ein

mult idimensionales Datenmodell {Fig. 1, Schritt 2,3), der auch als Datenwürfel bezeichnet werden kann.

Ein Datenwürfel kann als mehrdimensionale Matrix aufgefasst werden, wobei die Spalten und Reihen die Dimensionen

darstellen, die Dateneinträge stellen die Information in dem Datenwürfel dar. Somit wird beispielsweise ein Bereich aus Festkommazahlen mit Jahreszahlen als Spaltenköpfen und betriebswirtschaftlichen Kenn zahIbeZeichnunge wie „EBIT" für die Beschriftung der Zeilen als 2-dimensionales Grid in den Dimensionen ,,ΚΡΙ x Jahr erkannt .

Als letzter automatischer Schritt erfolgt nun die Zuordnung zu einem Fragebogen (in Fig. 19 mit „QUEST_PART" bezeichnet), indem nach dem Vorkommen dieser Dimensionskombination im.

Gesamtkatalog aller Fragebögen gesucht wird. Die

Dimensionskombination „KPI x Jahr" wird so beispielsweise dem zentralen Datenbereich des Fragebogens „Finanz ziele im

Businessplan" (in Fig. 19 mit „BUPLA DATA" bezeichnet)

zugeordnet .

Sollte diese Zuordnung nicht eindeutig sein, so deutet entweder ein statischer Text im Eckbereich der Quelle auf den richtigen Fragebogen, oder es werden dem Endanwender, wie nachfolgend beschrieben, die verschiedenen Treffer zur manuellen Auswahl angeboten ,

In obigem Beispiel {siehe auch Fig. 19) kennzeichnet „ZI" die alleinige Verwendung der Dimension „Jahr" (KPI ist implizit) und von den drei damit möglichen Fragebögen wurde sich für den „BUPLAN 810" entschieden.

In Fig. 20 ist ein Endprodukt nach der Bearbeitung der

Datenzellen dargestellt. Die ähnlichen Bereiche, z.B.

Jahreszahlen sind gekennzeichnet. Das Verfahren auch

automatisch erkannt, dass die Datenzellen A6 bis A9

Marktteilnehmer, die Datenzellen B5 bis J5 Jahre und die

Datenzellen B6 bis J9 Marktanteile enthalten.

Somit wird automatisch auf Grund der Ähnlichkeitsanalyse eine Datei generiert, deren Datenzellen bestimmte Attribute zuordbar sind .

3. Weitere Datenverarbeitung Für die weitere Verarbeitung des automatisch berechneten

Datenrechtecks gibt es eine Reihe weiterer

Verarbeitungsmögl ichkeiten .

Die Ausführungsform gemäß Fig. 1 kann z.B. mit einem lernenden System gekoppelt sein, so dass bestimmte zusammenhänge zwischen den Datenzellen und der Struktur eines Spreadsheets gespeichert werden .

In Fig. 22 ist eine Ansicht eines Fragebogens dargestellt, in den die Daten aus Fig. 20 eingelesen wurden. Mit dem. zuvor besch iebenen Verfahren konnten die Daten aus einer externen Quelle, bei der die Zahlen in einem ganz anderen Zusammenhang standen, erfasst und analysiert werden. Dabei stellt das

Verfahren automatisch Zusammenhänge her, die letztlich eine qualifizierte Datenübernahme wie in der der Fig. 22 dargestellt ermöglichen .

Claims

Patentansprüche

1. Verfahren zur automatischen Bearbeitung von Daten,

insbesondere weichen Daten, in Zellenformat, wobei

a) eine Startzelle als erster Datenzelle für ein

Datenrechteck ausgewählt wird,

b) anschließend automatisch eine Maßzahl für eine

Ähnlichkeit der ersten Datenzelle mit mindestens einer zweite Datenzelle, insbesondere in der Nachbarschaft der ersten Datenzelle generiert wird,

c) in Abhängigkeit von mindestens einem vorbestimmten

Schwe11enwert für die Ahn1 ichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler

Richtung erweitert wird.

2. Verfahren nach Anspruch 1, dadurch

gekennzeichnet , dass die Schritte b) und c) bis zu einem. Abbruchkriterium durchgeführt 'werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch

geke n n z e i c h n e t , dass die Erweiterung des

Datenrechtecks in horizontaler und / oder vertikaler

Richtung in Abhängigkeit eines Vergleiches zwischen mindestens einer Maß zahl für die Ähnlichkeit mit einem vorbestimmten Schwellenwert erfolgt.

4. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet , wobei

ausgehend von einer mit Daten gefüllten Datenzelle

automatisch ermittelt wird, ob eine Beschriftung vorhanden ist .

5. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet , dass die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen Datentyps, des jeweiligen Nachkommastellen-Formats, der jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer Formeleigenschaft der jeweiligen

Datenzellen, eines jeweils definierten Schutzes der

Datenzelle, der jeweiligen Hö e der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen Datenzellen und / oder der Struktur einer Formel in der Datenzelle bestimmt wird .

6. Verfahren nach Anspruch 5, dadurc h

gekennze i c h n e t , dass die Kriterien mit einem

Gewichtungsfaktor versehen werden.

7. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet , dass

Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst 'werden.

8. Verfahren nach mindestens einem, der vorhergehenden

Ansprüche, d a d urch geke n nzei c h net , dass die automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist.

9. Verfahren nach Anspruch 8, dadurch

gekennze i c h net , dass auf Grund der

Ähnlichkeitsanalyse automatisch eine Datei generiert wird, die Datenzellen aufweist, denen auf Grund der

Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind.

10. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein Tabellenkalkulationsprogramm integriert ist.

11. Verfahren nach mindestens einem der vorhergehenden Ansprüche, d a d u r c h gekennzei c hnet , dass das ermittelt Datenrechteck automatisch in eine Datenbank integriert wird, die insbesondere mit einer

Eingabeschablone verknüpft ist.

12. Verfahren nach Anspruch 11, dadurch

gekennzeichnet , dass importierte Daten mit ihren Beschriftungen bereits in der Datenbank vorhandenen Daten und deren Beschriftungen automatisch verglichen v/erden.

13. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die syntaktische Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird.

14, System zur automatischen Bearbeitung von Daten in

Zellenformat, wobei eine Start zelle als erste Datenzelle für ein Datenrechteck ausgewählt wird, mit einem Mittel zur automatischen Bestimmung einer Maßzahl für eine

Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten

Datenzelle, 'wobei in Abhängigkeit von mindestens einem vorbest immten Schwellenwert für die Ähnlichkeit

entscheidbar ist, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.

15. Tabellenkalkulationsprogramm mit einem integrierten

System gemäß Anspruch 14.