EP2601594A1 - Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format - Google Patents

Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format

Info

Publication number
EP2601594A1
EP2601594A1 EP11749377.5A EP11749377A EP2601594A1 EP 2601594 A1 EP2601594 A1 EP 2601594A1 EP 11749377 A EP11749377 A EP 11749377A EP 2601594 A1 EP2601594 A1 EP 2601594A1
Authority
EP
European Patent Office
Prior art keywords
data
cell
cells
similarity
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP11749377.5A
Other languages
English (en)
French (fr)
Inventor
Martin RÜGAMER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOLYP Informatik GmbH
Original Assignee
SOLYP Informatik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOLYP Informatik GmbH filed Critical SOLYP Informatik GmbH
Priority to EP11749377.5A priority Critical patent/EP2601594A1/de
Publication of EP2601594A1 publication Critical patent/EP2601594A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Definitions

  • the invention relates to a method for automatic
  • data is in a cell format, e.g. is known from spreadsheets. Typically, this allows data from one category (e.g., in vertically arranged cells) to be linked to data from other categories (e.g., in horizontally arranged cells).
  • categories e.g., in vertically arranged cells
  • cells and data cells are used synonymously here.
  • Data in cell format is used again and again as import / export format for programs.
  • the arrangement of the data in cell format has established itself as an interface between programs.
  • data in particular 'soft data
  • cell format in which a) a start cell is selected as the first data cell for a data rectangle,
  • the similarity threshold determines whether the data rectangle is expanded in the horizontal and / or vertical direction.
  • steps b) and c) are carried out up to a termination criterion.
  • a label is a string to understand, which can be considered as a label for a number of cells.
  • the use of the labeling information is for the subsequent further processing of the pure number information
  • Formula property of the respective data cells respectively defined protection of the data cell, the respective height of the data cell, the respective width of the data cell, absolute relation between data cells, relative relation between
  • Data cell is determined. In this way, a meaningful evaluation of similarity can be made.
  • the criteria can be applied in particular in combination.
  • caption data for data cells in the vicinity of the data rectangle are automatically detected. This allows an improved allocation of the data.
  • Similarity Analysis automatically generates a file that has data cells to which certain attributes can be attributed based on the similarity analysis. Also, it is advantageous if the calculation of the measure and the adaptation of the size of the data rectangle in a
  • Spreadsheet programs are integrated. This makes it possible to analyze soft data in a spreadsheet program.
  • Spreadsheet programs are 'widely used and offer data in cell formats, so that an advantageous use of the method is possible here.
  • a determined data rectangle is automatically integrated into a database, which is in particular linked to an input template.
  • an input template e.g. understood an input mask.
  • Structure of a first data cell and a second data cell, in particular adjacent data cells is automatically compared and, if necessary, a measure of the difference is determined. This automatically determines the similarity of data cells.
  • the method can be used in conjunction with a
  • Data rectangles to be integrated into a spreadsheet program e.g. determine which areas in a data sheet are similar to each other so that they
  • the task is also performed by a system for automatic
  • Spreadsheet program has an integrated system according to claim 14.
  • FIG. Figure 2 is an illustration of a uniform XML envelope
  • FIG. 3 is a schematic representation of the data exchange
  • Fig. 10 is a screen shot of an Exce 1 file as
  • Fig. 5 is a detail of the table of Fig. 4;
  • Fig. 6 is a tabular representation of the calculation of
  • FIG. 7 is a tabular representation of the calculation of the similarities between further data lines
  • Fig. 8-10 is an illustration of the characterization of adjacent ones
  • Fig. 11 is a flow chart of the basic algorithm
  • Fig. 12-13 an example of the determination of orders of magnitude
  • Fig. 14 shows an example of the detection of stripe patterns
  • Fig. 15 is an example of the capturing of labels
  • Fig. 16 is a flowchart similar to that for detection
  • Figs. 17-18 show an example of a similarity ssucne
  • Fig. 22 is a view of a questionnaire.
  • soft data e.g., data without a hard
  • Soft data is business information that can not be expressed by measures.
  • SAP BW upstream systems
  • a questionnaire is a structured template into which data that is not specially adapted to this template can be imported from a data source.
  • the algorithm described here analyzes the information in the data source. et al Similarities, to determine. This calculated information is then imported into the template, with the template only general
  • Presets that allow mapping of the parsed data from the data source can e.g. the metadata ⁇ table name, foreign keys, column names, etc.) of a relational database linked to the template.
  • the template does not have extensive presets that allow the mapping; the "intelligence" for the assignment of the data is in the procedure, not in the mapping
  • One embodiment of the overall method is divided into three phases, with the most important second phase in turn passing through three stages.
  • Fig. 1 is a flowchart shown, in which these phases are shown.
  • phase of the syntactic unification (FIG. 1, steps 1.1 to 1.5) is already known in principle.
  • the phase of the automatic analysis (FIG. 1, steps 2.1 to 2.3) relates to the automatic processing of the data in the
  • a data source is selected on a client (eg a browser) (FIG. 1: step 1.1, FIG. 3: step 1), which can be clicked or dragged onto a server (Fig. 1: step 1.2; Fig. 3: step 2) is transmitted. This is also called "binary upload”.
  • File formats converted into XML data with which then further processing of the data is possible.
  • Possible file formats may e.g. of word processing programs such as e.g. Word or OpenOffice, or presentation programs, such as PowerPoint are generated.
  • PDF formats and HTML documents can serve as a starting point for the conversion.
  • uniform XML format then contains a representation of the cell format and possibly also the connections between the
  • Data cells e.g., formulas
  • PowerPoint files can be stored in .ppt
  • FIGS. 2 and 21 An example of how an XML download (see FIG. 3, step) may look like is shown in FIGS. 2 and 21. 2 shows a visualization of the XML grammar.
  • the automatic analysis of the data advantageously takes place on the client (i.e., the browser) side. to the. one to relieve the expensive, central processing power of the server and to scale arbitrarily.
  • regions ie data cells
  • an .xlsx file or its representation in xml identify features that have specific structural ⁇ eg, rectangular range of numbers in a table) or content (eg, "EBIT” as a measure and "2010" as the current year) characteristics. These areas are hereafter referred to as
  • content-related feature is to be understood as meaning that there are identifiers (eg a header) in the data source that categorize certain data (eg, in the adjacent data cells), so the content that follows is not content in the sense of, but in the assignment of data cells to a
  • this area is automatically assigned to a part of a questionnaire by deducing the form of the information (e.g., first column and column headings) on the subject sizing (e.g., different measures in several years).
  • the form of the information e.g., first column and column headings
  • the subject sizing e.g., different measures in several years.
  • the questionnaire corresponds to a database table
  • the technical dimensioning corresponds to the.
  • the assignment is a search for the primary key in the metadata repository of the database.
  • Programs that deal with cell formats are provided. Starting from a first data cell, these may be e.g. characterized by the following criteria:
  • Another criterion is the structure of a formula in one of the data cells. Even if the numbers in formulas of neighboring cells are different, the syntactic structure (decomposition into terms) of a formula (e.g., a sum, an exponential expression, etc.) can provide information about the similarity of the cells to be compared.
  • the syntactic structure allows the analysis of the formula without numbers and / or
  • Another criterion may be the reference of the data cells in a formula.
  • an absolute reference or a relative reference can be evaluated.
  • semantics of a formula can be used as a criterion by e.g. It is automatically recognized that two types of mean value calculation are contained in two data cells whose syntax is different but the target of the calculation is similar.
  • Magnitude is. In principle, it is possible to use some or all of these criteria for characterization.
  • FIG. 5 shows by way of example a section of FIG. 4
  • the number "89.3" is intended to serve as the first data cell from which a similarity to neighboring data cells is automatically determined, since the technical evaluation of the "similarity" of two cells is of particular importance for the automatic method.
  • the similarity between two data cells is calculated by comparing the respective criteria.
  • each criterion is a percentage single" formed similarity ". Then, to increase the fault tolerance of
  • the worst value is deleted and the remaining values are added with a (learned) weighting.
  • Fig. 6 is in the form of a table, the calculation of
  • the similarity also involves the order of the numbers, e.g. To identify outliers.
  • the orders of magnitude become over a logarithmic measure
  • an outlier can be determined.
  • the criterion of the order of magnitude has been defined as outliers, since in this. Criterion was the least match. The removal of this result gives the best overall value, which, incidentally, can be understood as a definition of the outlier.
  • the overall similarity (last line in Fig. 6) is then calculated from the matches (considering the weights), where in the divisor is the sum of the relevant weights (i.e., without outliers).
  • Comparison with dimension values is categorized. In the example of FIG. 7 this circumstance is not taken into consideration.
  • Criteria a compliance of 0% was determined.
  • the criterion with the highest weighting here the "order of magnitude” is considered to be an outlier, ie the divisor is 1-0.15 when calculating the overall score. For example, if a formatted year number is
  • the tolerance threshold is the limit at which the percentage similarity value is interpreted as a yes / no decision "similar".
  • both vertically see FIG. 8
  • horizontally see FIG. 9
  • the immediate and then further neighbors are also characterized and compared with the output characterization. This comparison leads to the positive result "similar” when only a few aspects (up to a weighted average) are different.
  • Treating empty cells is an important point.
  • one data cell is “similar” to an adjacent empty cell, so the spread of the data area does not stop at empty data cells, which of course must prevent completely unfilled areas, and in particular the
  • Similarity of adjacent data cells is determined. If the similarity reaches a certain threshold, the data rectangle is extended horizontally.
  • the similarity in the vertical direction is determined.
  • a certain threshold_2 the data rectangle is extended by a vertical neighbor data cell and the method is included with the calculation in
  • threshold_2 it is checked whether a horizontal extension was made in the step before. If so, then with the repeated determination of similarity in horizontal
  • KPI i.e., Key Performance
  • the percentage growth value for the following year can be listed: percentage and absolute values, possibly highlighted by different layouts, alternate with each other
  • the data rectangle includes 9x4 data cells.
  • the surrounding ones are 0
  • Caption above includes 9x1 data cells, the caption below also contains 9x1 data cells.
  • 1x4 cells are arranged left and right.
  • the first strategy is described in FIG. 16 in the form of a flowchart. It should be noted that this embodiment of the method basically independent as well as in combination with the
  • Method for detecting a data rectangle (e.g., Fig. 11) is usable.
  • search for keywords can also be used in connection with the search for the data rectangle.
  • a feature vector receives one for each subject dimension ("time”, “market participant”, etc.)
  • each cell value is searched in the space of all previously known dimension values and, in the case of a found value, this criterion is additionally included in the similarity analysis.
  • this criterion is additionally included in the similarity analysis.
  • the database is searched for whether this data has already occurred once.
  • Dimensional attributes can be assigned to these foursides, such as in Fig. 18 for the values BMW and VW; both are market participants ⁇ MT). From this a similarity can be calculated again, here 100%.
  • multidimensional data model ⁇ Fig. 1, step 2, 3 which may also be referred to as a data cube.
  • a data cube can be thought of as a multidimensional matrix, with the columns and rows being the dimensions
  • the dimension combination "KPI x year” is used for the central data area of the "Financial Objectives in the
  • Data cells B6 to J9 contain market shares.
  • a file is automatically generated whose data cells can be assigned certain attributes.
  • the embodiment according to Fig. 1 can e.g. be coupled with a learning system so that certain relationships between the data cells and the structure of a spreadsheet are stored.
  • FIG. 22 shows a view of a questionnaire into which the data from FIG. 20 has been read.

Abstract

Die Erfindung betrifft ein Verfahren und ein System zur automatischen Bearbeitung von Daten, insbesondere weichen Daten, in Zellenformat, wobei a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird, b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweite Datenzelle, insbesondere in der Nachbarschaft der ersten Datenzelle generiert wird, c) in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.

Description

Verfahren und Vorrichtung zur automatischen Verarbeitung von Daten in einem Zellen-Format
Die Erfindung betrifft ein Verfahren zur automatischen
Verarbeitung von Daten mit den Merkmalen des Anspruchs 1 und ein System zur automatischen Verarbeitung von Daten mit den Merkmalen des Anspruchs 14.
In vielen Anwendungen liegen Daten in einem Zellenformat vor, wie es z.B. aus Spreadsheets bekannt ist. Üblicherweise können damit Daten einer Kategorie (z.B. in vertikal angeordneten Zellen) mit Daten aus anderen Kategorien (z.B. in horizontal angeordneten Zellen) verknüpft werden. Die Begriffe Zellen und Datenzellen werden hier synonym verwendet.
Dabei dienen Daten in Zellen-Format immer wieder als Importlnd / oder Export-Format für Programme. Die Anordnung der Daten in Zellen-Format hat sich als Schnittstelle zwischen Programmen etabliert .
Wenn Daten im Zellen-Format in ein Programm importiert v/erden sollen, ist es vorteilhaft, diese Daten vor dem Import
automatisch an die Informationsstruktur des Programms
anzupassen .
Es besteht daher die Aufgabe, ein Verfahren und eine
Vorrichtung zu entwickeln, bei der ein Datensatz automatisch so verändert wird, dass er bestimmte Vorgaben erfüllt.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Dabei werden Daten, insbesondere 'weichen Daten, in Zellenformat automatisch bearbeitet in, wobei a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird,
b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle, insbesondere in der Nachbarschaft der ersten Zelle generiert wird,
c) in Abhängigkeit von mindestens einem vorbestimmten
Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.
Die automatische Ermittlung einer Maßzahl für die Ähnlichkeit von Datenzellen ermöglicht die weitere Bearbeitung der Daten. Dabei ist es vorteilhaft, wenn die Schritte b) und c) bis zu einem Abbruchkriterium, durchgeführt werden.
Die Erweiterung des Datenrechtecks erfolgt dabei
vorteilhafterweise in Abhängigkeit vom Vergleich der
berechneten Maßzahl für eine Ähnlichkeit und einem
vorbestimmten Schwellenwert .
In einer vorteilhaften Ausführungsform wird festgestellt, dass ausgehend von einer mit Daten gefüllten Datenzelle automatisch ermittelt wird, ob eine Beschriftung vorhanden ist. Unter einer Beschriftung ist hier ein String zu verstehen, der für eine Reihe von Zellen als eine Beschriftung aufgefasst werden kann. Die Verwendung der der Beschriftungsinformation ist für die spätere Weiterverarbeitung der reinen Zahleninformation
hilfreich, da die Zahl in einen Kontext gestellt wird. Ferner ist es vorteilhaft, wenn die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen
Datentyps, des jeweiligen Nachkommastellen-Formats , der
jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer
Formeleigenschaft der jeweiligen Datenzellen, eines jeweils definierten Schutzes der Datenzelle, der jeweiligen Höhe der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen
Datenzellen und / oder der Struktur einer Formel in der
Datenzelle bestimmt wird. Auf diese Art und Weise kann eine aussagekräftige Bewertung der Ähnlichkeit erfolgen. Dabei können die Kriterien insbesondere in Kombination angewendet werden .
Da nicht alle dieser Kriterien in einem konkreten
Anwendungsfall gleichwertig sind, ist es vorteilhaft, wenn die Kriterien mit einem Gewichtungsfaktor versehen werden.
Für die weitere Auswertung der Daten ist es vorteilhaft, wenn Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst werden. Dies erlaubt eine verbesserte Zuordnung der Daten.
In vielen Fällen weisen Datenblätter ähnliche Strukturen auf, wie z.B. Umsatzzahlen über Jahre. Daher ist es vorteilhaft, wenn eine automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist. Damit kann das Verfahren im Laufe der Zeit schneller und besser erkennen, welche Daten sinnvoll in die Analyse einzubeziehen sind.
Ferner ist es vorteilhaft, wenn auf Grund der
Ähnlichkeitsanalyse automatisch eine Datei generiert 'wird, die Datenzellen aufweist, denen auf Grund der Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind. Auch ist es vorteilhaft, wenn die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein
Tabellenkalkulationsprograinm integriert sind. Damit ist es möglich bereits in einem Tabellenkalkulationsprogramm die Analyse weicher Daten vorzunehmen.
Tabellenkalkulationsprogramme sind 'weit verbreitet und bieten Daten in Zellenformaten an, so dass hier eine vorteilhaft Verwendung des Verfahrens möglich ist.
In einer weiteren vorteilhaften Ausführungsform wird ein ermitteltes Datenrechteck automatisch in eine Datenbank integriert, die insbesondere mit einer Eingabeschablone verknüpft ist. Unter einer Eingabeschablone wird z.B. eine Eingabemaske verstanden .
Dabei ist es besonders vorteilhaft, wenn Daten mit ihren
Beschriftungen mit bereits in der Datenbank vorhandenen Daten und deren Beschriftung automatisch verglichen werden.
Vorteilhaft ist es insbesondere, wenn eine syntaktische
Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird. Damit kann automatisch die Ähnlichkeit von Datenzellen bestimmt werden.
Mit Vorteil kann das Verfahren in Zusammenhang mit einer
Tabellenkalkulation angewandt werden. Dafür können die
Berechnung der Maßzahl und die Anpassung der Größe des
Datenrechtecks in ein Tabellenkalkulationsprogramm integriert sein. So kann z.B. ermittelt werden, welche Bereiche in einem Datenblatt untereinander ähnlich sind, so dass diese ggf.
hervorgehoben, dass darauf Cursor gerichtet werden kann und / oder als eigene Datei abgespeichert werden kann. Die Aufgabe wird auch durch ein System zur automatischen
Bearbeitung von Daten in Zellenformat gemäß Anspruch 14 gelöst, wobei eine Startzelle als erste Datenzelle für ein
Datenrechteck ausgewählt wird, mit einem Mittel zur
automatischen Bestimmung einer Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten Datenzelle, wobei in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die
Ähnlichkeit entscheidbar ist, ob das Datenrechteck in
horizontaler und / oder vertikaler Richtung erweitert wird.
Eine besonders vorteilhafte Lösung liegt vor, wenn ein
Tabellenkalkulationsprogramm ein integriertes System gemäß Anspruch 14 aufweist.
In Zusammenhang mit den Figuren werden Ausführungsbeispiele des Verfahrens und des Systems beschrieben. Dabei zeigen:
Fig. 1 ein Flussdiagramm einer Ausführungsform des
Verfahrens ;
Fia. 2 eine Darstellung eines einheitlichen XML-Envelope;
Fia. 3 eine schematische Darstellung des Datenaustauschs
zwischen einem Client und einem Server;
Fig. eine Bildschirmabbildung einer Exce 1-Datei, als
Datenquelle für das Verfahren;
Fig. 5 einen Ausschnitt aus der Tabelle der Fig. 4;
Fig. 6 eine tabellarische Darstellung der Berechnung der
Ähnlichkeiten zwischen Datenzellen; Fig. 7 eine tabellarische Darstellung der Berechnung der Ähnlichkeiten zwischen weiteren Datenzeilen;
Fig, 8-10 eine Darstellung der Charakterisierung benachbarter
Datenzellen;
Fig. 11 ein Flussdiagrainm des Grundalgorithmus ;
Fig. 12-13 ein Beispiel für die Ermittlung von Größenordnungen
von Zellinhalten;
Fig. 14 ein Beispiel für die Erkennung von Streifenmustern ;
Fig. 15 ein Beispiel für die Erfassung von Beschriftungen;
Fig. 16 ein Flussdiagrainm für die Erfassung ähnlicher
Bereiche ;
Fig. 17-18 ein Beispiel für eine Ähnlichkeit ssucne ;
Fig. 19 ein Beispiel für die automatische Zuordnung eines
Datenrechtecks über die Beschriftung zu einem
Fragebogen ;
ein Beispiel für eine Tabelle nach der Bearbeitun der Datenzeilen,;
ein Beispiel für XML-Code für syntaktis
Unifikation; Fig. 22 eine Ansicht eines Fragebogens.
Im Folgenden v/erden einige Ausführungsformen beispielhaft beschrieben .
Bei den Ausführungsbeispielen geht es darum, eine technische Schnittstelle bereitzustellen, Vielehe eine automatisierte, intelligente Verarbeitung externer Daten sicherstellt. Die technische Herausforderung liegt hier in der eigenständigen Analyse von Internetbasierten Daten zu exogenen Informationen, wie z.B. Strategieinformationen 'wie Märkte, Wettbewerber, Trends, Finanzdaten und die automatisierte Zuordnung zu
Fragebogeninhalten, ohne dass der Anwender diesen
Übertragungsprozess manuell unterstützen muss. Auch die
Bereitstellung technischer Schnittstellen zu Excel gehört dazu.
Als Beispiel für die Ausführungsformen 'wird die Verarbeitung von Daten im Zellen-Format in Verbindung mit der Software Solyp beschrieben, die u.a. in dem Buch von A. Zimmermann,
„Praxisorientierte Unternehmensplanung mit harten und weichen Daten: Das Strategische Führungssystem" beschrieben ist.
Grundsätzlich sind die hier beschrieben Ausführungsformen auch mit anderen Softwaresystemen umsetzbar. So ist es z.B. möglich, die automatische Berechnung der Maßzahl für die Ähnlichkeit und die Anpassung des Datenrechteckes in einem
Tabellenkalkulationsprogramm zu integriere .
Im Umfeld weicher Daten (z.B. Daten ohne eine harte,
vorbestimmte Formatbeschreibung und / oder Daten mit einer mit Ausnahmen behaftete Formatbeschreibung) ist es unabdingbar, auch das Thema „externe Schnittstellen" in diesem Licht zu sehen .
Ein Beispiel für weiche Daten si d betriebswirtschaftliche Informationen, die sich nicht durch Kennzahlen ausdrücken lassen . Neben den harten Systemschnittstellen zu IT-technisch wohlbekannten Vorsystemen wie SAP-BW, zeichnet sich das
tägliche Geschäft mit weiche Daten für die vielen einzelnen Anwender dadurch aus, dass sie in persönlicher Verantwortung mit einer Vielzahl von anderen Stellen strategische und weiche Informationen austauschen.
Im Gegensatz zum generischen Excel-Export aus dem SOLYP System zum Beliefern externer Systeme, existiert bisher noch keine zufriedenstellende Lösung zum Importieren beliebiger Daten aus beliebigen Vorsystemen, also einer weichen Schnittstelle in dem Sinne, dass keinerlei harte, technische Formatbeschreibung vorausgesetzt wird.
Zum einen ist der heutige harte Excel-Import für einen
Fragebogen {d.h. einem Abfrageschablone für einen
Dateneingebenden) neu und individuell zu entwickeln; ganz zu schweigen vom Aufwand, die Daten in eben dieser Form zu
liefern. In diesem. Zusammenhang stellt ein Fragebogen eine strukturierte Schablone dar, in die nicht besonders für diese Schablone angepasste Daten aus einer Datenquelle importiert werden können. Der hier beschriebene Algorithmus analysiert die Informationen in der Datenquelle, um. u.a. Ähnlichkeiten, zu ermitteln. Diese berechneten Informationen werden dann in die Schablone importiert, wobei die Schablone nur allgemeine
Vorgaben enthält, die eine Zuordnung der analysierten Daten aus der Datenquelle ermöglichen. Solche Vorgaben können z.B. die Metadaten {Tabellenname, Fremdschlüssel, Spaltennamen etc.) einer relationalen Datenbank sein, die mit der Schablone verknüpft ist .
Damit ist es möglich, die in die Datenbank integrierten Daten mit bereits in der Datenbank vorhandenen Daten zu vergleichen.
Somit rauss die Schablone nicht über umfangreiche Vorgaben verfügen, die die Zuordnung ermöglichen; die „Intelligenz" für die Zuordnung der Daten steckt im Verfahren, nicht in der
Datenbank oder der Schablone oder der Datenquelle.
Zum anderen ist die Möglichkeit Daten via Ausschneiden,
Kopieren, Einfügen ( Cut /Copy/Paste ) über die Zwischenablage in SOLYP zu übernehmen, mit sehr viel manuellem Aufwand verbunden. Ziel der hier beschriebenen Ausführungsform ist es, genau diese Lücke zu füllen und es zu ermöglichen, mit minimalem Aufwand Daten aus nicht vorab bekannten Quellen entgegenzunehmen, ihre Struktur anhand von vorgegebenen Mustern automatisiert zu analysieren und sie dann im dazu passenden Solyp Datenformat, d.h. einem Fragebogen abzulegen.
Eine Ausführungsform des Gesamtverfahrens gliedert sich in drei Phasen, wobei die wichtigste zweite Phase wiederum drei Stufen durchläuft .
In Fig. 1 wird ein Flussdiagramm, dargestellt, bei dem diese Phasen dargestellt sind.
Die Phase der Syntaktischen Unifikation (Fig. 1, Schritte 1.1 bis 1.5) ist grundsätzlich bereits bekannt.
Die Phase der automatischen Analyse (Fig. 1, Schritte 2.1 bis 2.3) betrifft die automatische Verarbeitung der Daten im
Zellen-Format, die hier neu beschrieben wird.
In der dritten Phase werden dann verschiedenen Möglichkeiten der Weiterverarbeitung (Fig. 1, Schritte 3.1 bis 3.2
beschrieben) .
1. Syntaktische Unifikation
Aus einer beliebigen Quelle und in beliebigem Daten-Format sollen Daten in eine Software, insbesondere Solyp übernommen werden. Dazu 'wird auf einem Client (z.B. einem. Browser) eine Datenquelle ausgewählt (Fig. 1: Schritt 1.1; Fig. 3: Schritt 1), die per Knopfdruck oder via Drag ' n ' Drop auf einen Server (Fig. 1: Schritt 1.2; Fig. 3: Schritt 2) übertragen wird. Dies wird auch als „binary upload" bezeichnet .
Auf dem Server sind für verschiedene Datei-Formate (d.h. File- Formate - nicht zu verwechseln mit dem freien Format der Daten innerhalb der Datei) Leseroutinen installiert, um das File zu öffnen und in ein einheitliches Dateiformat (z.B. xml) zu übertragen (Fig. 1: Schritt 1.3; Fig. 3: Schritt 3).
Bei dieser Umwandlung - im Beispiel aus einem Excel Format - bleiben (möglichst) alle inhaltlichen Aspekte (z.B. definiert durch Kriterien, die im Folgenden noch näher erläutert v/erden) erhalten (dazu gehören auch Layout und ähnliches) und es geht nur die technische Nutzbarkeit für das Programm (hier Excel) verloren (Fig. 1: Schritt 1.4) . Es ist also theoretisch
möglich, aus dieser XML-Repräsentation wieder eine
„Originalkopie'" herzustellen .
Somit werden beliebige, insbesondere auch proprietäre
Dateiformate in XML-Daten umgewandelt, mit denen dann eine Weiterverarbeitung der Daten möglich ist. Mögliche Dateiformate können z.B. von Textverarbeitungsprogrammen wie z.B. Word oder OpenOffice, oder Präsentationsprogrammen, wie z.B. PowerPoint erzeugt werden. Auch PDF-Formate und HTML-Dokumente können als Ausgangspunkt für die Umwandlung dienen.
Das Verfahren und System, gemäß der hier vorliegenden
Beschreibung weist somit eine Art Transformator von
proprietären Dateiformaten in ein XML-Format auf. Das
einheitliche XML-Format enthält dann eine Repräsentation des Zellenformats und ggf. auch der Verbindungen zwischen den
Datenzellen (z.B. Formeln) .
Praktisch wird ein einheitlicher XML-Envelope definiert (Fig. 2), indem sich, je nach File-Format, adäquate Repräsentationen einbetten lassen (zwei Beispiele) : • Eine übliche Excel-Datei (*.xls) wird von Makros befreit und z.B. in ein Derivat des „CALS Table Model" OASIS Technical Memorandum TM 9502:1995 (http: //www . oasis- open.org/specs/a5Q2.htm) überführt . Layout-Informationen sowie Formel-Quelltext bleiben zusammen mit den Zahlen und Textwerten erhalten. Siehe z.B. auch M11-M-38784B
Standard :
8 Für eine Quelle in HTML, also eine allgemein übliche
Webseite im Internet, wird der HTML-Quellcode von
dynamischen .Javascript-Bestandteilen befreit und in xhtml transkribiert .
In ähnlicher Weise lassen sich Powerpoint Dateien im .ppt
Format {ebenfalls ein proprietäres Format) bearbeiten.
In den Fig. 2 und Fig. 21 wird an einem Beispiel gezeigt, wie ein XML-Download (siehe Fig. 3, Schritt) aussehen kann. Fig. 2 zeigt dabei eine Visualisierung der XML-Grammatik.
Die resultierende XML-Datei wird nun an die Client-Komponente zurückgegeben (Fig. 1: Schritt 1.5; Fig. 3: Schritt 4), die nun ohne spezielle Bibliotheken zur Dateikonvertierung die
Quelldaten analysieren und eingeschränkt präsentieren kann.
Fig. 4 zeigt eine Bildschirmabbildung einer Excel-Datei, die als Datenquelle für das Verfahren dienen kann. Im Folgenden wird die automatische Analyse beschrieben, die von diesem
Format ausgeht .
2. Automat i sche Ana1yse
Die automatische Analyse der Daten findet vorteilhafterweise auf Seiten des Clients (d.h. des Browsers) statt, um. zum. einen die teuere, zentrale Rechenleistung des Servers zu entlasten und beliebig zu skalieren.
Ziel ist es, Bereiche (d.h. Datenzellen) in der Quelle, d.h. hier einer .xlsx Datei oder deren Repräsentation in xml, zu identifizieren, die bestimmte strukturelle {z.B. rechteckiger Bereich von Zahlen in einer Tabelle) oder inhaltliche (z.B. „EBIT" als Kennzahl und „2010" als aktuelles Jahr) Merkmale aufweisen. Diese Bereiche Vierden im Folgenden als
„Datenrechtecke" bezeichnet. Der Begriff inhaltliches Merkmal ist so zu verstehen, dass es Identifier (z.B. eine Überschrift) in der Datenquelle gibt, die bestimmte Daten (z.B. in den benachbarten Datenzellen) kategorisieren . Für die folgende Beschreibung kommt es also nicht auf den Inhalt dem Sinn nach an, sondern in der Zuordnung von Datenzellen zu einem
Identifier .
Anschließend wird dieser Bereich einem Teil eines Fragebogens automatisch zugeordnet, indem aus der Form der Information (z.B. erste Spalte und Spaltenüberschriften) auf die fachliche Dimensionierung geschlossen wird (z.B. verschiedene Kennzahlen in mehreren Jahren) . Somit ist es möglich, den Identifier in dem Fragebogen (z.B. Datenbank verknüpft mit Eingabeschablone) zu ermitteln, um dann eine Umwandlung der maßgeblichen Daten zu erreichen .
Der Fragebogen entspricht dabei einer Datenbanktabelle, die fachliche Dimensionierung entspricht dem. primarv key dieser Tabelle, die Zuordnung ist eine Suchanfrage nach dem primary key im Metadatenrepository der Datenbank.
2.1 „Datenrechteck"
Anhand von Informationen in der Datei ist es möglich das
Datenrecheck zu charakterisieren (Fig. 1: Schritt 2.1) . Dabei stehen eine Reihe von Parametern zur Verfügung, die von
Programmen, die mit Zellen-Formaten umgehen zur Verfügung gestellt werden. Ausgehend von einer ersten Datenzelle können diese z.B. durch folgende Kriterien charakterisiert werden:
* Datentyp • Nachkommastellen
• Größenordnung
• Fett /Kurs! /Farbe/Schrift /Rahmen
• Formel
• Zellschutz
• Zellenhöhe/breite
Ein weiteres Kriterium ist die Struktur einer Formel in einer der Datenzellen. Selbst wenn die Zahlen in Formeln benachbarter Zellen unterschiedlich sind, so ka n die syntaktische Struktur (Zerlegung in Terme) einer Formel (z.B. eine Summe, einer exponentieller Ausdruck etc.) Aufschluss über die Ähnlichkeit der zu vergleichenden Zellen geben. Die syntaktische Struktur erlaubt die Analyse der Formel ohne Zahlen- und / oder
Datenzeilenbezug .
Ein weiteres Kriterium kann der Bezug der Datenzellen in einer Formel sein. Dabei kann ein absoluter Bezug oder ein relative Bezug ausgewertet werden.
Auch kann die Semantik einer Formel als Kriterium verwendet werden, indem z.B. automatisch erkannt wird, dass zwei Arten von MittelWertberechnung in zwei Datenzellen enthalten sind, deren Syntax unterschiedlich ist, das Ziel der Berechnung aber ähnlich ist.
Dabei ist es auch möglich, dass automatisch erkannt wird, das eine fehlende Formel in Nachbarschaft von existierenden Formeln extra- oder interpoliert wird. Dazu wird in die Datenzelle ohne Formel eine Formel geschrieben, die sich aus den umliegenden ergibt. Es kann dann eine Plausibilität skontrolle durchgeführt werden, ob z.B. ein Zahlenwert, der anstelle der Formel in der Datenzelle steht, wertmäßig mit der extra- oder interpolierten Formel übereinstimmt oder wertmäßig in der gleichen
Größenordnung liegt. Grundsätzlich ist es möglich, einige oder alle dieser Kriterien zur Charakterisierung zu verwenden.
In Fig. 5 ist beispielhaft ein Ausschnitt aus Fig. 4
dargestellt. Die Zahl „89,3" soll als erste Datenzelle dienen, von der ausgehend automatisch eine Ähnlichkeit zu Nachbar- Datenzellen ermittelt wird, da die technische Bewertung der „Ähnlichkeit" zweier Zellen von besonderer Bedeutung für das automatische Verfahren ist. Die Ähnlichkeit zweier Datenzellen wird über den Abgleich der jeweiligen Kriterien gebildet.
Für "jedes Kriterium wird einzeln eine prozentuale „Ähnlichkeit" gebildet. Dann wird zur Erhöhung der Fehlertoleranz der
schlechteste Wert gestrichen und die übrigen Werte mit einer (gelernten) Gewichtung addiert.
In Fig. 6 ist in Form einer Tabelle die Berechnung der
Ähnlichkeit zwischen den Datenzellen „89,3" und „161,6" (linke Nachbar-Datenzelle von „89,3", siehe Fig. 8) dargestellt. Da beide das Kriterium einer ZAHL erfüllen, beträgt die
Übereinstimmung 100%. Da dieses Kriterium eine hohe Bedeutung hat, geht es in die Ähnlichkeitsberechnung mit einem Gewicht von 30% ein. Die Formatierung der Nachkommastellen geht mit einem relativ geringen Gewicht in die Berechnung ein, hier 5%. Die Übereinstimmung zwischen den Datenzellen beträgt hier 100%.
In die Ähnlichkeit fließt auch die Größenordnung der Zahlen ein, um z.B. Ausreißer zu ermitteln. Im vorliegenden Beispiel werden die Größenordnungen über ein logarithmisches Maß
ermittelt. Hier werden die dekadischen Logarithmen ermittelt, bei sich eine absolute Differenz von 0,26 zwischen den Werten ergibt. In Prozent umgerechnet v/ird die Übereinstimmung als 100 - 26 = 74% angegeben.
Die übrigen Kriterien in Fig. 6, d.h. Formatierung (Fett/
Kursiv Farbe/ Schrifttype/ Rahmen etc.), Formel, Zellschutz und Zellenhöhe und -breite sind bei beiden Datenzellen identisch, so dass hier 100% Übereinstimmung besteht.
Bei dem Kriterium „Formel" kann entweder der berechnete Wert verglichen werden oder die Formel als „Text" einem. Längen- und / oder Strukturvergleich unterzogen Vierden.
Wenn die Übereinstimmungen ermittelt worden sind, kann ein Ausreißer bestimmt werden. Im Beispiel der Fig. 6 wurde das Kriterium der Größenordnung als Ausreißer definiert, da in diesem. Kriterium die Übereinstimmung am geringsten war. Die Streichung dieses Ergebnisses, ergibt den besten Gesamtwert, was im Übrigen als Definition des Ausreißers verstanden werden kann .
Die Gesamtähnlichkeit (letzte Zeile in Fig. 6) 'wir dann aus den Übereinstimmungen (unter Berücksichtigung der Gewichte) berechnet, wobei im Divisor die Summe der relevanten Gewichte (d.h. ohne Ausreißer) steht.
Die Gesamtähnlichkeit der Datenzellen mit den Zahlen „89,3" und „161,6" wird mit 100% berechnet.
Im Zusammenhang mit Fig. 7 wird eine analoge Berechnung für die Ähnlichkeit der Datenzellen mit den Zahlen „89,3" und „2003" (siehe auch Fig. 9) durchgeführt, wobei das Verfahren zwar nicht die inhärente Bedeutung der Zahl „2003" als Jahreszahl kennt, aber durch die später beschriebene Methode des
Vergleichs mit Dimensionswerten kategor isiert wird. Im. Beispiel Fig. 7 ist dieser Umstand nicht berücksichtigt.
Es sei darauf hingewiesen, dass im Beispiel der Fig. 7 der Ausreißer etwas anders bestimmt wird, da hier bei drei
Kriterien eine Übereinstimmung von 0% ermittelt wurde. Als Ausreißer wird das Kriterium, mit der höchsten Gewichtung, hier also die „Größenordnung" als Ausreißer gewertet. Demnach ist der Divisor bei der Berechnung der Gesamtbewertung 1-0,15. Wird beispielsweise eine formatierte Jahreszahl als
Spaltenüberschrift mit einem Umsatzwert verglichen, so ergibt sich sowohl bei Toleranzschwellen von 90% als auch 80% die korrekte Bewertung der Unähnlichkeit . Somit stellt das
Verfahren automatisch (ohne Vorkenntnisse) fest, das zwischen den Datenzellen mit den Zahlen „89,3" und „2003" eine
erhebliche Unähnlichkeit besteht. Die Toleranzschwelle ist die Grenze bei der der prozentuale Ähnlichkeitswert als Ja/Nein- Entscheidung „Ahnlich" interpretiert wird.
Von der ersten Datenzelle ausgehend werden sowohl vertikal (siehe Fig. 8), als auch horizontal (siehe Fig. 9) zuerst die unmittelbaren und dann 'weiteren Nachbarn (siehe Fig. 10) ebenfalls charakterisiert und mit der Ausgangscharakterisierung verglichen. Dieser Vergleich führt zu dem positiven Ergebnis „ähnlich", 'wenn nur wenige Aspekte (bis zu einem gewichteten Sc we11wert) unterschied1 ich sind .
Auf diese Weise entsteht zuerst eine Zeile bzw. Spalte relativ ähnlicher Datenzellen. Als nächster Schritt wird dieser
zunächst eindimensionale Streifen in der zweiten Dimension auf die Nachbarn erweitert, falls diese „ähnlich" genug sind. Nun wird dieses Verfahren immer wieder in den beiden Richtungen wiederholt, bis sich eine möglichst große, rechteckige Fläche „ähnlicher" Datenzellen ergibt.
Da in der Praxis die strategisch relevanten Informationen nicht unbedingt vollständig vorliegen, ist die konstruktive
Behandlung von Leerzellen ein wichtiger Punkt. Per definitionem ist eine Datenzelle zu einer benachbarten Leerzelle „ähnlich". Die Ausbreitung des Datenbereichs stoppt also nicht an leeren Datenzellen, 'wobei selbstverständlich verhindert 'werden muss, dass vollständig ungefüllte Bereiche und insbesondere die
Restfläche eines Datensheets nicht als zum Datenbereich gehörig interpretiert wird. Der Grundalgorithmus (siehe Fig. 11) zur Suche des
Datenrechtecks ist damit umrissen. In Fig. 11 ist eine
Ausführungsform dargestellt, bei der ausgehend von einer
Startdatenzelle zunächst in horizontaler Richtung die
Ähnlichkeit benachbarter Datenzellen bestimmt wird. Wenn die Ähnlichkeit einen bestimmten Schwellenwert_l erreicht ist, 'wird das Datenrechteck in horizontaler Richtung erweitert .
Anschließend wird die Ähnlichkeit in vertikaler Richtung bestimmt. Wenn ein bestimmter Schwellenwert_2 erreicht ist, wird das Datenrechteck um eine vertikale Nachbar-Datenzelle erweitert und das Verfahren wird mit der Berechnung in
horizontaler Richrung weitergeführt. Ist Schwellenwert_2 nicht erreicht, wird geprüft, ob im Schritt vorher eine horizontale Erweiterung vorgenommen wurde. Wenn ja, dann wird mit der wiederholten Bestimmung der Ähnlichkeit in horizontaler
Richtung fortgefahren. Wenn nicht, dann hat der Algorithmus ein stabiles Rechteck identifiziert, dass weder horizontal, noch vertikal erweiterbar ist und das Programm hat seine Aufgabe erfüllt .
Im Folgenden werden noch zwei weiter vorteilhafte Ergänzungen beschriebe .
Ausgehend vom Beispiel {Fig. 4) KPI (d.h. Key Performance
Indicator) x Jahr kann die Größenordnung verschiedener KPIs sehr unterschiedlich sein und im Einzelfall passt auch der Datentyp 'wie von EBIT und EBIT-Marge nicht zusammen (Fig. 12) .
Deshalb wird in den beiden Richtungen mit unterschiedlichen Schwellwerten für „ähnliche" Werte gearbeitet. Es steht zu Beginn nicht fest, welche Richtung sich stärker Unterscheiden darf, sondern beide Hypothesen betrachtet und die mit besserer „Gesamtähnlichkeit" gewählt (Fig. 13) . In Fig. 13 sind die unterschiedlichen Prozentangaben für die Ähnlichkeit durch Doppelpfeile in x- und in y-Richtung angegeben. Noch einen Schritt weiter geht die Erkennung von
„Streifenmustern". Nach jeder Jahresspalte kann beispielsweise der prozentuale Wachstumswert zum Folgelahr aufgeführt sein. Es wechseln sich Prozent- und Absolutwerte, eventuell noch durch unterschiedliches Layout hervorgehoben, gegenseitig ab. Zur automatischen Erkennung dieser Datenlage werden zwei
Datenzellen gemeinsam betrachtet, die dann als Paar zum
benachbarten Folgepaar auf „Ähnlichkeit" geprüft werden. In Fig. 14 ist dargestellt, das zu jeder Jahresspalte noch eine prozentuale Änderung gehört.
2.2 Zusätzliche Suche nach Schlüsselwörtern
Nachdem ein Datenbereich, d.h. das Datenrechteck in der Quelle identifiziert wurde (siehe Fig. 1, Schritt 2.1; Fig. 11), wird in diesem Schritt die Klassifizierung dadurch abgeschlossen, dass die noch fehlende Beschriftungsinformation hinzugefügt wird .
An allen vier Seiten des Datenrechtecks können sich
Spaltenköpfe, Zei 1enbeschriftungen , Kommentarspa11en,
Summenzeilen und ähnliches anschließen. Dazu wird das bisher ermittelte Datenrechteck sowohl horizontal als auch vertikal erweitert, so dass bis zu neun Anschnitte entstehen: das
Datenrechteck in der Mitte, vier Seiten mit Köpfen und
Beschriftungen, sowie vier Eckbereiche, die entweder leer sind oder z.B. statischen Text enthalten. In Fig. 15
umfasst das Datenrechteck 9x4 Datenzellen. Die umgebenden
Beschriftungen sind durch Umkreisung dargestellt. Die
Beschriftung oberhalb umfasst 9x1 Datenzellen, die Beschriftung unterhalb ebenfalls 9x1 Datenzellen. Links und rechts sind jeweils 1x4 Zellen angeordnet. Hinzukommen jeweils Zellen in den Ecken, die in Fig. 15 durch Kreuze hervorgehoben sind.
Um die Ausmaße der Randbereiche zu bestimmen kommen zwei kombinierte Strategien zum Einsatz. Die erste Strategie ist in Fig. 16 in Form eines Flussdiagramms beschrieben. Es sei darauf hingewiesen, dass diese Ausführungsform des Verfahrens grundsätzlich unabhängig als auch in Kombination mit dem
Verfahren zur Ermittlung eines Datenrechtecks (z.B. Fig. 11) verwendbar ist.
Die beschriebene "Suche nach Schlüsselwörtern" kann auch schon im Zusammenhang mit der Suche nach dem Datenrechteck verwendet werden. Hierzu bekommt ein Merkmalsvektor für jede fachliche Dimension ("Zeit", "Marktteilnehmer" etc.) jeweils einen
Eintrag, der die Zugehörigkeit des Zellwertes zur
entsprechenden Dimension mit einer Ähnlichkeit von 0% bis 100% bewertet. Dies geschieht sowohl über inhaltliche Muster
(Regulär Expressions) als auch unter Zugriff auf die
vorhandenen Daten (z.B. die Bezeichnung einer Entität) in den Dimensionssystemen des Zielsystems .
Somit steht für die automatisierte Ähnlichkeitsbetrachtung im Algorithmus ein weiteres, eher semantisches Merkmal bereit, das schon während der Analyse zur Identifikation des Daten- oder Überschriften-Rechtecks beiträgt. Praktisch lassen sich dadurch z.B. Text zellen mit Kommentaren (also ohne
Dimensionsübereinstimmung) von Textzellen mit Namen von
Marktteilnehmern (Suchtreffer in einer Tabelle der
Marktteilnehmer) unterscheiden, obwohl diese unter Umständen das gleiche Zell-Layout verwenden.
Neben der Analyse mit dem Algorithmus gemäß Fig. 16 zur
Identifikation von in sich ähnlichen Bereichen, wird
vorteilhafterweise zusätzlich auch der konkrete Inhalt der Datenzellen in der Ähnlichkeitsanalyse betrachtet. Da sich in der Beschriftung häufig die Bezeichnungen der Werte einer
Dimension eines Datenwürfels befinden, wird jeder Zellwert im Raum aller bisher bekannten Dimensionsausprägungen gesucht und im Falle eines gefundenen Wertes dieses Kriterium zusätzlich in der Ähnlichkeitsbetrachtung dazugerechnet . Hierdurch lassen sich beispielsweise Jahreszahlen, die Namen von Wettbewerbern oder Scoring-Symbole „-+" schon größtenteils eindeutig zuordnen. Es entsteht somit für jede Datenzelle ein neues vergleichbares Merkmal „zugeordnete Dimension", das in der „Ähnlichkeit ssuche" für Bereiche mit herangezogen wird (Fig. 17 und 18) .
In Fig. 17 sind zwei unterschiedliche Ausschnitte aus den
Stammdaten einer, das Verfahren verwendenden Rahmenapplikation dargestellt. Bei der linken Darstellung ist eine Spalte mit Jahreszahlen erfasst worden, bei der rechten Darstellung eine Reihe von Mitbewerbern, hier Automobilfirmen.
In einer Ausführungsform des Verfahrens wird in der Datenbank gesucht, ob diese Daten bereits einmal vorgekommen sind. Diesen können Dimensionsattribute zugeordnet Vierden, wie z.B. in Fig. 18 für die Werte BMW und VW; beides sind Marktteilnehmer { MT ) . Daraus lässt sich wieder eine Ähnlichkeit berechnen, hier 100%.
In der Praxis kann diese Analyse auch schon initial für das primäre Datenrechteck durchgeführt, kommt aber Aufgrund der Zahlenlast igkeit dort meist nicht zum Tragen.
2.3 Vergleiche mit Dimensionierung der Datenwürfel
Die über die Suche nach Schlüsselwörtern erfolgte Zuordnung von Dimensionen zu Datenzellen ermöglicht die Zuordnung von
Dimensionen zu kompletten Zeilen-/ Spaltenbeschriftungen, also die Einordnung des erkannten Datenbereichs in ein
mult idimensionales Datenmodell {Fig. 1, Schritt 2,3), der auch als Datenwürfel bezeichnet werden kann.
Ein Datenwürfel kann als mehrdimensionale Matrix aufgefasst werden, wobei die Spalten und Reihen die Dimensionen
darstellen, die Dateneinträge stellen die Information in dem Datenwürfel dar. Somit wird beispielsweise ein Bereich aus Festkommazahlen mit Jahreszahlen als Spaltenköpfen und betriebswirtschaftlichen Kenn zahIbeZeichnunge wie „EBIT" für die Beschriftung der Zeilen als 2-dimensionales Grid in den Dimensionen ,,ΚΡΙ x Jahr erkannt .
Als letzter automatischer Schritt erfolgt nun die Zuordnung zu einem Fragebogen (in Fig. 19 mit „QUEST_PART" bezeichnet), indem nach dem Vorkommen dieser Dimensionskombination im.
Gesamtkatalog aller Fragebögen gesucht wird. Die
Dimensionskombination „KPI x Jahr" wird so beispielsweise dem zentralen Datenbereich des Fragebogens „Finanz ziele im
Businessplan" (in Fig. 19 mit „BUPLA DATA" bezeichnet)
zugeordnet .
Sollte diese Zuordnung nicht eindeutig sein, so deutet entweder ein statischer Text im Eckbereich der Quelle auf den richtigen Fragebogen, oder es werden dem Endanwender, wie nachfolgend beschrieben, die verschiedenen Treffer zur manuellen Auswahl angeboten ,
In obigem Beispiel {siehe auch Fig. 19) kennzeichnet „ZI" die alleinige Verwendung der Dimension „Jahr" (KPI ist implizit) und von den drei damit möglichen Fragebögen wurde sich für den „BUPLAN 810" entschieden.
In Fig. 20 ist ein Endprodukt nach der Bearbeitung der
Datenzellen dargestellt. Die ähnlichen Bereiche, z.B.
Jahreszahlen sind gekennzeichnet. Das Verfahren auch
automatisch erkannt, dass die Datenzellen A6 bis A9
Marktteilnehmer, die Datenzellen B5 bis J5 Jahre und die
Datenzellen B6 bis J9 Marktanteile enthalten.
Somit wird automatisch auf Grund der Ähnlichkeitsanalyse eine Datei generiert, deren Datenzellen bestimmte Attribute zuordbar sind .
3. Weitere Datenverarbeitung Für die weitere Verarbeitung des automatisch berechneten
Datenrechtecks gibt es eine Reihe weiterer
Verarbeitungsmögl ichkeiten .
Die Ausführungsform gemäß Fig. 1 kann z.B. mit einem lernenden System gekoppelt sein, so dass bestimmte zusammenhänge zwischen den Datenzellen und der Struktur eines Spreadsheets gespeichert werden .
In Fig. 22 ist eine Ansicht eines Fragebogens dargestellt, in den die Daten aus Fig. 20 eingelesen wurden. Mit dem. zuvor besch iebenen Verfahren konnten die Daten aus einer externen Quelle, bei der die Zahlen in einem ganz anderen Zusammenhang standen, erfasst und analysiert werden. Dabei stellt das
Verfahren automatisch Zusammenhänge her, die letztlich eine qualifizierte Datenübernahme wie in der der Fig. 22 dargestellt ermöglichen .

Claims

Patentansprüche
1. Verfahren zur automatischen Bearbeitung von Daten,
insbesondere weichen Daten, in Zellenformat, wobei
a) eine Startzelle als erster Datenzelle für ein
Datenrechteck ausgewählt wird,
b) anschließend automatisch eine Maßzahl für eine
Ähnlichkeit der ersten Datenzelle mit mindestens einer zweite Datenzelle, insbesondere in der Nachbarschaft der ersten Datenzelle generiert wird,
c) in Abhängigkeit von mindestens einem vorbestimmten
Schwe11enwert für die Ahn1 ichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler
Richtung erweitert wird.
2. Verfahren nach Anspruch 1, dadurch
gekennzeichnet , dass die Schritte b) und c) bis zu einem. Abbruchkriterium durchgeführt 'werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch
geke n n z e i c h n e t , dass die Erweiterung des
Datenrechtecks in horizontaler und / oder vertikaler
Richtung in Abhängigkeit eines Vergleiches zwischen mindestens einer Maß zahl für die Ähnlichkeit mit einem vorbestimmten Schwellenwert erfolgt.
4. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet , wobei
ausgehend von einer mit Daten gefüllten Datenzelle
automatisch ermittelt wird, ob eine Beschriftung vorhanden ist .
5. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet , dass die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen Datentyps, des jeweiligen Nachkommastellen-Formats, der jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer Formeleigenschaft der jeweiligen
Datenzellen, eines jeweils definierten Schutzes der
Datenzelle, der jeweiligen Hö e der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen Datenzellen und / oder der Struktur einer Formel in der Datenzelle bestimmt wird .
6. Verfahren nach Anspruch 5, dadurc h
gekennze i c h n e t , dass die Kriterien mit einem
Gewichtungsfaktor versehen werden.
7. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet , dass
Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst 'werden.
8. Verfahren nach mindestens einem, der vorhergehenden
Ansprüche, d a d urch geke n nzei c h net , dass die automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist.
9. Verfahren nach Anspruch 8, dadurch
gekennze i c h net , dass auf Grund der
Ähnlichkeitsanalyse automatisch eine Datei generiert wird, die Datenzellen aufweist, denen auf Grund der
Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind.
10. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein Tabellenkalkulationsprogramm integriert ist.
11. Verfahren nach mindestens einem der vorhergehenden Ansprüche, d a d u r c h gekennzei c hnet , dass das ermittelt Datenrechteck automatisch in eine Datenbank integriert wird, die insbesondere mit einer
Eingabeschablone verknüpft ist.
12. Verfahren nach Anspruch 11, dadurch
gekennzeichnet , dass importierte Daten mit ihren Beschriftungen bereits in der Datenbank vorhandenen Daten und deren Beschriftungen automatisch verglichen v/erden.
13. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die syntaktische Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird.
14, System zur automatischen Bearbeitung von Daten in
Zellenformat, wobei eine Start zelle als erste Datenzelle für ein Datenrechteck ausgewählt wird, mit einem Mittel zur automatischen Bestimmung einer Maßzahl für eine
Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten
Datenzelle, 'wobei in Abhängigkeit von mindestens einem vorbest immten Schwellenwert für die Ähnlichkeit
entscheidbar ist, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.
15. Tabellenkalkulationsprogramm mit einem integrierten
System gemäß Anspruch 14.
EP11749377.5A 2010-08-06 2011-08-04 Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format Ceased EP2601594A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP11749377.5A EP2601594A1 (de) 2010-08-06 2011-08-04 Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10172235 2010-08-06
EP11749377.5A EP2601594A1 (de) 2010-08-06 2011-08-04 Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
PCT/EP2011/063489 WO2012017056A1 (de) 2010-08-06 2011-08-04 Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format

Publications (1)

Publication Number Publication Date
EP2601594A1 true EP2601594A1 (de) 2013-06-12

Family

ID=44532823

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11749377.5A Ceased EP2601594A1 (de) 2010-08-06 2011-08-04 Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format

Country Status (2)

Country Link
EP (1) EP2601594A1 (de)
WO (1) WO2012017056A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020013956A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659527B (zh) * 2018-06-29 2023-03-28 微软技术许可有限责任公司 电子表单中的表格检测
CN109829144B (zh) * 2018-12-28 2023-06-06 陈德芹 一种在线表格跨表引用方法及装置
KR20210057306A (ko) * 2019-11-12 2021-05-21 주식회사 모카앤제이에스 블록 에디터 기반 문서 편집 서비스 제공 방법, 그를 수행하기 위한 서버 및 컴퓨터 프로그램

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205149B2 (en) * 2001-01-05 2012-06-19 Microsoft Corporation Enhanced find and replace for electronic documents
US20060167911A1 (en) * 2005-01-24 2006-07-27 Stephane Le Cam Automatic data pattern recognition and extraction
US7779000B2 (en) * 2005-08-29 2010-08-17 Microsoft Corporation Associating conditions to summary table data
US8856649B2 (en) * 2009-06-08 2014-10-07 Business Objects Software Limited Aggregation level and measure based hinting and selection of cells in a data display

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2012017056A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020013956A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network

Also Published As

Publication number Publication date
WO2012017056A1 (de) 2012-02-09

Similar Documents

Publication Publication Date Title
DE202011110895U1 (de) Echtzeitsynchronisierte Bearbeitung von Dokumenten durch mehrere Benutzer für das Bloggen
DE102013206281A1 (de) Optimieren von zerstreuten schemalosen Daten in relationalen Speichern
EP2439691A1 (de) Vorrichtung und Verfahren zum maschinellen Erstellen eines Prozessdiagramms
DE60310881T2 (de) Methode und Benutzerschnittstelle für das Bilden einer Darstellung von Daten mit Meta-morphing
WO2012017056A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE112018002626T5 (de) Verfahren und Systeme zur optimierten visuellen Zusammenfassung von Sequenzen mit zeitbezogenen Ereignisdaten
DE102018000039A1 (de) Bündeln von Onlinecontentfragmenten zur Präsentation auf Grundlage von contentspezifischen Metriken und Intercontentrandbedingungen
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
AT522281B1 (de) Verfahren zur Charakterisierung des Betriebszustands eines Computersystems
DE112012004300T5 (de) Verfahren, Programm und System zum Erstellen eines Arbeitsablaufs von einer Arbeitsspezifikation
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
WO2003054727A1 (de) Kategorisierungssystem für datenobjekte und verfahren zum prüfen der konsistenz von zuordnungen von datenobjekten zu kategorien
DE10325843B4 (de) Verfahren, Drucksystem, Computer und Computerprogramm zum Verwalten von Resourcen zur Verwendung in einem resourcenbasierten Dokumentendatenstrom
WO2009012802A1 (de) System und verfahren zur steuerung der generierung und verteilung von publikationen
EP0978052A1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
EP2149844B1 (de) Verfahren und Computerprogrammprodukt zum automatischen Einfügen von Daten aus einem Datenbanksystem in eine Datenstruktur
DE102009037848A1 (de) Verfahren zum rechnergestützten Verarbeiten von digitalen semantisch annotierten Informationen
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
WO2004025501A2 (de) Verfahren und anordnung sowie computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse von gemäss einer datenbankstruktur strukturierten nutzdaten
EP1324236A1 (de) Bestimmen einer Kennfunktion aus Matrix mit Anreichern und Verdichten
EP2518644A1 (de) Verfahren zur Steuerung der Übersetzung von vorgegebenen Regeln und/oder eingehenden Daten eines Datenstroms
EP4102378A1 (de) Verfahren zur neuorganisation und/oder transformation von daten
DE10109876B4 (de) Verfahren und Einrichtung zum Datenmanagement
DE202023106456U1 (de) Ein System zur Vorbereitung einer These für ein angewandtes Forschungsprojekt
Nissen et al. Design of a Methodology to Support Technology Selection for the Virtualization of Consulting Services

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20130306

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20160914

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190912