EP2601594A1 - Method and apparatus for automatically processing data in a cell format - Google Patents

Method and apparatus for automatically processing data in a cell format

Info

Publication number
EP2601594A1
EP2601594A1 EP11749377.5A EP11749377A EP2601594A1 EP 2601594 A1 EP2601594 A1 EP 2601594A1 EP 11749377 A EP11749377 A EP 11749377A EP 2601594 A1 EP2601594 A1 EP 2601594A1
Authority
EP
European Patent Office
Prior art keywords
data
cell
cells
similarity
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP11749377.5A
Other languages
German (de)
French (fr)
Inventor
Martin RÜGAMER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOLYP Informatik GmbH
Original Assignee
SOLYP Informatik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOLYP Informatik GmbH filed Critical SOLYP Informatik GmbH
Priority to EP11749377.5A priority Critical patent/EP2601594A1/en
Publication of EP2601594A1 publication Critical patent/EP2601594A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Definitions

  • the invention relates to a method for automatic
  • data is in a cell format, e.g. is known from spreadsheets. Typically, this allows data from one category (e.g., in vertically arranged cells) to be linked to data from other categories (e.g., in horizontally arranged cells).
  • categories e.g., in vertically arranged cells
  • cells and data cells are used synonymously here.
  • Data in cell format is used again and again as import / export format for programs.
  • the arrangement of the data in cell format has established itself as an interface between programs.
  • data in particular 'soft data
  • cell format in which a) a start cell is selected as the first data cell for a data rectangle,
  • the similarity threshold determines whether the data rectangle is expanded in the horizontal and / or vertical direction.
  • steps b) and c) are carried out up to a termination criterion.
  • a label is a string to understand, which can be considered as a label for a number of cells.
  • the use of the labeling information is for the subsequent further processing of the pure number information
  • Formula property of the respective data cells respectively defined protection of the data cell, the respective height of the data cell, the respective width of the data cell, absolute relation between data cells, relative relation between
  • Data cell is determined. In this way, a meaningful evaluation of similarity can be made.
  • the criteria can be applied in particular in combination.
  • caption data for data cells in the vicinity of the data rectangle are automatically detected. This allows an improved allocation of the data.
  • Similarity Analysis automatically generates a file that has data cells to which certain attributes can be attributed based on the similarity analysis. Also, it is advantageous if the calculation of the measure and the adaptation of the size of the data rectangle in a
  • Spreadsheet programs are integrated. This makes it possible to analyze soft data in a spreadsheet program.
  • Spreadsheet programs are 'widely used and offer data in cell formats, so that an advantageous use of the method is possible here.
  • a determined data rectangle is automatically integrated into a database, which is in particular linked to an input template.
  • an input template e.g. understood an input mask.
  • Structure of a first data cell and a second data cell, in particular adjacent data cells is automatically compared and, if necessary, a measure of the difference is determined. This automatically determines the similarity of data cells.
  • the method can be used in conjunction with a
  • Data rectangles to be integrated into a spreadsheet program e.g. determine which areas in a data sheet are similar to each other so that they
  • the task is also performed by a system for automatic
  • Spreadsheet program has an integrated system according to claim 14.
  • FIG. Figure 2 is an illustration of a uniform XML envelope
  • FIG. 3 is a schematic representation of the data exchange
  • Fig. 10 is a screen shot of an Exce 1 file as
  • Fig. 5 is a detail of the table of Fig. 4;
  • Fig. 6 is a tabular representation of the calculation of
  • FIG. 7 is a tabular representation of the calculation of the similarities between further data lines
  • Fig. 8-10 is an illustration of the characterization of adjacent ones
  • Fig. 11 is a flow chart of the basic algorithm
  • Fig. 12-13 an example of the determination of orders of magnitude
  • Fig. 14 shows an example of the detection of stripe patterns
  • Fig. 15 is an example of the capturing of labels
  • Fig. 16 is a flowchart similar to that for detection
  • Figs. 17-18 show an example of a similarity ssucne
  • Fig. 22 is a view of a questionnaire.
  • soft data e.g., data without a hard
  • Soft data is business information that can not be expressed by measures.
  • SAP BW upstream systems
  • a questionnaire is a structured template into which data that is not specially adapted to this template can be imported from a data source.
  • the algorithm described here analyzes the information in the data source. et al Similarities, to determine. This calculated information is then imported into the template, with the template only general
  • Presets that allow mapping of the parsed data from the data source can e.g. the metadata ⁇ table name, foreign keys, column names, etc.) of a relational database linked to the template.
  • the template does not have extensive presets that allow the mapping; the "intelligence" for the assignment of the data is in the procedure, not in the mapping
  • One embodiment of the overall method is divided into three phases, with the most important second phase in turn passing through three stages.
  • Fig. 1 is a flowchart shown, in which these phases are shown.
  • phase of the syntactic unification (FIG. 1, steps 1.1 to 1.5) is already known in principle.
  • the phase of the automatic analysis (FIG. 1, steps 2.1 to 2.3) relates to the automatic processing of the data in the
  • a data source is selected on a client (eg a browser) (FIG. 1: step 1.1, FIG. 3: step 1), which can be clicked or dragged onto a server (Fig. 1: step 1.2; Fig. 3: step 2) is transmitted. This is also called "binary upload”.
  • File formats converted into XML data with which then further processing of the data is possible.
  • Possible file formats may e.g. of word processing programs such as e.g. Word or OpenOffice, or presentation programs, such as PowerPoint are generated.
  • PDF formats and HTML documents can serve as a starting point for the conversion.
  • uniform XML format then contains a representation of the cell format and possibly also the connections between the
  • Data cells e.g., formulas
  • PowerPoint files can be stored in .ppt
  • FIGS. 2 and 21 An example of how an XML download (see FIG. 3, step) may look like is shown in FIGS. 2 and 21. 2 shows a visualization of the XML grammar.
  • the automatic analysis of the data advantageously takes place on the client (i.e., the browser) side. to the. one to relieve the expensive, central processing power of the server and to scale arbitrarily.
  • regions ie data cells
  • an .xlsx file or its representation in xml identify features that have specific structural ⁇ eg, rectangular range of numbers in a table) or content (eg, "EBIT” as a measure and "2010" as the current year) characteristics. These areas are hereafter referred to as
  • content-related feature is to be understood as meaning that there are identifiers (eg a header) in the data source that categorize certain data (eg, in the adjacent data cells), so the content that follows is not content in the sense of, but in the assignment of data cells to a
  • this area is automatically assigned to a part of a questionnaire by deducing the form of the information (e.g., first column and column headings) on the subject sizing (e.g., different measures in several years).
  • the form of the information e.g., first column and column headings
  • the subject sizing e.g., different measures in several years.
  • the questionnaire corresponds to a database table
  • the technical dimensioning corresponds to the.
  • the assignment is a search for the primary key in the metadata repository of the database.
  • Programs that deal with cell formats are provided. Starting from a first data cell, these may be e.g. characterized by the following criteria:
  • Another criterion is the structure of a formula in one of the data cells. Even if the numbers in formulas of neighboring cells are different, the syntactic structure (decomposition into terms) of a formula (e.g., a sum, an exponential expression, etc.) can provide information about the similarity of the cells to be compared.
  • the syntactic structure allows the analysis of the formula without numbers and / or
  • Another criterion may be the reference of the data cells in a formula.
  • an absolute reference or a relative reference can be evaluated.
  • semantics of a formula can be used as a criterion by e.g. It is automatically recognized that two types of mean value calculation are contained in two data cells whose syntax is different but the target of the calculation is similar.
  • Magnitude is. In principle, it is possible to use some or all of these criteria for characterization.
  • FIG. 5 shows by way of example a section of FIG. 4
  • the number "89.3" is intended to serve as the first data cell from which a similarity to neighboring data cells is automatically determined, since the technical evaluation of the "similarity" of two cells is of particular importance for the automatic method.
  • the similarity between two data cells is calculated by comparing the respective criteria.
  • each criterion is a percentage single" formed similarity ". Then, to increase the fault tolerance of
  • the worst value is deleted and the remaining values are added with a (learned) weighting.
  • Fig. 6 is in the form of a table, the calculation of
  • the similarity also involves the order of the numbers, e.g. To identify outliers.
  • the orders of magnitude become over a logarithmic measure
  • an outlier can be determined.
  • the criterion of the order of magnitude has been defined as outliers, since in this. Criterion was the least match. The removal of this result gives the best overall value, which, incidentally, can be understood as a definition of the outlier.
  • the overall similarity (last line in Fig. 6) is then calculated from the matches (considering the weights), where in the divisor is the sum of the relevant weights (i.e., without outliers).
  • Comparison with dimension values is categorized. In the example of FIG. 7 this circumstance is not taken into consideration.
  • Criteria a compliance of 0% was determined.
  • the criterion with the highest weighting here the "order of magnitude” is considered to be an outlier, ie the divisor is 1-0.15 when calculating the overall score. For example, if a formatted year number is
  • the tolerance threshold is the limit at which the percentage similarity value is interpreted as a yes / no decision "similar".
  • both vertically see FIG. 8
  • horizontally see FIG. 9
  • the immediate and then further neighbors are also characterized and compared with the output characterization. This comparison leads to the positive result "similar” when only a few aspects (up to a weighted average) are different.
  • Treating empty cells is an important point.
  • one data cell is “similar” to an adjacent empty cell, so the spread of the data area does not stop at empty data cells, which of course must prevent completely unfilled areas, and in particular the
  • Similarity of adjacent data cells is determined. If the similarity reaches a certain threshold, the data rectangle is extended horizontally.
  • the similarity in the vertical direction is determined.
  • a certain threshold_2 the data rectangle is extended by a vertical neighbor data cell and the method is included with the calculation in
  • threshold_2 it is checked whether a horizontal extension was made in the step before. If so, then with the repeated determination of similarity in horizontal
  • KPI i.e., Key Performance
  • the percentage growth value for the following year can be listed: percentage and absolute values, possibly highlighted by different layouts, alternate with each other
  • the data rectangle includes 9x4 data cells.
  • the surrounding ones are 0
  • Caption above includes 9x1 data cells, the caption below also contains 9x1 data cells.
  • 1x4 cells are arranged left and right.
  • the first strategy is described in FIG. 16 in the form of a flowchart. It should be noted that this embodiment of the method basically independent as well as in combination with the
  • Method for detecting a data rectangle (e.g., Fig. 11) is usable.
  • search for keywords can also be used in connection with the search for the data rectangle.
  • a feature vector receives one for each subject dimension ("time”, “market participant”, etc.)
  • each cell value is searched in the space of all previously known dimension values and, in the case of a found value, this criterion is additionally included in the similarity analysis.
  • this criterion is additionally included in the similarity analysis.
  • the database is searched for whether this data has already occurred once.
  • Dimensional attributes can be assigned to these foursides, such as in Fig. 18 for the values BMW and VW; both are market participants ⁇ MT). From this a similarity can be calculated again, here 100%.
  • multidimensional data model ⁇ Fig. 1, step 2, 3 which may also be referred to as a data cube.
  • a data cube can be thought of as a multidimensional matrix, with the columns and rows being the dimensions
  • the dimension combination "KPI x year” is used for the central data area of the "Financial Objectives in the
  • Data cells B6 to J9 contain market shares.
  • a file is automatically generated whose data cells can be assigned certain attributes.
  • the embodiment according to Fig. 1 can e.g. be coupled with a learning system so that certain relationships between the data cells and the structure of a spreadsheet are stored.
  • FIG. 22 shows a view of a questionnaire into which the data from FIG. 20 has been read.

Abstract

The invention relates to a method and a system for automatically processing data, in particular soft data, in cell format, wherein a) a start cell is selected as a first data cell for a data square, b) a measurement value for similarity between the first data cell and at least one second data cell, in particular in the vicinity of the first data cell, is then automatically generated, c) a decision is made as to whether the data square is expanded in the horizontal and/or vertical direction as a function of at least one predetermined threshold value for similarity.

Description

Verfahren und Vorrichtung zur automatischen Verarbeitung von Daten in einem Zellen-Format Method and device for automatically processing data in a cell format
Die Erfindung betrifft ein Verfahren zur automatischen The invention relates to a method for automatic
Verarbeitung von Daten mit den Merkmalen des Anspruchs 1 und ein System zur automatischen Verarbeitung von Daten mit den Merkmalen des Anspruchs 14. Processing of data with the features of claim 1 and a system for automatic processing of data with the features of claim 14.
In vielen Anwendungen liegen Daten in einem Zellenformat vor, wie es z.B. aus Spreadsheets bekannt ist. Üblicherweise können damit Daten einer Kategorie (z.B. in vertikal angeordneten Zellen) mit Daten aus anderen Kategorien (z.B. in horizontal angeordneten Zellen) verknüpft werden. Die Begriffe Zellen und Datenzellen werden hier synonym verwendet.  In many applications data is in a cell format, e.g. is known from spreadsheets. Typically, this allows data from one category (e.g., in vertically arranged cells) to be linked to data from other categories (e.g., in horizontally arranged cells). The terms cells and data cells are used synonymously here.
Dabei dienen Daten in Zellen-Format immer wieder als Importlnd / oder Export-Format für Programme. Die Anordnung der Daten in Zellen-Format hat sich als Schnittstelle zwischen Programmen etabliert . Data in cell format is used again and again as import / export format for programs. The arrangement of the data in cell format has established itself as an interface between programs.
Wenn Daten im Zellen-Format in ein Programm importiert v/erden sollen, ist es vorteilhaft, diese Daten vor dem Import  If you want to import data in a cell format into a program, it is best to import this data before importing
automatisch an die Informationsstruktur des Programms automatically to the information structure of the program
anzupassen . adapt.
Es besteht daher die Aufgabe, ein Verfahren und eine It is therefore the object of a method and a
Vorrichtung zu entwickeln, bei der ein Datensatz automatisch so verändert wird, dass er bestimmte Vorgaben erfüllt. Develop a device in which a record is automatically changed to meet certain specifications.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Dabei werden Daten, insbesondere 'weichen Daten, in Zellenformat automatisch bearbeitet in, wobei a) eine Startzelle als erster Datenzelle für ein Datenrechteck ausgewählt wird, The object is achieved by a method having the features of claim 1. In this case, data, in particular 'soft data, is automatically processed in cell format, in which a) a start cell is selected as the first data cell for a data rectangle,
b) anschließend automatisch eine Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle, insbesondere in der Nachbarschaft der ersten Zelle generiert wird, b) subsequently automatically generating a measure for a similarity of the first data cell with at least one second data cell, in particular in the vicinity of the first cell,
c) in Abhängigkeit von mindestens einem vorbestimmten c) depending on at least one predetermined
Schwellenwert für die Ähnlichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird. The similarity threshold determines whether the data rectangle is expanded in the horizontal and / or vertical direction.
Die automatische Ermittlung einer Maßzahl für die Ähnlichkeit von Datenzellen ermöglicht die weitere Bearbeitung der Daten. Dabei ist es vorteilhaft, wenn die Schritte b) und c) bis zu einem Abbruchkriterium, durchgeführt werden.  The automatic determination of a measure of the similarity of data cells enables further processing of the data. It is advantageous if steps b) and c) are carried out up to a termination criterion.
Die Erweiterung des Datenrechtecks erfolgt dabei The extension of the data rectangle takes place
vorteilhafterweise in Abhängigkeit vom Vergleich der Advantageously, depending on the comparison of
berechneten Maßzahl für eine Ähnlichkeit und einem calculated measure of a similarity and a
vorbestimmten Schwellenwert . predetermined threshold.
In einer vorteilhaften Ausführungsform wird festgestellt, dass ausgehend von einer mit Daten gefüllten Datenzelle automatisch ermittelt wird, ob eine Beschriftung vorhanden ist. Unter einer Beschriftung ist hier ein String zu verstehen, der für eine Reihe von Zellen als eine Beschriftung aufgefasst werden kann. Die Verwendung der der Beschriftungsinformation ist für die spätere Weiterverarbeitung der reinen Zahleninformation In an advantageous embodiment, it is determined that, starting from a data cell filled with data, it is automatically determined whether a label is present. Under a label here is a string to understand, which can be considered as a label for a number of cells. The use of the labeling information is for the subsequent further processing of the pure number information
hilfreich, da die Zahl in einen Kontext gestellt wird. Ferner ist es vorteilhaft, wenn die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen helpful because the number is placed in a context. Furthermore, it is advantageous if the measure of the similarity between the data cells by comparing criteria of the respective data cells, in particular the respective
Datentyps, des jeweiligen Nachkommastellen-Formats , der Data type, the respective decimal place format, the
jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer respective order of the numbers in the data cells, the respective formatting of the data cells, a
Formeleigenschaft der jeweiligen Datenzellen, eines jeweils definierten Schutzes der Datenzelle, der jeweiligen Höhe der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen Formula property of the respective data cells, respectively defined protection of the data cell, the respective height of the data cell, the respective width of the data cell, absolute relation between data cells, relative relation between
Datenzellen und / oder der Struktur einer Formel in der Data cells and / or the structure of a formula in the
Datenzelle bestimmt wird. Auf diese Art und Weise kann eine aussagekräftige Bewertung der Ähnlichkeit erfolgen. Dabei können die Kriterien insbesondere in Kombination angewendet werden . Data cell is determined. In this way, a meaningful evaluation of similarity can be made. The criteria can be applied in particular in combination.
Da nicht alle dieser Kriterien in einem konkreten Since not all of these criteria are in a concrete
Anwendungsfall gleichwertig sind, ist es vorteilhaft, wenn die Kriterien mit einem Gewichtungsfaktor versehen werden. Case of application, it is advantageous if the criteria are provided with a weighting factor.
Für die weitere Auswertung der Daten ist es vorteilhaft, wenn Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst werden. Dies erlaubt eine verbesserte Zuordnung der Daten. For the further evaluation of the data, it is advantageous if caption data for data cells in the vicinity of the data rectangle are automatically detected. This allows an improved allocation of the data.
In vielen Fällen weisen Datenblätter ähnliche Strukturen auf, wie z.B. Umsatzzahlen über Jahre. Daher ist es vorteilhaft, wenn eine automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist. Damit kann das Verfahren im Laufe der Zeit schneller und besser erkennen, welche Daten sinnvoll in die Analyse einzubeziehen sind. In many cases datasheets have similar structures, e.g. Sales figures over years. Therefore, it is advantageous if an automatic determination of the similarities is part of a learning system. As a result, over time the process can more quickly and better identify which data should be meaningfully included in the analysis.
Ferner ist es vorteilhaft, wenn auf Grund der Furthermore, it is advantageous if due to the
Ähnlichkeitsanalyse automatisch eine Datei generiert 'wird, die Datenzellen aufweist, denen auf Grund der Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind. Auch ist es vorteilhaft, wenn die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein Similarity Analysis automatically generates a file that has data cells to which certain attributes can be attributed based on the similarity analysis. Also, it is advantageous if the calculation of the measure and the adaptation of the size of the data rectangle in a
Tabellenkalkulationsprograinm integriert sind. Damit ist es möglich bereits in einem Tabellenkalkulationsprogramm die Analyse weicher Daten vorzunehmen. Spreadsheet programs are integrated. This makes it possible to analyze soft data in a spreadsheet program.
Tabellenkalkulationsprogramme sind 'weit verbreitet und bieten Daten in Zellenformaten an, so dass hier eine vorteilhaft Verwendung des Verfahrens möglich ist.  Spreadsheet programs are 'widely used and offer data in cell formats, so that an advantageous use of the method is possible here.
In einer weiteren vorteilhaften Ausführungsform wird ein ermitteltes Datenrechteck automatisch in eine Datenbank integriert, die insbesondere mit einer Eingabeschablone verknüpft ist. Unter einer Eingabeschablone wird z.B. eine Eingabemaske verstanden . In a further advantageous embodiment, a determined data rectangle is automatically integrated into a database, which is in particular linked to an input template. Under an input template, e.g. understood an input mask.
Dabei ist es besonders vorteilhaft, wenn Daten mit ihren It is particularly advantageous when data with their
Beschriftungen mit bereits in der Datenbank vorhandenen Daten und deren Beschriftung automatisch verglichen werden. Labels with data already in the database and their caption are automatically compared.
Vorteilhaft ist es insbesondere, wenn eine syntaktische It is particularly advantageous if a syntactic
Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird. Damit kann automatisch die Ähnlichkeit von Datenzellen bestimmt werden. Structure of a first data cell and a second data cell, in particular adjacent data cells is automatically compared and, if necessary, a measure of the difference is determined. This automatically determines the similarity of data cells.
Mit Vorteil kann das Verfahren in Zusammenhang mit einer  Advantageously, the method can be used in conjunction with a
Tabellenkalkulation angewandt werden. Dafür können die Spreadsheet application. For that, the
Berechnung der Maßzahl und die Anpassung der Größe des Calculation of the measure and the adjustment of the size of the
Datenrechtecks in ein Tabellenkalkulationsprogramm integriert sein. So kann z.B. ermittelt werden, welche Bereiche in einem Datenblatt untereinander ähnlich sind, so dass diese ggf. Data rectangles to be integrated into a spreadsheet program. Thus, e.g. determine which areas in a data sheet are similar to each other so that they
hervorgehoben, dass darauf Cursor gerichtet werden kann und / oder als eigene Datei abgespeichert werden kann. Die Aufgabe wird auch durch ein System zur automatischen highlighted that it can be directed cursor and / or saved as a separate file. The task is also performed by a system for automatic
Bearbeitung von Daten in Zellenformat gemäß Anspruch 14 gelöst, wobei eine Startzelle als erste Datenzelle für ein Processing of data in cell format according to claim 14, wherein a start cell as the first data cell for a
Datenrechteck ausgewählt wird, mit einem Mittel zur Data rectangle is selected, with a means for
automatischen Bestimmung einer Maßzahl für eine Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten Datenzelle, wobei in Abhängigkeit von mindestens einem vorbestimmten Schwellenwert für die automatically determining a measure of similarity of the first data cell to at least one second data cell in the vicinity of the first data cell, wherein, depending on at least one predetermined threshold for the first data cell
Ähnlichkeit entscheidbar ist, ob das Datenrechteck in Similarity is decidable whether the data rectangle in
horizontaler und / oder vertikaler Richtung erweitert wird. horizontal and / or vertical direction is expanded.
Eine besonders vorteilhafte Lösung liegt vor, wenn ein A particularly advantageous solution is when a
Tabellenkalkulationsprogramm ein integriertes System gemäß Anspruch 14 aufweist. Spreadsheet program has an integrated system according to claim 14.
In Zusammenhang mit den Figuren werden Ausführungsbeispiele des Verfahrens und des Systems beschrieben. Dabei zeigen: Embodiments of the method and the system will be described in conjunction with the figures. Showing:
Fig. 1 ein Flussdiagramm einer Ausführungsform des 1 is a flowchart of an embodiment of the
Verfahrens ;  Method;
Fia. 2 eine Darstellung eines einheitlichen XML-Envelope;  FIG. Figure 2 is an illustration of a uniform XML envelope;
Fia. 3 eine schematische Darstellung des Datenaustauschs FIG. 3 is a schematic representation of the data exchange
zwischen einem Client und einem Server;  between a client and a server;
Fig. eine Bildschirmabbildung einer Exce 1-Datei, als Fig. 10 is a screen shot of an Exce 1 file as
Datenquelle für das Verfahren;  Data source for the procedure;
Fig. 5 einen Ausschnitt aus der Tabelle der Fig. 4; Fig. 5 is a detail of the table of Fig. 4;
Fig. 6 eine tabellarische Darstellung der Berechnung der Fig. 6 is a tabular representation of the calculation of
Ähnlichkeiten zwischen Datenzellen; Fig. 7 eine tabellarische Darstellung der Berechnung der Ähnlichkeiten zwischen weiteren Datenzeilen; Similarities between data cells; Fig. 7 is a tabular representation of the calculation of the similarities between further data lines;
Fig, 8-10 eine Darstellung der Charakterisierung benachbarter Fig. 8-10 is an illustration of the characterization of adjacent ones
Datenzellen;  Data cells;
Fig. 11 ein Flussdiagrainm des Grundalgorithmus ; Fig. 11 is a flow chart of the basic algorithm;
Fig. 12-13 ein Beispiel für die Ermittlung von Größenordnungen Fig. 12-13 an example of the determination of orders of magnitude
von Zellinhalten;  of cell contents;
Fig. 14 ein Beispiel für die Erkennung von Streifenmustern ; Fig. 14 shows an example of the detection of stripe patterns;
Fig. 15 ein Beispiel für die Erfassung von Beschriftungen; Fig. 15 is an example of the capturing of labels;
Fig. 16 ein Flussdiagrainm für die Erfassung ähnlicher Fig. 16 is a flowchart similar to that for detection
Bereiche ;  Areas;
Fig. 17-18 ein Beispiel für eine Ähnlichkeit ssucne ; Figs. 17-18 show an example of a similarity ssucne;
Fig. 19 ein Beispiel für die automatische Zuordnung eines 19 shows an example of the automatic assignment of a
Datenrechtecks über die Beschriftung zu einem  Data rectangles over the label to a
Fragebogen ;  Questionnaire ;
ein Beispiel für eine Tabelle nach der Bearbeitun der Datenzeilen,; an example of a table after editing the data rows ,;
ein Beispiel für XML-Code für syntaktis an example of syntaktis XML
Unifikation; Fig. 22 eine Ansicht eines Fragebogens. unification; Fig. 22 is a view of a questionnaire.
Im Folgenden v/erden einige Ausführungsformen beispielhaft beschrieben . In the following, some embodiments will be described by way of example.
Bei den Ausführungsbeispielen geht es darum, eine technische Schnittstelle bereitzustellen, Vielehe eine automatisierte, intelligente Verarbeitung externer Daten sicherstellt. Die technische Herausforderung liegt hier in der eigenständigen Analyse von Internetbasierten Daten zu exogenen Informationen, wie z.B. Strategieinformationen 'wie Märkte, Wettbewerber, Trends, Finanzdaten und die automatisierte Zuordnung zu In the embodiments, it is a matter of providing a technical interface that ensures automated, intelligent processing of external data. The technical challenge lies in the independent analysis of Internet-based data on exogenous information, such as Strategy information 'such as markets, competitors, trends, financial data and automated mapping
Fragebogeninhalten, ohne dass der Anwender diesen Questionnaire content, without the user this
Übertragungsprozess manuell unterstützen muss. Auch die Manually support transmission process. Also the
Bereitstellung technischer Schnittstellen zu Excel gehört dazu. Providing technical interfaces to Excel is one of them.
Als Beispiel für die Ausführungsformen 'wird die Verarbeitung von Daten im Zellen-Format in Verbindung mit der Software Solyp beschrieben, die u.a. in dem Buch von A. Zimmermann, As an example of the embodiments, the processing of data in the cell format in connection with the software Solyp is described, which i.a. in the book by A. Zimmermann,
„Praxisorientierte Unternehmensplanung mit harten und weichen Daten: Das Strategische Führungssystem" beschrieben ist. "Practical Business Planning with Hard and Soft Data: The Strategic Leadership System" is described.
Grundsätzlich sind die hier beschrieben Ausführungsformen auch mit anderen Softwaresystemen umsetzbar. So ist es z.B. möglich, die automatische Berechnung der Maßzahl für die Ähnlichkeit und die Anpassung des Datenrechteckes in einem In principle, the embodiments described here can also be implemented with other software systems. So it is e.g. possible, the automatic calculation of the measure of similarity and the adaptation of the data rectangle in one
Tabellenkalkulationsprogramm zu integriere . Integrate spreadsheet program.
Im Umfeld weicher Daten (z.B. Daten ohne eine harte, In the environment of soft data (e.g., data without a hard,
vorbestimmte Formatbeschreibung und / oder Daten mit einer mit Ausnahmen behaftete Formatbeschreibung) ist es unabdingbar, auch das Thema „externe Schnittstellen" in diesem Licht zu sehen . predetermined format description and / or data with a format description subject to exceptions) it is indispensable to also see the topic "external interfaces" in this light.
Ein Beispiel für weiche Daten si d betriebswirtschaftliche Informationen, die sich nicht durch Kennzahlen ausdrücken lassen . Neben den harten Systemschnittstellen zu IT-technisch wohlbekannten Vorsystemen wie SAP-BW, zeichnet sich das An example of soft data is business information that can not be expressed by measures. In addition to the hard system interfaces to IT systems well-known upstream systems such as SAP BW, this is the case
tägliche Geschäft mit weiche Daten für die vielen einzelnen Anwender dadurch aus, dass sie in persönlicher Verantwortung mit einer Vielzahl von anderen Stellen strategische und weiche Informationen austauschen. Daily soft data business for many individual users by sharing strategic and soft information with a variety of other people in personal responsibility.
Im Gegensatz zum generischen Excel-Export aus dem SOLYP System zum Beliefern externer Systeme, existiert bisher noch keine zufriedenstellende Lösung zum Importieren beliebiger Daten aus beliebigen Vorsystemen, also einer weichen Schnittstelle in dem Sinne, dass keinerlei harte, technische Formatbeschreibung vorausgesetzt wird. In contrast to the generic Excel export from the SOLYP system for supplying external systems, there is still no satisfactory solution for importing any data from any source systems, ie a soft interface in the sense that no hard, technical format description is required.
Zum einen ist der heutige harte Excel-Import für einen First, today's hard excel import for one
Fragebogen {d.h. einem Abfrageschablone für einen Questionnaire {i. a query template for one
Dateneingebenden) neu und individuell zu entwickeln; ganz zu schweigen vom Aufwand, die Daten in eben dieser Form zu Data input) new and individual to develop; not to mention the effort to data in just this form too
liefern. In diesem. Zusammenhang stellt ein Fragebogen eine strukturierte Schablone dar, in die nicht besonders für diese Schablone angepasste Daten aus einer Datenquelle importiert werden können. Der hier beschriebene Algorithmus analysiert die Informationen in der Datenquelle, um. u.a. Ähnlichkeiten, zu ermitteln. Diese berechneten Informationen werden dann in die Schablone importiert, wobei die Schablone nur allgemeine deliver. In this. In other words, a questionnaire is a structured template into which data that is not specially adapted to this template can be imported from a data source. The algorithm described here analyzes the information in the data source. et al Similarities, to determine. This calculated information is then imported into the template, with the template only general
Vorgaben enthält, die eine Zuordnung der analysierten Daten aus der Datenquelle ermöglichen. Solche Vorgaben können z.B. die Metadaten {Tabellenname, Fremdschlüssel, Spaltennamen etc.) einer relationalen Datenbank sein, die mit der Schablone verknüpft ist . Presets that allow mapping of the parsed data from the data source. Such specifications can e.g. the metadata {table name, foreign keys, column names, etc.) of a relational database linked to the template.
Damit ist es möglich, die in die Datenbank integrierten Daten mit bereits in der Datenbank vorhandenen Daten zu vergleichen. This makes it possible to compare the data built into the database with existing data in the database.
Somit rauss die Schablone nicht über umfangreiche Vorgaben verfügen, die die Zuordnung ermöglichen; die „Intelligenz" für die Zuordnung der Daten steckt im Verfahren, nicht in der Thus, the template does not have extensive presets that allow the mapping; the "intelligence" for the assignment of the data is in the procedure, not in the
Datenbank oder der Schablone oder der Datenquelle. Database or template or data source.
Zum anderen ist die Möglichkeit Daten via Ausschneiden, On the other hand, the possibility of cutting data via
Kopieren, Einfügen ( Cut /Copy/Paste ) über die Zwischenablage in SOLYP zu übernehmen, mit sehr viel manuellem Aufwand verbunden. Ziel der hier beschriebenen Ausführungsform ist es, genau diese Lücke zu füllen und es zu ermöglichen, mit minimalem Aufwand Daten aus nicht vorab bekannten Quellen entgegenzunehmen, ihre Struktur anhand von vorgegebenen Mustern automatisiert zu analysieren und sie dann im dazu passenden Solyp Datenformat, d.h. einem Fragebogen abzulegen. Copying, pasting (cut / copy / paste) via the clipboard in SOLYP to take over, associated with a lot of manual effort. The aim of the embodiment described herein is to fill precisely this gap and make it possible to accept data from not previously known sources with minimal effort, to automatically analyze its structure on the basis of given patterns, and then to write them in the appropriate solyp data format, i. to file a questionnaire.
Eine Ausführungsform des Gesamtverfahrens gliedert sich in drei Phasen, wobei die wichtigste zweite Phase wiederum drei Stufen durchläuft . One embodiment of the overall method is divided into three phases, with the most important second phase in turn passing through three stages.
In Fig. 1 wird ein Flussdiagramm, dargestellt, bei dem diese Phasen dargestellt sind. In Fig. 1 is a flowchart shown, in which these phases are shown.
Die Phase der Syntaktischen Unifikation (Fig. 1, Schritte 1.1 bis 1.5) ist grundsätzlich bereits bekannt.  The phase of the syntactic unification (FIG. 1, steps 1.1 to 1.5) is already known in principle.
Die Phase der automatischen Analyse (Fig. 1, Schritte 2.1 bis 2.3) betrifft die automatische Verarbeitung der Daten im  The phase of the automatic analysis (FIG. 1, steps 2.1 to 2.3) relates to the automatic processing of the data in the
Zellen-Format, die hier neu beschrieben wird. Cell format, which is rewritten here.
In der dritten Phase werden dann verschiedenen Möglichkeiten der Weiterverarbeitung (Fig. 1, Schritte 3.1 bis 3.2  In the third phase then various possibilities of further processing (Fig. 1, steps 3.1 to 3.2
beschrieben) . described).
1. Syntaktische Unifikation 1. Syntactic Unification
Aus einer beliebigen Quelle und in beliebigem Daten-Format sollen Daten in eine Software, insbesondere Solyp übernommen werden. Dazu 'wird auf einem Client (z.B. einem. Browser) eine Datenquelle ausgewählt (Fig. 1: Schritt 1.1; Fig. 3: Schritt 1), die per Knopfdruck oder via Drag ' n ' Drop auf einen Server (Fig. 1: Schritt 1.2; Fig. 3: Schritt 2) übertragen wird. Dies wird auch als „binary upload" bezeichnet . From any source and in any data format data should be transferred to a software, especially Solyp. For this purpose, a data source is selected on a client (eg a browser) (FIG. 1: step 1.1, FIG. 3: step 1), which can be clicked or dragged onto a server (Fig. 1: step 1.2; Fig. 3: step 2) is transmitted. This is also called "binary upload".
Auf dem Server sind für verschiedene Datei-Formate (d.h. File- Formate - nicht zu verwechseln mit dem freien Format der Daten innerhalb der Datei) Leseroutinen installiert, um das File zu öffnen und in ein einheitliches Dateiformat (z.B. xml) zu übertragen (Fig. 1: Schritt 1.3; Fig. 3: Schritt 3). On the server, for various file formats (ie file formats - not to be confused with the free format of the data within the file) read routines are installed to open the file and transfer it to a uniform file format (eg xml) (Fig. 1: step 1.3, Fig. 3: step 3).
Bei dieser Umwandlung - im Beispiel aus einem Excel Format - bleiben (möglichst) alle inhaltlichen Aspekte (z.B. definiert durch Kriterien, die im Folgenden noch näher erläutert v/erden) erhalten (dazu gehören auch Layout und ähnliches) und es geht nur die technische Nutzbarkeit für das Programm (hier Excel) verloren (Fig. 1: Schritt 1.4) . Es ist also theoretisch With this conversion - in the example from an Excel format - all content-related aspects (eg defined by criteria, which will be explained in more detail below) are retained (including layout and the like) and only the technical usability is possible for the program (here Excel) lost (Fig. 1: step 1.4). So it's theoretical
möglich, aus dieser XML-Repräsentation wieder eine possible, from this XML representation again one
„Originalkopie'" herzustellen . "Original copy" "produce.
Somit werden beliebige, insbesondere auch proprietäre Thus, any, especially proprietary
Dateiformate in XML-Daten umgewandelt, mit denen dann eine Weiterverarbeitung der Daten möglich ist. Mögliche Dateiformate können z.B. von Textverarbeitungsprogrammen wie z.B. Word oder OpenOffice, oder Präsentationsprogrammen, wie z.B. PowerPoint erzeugt werden. Auch PDF-Formate und HTML-Dokumente können als Ausgangspunkt für die Umwandlung dienen. File formats converted into XML data, with which then further processing of the data is possible. Possible file formats may e.g. of word processing programs such as e.g. Word or OpenOffice, or presentation programs, such as PowerPoint are generated. Also, PDF formats and HTML documents can serve as a starting point for the conversion.
Das Verfahren und System, gemäß der hier vorliegenden The method and system according to the present invention
Beschreibung weist somit eine Art Transformator von Description thus has a kind of transformer of
proprietären Dateiformaten in ein XML-Format auf. Das proprietary file formats in an XML format. The
einheitliche XML-Format enthält dann eine Repräsentation des Zellenformats und ggf. auch der Verbindungen zwischen den uniform XML format then contains a representation of the cell format and possibly also the connections between the
Datenzellen (z.B. Formeln) . Data cells (e.g., formulas).
Praktisch wird ein einheitlicher XML-Envelope definiert (Fig. 2), indem sich, je nach File-Format, adäquate Repräsentationen einbetten lassen (zwei Beispiele) : • Eine übliche Excel-Datei (*.xls) wird von Makros befreit und z.B. in ein Derivat des „CALS Table Model" OASIS Technical Memorandum TM 9502:1995 (http: //www . oasis- open.org/specs/a5Q2.htm) überführt . Layout-Informationen sowie Formel-Quelltext bleiben zusammen mit den Zahlen und Textwerten erhalten. Siehe z.B. auch M11-M-38784B Practically a uniform XML Envelope is defined (Figure 2), in which, depending on the file format, adequate representations can be embedded (two examples): • A usual Excel file (* .xls) is exempted from macros and eg into a derivative of the "CALS Table Model" OASIS Technical Memorandum TM 9502: 1995 (http://www.oasis-open.org/specs/a5Q2. layout information and formula source text are kept together with the numbers and text values, see also M11-M-38784B
Standard :  Default :
8 Für eine Quelle in HTML, also eine allgemein übliche 8 For a source in HTML, so a common one
Webseite im Internet, wird der HTML-Quellcode von  Website on the Internet, the HTML source code of
dynamischen .Javascript-Bestandteilen befreit und in xhtml transkribiert .  dynamic .Javascript components freed and transcribed in xhtml.
In ähnlicher Weise lassen sich Powerpoint Dateien im .ppt  Similarly, PowerPoint files can be stored in .ppt
Format {ebenfalls ein proprietäres Format) bearbeiten. Format {also a proprietary format) edit.
In den Fig. 2 und Fig. 21 wird an einem Beispiel gezeigt, wie ein XML-Download (siehe Fig. 3, Schritt) aussehen kann. Fig. 2 zeigt dabei eine Visualisierung der XML-Grammatik.  An example of how an XML download (see FIG. 3, step) may look like is shown in FIGS. 2 and 21. 2 shows a visualization of the XML grammar.
Die resultierende XML-Datei wird nun an die Client-Komponente zurückgegeben (Fig. 1: Schritt 1.5; Fig. 3: Schritt 4), die nun ohne spezielle Bibliotheken zur Dateikonvertierung die The resulting XML file is now returned to the client component (Figure 1: step 1.5; Figure 3: step 4), which now without the special file conversion libraries
Quelldaten analysieren und eingeschränkt präsentieren kann.Analyze source data and present restricted.
Fig. 4 zeigt eine Bildschirmabbildung einer Excel-Datei, die als Datenquelle für das Verfahren dienen kann. Im Folgenden wird die automatische Analyse beschrieben, die von diesem 4 shows a screen image of an Excel file that can serve as a data source for the method. The following describes the automatic analysis of this
Format ausgeht . Format goes out.
2. Automat i sche Ana1yse 2. Automatic analysis
Die automatische Analyse der Daten findet vorteilhafterweise auf Seiten des Clients (d.h. des Browsers) statt, um. zum. einen die teuere, zentrale Rechenleistung des Servers zu entlasten und beliebig zu skalieren. The automatic analysis of the data advantageously takes place on the client (i.e., the browser) side. to the. one to relieve the expensive, central processing power of the server and to scale arbitrarily.
Ziel ist es, Bereiche (d.h. Datenzellen) in der Quelle, d.h. hier einer .xlsx Datei oder deren Repräsentation in xml, zu identifizieren, die bestimmte strukturelle {z.B. rechteckiger Bereich von Zahlen in einer Tabelle) oder inhaltliche (z.B. „EBIT" als Kennzahl und „2010" als aktuelles Jahr) Merkmale aufweisen. Diese Bereiche Vierden im Folgenden als The goal is to allocate regions (ie data cells) in the source, ie here an .xlsx file or its representation in xml identify features that have specific structural {eg, rectangular range of numbers in a table) or content (eg, "EBIT" as a measure and "2010" as the current year) characteristics. These areas are hereafter referred to as
„Datenrechtecke" bezeichnet. Der Begriff inhaltliches Merkmal ist so zu verstehen, dass es Identifier (z.B. eine Überschrift) in der Datenquelle gibt, die bestimmte Daten (z.B. in den benachbarten Datenzellen) kategorisieren . Für die folgende Beschreibung kommt es also nicht auf den Inhalt dem Sinn nach an, sondern in der Zuordnung von Datenzellen zu einem The term content-related feature is to be understood as meaning that there are identifiers (eg a header) in the data source that categorize certain data (eg, in the adjacent data cells), so the content that follows is not content in the sense of, but in the assignment of data cells to a
Identifier . Identifier.
Anschließend wird dieser Bereich einem Teil eines Fragebogens automatisch zugeordnet, indem aus der Form der Information (z.B. erste Spalte und Spaltenüberschriften) auf die fachliche Dimensionierung geschlossen wird (z.B. verschiedene Kennzahlen in mehreren Jahren) . Somit ist es möglich, den Identifier in dem Fragebogen (z.B. Datenbank verknüpft mit Eingabeschablone) zu ermitteln, um dann eine Umwandlung der maßgeblichen Daten zu erreichen . Then, this area is automatically assigned to a part of a questionnaire by deducing the form of the information (e.g., first column and column headings) on the subject sizing (e.g., different measures in several years). Thus, it is possible to identify the identifier in the questionnaire (e.g., database associated with input template) to then achieve conversion of the relevant data.
Der Fragebogen entspricht dabei einer Datenbanktabelle, die fachliche Dimensionierung entspricht dem. primarv key dieser Tabelle, die Zuordnung ist eine Suchanfrage nach dem primary key im Metadatenrepository der Datenbank. The questionnaire corresponds to a database table, the technical dimensioning corresponds to the. primarv key of this table, the assignment is a search for the primary key in the metadata repository of the database.
2.1 „Datenrechteck" 2.1 "Data rectangle"
Anhand von Informationen in der Datei ist es möglich das Based on information in the file, it is possible that
Datenrecheck zu charakterisieren (Fig. 1: Schritt 2.1) . Dabei stehen eine Reihe von Parametern zur Verfügung, die von Characterize data check (Figure 1: step 2.1). There are a number of parameters available from
Programmen, die mit Zellen-Formaten umgehen zur Verfügung gestellt werden. Ausgehend von einer ersten Datenzelle können diese z.B. durch folgende Kriterien charakterisiert werden: Programs that deal with cell formats are provided. Starting from a first data cell, these may be e.g. characterized by the following criteria:
* Datentyp • Nachkommastellen * Data type • decimal places
• Größenordnung  • Magnitude
• Fett /Kurs! /Farbe/Schrift /Rahmen  • fat / course! / Color / font / frame
• Formel  • Formula
• Zellschutz  • cell protection
• Zellenhöhe/breite  • cell height / width
Ein weiteres Kriterium ist die Struktur einer Formel in einer der Datenzellen. Selbst wenn die Zahlen in Formeln benachbarter Zellen unterschiedlich sind, so ka n die syntaktische Struktur (Zerlegung in Terme) einer Formel (z.B. eine Summe, einer exponentieller Ausdruck etc.) Aufschluss über die Ähnlichkeit der zu vergleichenden Zellen geben. Die syntaktische Struktur erlaubt die Analyse der Formel ohne Zahlen- und / oder Another criterion is the structure of a formula in one of the data cells. Even if the numbers in formulas of neighboring cells are different, the syntactic structure (decomposition into terms) of a formula (e.g., a sum, an exponential expression, etc.) can provide information about the similarity of the cells to be compared. The syntactic structure allows the analysis of the formula without numbers and / or
Datenzeilenbezug . Data row reference.
Ein weiteres Kriterium kann der Bezug der Datenzellen in einer Formel sein. Dabei kann ein absoluter Bezug oder ein relative Bezug ausgewertet werden. Another criterion may be the reference of the data cells in a formula. In this case, an absolute reference or a relative reference can be evaluated.
Auch kann die Semantik einer Formel als Kriterium verwendet werden, indem z.B. automatisch erkannt wird, dass zwei Arten von MittelWertberechnung in zwei Datenzellen enthalten sind, deren Syntax unterschiedlich ist, das Ziel der Berechnung aber ähnlich ist. Also, the semantics of a formula can be used as a criterion by e.g. It is automatically recognized that two types of mean value calculation are contained in two data cells whose syntax is different but the target of the calculation is similar.
Dabei ist es auch möglich, dass automatisch erkannt wird, das eine fehlende Formel in Nachbarschaft von existierenden Formeln extra- oder interpoliert wird. Dazu wird in die Datenzelle ohne Formel eine Formel geschrieben, die sich aus den umliegenden ergibt. Es kann dann eine Plausibilität skontrolle durchgeführt werden, ob z.B. ein Zahlenwert, der anstelle der Formel in der Datenzelle steht, wertmäßig mit der extra- oder interpolierten Formel übereinstimmt oder wertmäßig in der gleichen It is also possible to automatically recognize that a missing formula is extrapolated or interpolated in the vicinity of existing formulas. For this purpose, a formula is written in the data cell without formula, which results from the surrounding. A plausibility check may then be performed, e.g. a numerical value that is in the data cell instead of the formula, in value matches the extra or interpolated formula, or in value in the same
Größenordnung liegt. Grundsätzlich ist es möglich, einige oder alle dieser Kriterien zur Charakterisierung zu verwenden. Magnitude is. In principle, it is possible to use some or all of these criteria for characterization.
In Fig. 5 ist beispielhaft ein Ausschnitt aus Fig. 4  FIG. 5 shows by way of example a section of FIG. 4
dargestellt. Die Zahl „89,3" soll als erste Datenzelle dienen, von der ausgehend automatisch eine Ähnlichkeit zu Nachbar- Datenzellen ermittelt wird, da die technische Bewertung der „Ähnlichkeit" zweier Zellen von besonderer Bedeutung für das automatische Verfahren ist. Die Ähnlichkeit zweier Datenzellen wird über den Abgleich der jeweiligen Kriterien gebildet. shown. The number "89.3" is intended to serve as the first data cell from which a similarity to neighboring data cells is automatically determined, since the technical evaluation of the "similarity" of two cells is of particular importance for the automatic method. The similarity between two data cells is calculated by comparing the respective criteria.
Für "jedes Kriterium wird einzeln eine prozentuale „Ähnlichkeit" gebildet. Dann wird zur Erhöhung der Fehlertoleranz der For "each criterion is a percentage single" formed similarity ". Then, to increase the fault tolerance of
schlechteste Wert gestrichen und die übrigen Werte mit einer (gelernten) Gewichtung addiert. The worst value is deleted and the remaining values are added with a (learned) weighting.
In Fig. 6 ist in Form einer Tabelle die Berechnung der In Fig. 6 is in the form of a table, the calculation of
Ähnlichkeit zwischen den Datenzellen „89,3" und „161,6" (linke Nachbar-Datenzelle von „89,3", siehe Fig. 8) dargestellt. Da beide das Kriterium einer ZAHL erfüllen, beträgt die Similarity is shown between the data cells "89.3" and "161.6" (left neighbor data cell of "89.3", see Fig. 8)
Übereinstimmung 100%. Da dieses Kriterium eine hohe Bedeutung hat, geht es in die Ähnlichkeitsberechnung mit einem Gewicht von 30% ein. Die Formatierung der Nachkommastellen geht mit einem relativ geringen Gewicht in die Berechnung ein, hier 5%. Die Übereinstimmung zwischen den Datenzellen beträgt hier 100%. 100% match. Since this criterion has a high significance, it goes into the similarity calculation with a weight of 30%. The formatting of decimal places is included in the calculation with a relatively low weight, here 5%. The correspondence between the data cells is 100%.
In die Ähnlichkeit fließt auch die Größenordnung der Zahlen ein, um z.B. Ausreißer zu ermitteln. Im vorliegenden Beispiel werden die Größenordnungen über ein logarithmisches Maß The similarity also involves the order of the numbers, e.g. To identify outliers. In the present example, the orders of magnitude become over a logarithmic measure
ermittelt. Hier werden die dekadischen Logarithmen ermittelt, bei sich eine absolute Differenz von 0,26 zwischen den Werten ergibt. In Prozent umgerechnet v/ird die Übereinstimmung als 100 - 26 = 74% angegeben. determined. Here the decadic logarithms are determined giving an absolute difference of 0.26 between the values. Converted as a percentage, the agreement is given as 100 - 26 = 74%.
Die übrigen Kriterien in Fig. 6, d.h. Formatierung (Fett/  The remaining criteria in Fig. 6, i. Formatting (fat /
Kursiv Farbe/ Schrifttype/ Rahmen etc.), Formel, Zellschutz und Zellenhöhe und -breite sind bei beiden Datenzellen identisch, so dass hier 100% Übereinstimmung besteht. Italics color / font type / frame etc.), formula, cell protection and cell height and width are identical for both data cells, so there is 100% match.
Bei dem Kriterium „Formel" kann entweder der berechnete Wert verglichen werden oder die Formel als „Text" einem. Längen- und / oder Strukturvergleich unterzogen Vierden.  For the criterion "formula", either the calculated value can be compared or the formula can be compared as "text". Length and / or structure comparison Vierden.
Wenn die Übereinstimmungen ermittelt worden sind, kann ein Ausreißer bestimmt werden. Im Beispiel der Fig. 6 wurde das Kriterium der Größenordnung als Ausreißer definiert, da in diesem. Kriterium die Übereinstimmung am geringsten war. Die Streichung dieses Ergebnisses, ergibt den besten Gesamtwert, was im Übrigen als Definition des Ausreißers verstanden werden kann .  Once the matches have been determined, an outlier can be determined. In the example of FIG. 6, the criterion of the order of magnitude has been defined as outliers, since in this. Criterion was the least match. The removal of this result gives the best overall value, which, incidentally, can be understood as a definition of the outlier.
Die Gesamtähnlichkeit (letzte Zeile in Fig. 6) 'wir dann aus den Übereinstimmungen (unter Berücksichtigung der Gewichte) berechnet, wobei im Divisor die Summe der relevanten Gewichte (d.h. ohne Ausreißer) steht.  The overall similarity (last line in Fig. 6) is then calculated from the matches (considering the weights), where in the divisor is the sum of the relevant weights (i.e., without outliers).
Die Gesamtähnlichkeit der Datenzellen mit den Zahlen „89,3" und „161,6" wird mit 100% berechnet. The overall similarity of the data cells with the numbers "89.3" and "161.6" is calculated as 100%.
Im Zusammenhang mit Fig. 7 wird eine analoge Berechnung für die Ähnlichkeit der Datenzellen mit den Zahlen „89,3" und „2003" (siehe auch Fig. 9) durchgeführt, wobei das Verfahren zwar nicht die inhärente Bedeutung der Zahl „2003" als Jahreszahl kennt, aber durch die später beschriebene Methode des In connection with FIG. 7, an analogous calculation for the similarity of the data cells with the numbers "89.3" and "2003" (see also FIG. 9) is carried out, although the method does not have the inherent meaning of the number "2003" The year knows, but by the method described later of the
Vergleichs mit Dimensionswerten kategor isiert wird. Im. Beispiel Fig. 7 ist dieser Umstand nicht berücksichtigt. Comparison with dimension values is categorized. In the example of FIG. 7 this circumstance is not taken into consideration.
Es sei darauf hingewiesen, dass im Beispiel der Fig. 7 der Ausreißer etwas anders bestimmt wird, da hier bei drei It should be noted that in the example of FIG. 7, the outlier is determined somewhat differently, since here at three
Kriterien eine Übereinstimmung von 0% ermittelt wurde. Als Ausreißer wird das Kriterium, mit der höchsten Gewichtung, hier also die „Größenordnung" als Ausreißer gewertet. Demnach ist der Divisor bei der Berechnung der Gesamtbewertung 1-0,15. Wird beispielsweise eine formatierte Jahreszahl als Criteria a compliance of 0% was determined. As an outlier, the criterion with the highest weighting, here the "order of magnitude", is considered to be an outlier, ie the divisor is 1-0.15 when calculating the overall score. For example, if a formatted year number is
Spaltenüberschrift mit einem Umsatzwert verglichen, so ergibt sich sowohl bei Toleranzschwellen von 90% als auch 80% die korrekte Bewertung der Unähnlichkeit . Somit stellt das Column heading compared with a sales value, so results in both tolerance thresholds of 90% and 80%, the correct assessment of dissimilarity. Thus, that represents
Verfahren automatisch (ohne Vorkenntnisse) fest, das zwischen den Datenzellen mit den Zahlen „89,3" und „2003" eine Procedure automatically (without prior knowledge), that between the data cells with the numbers "89.3" and "2003" one
erhebliche Unähnlichkeit besteht. Die Toleranzschwelle ist die Grenze bei der der prozentuale Ähnlichkeitswert als Ja/Nein- Entscheidung „Ahnlich" interpretiert wird. considerable dissimilarity exists. The tolerance threshold is the limit at which the percentage similarity value is interpreted as a yes / no decision "similar".
Von der ersten Datenzelle ausgehend werden sowohl vertikal (siehe Fig. 8), als auch horizontal (siehe Fig. 9) zuerst die unmittelbaren und dann 'weiteren Nachbarn (siehe Fig. 10) ebenfalls charakterisiert und mit der Ausgangscharakterisierung verglichen. Dieser Vergleich führt zu dem positiven Ergebnis „ähnlich", 'wenn nur wenige Aspekte (bis zu einem gewichteten Sc we11wert) unterschied1 ich sind . Starting from the first data cell, both vertically (see FIG. 8) and horizontally (see FIG. 9) first the immediate and then further neighbors (see FIG. 10) are also characterized and compared with the output characterization. This comparison leads to the positive result "similar" when only a few aspects (up to a weighted average) are different.
Auf diese Weise entsteht zuerst eine Zeile bzw. Spalte relativ ähnlicher Datenzellen. Als nächster Schritt wird dieser In this way, first a row or column of relatively similar data cells is created. The next step will be this one
zunächst eindimensionale Streifen in der zweiten Dimension auf die Nachbarn erweitert, falls diese „ähnlich" genug sind. Nun wird dieses Verfahren immer wieder in den beiden Richtungen wiederholt, bis sich eine möglichst große, rechteckige Fläche „ähnlicher" Datenzellen ergibt. first, one-dimensional strips in the second dimension are extended to the neighbors if they are "similar" enough.This procedure is repeated over and over again in both directions until the largest possible rectangular area of "similar" data cells results.
Da in der Praxis die strategisch relevanten Informationen nicht unbedingt vollständig vorliegen, ist die konstruktive Since in practice, the strategically relevant information is not necessarily complete, the constructive
Behandlung von Leerzellen ein wichtiger Punkt. Per definitionem ist eine Datenzelle zu einer benachbarten Leerzelle „ähnlich". Die Ausbreitung des Datenbereichs stoppt also nicht an leeren Datenzellen, 'wobei selbstverständlich verhindert 'werden muss, dass vollständig ungefüllte Bereiche und insbesondere die Treating empty cells is an important point. By definition, one data cell is "similar" to an adjacent empty cell, so the spread of the data area does not stop at empty data cells, which of course must prevent completely unfilled areas, and in particular the
Restfläche eines Datensheets nicht als zum Datenbereich gehörig interpretiert wird. Der Grundalgorithmus (siehe Fig. 11) zur Suche des Remaining area of a data sheet is not interpreted as belonging to the data area. The basic algorithm (see FIG. 11) for searching the
Datenrechtecks ist damit umrissen. In Fig. 11 ist eine Data rectangles are outlined. In Fig. 11 is a
Ausführungsform dargestellt, bei der ausgehend von einer Embodiment shown in the starting from a
Startdatenzelle zunächst in horizontaler Richtung die Start data cell first in the horizontal direction the
Ähnlichkeit benachbarter Datenzellen bestimmt wird. Wenn die Ähnlichkeit einen bestimmten Schwellenwert_l erreicht ist, 'wird das Datenrechteck in horizontaler Richtung erweitert . Similarity of adjacent data cells is determined. If the similarity reaches a certain threshold, the data rectangle is extended horizontally.
Anschließend wird die Ähnlichkeit in vertikaler Richtung bestimmt. Wenn ein bestimmter Schwellenwert_2 erreicht ist, wird das Datenrechteck um eine vertikale Nachbar-Datenzelle erweitert und das Verfahren wird mit der Berechnung in Subsequently, the similarity in the vertical direction is determined. When a certain threshold_2 is reached, the data rectangle is extended by a vertical neighbor data cell and the method is included with the calculation in
horizontaler Richrung weitergeführt. Ist Schwellenwert_2 nicht erreicht, wird geprüft, ob im Schritt vorher eine horizontale Erweiterung vorgenommen wurde. Wenn ja, dann wird mit der wiederholten Bestimmung der Ähnlichkeit in horizontaler continued horizontal direction. If threshold_2 is not reached, it is checked whether a horizontal extension was made in the step before. If so, then with the repeated determination of similarity in horizontal
Richtung fortgefahren. Wenn nicht, dann hat der Algorithmus ein stabiles Rechteck identifiziert, dass weder horizontal, noch vertikal erweiterbar ist und das Programm hat seine Aufgabe erfüllt . Direction continued. If not, then the algorithm has identified a stable rectangle that is neither horizontally nor vertically expandable and the program has done its job.
Im Folgenden werden noch zwei weiter vorteilhafte Ergänzungen beschriebe . In the following two further advantageous additions will be described.
Ausgehend vom Beispiel {Fig. 4) KPI (d.h. Key Performance Starting from the example {Fig. 4) KPI (i.e., Key Performance
Indicator) x Jahr kann die Größenordnung verschiedener KPIs sehr unterschiedlich sein und im Einzelfall passt auch der Datentyp 'wie von EBIT und EBIT-Marge nicht zusammen (Fig. 12) . Indicator) x year, the size of various KPIs can be very different and, in individual cases, the data type 'such as EBIT and EBIT margin do not match (Fig. 12).
Deshalb wird in den beiden Richtungen mit unterschiedlichen Schwellwerten für „ähnliche" Werte gearbeitet. Es steht zu Beginn nicht fest, welche Richtung sich stärker Unterscheiden darf, sondern beide Hypothesen betrachtet und die mit besserer „Gesamtähnlichkeit" gewählt (Fig. 13) . In Fig. 13 sind die unterschiedlichen Prozentangaben für die Ähnlichkeit durch Doppelpfeile in x- und in y-Richtung angegeben. Noch einen Schritt weiter geht die Erkennung von Therefore, different thresholds are used in the two directions for "similar" values: it is not clear at the beginning which direction should be more differentiated, but considers both hypotheses and those with better "overall similarity" (Figure 13). In Fig. 13, the different percentages of similarity are indicated by double arrows in the x and y directions. One step further is the detection of
„Streifenmustern". Nach jeder Jahresspalte kann beispielsweise der prozentuale Wachstumswert zum Folgelahr aufgeführt sein. Es wechseln sich Prozent- und Absolutwerte, eventuell noch durch unterschiedliches Layout hervorgehoben, gegenseitig ab. Zur automatischen Erkennung dieser Datenlage werden zwei For example, after each year column, the percentage growth value for the following year can be listed: percentage and absolute values, possibly highlighted by different layouts, alternate with each other
Datenzellen gemeinsam betrachtet, die dann als Paar zum Data cells considered together, then as a pair to
benachbarten Folgepaar auf „Ähnlichkeit" geprüft werden. In Fig. 14 ist dargestellt, das zu jeder Jahresspalte noch eine prozentuale Änderung gehört. In Fig. 14 it is shown that for each year column still belongs to a percentage change.
2.2 Zusätzliche Suche nach Schlüsselwörtern 2.2 Additional search for keywords
Nachdem ein Datenbereich, d.h. das Datenrechteck in der Quelle identifiziert wurde (siehe Fig. 1, Schritt 2.1; Fig. 11), wird in diesem Schritt die Klassifizierung dadurch abgeschlossen, dass die noch fehlende Beschriftungsinformation hinzugefügt wird . After a data area, i. the data rectangle in the source has been identified (see Figure 1, step 2.1, Figure 11), the classification is completed in this step by adding the missing labeling information.
An allen vier Seiten des Datenrechtecks können sich  On all four sides of the data rectangle you can
Spaltenköpfe, Zei 1enbeschriftungen , Kommentarspa11en, Column headers, row labels, comment columns,
Summenzeilen und ähnliches anschließen. Dazu wird das bisher ermittelte Datenrechteck sowohl horizontal als auch vertikal erweitert, so dass bis zu neun Anschnitte entstehen: das Connect totals lines and the like. For this purpose, the previously determined data rectangle is extended both horizontally and vertically, so that up to nine gates are created: the
Datenrechteck in der Mitte, vier Seiten mit Köpfen und Data rectangle in the middle, four pages with heads and
Beschriftungen, sowie vier Eckbereiche, die entweder leer sind oder z.B. statischen Text enthalten. In Fig. 15 Labels, as well as four corner areas which are either empty or e.g. contain static text. In Fig. 15
umfasst das Datenrechteck 9x4 Datenzellen. Die umgebenden The data rectangle includes 9x4 data cells. The surrounding ones
Beschriftungen sind durch Umkreisung dargestellt. Die Labels are shown by circling. The
Beschriftung oberhalb umfasst 9x1 Datenzellen, die Beschriftung unterhalb ebenfalls 9x1 Datenzellen. Links und rechts sind jeweils 1x4 Zellen angeordnet. Hinzukommen jeweils Zellen in den Ecken, die in Fig. 15 durch Kreuze hervorgehoben sind. Caption above includes 9x1 data cells, the caption below also contains 9x1 data cells. 1x4 cells are arranged left and right. In addition, there are cells in each of the corners, which are highlighted in Fig. 15 by crosses.
Um die Ausmaße der Randbereiche zu bestimmen kommen zwei kombinierte Strategien zum Einsatz. Die erste Strategie ist in Fig. 16 in Form eines Flussdiagramms beschrieben. Es sei darauf hingewiesen, dass diese Ausführungsform des Verfahrens grundsätzlich unabhängig als auch in Kombination mit dem To determine the extent of the border areas, two combined strategies are used. The first strategy is described in FIG. 16 in the form of a flowchart. It should be noted that this embodiment of the method basically independent as well as in combination with the
Verfahren zur Ermittlung eines Datenrechtecks (z.B. Fig. 11) verwendbar ist. Method for detecting a data rectangle (e.g., Fig. 11) is usable.
Die beschriebene "Suche nach Schlüsselwörtern" kann auch schon im Zusammenhang mit der Suche nach dem Datenrechteck verwendet werden. Hierzu bekommt ein Merkmalsvektor für jede fachliche Dimension ("Zeit", "Marktteilnehmer" etc.) jeweils einen The described "search for keywords" can also be used in connection with the search for the data rectangle. For this purpose, a feature vector receives one for each subject dimension ("time", "market participant", etc.)
Eintrag, der die Zugehörigkeit des Zellwertes zur Entry that indicates the membership of the cell value
entsprechenden Dimension mit einer Ähnlichkeit von 0% bis 100% bewertet. Dies geschieht sowohl über inhaltliche Muster corresponding dimension with a similarity of 0% to 100%. This happens both via content patterns
(Regulär Expressions) als auch unter Zugriff auf die (Regular Expressions) as well as under access to the
vorhandenen Daten (z.B. die Bezeichnung einer Entität) in den Dimensionssystemen des Zielsystems . existing data (e.g., the name of an entity) in the dimensioning systems of the target system.
Somit steht für die automatisierte Ähnlichkeitsbetrachtung im Algorithmus ein weiteres, eher semantisches Merkmal bereit, das schon während der Analyse zur Identifikation des Daten- oder Überschriften-Rechtecks beiträgt. Praktisch lassen sich dadurch z.B. Text zellen mit Kommentaren (also ohne Thus, another similar semantic feature is available for the automated similarity consideration in the algorithm, which already contributes to the identification of the data or heading rectangle during the analysis. In practice, this allows e.g. Text cells with comments (ie without
Dimensionsübereinstimmung) von Textzellen mit Namen von Dimension match) of text cells with names of
Marktteilnehmern (Suchtreffer in einer Tabelle der Market participants (search hits in a table of
Marktteilnehmer) unterscheiden, obwohl diese unter Umständen das gleiche Zell-Layout verwenden. Market participants), although they may use the same cell layout.
Neben der Analyse mit dem Algorithmus gemäß Fig. 16 zur In addition to the analysis with the algorithm of FIG. 16 for
Identifikation von in sich ähnlichen Bereichen, wird Identification of similar areas, will
vorteilhafterweise zusätzlich auch der konkrete Inhalt der Datenzellen in der Ähnlichkeitsanalyse betrachtet. Da sich in der Beschriftung häufig die Bezeichnungen der Werte einer Advantageously, in addition, the concrete content of the data cells considered in the similarity analysis. Since in the inscription frequently the names of the values of a
Dimension eines Datenwürfels befinden, wird jeder Zellwert im Raum aller bisher bekannten Dimensionsausprägungen gesucht und im Falle eines gefundenen Wertes dieses Kriterium zusätzlich in der Ähnlichkeitsbetrachtung dazugerechnet . Hierdurch lassen sich beispielsweise Jahreszahlen, die Namen von Wettbewerbern oder Scoring-Symbole „-+" schon größtenteils eindeutig zuordnen. Es entsteht somit für jede Datenzelle ein neues vergleichbares Merkmal „zugeordnete Dimension", das in der „Ähnlichkeit ssuche" für Bereiche mit herangezogen wird (Fig. 17 und 18) . Dimension of a data cube, each cell value is searched in the space of all previously known dimension values and, in the case of a found value, this criterion is additionally included in the similarity analysis. As a result, for example, year numbers, the names of competitors or scoring symbols "- +" can already be largely unambiguously assigned, thus creating for each data cell a new comparable feature "assigned dimension", which is used in the "similarity search" for areas (Figures 17 and 18).
In Fig. 17 sind zwei unterschiedliche Ausschnitte aus den  In Fig. 17 are two different sections of the
Stammdaten einer, das Verfahren verwendenden Rahmenapplikation dargestellt. Bei der linken Darstellung ist eine Spalte mit Jahreszahlen erfasst worden, bei der rechten Darstellung eine Reihe von Mitbewerbern, hier Automobilfirmen. Master data of a frame application using the method. In the left-hand illustration, a column with year numbers has been entered, in the right-hand illustration a number of competitors, here automobile companies.
In einer Ausführungsform des Verfahrens wird in der Datenbank gesucht, ob diese Daten bereits einmal vorgekommen sind. Diesen können Dimensionsattribute zugeordnet Vierden, wie z.B. in Fig. 18 für die Werte BMW und VW; beides sind Marktteilnehmer { MT ) . Daraus lässt sich wieder eine Ähnlichkeit berechnen, hier 100%.  In one embodiment of the method, the database is searched for whether this data has already occurred once. Dimensional attributes can be assigned to these foursides, such as in Fig. 18 for the values BMW and VW; both are market participants {MT). From this a similarity can be calculated again, here 100%.
In der Praxis kann diese Analyse auch schon initial für das primäre Datenrechteck durchgeführt, kommt aber Aufgrund der Zahlenlast igkeit dort meist nicht zum Tragen. In practice, this analysis can already be carried out initially for the primary data rectangle, but because of the numerical load it usually does not come into play there.
2.3 Vergleiche mit Dimensionierung der Datenwürfel 2.3 Compare with dimensioning of data cubes
Die über die Suche nach Schlüsselwörtern erfolgte Zuordnung von Dimensionen zu Datenzellen ermöglicht die Zuordnung von The assignment of dimensions to data cells via the search for keywords enables the assignment of
Dimensionen zu kompletten Zeilen-/ Spaltenbeschriftungen, also die Einordnung des erkannten Datenbereichs in ein Dimensions for complete row / column labels, ie the classification of the recognized data range into one
mult idimensionales Datenmodell {Fig. 1, Schritt 2,3), der auch als Datenwürfel bezeichnet werden kann. multidimensional data model {Fig. 1, step 2, 3), which may also be referred to as a data cube.
Ein Datenwürfel kann als mehrdimensionale Matrix aufgefasst werden, wobei die Spalten und Reihen die Dimensionen A data cube can be thought of as a multidimensional matrix, with the columns and rows being the dimensions
darstellen, die Dateneinträge stellen die Information in dem Datenwürfel dar. Somit wird beispielsweise ein Bereich aus Festkommazahlen mit Jahreszahlen als Spaltenköpfen und betriebswirtschaftlichen Kenn zahIbeZeichnunge wie „EBIT" für die Beschriftung der Zeilen als 2-dimensionales Grid in den Dimensionen ,,ΚΡΙ x Jahr erkannt . represent the data entries represent the information in the data cube. Thus, for example, an area of fixed-point numbers with year numbers as column headers and business key figures such as "EBIT" for the labeling of the lines as a 2-dimensional grid in the dimensions ,, ΚΡΙ x year recognized.
Als letzter automatischer Schritt erfolgt nun die Zuordnung zu einem Fragebogen (in Fig. 19 mit „QUEST_PART" bezeichnet), indem nach dem Vorkommen dieser Dimensionskombination im.  The last automatic step is now the assignment to a questionnaire (in Fig. 19 with "QUEST_PART"), by the occurrence of this dimension combination in.
Gesamtkatalog aller Fragebögen gesucht wird. Die Complete catalog of all questionnaires is searched. The
Dimensionskombination „KPI x Jahr" wird so beispielsweise dem zentralen Datenbereich des Fragebogens „Finanz ziele im For example, the dimension combination "KPI x year" is used for the central data area of the "Financial Objectives in the
Businessplan" (in Fig. 19 mit „BUPLA DATA" bezeichnet) Business Plan "(labeled" BUPLA DATA "in Fig. 19)
zugeordnet . assigned.
Sollte diese Zuordnung nicht eindeutig sein, so deutet entweder ein statischer Text im Eckbereich der Quelle auf den richtigen Fragebogen, oder es werden dem Endanwender, wie nachfolgend beschrieben, die verschiedenen Treffer zur manuellen Auswahl angeboten , If this assignment is not clear, either a static text in the corner area of the source indicates the correct questionnaire or, as described below, the end user will be offered the various results for manual selection.
In obigem Beispiel {siehe auch Fig. 19) kennzeichnet „ZI" die alleinige Verwendung der Dimension „Jahr" (KPI ist implizit) und von den drei damit möglichen Fragebögen wurde sich für den „BUPLAN 810" entschieden. In the above example {see also Fig. 19), "ZI" denotes the sole use of the dimension "year" (KPI is implicit) and of the three possible questionnaires, the decision was made for the "BUPLAN 810".
In Fig. 20 ist ein Endprodukt nach der Bearbeitung der  In Fig. 20, an end product after processing is the
Datenzellen dargestellt. Die ähnlichen Bereiche, z.B. Data cells shown. The similar areas, e.g.
Jahreszahlen sind gekennzeichnet. Das Verfahren auch Year numbers are marked. The procedure too
automatisch erkannt, dass die Datenzellen A6 bis A9 automatically detects that the data cells A6 to A9
Marktteilnehmer, die Datenzellen B5 bis J5 Jahre und die Market participants, the data cells B5 to J5 years and the
Datenzellen B6 bis J9 Marktanteile enthalten. Data cells B6 to J9 contain market shares.
Somit wird automatisch auf Grund der Ähnlichkeitsanalyse eine Datei generiert, deren Datenzellen bestimmte Attribute zuordbar sind . Thus, based on the similarity analysis, a file is automatically generated whose data cells can be assigned certain attributes.
3. Weitere Datenverarbeitung Für die weitere Verarbeitung des automatisch berechneten 3. Further data processing For further processing of the automatically calculated
Datenrechtecks gibt es eine Reihe weiterer There are a number of other data rectangles
Verarbeitungsmögl ichkeiten . Processing possibilities.
Die Ausführungsform gemäß Fig. 1 kann z.B. mit einem lernenden System gekoppelt sein, so dass bestimmte zusammenhänge zwischen den Datenzellen und der Struktur eines Spreadsheets gespeichert werden . The embodiment according to Fig. 1 can e.g. be coupled with a learning system so that certain relationships between the data cells and the structure of a spreadsheet are stored.
In Fig. 22 ist eine Ansicht eines Fragebogens dargestellt, in den die Daten aus Fig. 20 eingelesen wurden. Mit dem. zuvor besch iebenen Verfahren konnten die Daten aus einer externen Quelle, bei der die Zahlen in einem ganz anderen Zusammenhang standen, erfasst und analysiert werden. Dabei stellt das FIG. 22 shows a view of a questionnaire into which the data from FIG. 20 has been read. With the. previously described procedures could collect and analyze the data from an external source where the numbers had a very different context. It does that
Verfahren automatisch Zusammenhänge her, die letztlich eine qualifizierte Datenübernahme wie in der der Fig. 22 dargestellt ermöglichen . Processes automatically relationships that ultimately allow a qualified data transfer as shown in the Fig. 22.

Claims

Patentansprüche claims
1. Verfahren zur automatischen Bearbeitung von Daten, 1. Method for automatic processing of data
insbesondere weichen Daten, in Zellenformat, wobei  in particular soft data, in cell format, wherein
a) eine Startzelle als erster Datenzelle für ein  a) a start cell as the first data cell for a
Datenrechteck ausgewählt wird,  Data rectangle is selected,
b) anschließend automatisch eine Maßzahl für eine  b) then automatically a measure for a
Ähnlichkeit der ersten Datenzelle mit mindestens einer zweite Datenzelle, insbesondere in der Nachbarschaft der ersten Datenzelle generiert wird,  Similarity of the first data cell with at least one second data cell, in particular in the neighborhood of the first data cell is generated,
c) in Abhängigkeit von mindestens einem vorbestimmten c) depending on at least one predetermined
Schwe11enwert für die Ahn1 ichkeit entschieden wird, ob das Datenrechteck in horizontaler und / oder vertikaler It is decided whether the data rectangle is horizontal and / or vertical
Richtung erweitert wird.  Direction is expanded.
2. Verfahren nach Anspruch 1, dadurch 2. The method according to claim 1, characterized
gekennzeichnet , dass die Schritte b) und c) bis zu einem. Abbruchkriterium durchgeführt 'werden.  characterized in that steps b) and c) up to a. Abort criterion to be performed '.
3. Verfahren nach Anspruch 1 oder 2, dadurch 3. The method according to claim 1 or 2, characterized
geke n n z e i c h n e t , dass die Erweiterung des  In addition, the extension of the
Datenrechtecks in horizontaler und / oder vertikaler  Data rectangles in horizontal and / or vertical
Richtung in Abhängigkeit eines Vergleiches zwischen mindestens einer Maß zahl für die Ähnlichkeit mit einem vorbestimmten Schwellenwert erfolgt.  Direction depending on a comparison between at least one measure number for the similarity with a predetermined threshold occurs.
4. Verfahren nach mindestens einem der vorhergehenden 4. The method according to at least one of the preceding
Ansprüche, dadurch gekennzeichnet , wobei  Claims, characterized in that
ausgehend von einer mit Daten gefüllten Datenzelle  starting from a data cell filled with data
automatisch ermittelt wird, ob eine Beschriftung vorhanden ist . automatically determines whether a label is present.
5. Verfahren nach mindestens einem der vorhergehenden 5. The method according to at least one of the preceding
Ansprüche, dadurch gekennzeichnet , dass die Maßzahl für die Ähnlichkeit zwischen den Datenzellen durch einen Vergleich von Kriterien der jeweiligen Datenzellen, insbesondere des jeweiligen Datentyps, des jeweiligen Nachkommastellen-Formats, der jeweiligen Größenordnung der Zahlen in den Datenzellen, der jeweiligen Formatierung der Datenzellen, einer Formeleigenschaft der jeweiligen  Claims, characterized in that the measure of the similarity between the data cells by comparing criteria of the respective data cells, in particular the respective data type, the respective decimal place format, the respective order of the numbers in the data cells, the respective formatting of the data cells, a Formula property of each
Datenzellen, eines jeweils definierten Schutzes der  Data cells, each defined protection of the
Datenzelle, der jeweiligen Hö e der Datenzelle, der jeweiligen Breite der Datenzelle, absoluter Bezug zwischen Datenzellen, relativer Bezug zwischen Datenzellen und / oder der Struktur einer Formel in der Datenzelle bestimmt wird .  Data cell, the respective Hö e of the data cell, the respective width of the data cell, absolute reference between data cells, relative reference between data cells and / or the structure of a formula in the data cell is determined.
6. Verfahren nach Anspruch 5, dadurc h 6. The method according to claim 5, dadurc h
gekennze i c h n e t , dass die Kriterien mit einem  I do not know that the criteria with a
Gewichtungsfaktor versehen werden.  Weighting factor.
7. Verfahren nach mindestens einem der vorhergehenden 7. The method according to at least one of the preceding
Ansprüche, dadurch gekennzeichnet , dass  Claims, characterized in that
Beschriftungsdaten für Datenzellen in Nachbarschaft zu dem Datenrechteck automatisch erfasst 'werden.  Caption data for data cells adjacent to the data rectangle are automatically captured.
8. Verfahren nach mindestens einem, der vorhergehenden 8. Method according to at least one of the preceding
Ansprüche, d a d urch geke n nzei c h net , dass die automatische Bestimmung der Ähnlichkeiten Teil eines lernfähigen Systems ist.  Claims, that the automatic determination of similarities is part of an adaptive system.
9. Verfahren nach Anspruch 8, dadurch 9. The method according to claim 8, characterized
gekennze i c h net , dass auf Grund der  I do not know that due to the
Ähnlichkeitsanalyse automatisch eine Datei generiert wird, die Datenzellen aufweist, denen auf Grund der  Similarity analysis automatically generates a file that has data cells due to the
Ähnlichkeitsanalyse bestimmte Attribute zuordbar sind. Similarity analysis certain attributes are assignable.
10. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die Berechnung der Maßzahl und die Anpassung der Größe des Datenrechtecks in ein Tabellenkalkulationsprogramm integriert ist. 10. The method according to at least one of the preceding claims, characterized in that the calculation of the measure and the adaptation of the size of the data rectangle is integrated into a spreadsheet program.
11. Verfahren nach mindestens einem der vorhergehenden Ansprüche, d a d u r c h gekennzei c hnet , dass das ermittelt Datenrechteck automatisch in eine Datenbank integriert wird, die insbesondere mit einer 11. The method according to claim 1, wherein the determined data rectangle is automatically integrated into a database, which in particular has a
Eingabeschablone verknüpft ist.  Input template is linked.
12. Verfahren nach Anspruch 11, dadurch 12. The method according to claim 11, characterized
gekennzeichnet , dass importierte Daten mit ihren Beschriftungen bereits in der Datenbank vorhandenen Daten und deren Beschriftungen automatisch verglichen v/erden.  that imported data is automatically compared with its captions in the database already existing data and their captions.
13. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet , dass die syntaktische Struktur einer ersten Datenzelle und einer zweiten Datenzelle, insbesondere benachbarter Datenzellen automatisch verglichen wird und ggf. automatisch eine Maßzahl für den Unterschied bestimmt wird. 13. The method according to at least one of the preceding claims, characterized in that the syntactic structure of a first data cell and a second data cell, in particular adjacent data cells is automatically compared and, if necessary, a measure of the difference is determined.
14, System zur automatischen Bearbeitung von Daten in14, system for automatic data processing in
Zellenformat, wobei eine Start zelle als erste Datenzelle für ein Datenrechteck ausgewählt wird, mit einem Mittel zur automatischen Bestimmung einer Maßzahl für eine Cell format, wherein a start cell is selected as the first data cell for a data rectangle, with a means for automatically determining a measure of a
Ähnlichkeit der ersten Datenzelle mit mindestens einer zweiten Datenzelle in der Nachbarschaft der ersten  Similarity of the first data cell with at least one second data cell in the neighborhood of the first one
Datenzelle, 'wobei in Abhängigkeit von mindestens einem vorbest immten Schwellenwert für die Ähnlichkeit  Data cell, 'depending on at least one predetermined threshold for similarity
entscheidbar ist, ob das Datenrechteck in horizontaler und / oder vertikaler Richtung erweitert wird.  It is decidable whether the data rectangle is extended horizontally and / or vertically.
15. Tabellenkalkulationsprogramm mit einem integrierten15. Spreadsheet program with an integrated
System gemäß Anspruch 14. System according to claim 14.
EP11749377.5A 2010-08-06 2011-08-04 Method and apparatus for automatically processing data in a cell format Ceased EP2601594A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP11749377.5A EP2601594A1 (en) 2010-08-06 2011-08-04 Method and apparatus for automatically processing data in a cell format

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10172235 2010-08-06
EP11749377.5A EP2601594A1 (en) 2010-08-06 2011-08-04 Method and apparatus for automatically processing data in a cell format
PCT/EP2011/063489 WO2012017056A1 (en) 2010-08-06 2011-08-04 Method and apparatus for automatically processing data in a cell format

Publications (1)

Publication Number Publication Date
EP2601594A1 true EP2601594A1 (en) 2013-06-12

Family

ID=44532823

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11749377.5A Ceased EP2601594A1 (en) 2010-08-06 2011-08-04 Method and apparatus for automatically processing data in a cell format

Country Status (2)

Country Link
EP (1) EP2601594A1 (en)
WO (1) WO2012017056A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020013956A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659527B (en) * 2018-06-29 2023-03-28 微软技术许可有限责任公司 Form detection in electronic forms
CN109829144B (en) * 2018-12-28 2023-06-06 陈德芹 Method and device for cross-table referencing of online table
KR20210057306A (en) * 2019-11-12 2021-05-21 주식회사 모카앤제이에스 Method for providing documentation service based on block editor, server and computer program thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205149B2 (en) * 2001-01-05 2012-06-19 Microsoft Corporation Enhanced find and replace for electronic documents
US20060167911A1 (en) * 2005-01-24 2006-07-27 Stephane Le Cam Automatic data pattern recognition and extraction
US7779000B2 (en) * 2005-08-29 2010-08-17 Microsoft Corporation Associating conditions to summary table data
US8856649B2 (en) * 2009-06-08 2014-10-07 Business Objects Software Limited Aggregation level and measure based hinting and selection of cells in a data display

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2012017056A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020013956A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network

Also Published As

Publication number Publication date
WO2012017056A1 (en) 2012-02-09

Similar Documents

Publication Publication Date Title
DE202011110895U1 (en) Real-time synchronized editing of documents by multiple users for blogging
DE102013206281A1 (en) Optimize scattered schemalless data in relational stores
EP2439691A1 (en) Method and device for mechanical production of a process diagram
DE60310881T2 (en) Method and user interface for making a representation of data with meta-morphing
WO2012017056A1 (en) Method and apparatus for automatically processing data in a cell format
DE112018002626T5 (en) Methods and systems for the optimized visual summary of sequences with time-related event data
DE102018000039A1 (en) Bundling online content fragments for presentation based on content-specific metrics and intercontinental constraints
DE19849855C1 (en) Method for using a computer system to generate a text expression automatically while retaining meaning determines a statistical model on a number of preset pairs of word meanings and associated expressions.
AT522281B1 (en) Procedure for characterizing the operating state of a computer system
DE112012004300T5 (en) Method, program and system for creating a workflow from a work specification
DE102012025349A1 (en) Determination of a similarity measure and processing of documents
WO2003054727A1 (en) Categorizing system for data objects and method for verifying the consistency of assignments of data objects to categories
DE10325843B4 (en) A method, printing system, computer and computer program for managing resources for use in a resource-based document data stream
WO2009012802A1 (en) System and method for controlling the generation and distribution of publications
EP0978052A1 (en) Computer-aided selection of training data for neural networks
EP2149844B1 (en) Method and computer program for automatically entering data from a database system into a file structure
DE102009037848A1 (en) Computer-aided digital semantic annotate information i.e. medical image data processing method, involves generating digital data set for incorporating combination of element of matrix as semantic relation
DE102009016588A1 (en) Method for determination of text information from portable document format documents, involves reading portable document format document, and analyzing structure of portable document format document
WO2004025501A2 (en) Method and system, in addition to computer program comprising program coding elements and computer program product for analyzing user data organized according to a database structure
EP1324236A1 (en) Determination of a characteristic function of a matrix using accumulation and consolidation
EP2518644A1 (en) Method for controlling the implementation of pre-defined rules and/or incoming data of a data stream
EP4102378A1 (en) Method for the reorganisation and/or transformation of data
DE10109876B4 (en) Method and device for data management
DE202023106456U1 (en) A system for preparing a thesis for an applied research project
Nissen et al. Design of a Methodology to Support Technology Selection for the Virtualization of Consulting Services

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20130306

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20160914

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190912