DE10250990A1

DE10250990A1 - Procedure for automatic classification of through-put data-files e.g. for banking, requires firmly assigning substitute expression when no substitute expression has been assigned

Info

Publication number: DE10250990A1
Application number: DE2002150990
Authority: DE
Inventors: Thomas Liebke; Ralf Schroeder
Original assignee: INTELLIGENT DATA SYSTEMS GmbH
Current assignee: INTELLIGENT DATA SYSTEMS GmbH
Priority date: 2002-10-28
Filing date: 2002-10-28
Publication date: 2004-05-13

Abstract

A method for automatic classification of data-files/sets by digital computer involves classifying an assignment of key-expressions to replacement/substitute expressions and priority values, and verifying the respective data-file/set for each key-expression if the respective data-file/set fulfills the actual key-expression, the replacement/substitute expression is firmly assigned when no replacement/substitute-expression has been assigned to the respective data-file/set, and when the respective data-file/set has already been assigned a replacement/substitute expression, and the priority value of the actual key-expression is greater than the priority value of the key-expression belonging to the already assigned substitute/replacement expression. The assignment pairs arising in this manner from the data files/sets and replacement/substitute expression are checked for at least part mutual agreement of the replacement/substitute expression, where the data-files/sets of con curring assignment pairs are evaluated as belonging to the same class. Independent claims are included for (a) a device for carrying out the method and (b) an application of the method or a device.

Description

Die Erfindung betrifft ein Verfahren nach den Merkmalen des Oberbegriffes des Patentanspruches 1 sowie eine Vorrichtung hierfür, nach den Merkmalen des Oberbegriffes des Patentanspruches 7, sowie ferner die automatisierte quantitative Auswertung von Umsatz-Datensätzen einer Mehrzahl von Bankbewegungen.The invention relates to a method according to the features of the preamble of claim 1 and a device for this, according to the features of the preamble of claim 7, and also the automated quantitative evaluation of sales data records Majority of bank movements.

Für eine Vielzahl verschiedener Anwendungen ist es wünschenswert, aus einem Datenbestand an Umsatzdaten von Bankbewegungen zu ermitteln, welche Beträge für verschiedene Verwendungszwecke ausgegeben werden und/oder aus welchen Quellen Einnahmen zuströmen. Dies ist beispielsweise zur Ermittlung einer typischen Ausgabenquote für Konsumgüter gemessen an den Einnahmen oder zur Ermittlung der Sparquote, d.h, der Höhe der Sparausgaben gemessen an den Einnahmen, praktisch von Interesse. Es ist also das Klassifizie ren der Umsatzdaten notwendig, d.h. die Umsatzdaten müssen der Art des Umsatzes nach jeweils bestimmten Klassen zugeordnet und somit gruppiert unterteilt werden.For A variety of different applications make it desirable to look at a database Sales data from bank movements to determine which amounts for different Purposes are used and / or from which sources Inflow revenue. This is for example to determine a typical expenditure ratio measured for consumer goods on the income or to determine the savings rate, i.e. the amount of savings measured by revenue, practically of interest. So it is classification of sales data necessary, i.e. the sales data need the Type of sales assigned to specific classes and can be divided into groups.

Nach dem Stand der Technik ist dazu zunächst bekannt, durch naives Suchen von Schlüsselbegriffen in den Umsatz-Datensätzen jeweils zu jedem Schlüsselwort eine Ergebnismenge zu erhalten. Dabei ist jedoch nachteilig, dass die zahlenmäßigen Ergebnisse bei der quantitativen Auswertung der Ergebnismengen durch "Doppeltreffer" stark verfälscht werden. So wird beispielsweise das Umsatz-Datum EINKOMMEN GEHALT KAUFCITY EUR 1200,00 zweimal getroffen, wenn etwa einerseits nach dem Suchbegriff "EINKOMMEN" gesucht wird und andererseits nach dem Begriff "GEHALT", um auch solche Umsätze als Einkommen zu zählen, bei welchen im Verwendungszweck anstelle des Wortes "EINKOMMEN" das Wort "GEHALT" verwendet wird. Durch derartige "Doppeltreffer" wird sowohl die Anzahl der Umsätze der Klasse "EINKOMMEN" zu hoch berechnet als auch die möglicherweise hieraus abgeleiteten Kennzahlen verfälscht ermittelt.According to the state of the art first known, by naively searching for key terms in the sales data records to every keyword to get a result set. However, it is disadvantageous that the numerical results in the quantitative evaluation of the result sets by "double hits" are strongly falsified. For example, the sales date INCOME SALES KAUFCITY EUR 1200.00 hit twice if, for example, the search term "INCOME" is used on the one hand and on the other hand after the term "SALARY" to include such sales as Counting income in which the word "SALARY" is used instead of the word "INCOME". Such "double hits" will both Number of sales of the "INCOME" class overcharged as well as possibly key figures derived from this are falsified.

Alternativ ist es aus dem Stand der Technik bekannt, anstelle des Umsatz-Textes (Verwendungszweck-Textes) den numerischen Textschlüssel des jeweiligen Umsatzes zur Klassifizierung heranzuziehen. Nachteilig ist hier, dass dieser numerische Textschlüssel (Buchungsschlüssel) eine nur sehr allgemeine Klassifizierung erlaubt, da dieser Textschlüssel lediglich Aufschluss erlaubt über den Typ der Buchung, etwa Lastschrift, Überweisung oder Dauerauftrag. Auf diese Weise können zwar typischerweise 100 % der Umsatzdaten klassifi ziert werden, jedoch ist die Klassifizierung für eine praktische Anwendung zu grob.Alternatively, it is from the prior art Technique known, instead of the sales text (purpose text) the numeric text key of the respective turnover for classification. adversely is here that this numeric text key (posting key) is a only very general classification allowed because this text key is only Disclosure allowed about the type of booking, such as direct debit, transfer or standing order. That way you can typically 100% of sales data is classified, however, the classification is for a practical application too rough.

Ferner ist aus dem Stand der Technik bekannt, anstelle des Umsatz-Textes zur Klassifizierung die Bankverbindung desjenigen heranzuziehen, an den die Zahlung erfolgt bzw. von dem eine Zahlung empfangen wird. Diese Lösung ist jedoch praktisch kaum durchführbar, denn es ist hierzu eine genaue Kenntnis darüber erforderlich, welcher Anbieter von Waren und/oder Dienstleistungen, und gegebenenfalls welche Dienstleistung im Einzelnen, einer bestimmten Bankverbindung zuzuordnen ist.Furthermore, is from the prior art known, the bank details instead of the sales text for classification of the person to whom payment is made or from a payment is received. However, this solution is hardly practical feasible because this requires precise knowledge of which provider of Goods and / or services and, if applicable, which service in particular, can be assigned to a specific bank account.

Als Alternative zu diesen "naiven" Suchtechniken ist nach dem Stand der Technik vielfach versucht worden, mit den Methoden des Data Mining vorzugehen. Hierbei wird durch statistische Methoden, z.B. auch durch trainierte oder untrainierte neuronale Netze, versucht, Häufungen in der Menge der Umsatzdaten festzustellen sowie festzustellen, ob ein Datum einer bestimmten Klasse zuzuordnen ist oder nicht.As an alternative to these "naive" search techniques Many attempts have been made according to the prior art with the methods of data mining. Here statistical methods, e.g. also through trained or untrained neural networks, tries to accumulations determine in the amount of sales data and determine whether a date belongs to a certain class or not.

Im vorliegenden Anwendungsfall, nämlich der Klassifizierung von Umsatz-Datensätzen in bestimmte Einnahmen- und/oder Ausgabenkategorien und Unterkategorien führen diese Methoden ebenfalls nicht zum Erfolg. Dies liegt auch daran, dass solche Umsatzdaten sehr häufig einen großen Anteil an solcher textueller Information beinhalten, welche für die Zuordnung zu Klassen bedeutungslos ist, aber für die statistischen Verfahren nachteiliges statistisches Rauschen erzeugt. Ein Beispiel könnte hier die zwanzigstellige alphanumerische Versicherungsnummer im Bankbewegungs-Text einer Abbuchung von einer Lebensversicherung sein.In the present application, namely the Classification of revenue records into specific revenue- and / or expenditure categories and subcategories lead these Methods also fail. This is also because such sales data very often a big Share in such textual information, which for the assignment to classes is meaningless, but for statistical purposes adverse statistical noise is generated. An example could be here the 20-digit alphanumeric insurance number in the bank transaction text of a debit from a life insurance policy.

Es ist somit Aufgabe der vorliegenden Erfindung, ein Verfahren sowie eine geeignete Vorrichtung anzugeben, die die Nachteile des Standes der Technik beseitigt und insbesondere eine Möglichkeit zur Klassifizierung von Umsatzdaten in Klassen und Unterklassen ermöglicht, welche einen hohen Informationsgehalt aufweist und dabei gleichzeitig gewährleistet, dass ein sehr großer Anteil der Umsatzdaten einer Klasse zugeordnet werden kann.It is therefore the task of the present Invention to provide a method and a suitable device which overcomes the disadvantages of the prior art and in particular a way to Classification of sales data in classes and subclasses enables which has a high information content and at the same time guaranteed that a very big one Share of sales data can be assigned to a class.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach den Merkmalen des Patentanspruches 1 sowie eine Vorrichtung nach den Merkmalen des Patentanspruches 7 und einer Verwendung nach Patentanspruch 13 gelöst.This object is achieved by a Method according to the features of claim 1 and a device according to the features of claim 7 and use according to Claim 13 solved.

Die Erfindung nach Patentanspruch 1 weist dabei folgende vorteilhafte Merkmale auf, welche nachstehend kurz erläutert werden:
Dadurch, dass eine Zuordnung von Schlüsselausdrücken zu Ersetzungsausdrücken und Prioritätswerten ausgewählt wird, in welcher jedem Schlüsselausdruck eindeutig ein Ersetzungsausdruck zugewiesen ist, wird jedem Schlüsselausdruck genau ein Ersetzungsausdruck und jedem Ersetzungsausdruck genau ein Schlüsselausdruck zugewiesen, so dass zu jedem Schlüsselausdruck eindeutig ein Ersetzungsausdruck und zu jedem Ersetzungsausdruck eindeutig der zugehörige Schlüsselausdruck ermittelt werden kann; hierdurch wird bei dem Prioritätsvergleich, wie er weiter unten in Verfahren zur Anwendung kommt, ermöglicht, ausgehend vom Ersetzungsausdruck den Prioritätswert eines dazugehörigen Schlüsselausdruckes zu ermitteln. Dadurch, dass die Zuordnung so ausgewählt wird, dass ferner jedem Schlüsselausdruck genau ein Prioritätswert zugeordnet ist, wird es ermöglicht, bestimmten Schlüsselausdrücken im Verfahren Vorrang zu geben über anderen Schlüsselausdrücken. Insgesamt wird durch die Auswahl einer solchen Zuordnung die für das Funktionieren des Verfahrens notwendige Klassifizierungs-Information verfahrensgerecht bereitgestellt.The invention according to claim 1 has the following advantageous features, which are briefly explained below:
Because an assignment of key expressions to replacement expressions and priority values is selected, in which each key expression is uniquely assigned a replacement expression, each key expression is assigned exactly one replacement expression and each replacement expression exactly one key expression, so that for each key expression a replacement expression and each replacement expression is unambiguously assigned eindeu tig the corresponding key expression can be determined; This enables the priority comparison, as is used below in methods, to determine the priority value of an associated key expression based on the replacement expression. The fact that the assignment is selected such that exactly one priority value is also assigned to each key expression makes it possible to give certain key expressions priority over other key expressions in the method. Overall, by selecting such an assignment, the classification information necessary for the functioning of the method is made available in a manner appropriate to the method.

Dadurch, dass für jeden Schlüsselausdruck jeweils jeder Datensatz daraufhin überprüft wird (d.h. für jeden Schlüsselausdruck jeweils die Menge der Datensätze durchlaufen wird, wobei die Reihenfolge der Datensätze oder die Reihenfolge der Schlüsselausdrücke unbedeutend ist), ob der jeweilige Datensatz den aktuellen Schlüsselausdruck erfüllt, wird geprüft, ob für diesen Datensatz die Zuordnung desjenigen Ersetzungswortes infrage kommt, welches dem in diesem Überprüfungsdurchgang aktuellen Schlüsselausdruck entspricht.Because each key expression each record is then checked (i.e. for every key expression each the amount of records is run through, the order of the records or the order of the key expressions is insignificant is) whether the respective record contains the current key expression Fulfills, is checked, whether for this data record the assignment of that replacement word into question which comes in this review round current key expression equivalent.

Dadurch, dass im Falle eines solchen Entsprechens, also wenn der Datensatz in der Tat den Schlüsselausdruck erfüllt, weiter geprüft wird, ob dem Datensatz noch kein Ersetzungsausdruck zugewiesen wurde und dann gegebenenfalls der entsprechende Ersetzungsausdruck dem Datensatz zugeordnet wird und diese Zuordnung gespeichert wird, wird in diesen Fällen eine aufwendigere Prioritätsüberprüfung, wie sie nachfolgend erläutert wird, erspart, wodurch sich Laufzeitverbesserungen ergeben.Because in the case of such Correspondingly, so if the record is indeed the key expression Fulfills, further checked whether the record has not yet been assigned a replacement expression and then, if applicable, the corresponding replacement expression Record is assigned and this assignment is saved in these cases a more complex priority check, such as they are explained below is saved, which results in improvements in runtime.

Dadurch, dass im Falle des Erfülltseins des Schlüsselausdruckes durch den Datensatz geprüft wird, ob alternativ bereits ein Ersetzungswort dem Datensatz zugewiesen wurde und der Prioritätswert des aktuellen Schlüsselausdrucks größer ist als der Prioritätswert des zum bereits zugeordneten Ersetzungsausdruck gehörenden Schlüsselausdrucks, wird erreicht, dass nur ein solcher weiterer, im Verlauf des Verfahrens später zur Prüfung auf Entsprechung herangezogener Schlüsselausdruck, welchem ein höherer Prioritätswert zugewiesen ist, die bestehende Klassifizierung des Datensatzes, welche durch die Zuordnung des Ersetzungswortes zum Datensatz erfolgt ist, überschreibt. Es wird also im letzteren Falle der bereits dem Datensatz zugeordnete Ersetzungsbegriff durch den den aktuellen Schlüsselbegriff zugeordneten Ersetzungsbegriff ersetzt.Because in the case of being fulfilled the key expression is checked by the data set, alternatively whether a replacement word has already been assigned to the data record and the priority value of the current key expression is bigger than the priority value of the key expression belonging to the already assigned replacement expression is achieved, that only such a further one, later in the course of the procedure, will be used exam Corresponding key expression to which a higher priority value is assigned is the existing classification of the data set, which is determined by the assignment of the replacement word to the data record has been overwritten. In the latter case, it is the one already assigned to the data record Replacement term with the replacement term assigned to the current key term replaced.

Dies entfaltet seine vorteilhafte Wirkung für das Klassifizierungsergebnis besonders dann, wenn die Zuordnung zwischen Prioritätswerten und Schlüsselausdrücken dergestalt ist, dass bei solchen Schlüsselausdrücken, welche beide durch einen bestimmten Datensatz erfüllt werden können, derjenige den höheren Prioritätswert hat, welcher die Klassifizierung dieses bestimmten Datensatzes mit höherem Detailgrad bewirken kann.This unfolds its beneficial Effect for that Classification result especially if the assignment between priority values and key terms so is that with such key expressions, which both can be fulfilled by a certain data set, the one that higher priority value which has the classification of this particular record with higher level of detail can effect.

Auf diese Weise wird erreicht, dass, wenn ein Datensatz im Laufe des Verfahrens zunächst den einen Schlüsselausdruck erfüllt und somit dem Datensatz ein Ersetzungsausdruck zugewiesen wird und dann der Datensatz einen weiteren Schlüsselausdruck erfüllt, nur dann ihm ein neuer Ersetzungsausdruck zugewiesen wird, wenn dies zur Folge hat, dass diese (Um-)Zuweisung und daraus abzuleitende (Um-)Klassifizierung das Klassifizierungsergebnis insgesamt verbessert.In this way it is achieved that if a record in the course of the procedure first has a key expression Fulfills and thus a replacement expression is assigned to the data record and then the record meets another key expression, only then a new replacement expression is assigned to it if so has the consequence that this (re) allocation and to be derived from it (Re) classification improves the overall classification result.

Dadurch, dass die derart im Laufe des Verfahrens entstandenen Zuordnungspaare aus Datensatz und Ersetzungsausdruck auf mindestens teilweise Übereinstim mungen des Ersetzungsausdrucks untereinander überprüft werden wird es ermöglicht, anhand der den Datensätzen zugewiesen Ersetzungsausdrücke eine klassifizierende Bewertung vorzunehmen, ohne erneute, zeitlich relativ aufwendige Zuordnungsvorgänge von Datensätzen vornehmen zu müssen. Bei dieser "nachträglichen" Auswertung kann der Detailgrad der Klassifizierung neu bestimmt werden und somit nach dem Detailgrad der Klassifizierung parametrisierte Klassifizierungsergebnisse erzeugt werden.By doing so in the course assignment pairs created from the procedure from the data record and replacement expression for at least partial agreement of the replacement expression can be checked against each other on the basis of of the records assigned replacement expressions carry out a classifying assessment without renewed, temporal perform relatively complex assignments of data records to have to. With this "subsequent" evaluation the level of detail of the classification can be redetermined and thus Classification results parameterized according to the level of detail of the classification be generated.

Das Verfahren nach Patentanspruch 1 kann gemäß den auf diesen Patentanspruch 1 rückbezogenen Unteransprüchen weitergebildet werden. Einzelne Weiterbildungen werden nachfolgend erläutert:
Es kann das Verfahren dahingehend vorteilhaft weitergebildet werden, dass die Ersetzungsausdrücke jeweils eine Folge von spezieller werdenden Begriffen beinhalten und die bei der Klassifizierungs-Auswertung erfolgende Prüfung auf mindestens teilweise Übereinstimmung verschiedener Zuordnungspaare durch Vergleich der Ersetzungsausdrücke der jeweiligen Zuordnungspaare entlang der jeweils darin enthaltenen, spezieller werdenden Begriffsfolgen erfolgt. Auf diese Weise wird erreicht, dass ein Datensatz, der einer ersten, groben oder generellen, Kategorie zugeordnet wurde, und ein weiterer Datensatz, der einer zweiten, feineren oder spezielleren Kategorie zugeordnet wurde, wobei die zweite Kategorie in der ersten Kategorie enthalten ist, beide als zu der ersten Kategorie gehörig erkannt werden können und zusätzlich erkannt werden kann, dass der zweite Datensatz außerdem noch zu einer spezielleren Kategorie gehört, d.h. auch vom ersten Datensatz unterschieden werden kann. Dies erlaubt eine genauere statistische Aufbereitung bei der Bewertung der Zuordnungsergebnisse, wie beispielsweise der Ermittlung des Klassifizierungs-Gesamtergebnisses oder der Berechnung von abgeleiteten Kennzahlen.The method according to claim 1 can be developed in accordance with the dependent claims referring back to this claim 1. Individual training courses are explained below:
The method can advantageously be further developed in such a way that the replacement expressions each contain a sequence of terms that become more specific and that the classification evaluation checks for at least partial correspondence between different assignment pairs by comparing the replacement expressions of the respective assignment pairs along the respectively more specific ones contained therein Consequences of terms. In this way it is achieved that a data record which has been assigned to a first, rough or general, category and a further data record which has been assigned to a second, more refined or more specific category, the second category being contained in the first category, both can be recognized as belonging to the first category and can additionally be recognized that the second data record also belongs to a more specific category, ie can also be distinguished from the first data record. This allows a more precise statistical preparation when evaluating the assignment results, such as determining the overall classification result or calculating derived key figures.

Für diese abschließende Bewertung ist es zudem vorteilhaft, das Verfahren dahingehend weiterzubilden, dass solchen Datensätzen, die während des Verfahrens keinen der Schlüsselausdrücke erfüllen ein spezieller Ersetzungsausdruck zugewiesen wird, der einen Nullbegriff darstellt. Auf diese Weise sind die nicht zu klassifizierenden Datensätze durch die gleichen Methoden weiterverarbeitbar wie die übrigen Zuordnungspaare aus Datensatz und Ersetzungsausdruck auch.For this final evaluation, it is also advantageous to further develop the method in such a way that those data records which do not meet any of the key expressions during the method are assigned a special replacement expression which represents a null term. In this way The data records that are not to be classified can be processed further using the same methods as the other assignment pairs consisting of the data record and the replacement expression.

Die Vorrichtung nach Patentanspruch 7 zum Ausführen des erfindungsgemäßen Verfahrens oder einer seiner Weiterbildungen weist erstens das vorteilhafte Merkmal auf, das erste Speichermittel mit einer eindeutigen Zuordnung von Datensätzen zu Ersetzungsausdrücken sowie zweite Speichermittel mit einer Zuordnung von Schlüsselausdrücken zu Ersetzungsausdrücken und Prioritätswerten enthalten sind, so dass die jeweiligen Zuordnungen im Rahmen des Matching- und Ersetzungsverfahrens jederzeit zugreifbar sind. Zweitens ist vorteilhaftes Merkmal, dass die in den zweiten Speichermitteln enthaltene Zuordnung dem vorgenannten Verfahren gemäß ausgebildet ist, d.h. dass jedem darin enthaltenen Schlüsselausdruck genau ein ebenfalls darin enthaltener Ersetzungsausdruck eineindeutig zugewiesen ist und ferner jedem darin enthaltenen Schlüsselausdruck genau ein Prioritätswert zugewiesen ist. Hierdurch wird ein "Wörterbuch" aus Schlüsselausdrücken und Ersetzungsausdrücken sowie Prioritätswerten für den Ablauf in einem Digitalrechner optimiert realisiert.The device according to claim 7 to run of the method according to the invention or one of its further developments shows firstly the advantageous Feature on, the first storage means with a unique assignment of records to replace expressions as well as second storage means with an assignment of key expressions replacement expressions and priority values are included, so that the respective assignments within the scope of Matching and replacement procedures are accessible at all times. Secondly is an advantageous feature that the in the second storage means contained assignment trained according to the aforementioned method is, i.e. that each key expression contained in it also exactly one the replacement expression contained therein is uniquely assigned and also assigns exactly one priority value to each key expression contained therein is. This creates a "dictionary" of key phrases and replacement expressions as well as priority values for the Process optimized in a digital computer.

Drittens ist vorteilhaftes Merkmal, dass Datenverarbeitungsmittel enthalten sind, welche Funktionen aufweisen zur Überprüfung, ob ein Datensatz einem bestimmten Schlüsselbegriff genügt, wobei darin auch die Mittel zur sequentiellen oder geeignet parallelisierten Auswahl der Daten zum Vergleich enthalten sind, sowie ferner Mittel zur Ermittlung von Prioritätswerten, wobei diese Mittel den Prioritätswert sowohl ausgehend vom Ersetzungsbegriff als auch alternativ ausgehend vom Schlüsselbegriff ermitteln können und solcherart ermittelte Prioritätswerte miteinander vergleichen können. Eine weitere, besonders bedeutsame Funktion, welche durch die erfindungsgemäßen Datenverarbeitungsmittel realisiert wird, sind Funktionen zur Bewertung der Übereinstimmung von Ersetzungsbegriffen zwischen verschiedenen Zuordnungspaaren aus Datensatz und Ersetzungsbegriff. Hierdurch kann nach erfolgter Zuordnung zwischen Datensätzen und Ersetzungsbegriffen die automatische Auswertung zu einem quantifizierten Klassifizierungsergebnis erfolgen.Third is advantageous feature that data processing means are included, what functions have to check whether a data record meets a certain key concept, whereby in it also the means for sequential or suitably parallelized Selection of data for comparison are included, as well as funds to determine priority values, these means both the priority value starting from the replacement term and alternatively starting from keyword can determine and compare the priority values determined in this way can. Another, particularly important function, which is provided by the data processing means according to the invention functions are implemented to evaluate the conformity of replacement terms between different assignment pairs from data record and replacement term. This can be done after Mapping between records and replacement terms the automatic evaluation to a quantified Classification result.

Schließlich ist es für das Funktionieren dieser Vorrichtung erforderlich, dass die Speichermittel und die Datenverarbeitungsmittel informationell miteinander verbunden sind. Im Zusammenhang der gesamten Erfindung bedeutet "informationelle Verbindung" eine solche Verbindung, bei der Information von einem Sender zu einem Empfänger übertragen wird, beispielsweise ein Datenstrom über einen Datenkanal, wobei diesem Datenkanal eine elektrische, optische oder sonstige Verbindung zugrunde liegen kann.After all, it is for the functioning this device requires that the storage means and the Data processing means are interconnected for informational purposes. In the context of the entire invention, "informational connection" means such a connection, when information is transmitted from a sender to a receiver, for example a data stream over a data channel, this data channel being an electrical, optical or other connection.

Vorteilhafte Weiterbildung dieser Vorrichtung sind nach den auf Patentanspruch 7 rückbezogenen Unteransprüchen möglich und werden im Folgenden auszugsweise erläutert.Advantageous further development of this Device are possible and according to the dependent claims referring to claim 7 are explained in part below.

Um den Aufbau des vorrichtungsgemäßen Systems zur Laufzeit des Verfahrens stark zu vereinfachen und den Zugriff auf die Daten zur Laufzeit des Verfahrens technisch aufwandsärmer zu gestalten, ist es vorteilhaft, die Vorrichtung dahingehend weiterzubilden, dass die ersten Speichermittel bzw. die zweiten Speichermittel neben der reinen Zuordnungsinformation auch die der Zuordnung zugrunde liegenden Daten selbst enthalten. Das bedeutet, dass in den ersten Speichermitteln neben der Zuordnung auch die Datensätze und die Ersetzungsausdrücke enthalten sind und in den zweiten Speichermitteln neben der Zuordnung auch die Schlüsselausdrücke und/oder die Ersetzungsausdrücke und/oder die Prioritätswerte enthalten sind. Auf diese Weise wird zudem die Realisierung eines solchen Systems erheblich vereinfacht, da die Speicherstrukturen nun in Tabellenform aufgebaut werden können und damit existierende technische Lösungen leichter zur Realisierung eines solchen System herangezogen werden können, etwa relationale Datenbanken oder Tabellenkalkulationen. Für das Funktionieren des Systems ist es dabei unerheblich, ob die der Tabellenstruktur zugrund liegende Speicherverwaltung diese Werte tatsächlich gespeichert in Tabellenform vorhält oder die Werte durch Zeiger-Referenzierung realisiert.To build the system according to the device greatly simplify and access at runtime of the process to the data at the time of the procedure with less technical effort design, it is advantageous to develop the device in such a way that that the first storage means or the second storage means besides the pure assignment information also the basis of the assignment Data itself included. That means that in the first storage means in addition to the assignment also contain the data records and the replacement expressions are in the second storage means in addition to the assignment the key phrases and / or the replacement expressions and / or the priority values are included. In this way, the realization of a Such a system is considerably simplified because of the memory structures can now be built up in tabular form and thus existing ones technical solutions can be used more easily to implement such a system, for example relational databases or spreadsheets. For the functioning It is irrelevant to the system whether the table structure is based lying memory management these values are actually stored in tabular form holds or the values are realized by pointer referencing.

Eine besonders vorteilhafte Weiterbildungsform des Systems sieht vor, dass die Schlüsselausdrücke als Ausdrücke einer Datenabfragesprache vorliegen. Hierdurch kann die Realisierung in besonders einfacher Weise im Zusammenhang mit einem relationalen Datenbanksystem erfolgen und es kann in erheblicher genauer und umfassender zu spezifizierender Weise bestimmt werden, unter welchen Umstände ein solcher, durch einen Ausdruck einer Datenabfragesprache realisierter, Schlüsselausdruck durch einen Datensatz erfüllt wird und wann nicht. Dies erlaubt somit eine deutlich bessere Zuordnung zwischen einen solchen Schlüsselausdruck erfüllenden Datensätzen zu einem mit diesem Schlüsselausdruck assoziierten Ersetzungsausdruck als beispielsweise die Verwendung eines einfachen Suchbegriffes, wobei ein solcher Suchbegriff nach dem Stand der Technik dann als ein erfüllter Schlüsselausdruck angesehen werden kann, wenn der Suchbegriff textuell im Datensatz enthalten ist.A particularly advantageous form of further training The system provides that the key expressions are expressions as a Data query language available. As a result, the implementation in particularly simple in the context of a relational Database system and it can be considerably more accurate and the circumstances under which a such, realized by an expression of a data query language, key expression fulfilled by a data set will and when not. This allows a much better assignment between such a key expression fulfilling records to one with this key expression associated replacement expression than, for example, the use a simple search term, such a search term after the State of the art can then be regarded as a fulfilled key expression can, if the search term is contained in the data record.

Weiterhin sieht eine vorteilhafte Weiterbildung der Vorrichtung vor, dass die Ersetzungsausdrücke, welche in den zweiten Speichermitteln enthalten sind, so aufgebaut sind, dass sie jeweils aus mehreren Begriffen bestehen, welche in ihrer Folge begrifflich spezieller werdend angeordnet sind. Hierdurch wird, wie schon vorstehend beschrieben, erreicht, dass ein Datensatz, der einer ersten, groben oder generellen, Kategorie zugeordnet wurde, und ein weiterer Datensatz, der einer zweiten, feineren oder spezielleren Kategorie zugeordnet wurde, wobei die zweite Kategorie in der ersten Kategorie enthalten ist, beide als zu der ersten Kategorie gehörig erkannt werden können und zusätzlich erkannt werden kann, dass der zweite Datensatz außerdem noch zu einer spezielleren Kategorie gehört.Furthermore, an advantageous further development of the device provides that the replacement expressions which are contained in the second storage means are constructed in such a way that they each consist of several terms, which in their sequence are arranged in a conceptually more specific manner. In this way, as already described above, it is achieved that a data record which has been assigned to a first, rough or general, category and a further data record which has been assigned to a second, more refined or more specific category, the second category in the first category ent hold, both can be recognized as belonging to the first category and it can also be recognized that the second data record also belongs to a more specific category.

Aufgrund der besonderen Eigenschaften von Umsatzdaten von Bankbewegungen, wobei Umsatzdaten im Sinne dieser gesamten Erfindung etwa Daten über den Betrag, den Monat und das Jahr des Umsatzes, den Kontoauszugstext (oder "Verwendungszwecktext"), den Textschlüssel, den Leistungsschlüssel, sowie die ferner die Kontonummer des Empfängers, die Bankleitzahl des Empfängers und/oder die Kundennummer zur Identifizierung des Kunden sein können, ist dieses Verfahren und diese Vorrichtung besonders geeignet für die Klassifizierung und Analyse von Umsatzdaten von Bankbewegungen, wenngleich sie auch für die Klassifizierung von anderen, vorzugsweise textuellen, Datenbeständen herangezogen werden kann. In diesem Fall jedoch ist die Anwendung eines solchen, mit besonderem Aufwand betriebenen mehrstufigen Such- und Ersetzungsverfahren für die Anwendung auf solche Umsatzdaten deswegen außerordentlich überraschend, weil gerade in diesem Anwendungsbereich vom Fachmann als gewöhnlich weit überlegen angesehene Verfahren des Data Mining keine befriedigenden Ergebnisse zu leisten vermögen.Because of the special properties of sales data from bank movements, whereby sales data in the sense of this entire data about the amount, month and year of sales, the bank statement text (or "Purpose Text"), the text key that Power key, as well as the account number of the recipient, the bank sort code of the Recipient and / or can be the customer number used to identify the customer this method and device are particularly suitable for classification and analysis of sales data from bank movements, albeit they for the Classification of other, preferably textual, data sets used can be. In this case, however, the application of such a multi-stage search and replacement procedures operated with particular effort for the Application to such sales data is therefore extremely surprising, because in this area of application the specialist is far superior than usual prestigious data mining practices did not produce satisfactory results able to perform.

Die Erfindung wird im Folgenden anhand eines Ausführungsbeispiels erläutert. Es zeigen:The invention is explained below of an embodiment explained. Show it:

1 eine tabellarische, schematische Übersicht über die verschiedenen Zwischenzustände der Speichertabellen im Laufe der Ausführungen des Verfahrens, 1 a tabular, schematic overview of the various intermediate states of the memory tables in the course of the execution of the method,

1a einen Tabellenspeicherauszug einer tatsächlichen Realisierungsform mit Ersetzungsausdrücken, Schlüsselausdrücken und Prioritätswerten, 1a a table memory extract of an actual implementation form with replacement expressions, key expressions and priority values,

1b einen Tabellenspeicherauszug einer tatsächlichen Realisierungsform mit einem elf Felder umfassenden Datensatz und diesem Datensatz zugeordneten Ersetzungsausdruck als Zuordnungsergebnis, 1b a table memory extract of an actual implementation form with a data record comprising eleven fields and a replacement expression assigned to this data record as the assignment result,

2 einen Bildschirmauszug mit einer Eingabemaske für die Wartung der Schlüsselausdrücke, 2 a screen extract with an input mask for the maintenance of the key expressions,

3 einen weiteren Bildschirmauszug für die Auswahl des zu wartenden Schlüsselausdruckes, 3 another screen extract for the selection of the key print to be maintained,

4 einen Bildschirmauszug bei der praktischen Anwendung des Systems, sowie 4 a screen extract in the practical application of the system, as well

5 einen weiteren Bildschirmauszug bei der praktischen Anwendung des Systems, insbesondere der Ermittlung abgeleiteter Kennzahlen. 5 another screen excerpt in the practical application of the system, in particular the determination of derived key figures.

1 zeigt eine schematische Darstellung verschiedener Zwischenzustände der Speichertabellen während des Ablaufes des Verfahrens. Der Tabellenspeicher I kann als Tabelle in einer Tabellenkalkulation oder in einer relationalen Datenbank ausgeführt sein und enthält in der ersten Spalte in jeder Zeile einen als Ausdruck einer Datenabfragesprache formulierten Schlüsselausdruck, mit dem die Datensätze auf Erfüllen des Schlüsselausdruckes überprüft werden. Die zweite Spalte derselben Tabelle bzw. des Tabellenspeichers enthält je Zeile einen Ersetzungsausdruck. Dieser Ersetzungsausdruck kann selbst als Zeichenkette oder als Daten-Symbol realisiert sein und kann aus einem oder mehreren Worten bzw. Teilsymbolen zusammengesetzt sein. Im vorliegenden Fall ist die Realisierung durch eine Zeichenkette gewählt, welche ein oder mehrere Worte enthalten kann, und wobei die durch die Worte repräsentierten Begriffe von links nach rechts in einer vom Generellen ausgehenden, spezieller werdenden Folge angeordnet sind. Am Beispiel des Ersetzungsausdruckes in Spalte 2, Zeile 2 dieser Tabelle ist "EINKOMMEN" die generellste Kategorie, gefolgt vom spezielleren "GEHALT", welche das generelle Einkommen weiter spezifiziert und als die Spe zialform des Einkommens "GEHALT" kennzeichnet, sowie ferner weiterspezifiziert durch das Wort "KAUFCITY", wodurch dieses Gehalts-Einkommen als ein solches gekennzeichnet wird, welches vom Arbeitgeber Kaufcity gezahlt wurde. Auf diese Weise wird entlang der Begriffsfolge eine spezieller werdende Kategorisierung ermöglicht, wobei gleichzeitig die Information über die Zugehörigkeit zur generelleren Kategorie erhalten bleibt. In Spalte 3 der Tabelle ist in jeder Zeile ein Prioritätswert enthalten, im vorliegenden Fall als ein ganzzahliger numerischer Wert verwirklicht. Alternativ kann dies auch durch Buchstaben oder andere Symbole realisiert sein, welche einer strengen Reihenfolge unterliegen. 1 shows a schematic representation of various intermediate states of the memory tables during the course of the method. The table memory I can be designed as a table in a spreadsheet or in a relational database and contains in the first column in each row a key expression formulated as an expression of a data query language, with which the data records are checked for compliance with the key expression. The second column of the same table or table memory contains a replacement expression for each row. This replacement expression can itself be implemented as a character string or as a data symbol and can be composed of one or more words or partial symbols. In the present case, the implementation is selected by means of a character string, which can contain one or more words, and the terms represented by the words are arranged from left to right in a sequence which starts from the general and becomes more special. Taking the replacement expression in column 2, row 2 of this table as an example, "INCOME" is the most general category, followed by the more specific "SALARY", which further specifies general income and characterizes the special form of income as "SALARY", as well as further specified by Word "KAUFCITY", whereby this salary income is marked as one that was paid by the employer Kaufcity. In this way, a more and more specific categorization is made possible along the sequence of terms, while at the same time the information about belonging to the more general category is retained. Each row in column 3 of the table contains a priority value, in the present case implemented as an integer numerical value. Alternatively, this can also be realized by letters or other symbols, which are subject to a strict order.

Diese Anordnung im Tabellenspeicher verwirklicht also die zeilenweise Zuordnung zwischen einem Schlüsselausdruck, einem Ersetzungsausdruck und einem Prioritätswert je Zeile. Aus diesem Beispiel kann ebenfalls entnommen werden, dass jedem Schlüsselausdruck auf diese Weise genau ein Prioritätswert zugeordnet wird, und außerdem jedem Schlüsselausdruck genau ein Ersetzungsausdruck, wobei letztere Zuordnung eineindeutig ist, d.h. es ist ebenso eindeutig jedem Ersetzungsausdruck genau ein Schlüsselausdruck zugeordnet. Auf diese Weise kann jederzeit vom Schlüsselausdruck auf den zugehörigen Ersetzungsausdruck und umgekehrt geschlossen werden.This arrangement in the table memory realizes the line-by-line assignment between a key expression, a replacement expression and a priority value per line. For this Example can also be seen from each key expression exactly one priority value is assigned in this way, and Moreover every key expression exactly one replacement expression, the latter assignment being unambiguous is, i.e. it is equally clear every replacement expression exactly one key expression assigned. In this way you can print the key at any time on the associated Replacement expression and vice versa.

Im vorliegenden Ausführungsbeispiel ist dieser Tabellenspeicher, wie auch alle übrigen in diesem Ausführungsbeispiel, durch eine Microsoft Excel-Tabelle realisiert. Die Schlüsselausdrücke, die in diesem Ausführungsbeispiel durch eine Pseudo-Datenabfragesprache für eine leichtere Verstehbarkeit dargestellt wurden, sind in einer konkreten Ausfüh rungsform durch SQL-Statements realisiert.In the present embodiment is this table memory, like all the others in this exemplary embodiment, realized by a Microsoft Excel spreadsheet. The key phrases that in this embodiment through a pseudo data query language for one Easier to understand are presented in a concrete Embodiment realized by SQL statements.

1 II zeigt einen weiteren Tabellenspeicher mit noch unkategorisierten Rohdatensätzen in Spalte 1, wobei sich in jeder Zeile ein Rohdatensatz befindet. Spalte 2 des Tabellenspeichers in noch unbelegt, denn es sind noch keine kategorisierenden Ersetzungsausdrücke den Rohdatensätzen zugeordnet. In Spalte 1 bestehen die Roh-Datensätze von Umsatzdaten aus einem als textuelle Zeichenkette vorliegenden Verwendungszweck-Text sowie dem ebenfalls textuell vorliegenden Betrag des Umsatzes. Ein solcher Umsatz-Roh-Datensatz ist beispielsweise anschaulich vorstellbar als ein Eintrag in einem Kontoauszug. 1 II shows a further table memory with still uncategorized raw data records in column 1, with a raw data record in each row. Column 2 of the table memory in still unoccupied, because no categorizing replacement expressions have yet been assigned to the raw data records net. In column 1, the raw data records of sales data consist of a text of the intended use as a text string and the textual amount of sales. Such a raw sales record can be clearly imagined, for example, as an entry in an account statement.

In 1 III sind verschiedene Zwischenzustände des in 1 II beschriebenen Tabellenspeichers im Laufe der Ausführung des Verfahrens dargestellt. Der Darstellung dieser Abfolge von Zwischenzuständen (jeweils ein Zustand pro Tabelle) liegt die Annahme zugrunde, es werde für jeden Schlüsselausdruck aus der in 1 I gezeigten Tabelle über den gesamten Roh-Datensatz-Bestand an Umsatzdaten (wie im Tabellenspeicher in 1 II dargestellt) iteriert. Es ist alternativ jedoch auch eine andere Zugriffs- und Vergleichsmethode vorstellbar, je nach zugrunde liegendem Datenbanksystem, welches einen solchen Tabellenspeicher nach außen zur Verfügung stellt, beispielsweise parallelisierte Verfahren.In 1 III are different intermediate states of the in 1 II described table memory shown during the execution of the method. The presentation of this sequence of intermediate states (one state per table) is based on the assumption that for each key expression the 1 I shown table over the entire raw data set inventory of sales data (as in the table storage in 1 II shown) iterates. Alternatively, however, another access and comparison method is also conceivable, depending on the underlying database system, which makes such a table memory available to the outside, for example parallelized methods.

Wird also zunächst anhand des ersten Schlüsselausdruckes in 1 I, Zeile 1, Spalte 1 alle im Tabellenspeicher 1 II enthaltenen Umsatz-Roh-Datensätze auf Erfüllen des Schlüsselausdruckes überprüft, so stellt das System fest, dass die Datensätze aus Zeile 1 und Zeile 3 des Tabellenspeichers (wie in 1 IIIa) dargestellt) den Schlüsselausdruck erfüllen. Dementsprechend wird in den Zeilen 1 und 3 den darin in Spalte 1 befindlichen Datensätzen der entsprechende Ersetzungsausdruck dadurch zugewiesen, dass dieser dem Tabellenspeicher in 1 I, Zeile 1, Spalte 2 enthaltende, dem aktuellen Schlüsselausdruck in Zeile 1, Spalte 1 entsprechende Ersetzungsausdruck entnommen und in den Tabellenspeicher, wie in 1 IIIa) dargestellt, in die Zeilen 1 und 3, Spalte 2 eingesetzt wird.So it is first based on the first key expression in 1 I , Row 1, column 1 all in the table memory 1 II If the raw sales data records contained are checked for compliance with the key expression, the system determines that the data records from row 1 and row 3 of the table memory (as in 1 IIIa ) shown) fulfill the key expression. Correspondingly, in rows 1 and 3, the data records in column 1 are assigned the corresponding replacement expression in that it is stored in the table in 1 I , Line 1, column 2 containing the replacement expression corresponding to the current key expression in line 1, column 1 and into the table memory, as in 1 IIIa ) is shown, in rows 1 and 3, column 2.

Dieses Einsetzen des Ersetzungsausdruckes an die dafür bestimmten Stellen im Tabellenspeicher erfolgt nach der Prüfung, ob an diesen Stellen bereits ein Ersetzungsausdruck im Tabellenspeicher enthalten ist. Dies ist vorliegend nicht der Fall.This insertion of the replacement expression to those for it certain places in the table memory are carried out after checking whether at these points there is already a replacement expression in the table memory is included. This is not the case here.

Anders im folgenden Durchgang, dessen Resultat in dem Tabellenspeicherzustand III b) dargestellt ist. Hier wurde der Schlüsselausdruck aus dem in 1 I gezeigte Tabellenspeicher, Zeile 2, Spalte 1 zur Überprüfung mit allen Rohdatensätzen herangezogen, wobei der Datensatz in Zeile 1 des in 1 IIIb) gezeigten Tabellenspeicherzustandes diesen Ersetzungsausdruck erfüllt. Diesem Datensatz wurde aber bereits vorher, wie in 1 III a) an entsprechender Stelle dargestellt, der Ersetzungsausdruck "EINKOMMEN" zugewiesen. Es wird also, nachdem festgestellt wurde, dass der aktuelle Schlüsselausdruck (1 I, Zeile 2, Spalte 1) durch den Datensatz (1 III b), Zeile 1, Spalte 1) erfüllt wird, ausgehend vom bisherigen dem Datensatz zugewiesenen Ersetzungsausdruck (1 IIIa ), Zeile 1, Spalte 2) im Tabellenspeicher I der zu diesem Ersetzungsausdruck (bzw. zu dem entsprechenden Schlüsselausdruck) gehörende Prioritätswert ermittelt (1 I, Zeile 1, Spalte 3), der in diesem Fall 1 ist. Dieser wird nun mit dem Prioritätswert des aktuellen Schlüsselausdrucks (1 I, Zeile 2, Spalte 1), nämlich dem Prioritätswert 3 (dieselbe Zeile, Spalte 3) verglichen. Hierbei wird in diesem Falle festgestellt, dass der Prioritätswert des aktuellen Schlüsselausdruckes, nämlich der Wert 3, höher ist als der Prioritätswert des zuvor zugeordneten Ersetzungsausdruckes, nämlich der Wert 1. Es wird damit verfahrensgemäß der dem aktuellen Schlüsselausdruck entsprechende Ersetzungsausdruck (1 I, Zeile 2, Spalte 2) an die Stelle des bisherigen Ersetzungsausdruckes geschrieben und damit dem Datensatz (1 III b), Zeile 1) ein neuer Ersetzungsausdruck zugewiesen. Dieser Schlüsselausdruck wird keinem der weiteren hier beispielhaft angeführten Datensätze erfüllt.It is different in the following run, the result of which is shown in the table storage status III b). Here the key expression from the in 1 I shown table memory, line 2, column 1 used for checking with all raw data sets, the data set in line 1 of the in 1 IIIb ) table storage state shown fulfills this replacement expression. However, this data record was previously created, as in 1 III a ) shown in the appropriate place, assigned the replacement expression "INCOME". So after determining that the current key expression ( 1 I , Row 2, column 1) through the data set ( 1 III b ), Line 1, column 1) is fulfilled, based on the previous replacement expression assigned to the data record ( 1 IIIa ), Row 1, column 2) in table memory I determines the priority value belonging to this replacement expression (or to the corresponding key expression) ( 1 I , Row 1, column 3), which in this case is 1. This is now with the priority value of the current key expression ( 1 I , Row 2, column 1), namely the priority value 3 (same row, column 3) compared. In this case, it is determined in this case that the priority value of the current key expression, namely the value 3, is higher than the priority value of the previously assigned replacement expression, namely the value 1. In accordance with the method, the replacement expression corresponding to the current key expression ( 1 I , Line 2, column 2) in the place of the previous replacement expression and thus the data record ( 1 III b ), Line 1) assigned a new replacement expression. This key printout is not met by any of the other data records listed here as examples.

Im nächsten Beispiel III c) wurde danach der Schlüsselausdruck aus dem Tabellenspeicher I, Zeile 3, Spalte 1 zur Überprüfung herangezogen, wobei in zuvor genannter analoger Weise auch dieser Schlüsselausdruck durch den Datensatz in III c), Zeile 1 erfüllt wird. Ebenfalls in analoger Weise wird auch ein Vergleich der Prioritätswerte des bestehend zugewiesenen Ersetzungsausdrucks mit dem Prioritätswert des aktuell zur Prüfung herangezogenen Schlüsselausdruckes durchgeführt. In diesem Fall wird jedoch der bestehend zugewiesene Ersetzungsausdruck (III b), Zeile 1, Spalte 2) beibehalten (III c), Zeile 1, Spalte 2), da der Prioritätswert des aktuellen Schlüsselausdruckes geringer ist als der Prioritätswert des bestehenden zugewiesenen Ersetzungsausdruckes.In the next example III c) was then the key printout from table memory I, line 3, column 1 used for the check, this key expression also being used in an analogous manner is met by the data set in III c), line 1. Also in analog A comparison is also made of the priority values of the existing one Replacement expression with the priority value of the key expression currently used for the check carried out. In this case, however, the existing replacement expression is assigned (III b), row 1, column 2) retained (III c), row 1, column 2) because the priority value the current key expression is less than the priority value the existing assigned replacement expression.

In zu III a) analoger Weise wurde in III d) ein weiterer Schlüsselausdruck (I, Zeile 3, Spalte 1) zur Überprüfung herangezogen und festgestellt, dass der Datensatz in Zeile 2 des Tabellenspeichers wie in III d) dargestellt, erfüllt wird und somit der Ersetzungswert in verfahrensgemäßer Weise zugewiesen wird. Die Besonderheit dieser Zuweisung liegt gegenüber dem zu III a) Erläuterten darin, dass der Ersetzungsausdruck als Teil der vorrichtungsgemäßen, in Tabellenspeicher I enthaltenen Zuordnung in deren Zeile 4 nicht nur auf der begrifflichen Generalisierungsebene den Schlüsselausdruck einem Ersetzungsausdruck zuweist, sondern der Ersetzungsausdruck darüber hinaus auch noch Information über die Klassifizierung der darüber liegenden, verallgemeinerten kategoriellen Ebene aufweist. So wird der vorliegende Schlüsselausdruck durch das Vorkommen des Wortes "Spielwaren" im Datensatz erfüllt, und weist diesem Datensatz dann die Information zu, dass es sich um einen Spielwarenumsatz handelt, der zugleich in die Oberklasse der Konsum-Umsätze fällt. Durch das Enthaltensein der Oberkategorie in der Speichertabelle I wird eine spätere quantitative Verarbeitung auf verschiedenen kategoriellen Allgemeinhefts-Stufen erheblich erleichtert, wie im Folgenden noch beschrieben wird.In a manner analogous to III a), a further key expression (I, line 3, column 1) was used for checking in III d) and it was found that the data record in line 2 of the table memory as shown in III d) was fulfilled and thus the Replacement value is assigned in a procedural manner. The peculiarity of this assignment compared to that explained in III a) is that the replacement expression as part of the device-related assignment contained in table memory I in row 4 not only assigns the key expression to a replacement expression on the conceptual generalization level, but also the replacement expression Has information about the classification of the overlying, generalized categorical level. The present key expression is thus fulfilled by the occurrence of the word "toys" in the data record, and then assigns to this data record the information that it is toy sales that at the same time fall into the upper class of consumer sales. The fact that the main category is contained in storage table I makes subsequent quantitative processing at various categorical general book levels much easier, as described in fol is still described.

Durch das sukzessive Heranziehen der verschiedenen Schlüsselausdrücke zur Überprüfung mit allen Rohdatensätzen konnte, wie die verschiedenen Speicherzustände III a) bis III d) zeigen, der Datensatz in der vierten Zeile im Speicherzustand III d) nicht mit einem Ersetzungsausdruck versehen werden und somit nicht unmittelbar klassifiziert werden. Um das Verfahren hinsichtlich der abschließenden Verarbeitung der Zuweisungen und zur Bewertung der Kategorien zu vereinfachen, werden in einem abschließenden Durchgang III e) alle bislang noch nicht mit einem Ersetzungsausdruck versehenen Datensätze mit einem Null-Ersetzungsausdruck versehen, der in diesem Fall "kei ne Zuordnung" lautet (III e), Zeile 4, Spalte 2).By gradually pulling it up of the various key phrases to check with everyone raw data sets could, as the different storage states III a) to III d) show, the data record in the fourth line in memory status III d) is not be provided with a replacement expression and therefore not immediately be classified. To the process in terms of final processing simplify assignments and assess categories will be in a final Pass III e) all not yet with a replacement expression provided records with a zero replacement expression provided that in this case "no Assignment "is (III e), row 4, column 2).

Nach Durchlauf dieses Hauptteiles des Verfahrens befindet sich der ursprünglich im Speicherzustand II gewesene Tabellenspeicher nunmehr im Speicherzustand wie in III e) dargestellt. Von hier aus erfolgt nun eine Weiterverarbeitung der durch die Zuweisung der Ersetzungsausdrücke erfolgten Erst-Kategorisierung. Dabei ist zum einen eine einfache zahlenmäßige Erfassung je Klasse möglich, die gegenüber den nach dem Stand der Technik bekannten Such- und Abzählverfahren bereits den deutlichen Vorteil hat, dass aufgrund der Anordnung mehrer Begriffe je Ersetzungsausdruck, welche in ihrer Folge begrifflich spezieller werdend sind, die quantitative Auswertung ohne erneute Zuordnungen und Begriffs-Suche nach der gewünschten Kategorien-Feinheit parametrisiert ausgeführt werden kann. So kann beispielsweise die Speichertabelle III e) ausgewertet werden nach den Hauptkategorien auf der obersten Ebene, etwa dadurch, dass solche Datensätze als zu derselben Kategorie gehörend bewertet werden, welche im ersten Teilbegriff des Ersetzungsausdruckes übereinstimmen. Auf diese Weise ergeben sich aus III e) zwei Datensätze der Kategorie "Einkommen", ein Datensatz der Kategorie "Konsum", sowie ein Datensatz der Kategorie "keine Zuordnung". Aus derselben Speichertabelle kann, ohne dass eine erneute Suche und/oder Zuordnung erfolgen müsste, auch eine feinere Kategorisierung vorgenommen werden, indem in analoger Weise solche Datensätze als zu derselben Kategorie gehörend bewertet werden, welche in den ersten zwei Begriffen (analog für beliebig viele weitere oder alle Begriffe) übereinstimmen. Praktikabel scheint eine solche kategorielle Feingliederung durch mehrere Teilbegriffes eines Ersetzungsausdruckes bei einer Verwendung von etwa sechs Teilbegriffs- bzw. Kategoriehierarchiestufen.After running this main part The method is originally in memory state II existing table memory now in the memory state as in III e) shown. Further processing now takes place from here the initial categorization by assigning the replacement expressions. On the one hand, a simple numerical entry per class is possible across from the search and counting methods known in the prior art already has the clear advantage that due to the arrangement several terms per replacement expression, which are conceptual in their sequence become more special, the quantitative evaluation without renewed Assignments and search for terms according to the desired subtlety configured parameterized can be. For example, memory table III e) can be evaluated according to the main categories at the top level, such as that such records as belonging to the same category which match in the first partial term of the replacement expression. In this way, two data records result from III e) Income category, a record of the Category "consumption", as well as a data set the category "none Assignment ". Off same memory table without having to search again and / or Assignment would have to take place also a finer categorization can be made by using analog Way such records as belonging to the same category which are evaluated in the first two terms (analogously for any number other or all terms) match. Practical such a categorical structure appears through several sub-terms a replacement expression when using approximately six partial terms or category hierarchy levels.

Bei der Weiterverarbeitung dieser Daten können besonders vorteilhafterweise auch die in den Umsatz-Datensätzen enthaltenen Beträge zur Berechnung abgeleiteter Kennzahlen herangezogen werden. Solche Kennzahlen können etwa das Einkommen selbst sein, sowie Sparen (absolut und aufgeteilt nach Bank-Produkten) und die Sparquote (d.h, das Verhältnis des Sparbetrages zum Einkommensbetrag) der Eigen- und Fremdanteil beim Sparen (d.h. der Anteil, den die Hausbank des Kunden gegenüber fremden Finanzdienstleistern am Sparaufkommen des Kunden hat, sowie Risikovorsorge und/oder frei verfügbares Einkommen. Basierend auf diesen Kennzahlen können Sparverhalten (Spar-)Attraktivität und (Spar-)Erfolgsaussicht beurteilt werden. Dabei erfolgt die Berechnung aller dieser Kennzahlen auf Basis der klassifizierten Umsätze. Nicht klassifizierte Umsätze fließen in die Berechnung nicht ein. Die Kennzahl "Einkommen eines Kunden" berechnet sich – als einfaches Beispiel – als die Summe aller Umsätze des Kunden, die als Einkommen jedweder Art klassifiziert wurden, bei denen also die Umsatzdatensätze mit einem Ersetzungsausdruck versehen wurden, dessen erster oder einziger Teilbegriff "Einkommen" ist. Auf diese werden Gehalt, Kindergeld, Einkünfte aus Vermietung, Zinserträge etc. allesamt zum Einkommen gerechnet. Der absolute Sparbetrag etwa ist die Summe der einzelnen Sparbeträge, welche in analoger Weise klassifiziert wurden, in sämtlichen Bereichen: klassisches Sparen, Bausparen, Tilgung von Finanzierungen, Fondssparen und Lebensversicherungen. Dabei kann aufgeteilt werden nach den Zahlungen an die Hausbank und an fremde Finanzdienstleister. Weiterhin kann als abgeleitete Kennzahl der frei verfügbare Betrag ermittelt werden, welcher das Einkommen abzüglich der Aufwendungen für Miete, Konsum, Risikovorsorge, Sparen und Sonstiges ist.When processing this Data can particularly advantageously also those contained in the sales data records amounts can be used to calculate derived key figures. Such Key figures can about the income itself, as well as saving (absolute and divided by bank products) and the savings rate (i.e., the ratio of the Savings amount to the income amount) the own and third party share with Saving (i.e. the share that the customer's house bank has towards third parties Financial service providers on the customer's savings, as well as risk provisioning and / or freely available Income. Based on these key figures, savings behavior can be (savings) attractiveness and (savings) prospect of success be assessed. All these key figures are calculated based on the classified sales. Unclassified sales flow into the Calculation not one. The key figure "income of a customer" is calculated - as a simple one Example - as the sum of all sales of the customer classified as income of any kind where the sales records have been provided with a replacement expression, the first or only sub-term is "income". Be on this Salary, child benefit, income from rental, interest income etc. all counted towards income. The absolute savings amount, for example is the sum of the individual savings, which in an analogous manner were classified in all Areas: traditional savings, building savings, repayment of financing, Fund savings and life insurance. It can be divided after payments to the house bank and to external financial service providers. The freely available amount can also be determined as the derived key figure which is the income less expenses for rent, Consumption, risk provisioning, saving and other things.

Neben diesen allgemeinen Kennzahlen können auch spezifische Analysen durchgeführt werden, etwa kann bestimmt werden, welche Einkommensgruppe eine besonders hohe Sparquote mit hohem Anteil amerikanischer Finanzdienstleister haben.In addition to these general key figures can specific analyzes can also be carried out, such as can be determined which income group has a particularly high savings rate with have a high proportion of American financial service providers.

Als einfaches Beispiel könnte auch die Summe aller Umsätze von denjenigen Datensätzen gebildet werden, die den Ersetzungsausdruck mit den ersten Teilbegriffen "Konsum Medien Internet" zugewiesen bekommen haben.As a simple example, too the sum of all sales from those records are formed, which are assigned the replacement expression with the first partial terms "consumer media Internet" to have.

Bei der praktischen Umsetzung des erfindungsgemäßen Systems erweist sich als besonders vorteilhaft die Einteilung der Hauptkategorien in die Bereiche Einkommen, Sparen, Miete, Konsum, Risikovorsorge und Sonstiges. Dadurch wird eine praxisnahe Berechnung von bank- und vertriebsrelevanten Kennzahlen auf Kunden- und Haushaltsebene ermöglicht.In the practical implementation of the system according to the invention The classification of the main categories proves to be particularly advantageous in the areas of income, savings, rent, consumption, risk provisioning and other. This enables a practical calculation of banking and sales-related key figures at customer and household level allows.

1a zeigt einen Tabellenspeicherauszug einer praktischen Umsetzung mit Ersetzungsausdruck, Schlüsselausdruck und Prioritätswert. In dieser Darstellung eines tatsächlich umgesetzten Systems ist insbesondere der Schlüsselausdruck als in der Praxis übliches SQL-Statement dargestellt. 1a shows a table memory dump of a practical implementation with replacement expression, key expression and priority value. In this representation of an actually implemented system, the key expression is shown in particular as an SQL statement that is common in practice.

Am Beispiel der ersten Zeile wird allen Datensätzen, welchen den Schlüsselausdruck erfüllen, mit der Priorität 1 der Ersetzungsausdruck "Einkommen-Gehalt-AOK" zugeordnet; das sind vorliegend alle Datensätze, die in den Monat Januar 2002 fallen, deren Umsatzbetrag größer als 0 ist, und weiterhin deren Textschlüssel den Wert 53 oder 56 hat und deren Verwendungszwecktext die Zeichenkette "AOK – die Gesundheitskasse" enthält.Using the example of the first line, all data records that fulfill the key expression are assigned the replacement expression "income-salary-AOK" with priority 1; in the present case, these are all data records that fall in the month of January 2002, whose sales amount is greater than 0, and continue to do so whose text key has the value 53 or 56 and whose intended text contains the character string "AOK - the health insurance company".

1b zeigt einen Tabellenspeicherauszug eines tatsächlich verwirklichten Systems als Ausführungsbeispiel der Erfindung, indem Datensätze jeweils genau einem Ersetzungsausdruck zugeordnet sind, wobei die Datensätze jeweils elf Datenfelder enthalten. 1b shows a table memory extract of an actually implemented system as an exemplary embodiment of the invention, in which data records are each assigned exactly one replacement expression, the data records each containing eleven data fields.

Der Datensatz besteht im dargestellten konkreten Fall aus elf Datenfeldern. Das zwölfte Feld ist für den Ersetzungsausdruck vorgesehen. In der Regel bezieht sich der Schlüsselausdruck, wie etwa in 1a dargestellt, nur auf zwei der drei Datenfelder, beispielsweise etwa "KONTOAUSZUGSTEXT" in Kombination mit "GEGENBANKLEITZAHL". Sehr häufig bezieht sich der Schlüsselausdruck auch allein auf ein einziges Datenfeld, etwa "KONTOAUSZUGSTEXT". Kombinationen von Elementen eines Schlüsselausdruckes sind – wie für SQL-Statements üblich – logisch mit UND- oder ODER-Verknüpfungen verbunden. Schlüsselausdrücke können wiederum aus Kombinationen von Schlüsselausdrücken bestehen. Jeder Schlüsselausdruck hat auch in dieser Ausführungsform einen zugeordneten Ersetzungsausdruck, wobei die Anzahl der Schlüsselausdrücke gleich ist der Anzahl der Ersetzungsausdrücke.In the specific case shown, the data record consists of eleven data fields. The twelfth field is reserved for the replacement expression. Typically, the key expression refers to, such as in 1a shown, only on two of the three data fields, for example "KONTOAUSZUGSTEXT" in combination with "GEGENBANKLEITZAHL". The key expression very often refers to a single data field, such as "ACCOUNT EXTRACT TEXT". Combinations of elements of a key expression are - as is usual for SQL statements - logically connected with AND or OR operations. Key expressions can in turn consist of combinations of key expressions. In this embodiment, too, each key expression has an associated replacement expression, the number of key expressions being equal to the number of replacement expressions.

Eine gegenüber dem zu in 1 geschilderten Verfahrensablauf vorteilhafte Alternative in dieser Ausführungsführung ist es, den Tabellenspeicher – wie in 1a dargestellt – nach Priorität sortiert vorzuhalten, wodurch überflüssige Prioritätsermittlungs- und Vergleichsvorgänge, wie sie in 1 IIIc) dargestellt wurden, entfallen, weil die Prüfung der Datensätze auf Erfüllen des Schlüsselausdrucks stets in der Reihenfolge aufsteigender Priorität erfolgt. Der in 1 IIIc) dargestellte Fall, dass der Schlüsselbegriff vom Datensatz erfüllt wird, jedoch die Ersetzung eine niedrigere Priorität als die bislang zugewiesene aufweist und deswegen der Ersetzungsausdruck beibehalten wird, kommt so nicht vor. Durch das Sortierthalten des Tabellenspeichers wie in 1a dargestellt nach Prioritätswerten, vermeidet vorteilhafterweise also überflüssige Vergleichsvorgänge.One versus the too 1 The procedure described above is an advantageous alternative in this embodiment, the table memory - as in 1a shown - to be sorted according to priority, which makes redundant priority determination and comparison processes as described in 1 IIIc ) have been omitted because the data records are always checked for the key expression in the order of increasing priority. The in 1 IIIc ) illustrated case that the key term is met by the data record, but the replacement has a lower priority than the previously assigned one and therefore the replacement expression is retained, does not occur. By keeping the table memory sorted as in 1a represented according to priority values, thus advantageously avoids unnecessary comparison processes.

2 zeigt einen Bildschirmauszug eines – in diesem Beispielfall – in der Tabellenkalkulation Microsoft Excel realisierten Werkzeuges zur Eingabe und Pflege der im Tabellenspeicher (1 I) enthaltenen Schlüsselausdrücke zu einem bestimmten Ersetzungsausdruck und zur Zuweisung eines Prioritätswertes. Das im Bildschirmauszug deutlich hervorgehobene Dialogfenster zeigt einen SQL-Ausdruck (Structured Query Language) in voller und realisierungsrealistischer Komplexität. Für die vereinfachte Formulierung eines solchen Schlüsselausdrucks stehen verschiedene Schaltflächen mit Standardoperatoren zur Verfügung. Die Priorität kann im rechtsmittigen Auswahlfeld ausgewiesen und durch Betätigung des Schaltfeldes "Übernehmen" in den Tabellenspeicher aufgenommen werden. 2 shows a screen excerpt of a tool - in this example - implemented in the Microsoft Excel spreadsheet for entering and maintaining the table memory ( 1 I ) contained key expressions for a specific replacement expression and for assigning a priority value. The dialog window, which is clearly highlighted in the screen extract, shows a SQL expression (Structured Query Language) in full and realistic complexity. Various buttons with standard operators are available for the simplified formulation of such a key expression. The priority can be indicated in the selection field on the right and can be added to the table memory by pressing the "Apply" button.

3 zeigt einen Bildschirmauszug des bereits in 2 in einem anderen Aspekt dargestellten Werkzeuges. Hier ist ausgehend von den im Tabellenspeicher (1 I) zur Verfügung stehenden Ersetzungsausdrücken nach Kategorien hierarchisiert ein bestimmter Ersetzungsausdruck aus dem Tabellenspeicher auswählbar, der durch dieses Werkzeug unter anderem gelöscht oder bearbeitet werden kann, wobei nach Betätigung der Schaltfläche "Bearbeiten" das im bereits in 2 Gezeigte und dort Beschriebene zur Ausführung kommt. Weiterhin kann von hier ein neues Tripel aus Ersetzungsausdruck, Schlüsselausdruck und Prioritätswert erzeugt werden, indem zuerst der gewünschte Ersetzungsausdruck durch Betätigen der Schaltfläche "Zufügen" erzeugt wird und anschließend durch "Bearbeiten" der entsprechende Schlüsselausdruck und Prioritätswert zugewiesen wird. 3 shows a screenshot of the already in 2 tool shown in another aspect. Based on the data stored in the table memory ( 1 I ) available replacement expressions hierarchically selectable from the table memory, which can be deleted or edited by this tool, among other things. After pressing the "Edit" button, the already in 2 Shown and described there is carried out. Furthermore, a new triple of replacement expression, key expression and priority value can be generated from here by first generating the desired replacement expression by pressing the "Add" button and then assigning the corresponding key expression and priority value by "editing".

4 zeigt einen Bildschirmauszug, den ein Anwender des Systems bei der eigentlichen Datenauswertung sieht. Im vorliegenden Fall werden die Umsätze eines bestimmten Kunden ausgehend von der bereits erfolgten Klassifizierung (also ausgehend von einer gespeicherten Tabelle wie in 1 III e)) untersucht, ob dort Umsätze vorhanden sind, welche der Kategorie "Konsum-Medien Internet America Online Inc." genügen. Dies ist vorliegenden Beispiel für einen Umsatz des bestimmten Kunden im Monat Juli des Jahres 2001 der Fall. Dieser Umsatz wird im Dialogfeld "Kontoauszugstext" unten links angezeigt. 4 shows a screen excerpt that a user of the system sees during the actual data evaluation. In the present case, the sales of a specific customer are based on the classification that has already taken place (i.e. on the basis of a stored table as in 1 III e )) examines whether there are any sales which fall into the category "consumer media Internet America Online Inc." suffice. This is the present example of sales for the particular customer in July of the year 2001 the case. This revenue is displayed in the bottom left of the "Bank Statement Text" dialog box.

5 zeigt einen Bildschirmauszug eines weiteren Anwendungs-Szenarios. In dieser Anwendung wird eine Zusammenstellung von abgeleiteten Kennzahlen der Umsätze eines bestimmten Kunden berechnet und angezeigt. Wiederum ausgehend von den bereits vollständig zugeordneten Datensätzen (1 III e)) werden die Umsätze des Kunden "Jamon Pan" im Juli 2001 als Teilmenge der weiter zu verarbeitenden Datensätze herausgefiltert, wobei ein solches Filtern wiederum durch SQL-Ausdrücke und dementsprechende Abfragen über die vollständig kategorisierte Datensatztabelle wie in 1 III e) realisiert sein kann, wie dies auch bei den anderen angeschlossenen Such- und Filterfunktionen, etwa in 4, Anwendung findet. Aus dieser Untermenge an kategorisierten Datensätzen werden nun nach den in dieser Maske fest vorgesehenen Kategorien Sparen, Bausparen, Finanzieren, Fondssparen, Lebensversicherung, Sachversicherung, jeweils für Eigengeschäft und Fremdgeschäft sowie Miete und Einkommen die jeweils in diese Kategorien fallenden Umsätze je Kategorie addiert und zur Anzeige gebracht, wobei hieraus weitere Werte aufsummiert werden, Anteile nach Prozent weiterberechnet werden, sowie der frei verfügbare Betrag und die Sparquote ermittelt und zur Anzeige gebracht werden. 5 shows a screen shot of another application scenario. In this application, a compilation of derived key figures of the turnover of a specific customer is calculated and displayed. Again starting from the already fully assigned data records ( 1 III e )) The sales of the customer "Jamon Pan" are filtered out in July 2001 as a subset of the data records to be processed, such filtering again using SQL expressions and corresponding queries about the fully categorized data record table as in 1 III e ) can be implemented, as is also the case with the other connected search and filter functions, for example in 4 , Applies. From this subset of categorized data records, the sales per category falling into these categories are added and displayed according to the categories of savings, building society savings, financing, fund savings, life insurance, property insurance, each for own business and external business as well as rent and income brought, from which further values are added up, shares are calculated according to percent, and the freely available amount and the savings rate are determined and displayed.

Claims

Automatic classification procedure of data records, the method being carried out in a digital computer, characterized in that a) an assignment of key expressions to replacement expressions and priority values is selected, in which each key expression is uniquely assigned a replacement expression and each key expression is also uniquely assigned a priority value, b) for each The key expression of each data record is checked to determine whether the respective data record fulfills the current key expression and, if this is the case, the substitution expression belonging to the current key expression is clearly and permanently assigned to the respective data record if: (1) the replacement data record has not yet been assigned to the respective data record or (2) a replacement expression has already been assigned to the respective data record and the priority value of the current key expression is greater than the priority value of the already assigned replacement expression end of key expression. c) the assignment pairs thus created from the data record and the replacement expression are checked for at least partial correspondence of the replacement expression with one another, the data records of such matching assignment pairs being rated as belonging to the same class.

A method according to claim 1, characterized in that the assignment is selected so is that the replacement expressions each contain a sequence of more specific terms.

A method according to claim 2, characterized in that the exam for at least partial agreement different assignment pairs by comparing the replacement expressions along the each of the term sequences contained therein takes place.

Method according to one of claims 1 to 3, characterized in that that the records each an alphanumeric string corresponding to the sales data contain.

Method according to one of claims 1 to 4, characterized in that that as belonging to the same class records numerically per class be recorded.

Method according to one of claims 1 to 5, characterized in that that records, that do not meet any of the key terms Replacement expression that contains a null term is assigned.

Device for carrying out a method according to one of the claims 1 to 6, characterized in that - First storage means with contain a clear assignment of data records to replacement expressions are, as well as second storage means with an assignment of key expressions replacement expressions and priority values, - in which by assigning exactly one to each key expression contained therein the replacement expression contained therein is uniquely assigned and also assigns exactly one priority value to each key expression contained therein is - data processing equipment are included with - means to check whether a record a key term enough, - means to determine priority values based on the replacement term or the key term and for comparison of these values, - means for comparison between strings in selectable areas - means to assess compliance of replacement terms between different assignment pairs from data record and replacement term, - the first and the second Storage means and the data processing means are interconnected for informational purposes are.

Apparatus according to claim 7, characterized in that the first storage means in addition to the assignment also the data records and the replacement expressions contain.

Device according to one of claims 7 or 8, characterized in that that the second storage means in addition to the assignment also the key expressions and / or the replacement terms and / or the priority values contain.

Device according to one of claims 7 to 9, characterized in that that the key phrases as expressions in a data query language.

Device according to one of claims 7 to 10, characterized in that that the replacement expressions each consist of several terms, which are conceptual in their sequence are more specifically arranged.

Device according to one of claims 7 to 11, characterized in that that means are available to add numerical values from the data sets remove and further process arithmetically.

Use of a method or device according to one of the preceding claims for automatic quantitative Evaluation of automatically generated and electronically saved sales data strings a variety of bank movements.

Use according to claim 13, characterized in that the quantitative analysis is also the derivation of derived Indicators includes.