EP1118060A1 - Method and device for assigning an object to at least one class - Google Patents

Method and device for assigning an object to at least one class

Info

Publication number
EP1118060A1
EP1118060A1 EP99955709A EP99955709A EP1118060A1 EP 1118060 A1 EP1118060 A1 EP 1118060A1 EP 99955709 A EP99955709 A EP 99955709A EP 99955709 A EP99955709 A EP 99955709A EP 1118060 A1 EP1118060 A1 EP 1118060A1
Authority
EP
European Patent Office
Prior art keywords
class
classes
measure
evaluation
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP99955709A
Other languages
German (de)
French (fr)
Inventor
Thomas BRÜCKNER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1118060A1 publication Critical patent/EP1118060A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Definitions

  • the invention relates to a method and an arrangement for assigning an object to at least one class from a set of predetermined classes by a computer.
  • a method and an arrangement for classifying a text is known from [1].
  • an object is assigned to one or more classes (multi-classification system) by determining a membership measure for the object and comparing it with an associated threshold value for each class. If the membership measure for the respective class is greater than the threshold value of this class, the object is assigned to the class. It is disadvantageous here that the threshold values of all classes are predetermined globally and thus an inaccurate classification takes place.
  • the object of the invention is to enable a classification, wherein specific threshold values are automatically determined for several classes.
  • a method for assigning an object to at least one class from a set of predetermined classes is specified by a computer, in which for each class a membership measure of the object to the Class is determined.
  • a threshold value is calculated for each class from the set of classes by optimizing an evaluation measure under specified constraints.
  • the object is assigned to a class from the set of specified classes if the membership measure is above the associated threshold value of the class.
  • an object is not assigned to a class from the several predetermined classes if the membership measure is below the threshold value of the class.
  • a further training consists in that the evaluation measure depends on the threshold values of the classes. In this case it is advantageous that the threshold values are included directly or indirectly in the evaluation measure.
  • the evaluation measure comprises one of the following specifications: a) number of errors; b) recognition rate (recall); c) Detection rate of a detection system (precision).
  • the evaluation measure can be based on certain peculiarities of the object to be classified. In particular, it is useful to take the classification error into account in the evaluation measure and to optimize it with regard to certain specifications.
  • the evaluation measure is provided with a condition that requires at least a predetermined value for the evaluation measure. This takes into account that one of the above specifications with a certain value are applied and this is taken into account when optimizing the evaluation measure under the specified secondary conditions.
  • the secondary conditions are preferably formulated such that:
  • N is the number of classes
  • M denotes the number of threshold values Tj and kj_j can only assume the values 0 or 1.
  • One embodiment also consists in the fact that the evaluation measure is optimized under the secondary conditions by solving a linear system of equations (here: evaluation measure with specified auxiliary conditions and possibly additional auxiliary conditions) by means of an LP solver (see [2]).
  • One embodiment also consists in the fact that the text classification method is used. Especially when it comes to text classification, it is customary to use a given text in different (thematic) classes, so-called To assign domains. Naturally, a given text can be assigned to several domains. The decision as to whether the assignment is made or not is made for each class by comparing the value determined for the text by means of an evaluation measure with the predetermined threshold value of the domain (class). For the text, there is a membership measure for each class; the assignment is made if the membership measure is above the threshold value of the respective class.
  • the threshold values for the class have been predetermined in particular using the above-mentioned method.
  • an optimal threshold value is determined for each class.
  • a "microaveraged" evaluation is carried out on the basis of the threshold values determined for the classes. This will be discussed in detail within the scope of the exemplary embodiment.
  • an arrangement for assigning an object to at least one class from a set of predetermined classes is also specified, in which a processor unit is provided which is set up in such a way that
  • a measure of the object's belonging to the class can be determined for each class
  • a threshold value can be calculated for each class from the set of classes by optimizing an evaluation measure under specified secondary conditions
  • the object can be assigned to a class from the set of predetermined classes if the membership measure lies above the threshold value of the class; d) the object cannot be assigned to a class from the set of specified classes if the membership measure is below the threshold value of the class.
  • Fig.l is a block diagram with steps of a method for assigning an object to at least one class from a set of predetermined classes
  • a membership measure is determined for the object for each class. This should provide information about whether the object can be assigned to the respective class. The assignment is generally made when the membership measure exceeds a predefined threshold value (for the class).
  • a class-dependent threshold value that is to say to determine a threshold value for each class
  • an evaluation measure is optimized in step 102 under predetermined secondary conditions, the evaluation measure depending on the threshold values of the classes. The optimization results in threshold values for the classes, specifically one threshold value for each class.
  • Step 103 checks whether the membership measure is greater than the respective class-specific threshold value.
  • step 104 the object is assigned to the respective class in accordance with step 104, otherwise no assignment to this class is made (cf. step 105).
  • a measure of deviation instead of the membership measure can alternatively be used, whereby the measure of deviation is understood only as the negated wording.
  • Fig. 2 shows a table with dimensions for one
  • Text classification can be used to assign the object to at least one class. Predefined texts are assigned to different classes (domains), with each class mostly belonging to one subject area. A concrete realization consists in the assignment of newspaper texts to one or more topics, e.g. Sports, literature, politics and / or business. As mentioned above, the evaluation measure is optimized under given constraints. The evaluation measure itself can include certain specifications. Some possible specifications are explained in more detail below using the table in FIG. Fields 201 to 204 show possible classification states. The field 201 "a" contains all automatically correctly hit by the system
  • Field 202 "b" contains the number of all assignments classified as correct by the system which actually (according to
  • Field 203 "c” indicates the number of classifications that the system has assigned as incorrect, but which in reality would have been correct.
  • field 204 "d” includes all incorrect assignments that the system has classified as incorrect.
  • Recall rate is defined as the number of correct (recognized) assignments divided by the number of possible assignments:
  • a detection rate is determined by the number of correct assignments divided by the number of all automatic assignments:
  • a system failure (fallout) is determined by
  • the specified specifications equation (2) to equation (5) are suitable for specifying the classification quality in the form of a suitable evaluation measure Q.
  • the evaluation measure can be determined directly across all classes ("icroaveraged" evaluation measure):
  • N denotes the number of classes k.
  • the evaluation measure is first determined individually for each class and then averaged over all classes ("macroaveraged" evaluation measure):
  • threshold value ensures a sufficiently high quality of the assignment (classification) for all classes.
  • equation (8) does not work. A lot of threshold values are searched here
  • the best set of threshold values is determined by formulating a linear optimization problem and solving it using linear programming (see LP solver). With a training set of objects whose Classification is known, an evaluation is carried out with M different threshold values. In the following, the result of the class k x for the m the evaluation measure Q comes in at a threshold value T-,.
  • the linear optimization problem to be solved is formulated as follows:
  • the evaluation measure Q only receives one result per class (k x -
  • a processor unit PRZE is shown in FIG.
  • the processor unit PRZE comprises a processor CPU, a 25 SPE memory and an input / output interface IOS, which is used in different ways via an interface IFC: an output on a monitor MON and / or on a monitor is visible via a graphic interface PRT printer output. An entry is made with a mouse or MAS KEYBOARD.
  • the processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS.
  • additional components can be connected to the data bus BUS, for example additional memory, data storage (hard disk) or scanner.

Abstract

According to the invention an object is assigned to at least one class among a group of classes by determining, for each class, a membership criterion of said object to a class. Class-dependent threshold values for assignment are determined by optimization of an evaluation criterion under defined secondary conditions. A comparison of the membership criterion with the threshold values of the classes yields a corresponding assignment of the object to at least one class.

Description

Beschreibungdescription
Verfahren und Anordnung zur Zuordnung eines Objekts zu mindestens einer KlasseMethod and arrangement for assigning an object to at least one class
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen durch einen Rechner.The invention relates to a method and an arrangement for assigning an object to at least one class from a set of predetermined classes by a computer.
Ein Verfahren und eine Anordnung zur Klassifikation eines Textes ist bekannt aus [1] .A method and an arrangement for classifying a text is known from [1].
Bei der Klassifikation wird ein Objekt einer oder mehreren Klassen zugeordnet (Multi-Klassifikationssystem) , indem ein Zugehörigkeitsmaß für das Objekt bestimmt und mit einem zugehörigen Schwellwert jeder Klasse verglichen wird. Ist das Zugehörigkeitsmaß für die jeweilige Klasse größer als der Schwellwert dieser Klasse, so wird das Objekt der Klasse zugeordnet. Dabei ist es von Nachteil, daß die Schwellwerte aller Klassen global vorbestimmt werden und damit eine ungenaue Klassifikation erfolgt.In classification, an object is assigned to one or more classes (multi-classification system) by determining a membership measure for the object and comparing it with an associated threshold value for each class. If the membership measure for the respective class is greater than the threshold value of this class, the object is assigned to the class. It is disadvantageous here that the threshold values of all classes are predetermined globally and thus an inaccurate classification takes place.
Weiterhin ist ein Verfahren zur Lösung eines linearen Gleichungssystems aus [2] bekannt.A method for solving a linear system of equations from [2] is also known.
Die Aufgabe der Erfindung besteht darin, eine Klassifikation zu ermöglichen, wobei automatisch für mehrere Klassen spezifische Schwellwerte bestimmt werden.The object of the invention is to enable a classification, wherein specific threshold values are automatically determined for several classes.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigenThis task is carried out according to the characteristics of the independent
Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.Claims resolved. Further developments of the invention also result from the dependent claims.
Zur Lösung der Aufgabe wird ein Verfahren zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen durch einen Rechner angegeben, bei dem für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelt wird. Für jede Klasse aus der Menge der Klassen wird ein Schwellwert berechnet, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird. Das Objekt wird einer Klasse aus der Menge vorgegebener Klassen zugeordnet, falls das Zugehorigkeitsmaß oberhalb des zugehörigen Schwellwerts der Klasse liegt. Im anderen Fall wird ein Objekt einer Klasse aus den mehreren vorgegebenen Klassen nicht zugeordnet, falls das Zugehorigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.To solve the problem, a method for assigning an object to at least one class from a set of predetermined classes is specified by a computer, in which for each class a membership measure of the object to the Class is determined. A threshold value is calculated for each class from the set of classes by optimizing an evaluation measure under specified constraints. The object is assigned to a class from the set of specified classes if the membership measure is above the associated threshold value of the class. In the other case, an object is not assigned to a class from the several predetermined classes if the membership measure is below the threshold value of the class.
Es ist ein Vorteil, daß f r jede Klasse ein individueller Schwellwert bestimmbar ist, der durch Optimierung des Evaluierungsmaßes direkt klassentypische Voraussetzungen ber cksichtigt .It is an advantage that an individual threshold value can be determined for each class, which directly takes into account class-typical requirements by optimizing the evaluation measure.
Eine Weiterbildung besteht darin, daß das Evaluierungsmaß von den Schwellwerten der Klassen abhangt. In diesem Fall ist es von Vorteil, daß die Schwellwerte direkt oder indirekt in das Evaluierungsmaß eingehen.A further training consists in that the evaluation measure depends on the threshold values of the classes. In this case it is advantageous that the threshold values are included directly or indirectly in the evaluation measure.
Auch ist es eine Weiterbildung, daß das Evaluierungsmaß eine der folgenden Spezifikationen umfaßt: a) Anzahl der Fehler; b) Erkennungsrate (Recall); c) Erkennungsrate eines Erkennungssystems (Precision) .It is also a further development that the evaluation measure comprises one of the following specifications: a) number of errors; b) recognition rate (recall); c) Detection rate of a detection system (precision).
Das Evaluierungsmaß kann auf bestimmte Eigenheiten des zu klassifizierenden Objektes abstellen. Insbesondere ist es nützlich, im Evaluierungsmaß den Fehler der Klassifikation zu berücksichtigen und hinsichtlich bestimmter Vorgaben zu optimieren.The evaluation measure can be based on certain peculiarities of the object to be classified. In particular, it is useful to take the classification error into account in the evaluation measure and to optimize it with regard to certain specifications.
Eine andere Weiterbildung besteht darin, daß das Evaluierungsmaß mit einer Bedingung versehen wird, die mindestens einen vorgegebenen Wert für das Evaluierungsmaß erfordert. Hierbei wird berücksichtigt, daß eine der vorgenannten Spezifikationen mit einem bestimmten Wert beaufschlagt sind und dies bei der Optimierung des Evaluierungsmaßes unter den vorgegebenen Nebenbedingungen mit berücksichtigt wird.Another development is that the evaluation measure is provided with a condition that requires at least a predetermined value for the evaluation measure. This takes into account that one of the above specifications with a certain value are applied and this is taken into account when optimizing the evaluation measure under the specified secondary conditions.
Eine andere Weiterbildung besteht darin, daß eine zusätzliche Nebenbedingung angegeben wird, indem für alle Klassen ein Mindestwert für ein zusätzliches Evaluierungsmaß vorgegeben wird. Diese zusätzliche Nebenbedingung fließt in die Optimierung des Evaluierungsmaßes mit ein, indem sie zu den vorgegebenen Nebenbedingungen hinzugefügt wird.Another development is that an additional constraint is specified by specifying a minimum value for an additional evaluation measure for all classes. This additional constraint is included in the optimization of the evaluation measure by adding it to the specified constraints.
Die Nebenbedingungen werden vorzugsweise derart formuliert, daß gilt:The secondary conditions are preferably formulated such that:
kn + kχ2+. • -+kiM = 1 kNl + kN2+- • -+kNM = !kn + kχ2 +. • - + kiM = 1 k Nl + k N2 + - • - + k NM =!
wobei kj_j eine in das Evaluierungsmaß eingehende Ergebnis der Klasse k_ bei Schwellwert Tj , N die Anzahl der Klassen,where kj_j is a result of the class k_ that goes into the evaluation measure at threshold value Tj, N is the number of classes,
M die Anzahl der Schwellwerte Tj bezeichnen und kj_j nur die Werte 0 oder 1 annehmen kann.M denotes the number of threshold values Tj and kj_j can only assume the values 0 or 1.
Eine Ausgestaltung besteht auch darin, daß das Evaluierungsmaß unter den Nebenbedingungen optimiert wird, indem ein lineares Gleichungssystem (hier: Evaluierungsmaß mit vorgegebenen Nebenbedingungen und gegebenenfalls zusätzliche Nebenbedingung) mittels eines LP-Solvers (siehe [2] ) gelöst wird.One embodiment also consists in the fact that the evaluation measure is optimized under the secondary conditions by solving a linear system of equations (here: evaluation measure with specified auxiliary conditions and possibly additional auxiliary conditions) by means of an LP solver (see [2]).
Eine Ausgestaltung besteht auch darin, daß das Verfahren zur Textklassifikation eingesetzt wird. Gerade bei der Textklassifikation ist es üblich, einen vorgegebenen Text unterschiedlichen (thematischen) Klassen, sogenannten Domänen, zuzuordnen. Dabei kann ein vorgegebener Text naturgemäß mehreren Domänen zugeordnet werden. Die Entscheidung, ob die Zuordnung erfolgt oder nicht, ergibt sich für jede Klasse durch Vergleich des mittels Evaluierungsmaß ermittelten Wertes für den Text mit dem vorgegebenen Schwellwert der Domäne (Klasse) . Es ergibt sich für den Text ein Zugehörigkeitsmaß für jede Klasse, die Zuordnung erfolgt, wenn das Zugehörigkeitsmaß oberhalb des Schwellwerts der jeweiligen Klasse liegt. Dabei sind insbesondere nach dem obengenannten Verfahren die Schwellwerte für die Klasse vorbestimmt worden.One embodiment also consists in the fact that the text classification method is used. Especially when it comes to text classification, it is customary to use a given text in different (thematic) classes, so-called To assign domains. Naturally, a given text can be assigned to several domains. The decision as to whether the assignment is made or not is made for each class by comparing the value determined for the text by means of an evaluation measure with the predetermined threshold value of the domain (class). For the text, there is a membership measure for each class; the assignment is made if the membership measure is above the threshold value of the respective class. The threshold values for the class have been predetermined in particular using the above-mentioned method.
Auch ist es eine Ausgestaltung, daß für jede Klasse ein eigener optimaler Schwellwert bestimmt wird.It is also an embodiment that an optimal threshold value is determined for each class.
Im Rahmen einer zusätzlichen Ausgestaltung wird anhand der ermittelten Schwellwerte für die Klassen eine "microaveraged" Evaluierung durchgeführt. Hierauf wird im Rahmen des Ausführungsbeispiels detailliert eingegangen.As part of an additional embodiment, a "microaveraged" evaluation is carried out on the basis of the threshold values determined for the classes. This will be discussed in detail within the scope of the exemplary embodiment.
Auch wird zur Lösung der Aufgabe eine Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen angegeben, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daßTo achieve the object, an arrangement for assigning an object to at least one class from a set of predetermined classes is also specified, in which a processor unit is provided which is set up in such a way that
a) für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelbar ist;a) a measure of the object's belonging to the class can be determined for each class;
b) für jede Klasse aus der Menge der Klassen ein Schwellwert berechenbar ist, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;b) a threshold value can be calculated for each class from the set of classes by optimizing an evaluation measure under specified secondary conditions;
c) das Objekt einer Klasse aus der Menge vorgegebener Klassen zuordenbar ist, falls das Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt; d) das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zuordenbar ist, falls das Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.c) the object can be assigned to a class from the set of predetermined classes if the membership measure lies above the threshold value of the class; d) the object cannot be assigned to a class from the set of specified classes if the membership measure is below the threshold value of the class.
Diese Anordnung ist insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.This arrangement is particularly suitable for carrying out the method according to the invention or one of its developments explained above.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.Embodiments of the invention are illustrated and explained below with reference to the drawing.
Es zeigenShow it
Fig.l ein Blockdiagramm mit Schritten eines Verfahrens zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen;Fig.l is a block diagram with steps of a method for assigning an object to at least one class from a set of predetermined classes;
Fig.2 eine Tabelle mit Maßen für eine Textklassifikation;2 shows a table with dimensions for a text classification;
Fig.3 eine Prozessoreinheit,3 shows a processor unit,
In Fig.l ist ein Blockdiagramm mit Schritten eines Verfahrens zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen dargestellt. In einem Schritt 101 wird für das Objekt zu jeder Klasse ein Zugehörigkeitsmaß ermittelt. Dies soll Aufschluß darüber geben, ob das Objekt zu der jeweiligen Klasse zuzuordnen ist. Die Zuordnung erfolgt generell, wenn das Zugehörigkeitsmaß einen vorgegebenen Schwellwert (für die Klasse) überschreitet. Zur Ermittlung eines klassenabhängigen Schwellwerts, d.h. zur Bestimmung je eines Schwellwerts für jede Klasse, wird in einem Schritt 102 ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert, wobei das Evaluierungsmaß von den Schwellwerten der Klassen abhängt. Aus der Optimierung ergeben sich Schwellwerte für die Klassen, konkret je ein Schwellwert für jede Klasse. In einem Schritt 103 wird geprüft, ob das Zugehörigkeitsmaß größer als der jeweilige klassenspezifische Schwellwert ist. Ist dies der Fall, so wird das Objekt gemäß Schritt 104 der jeweiligen Klasse zugeordnet, ansonsten wird keine Zuordnung zu dieser Klasse (vgl. Schritt 105) getroffen. Entsprechend der hier verwendeten Formulierung kann alternativ auch ein Abweichungsmaß anstellte des Zugehörigkeitsmaßes eingesetzt werden, wobei unter Abweichungsmaß lediglich die negierte Formulierung verstanden wird.1 shows a block diagram with steps of a method for assigning an object to at least one class from a set of predefined classes. In a step 101, a membership measure is determined for the object for each class. This should provide information about whether the object can be assigned to the respective class. The assignment is generally made when the membership measure exceeds a predefined threshold value (for the class). In order to determine a class-dependent threshold value, that is to say to determine a threshold value for each class, an evaluation measure is optimized in step 102 under predetermined secondary conditions, the evaluation measure depending on the threshold values of the classes. The optimization results in threshold values for the classes, specifically one threshold value for each class. In one Step 103 checks whether the membership measure is greater than the respective class-specific threshold value. If this is the case, the object is assigned to the respective class in accordance with step 104, otherwise no assignment to this class is made (cf. step 105). According to the wording used here, a measure of deviation instead of the membership measure can alternatively be used, whereby the measure of deviation is understood only as the negated wording.
Fig.2 zeigt eine Tabelle mit Maßen für eineFig. 2 shows a table with dimensions for one
Textklassifikation. Eine Anwendungsmöglichkeit der Zuordnung des Objekts zu mindestens einer Klasse besteht in der Textklassifikation. Hier werden vorgegebene Texte unterschiedlichen Klassen (Domänen) zugeordnet, wobei jede Klasse zumeist einem Themenbereich angehört. Eine konkrete Realisierung besteht in der Zuordnung von Zeitungstexten zu einem oder mehreren Themen, z.B. Sport, Literatur, Politik und/oder Wirtschaft. Wie oben angeführt, wird das Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert. Das Evaluierungsmaß selbst kann bestimmte Spezifikationen umfassen. Nachfolgend werden anhand der Tabelle von Fig.2 einige mögliche Spezifikationen näher erläutert. Die Felder 201 bis 204 zeigen mögliche Klassifikationszustände. Das Feld 201 "a" enthält alle vom System automatisch richtig getroffenenText classification. Text classification can be used to assign the object to at least one class. Predefined texts are assigned to different classes (domains), with each class mostly belonging to one subject area. A concrete realization consists in the assignment of newspaper texts to one or more topics, e.g. Sports, literature, politics and / or business. As mentioned above, the evaluation measure is optimized under given constraints. The evaluation measure itself can include certain specifications. Some possible specifications are explained in more detail below using the table in FIG. Fields 201 to 204 show possible classification states. The field 201 "a" contains all automatically correctly hit by the system
Klassifikationsentscheidungen, die auch tatsächlich richtig, also von einem Experten als richtig beurteilt werden, sind. Feld 202 "b" enthält die Anzahl aller vom System als richtig klassifizierten Zuordnungen, die tatsächlich (nachClassification decisions that are actually correct, i.e. judged correct by an expert. Field 202 "b" contains the number of all assignments classified as correct by the system which actually (according to
Expertenmeinung) falsch sind. In Feld 203 "c" werden die Zahl derjenigen Klassifikationen benannt, die das System als falsch zugeordnet hat, die in Wahrheit aber richtig gewesen wären. Schließlich umfaßt Feld 204 "d" alle falschen Zuordnungen, die auch das System als falsch klassifiziert hat. Es gibt nun unterschiedliche Spezifikationen, die anhand der obengenannten Größen definiert werden können. DieExpert opinion) are wrong. Field 203 "c" indicates the number of classifications that the system has assigned as incorrect, but which in reality would have been correct. Finally, field 204 "d" includes all incorrect assignments that the system has classified as incorrect. There are now different specifications that can be defined based on the above sizes. The
Erkennungsrate (Recall) ist definiert als die Anzahl der richtigen (wiedererkannten) Zuordnungen geteilt durch die Anzahl der möglichen Zuordnungen:Recall rate is defined as the number of correct (recognized) assignments divided by the number of possible assignments:
Recall = !2) a + cRecall =! 2) a + c
Eine Erkennungsrate (Precision) ist bestimmt durch die Anzahl der richtigen Zuordnungen geteilt durch die Anzahl aller automatischen Zuordnungen:A detection rate (precision) is determined by the number of correct assignments divided by the number of all automatic assignments:
a Precision a + ba Precision a + b
Ein Fehler des Systems (Fallout) ist bestimmt durchA system failure (fallout) is determined by
Fallout (4!Fallout (4!
Eine Fehlerrate ist bestimmt durchAn error rate is determined by
b + cb + c
Errorrate = (5) a + b + c + dErrorrate = (5) a + b + c + d
Die benannten Spezifikationen Gleichung (2) bis Gleichung (5) eignen sich, die Klassifizierungsqualität in Form eines geeigneten Evaluierungsmaßes Q anzugeben. Das Evaluierungsmaß kann zum einen direkt über alle Klassen ( " icroaveraged" Evaluierungsmaß) bestimmt werden:The specified specifications equation (2) to equation (5) are suitable for specifying the classification quality in the form of a suitable evaluation measure Q. On the one hand, the evaluation measure can be determined directly across all classes ("icroaveraged" evaluation measure):
wobei N die Anzahl der Klassen k bezeichnet. Auch wird das Evaluierungsmaß alternativ zuerst für jede Klasse einzeln bestimmt und danach über alle Klassen gemittelt ( "macroaveraged" Evaluierungsmaß):where N denotes the number of classes k. Alternatively, the evaluation measure is first determined individually for each class and then averaged over all classes ("macroaveraged" evaluation measure):
Q.(kl) + Q(k2)+...+θ(kN)Q. ( k l) + Q (k 2 ) + ... + θ (k N )
NN
Wie bereits erwähnt, ist im allgemeinen nicht davon auszugehen, daß ein und derselbe Schwellwert für alle Klassen eine ausreichend hohe Qualität der Zuordnung (Klassifikation) gewährleistet. Eine Bestimmung je eines Schwellwerts für jede Klasse soll demnach erfolgen, so daß dieAs already mentioned, it cannot generally be assumed that one and the same threshold value ensures a sufficiently high quality of the assignment (classification) for all classes. A determination of a threshold value for each class should therefore be made so that the
Klassifikationsqualität insgesamt möglichst hoch ist. Bei der Variante "macroaveraged" Evaluierungsmaß erfolgt dies, indem für jede Klasse der Wert als Schwellwert bestimmt wird, der das Evaluierungsmaß für diese Klasse optimiert:Overall classification quality is as high as possible. In the "macroaveraged" evaluation measure, this is done by determining the value for each class as a threshold that optimizes the evaluation measure for this class:
Q-(l) + θ(k2)+...+Q(kN) — -—- = ax <=>Q- (l) + θ (k 2 ) + ... + Q (k N ) - -—- = ax <=>
N (8) . N (8).
C(kι) + Q.(k2)+. - -+θ(kN) = maxC (kι) + Q. (k 2 ) +. - - + θ (k N ) = max
Im Falle des "microaveraged" Evaluierungsmaßes funktioniert Gleichung (8) nicht. Gesucht wird hier eine Menge von SchwellwertenIn the case of the "microaveraged" evaluation measure, equation (8) does not work. A lot of threshold values are searched here
{L, T2, ... , TN}{ L , T 2 , ..., T N }
die eine Ungleichverteilung der Klassen mitberücksichtigt. Wenn z.B. eine Klasse ki doppelt so oft vorkommt wie eine Klasse k2, so geht dies in Gleichung (7) nicht ein und wird somit bei der Klassifikationsqualität insgesamt nicht ausreichend berücksichtigt.which takes into account an unequal distribution of the classes. If, for example, a class ki occurs twice as often as a class k 2 , this is not included in equation (7) and is therefore not sufficiently taken into account in the overall classification quality.
Die beste Menge von Schwellwerten (vgl. Gleichung (9)) wird bestimmt, indem ein lineares Optimierungsproblem formuliert und mittels linearer Programmierung (vgl. LP-Solver) gelöst wird. Mit einer Trainingsmenge von Objekten, deren Klassifikation bekannt ist, wird mit M unterschiedlichen Schwellwerten eine Evaluierung durchgeführt. Dabei steht im folgenden für das m das Evaluierungsmaß Q eingehende Ergebnis der Klasse kx bei einem Schwellwert T-, . Das zu losende lineare Optimierungsproblem wird wie folgt formuliert :The best set of threshold values (see equation (9)) is determined by formulating a linear optimization problem and solving it using linear programming (see LP solver). With a training set of objects whose Classification is known, an evaluation is carried out with M different threshold values. In the following, the result of the class k x for the m the evaluation measure Q comes in at a threshold value T-,. The linear optimization problem to be solved is formulated as follows:
Zielfunktion: max Q(kn, k]_2, ... , kιM, ... , (10)Objective function: max Q (kn, k] _ 2 , ..., kι M , ..., (10)
Nebenbedingungen : kl l + 12+- -+ lM = 1 21 + k22+- -+ 2M = 1 di; kNl + N2+- • -+kNM = 1Supplementary conditions: k ll + 12 + - - + lM = 1 21 + k 22 + - - + 2M = 1 di; k Nl + N2 + - • - + k NM = 1
Anhand der Nebenbedingungen geht m das Evaluierungsmaß Q jeweils nur ein Ergebnis pro Klasse ein (kx-| nimmt nur die Werte 0 oder 1 an) . Die Menge der k-,_-,, alsoBased on the secondary conditions, the evaluation measure Q only receives one result per class (k x - | only takes the values 0 or 1). The set of k -, _- ,, well
{kla> 2b' • ••/ Nz} (12),{ k la> 2b '• •• / Nz} (12),
die die Zielfunktion maximieren, sind die Losung desthat maximize the objective function are the solution of the
Optimierungsproblems . Für die Optimierung des "microaveraged" Evaluierungsmaßes bedeutet dies, daß mit den Schwellwerten Ta für die Klasse kj_, T^ für die Klasse k2, ... und Tz für die Klasse k^ ein optimiertes Ergebnis erzielt wird.Optimization problem. For the optimization of the "microaveraged" evaluation measure, this means that an optimized result is achieved with the threshold values T a for the class k j _, T ^ for the class k 2 , ... and T z for the class k ^.
Dieses Verfahren kann auch angewandt werden, wenn die Gute des Klassifikationssystems durch zwei Evaluierungsmaße Q]_ und Q2 anzugeben ist, z.B. anhand von Recall und Precision (siehe obige Ausfuhrung) . Dabei wird durch Hinzuf gen einer zusatzlichen Nebenbedingung das Gleichungssystem optimiert:This procedure can also be used if the goodness of the classification system has to be indicated by two evaluation measures Q ] _ and Q 2 , eg using recall and precision (see above). The system of equations is optimized by adding an additional constraint:
Zielfunktion: F8 max Q_(kn, k^2^ • • - > klM> • • • > kNl' kN2' • • • > kNMJ Nebenbedingungen: F9 ll + k12+- -+klM = 1 k21 + 22+- - -+k2M = 1Objective function: F8 max Q_ (kn, k ^ 2 ^ • • -> k lM> • • •> k Nl 'k N2' • • •> k NMJ Supplementary conditions: F9 ll + k 12 + - - + k lM = 1 k 21 + 22 + - - - + k 2M = 1
kNl + kN2+- -+kNM = 1 k Nl + k N2 + - - + k NM = 1
Qi(kll' k12' • • • ' klM' • • • ' kNl' kN2' • • • ' kNMJ ≥ x (13) ,Qi ( k ll ' k 12' • • • ' k lM' • • • ' k Nl' k N2 '• • •' k NMJ ≥ x (13 ) ,
5 wobei X einen vorgegebenen Mindestwert für das Evaluierungsmaß Q^ bezeichnet.5 where X denotes a predetermined minimum value for the evaluation measure Q ^.
Im Hinblick auf die obigen Ausführungen, insbesondere Fig.2, werden folgende Definitionen vereinbart:With regard to the above statements, in particular Fig. 2, the following definitions are agreed:
1010
MIC Recall = (14), MIC Recall = (14),
τ, „ . . al' a2, ... , aN " Τ ,". , a l 'a 2 , ..., a N
MIC Precision = η ^ 7 r (15),MIC Precision = η ^ 7 r (15),
(al r a2, ... , aN + \blf b2, ... , bNj(a lr a 2 , ..., a N + \ b lf b 2 , ..., b N j
al + a2 + +_ a a l + a 2 + + _ a
1 ,5, „MA..C_ DRecalιlπ = al + cl a2 + c2 aN + CN I(1e6.. ,1, 5, "MA..C_ D Recal ι l π = a l + c l a 2 + c 2 a N + C N I (1 e 6 ..,
NN
MAC Precision = (17),MAC Precision = (17),
NN
wobei MIC "microaveraged" und MAC "macroaveraged" bezeichnen. 20 Die Bezeichnungen a_, b_, C_ und dj_ geben die jeweiligenwhere MIC "microaveraged" and MAC "macroaveraged". 20 The designations a_, b_, C_ and dj_ give the respective
Werte der Tabelle aus Fig.2 beschränkt auf die Klasse kj_ an.Values in the table from FIG. 2 are restricted to the class k j _.
In Fig.3 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen 25 Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner. A processor unit PRZE is shown in FIG. The processor unit PRZE comprises a processor CPU, a 25 SPE memory and an input / output interface IOS, which is used in different ways via an interface IFC: an output on a monitor MON and / or on a monitor is visible via a graphic interface PRT printer output. An entry is made with a mouse or MAS KEYBOARD. The processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS. Furthermore, additional components can be connected to the data bus BUS, for example additional memory, data storage (hard disk) or scanner.
Literaturverzeichnis :Bibliography :
[1] W097/38382, "Verfahren zur automatischen Klassifikation eines auf einem Dokument aufgebrachten Textes nach dessen Transformation in digitale Daten".[1] W097 / 38382, "Method for the automatic classification of text on a document after its transformation into digital data".
[2] http: //www.wior.uni-karlsruhe.de/Bibliothek/Software_for_ OR/Linear_Programming/pub/lp_solve/index .html, 28.09.1998 [2] http: //www.wior.uni-karlsruhe.de/Bibliothek/Software_for_ OR / Linear_Programming / pub / lp_solve / index .html, 28.09.1998

Claims

Patentansprüche claims
1. Verfahren zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen durch einen Rechner,1. Method for assigning an object to at least one class from a set of predetermined classes by a computer,
a) bei dem für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelt wird;a) in which for each class a membership measure of the object to the class is determined;
b) bei dem für jede Klasse aus der Menge der Klassen ein Schwellwert berechnet wird, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;b) in which a threshold value is calculated for each class from the set of classes by optimizing an evaluation measure under specified secondary conditions;
c) bei dem das Objekt einer Klasse aus der Menge vorgegebener Klassen zugeordnet wird, falls dasc) in which the object is assigned to a class from the set of predetermined classes, if that
Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt;Membership measure is above the threshold of the class;
d) bei dem das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zugeordnet wird, falls dasd) in which the object is not assigned to a class from the set of specified classes, if that
Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.Affiliation measure is below the threshold of the class.
2. Verfahren nach Anspruch 1, bei dem das Evaluierungsmaß von den Schwellwerten der Klassen abhängt.2. The method of claim 1, wherein the evaluation measure depends on the threshold values of the classes.
3. Verfahren nach Anspruch 1 oder 2, bei dem das Evaluierungsmaß eine der folgenden Spezifikationen umfaßt: a) Anzahl der Fehler; b) Erkennungsrate (Recall) ; c) Erkennungsrate eines Erkennungssystems (Precision) .3. The method of claim 1 or 2, wherein the evaluation measure comprises one of the following specifications: a) number of errors; b) recognition rate (recall); c) Detection rate of a detection system (precision).
4. Verfahren nach Anspruch 3, bei dem das Evaluierungsmaß mit einer Bedingung versehen wird, die mindestens einen vorgegebenen Wert für das Evaluierungsmaß erfordert.4. The method of claim 3, wherein the evaluation measure with a condition that requires at least one predetermined value for the evaluation measure.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine zusatzliche Nebenbedingungen angegeben wird, indem für alle Klassen ein Mindestwert eines zusätzlichen Evaluierungsmaßes vorgegeben wird.5. The method as claimed in one of the preceding claims, in which an additional constraint is specified by specifying a minimum value of an additional evaluation measure for all classes.
6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Nebenbedingungen derart formuliert werden, daß gilt:6. The method according to any one of the preceding claims, in which the secondary conditions are formulated such that the following applies:
kll + k12+- • -+klM = 1 k21 + k22+- --+k2M = 1 k ll + k 12 + - • - + k lM = 1 k 21 + k 22 + - - + k 2M = 1
kNl + kN2+- • -+kNM = 1 k Nl + k N2 + - • - + k NM = 1
wobei k_-j eine m das Evaluierungsmaß eingehende Ergebnis der Klasse kx bei Schwellwert T-j ,where k_- j is a result of the class k x in the evaluation measure at threshold value T- j ,
N die Anzahl der Klassen,N the number of classes,
M die Anzahl der Schwellwerte T-, bezeichnen und k_-, nur die Werte 0 oder 1 annehmen kann.M denotes the number of threshold values T-, and k_-, can only assume the values 0 or 1.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Evaluierungsmaß unter den Nebenbedingungen optimiert wird, indem ein lineares Gleichungssystem mittels eines LP-Solvers gelost wird.7. The method as claimed in one of the preceding claims, in which the evaluation measure is optimized under the secondary conditions by solving a linear system of equations by means of an LP solver.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Textklassifikation durchgeführt wird.8. The method according to any one of the preceding claims, in which a text classification is carried out.
9. Verfahren nach Anspruch 8, bei dem die Klassen bei der Textklassifikation Domänen sind. 9. The method of claim 8, wherein the classes in the text classification are domains.
10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für jede Klasse ein eigener optimaler Schwellwert bestimmt wird.10. The method according to any one of the preceding claims, in which a separate optimal threshold value is determined for each class.
11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem anhand der ermittelten Schwellwerte für die Klassen eine "microaveraged" Evaluierung optimiert wird.11. The method according to any one of the preceding claims, in which a "microaveraged" evaluation is optimized on the basis of the threshold values determined for the classes.
12. Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß12. Arrangement for assigning an object to at least one class from a set of predetermined classes, in which a processor unit is provided which is set up in such a way that
a) für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelbar ist;a) a measure of the object's belonging to the class can be determined for each class;
b) für jede Klasse aus der Menge der Klassen ein Schwellwert berechenbar ist, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;b) a threshold value can be calculated for each class from the set of classes by optimizing an evaluation measure under specified secondary conditions;
c) das Objekt einer Klasse aus der Menge vorgegebener Klassen zuordenbar ist, falls das Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt;c) the object can be assigned to a class from the set of predetermined classes if the membership measure lies above the threshold value of the class;
das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zuordenbar ist, falls das Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt. the object cannot be assigned to a class from the set of specified classes if the membership measure is below the threshold value of the class.
EP99955709A 1998-09-30 1999-09-14 Method and device for assigning an object to at least one class Withdrawn EP1118060A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19844948 1998-09-30
DE19844948 1998-09-30
PCT/DE1999/002929 WO2000019335A1 (en) 1998-09-30 1999-09-14 Method and device for assigning an object to at least one class

Publications (1)

Publication Number Publication Date
EP1118060A1 true EP1118060A1 (en) 2001-07-25

Family

ID=7882866

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99955709A Withdrawn EP1118060A1 (en) 1998-09-30 1999-09-14 Method and device for assigning an object to at least one class

Country Status (3)

Country Link
US (1) US20020007381A1 (en)
EP (1) EP1118060A1 (en)
WO (1) WO2000019335A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013034450A1 (en) 2011-09-08 2013-03-14 Continental Automotive Gmbh Fuel injector and fuel injector assembly

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) * 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299284A (en) * 1990-04-09 1994-03-29 Arizona Board Of Regents, Acting On Behalf Of Arizona State University Pattern classification using linear programming
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
US5765029A (en) * 1996-05-08 1998-06-09 Xerox Corporation Method and system for fuzzy image classification
US6246787B1 (en) * 1996-05-31 2001-06-12 Texas Instruments Incorporated System and method for knowledgebase generation and management
US6317509B1 (en) * 1998-02-11 2001-11-13 Analogic Corporation Computed tomography apparatus and method for classifying objects
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0019335A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013034450A1 (en) 2011-09-08 2013-03-14 Continental Automotive Gmbh Fuel injector and fuel injector assembly

Also Published As

Publication number Publication date
WO2000019335A1 (en) 2000-04-06
US20020007381A1 (en) 2002-01-17

Similar Documents

Publication Publication Date Title
EP3744068B1 (en) Method for automated composing of a phishing document addressed to a predetermined person
DE10342594B4 (en) Method and system for collecting data from a plurality of machine readable documents
EP1902407B1 (en) System for transmitting data from a document application to a data application
DE10317234A1 (en) Systems and methods for improved accuracy from extracted digital content
DE102019211656A1 (en) Determination of the degree of wear of a tool
DE2435889A1 (en) PROCEDURE AND DEVICE FOR DISTINCTIVE CHARACTER GROUPS
DE102016004233B4 (en) Numerical control apparatus for classifying and displaying a machining program recorded as a history
DE102018215590A1 (en) Semiconductor device sorting system and semiconductor device
CH712988A1 (en) A method of searching data to prevent data loss.
EP1118060A1 (en) Method and device for assigning an object to at least one class
DE102012025350A1 (en) Processing an electronic document
EP2601594A1 (en) Method and apparatus for automatically processing data in a cell format
DE102012210482A1 (en) Method and system for migrating business process instances
DE102019213061A1 (en) Classification of AI modules
DE10034629A1 (en) Combing optical character recognition, address block location for automatic postal sorting involves connecting both systems to enable all results from one to be passed to other for processing
DE102015012648A1 (en) Method for operating at least one vehicle system of a motor vehicle and motor vehicle
DE102011003156A1 (en) Map data, storage medium and navigation device
DE3128794A1 (en) Method for finding and delimiting letters and letter groups or words in text areas of an original which can also contain graphical and/or image areas apart from text areas
DE102020201383A1 (en) Support system, storage medium and method for representing relationships of elements
DE102019125077A1 (en) Procedure for failure analysis
DE102014116117A1 (en) Method and system for mining patterns in a data set
DE102009016588A1 (en) Method for determination of text information from portable document format documents, involves reading portable document format document, and analyzing structure of portable document format document
DE19635351C2 (en) Format conversion procedure
DE102009053585A1 (en) System for automatically creating task list from records in multiple documents of project discussion in construction industry, has CPU generating entry in database during determining code word or character string in code word format
DE102014016676A1 (en) Method for the computer-aided selection of applicants from a large number of applicants for a given requirement profile

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010117

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20030401