DE3789718T2 - Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren. - Google Patents

Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.

Info

Publication number
DE3789718T2
DE3789718T2 DE3789718T DE3789718T DE3789718T2 DE 3789718 T2 DE3789718 T2 DE 3789718T2 DE 3789718 T DE3789718 T DE 3789718T DE 3789718 T DE3789718 T DE 3789718T DE 3789718 T2 DE3789718 T2 DE 3789718T2
Authority
DE
Germany
Prior art keywords
node
feature
descendants
tree
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3789718T
Other languages
English (en)
Other versions
DE3789718D1 (de
Inventor
Jorma Johannes Rissanen
Mati Wax
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE3789718D1 publication Critical patent/DE3789718D1/de
Publication of DE3789718T2 publication Critical patent/DE3789718T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

  • Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.
  • Die vorliegende Erfindung bezieht auf die Konstruktion von Entscheidungsbäumen zur Klassifizierung von Objekten durch deren gemessene Merkmale, wie dies gewöhnlich bei Zeichen- und Bilderkennungssystemen angewendet werden.
  • Klassifizierungsprobleme treten in zahlreichen Bereichen auf, angefangen bei Technik und Medizin bis zu Physik, Chemie und Biologie. Bei den meisten Problemen übersteigt die Zahl der beobachteten Merkmale die Hunderte oder gar Tausende. Daraus ergibt sich, daß die Merkmale häufig Informationen enthalten, die entweder redundant oder irrelevant für die Klassifizierungsaufgabe sind.
  • Da der Klassifikator aus einer endlichen Übungsmenge besteht, die oft sehr klein ist, darf der Klassifikator nur auf den Merkmalen beruhen, deren Relevanz für die Klassifizierungsaufgabe eindeutig durch die Übungsmenge festgestellt wurde. Wenn weniger relevante Merkmale aufgenommen werden, besteht die Gefahr, daß der Klassifikator zu genau auf die Übungsmenge abgestimmt ist und seine Leistung bei den künftigen Daten daher drastisch eingeschränkt sein wird.
  • Darüber hinaus ist aus wirtschaftlichen und praktischen Gründen eine Mindestanzahl von relevanten Merkmalen auszuwählen, denn je kleiner die Zahl der ausgewählten Merkmale, desto weniger Messungen müssen vorgenommen, gespeichert und verarbeitet werden; dadurch wird das Klassifizierungsverfahren weniger kostspielig und kompliziert.
  • Die Problematik in bezug auf die Auswahl der besten Teilmenge von Merkmalen wurde bereits ausführlich untersucht (vgl. z. B. Kanal, L. (1974): "Patterns in Pattern Recognition", IEEE Trans. on Information Theory, Vol. 20, SS. 697-722). Es ist bekannt, daß für die Bestimmung einer optimalen Auswahlregel eine umfangreiche Suche durch alle möglichen Merkmalteilmengen durchgeführt werden maß. Eine direkte Suche oder selbst ausgefeilte Suchverfahren anhand von Verzweigungsverfahren, Narenda, P.M. und Fukunaga, K. (1977): "A Branch and Bound Algorithm for Feature Subset Selection", IEEE Trans. on Computers, Vol. 26, 55. 917-922, oder dynamisches Programmieren, Chang, C.Y. (1973): "Dynamic Programming as Applied to Subset Selection in Pattern Recognition Systems", IEEE Trans. on Systems, Man and Cybernetics, Vol. 3, SS. 166-171, übersteigen die Fähigkeiten heutiger Computer selbst bei einer geringen Zahl von Merkmalen. Aus diesem Grund wurden suboptimale Suchverfahren vorgeschlagen. Bei diesem Verfahren wird die beste Merkmalteilmenge sequentiell gebildet, indem die aktuelle Merkmalteilmenge immer nur durch ein Merkmal aktualisiert wird, bis ein gewähltes Kriterium minimiert wurde. Wird von einer leeren Menge ausgegangen, wird das Verfahren als "Bottom-up" bezeichnet. Wird dagegen von einer vollständigen Menge mit Merkmalen ausgegangen, wird das Verfahren als MToP down" bezeichnet. Es ist jedoch festzuhalten, daß die sequentielle Auswahl keine optimale Merkmalteilmenge garantieren kann, selbst wenn die Merkmale statistisch unabhängig sind; darauf haben auch schon Elashoff, J.D., Elashoff, R.M. und Goldman, G.E. (1967): "On the Choice of Variables in Classification Problems with Dichotomous Variables", Biometrika, Vol. 54, 55. 668-670; Toussaint, G.T. (1971): "Note on Optimal Selection of Independent Binary-Valued Features for Pattern Recognition"; IEEE Trans. on Information Theory, Vol 17, S. 617; sowie Cover, T.M. (1974): "The Best Two Independent Measurement Are Not the Two Best", IEEE Trans. on Systems, Man and Cybernetics, Vol. 4, 55. 116-117 verwiesen. Des weiteren haben Cover, T.M. und Van Campenhout, J.M.V. (1977): "On the Possible Ordering in the Measurement Selection Problem"; IEEE Trans. on Systems, Man and Cybernetics, Vol. 7, SS. 657-661 darauf hingewiesen, daß es theoretisch möglich ist, daß die suboptimale Methode sogar zur ungünstigsten Merkmalmenge führen kann. Solche Extremfälle sind jedoch sehr selten, und mit Hilfe sequentieller Vorgehensweisen werden gute Ergebnisse erzielt.
  • Eine sequentielle "Bottom-Up-Vorgehensweise", die zu einer sehr einfachen Klassifizierungsmethode führt, beruht auf einem Entscheidungsbaum. Bei dieser baumstrukturierten Klassifizierungsmethode wird eine Reihe von Tests durchgeführt, die von einem Pfad im Baum festgelegt werden, der an der Wurzel beginnt. Der an jedem Knoten eingeschlagene Weg hängt vom Ergebnis des an diesem Knoten durchgeführten Tests ab. Wenn ein Blattknoten erreicht wird, bekommt das Objekt die diesem Knoten zugeordnete Klasse zugewiesen.
  • Bei der Bildung eines baumstrukturierten Klassifikators stellen sich drei Probleme. Das erste Problem ist das Wachsen des Baums, d. h. die Auswahl der zum "Teilen" der Knoten verwendeten Merkmale. Das zweite Problem ist das Beschneiden des Baums, d. h. die Auswahl der Blattknoten des Baums. Das dritte und leichteste Problem ist die Auswahl des Klassen-Tag, das jedem Blattknoten zugeordnet wird.
  • Es gibt verschiedene Vorgehensweisen zur Bildung eines baumstrukturierten Klassifikators. Jede Vorgehensweise löst das letzte Problem auf gleiche Art und Weise: die Übungsmenge durchläuft den Baum und die Zahl der Muster jeder Klasse, die den Blattknoten erreichen, wird gezählt. Das dem Blattknoten zugewiesene Klassen-Tag ist das Tag mit der höchsten Zahl an diesem Knoten. Die ersten beiden Probleme, d. h. das Wachsen und Beschneiden des Baums, sind schwieriger zu lösen, da es keine eindeutige Lösungsmöglichkeit gibt. Das Wachsen wird gewöhnlich durch verschiedene Messungen wie beispielsweise der Entropie gelöst, vgl. Lewis, P.M. (1962): "The Characteristic Selection Problem in Recognition Systems", IRE Trans. on Information theory, Vol. 8, ". 171-178, und Casey, R.G. und Nagy, G. (1984): "Decision Tree Design Using Probabilistic Model", IEEE Trans. on Information Theory, Vol. 30, SS. 191-199, sowie Gini-Index, Breiman, L., Friedman, J.B., Olshen, R.A. und Stone, C. (1984): Classification and Regression Trees, Wadsworth, International Group, Belmont, CA, während das Beschneiden durch Auswertung des Klassifizierungsfehlers durchgeführt wird, vgl. Mabbet, A., Stone, M. und Washbrook, K. (1980): "Cross-Validatory Selection of Binary Variables in Differential Diagnosis", Appl. Statist., Vol. 29, SS. 198-204, sowie Breiman und al (s. o., 1984).
  • Bisher gibt es noch keine Methode, bei der sowohl Merkmale zum Wachsen eines Baums als auch Merkmale zum Beschneiden eines Baums festgelegt werden können. Es gibt daher zum Beschneiden eines Baums immer ein andere Kriterien als zum Wachsen eines Baums. Das Entropie-Verfahren wählt das Merkmal für einen Knoten aus, das die "Entropie" der an diesem Knoten gespeicherten Information minimiert. Das Entropie-Verfahren zeigt jedoch nicht an, wann das Beschneiden des Baums erforderlich ist.
  • Der Gini-Index versucht die Teilung zu finden, mit der die Wahrscheinlichkeit an den Knoten fast gleich wird. Es ist mehr oder weniger eine intuitive Angelegenheit, einen Baum ohne nachweisbaren Merkmale wachsen zu lassen. Darüber hinaus bietet der Gini-Index keine Kriterien zum Beschneiden des Baums.
  • Die bestehenden Beschneidungsverfahren bildeten mit Hilfe aller gemessenen Merkmale einen vollständigen Entscheidungsbaum, der durch Überprüfung jedes Knotens und Minimierung der Zahl der Klassifizierungsfehler zerlegt wurde, zu dem noch ein Fudge-Faktor kommt, der dem Problem subjektiv zugewiesen wurde, wobei die genannten Faktoren meist auf der Größe des Baums beruhten. Subjektiv zugewiesene Fudge-Faktoren sind von am Klassifizierungsproblem beteiligten Fachleuten auszuwählen, um gute Ergebnisse in den meisten Fällen zu erhalten.
  • Ein weiteres Problem bei diesem Beschneidungsverfahren besteht darin, daß vorausgesagte Auswertungen eines Klassifizierungsfehlers nicht aufgrund des Übungsmusters gemacht werden können, das zur Bildung des Baums benutzt wird. Zur Bestimmung vernünftiger Beschneidungseigenschaften muß daher ein neues Muster verwendet werden. Dies wurde bei den bisherigen Verfahren häufig dadurch erreicht, daß das Übungsmuster in zwei Teile aufgespalten wurde, einen ersten Teil zur Bildung des Baums und einen zweiten Teil zum Prüfen des Baums für das Beschneiden. Die bisherige Vorgehensweise ist daher teuer, da sich Fachleute der Auswahl von Fudge-Faktoren annehmen müssen und zahlreiches statistisches Material benötigt wird.
  • Die vorliegende Erfindung beschreibt ein einziges Kriterium, das auf den Merkmalen der Übungsmenge für das Wachsen und Beschneiden des Baums basiert. Mit dem Verfahren der Erfindung kann ein Klassifizierungsbaum objektiv wachsen gelassen und beschnitten werden, der auf einer Übungsmenge für ein beliebig vorhandenes Problem basiert, indem bei einem Aspekt eine Eigenschaft verwendet wird, die als Mindestbeschreibungslänge, oder bei einem anderen Aspekt als die betreffende vorausgesagte Mindestbeschreibungslänge definiert wird. Die Prinzipien der Mindestbeschreibungslänge und der vorausgesagten Mindestbeschreibungslänge sind genau bei Rissanen, J., "Minimum Description Length Principle", Encyclopaedia of Statistical Sciences, Vol V, S Kotz und N L Johnson, Herausgeber, (John Wiley and Sons, 1985, New York), SS. 523-527; sowie Risannen, J., "Stochastic Coinplexity and Modelling", IBM Research Report, No RJ 5002 (1986) beschrieben.
  • Die Erfindung ist laut Definition in den Ansprüchen als Verfahren zur Erkennung von Zeichen oder Bildern durch einen baumstrukturierten Klassifikator gekennzeichnet, bei dem gemessene Merkmale den Knoten des baumstrukturierten Klassifikators zugewiesen werden, und Blattknoten als Reaktion auf eine Objekt-übungsmenge bestimmt werden, wobei jedes Objekt durch zahlreiche Merkmale gekennzeichnet ist. Bei diesem Verfahren werden an jedem Baumknoten folgende Schritte durchgeführt:
  • (1) für jeden Knoten wird eine ausgewählte Eigenschaft bestimmt, die eine Kostenfunktion auf der Basis einer Mindestbeschreibungslänge ist und von N und NO berechnet wird, wobei N gleich der Anzahl von Elementen der diesen Knoten erreichenden Übungsmenge ist und NO gleich der Anzahl von Elementen der Knoten einer ausgewählten Klasse ist;
  • (2) das Bilden einer Menge von Abkömmlingen als Reaktion auf jedes Merkmal mindestens einer Teilmenge der zahlreichen an vorherigen Knoten nicht benutzten Merkmalen;
  • (3) für jeden in bezug auf das Merkmal gebildeten Abkömmling wird die gleiche Eigenschaft im Hinblick auf die Anzahl der den Abkömmling erreichenden Elemente bestimmt;
  • (4) das Bilden einer Kombination der Werte für die Kostenfunktion für sämtliche Abkömmlinge eines Knotens, die in bezug auf ein Merkmal gebildeten wurden;
  • (5) die Zuweisung eines Merkmals zu dem Knoten mit einem bevorzugten Wert für die Kombination im Zusammenhang mit anderen Merkmalen; und
  • (6) wenn einem Knoten ein Merkmal zugewiesen wurde, wird der Knoten als Reaktion auf einen Vergleich zwischen der Wertekombination für die Eigenschaften der Abkömmlinge und dem Wert für die Eigenschaft des Knoten als Blattknoten klassifiziert.
  • Die Erfindung wird nachfolgend anhand der Begleitzeichnungen noch genauer beschrieben.
  • Die Fig. 1A und 1B sind Fließdiagramme, die die Merkmalzuweisung und das Beschneidungsverfahren eines bevorzugten Ausführungsbeispiels der vorliegenden Erfindung zeigen;
  • Fig. 2 stellt die zusammengesetzte, digitalisierte Zeichenform des Buchstabens g dar, die zur Illustrierung der Erfindung verwendet wird, und
  • Fig. 3 ist ein Diagramm mit einem baumstrukturierten Klassifikator.
  • Das Verfahren für die Zuweisung von Merkmalen zu jedem Knoten eines Klassifizierungsbaums wird gemäß der vorliegenden Erfindung mit Bezug auf Fig. 1A beschrieben.
  • Der Algorithmus liest die Knoten eines unendlichen Binärbaums in folgender Reihenfolge: Zuerst die Wurzel, dann den linken Sohn, danach den rechten Sohn, anschließend den linken Sohn des linken Sohns, daraufhin den rechten Sohn des linken Sohns, usw.
  • Folgende Bezeichnungen werden beim bevorzugten Algorithmus verwendet:
  • NODE ist der aktuelle (Vater) Knoten;
  • N = Anzahl der Elemente, die diesen Knoten erreichen;
  • NO = Anzahl der Elemente der Knoten, deren Klasse 0 ist.
  • Eine ausgewählte Eigenschaft, die sogenannte Kostenfunktion, mit einem Wert C für ein Merkmal, das für das Aufteilen eines Knotens verwendet wird, kann durch die folgende Gleichung (1) auf der Basis der Mindestbeschreibungslänge für das Merkmal am Knoten definiert werden:
  • (1) C = N h (NO/N) + (½)log((2N*3)/(N(N-N0)),
  • N*3 ist die dritte Potenz von N, und
  • h(p) = - plogp - (1-p)log(1-p).
  • Der Merkmalzuweisungsalgorithmus wird als Wurzelknoten initialisiert. Die Schritte sind wie in Fig. 1A dargestellt nachfolgend aufgeführt.
  • 1. Das nächste den Knoten noch nicht zugewiesene Merkmal entlang des Pfades vom aktuellen Knoten zur Wurzel lesen und seinen Wert für sämtliche Elemente im Übungsmuster lesen (Block 101).
  • 2. Festlegen, ob zusätzliche Merkmale zu testen sind (Block 102). Falls keine vorhanden sind, zum nächsten Knoten im Baum gehen und zu Block 101 gehen (Block 103).
  • 3. NL und NR die Zahl der Elemente im Übungsmuster kennzeichnen lassen, deren Merkmalwert 0 (für links) bzw. 1 (für rechts) ist. CL und CR mit Hilfe der Gleichung (1) berechnen, wobei N und NO durch NL und NLO bzw. NR und NRO ersetzt werden, und die Summe von CL + CR (Block 104) ermitteln.
  • 4. Ist CL + CR die bisher kleinste gefundene Zahl (Block 105)?
  • 5. Wenn ja, NODE das aktuelle Merkmal zuweisen (Block 106). Zu Block 101 zurückgehen (Block 107).
  • 6. Wenn nicht, zu Block 101 zurückgehen (Block 107).
  • Der Beschneidungsalgorithmus für Knoten des Baums, denen ein Merkmal zugewiesen wurde, wird nachfolgend mit Bezug auf Fig. 1B beschrieben.
  • 1. C entsprechend der Gleichung (1) bestimmen (Block 201).
  • 2. Ist C > CL + CR (Block 202)?
  • 3. Wenn nicht, aus dem Knoten einen Blattknoten machen (beschneiden). Zu Block 205 gehen (Block 203).
  • 4. Wenn ja, zu Block 205 gehen (Block 204).
  • 5. Den nächsten Knoten auswählen. Zu Block 201 gehen (Block 205).
  • Die Kostenfunktion aus Gleichung (1) kann auch durch die Kostenfunktion aus folgender Gleichung (2) auf der Grundlage der vorausgesagten Mindestbeschreibungslänge für den Knoten ersetzt werden:
  • (2) C = log ((N+1)!/(N0!(N-N0)!)).
  • Da die Kosten C aus den Gleichungen (1) und (2) viel größer als die Kosten der den Knoten zugewiesenen Beschreibungsmerkmale sind, können die Merkmalkosten bei diesen Verfahren vernachlässigt werden.
  • Es gibt eine natürliche Kostenfunktion, C(xt+1, xt+1), das sogenannte Risiko, das als 0 definiert wird, wenn die Klassifizierung korrekt ist; z. B. wenn xt+1 = xt+1 und 1 andernfalls. Für das gesamte Übungsmuster ist das Risiko bei einem Entscheidungsbaum demnach die Zahl der gemachten Klassifizierungsfehler.
  • Technisch gesehen kann die Risikofunktion weiterhin als vorausgesagte Codelänge (vorausgesagte Mindestbeschreibungslänge) für eine bestimmte Verteilung oder als wahrer Voraussagefehler dargestellt werden, so daß der erste oben beschriebene Merkmalzuweisungsalgorithmus mit der Änderung Anwendung findet, daß die Kostenfunktion C nicht mehr mit einer Formel berechnet werden kann, sondern rekursiv bei jedem Knoten für jedes geprüfte Element im Übungsmuster, das diesen Knoten erreicht, ausgewertet werden muß. (So sollte vorzugsweise selbst die zweite der oben dargestellten Kostenfunktionen (Gleichung 2) mit den Faktoriellen ausgewertet werden). Der numerische Wert des Risikos ist allgemein wesentlich kleiner als die anderen Kostenfunktionen. Dadurch wird der Beschneidungsalgorithmus kompliziert, da die Kosten der Codierung der den Knoten zugewiesenen Merkmale selbst nicht mehr länger vernachlässigt werden kann, wie dies bei der vorherigen Kostenfunktion der Fall war. Nachfolgend wird daher ein neuer Algorithmus vorgestellt, der die Funktion des Wachstums und Beschneiden eines Baums gleichzeitig erfüllt.
  • Zuerst muß jedoch die Klassifizierungsregel xt+1(xt) beschrieben werden, bei der xt = x&sub1;, . . . die Folge der Klassen-Tags der vorherigen Elemente bezeichnet. Diese Regel wird als Majoritätsregel verwendet: xt+1(xt) = 0, wenn die Anzahl der 0 Tags in der vorherigen Folge, n&sub0;(xt), folgende Bedingung erfüllt: entweder n&sub0;(xt) > t/2 oder im Fall n&sub0;(xt) = t/2 wenn n&sub0;(xt) > t/2. Andernfalls ist xt+1(xt) = 1.
  • Bei jedem Knoten wird die rekursive Berechnung von Kosten als Funktion des Teiles von x des Übungsmusters beschrieben, das an diesem Knoten angekommen ist. Gesetzt den Fall das Merkmal f teilt x in die Unterzeichenkette w(f), dessen Merkmalwert z. B. "weiß" ist sowie in die verbleibende Unterzeichenkette b(f), deren Merkmalwert unter f "schwarz" ist, auf. Z bezeichnet das nächste Muster, das am Knoten ankommt. Der Merkmalwert f(z) ist abhängig von f entweder weiß oder schwarz. Im ersten Fall kann die Unterzeichenkette w(f) als "vorheriger" Verwandter von f bezeichnet werden, während im letzten Fall b(f) das vorherige Bild ist. Das vorherige Bild von z ist wichtig, da die Fehler, die zur Voraussage des vorherigen Bildes gemacht worden wären, dazu benutzt werden können, um festzustellen, wie gut z selbst vorausgesagt werden kann. C(w(f)) bzw. C(b(f)) soll das Risiko bezeichnen, das von der oben beschriebenen Klassifizierungsregel der Majoritätsvoraussage festgelegt wird, wenn das vorherige Bild von z vorausgesagt wird, und f* soll das Merkmal sein, das dieses Risiko minimiert. C*(xz) = c*(x), wenn die Voraussage der Klasse von z korrekt ist, sofern die Voraussage auf dem vorherigen Bild basiert, das durch das entscheidende Merkmal bestimmt wird. Andernfalls ist C*(xz) = C*(x) + 1.
  • Das dem Knoten zugeordnete Merkmal ist das letzte entscheidene Merkmal f*, wenn das gesamte Übungsmuster verarbeitet wurde.
  • Das Beschneiden erfolgt gemäß der folgenden Regel: den Baum am ersten Knoten entlang jedes Pfads von der Wurzel beschneiden, wo C*(X)_C(X). X bezieht sich hier auf den Teil des Übungsmusters, das den Knoten erreicht. Beide Risiken sind oben beschrieben. C(X) am Wurzelknoten ist das Risiko, das sich ergibt, wenn das Übungsmuster vorausgesagt wird, ohne daß ein Merkmal verwendet wird. An den anderen Knoten ist es das Risiko, das aus der Voraussage entsteht, wenn das beste
  • Merkmal f* beim Vater angewendet wird.
  • Nachfolgend werden einige experimentelle Ergebnisse beschrieben, die sich durch das Anwenden des Klassifizierungsverfahrens auf der Grundlage der oben beschriebenen Gleichung (1) an ein automatisches Eigenschaftserkennungsproblem ergeben haben. Es soll zwischen zwei verschiedenen Zeichenarten des Buchstabens g unterschieden werden. Die Übungsmenge besteht aus 40 abgetasteten Schwarz-Weiß-Bildern jeder Zeichenart, wobei jedes Bild sich aus 1536 Bildzellen (Pels) zusammensetzt. Fig. 2 zeigt eine Überlagerung von den 20 Bildern jeder Zeichenart. Die ganzen Zahlen weisen auf die relative Häufigkeit hin, daß ein bestimmtes Pel der 40 Übungsmuster dieser Zeichenart schwarz ist. Sterne weisen auf Stellungen, die in allen Mustern schwarz sind, während Leerstellen weiß entsprechen. Nullen stehen für relative Häufigkeiten im Bereich 0 bis 0.1.
  • Die Merkmalmenge für die Klassifizierungsaufgabe wurde als binärer Wertinhalt der einzelnen Pels definiert. Die Anwendung der Teilungs- und Beschneidungskriterien, die sich aus Gleichung (1) ergaben, führte zu dem in Fig. 3 gezeigten baumstrukturierten Klassifikator. Die Zahl unter den unteren Knoten, die durch einen Kreis gekennzeichnet ist, geben an, welches Pel das zugewiesene Merkmal ist, das am Knoten zu prüfen ist. Die Zahl unter den Blattknoten, die durch ein Rechteck gekennzeichnet ist, gibt das Klassen-Tag an, das dem Blattknoten zugewiesen ist. Die Zahlen in den Knoten geben die Zahl der Übungsmuster an, die den Knoten von jeder der beiden Klassen erreicht haben, wobei der obere Wert für Klasse 1 und der untere Wert für Klasse 2 steht.
  • Die Anwendung dieses Baums zur Klassifizierung einer neuen Menge von 40 Zeichen, 20 von jeder Zeichenart, führt zu einer Fehlerrate von 6,25 Prozent, die angesichts der hohen Veränderlichkeit der Muster relativ niedrig ist.
  • Die vorliegende Erfindung eröffnet neue Wege zur Bildung von baumstrukturierten Klassifikatoren. Anders als die bestehenden Techniken, wo die Knotenteilungs- und Beschneidungsregeln mehr oder weniger ad hoc abgeleitet werden, ergeben sich die Regeln entsprechend dem bevorzugten Ausführungsbeispiel der Erfindung von der Anwendung des intuitiv ansprechenden MDL-Prinzips der Mindestbeschreibungslänge. Auf der Grundlage dieses Verfahrens wird der Klassifizierungsbaum als Modell angesehen, bei dem die Zahl der Parameter mit der Zahl der Knoten wächst. Wenn dieses Modell zur "Erklärung" der richtigen Merkmale in der Übungsmenge verwendet wird, die durch das Codieren der Daten formalisiert sind, ist die Komplexität des Modells mit einzubeziehen. Dies führt zu dem einfachen Knotenkriterium: die Gesamtcodelänge, die zur Beschreibung der Klassen-Tags an einem Knoten benötigt wird, mit einem Knoten mit der kürzest kombinierten Codelänge der Sohn-Knoten vergleichen. Wenn dieser Code kleiner ist, den Baum am Knoten beschneiden; andernfalls den Baum teilen.
  • Das neue Beschneidungsverfahren ist rechnerisch einfacher als das Quergültigkeits-Beschneidungsverfahren von Mabbet und al (s. o. 1980) sowie Brieman und al (s. o. 1984). Selbst wenn das Beschneiden erst nach dem Anwachsen des Baums auf seine maximale Größe durchgeführt werden soll, um über Voraussagen zu verfügen, ist das Verfahren in konzeptueller und rechnerischer Hinsicht immer noch einfacher. Es muß dabei nur die Codelänge eines internen Knotens mit der Summe der Codelängen der Blattknoten verglichen werden; wenn diese kleiner ist, wird der Baum an diesem Knoten beschnitten. Der Vergleich kann mit Hilfe der Postorder-Datenstruktur erfolgreich durchgeführt werden, bei der die Unterbäume eines Knotens vor dem Knoten selbst untersucht werden.
  • Die Erweiterung der Teilungs- und Beschneidungskriterien auf den Fall mit zahlreichen Klassen ist einfach. Wenn die Zahl der Klassen jedoch groß ist, wird die bei Brieman und al (s. o. 1984) beschriebene "Twoing"-Methode zumindest für den oberen Teil des Baums verwendet, da diese sich effizient implementieren läßt. An jedem Knoten findet dieses Verfahren die beiden Superklassen, die in gewisser Hinsicht sehr unähnlich sind, sowie die beste Teilung entsprechend der beiden Superklassen. Das Zusammenfügen von Klassen in Superklassen ist im Hinblick auf das MDL-Prinzip durchaus gerechtfertigt. Die Codelänge der Parameter wächst linear mit der Zahl der Klassen, während die Codelänge der Daten nicht unbedingt in diesem Maß abnimmt. Die Gesamtcodelänge scheint daher minimiert zu werden, wenn die Klassen zu Superklassen zusammengefügt werden. Das MDL-Prinzip kann sogar verwendet werden, um die besten Superklassen zu finden.

Claims (6)

1. Ein Verfahren zur Erkennung von Zeichen oder Bildern durch die Verwendung eines baumstrukturierten Klassifikators, bei dem gemessene Merkmale Knoten des baumstrukturierten Klassifikators zugewiesen werden, und Blattknoten als Reaktion auf eine Übungsmenge von Objekten bestimmt werden, wobei jedes Objekt durch zahlreiche Merkmale gekennzeichnet ist, und das Verfahren bei jedem Knoten folgende Schritte umfaßt:
für jeden Knoten wird eine ausgewählte Eigenschaft, eine Kostenfunktion, auf der Grundlage einer Mindestbeschreibungslänge festgelegt und von N und NO berechnet, wobei N gleich der Zahl von Elementen der Übungsmenge ist, die diesen Knoten erreicht, und NO gleich der Zahl von Elementen der Knoten einer ausgewählten Klasse ist;
eine Menge von Abkömmlingen wird als Reaktion auf jedes Merkmal von mindestens einer Teilmenge zahlreicher an vorherigen Knoten unbenutzter Merkmalen gebildet;
für jeden Abkömmling, der in bezug auf ein Merkmal gebildet wurde, wird die Eigenschaft im Hinblick auf die Zahlen der Elemente bestimmt, die den Abkömmling erreichen;
eine Kombination der Werte für die Kostenfunktion für alle Abkömmlinge des Knotens, die in bezug auf das Merkmal gebildet wurden, wird erzeugt;
ein Merkmal wird dem Knoten mit dem bevorzugten Wert für die Kombination in bezug aufandere Merkmale zugewiesen; und
wenn ein Merkmal einem Knoten zugewiesen wurde, wird der Knoten als Reaktion auf einen Vergleich zwischen der Wertekombination für die Eigenschaften der Abkömmlinge und dem Wert für die Eigenschaft des Knotens als Blattknoten klassifiziert.
2. Das Verfahren nach Anspruch 1, bei dem die ausgewählte Eigenschaft eine Kostenfunktion C umfaßt, die folgendermaßen definiert ist:
C = N h(NO/N) + (½)log((2N*3)/(N(N-N0))),
wobei N*3 die dritte Potenz von N ist, und
h(p) = -plogp - (1-p)log(1-p), wobei p gleich N0/N ist.
3. Das Verfahren nach Anspruch 1, bei dem die ausgewählte Eigenschaft eine Kostenfunktion auf der Grundlage einer vorausgesagten Mindestbeschreibungslänge ist.
4. Das Verfahren nach Anspruch 3, bei dem die ausgewählte Eigenschaft eine Kostenfunktion C ist, die folgendermaßen definiert wird:
C = log ((N+1) 1/(NO! (N-NO)!)),
wobei '!' die faktorielle Operation anzeigt.
5. Das Verfahren nach den Ansprüchen 1 und 3 mit folgenden Schritten bei jedem Knoten:
die Bildung von Abkömmlingen als Reaktion auf jedes Merkmal mindestens einer Teilmenge zahlreicher an vorherigen Knoten unbenutzter Merkmale;
die Bestimmung eines Voraussagefehlers für jeden Abkömmling;
die Erzeugung einer Summe des Voraussagefehlers für sämtliche Abkömmlinge für den Knoten im Hinblick auf ein Merkmal;
die Zuweisung eines Merkmals zu dem Knoten mit einer kleinen Summe des Voraussagefehlers in bezug zu den anderen Merkmalen;
die Bestimmung des Voraussagefehlers des Knotens; und
die Klassifizierung des Knoten als Blattknoten, wenn die Summe des Voraussagefehlers für sämtliche Abkömmlinge größer als der Voraussagefehler des Knotens ist.
6. Das Verfahren nach Anspruch 1 mit folgenden Schritte bei jedem Knoten:
die Bildung von Abkömmlingen als Reaktion auf jedes Merkmal von mindestens einer Teilmenge zahlreicher an vorherigen Knoten unbenutzter Merkmale;
die Bestimmung einer Mindestbeschreibungslänge für jeden Abkömmling;
die Erzeugung einer Summe der Mindestbeschreibungslänge für sämtliche Abkömmlinge des Knotens in bezug auf ein Merkmal;
die Zuweisung eines Merkmals zum Knoten mit einer kleinen Summe der Mindestbeschreibungslänge in bezug auf die anderen Merkmale;
die Bestimmung der Mindestbeschreibungslänge des Knotens; und
die Klassifizierung des Knotens als Blattknoten, wenn die Summe der Mindestbeschreibungslängen aller Abkömmlinge größer als die Mindestbeschreibungslänge des Knotens ist.
DE3789718T 1986-03-05 1987-02-05 Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren. Expired - Fee Related DE3789718T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/836,677 US4719571A (en) 1986-03-05 1986-03-05 Algorithm for constructing tree structured classifiers

Publications (2)

Publication Number Publication Date
DE3789718D1 DE3789718D1 (de) 1994-06-09
DE3789718T2 true DE3789718T2 (de) 1994-11-10

Family

ID=25272473

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3789718T Expired - Fee Related DE3789718T2 (de) 1986-03-05 1987-02-05 Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.

Country Status (5)

Country Link
US (1) US4719571A (de)
EP (1) EP0235608B1 (de)
JP (1) JPS62208182A (de)
CA (1) CA1266527A (de)
DE (1) DE3789718T2 (de)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5010478A (en) * 1986-04-11 1991-04-23 Deran Roger L Entity-attribute value database system with inverse attribute for selectively relating two different entities
JP2748936B2 (ja) * 1988-02-29 1998-05-13 富士通株式会社 文字認識方式
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5537593A (en) * 1990-02-12 1996-07-16 Fmc Corporation Method for solving enumerative search problems using message passing on parallel computers
EP0480115A1 (de) * 1990-10-09 1992-04-15 International Business Machines Corporation Verfahren zur Datenkomprimierung und Datenkodierung und Einrichtung zur Durchführung dieses Verfahrens
US5187786A (en) * 1991-04-05 1993-02-16 Sun Microsystems, Inc. Method for apparatus for implementing a class hierarchy of objects in a hierarchical file system
US5325466A (en) * 1992-05-07 1994-06-28 Perceptive Decision Systems, Inc. System for extracting knowledge of typicality and exceptionality from a database of case records
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
US5732271A (en) * 1995-01-23 1998-03-24 International Business Machines Corporation Data processing system and method for processing an object oriented development environment employing property inheritance using prototypical objects
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
US5745893A (en) * 1995-11-30 1998-04-28 Electronic Data Systems Corporation Process and system for arrangement of documents
DE19613342A1 (de) * 1996-04-03 1997-10-09 Philips Patentverwaltung Automatisches Bildauswertungsverfahren
US5799311A (en) * 1996-05-08 1998-08-25 International Business Machines Corporation Method and system for generating a decision-tree classifier independent of system memory size
US6480194B1 (en) * 1996-11-12 2002-11-12 Silicon Graphics, Inc. Computer-related method, system, and program product for controlling data visualization in external dimension(s)
US6373483B1 (en) 1997-01-13 2002-04-16 Silicon Graphics, Inc. Method, system and computer program product for visually approximating scattered data using color to represent values of a categorical variable
US6182058B1 (en) 1997-02-28 2001-01-30 Silicon Graphics, Inc. Bayes rule based and decision tree hybrid classifier
US6278464B1 (en) 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
US6137499A (en) * 1997-03-07 2000-10-24 Silicon Graphics, Inc. Method, system, and computer program product for visualizing data using partial hierarchies
US5960435A (en) * 1997-03-11 1999-09-28 Silicon Graphics, Inc. Method, system, and computer program product for computing histogram aggregations
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US5930803A (en) * 1997-04-30 1999-07-27 Silicon Graphics, Inc. Method, system, and computer program product for visualizing an evidence classifier
US5940821A (en) * 1997-05-21 1999-08-17 Oracle Corporation Information presentation in a knowledge base search and retrieval system
US6026399A (en) * 1997-05-30 2000-02-15 Silicon Graphics, Inc. System and method for selection of important attributes
US5966140A (en) * 1997-06-20 1999-10-12 Microsoft Corporation Method for creating progressive simplicial complexes
US6094651A (en) * 1997-08-22 2000-07-25 International Business Machines Corporation Discovery-driven exploration of OLAP data cubes
US6247016B1 (en) * 1998-08-24 2001-06-12 Lucent Technologies, Inc. Decision tree classifier with integrated building and pruning phases
US6301579B1 (en) 1998-10-20 2001-10-09 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a data structure
US6460049B1 (en) 1998-12-22 2002-10-01 Silicon Graphics, Inc. Method system and computer program product for visualizing an evidence classifier
US6721759B1 (en) * 1998-12-24 2004-04-13 Sony Corporation Techniques for spatial representation of data and browsing based on similarity
US6456993B1 (en) * 1999-02-09 2002-09-24 At&T Corp. Alternating tree-based classifiers and methods for learning them
US6351561B1 (en) * 1999-03-26 2002-02-26 International Business Machines Corporation Generating decision-tree classifiers with oblique hyperplanes
CA2307404A1 (en) * 2000-05-02 2001-11-02 Provenance Systems Inc. Computer readable electronic records automated classification system
DE10036712A1 (de) * 2000-07-27 2002-02-28 Active Mining Ag Verfahren zur Bewertung von mit charakteristischen Merkmalen behafteten Prozessen
US7016887B2 (en) 2001-01-03 2006-03-21 Accelrys Software Inc. Methods and systems of classifying multiple properties simultaneously using a decision tree
US7424409B2 (en) * 2001-02-20 2008-09-09 Context-Based 4 Casting (C-B4) Ltd. Stochastic modeling of time distributed sequences
US20020129342A1 (en) * 2001-03-07 2002-09-12 David Kil Data mining apparatus and method with user interface based ground-truth tool and user algorithms
US6910026B2 (en) * 2001-08-27 2005-06-21 Verity, Inc. Method and apparatus for determining classifier features with minimal supervision
US6763354B2 (en) 2002-05-10 2004-07-13 Agentarts, Inc. Mining emergent weighted association rules utilizing backlinking reinforcement analysis
WO2004016066A2 (fr) * 2002-08-13 2004-02-26 Highdeal Editeur et procede d'edition de formules de calcul du prix d'un service et systeme de valorisation automatique d'un service
US7730039B2 (en) 2002-12-27 2010-06-01 Honda Motor Co., Ltd. Enhanced trade compliance system: advanced shipment notice
US7389286B2 (en) * 2002-12-27 2008-06-17 Honda Motor Co., Ltd. Enhanced trade compliance system: audit processing, payment balancing process and amendment processing
US7844511B2 (en) * 2002-12-27 2010-11-30 Honda Motor Co., Ltd. Enhanced trade compliance system: audit processing, payment balancing and amendment processing
US7792863B2 (en) * 2002-12-27 2010-09-07 Honda Motor Co., Ltd. Harmonized tariff schedule classification using decision tree database
US20040199484A1 (en) * 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
US20050123526A1 (en) * 2003-12-01 2005-06-09 Medtronic Inc. Administration of growth factors for neurogenesis and gliagenesis
US9268780B2 (en) 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US7694523B2 (en) * 2004-07-19 2010-04-13 Earthrenew, Inc. Control system for gas turbine in material treatment unit
US20060034722A1 (en) * 2004-08-10 2006-02-16 Pan-Ting Hsueh Sintered porous frame and its producing method
US20060074826A1 (en) * 2004-09-14 2006-04-06 Heumann John M Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
US8275726B2 (en) * 2009-01-16 2012-09-25 Microsoft Corporation Object classification using taxonomies
US20100185672A1 (en) * 2009-01-21 2010-07-22 Rising Iii Hawley K Techniques for spatial representation of data and browsing based on similarity

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4613946A (en) * 1984-06-07 1986-09-23 Forman Ernest H Method and apparatus for generating hierarchical displays

Also Published As

Publication number Publication date
EP0235608A2 (de) 1987-09-09
EP0235608A3 (en) 1990-10-31
CA1266527A (en) 1990-03-06
JPS62208182A (ja) 1987-09-12
US4719571A (en) 1988-01-12
EP0235608B1 (de) 1994-05-04
DE3789718D1 (de) 1994-06-09

Similar Documents

Publication Publication Date Title
DE3789718T2 (de) Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.
DE3685671T2 (de) Aufzeichnungs- und wiederauffindungsverfahren fuer chemische strukturdaten.
DE3650446T2 (de) Paralleler, adaptiver, nichtlinearer Musterklassentrenner und -erkenner in mehreren Einheiten.
DE3851867T2 (de) Zeichenerkennungsgerät.
DE3486272T2 (de) Verfahren und Anlage zur auf der Häufigkeit des Vorkommens der Zeichen gegründeten Zeichenerkennung.
DE68908910T2 (de) Paralleles, mehrere Einheiten umfassendes, anpassungsfähiges Musterklassifizierungssystem, das Korrelationen zwischen den Einheiten und eine Klassentrennungsmethodologie innerhalb der Einheiten benutzt.
DE69327716T2 (de) System und verfahren, um wissen über das typische und aussergewöhnliche aus einer datenbank von vorfallsdaten herauszusuchen.
DE69131687T2 (de) Verfahren zur Ressourcenverteilung und -planung, und System dafür
DE69126555T2 (de) Verfahren zur Klassifikation in einem hierarchisierten neuronalen Netzwerk
DE68926849T2 (de) Struktur und Verfahren zur Anordnung rekursiv abgeleiteter Daten in einer Datenbank
DE69031772T2 (de) Verfahren zur Informations-Wiedergewinnung für ein Datenbanksystem
DE60118973T2 (de) Verfahren zum abfragen einer struktur komprimierter daten
DE3911465C2 (de) Verfahren zur automatischen Konfiguration technischer Systeme aus Komponenten
DE69607460T2 (de) Neuronales netzwerk
DE3416939A1 (de) Verfahren zur steuerung von betriebseinrichtungen
DE69430572T2 (de) System und verfahren zur parametrischen geometrischen modellierung
DE3103592A1 (de) Verfahren und vorrichtung zur zeichenidentifizierung
DE69404143T2 (de) Erkennungssystem und erkennungsmethode
DE68925312T2 (de) Verfahren zur Pixelfarbenwahrscheinlichkeitsbestimmung zur Verwendung in OCR-Logik
DE69126720T2 (de) Schnelle Bestimmung von Unterzusammenhängen in einer Erbhierarchie
DE69802372T2 (de) Klassifizierungssystem und -verfahren mit N-Tuple- oder RAM-basiertem neuronalem Netzwerk
DE19549300C1 (de) Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
DE60007333T2 (de) Trainierbares, anpassungfähiges fokussiertes replikatornetzwerk zur datenanalyse
LU503356B1 (de) Ein kollaboratives akademisches Frühwarnverfahren zwischen Mensch und Maschine
EP0220467B1 (de) Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentmustern in einem Automat

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee