DE3789718T2 - Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren. - Google Patents
Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.Info
- Publication number
- DE3789718T2 DE3789718T2 DE3789718T DE3789718T DE3789718T2 DE 3789718 T2 DE3789718 T2 DE 3789718T2 DE 3789718 T DE3789718 T DE 3789718T DE 3789718 T DE3789718 T DE 3789718T DE 3789718 T2 DE3789718 T2 DE 3789718T2
- Authority
- DE
- Germany
- Prior art keywords
- node
- feature
- descendants
- tree
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000010276 construction Methods 0.000 title description 2
- 238000012549 training Methods 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000013138 pruning Methods 0.000 description 23
- 238000013459 approach Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Description
- Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.
- Die vorliegende Erfindung bezieht auf die Konstruktion von Entscheidungsbäumen zur Klassifizierung von Objekten durch deren gemessene Merkmale, wie dies gewöhnlich bei Zeichen- und Bilderkennungssystemen angewendet werden.
- Klassifizierungsprobleme treten in zahlreichen Bereichen auf, angefangen bei Technik und Medizin bis zu Physik, Chemie und Biologie. Bei den meisten Problemen übersteigt die Zahl der beobachteten Merkmale die Hunderte oder gar Tausende. Daraus ergibt sich, daß die Merkmale häufig Informationen enthalten, die entweder redundant oder irrelevant für die Klassifizierungsaufgabe sind.
- Da der Klassifikator aus einer endlichen Übungsmenge besteht, die oft sehr klein ist, darf der Klassifikator nur auf den Merkmalen beruhen, deren Relevanz für die Klassifizierungsaufgabe eindeutig durch die Übungsmenge festgestellt wurde. Wenn weniger relevante Merkmale aufgenommen werden, besteht die Gefahr, daß der Klassifikator zu genau auf die Übungsmenge abgestimmt ist und seine Leistung bei den künftigen Daten daher drastisch eingeschränkt sein wird.
- Darüber hinaus ist aus wirtschaftlichen und praktischen Gründen eine Mindestanzahl von relevanten Merkmalen auszuwählen, denn je kleiner die Zahl der ausgewählten Merkmale, desto weniger Messungen müssen vorgenommen, gespeichert und verarbeitet werden; dadurch wird das Klassifizierungsverfahren weniger kostspielig und kompliziert.
- Die Problematik in bezug auf die Auswahl der besten Teilmenge von Merkmalen wurde bereits ausführlich untersucht (vgl. z. B. Kanal, L. (1974): "Patterns in Pattern Recognition", IEEE Trans. on Information Theory, Vol. 20, SS. 697-722). Es ist bekannt, daß für die Bestimmung einer optimalen Auswahlregel eine umfangreiche Suche durch alle möglichen Merkmalteilmengen durchgeführt werden maß. Eine direkte Suche oder selbst ausgefeilte Suchverfahren anhand von Verzweigungsverfahren, Narenda, P.M. und Fukunaga, K. (1977): "A Branch and Bound Algorithm for Feature Subset Selection", IEEE Trans. on Computers, Vol. 26, 55. 917-922, oder dynamisches Programmieren, Chang, C.Y. (1973): "Dynamic Programming as Applied to Subset Selection in Pattern Recognition Systems", IEEE Trans. on Systems, Man and Cybernetics, Vol. 3, SS. 166-171, übersteigen die Fähigkeiten heutiger Computer selbst bei einer geringen Zahl von Merkmalen. Aus diesem Grund wurden suboptimale Suchverfahren vorgeschlagen. Bei diesem Verfahren wird die beste Merkmalteilmenge sequentiell gebildet, indem die aktuelle Merkmalteilmenge immer nur durch ein Merkmal aktualisiert wird, bis ein gewähltes Kriterium minimiert wurde. Wird von einer leeren Menge ausgegangen, wird das Verfahren als "Bottom-up" bezeichnet. Wird dagegen von einer vollständigen Menge mit Merkmalen ausgegangen, wird das Verfahren als MToP down" bezeichnet. Es ist jedoch festzuhalten, daß die sequentielle Auswahl keine optimale Merkmalteilmenge garantieren kann, selbst wenn die Merkmale statistisch unabhängig sind; darauf haben auch schon Elashoff, J.D., Elashoff, R.M. und Goldman, G.E. (1967): "On the Choice of Variables in Classification Problems with Dichotomous Variables", Biometrika, Vol. 54, 55. 668-670; Toussaint, G.T. (1971): "Note on Optimal Selection of Independent Binary-Valued Features for Pattern Recognition"; IEEE Trans. on Information Theory, Vol 17, S. 617; sowie Cover, T.M. (1974): "The Best Two Independent Measurement Are Not the Two Best", IEEE Trans. on Systems, Man and Cybernetics, Vol. 4, 55. 116-117 verwiesen. Des weiteren haben Cover, T.M. und Van Campenhout, J.M.V. (1977): "On the Possible Ordering in the Measurement Selection Problem"; IEEE Trans. on Systems, Man and Cybernetics, Vol. 7, SS. 657-661 darauf hingewiesen, daß es theoretisch möglich ist, daß die suboptimale Methode sogar zur ungünstigsten Merkmalmenge führen kann. Solche Extremfälle sind jedoch sehr selten, und mit Hilfe sequentieller Vorgehensweisen werden gute Ergebnisse erzielt.
- Eine sequentielle "Bottom-Up-Vorgehensweise", die zu einer sehr einfachen Klassifizierungsmethode führt, beruht auf einem Entscheidungsbaum. Bei dieser baumstrukturierten Klassifizierungsmethode wird eine Reihe von Tests durchgeführt, die von einem Pfad im Baum festgelegt werden, der an der Wurzel beginnt. Der an jedem Knoten eingeschlagene Weg hängt vom Ergebnis des an diesem Knoten durchgeführten Tests ab. Wenn ein Blattknoten erreicht wird, bekommt das Objekt die diesem Knoten zugeordnete Klasse zugewiesen.
- Bei der Bildung eines baumstrukturierten Klassifikators stellen sich drei Probleme. Das erste Problem ist das Wachsen des Baums, d. h. die Auswahl der zum "Teilen" der Knoten verwendeten Merkmale. Das zweite Problem ist das Beschneiden des Baums, d. h. die Auswahl der Blattknoten des Baums. Das dritte und leichteste Problem ist die Auswahl des Klassen-Tag, das jedem Blattknoten zugeordnet wird.
- Es gibt verschiedene Vorgehensweisen zur Bildung eines baumstrukturierten Klassifikators. Jede Vorgehensweise löst das letzte Problem auf gleiche Art und Weise: die Übungsmenge durchläuft den Baum und die Zahl der Muster jeder Klasse, die den Blattknoten erreichen, wird gezählt. Das dem Blattknoten zugewiesene Klassen-Tag ist das Tag mit der höchsten Zahl an diesem Knoten. Die ersten beiden Probleme, d. h. das Wachsen und Beschneiden des Baums, sind schwieriger zu lösen, da es keine eindeutige Lösungsmöglichkeit gibt. Das Wachsen wird gewöhnlich durch verschiedene Messungen wie beispielsweise der Entropie gelöst, vgl. Lewis, P.M. (1962): "The Characteristic Selection Problem in Recognition Systems", IRE Trans. on Information theory, Vol. 8, ". 171-178, und Casey, R.G. und Nagy, G. (1984): "Decision Tree Design Using Probabilistic Model", IEEE Trans. on Information Theory, Vol. 30, SS. 191-199, sowie Gini-Index, Breiman, L., Friedman, J.B., Olshen, R.A. und Stone, C. (1984): Classification and Regression Trees, Wadsworth, International Group, Belmont, CA, während das Beschneiden durch Auswertung des Klassifizierungsfehlers durchgeführt wird, vgl. Mabbet, A., Stone, M. und Washbrook, K. (1980): "Cross-Validatory Selection of Binary Variables in Differential Diagnosis", Appl. Statist., Vol. 29, SS. 198-204, sowie Breiman und al (s. o., 1984).
- Bisher gibt es noch keine Methode, bei der sowohl Merkmale zum Wachsen eines Baums als auch Merkmale zum Beschneiden eines Baums festgelegt werden können. Es gibt daher zum Beschneiden eines Baums immer ein andere Kriterien als zum Wachsen eines Baums. Das Entropie-Verfahren wählt das Merkmal für einen Knoten aus, das die "Entropie" der an diesem Knoten gespeicherten Information minimiert. Das Entropie-Verfahren zeigt jedoch nicht an, wann das Beschneiden des Baums erforderlich ist.
- Der Gini-Index versucht die Teilung zu finden, mit der die Wahrscheinlichkeit an den Knoten fast gleich wird. Es ist mehr oder weniger eine intuitive Angelegenheit, einen Baum ohne nachweisbaren Merkmale wachsen zu lassen. Darüber hinaus bietet der Gini-Index keine Kriterien zum Beschneiden des Baums.
- Die bestehenden Beschneidungsverfahren bildeten mit Hilfe aller gemessenen Merkmale einen vollständigen Entscheidungsbaum, der durch Überprüfung jedes Knotens und Minimierung der Zahl der Klassifizierungsfehler zerlegt wurde, zu dem noch ein Fudge-Faktor kommt, der dem Problem subjektiv zugewiesen wurde, wobei die genannten Faktoren meist auf der Größe des Baums beruhten. Subjektiv zugewiesene Fudge-Faktoren sind von am Klassifizierungsproblem beteiligten Fachleuten auszuwählen, um gute Ergebnisse in den meisten Fällen zu erhalten.
- Ein weiteres Problem bei diesem Beschneidungsverfahren besteht darin, daß vorausgesagte Auswertungen eines Klassifizierungsfehlers nicht aufgrund des Übungsmusters gemacht werden können, das zur Bildung des Baums benutzt wird. Zur Bestimmung vernünftiger Beschneidungseigenschaften muß daher ein neues Muster verwendet werden. Dies wurde bei den bisherigen Verfahren häufig dadurch erreicht, daß das Übungsmuster in zwei Teile aufgespalten wurde, einen ersten Teil zur Bildung des Baums und einen zweiten Teil zum Prüfen des Baums für das Beschneiden. Die bisherige Vorgehensweise ist daher teuer, da sich Fachleute der Auswahl von Fudge-Faktoren annehmen müssen und zahlreiches statistisches Material benötigt wird.
- Die vorliegende Erfindung beschreibt ein einziges Kriterium, das auf den Merkmalen der Übungsmenge für das Wachsen und Beschneiden des Baums basiert. Mit dem Verfahren der Erfindung kann ein Klassifizierungsbaum objektiv wachsen gelassen und beschnitten werden, der auf einer Übungsmenge für ein beliebig vorhandenes Problem basiert, indem bei einem Aspekt eine Eigenschaft verwendet wird, die als Mindestbeschreibungslänge, oder bei einem anderen Aspekt als die betreffende vorausgesagte Mindestbeschreibungslänge definiert wird. Die Prinzipien der Mindestbeschreibungslänge und der vorausgesagten Mindestbeschreibungslänge sind genau bei Rissanen, J., "Minimum Description Length Principle", Encyclopaedia of Statistical Sciences, Vol V, S Kotz und N L Johnson, Herausgeber, (John Wiley and Sons, 1985, New York), SS. 523-527; sowie Risannen, J., "Stochastic Coinplexity and Modelling", IBM Research Report, No RJ 5002 (1986) beschrieben.
- Die Erfindung ist laut Definition in den Ansprüchen als Verfahren zur Erkennung von Zeichen oder Bildern durch einen baumstrukturierten Klassifikator gekennzeichnet, bei dem gemessene Merkmale den Knoten des baumstrukturierten Klassifikators zugewiesen werden, und Blattknoten als Reaktion auf eine Objekt-übungsmenge bestimmt werden, wobei jedes Objekt durch zahlreiche Merkmale gekennzeichnet ist. Bei diesem Verfahren werden an jedem Baumknoten folgende Schritte durchgeführt:
- (1) für jeden Knoten wird eine ausgewählte Eigenschaft bestimmt, die eine Kostenfunktion auf der Basis einer Mindestbeschreibungslänge ist und von N und NO berechnet wird, wobei N gleich der Anzahl von Elementen der diesen Knoten erreichenden Übungsmenge ist und NO gleich der Anzahl von Elementen der Knoten einer ausgewählten Klasse ist;
- (2) das Bilden einer Menge von Abkömmlingen als Reaktion auf jedes Merkmal mindestens einer Teilmenge der zahlreichen an vorherigen Knoten nicht benutzten Merkmalen;
- (3) für jeden in bezug auf das Merkmal gebildeten Abkömmling wird die gleiche Eigenschaft im Hinblick auf die Anzahl der den Abkömmling erreichenden Elemente bestimmt;
- (4) das Bilden einer Kombination der Werte für die Kostenfunktion für sämtliche Abkömmlinge eines Knotens, die in bezug auf ein Merkmal gebildeten wurden;
- (5) die Zuweisung eines Merkmals zu dem Knoten mit einem bevorzugten Wert für die Kombination im Zusammenhang mit anderen Merkmalen; und
- (6) wenn einem Knoten ein Merkmal zugewiesen wurde, wird der Knoten als Reaktion auf einen Vergleich zwischen der Wertekombination für die Eigenschaften der Abkömmlinge und dem Wert für die Eigenschaft des Knoten als Blattknoten klassifiziert.
- Die Erfindung wird nachfolgend anhand der Begleitzeichnungen noch genauer beschrieben.
- Die Fig. 1A und 1B sind Fließdiagramme, die die Merkmalzuweisung und das Beschneidungsverfahren eines bevorzugten Ausführungsbeispiels der vorliegenden Erfindung zeigen;
- Fig. 2 stellt die zusammengesetzte, digitalisierte Zeichenform des Buchstabens g dar, die zur Illustrierung der Erfindung verwendet wird, und
- Fig. 3 ist ein Diagramm mit einem baumstrukturierten Klassifikator.
- Das Verfahren für die Zuweisung von Merkmalen zu jedem Knoten eines Klassifizierungsbaums wird gemäß der vorliegenden Erfindung mit Bezug auf Fig. 1A beschrieben.
- Der Algorithmus liest die Knoten eines unendlichen Binärbaums in folgender Reihenfolge: Zuerst die Wurzel, dann den linken Sohn, danach den rechten Sohn, anschließend den linken Sohn des linken Sohns, daraufhin den rechten Sohn des linken Sohns, usw.
- Folgende Bezeichnungen werden beim bevorzugten Algorithmus verwendet:
- NODE ist der aktuelle (Vater) Knoten;
- N = Anzahl der Elemente, die diesen Knoten erreichen;
- NO = Anzahl der Elemente der Knoten, deren Klasse 0 ist.
- Eine ausgewählte Eigenschaft, die sogenannte Kostenfunktion, mit einem Wert C für ein Merkmal, das für das Aufteilen eines Knotens verwendet wird, kann durch die folgende Gleichung (1) auf der Basis der Mindestbeschreibungslänge für das Merkmal am Knoten definiert werden:
- (1) C = N h (NO/N) + (½)log((2N*3)/(N(N-N0)),
- N*3 ist die dritte Potenz von N, und
- h(p) = - plogp - (1-p)log(1-p).
- Der Merkmalzuweisungsalgorithmus wird als Wurzelknoten initialisiert. Die Schritte sind wie in Fig. 1A dargestellt nachfolgend aufgeführt.
- 1. Das nächste den Knoten noch nicht zugewiesene Merkmal entlang des Pfades vom aktuellen Knoten zur Wurzel lesen und seinen Wert für sämtliche Elemente im Übungsmuster lesen (Block 101).
- 2. Festlegen, ob zusätzliche Merkmale zu testen sind (Block 102). Falls keine vorhanden sind, zum nächsten Knoten im Baum gehen und zu Block 101 gehen (Block 103).
- 3. NL und NR die Zahl der Elemente im Übungsmuster kennzeichnen lassen, deren Merkmalwert 0 (für links) bzw. 1 (für rechts) ist. CL und CR mit Hilfe der Gleichung (1) berechnen, wobei N und NO durch NL und NLO bzw. NR und NRO ersetzt werden, und die Summe von CL + CR (Block 104) ermitteln.
- 4. Ist CL + CR die bisher kleinste gefundene Zahl (Block 105)?
- 5. Wenn ja, NODE das aktuelle Merkmal zuweisen (Block 106). Zu Block 101 zurückgehen (Block 107).
- 6. Wenn nicht, zu Block 101 zurückgehen (Block 107).
- Der Beschneidungsalgorithmus für Knoten des Baums, denen ein Merkmal zugewiesen wurde, wird nachfolgend mit Bezug auf Fig. 1B beschrieben.
- 1. C entsprechend der Gleichung (1) bestimmen (Block 201).
- 2. Ist C > CL + CR (Block 202)?
- 3. Wenn nicht, aus dem Knoten einen Blattknoten machen (beschneiden). Zu Block 205 gehen (Block 203).
- 4. Wenn ja, zu Block 205 gehen (Block 204).
- 5. Den nächsten Knoten auswählen. Zu Block 201 gehen (Block 205).
- Die Kostenfunktion aus Gleichung (1) kann auch durch die Kostenfunktion aus folgender Gleichung (2) auf der Grundlage der vorausgesagten Mindestbeschreibungslänge für den Knoten ersetzt werden:
- (2) C = log ((N+1)!/(N0!(N-N0)!)).
- Da die Kosten C aus den Gleichungen (1) und (2) viel größer als die Kosten der den Knoten zugewiesenen Beschreibungsmerkmale sind, können die Merkmalkosten bei diesen Verfahren vernachlässigt werden.
- Es gibt eine natürliche Kostenfunktion, C(xt+1, xt+1), das sogenannte Risiko, das als 0 definiert wird, wenn die Klassifizierung korrekt ist; z. B. wenn xt+1 = xt+1 und 1 andernfalls. Für das gesamte Übungsmuster ist das Risiko bei einem Entscheidungsbaum demnach die Zahl der gemachten Klassifizierungsfehler.
- Technisch gesehen kann die Risikofunktion weiterhin als vorausgesagte Codelänge (vorausgesagte Mindestbeschreibungslänge) für eine bestimmte Verteilung oder als wahrer Voraussagefehler dargestellt werden, so daß der erste oben beschriebene Merkmalzuweisungsalgorithmus mit der Änderung Anwendung findet, daß die Kostenfunktion C nicht mehr mit einer Formel berechnet werden kann, sondern rekursiv bei jedem Knoten für jedes geprüfte Element im Übungsmuster, das diesen Knoten erreicht, ausgewertet werden muß. (So sollte vorzugsweise selbst die zweite der oben dargestellten Kostenfunktionen (Gleichung 2) mit den Faktoriellen ausgewertet werden). Der numerische Wert des Risikos ist allgemein wesentlich kleiner als die anderen Kostenfunktionen. Dadurch wird der Beschneidungsalgorithmus kompliziert, da die Kosten der Codierung der den Knoten zugewiesenen Merkmale selbst nicht mehr länger vernachlässigt werden kann, wie dies bei der vorherigen Kostenfunktion der Fall war. Nachfolgend wird daher ein neuer Algorithmus vorgestellt, der die Funktion des Wachstums und Beschneiden eines Baums gleichzeitig erfüllt.
- Zuerst muß jedoch die Klassifizierungsregel xt+1(xt) beschrieben werden, bei der xt = x&sub1;, . . . die Folge der Klassen-Tags der vorherigen Elemente bezeichnet. Diese Regel wird als Majoritätsregel verwendet: xt+1(xt) = 0, wenn die Anzahl der 0 Tags in der vorherigen Folge, n&sub0;(xt), folgende Bedingung erfüllt: entweder n&sub0;(xt) > t/2 oder im Fall n&sub0;(xt) = t/2 wenn n&sub0;(xt) > t/2. Andernfalls ist xt+1(xt) = 1.
- Bei jedem Knoten wird die rekursive Berechnung von Kosten als Funktion des Teiles von x des Übungsmusters beschrieben, das an diesem Knoten angekommen ist. Gesetzt den Fall das Merkmal f teilt x in die Unterzeichenkette w(f), dessen Merkmalwert z. B. "weiß" ist sowie in die verbleibende Unterzeichenkette b(f), deren Merkmalwert unter f "schwarz" ist, auf. Z bezeichnet das nächste Muster, das am Knoten ankommt. Der Merkmalwert f(z) ist abhängig von f entweder weiß oder schwarz. Im ersten Fall kann die Unterzeichenkette w(f) als "vorheriger" Verwandter von f bezeichnet werden, während im letzten Fall b(f) das vorherige Bild ist. Das vorherige Bild von z ist wichtig, da die Fehler, die zur Voraussage des vorherigen Bildes gemacht worden wären, dazu benutzt werden können, um festzustellen, wie gut z selbst vorausgesagt werden kann. C(w(f)) bzw. C(b(f)) soll das Risiko bezeichnen, das von der oben beschriebenen Klassifizierungsregel der Majoritätsvoraussage festgelegt wird, wenn das vorherige Bild von z vorausgesagt wird, und f* soll das Merkmal sein, das dieses Risiko minimiert. C*(xz) = c*(x), wenn die Voraussage der Klasse von z korrekt ist, sofern die Voraussage auf dem vorherigen Bild basiert, das durch das entscheidende Merkmal bestimmt wird. Andernfalls ist C*(xz) = C*(x) + 1.
- Das dem Knoten zugeordnete Merkmal ist das letzte entscheidene Merkmal f*, wenn das gesamte Übungsmuster verarbeitet wurde.
- Das Beschneiden erfolgt gemäß der folgenden Regel: den Baum am ersten Knoten entlang jedes Pfads von der Wurzel beschneiden, wo C*(X)_C(X). X bezieht sich hier auf den Teil des Übungsmusters, das den Knoten erreicht. Beide Risiken sind oben beschrieben. C(X) am Wurzelknoten ist das Risiko, das sich ergibt, wenn das Übungsmuster vorausgesagt wird, ohne daß ein Merkmal verwendet wird. An den anderen Knoten ist es das Risiko, das aus der Voraussage entsteht, wenn das beste
- Merkmal f* beim Vater angewendet wird.
- Nachfolgend werden einige experimentelle Ergebnisse beschrieben, die sich durch das Anwenden des Klassifizierungsverfahrens auf der Grundlage der oben beschriebenen Gleichung (1) an ein automatisches Eigenschaftserkennungsproblem ergeben haben. Es soll zwischen zwei verschiedenen Zeichenarten des Buchstabens g unterschieden werden. Die Übungsmenge besteht aus 40 abgetasteten Schwarz-Weiß-Bildern jeder Zeichenart, wobei jedes Bild sich aus 1536 Bildzellen (Pels) zusammensetzt. Fig. 2 zeigt eine Überlagerung von den 20 Bildern jeder Zeichenart. Die ganzen Zahlen weisen auf die relative Häufigkeit hin, daß ein bestimmtes Pel der 40 Übungsmuster dieser Zeichenart schwarz ist. Sterne weisen auf Stellungen, die in allen Mustern schwarz sind, während Leerstellen weiß entsprechen. Nullen stehen für relative Häufigkeiten im Bereich 0 bis 0.1.
- Die Merkmalmenge für die Klassifizierungsaufgabe wurde als binärer Wertinhalt der einzelnen Pels definiert. Die Anwendung der Teilungs- und Beschneidungskriterien, die sich aus Gleichung (1) ergaben, führte zu dem in Fig. 3 gezeigten baumstrukturierten Klassifikator. Die Zahl unter den unteren Knoten, die durch einen Kreis gekennzeichnet ist, geben an, welches Pel das zugewiesene Merkmal ist, das am Knoten zu prüfen ist. Die Zahl unter den Blattknoten, die durch ein Rechteck gekennzeichnet ist, gibt das Klassen-Tag an, das dem Blattknoten zugewiesen ist. Die Zahlen in den Knoten geben die Zahl der Übungsmuster an, die den Knoten von jeder der beiden Klassen erreicht haben, wobei der obere Wert für Klasse 1 und der untere Wert für Klasse 2 steht.
- Die Anwendung dieses Baums zur Klassifizierung einer neuen Menge von 40 Zeichen, 20 von jeder Zeichenart, führt zu einer Fehlerrate von 6,25 Prozent, die angesichts der hohen Veränderlichkeit der Muster relativ niedrig ist.
- Die vorliegende Erfindung eröffnet neue Wege zur Bildung von baumstrukturierten Klassifikatoren. Anders als die bestehenden Techniken, wo die Knotenteilungs- und Beschneidungsregeln mehr oder weniger ad hoc abgeleitet werden, ergeben sich die Regeln entsprechend dem bevorzugten Ausführungsbeispiel der Erfindung von der Anwendung des intuitiv ansprechenden MDL-Prinzips der Mindestbeschreibungslänge. Auf der Grundlage dieses Verfahrens wird der Klassifizierungsbaum als Modell angesehen, bei dem die Zahl der Parameter mit der Zahl der Knoten wächst. Wenn dieses Modell zur "Erklärung" der richtigen Merkmale in der Übungsmenge verwendet wird, die durch das Codieren der Daten formalisiert sind, ist die Komplexität des Modells mit einzubeziehen. Dies führt zu dem einfachen Knotenkriterium: die Gesamtcodelänge, die zur Beschreibung der Klassen-Tags an einem Knoten benötigt wird, mit einem Knoten mit der kürzest kombinierten Codelänge der Sohn-Knoten vergleichen. Wenn dieser Code kleiner ist, den Baum am Knoten beschneiden; andernfalls den Baum teilen.
- Das neue Beschneidungsverfahren ist rechnerisch einfacher als das Quergültigkeits-Beschneidungsverfahren von Mabbet und al (s. o. 1980) sowie Brieman und al (s. o. 1984). Selbst wenn das Beschneiden erst nach dem Anwachsen des Baums auf seine maximale Größe durchgeführt werden soll, um über Voraussagen zu verfügen, ist das Verfahren in konzeptueller und rechnerischer Hinsicht immer noch einfacher. Es muß dabei nur die Codelänge eines internen Knotens mit der Summe der Codelängen der Blattknoten verglichen werden; wenn diese kleiner ist, wird der Baum an diesem Knoten beschnitten. Der Vergleich kann mit Hilfe der Postorder-Datenstruktur erfolgreich durchgeführt werden, bei der die Unterbäume eines Knotens vor dem Knoten selbst untersucht werden.
- Die Erweiterung der Teilungs- und Beschneidungskriterien auf den Fall mit zahlreichen Klassen ist einfach. Wenn die Zahl der Klassen jedoch groß ist, wird die bei Brieman und al (s. o. 1984) beschriebene "Twoing"-Methode zumindest für den oberen Teil des Baums verwendet, da diese sich effizient implementieren läßt. An jedem Knoten findet dieses Verfahren die beiden Superklassen, die in gewisser Hinsicht sehr unähnlich sind, sowie die beste Teilung entsprechend der beiden Superklassen. Das Zusammenfügen von Klassen in Superklassen ist im Hinblick auf das MDL-Prinzip durchaus gerechtfertigt. Die Codelänge der Parameter wächst linear mit der Zahl der Klassen, während die Codelänge der Daten nicht unbedingt in diesem Maß abnimmt. Die Gesamtcodelänge scheint daher minimiert zu werden, wenn die Klassen zu Superklassen zusammengefügt werden. Das MDL-Prinzip kann sogar verwendet werden, um die besten Superklassen zu finden.
Claims (6)
1. Ein Verfahren zur Erkennung von Zeichen oder Bildern durch
die Verwendung eines baumstrukturierten Klassifikators,
bei dem gemessene Merkmale Knoten des baumstrukturierten
Klassifikators zugewiesen werden, und Blattknoten als
Reaktion auf eine Übungsmenge von Objekten bestimmt
werden, wobei jedes Objekt durch zahlreiche Merkmale
gekennzeichnet ist, und das Verfahren bei jedem Knoten
folgende Schritte umfaßt:
für jeden Knoten wird eine ausgewählte Eigenschaft, eine
Kostenfunktion, auf der Grundlage einer
Mindestbeschreibungslänge festgelegt und von N und NO berechnet, wobei N
gleich der Zahl von Elementen der Übungsmenge ist, die
diesen Knoten erreicht, und NO gleich der Zahl von
Elementen der Knoten einer ausgewählten Klasse ist;
eine Menge von Abkömmlingen wird als Reaktion auf jedes
Merkmal von mindestens einer Teilmenge zahlreicher an
vorherigen Knoten unbenutzter Merkmalen gebildet;
für jeden Abkömmling, der in bezug auf ein Merkmal
gebildet wurde, wird die Eigenschaft im Hinblick auf die Zahlen
der Elemente bestimmt, die den Abkömmling erreichen;
eine Kombination der Werte für die Kostenfunktion für alle
Abkömmlinge des Knotens, die in bezug auf das Merkmal
gebildet wurden, wird erzeugt;
ein Merkmal wird dem Knoten mit dem bevorzugten Wert für
die Kombination in bezug aufandere Merkmale zugewiesen;
und
wenn ein Merkmal einem Knoten zugewiesen wurde, wird der
Knoten als Reaktion auf einen Vergleich zwischen der
Wertekombination für die Eigenschaften der Abkömmlinge und
dem Wert für die Eigenschaft des Knotens als Blattknoten
klassifiziert.
2. Das Verfahren nach Anspruch 1, bei dem die ausgewählte
Eigenschaft eine Kostenfunktion C umfaßt, die
folgendermaßen definiert ist:
C = N h(NO/N) + (½)log((2N*3)/(N(N-N0))),
wobei N*3 die dritte Potenz von N ist, und
h(p) = -plogp - (1-p)log(1-p), wobei p gleich N0/N ist.
3. Das Verfahren nach Anspruch 1, bei dem die ausgewählte
Eigenschaft eine Kostenfunktion auf der Grundlage einer
vorausgesagten Mindestbeschreibungslänge ist.
4. Das Verfahren nach Anspruch 3, bei dem die ausgewählte
Eigenschaft eine Kostenfunktion C ist, die folgendermaßen
definiert wird:
C = log ((N+1) 1/(NO! (N-NO)!)),
wobei '!' die faktorielle Operation anzeigt.
5. Das Verfahren nach den Ansprüchen 1 und 3 mit folgenden
Schritten bei jedem Knoten:
die Bildung von Abkömmlingen als Reaktion auf jedes
Merkmal mindestens einer Teilmenge zahlreicher an vorherigen
Knoten unbenutzter Merkmale;
die Bestimmung eines Voraussagefehlers für jeden
Abkömmling;
die Erzeugung einer Summe des Voraussagefehlers für
sämtliche Abkömmlinge für den Knoten im Hinblick auf ein
Merkmal;
die Zuweisung eines Merkmals zu dem Knoten mit einer
kleinen Summe des Voraussagefehlers in bezug zu den anderen
Merkmalen;
die Bestimmung des Voraussagefehlers des Knotens; und
die Klassifizierung des Knoten als Blattknoten, wenn die
Summe des Voraussagefehlers für sämtliche Abkömmlinge
größer als der Voraussagefehler des Knotens ist.
6. Das Verfahren nach Anspruch 1 mit folgenden Schritte bei
jedem Knoten:
die Bildung von Abkömmlingen als Reaktion auf jedes
Merkmal von mindestens einer Teilmenge zahlreicher an
vorherigen Knoten unbenutzter Merkmale;
die Bestimmung einer Mindestbeschreibungslänge für jeden
Abkömmling;
die Erzeugung einer Summe der Mindestbeschreibungslänge
für sämtliche Abkömmlinge des Knotens in bezug auf ein
Merkmal;
die Zuweisung eines Merkmals zum Knoten mit einer kleinen
Summe der Mindestbeschreibungslänge in bezug auf die
anderen Merkmale;
die Bestimmung der Mindestbeschreibungslänge des Knotens;
und
die Klassifizierung des Knotens als Blattknoten, wenn die
Summe der Mindestbeschreibungslängen aller Abkömmlinge
größer als die Mindestbeschreibungslänge des Knotens ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/836,677 US4719571A (en) | 1986-03-05 | 1986-03-05 | Algorithm for constructing tree structured classifiers |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3789718D1 DE3789718D1 (de) | 1994-06-09 |
DE3789718T2 true DE3789718T2 (de) | 1994-11-10 |
Family
ID=25272473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3789718T Expired - Fee Related DE3789718T2 (de) | 1986-03-05 | 1987-02-05 | Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren. |
Country Status (5)
Country | Link |
---|---|
US (1) | US4719571A (de) |
EP (1) | EP0235608B1 (de) |
JP (1) | JPS62208182A (de) |
CA (1) | CA1266527A (de) |
DE (1) | DE3789718T2 (de) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5010478A (en) * | 1986-04-11 | 1991-04-23 | Deran Roger L | Entity-attribute value database system with inverse attribute for selectively relating two different entities |
JP2748936B2 (ja) * | 1988-02-29 | 1998-05-13 | 富士通株式会社 | 文字認識方式 |
JPH02268388A (ja) * | 1989-04-10 | 1990-11-02 | Hitachi Ltd | 文字認識方法 |
US5263117A (en) * | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
US5537593A (en) * | 1990-02-12 | 1996-07-16 | Fmc Corporation | Method for solving enumerative search problems using message passing on parallel computers |
EP0480115A1 (de) * | 1990-10-09 | 1992-04-15 | International Business Machines Corporation | Verfahren zur Datenkomprimierung und Datenkodierung und Einrichtung zur Durchführung dieses Verfahrens |
US5187786A (en) * | 1991-04-05 | 1993-02-16 | Sun Microsystems, Inc. | Method for apparatus for implementing a class hierarchy of objects in a hierarchical file system |
US5325466A (en) * | 1992-05-07 | 1994-06-28 | Perceptive Decision Systems, Inc. | System for extracting knowledge of typicality and exceptionality from a database of case records |
JP3669016B2 (ja) * | 1994-09-30 | 2005-07-06 | 株式会社日立製作所 | 文書情報分類装置 |
US5732271A (en) * | 1995-01-23 | 1998-03-24 | International Business Machines Corporation | Data processing system and method for processing an object oriented development environment employing property inheritance using prototypical objects |
US5787274A (en) * | 1995-11-29 | 1998-07-28 | International Business Machines Corporation | Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records |
US5745893A (en) * | 1995-11-30 | 1998-04-28 | Electronic Data Systems Corporation | Process and system for arrangement of documents |
DE19613342A1 (de) * | 1996-04-03 | 1997-10-09 | Philips Patentverwaltung | Automatisches Bildauswertungsverfahren |
US5799311A (en) * | 1996-05-08 | 1998-08-25 | International Business Machines Corporation | Method and system for generating a decision-tree classifier independent of system memory size |
US6480194B1 (en) * | 1996-11-12 | 2002-11-12 | Silicon Graphics, Inc. | Computer-related method, system, and program product for controlling data visualization in external dimension(s) |
US6373483B1 (en) | 1997-01-13 | 2002-04-16 | Silicon Graphics, Inc. | Method, system and computer program product for visually approximating scattered data using color to represent values of a categorical variable |
US6182058B1 (en) | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
US6278464B1 (en) | 1997-03-07 | 2001-08-21 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing a decision-tree classifier |
US6137499A (en) * | 1997-03-07 | 2000-10-24 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing data using partial hierarchies |
US5960435A (en) * | 1997-03-11 | 1999-09-28 | Silicon Graphics, Inc. | Method, system, and computer program product for computing histogram aggregations |
US6298351B1 (en) * | 1997-04-11 | 2001-10-02 | International Business Machines Corporation | Modifying an unreliable training set for supervised classification |
US5930803A (en) * | 1997-04-30 | 1999-07-27 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing an evidence classifier |
US5940821A (en) * | 1997-05-21 | 1999-08-17 | Oracle Corporation | Information presentation in a knowledge base search and retrieval system |
US6026399A (en) * | 1997-05-30 | 2000-02-15 | Silicon Graphics, Inc. | System and method for selection of important attributes |
US5966140A (en) * | 1997-06-20 | 1999-10-12 | Microsoft Corporation | Method for creating progressive simplicial complexes |
US6094651A (en) * | 1997-08-22 | 2000-07-25 | International Business Machines Corporation | Discovery-driven exploration of OLAP data cubes |
US6247016B1 (en) * | 1998-08-24 | 2001-06-12 | Lucent Technologies, Inc. | Decision tree classifier with integrated building and pruning phases |
US6301579B1 (en) | 1998-10-20 | 2001-10-09 | Silicon Graphics, Inc. | Method, system, and computer program product for visualizing a data structure |
US6460049B1 (en) | 1998-12-22 | 2002-10-01 | Silicon Graphics, Inc. | Method system and computer program product for visualizing an evidence classifier |
US6721759B1 (en) * | 1998-12-24 | 2004-04-13 | Sony Corporation | Techniques for spatial representation of data and browsing based on similarity |
US6456993B1 (en) * | 1999-02-09 | 2002-09-24 | At&T Corp. | Alternating tree-based classifiers and methods for learning them |
US6351561B1 (en) * | 1999-03-26 | 2002-02-26 | International Business Machines Corporation | Generating decision-tree classifiers with oblique hyperplanes |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
DE10036712A1 (de) * | 2000-07-27 | 2002-02-28 | Active Mining Ag | Verfahren zur Bewertung von mit charakteristischen Merkmalen behafteten Prozessen |
US7016887B2 (en) | 2001-01-03 | 2006-03-21 | Accelrys Software Inc. | Methods and systems of classifying multiple properties simultaneously using a decision tree |
US7424409B2 (en) * | 2001-02-20 | 2008-09-09 | Context-Based 4 Casting (C-B4) Ltd. | Stochastic modeling of time distributed sequences |
US20020129342A1 (en) * | 2001-03-07 | 2002-09-12 | David Kil | Data mining apparatus and method with user interface based ground-truth tool and user algorithms |
US6910026B2 (en) * | 2001-08-27 | 2005-06-21 | Verity, Inc. | Method and apparatus for determining classifier features with minimal supervision |
US6763354B2 (en) | 2002-05-10 | 2004-07-13 | Agentarts, Inc. | Mining emergent weighted association rules utilizing backlinking reinforcement analysis |
WO2004016066A2 (fr) * | 2002-08-13 | 2004-02-26 | Highdeal | Editeur et procede d'edition de formules de calcul du prix d'un service et systeme de valorisation automatique d'un service |
US7730039B2 (en) | 2002-12-27 | 2010-06-01 | Honda Motor Co., Ltd. | Enhanced trade compliance system: advanced shipment notice |
US7389286B2 (en) * | 2002-12-27 | 2008-06-17 | Honda Motor Co., Ltd. | Enhanced trade compliance system: audit processing, payment balancing process and amendment processing |
US7844511B2 (en) * | 2002-12-27 | 2010-11-30 | Honda Motor Co., Ltd. | Enhanced trade compliance system: audit processing, payment balancing and amendment processing |
US7792863B2 (en) * | 2002-12-27 | 2010-09-07 | Honda Motor Co., Ltd. | Harmonized tariff schedule classification using decision tree database |
US20040199484A1 (en) * | 2003-04-04 | 2004-10-07 | Laurence Smith | Decision tree analysis |
US20050123526A1 (en) * | 2003-12-01 | 2005-06-09 | Medtronic Inc. | Administration of growth factors for neurogenesis and gliagenesis |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
US7694523B2 (en) * | 2004-07-19 | 2010-04-13 | Earthrenew, Inc. | Control system for gas turbine in material treatment unit |
US20060034722A1 (en) * | 2004-08-10 | 2006-02-16 | Pan-Ting Hsueh | Sintered porous frame and its producing method |
US20060074826A1 (en) * | 2004-09-14 | 2006-04-06 | Heumann John M | Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers |
US9620117B1 (en) * | 2006-06-27 | 2017-04-11 | At&T Intellectual Property Ii, L.P. | Learning from interactions for a spoken dialog system |
US8275726B2 (en) * | 2009-01-16 | 2012-09-25 | Microsoft Corporation | Object classification using taxonomies |
US20100185672A1 (en) * | 2009-01-21 | 2010-07-22 | Rising Iii Hawley K | Techniques for spatial representation of data and browsing based on similarity |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4613946A (en) * | 1984-06-07 | 1986-09-23 | Forman Ernest H | Method and apparatus for generating hierarchical displays |
-
1986
- 1986-03-05 US US06/836,677 patent/US4719571A/en not_active Expired - Fee Related
-
1987
- 1987-02-02 CA CA000528724A patent/CA1266527A/en not_active Expired - Fee Related
- 1987-02-05 JP JP62023707A patent/JPS62208182A/ja active Pending
- 1987-02-05 EP EP87101584A patent/EP0235608B1/de not_active Expired - Lifetime
- 1987-02-05 DE DE3789718T patent/DE3789718T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0235608A2 (de) | 1987-09-09 |
EP0235608A3 (en) | 1990-10-31 |
CA1266527A (en) | 1990-03-06 |
JPS62208182A (ja) | 1987-09-12 |
US4719571A (en) | 1988-01-12 |
EP0235608B1 (de) | 1994-05-04 |
DE3789718D1 (de) | 1994-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3789718T2 (de) | Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren. | |
DE3685671T2 (de) | Aufzeichnungs- und wiederauffindungsverfahren fuer chemische strukturdaten. | |
DE3650446T2 (de) | Paralleler, adaptiver, nichtlinearer Musterklassentrenner und -erkenner in mehreren Einheiten. | |
DE3851867T2 (de) | Zeichenerkennungsgerät. | |
DE3486272T2 (de) | Verfahren und Anlage zur auf der Häufigkeit des Vorkommens der Zeichen gegründeten Zeichenerkennung. | |
DE68908910T2 (de) | Paralleles, mehrere Einheiten umfassendes, anpassungsfähiges Musterklassifizierungssystem, das Korrelationen zwischen den Einheiten und eine Klassentrennungsmethodologie innerhalb der Einheiten benutzt. | |
DE69327716T2 (de) | System und verfahren, um wissen über das typische und aussergewöhnliche aus einer datenbank von vorfallsdaten herauszusuchen. | |
DE69131687T2 (de) | Verfahren zur Ressourcenverteilung und -planung, und System dafür | |
DE69126555T2 (de) | Verfahren zur Klassifikation in einem hierarchisierten neuronalen Netzwerk | |
DE68926849T2 (de) | Struktur und Verfahren zur Anordnung rekursiv abgeleiteter Daten in einer Datenbank | |
DE69031772T2 (de) | Verfahren zur Informations-Wiedergewinnung für ein Datenbanksystem | |
DE60118973T2 (de) | Verfahren zum abfragen einer struktur komprimierter daten | |
DE3911465C2 (de) | Verfahren zur automatischen Konfiguration technischer Systeme aus Komponenten | |
DE69607460T2 (de) | Neuronales netzwerk | |
DE3416939A1 (de) | Verfahren zur steuerung von betriebseinrichtungen | |
DE69430572T2 (de) | System und verfahren zur parametrischen geometrischen modellierung | |
DE3103592A1 (de) | Verfahren und vorrichtung zur zeichenidentifizierung | |
DE69404143T2 (de) | Erkennungssystem und erkennungsmethode | |
DE68925312T2 (de) | Verfahren zur Pixelfarbenwahrscheinlichkeitsbestimmung zur Verwendung in OCR-Logik | |
DE69126720T2 (de) | Schnelle Bestimmung von Unterzusammenhängen in einer Erbhierarchie | |
DE69802372T2 (de) | Klassifizierungssystem und -verfahren mit N-Tuple- oder RAM-basiertem neuronalem Netzwerk | |
DE19549300C1 (de) | Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen | |
DE60007333T2 (de) | Trainierbares, anpassungfähiges fokussiertes replikatornetzwerk zur datenanalyse | |
LU503356B1 (de) | Ein kollaboratives akademisches Frühwarnverfahren zwischen Mensch und Maschine | |
EP0220467B1 (de) | Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentmustern in einem Automat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |