DE69922995T2 - System und verfahren zur datenklassifizierung - Google Patents

System und verfahren zur datenklassifizierung Download PDF

Info

Publication number
DE69922995T2
DE69922995T2 DE69922995T DE69922995T DE69922995T2 DE 69922995 T2 DE69922995 T2 DE 69922995T2 DE 69922995 T DE69922995 T DE 69922995T DE 69922995 T DE69922995 T DE 69922995T DE 69922995 T2 DE69922995 T2 DE 69922995T2
Authority
DE
Germany
Prior art keywords
classification
assigned
unclassified
value
quality criterion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69922995T
Other languages
English (en)
Other versions
DE69922995D1 (de
Inventor
Alex Egham GAMMERMAN
Volodya Egham VOVK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Royal Holloway University of London
Original Assignee
Royal Holloway and Bedford New College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Royal Holloway and Bedford New College filed Critical Royal Holloway and Bedford New College
Publication of DE69922995D1 publication Critical patent/DE69922995D1/de
Application granted granted Critical
Publication of DE69922995T2 publication Critical patent/DE69922995T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Analysis (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

  • Hintergrund der Erfindung
  • Die vorliegende Erfindung betrifft eine Datenklassifikationsvorrichtung und hierfür ein automatisches Verfahren zur Datenklassifikation, die/das ein universelles Konfidenzmaß in der vorhergesagten Klassifikation für jede unbekannte Eingabe bereitstellt. Insbesondere, jedoch nicht ausschließlich, ist die vorliegende Erfindung zur Mustererkennung geeignet, z. B. optische Zeichenerkennung.
  • Um eine Datenklassifikation wie z. B. eine Mustererkennung zu automatisieren, muß die Vorrichtung, üblicherweise in Form eines Computers, in der Lage sein, aus bekannten Beispielen zu lernen und zu extrapolieren, um eine Klassifikation für neue unbekannte Beispiele vorherzusagen. Verschiedene Techniken wurden über die Jahre entwickelt, um Computer in die Lage zu versetzen, diese Funktion auszuführen, inklusive, unter anderem, Diskriminatenanalyse, neuronale Netzwerke, genetische Algorithmen und Supportvektor-Maschinen. Diese Techniken entspringen gewöhnlich zwei Feldern: Maschinenlernen und Statistik.
  • Lernende Maschinen, die gemäß der Theorie des Maschinenlernens entwickelt wurden, arbeiten oft sehr gut für einen großen Bereich von Anwendungen, ohne parametrische statistische Annahmen über die Datenquelle zu benötigen (anders als traditionelle statistische Techniken), wobei die einzige Annahme, die gemacht wird, die IID-Annahme ist (die Beispiele werden von der gleichen Wahrscheinlichkeitsverteilung unabhängig voneinander erzeugt). Ein neuer Ansatz des Maschinenlernens ist in US 5640492 beschrieben, worin zur Klassifikation neuer Beispiele mathematische Optimierungstechniken verwendet werden. Der Vorteil der in US 5640492 beschriebenen lernenden Maschine ist, daß sie verwendet werden kann, um außerordentlich hoch-dimensionale Probleme zu lösen, die für die vorher bekannten lernenden Maschinen nicht beherrschbar sind.
  • Ein typischer Nachteil solcher Techniken ist, daß die Techniken kein Konfidenzmaß in der vorhergesagten Klassifikation bereitstellen, die von der Vorrichtung ausgegeben wird. Ein typischer Benutzer einer solchen Datenklassifikationsvorrichtung hofft lediglich, daß die Genauigkeit der Resultate von vorhergehenden Analysen unter Verwendung von Benchmark-Datenmengen repräsentativ für die Resultate ist, die von der Analyse von zukünftigen Datenmengen erhalten werden.
  • Andere Optionen für den Benutzer, der neuen unklassifizierten Beispielen ein Konfidenzmaß zuordnen möchte, umfassen ein Durchführen von Experimenten auf einer Validierungsmenge unter Verwendung einer der bekannten Kreuz-Validierungsprozeduren, und Anwenden eines der theoretischen Resultate über die zukünftige Leistung von verschiedenen lernenden Maschinen, bei gegebener Leistung der Vergangenheit. Keine dieser Konfidenzschätzprozeduren stellt also ein praktikables Mittel zum Beurteilen der Konfidenz der vorhergesagten Klassifikation für ein individuelles neues Beispiel bereit. Bekannte Konfidenzschätzprozeduren, die das Problem des Beurteilens der Konfidenz einer vorhergesagten Klassifikation für ein individuelles neues Beispiel behandeln, sind ad hoc und erlauben keine Interpretation im strikten Sinne der mathematischen Wahrscheinlichkeitstheorie.
  • Konfidenzschätzung ist ein gut erforschtes Gebiet sowohl der parametrischen als auch der nicht-parametrischen Statistik. In einigen Teilen der Statistik ist das Ziel eher die Klassifikation von zukünftigen Beispielen als von Parametern des Modells, das relevant für das Erfordernis ist, das von diese Erfindung behandelt wird. In der Statistik wurden jedoch nur Konfidenzschätzprozeduren entwickelt, die für nieder-dimensionale Probleme geeignet sind. Deshalb wurde eine mathematisch strikte Konfidenzbeurteilung bisher nicht für hoch-dimensionale Datenklassifikation durchgeführt.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung stellt eine neue Datenklassifikationsvorrichtung und ein neues Datenklassifikationsverfahren bereit, daß mit hoch-dimensionalen Klassifikationsproblemen umgehen kann, und daß ein universelles Konfidenzmaß bereitstellt, das unter der IID-Annahme für jede einzelne Klassifikationsvorhersage gültig ist, die durch die neue Datenklassifikationsvorrichtung bzw. durch das neue Datenklassifikationsverfahren gemacht wird.
  • Die vorliegende Erfindung stellt eine Datenklassifikationsvorrichtung bereit, wie sie in den Ansprüchen definiert ist.
  • Mit der vorliegenden Erfindung wird die konventionelle Datenklassifikationstechnik des induktiven Lernens und dann Deduktion neuer unbekannter Datenvektoren durch eine neue Transduktionstechnik ersetzt, die das Erfordernis vermeidet, eine alles einbeziehende generelle Regel zu identifizieren. Mit der vorliegenden Erfindung wird also keine multidimensionale Hyperebene oder Grenze identifiziert. Die Trainingsdatenvektoren werden direkt verwendet, um eine vorhergesagte Klassifikation für unbekannte Datenvektoren bereitzustellen. Mit anderen Worten bestimmen die Trainingsdatenvektoren implizit eine Klassifikationsvor hersage für einen unbekannten Datenvektor.
  • Es ist wichtig anzumerken, daß mit der vorliegenden Erfindung das Konfidenzmaß unter der generellen IID-Annahme gültig ist, und daß die vorliegende Erfindung in der Lage ist, Konfidenzmaße sogar für sehr hoch-dimensionale Probleme bereitzustellen.
  • Des weiteren kann mit der vorliegenden Erfindung mehr als ein unbekannter Datenvektor klassifiziert und gleichzeitig ein Konfidenzmaß erzeugt werden.
  • Bei einem weiteren Aspekt stellt die vorliegende Erfindung ein Datenklassifikationsverfahren bereit, wie es in den Ansprüchen definiert ist.
  • Selbstverständlich wird man anerkennen, daß das obige Verfahren und die obige Vorrichtung mittels eines Datenträgers implementiert werden können, auf dem ein Klassifikationsprogramm gespeichert ist.
  • Kurze Beschreibung der Zeichnungen
  • Eine Ausführungsform der vorliegenden Erfindung wird nun im Wege des Beispiels nur mit Bezug auf die beiliegenden Zeichnungen beschrieben, in welchen:
  • 1 ein schematisches Diagramm einer Datenklassifikationsvorrichtung gemäß der vorliegenden Erfindung ist;
  • 2 ein schematisches Diagramm des Betriebs einer Datenklassifikationsvorrichtung nach 1 ist;
  • 3 eine Tabelle ist, die eine Menge von Trainingsbeispielen und unklassifizierten Beispielen zur Verwendung mit einem Datenklassifizierer gemäß der vorliegenden Erfindung zeigt; und
  • 4 eine Tabelle von experimentellen Resultaten ist, wobei ein Datenklassifizierer gemäß der vorliegenden Erfindung zur Zeichenerkennung verwendet wurde.
  • Beschreibung einer bevorzugten Ausführungsform
  • In 1 ist ein Datenklassifizierer 10 gezeigt, der generell ein Eingabegerät 11, einen Prozessor 12, einen Speicher 13, einen ROM 14, der eine Zusammenstellung von Programmen enthält, die durch den Prozessor 12 ausführbar sind, und ein Ausgabeterminal 15 umfaßt. Das Eingabegerät 11 umfaßt vorzugsweise eine Benutzerschnittstelle 16, wie z. B. eine Tastatur oder andere konventionelle Mittel zum Kommunizieren mit und zur Dateneingabe in den Prozessor 12, und das Ausgabeterminal 15 kann in der Form eines Anzeigemonitors oder anderer konventioneller Mittel zum Anzeigen von Information für einen Benutzer sein. Das Ausgabeterminal 15 umfaßt vorzugsweise einen oder mehrere Ausgabeanschlüsse, zum Anschließen eines Druckers oder anderer Netzwerkgeräte. Der Datenklassifizierer 10 kann in einem anwendungsspezifischen integrierten Schaltkreis (ASIC) mit zusätzlichen RAM-Chips verkörpert sein. Idealerweise umfaßt der ASIC eine schnelle RISC-CPU mit einer geeigneten Fließkomma-Einheit.
  • Um ein Verstehen des Betriebs des Datenklassifizierers 10 zur Bereitstellung einer Vorhersage einer Klassifikation für unklassifizierte (unbekannte) Beispiele zu unterstützen, wird im folgenden die seinem Betrieb zugrundeliegende mathematischen Theorie erklärt.
  • Mengen von Beispielen (Datenvektoren) sind gegeben: die Trainingsmenge besteht aus Beispielen mit ihren bekannten Klassifikationen (oder Klassen) und eine aus unklassifizierten Beispielen bestehende Testmenge. In 3 ist eine Trainingsmenge aus fünf Beispielen und zwei Testbeispielen gezeigt, wobei die unklassifizierten Beispiele Bilder von Ziffern sind und die Klassifikation entweder 1 oder 7 ist.
  • Die Notation für die Größe der Trainingsmenge ist l und der Einfachheit halber wird angenommen, daß die Testmenge der Beispiele nur ein unklassifiziertes Beispiel enthält. Sei (X, A) der meßbare Raum aller möglichen unklassifizierten Beispiele (in dem Fall der 3 kann X die Menge aller 16 × 16 Grauwertbilder sein), und sei (Y, B) der meßbare Raum der Klassen (in dem Fall der 3 kann Y die zwei-elementige Menge {1, 7} sein). Y ist typischerweise endlich.
  • Die Konfidenzvorhersageprozedur ist eine Familie {fβ : β ∈ (0, 1)} von meßbaren Abbildungen fβ : (X × Y)' × X → B, so daß:
    • 1. Für ein beliebiges Konfidenzniveau β (in einer Datenklassifikation sind wir typischerweise an einem β nahe an 1 interessiert) und einer Wahrscheinlichkeitsverteilung P in X × Y ist die Wahrscheinlichkeit, daß yl+1 ∈ fβ(x1, y1, ..., xl, yl, xl+1)wenigstens β, wobei (x1, y1), ..., (xl, yl), (xl+1, yl+1) unabhängig von P erzeugt werden.
    • 2. Falls β1 < β2 ist, dann gilt für alle (x1, y1, ..., xl, yl, xl+1) ∈ (X × Y)' × X
      Figure 00040001
  • Die implizite Behauptung der Vorhersage
    Figure 00040002
    (x1, y1, ..., xl, yl, xl+1) ist, daß das wahre Label yl+1 zu
    Figure 00040003
    (x1, y1, ..., xl, yl, xl+1) gehört. Punkt 1 erfordert, daß die durch fβ gegebene Vorhersage mit einer Wahrscheinlichkeit von wenigstens β korrekt sein sollte, und Punkt 2 erfordert, daß die Familie {fβ} konsistent sein sollte: Falls irgendein Label Y für das (l + 1)-te Beispiel bei einem Konfidenzniveau β1 erlaubt ist, sollte es auch bei jedem Konfidenzniveau β2 < β1 erlaubt sein.
  • Ein typischer Benutzungsmodus dieser Definition ist, daß ein konventioneller Wert von β, wie z. B. 95% oder 99%, im voraus ausgewählt wird, nach dem die Funktion fβ zur Vorhersage verwendet wird. Idealerweise wird die Vorhersageregion, die durch fβ ausgegeben wird, nur eine Klassifikation enthalten.
  • Ein wichtiges Merkmal der Datenklassifikationsvorrichtung definiert fβ im Hinblick auf Lösungen ai, i = 1, ..., i + 1 für Hilfs-Optimierungsprobleme der Art, wie sie in US 5640492 dargestellt sind. Insbesondere berücksichtigen wir |Y| Vervollständigungen unserer Daten (x1, y1), ..., (xl, yl), xl+1 wobei die Vervollständigung y, y ∈ Y (x1, y1), ..., (xl, yl), (xl+1, y)ist (also wird bei allen Vervollständigungen jedes Beispiel klassifiziert).
  • Jeder Vervollständigung (x1, y1), ..., (xl, yl), (xl+1, yl+1)(für notationelle Vereinfachung schreiben wir hier yl+1 anstelle von y) wird das Optimierungsproblem
    Figure 00050001
    (wobei C eine feste positive Konstante ist) zugeordnet, das der Nebenbedingung yi((xi·w) + b) ≥ ξi, i = 1, ..., i + 1 (2)unterliegt.
  • Dieses Problem schließt nicht-negative Variablen ξi ≥ 0 ein, die lockere Variablen genannt werden. Falls die Konstante C zu groß gewählt wird, kann die Lösungsgenauigkeit inakzeptabel gering werden; C sollte in dem Bereich, in dem die numerische Lösungsgenauigkeit vernünftig bleibt, so groß wie möglich gewählt werden. (Wenn die Daten linear separierbar sind, ist es sogar möglich C auf unendlich zu setzen, aber da es selten, wenn überhaupt jemals, möglich ist, im voraus zu sagen, daß alle Vervollständigungen linear separierbar sein werden, sollte C groß aber endlich gewählt werden.)
  • Das Optimierungsproblem wird über die Einführung von Lagrange Faktoren ai, i = 1, ..., l + 1 in ein duales Problem transformiert: Finde ai in
    Figure 00060001
    unter der "Box"-Nebenbedingung 0 ≤ aj ≤ C, i = 1, 2, ..., l + 1. (4)
  • Die unklassifizierten Beispiele werden repräsentiert, so wird angenommen, als die Werte, die durch n numerische Attribute genommen werden, und somit ist X = Rn.
  • Dieses quadratische Optimierungsproblem wird nicht auf die Attributvektoren xi selbst angewandt, sondern auf ihre Bilder V(xi) unter einer vorgegebenen Funktion V : X → H, die Werte in einem Hilbert-Raum annimmt, was zum Ersetzen des Punktproduktes xi·xi in dem Optimierungsproblem (3)–(4) durch die Kernfunktion K(xi, xj) = V(xi)·V(xj)führt.
  • Das abschließende Optimierungsproblem ist deshalb
    Figure 00060002
    unter der "Box"-Nebenbedingung 0 ≤ aj ≤ C, i = 1, 2, ..., l + 1,wobei dieses quadratische Optimierungsproblem durch Verwendung von Standardpaketen gelöst werden kann.
  • Der Lagrange-Faktor ai, i ∈ {1, ..., l + 1} spiegelt die "Fremdheit" des Beispiels (xi, yi) wieder, wobei wir annehmen, daß ai + 1 bei falschen Vervollständigungen große sein wird.
  • Für y ∈ Y wird
    Figure 00060003
    definiert, weshalb d(y) der p-Wert ist, der der Vervollständigung y zugeordnet wird (y ist eine alternative Notation für yi+1). Die Konfidenzvorhersagefunktion f, die im Kern dieser Erfindung liegt, kann als fβ(x1, y1, ..., xl, yl, xl+1) := {y : d(y) > 1 – β}ausgedrückt werden.
  • Der interessanteste Fall ist der, bei dem die durch fβ gegebene Vorhersagemenge eine einelementige Menge ist; deshalb sind die wichtigsten Merkmale der Konfidenzvorhersageprozedur {fβ} bei den Daten (x1, y1), ..., (xl, yl), xl+1:
    • • das größte β = β0, für das fβ((x1, y1), ..., (xl, yl), xl+1) eine einelementige Menge ist (vorausgesetzt, ein solches β existiert);
    • • die Klassifikation F((x1, y1), ..., (xl, yl), xl+1), die definiert ist, das y ∈ Y zu sein, für das
      Figure 00070001
      ((x1, y1), ..., (xl, yl), xl+1){y} ist.
  • Ein in dieser Weise definiertes F((x1, y1), ..., (xl, yl), xl+1) wird als f-optimaler Vorhersagealgorithmus bezeichnet, wobei das korrespondierende β0 als das Konfidenzniveau bezeichnet wird, das F zugeordnet wird.
  • Ein weiteres wichtiges Merkmal der Konfidenzschätzfunktion {fβ} auf den Daten (x1, y1), ..., (xl, yl), xl+1 ist das größte β = β*, für das fβ((x1, y1), ..., (xl, yl), xl+1) eine leere Menge ist. Wir bezeichnen 1 – β* die Glaubwürdigkeit der Datenmenge (x1, y1), ..., (xl, yl), xl+1, wobei es der p-Wert eines Tests zum Überprüfen der IID-Annahme ist. Dort wo die Glaubwürdigkeit sehr klein ist, ist entweder die Trainingsmenge (x1, y1), ..., (xl, yl) oder das neue unklassifizierte Beispiel xl+1 untypisch, was die Vorhersage unzuverlässig macht, es sei denn, der Konfidenzwert ist viel näher an 1 als an 1 – β*. Grundsätzlich liegt die Summe der Konfidenz und der Glaubwürdigkeit zwischen 1 und 2, wobei der Erfolg der Vorhersage dadurch gemessen wird, wie nahe diese Summe an der 2 ist.
  • Mit dem wie oben beschrieben betriebenen Datenklassifizierer der vorliegenden Erfindung können einem Benutzer die folgenden Menüs oder Wahlmöglichkeiten angeboten werden:
    • 1. Vorhersage und Konfidenz
    • 2. Glaubwürdigkeit
    • 3. Details
  • Eine typische Antwort auf die Auswahl der Wahlmöglichkeit 1 durch einen Benutzer könnte sein Vorhersage: 4, Konfidenz: 99%, was bedeutet, daß 4 die Vorhersageausgabe des f-optimalen F sein wird und 99% das Konfidenzniveau dieser Vorhersage ist. Eine typische Antwort auf Auswahlmöglichkeit 1 könnte sein Glaubwürdigkeit: 100%, was den berechnenden Glaubwürdigkeitswert angibt. Eine typische Antwort auf Auswahlmöglichkeit 3 könnte sein:
    Figure 00080001
    die vollständige Menge der p-Werte aller möglichen Vervollständigungen. Die letztgenannte Auswahlmöglichkeit umfaßt die Information über F((x1, y1), ..., (xl, yl), xl+1) (das Zeichen, das mit dem größten p-Wert korrespondiert), das Konfidenzniveau (eins minus dem zweitgrößten p-Wert) und die Glaubwürdigkeit (der größte p-Wert).
  • Dieser Benutzungsmodus der Konfidenzvorhersagefunktion von f ist nicht der einzig mögliche Modus: Prinzipiell kann er mit jedem Vorhersagealgorithmus kombiniert werden. Falls G ein Vorhersagealgorithmus ist, können wir seinen Vorhersagen y := G((x1, y1), ..., (xl, yl), xl+1) den folgenden Konfidenzwert zuordnen: c(y) := max{β : fβ(x1, y1, ..., xl, yl, xl+1) ≽ {y}}
  • Der oben beschriebene Vorhersagealgorithmus F ist derjenige, der dieses Konfidenzmaß optimiert.
  • Die in 4 gezeigte Tabelle umfaßt die Resultate eines Experiments in der Zeichenerkennung unter Verwendung des Datenklassifizierers der vorliegenden Erfindung. Die Tabelle zeigt die Resultate für eine Testmenge der Größe 10 unter Verwendung einer Trainingsmenge der Größe 20 (nicht abgebildet). Der verwendete Kern war K(x, y) = (x·y)3/256.
  • Es wird in Betracht gezogen, daß einige Modifikationen des Optimierungsproblems, daß in den Gleichungen (1) und (2) angegeben ist, bestimmte Vorteile haben könnte, z. B.
    Figure 00080002
    das Gegenstand der Nebenbedingung yi((xi·w) + b) = 1 – ξ, i = 1, ..., l + 1ist.
  • Es wird des weiteren in Betracht gezogen, daß der oben beschriebene Datenklassifizierer besonders nützlich für eine simultane Vorhersage der Klassifikation von mehr als einem Beispiel sein kann, wobei die zur Berechnung der p-Werte verwendete Teststatistik, die mit verschiedenen Vervollständigungen korrespondiert, die Summe der Ränge der a's sein kann, die mit den neuen Beispielen korrespondieren (so wie in dem Wilcoxon Rangsummentest).
  • Wie in 2 gezeigt, wird in der Praxis eine Trainingsdatenmenge in den Datenklassifizierer eingegeben 20. Die Trainingsdatenmenge umfaßt eine Vielzahl von Datenvektoren, von denen jeder eine zugeordnete bekannte Klassifikation hat, die aus einer Menge von Klassifikationen zugewiesen wurde. Z. B. kann bei der numerischen Zeichenerkennung die Menge der Klassifikationen die numerische Reihe 0 bis 9 sein. Die Menge der Klassifikationen kann separat dem Datenklassifizierer eingegeben 21 werden oder sie kann in dem ROM 14 gespeichert werden. Zusätzlich können einige konstruktive Repräsentationen des meßbaren Raums der Datenvektoren in den Datenklassifizierer eingegeben 22 werden, oder sie können wieder in dem ROM 14 gespeichert werden. Z. B. kann im Fall der numerischen Zeichenerkennung der meßbare Raum aus 16 × 16 gepixelten Grauwertbildern bestehen. Dort, wo der meßbare Raum bereits in dem ROM 14 des Datenklassifizierers gespeichert ist, kann die Schnittstelle 16 Eingabemittel (nicht abgebildet) umfassen, um einen Benutzer in die Lage zu versetzen, Anpassungen für den gespeicherten meßbaren Raum einzugeben. Z. B. kann eine größere Definition eines Bildes benötigt werden, in welchem Fall die Pixelung des meßbaren Raums vergrößert werden könnte.
  • Ein oder mehrere Datenvektoren, für die keine Klassifikation bekannt ist, werden ebenso in den Datenklassifizierer eingegeben 23. Die Trainingsdatenmenge und die unklassifizierten Datenvektoren werden dann zusammen mit jeder zusätzlichen Information, die durch den Benutzer eingegeben wird, vom Eingabegerät 11 in den Prozessor 12 eingespeist.
  • Zunächst wird jede einzelne der einen oder mehreren unklassifizierten Datenvektoren provisorisch individuell einer Klassifikation aus der Menge der Klassifikationen zugewiesen 24. Ein individueller Fremdheitswert ai wird dann für jeden der Datenvektoren in der Trainingsmenge und für jeden der unklassifizierten Datenvektoren ermittelt 25, für die eine provisorische Klassifikationszuweisung durchgeführt wurde. Es wird also eine Klassifikationsmenge erzeugt, die jeden der Datenvektoren in der Trainingsmenge und die einen oder mehreren unklassifizierten Datenvektoren mit ihren zugewiesenen provisorischen Klassifikationen und den individuellen Fremdheitswerten ai für jeden Datenvektor umfaßt. Eine Vielfalt von solchen Klassifikationsmengen wird dann erzeugt, wobei die zugewiesenen provisorischen Klassifikationen der unklassifizierten Datenvektoren für jede Klassifikationsmenge unterschiedlich sind.
  • Eine Berechnung eines einzelnen Fremdheitswertes, des p-Wertes, für jede Klassifikationsmenge, die die vollständige Menge der Trainiggsdatenvektoren und unklassifizierten Vektoren mit ihren gegenwärtig zugewiesenen Klassifikationen umfaßt, wird dann auf der Basis des im vorhergehenden Schritt ermittelten individuellen Fremdheitswertes ai durchgeführt 26. Dieser p-Wert und die zugeordnete Menge der Klassifikationen wird in den Speicher 13 für zukünftiges Vergleichen übertragen, während jeder der einen oder mehreren unklassifizierten Datenvektoren provisorisch individuell der gleichen oder einer verschiedenen Klassifikation zugeordnet wird. Die Schritte der Berechnung individueller Fremdheitswerte 25 und der Ermittlung eines p-Wertes 26 werden in jeder Iteration für die vollständige Menge der Trainingsdatenvektoren und der unklassifizierten Datenvektoren unter Verwendung von jedesmal verschiedenen Klassifikationszuordnungen für die unklassifizierten Datenvektoren wiederholt. Dies resultiert in einer Folge von p-Werten, die in dem Speicher 13 gespeichert werden, wobei jeder die Fremdheit der vollständigen Menge der Datenvektoren in Bezug auf einzigartige Klassifikationszuordnungen für die einen oder mehreren unklassifizierten Datenvektoren repräsentiert.
  • Die in dem Speicher gespeicherten p-Werte werden dann verglichen 27, um den maximalen p-Wert und den nächstgrößeren p-Wert zu identifizieren. Schließlich wird die Klassifikationsmenge der Datenvektoren, die den maximalen p-Wert haben, dem Ausgabeterminal 15 zugeführt 28. Die dem Ausgabeterminal zugeführten Daten können allein aus der/den Klassifikationen) bestehen, die dem/den unklassifizierten Datenvektor(en) zugewiesen wurde(n), die nun die vorhergesagte Klassifikation repräsentiert/repräsentieren, von der Klassifikationsmenge der Datenvektoren, die den maximalen p-Wert haben.
  • Des weiteren wird ein Konfidenzwert für die vorhergesagte Klassifikation erzeugt 29. Der Konfidenzwert wird auf der Basis der Subtraktion des nächstgrößeren p-Wertes von 1 ermittelt. Falls der nächstgrößere p-Wert groß ist, ist deshalb die Konfidenz der vorhergesagten Klassifikation klein, und falls der nächstgrößere p-Wert klein ist, ist der Konfidenzwert groß. Die vorher erwähnte Auswahlmöglichkeit 1 stellt einem Benutzer vorhergesagte Klassifikationen für die einen oder mehreren unbekannten Datenvektoren und die Konfidenzwerte zur Verfügung.
  • Dort, wo ein alternativer Vorhersagealgorithmus zu benutzen ist, wird der Konfidenzwert durch Subtrahieren des größten p-Wertes von 1 für die Mengen der Trainingsdatenvektoren und neuen Vektoren berechnet, die unterschiedlich zu der vorhergesagten (durch die alternative Methode) Klassifikation klassifiziert wurden.
  • Zusätzliche Information in der Form der p-Werte für jede der Menge der Datenvektoren bezüglich der individuell zugeordneten Klassifikationen können ebenfalls zugeführt werden (Auswahl 3) oder einfach die p-Werte für die vorgesagten Klas sifikationen (Auswahlmöglichkeit 2).
  • Mit dem oben beschriebenen Datenklassifizierer und dem Verfahren zur Datenklassifikation wird ein universelles Konfidenzmaß für jede vorhergesagte Klassifikation eines oder mehrerer unbekannter Datenvektoren bereitgestellt. Darüber hinaus wird an keinem Punkt eine generelle Regel oder multidimensionale Hyperebene aus der Trainingsmenge der Datenvektoren extrahiert. Statt dessen werden die Datenvektoren direkt verwendet, um die Fremdheit (einer) provisorisch zugewiesener/zugewiesenen Klassifikationen) für einen oder mehrere unbekannte Datenvektoren zu berechnen.
  • Während die Datenklassifikationsvorrichtung und das Datenklassifikationsverfahren mit speziellem Bezug auf die obige bevorzugte Ausführungsform gezeigt und beschrieben wurde, wird es für einen Fachmann offensichtlich sein, daß darin verschiedene Modifikationen in Form und Details gemacht werden können, ohne von dem Umfang der Erfindung abzuweichen, wie er durch die beiliegenden Ansprüche definiert wird. Dementsprechend müssen Modifikationen, wie z. B. die oben vorgeschlagenen, jedoch darauf nicht beschränkt, im Umfang der Erfindung berücksichtigt werden.

Claims (6)

  1. Datenklassifikationsvorrichtung umfassend: eine Eingabeeinrichtung zum Empfangen einer Vielzahl von trainingsklassifizierten Beispielen und wenigstens eines unklassifizierten Beispiels; einen Speicher zum Speichern der klassifizierten und unklassifizierten Beispiele; ein Ausgabeendgerät zum Ausgeben einer vorhergesagten Klassifikation für das wenigstens eine unklassifizierte Beispiel; und einen Prozessor zum Identifizieren der vorhergesagten Klassifikation des wenigstens einen unklassifizierten Beispiels, wobei der Prozessor umfaßt: Klassifikationszuweisungsmittel zum Zuweisen potentieller Klassifikationen an jedes unklassifizierte Beispiel und zum Erzeugen einer Vielzahl von Klassifikationsmengen, wobei jede Klassifikationsmenge die Vielzahl (l) von trainingsklassifizierten Beispielen mit ihrer Klassifikation und das wenigstens eine unklassifizierte Beispiel (l + 1) mit seiner zugewiesenen potentiellen Klassifikation umfaßt; Probemittel, umfassend eine Beispielbewertungseinrichtung zum Ermitteln eines individuellen Qualitätskriteriums (Fremdheitswert ai) für jedes trainingsklassifizierte Beispiel (i = 1, 2 ... l) und das wenigstens eine unklassifizierte Beispiel (i = l + 1) mit einer zugewiesenen potentiellen Klassifikation (y), wobei das Probemittel ein Gesamtqualitätskriterium (Fremdheitswert, d(y) oder p-Wert) ermittelt, das unter der IID-Annahme für jede der Klassifikationsmengen in Abhängigkeit von dem individuellen Qualitätskriterium (ai) jedes Beispiels gemäß der Formel
    Figure 00120001
    gültig ist; eine Vergleichseinrichtung zum Auswählen der Klassifikationsmenge, zu der die für das wenigstens eine unklassifizierte Beispiel wahrscheinlichste zugewiesene potentielle Klassifikation gehört, wobei die durch das Ausgabeendgerät ausgegebene vorhergesagte Klassifikation die gemäß des durch das Probemittel zugewiesenen Gesamtqualitätskriteriums (Fremdheitswert) wahrscheinlichste zugewiesene Klassifikation ist; und eine Vorhersagegüte-Überwachungseinrichtung zum Ermitteln eines Konfidenzwertes für die vorhergesagte Klassifikation auf der Basis des Gesamtqualitätskriteriums (Fremdheitswert), das durch das Probemittel einer der Klassifikationsmengen zugeteilt wurde, zu der die zweitwahrscheinlichste zugewiesene potentielle Klassifikation des wenigstens einen unklassifizierten Beispiels gehört.
  2. Datenklassifikationsvorrichtung nach Anspruch 1, wobei Lagrange-Faktoren zur Ermittlung des individuellen Qualitätskriteriums (Fremdheitswert) verwendet werden.
  3. Datenklassifikationsverfahren umfassend: Eingeben einer Vielzahl von trainingsklassifizierten Beispielen und wenigstens eines unklassifizierten Beispiels; Identifizieren einer vorhergesagten Klassifikation des wenigstens einen unklassifizierten Beispiels, umfassend: Zuweisen potentieller Klassifikationen an jedes unklassifizierte Beispiel; Erzeugen einer Vielzahl von Klassifikationsmengen, wobei jede Klassifikationsmenge die Vielzahl (l) der trainingsklassifizierten Beispiele mit ihrer Klassifikation und das wenigstens eine unklassifizierte Beispiel (l + 1) mit seiner zugewiesenen potentiellen Klassifikation umfaßt; Ermitteln eines individuellen Qualitätskriteriums (Fremdheitswert ai) für jedes trainingsklassifizierte Beispiel (i = 1, 2 ... l) und das wenigstens eine unklassifizierte Beispiel (i = l + 1) mit einer zugewiesenen potentiellen Klassifikation (y) und eines Gesamtqualitätskriterium (Fremdheitswert, d(y) oder p-Wert), das unter der IID-Annahme für jede Klassifikationsmenge in Abhängigkeit von dem individuellen Qualitätskriterium (ai) jedes Beispiels gemäß der Formel
    Figure 00130001
    gültig ist; Auswählen der Klassifikationsmenge, zu der die für das wenigstens eine unklassifizierte Beispiel wahrscheinlichste zugewiesene potentielle Klassifikation gehört, wobei die vorhergesagte Klassifikation die in Abhängigkeit von dem zugewiesenen Gesamtqualitätskriterium (Fremdheitswert) wahrscheinlichste zugewiese potentielle Klassifikation ist; Ermitteln eines Konfidenzwertes für die vorhergesagte Klassifikation auf der Basis des Gesamtqualitätskriteriums (Fremdheitswert), das einer der Klassifikationsmengen zugeteilt wurde, zu der die zweitwahrscheinlichste zugewiesene potentielle Klassifikation des wenigstens einen unklassifizierten Beispiels gehört; und Ausgeben der vorhergesagten Klassifikation für das wenigstens eine unklassifizierte Beispiel und des Konfidenzwertes für die vorhergesagte Klassifikation.
  4. Datenklassifikationsverfahren nach Anspruch 3, wobei die ausgewählte Klassifikationsmenge ohne die Anwendung einer anhand des Trainingssets ermittelten allgemeinen Regel ausgewählt wird.
  5. Datenträger, auf dem ein Klassifikationsprogramm zur Datenklassifikation mittels der Durchführung der folgenden Schritte gespeichert ist: Erzeugen einer Vielzahl von Klassifikationsmengen, wobei jede Klassifikationsmenge eine Vielzahl von trainingsklassifizierten Beispielen mit ihrer Klassifikation und wenigstens ein unklassifiziertes Beispiel umfaßt, dem eine potentielle Klassifikation zugewiesen wurde; Ermitteln eines individuellen Qualitätskriteriums (Fremdheitswert ai) für jedes trainingsklassifizierte Beispiel (i = 1, 2 ... l) und das wenigstens eine unklassifizierte Beispiel (i = l + 1) mit einer zugewiesenen potentiellen Klassifikation (y) und eines Gesamtqualitätskriteriums (Fremdheitswert, d(y) oder p-Wert), das unter der IID-Annahme für jede Klassifikationsmenge in Abhängigkeit von dem individuellen Qualitätskriterium (ai) jedes Beispiels gemäß der Formel
    Figure 00140001
    gültig ist; Auswählen der Klassifikationsmenge, zu der die für das wenigstens eine unklassifizierte Beispiel wahrscheinlichste zugewiesene potentielle Klassifikation gehört, wobei die vorhergesagte Klassifikation in Abhängigkeit von dem zugewiesenen Gesamtqualitätskriterium (Fremdheitswert) die wahrscheinlichste zugewiesene potentielle Klassifikation ist; und Ermitteln eines Konfidenzwertes auf der Basis des Gesamtqualitätskriteriums (Fremdheitswert), das einer der Klassifikationsmengen zugeteilt wurde, zu der die zweitwahrscheinlichste zugewiesene potentielle Klassifikation des wenigstens einen unklassifizierten Beispiels gehört.
  6. Computerprogramm-Steuercode, der eingerichtet ist, alle Schritte des Verfahrens nach Anspruch 3 auf einem Computer auszuführen.
DE69922995T 1998-11-09 1999-11-09 System und verfahren zur datenklassifizierung Expired - Lifetime DE69922995T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9824552 1998-11-09
GBGB9824552.5A GB9824552D0 (en) 1998-11-09 1998-11-09 Data classification apparatus and method thereof
PCT/GB1999/003737 WO2000028473A1 (en) 1998-11-09 1999-11-09 Data classification apparatus and method thereof

Publications (2)

Publication Number Publication Date
DE69922995D1 DE69922995D1 (de) 2005-02-03
DE69922995T2 true DE69922995T2 (de) 2006-02-23

Family

ID=10842127

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69922995T Expired - Lifetime DE69922995T2 (de) 1998-11-09 1999-11-09 System und verfahren zur datenklassifizierung

Country Status (8)

Country Link
US (1) US7072873B1 (de)
EP (1) EP1129428B1 (de)
AT (1) ATE286280T1 (de)
AU (1) AU1061900A (de)
DE (1) DE69922995T2 (de)
ES (1) ES2234317T3 (de)
GB (1) GB9824552D0 (de)
WO (1) WO2000028473A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2369899A (en) * 2000-07-20 2002-06-12 Volodya Vovk Data labelling device and method thereof
US7127099B2 (en) 2001-05-11 2006-10-24 Orbotech Ltd. Image searching defect detector
US7492943B2 (en) * 2004-10-29 2009-02-17 George Mason Intellectual Properties, Inc. Open set recognition using transduction
US8732455B2 (en) 2008-07-25 2014-05-20 Infotect Security Pte Ltd Method and system for securing against leakage of source code
CN103177088B (zh) * 2013-03-08 2016-05-18 北京理工大学 一种生物医学空缺数据弥补方法
CN105046044A (zh) * 2015-05-29 2015-11-11 上海大学 基于最优小波包变换的非平稳风速预测方法
CN105069474B (zh) * 2015-08-05 2019-02-12 山东师范大学 用于音频事件分类的半监督学习高置信度样本挖掘方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2486683A1 (fr) * 1980-07-11 1982-01-15 Correlative System Int Procede et installation pour le classement de donnees
US5846189A (en) * 1989-09-08 1998-12-08 Pincus; Steven M. System for quantifying asynchrony between signals
US5212639A (en) * 1990-04-05 1993-05-18 Sampson Wesley C Method and electronic apparatus for the classification of combinatorial data for the summarization and/or tabulation thereof
JPH0527906A (ja) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd 図形選択装置
JP3334807B2 (ja) * 1991-07-25 2002-10-15 株式会社日立製作所 ニュ−ラルネットを利用したパタ−ン分類方法および装置
US5361379A (en) 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5479573A (en) * 1992-11-24 1995-12-26 Pavilion Technologies, Inc. Predictive network with learned preprocessing parameters
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5640492A (en) * 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
JP4218982B2 (ja) * 1996-03-29 2009-02-04 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 音声処理
GB2369899A (en) * 2000-07-20 2002-06-12 Volodya Vovk Data labelling device and method thereof

Also Published As

Publication number Publication date
EP1129428B1 (de) 2004-12-29
DE69922995D1 (de) 2005-02-03
US7072873B1 (en) 2006-07-04
AU1061900A (en) 2000-05-29
ES2234317T3 (es) 2005-06-16
ATE286280T1 (de) 2005-01-15
WO2000028473A1 (en) 2000-05-18
GB9824552D0 (en) 1999-01-06
EP1129428A1 (de) 2001-09-05

Similar Documents

Publication Publication Date Title
DE112018000349T5 (de) Visuelles Analysesystem für auf einem konvolutionalen neuronalen Netz basierte Klassifizierer
DE102005040306B4 (de) System und Verfahren zur biologischen Datenanalyse unter Verwendung eines Bayes&#39;schen Netzwerks in Verbindung mit einer Support-Vektor Maschine
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
EP0978088B1 (de) Verfahren und anordnung zur mustererkennung auf statistischer basis
DE60118606T2 (de) Auswahlverfahren für wimperntusche, auswahlsystem für wimperntusche und gerät für die wimperntuscheberatung
DE102014113692A1 (de) Verdichtung von longitudinalen epa für eine verbesserte phänotypisierung
DE112017007492T5 (de) System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen
DE112014003591T5 (de) Detektionseinheit, Detektionsverfahren und Programm
EP3941981B1 (de) Verfahren zur generierung einer zusammensetzung für farben, lacke, druckfarben, anreibeharze, pigmentkonzentrate oder sonstige beschichtungsstoffe
DE112019006156T5 (de) Erkennung und behandlung von unsachgemässen eingaben durch neuronale netzwerke
DE112013006770T5 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102018104616A1 (de) Verfahren zum Aufteilen eines oder mehrerer Bilder einer Probe in nach Farbstoffen aufgeteilte Bilddaten, Computerprogrammprodukt, computerlesbares Medium, auf dem das Computerprogrammprodukt gespeichert ist, und System zum Aufteilen eines oder mehrerer Bilder einer Probe in nach Farbstoffen aufgeteilte Bilddaten
DE69922995T2 (de) System und verfahren zur datenklassifizierung
EP2854045B1 (de) Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
DE60217748T2 (de) Verfahren und Gerät zur Anzeige eines Bildraumes
Thamm et al. Random matrix analysis of deep neural network weight matrices
DE112017007437T5 (de) Objekterkennungsvorrichtung, objekterkennungssystem undobjekterkennungsverfahren
McNerney et al. Bridging the short-term and long-term dynamics of economic structural change
DE102022204493A1 (de) Segmentierung einer Sequenz von Videobildern mit einem Transformer-Netzwerk
DE112007001776T5 (de) Verfahren zum Auswählen eines Bildes zur Einfügung in ein Dokument
DE112018007522T5 (de) Arbeitsanalyseeinrichtung
DE102020129018A1 (de) Tiefe benutzermodellierung durch verhalten
DE112021006095T5 (de) Arbeitsermittlungsvorrichtung, arbeitsermittlungsverfahren und arbeitsermittlungsprogramm
DE102020201383A1 (de) Unterstützungssystem, Speichermedium und Verfahren zur Darstellung von Beziehungen von Elementen
DE102022207482B4 (de) Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: ROYAL HOLLOWAY AND BEDFORD NEW COLLEGE, ENGHAM, SU

8328 Change in the person/name/address of the agent

Representative=s name: KLUNKER, SCHMITT-NILSON, HIRSCH, 80797 MUENCHEN

8364 No opposition during term of opposition