DE112010004003T5

DE112010004003T5 - Verfahren zum Schulen und Verwenden eines Klassifikationsmodells mit Modellen für Assoziationsregeln

Info

Publication number: DE112010004003T5
Application number: DE112010004003T
Authority: DE
Inventors: Toni Bollinger
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-12-21
Filing date: 2010-12-07
Publication date: 2012-09-20
Also published as: WO2011076560A1; GB201212804D0; CN102667775A; US8799193B2; US20120239600A1; TW201142630A; GB2490064A; CN102667775B

Abstract

Die Erfindung betrifft ein Verfahren zum Schulen und Verwenden eines Klassifikationsmodells, um Muster in Eingabedaten, insbesondere Eingabedaten aus einem Fertigungsprozess, zu erkennen. Die Schulung des Modells umfasst die Schritte des Abrufens einer Menge von zuvor erfassten Eingabedaten, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören, und des Hinzufügens einer bekannten Klassifikation zu jeder Einheit. Darüber hinaus umfasst die Schulung des Modells den Schritt des Ermittelns von Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation, indem die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zugeordnet wird. Die Schulung des Modells umfasst des Weiteren die Schritte des Ermittelns einer Menge von Regeln, die angewendet werden können, des Aggregierens der Lift-Werte der für die Einheit ermittelten Regeln und des Vorhersagens einer Klassifikation auf der Grundlage der aggregierten Assoziationswerte für jede Einheit. Der sich ergebende aggregierte Lift-Wert zusammen mit der jeweiligen Einheit und Klassifikation werden als Eingabe für einen standardmäßigen Klassifikations-Algorithmus verwendet, wobei das Ergebnis ein Klassifikationsmodell ist.

Description

HINTERGRUND
Das Data-Mining (Erforschung und Analyse großer Datenmengen, um Muster in Daten aufzudecken) bezieht sich im Allgemeinen auf datengesteuerte Vorgehensweisen zur Entnahme von Informationen aus Eingabedaten. Andere Vorgehensweisen zur Entnahme von Informationen aus Eingabedaten sind üblicherweise hypothesengesteuert, wobei sich ein Satz von Hypothesen im Hinblick auf die Eingabedaten als wahr oder falsch erweist.
Da die Menge der Eingabedaten riesig sein kann, müssen Data-Mining-Methoden üblicherweise die Frage berücksichtigen, wie sich riesige Datenmengen wirksam verarbeiten lassen. Betrachten wir zum Beispiel die Herstellung von Produkten. Hier können die Eingabedaten verschiedene Datenangaben in Bezug auf die Herkunft und die Merkmale von Komponenten, die Verarbeitung der Komponenten in einer Produktionsstätte sowie die Art und Weise, in der die Komponenten zusammengebaut wurden, beinhalten. Das Ziel des Data-Mining im Rahmen der Produktion kann darin bestehen, Probleme in Zusammenhang mit der Qualitätsanalyse und der Qualitätssicherung zu lösen. Data-Mining kann zum Beispiel zur Ursachenanalyse, für Frühwarnsysteme in der Produktionsstätte und zur Verringerung von Gewährleistungsansprüchen eingesetzt werden. Betrachten wir als ein zweites Beispiel verschiedene Informations-Technologiesysteme. Hier kann das Data-Mining zum Erkennen von Angriffen, Überwachen von Systemen und zur Analyse von Problemen eingesetzt werden. Das Data-Mining hat auch verschiedene andere Einsatzmöglichkeiten, zum Beispiel im Einzelhandel und im Dienstleistungssektor, wo das typische Kundenverhalten analysiert werden kann, und in der Medizin und den Biowissenschaften, um kausale Zusammenhänge in klinischen Studien herauszufinden.
Die Mustererkennung ist eine Disziplin des Data-Mining. Die Eingabedaten können aus Mengen von Transaktionen bestehen, wobei jede Transaktion eine Menge von Positionen (items) enthält. Die Transaktionen können zusätzlich in eine Reihenfolge gebracht werden. Die Festlegung der Reihenfolge kann auf der Uhrzeit beruhen, alternativ kann jedoch jede beliebige Anordnung festgelegt werden. Beispielsweise kann für jede Transaktion eine Folgenummer vergeben worden sein. Bei Transaktionsdaten sind Assoziationsregeln Muster, die beschreiben, wie Positionen innerhalb von Transaktionen vor kommen.
Betrachten wir eine Menge von Positionen I = {I₁, I₂, ... Im}. Es sei D eine Menge von Transaktionen, wobei jede Transaktion T eine Menge von Positionen ist, die zu I gehören. Eine Transaktion T enthält folglich eine Menge A von Positionen in I, wenn A ⊂ T. Eine Assoziationsregel ist eine logische Folgerung der Form A ⇒ B, wobei A ⊂ I, B ⊂ I, und A ⋂ B = ⌀; A wird als der Regelrumpf und B als der Regelkopf bezeichnet. Die Assoziationsregel A ⇒ B gilt in der Transaktionsmenge D mit einer Konfidenz c, wenn c% der Transaktionen in D, die A enthalten, auch B enthalten. Anders ausgedrückt, die Konfidenz c ist die bedingte Wahrscheinlichkeit p(B|A), wobei p(S) die Wahrscheinlichkeit ist, mit der S als eine Teilmenge einer Transaktion T in D gefunden wird. Die Regel A=>B hat den Support s in der Transaktionsmenge D, wenn s% der Transaktionen in D A ∪ B enthalten. Anders ausgedrückt, der Support s ist die Wahrscheinlichkeit, mit der der Verbund von Positionen in der Menge A und in der Menge B in einer Transaktion vorkommt. Der Lift einer Regel ist der Quotient aus der Konfidenz der Regel und der erwarteten Konfidenz. Die erwartete Konfidenz einer Regel ist die Konfidenz unter der Annahme, dass das jeweilige Vorkommen der Positionen im Regelkopf und im Regelrumpf in den Transaktionen statistisch unabhängig voneinander ist. Sie ist gleich dem Support des Regelkopfes und drückt den Grad der ”Anziehungskraft” zwischen den Positionen im Regelrumpf und im Regelkopf aus. Ein Lift-Wert größer 1 bedeutet, dass die Positionen einander anziehen, wohingegen ein Wert kleiner 1 anzeigt, dass sich die Positionen abstoßen.
Das Ziel bei der Analyse von Assoziationsregeln besteht darin, treffsicher alle Regeln zu finden, die benutzerdefinierten Kriterien entsprechen. Der Benutzer kann einen minimalen Support oder eine minimale Konfidenz für die Regeln angeben, da sehr seltene Ereignisse oder Ereignisse, die nur in einem losen Zusammenhang stehen, für manche Anwendungen gegebenenfalls nicht von Bedeutung sind. Der Benutzer ist möglicherweise auch nur an bestimmten Positionen interessiert und möchte nur nach Mustern suchen, die mindestens einen dieser ihn interessierenden Positionen enthalten.
Die bekannten Data-Mining-Algorithmen haben in bestimmten Situationen Nachteile. In Abhängigkeit von der Menge der Eingabedaten, in manchen Fällen bis zu Hunderten von Millionen bis hin zu Milliarden von Datensätzen, und von der Größe des in Frage kommenden Musterraums ist der Breitendurchlauf möglicherweise langsam, da die ursprüngliche Datenquelle mehrfach abgefragt werden muss und da jedes in Frage kommende Muster im Hinblick auf alle Transaktionen ausgewertet werden muss. Dem Tiefendurchlauf geht andererseits bei großen Mengen von Eingabedaten möglicherweise der Speicher aus oder er kann – aufgrund der Vielzahl der Auswertungen im Hinblick auf die Eingabedaten – langsam sein, wenn die Eingabedaten auf die Platte ausgelagert werden. Überdies beruhen diese Data-Mining-Algorithmen auf einer Hierarchie von Positionen. Da eine solche Hierarchie von Positionen selten vorhanden ist, muss sie zunächst ermittelt werden. Diese Ermittlungen können fehlerhaft sein und folglich Zweifel an den Ergebnissen des Algorithmus aufkommen lassen.
Das Finden eines Klassifikationsmodells zur Vorhersage kategorischer ”Klassifikations”-Werte ist ein weiteres bedeutendes Problem beim Data Mining. Zu Beispielen hierfür gehören die Vorhersage, ob ein Kunde zu einem Wettbewerber wechselt, z. B. ”Prognose zur Kundenabwanderung”, ob ein Kunde auf eine Marketing-Kampagne ansprechen würde, ob ein Produkt wie zum Beispiel ein Auto rechtzeitig, zu spät oder zu früh geliefert wird oder ob ein Produkt wie zum Beispiel ein Rechner-Chip fehlerhaft ist. Zum Aufbau eines solchen Modells beginnt man mit historischen Daten, d. h. mit Fällen mit bekannten Klassifikationswerten, zum Beispiel den Abwanderungs- und Nichtabwanderungsfällen der letzten 12 Monate, den Ergebnissen einer zu Testzwecken durchgeführten Marketing-Kampagne oder mit Produktionsdaten mit Lieferzeitwerten. Diese historischen Daten können in einer Datentabelle erfasst werden, die eine Zeile für jede Einheit (entity), wie den Kunden oder das Produkt, enthält und die eine Spalte für die Klassifikationswerte sowie Spalten für andere Merkmale der Einheiten hat.
Ein Klassifikations-Algorithmus hat die Aufgabe, von den Werten dieser anderen Spalten, z. B. den ”unabhängigen Variablen”, den Klassifikationswert, z. B. den Wert der ”abhängigen Variablen”, abzuleiten, was oft als Schulung eines Klassifikationsmodells bezeichnet wird. Für eine Prognose zur Kundenabwanderung und zur Vorhersage, ob ein Kunde auf eine Marketing-Kampagne anspricht, können die historischen Daten neben demografischen Daten über einen Kunden, wie das Alter, den Familienstand oder den Wohnort, Informationen über sein Verhalten als Kunde beinhalten. Um Lieferverzögerungen von Produkten vorherzusagen, können Informationen über die Produkte, wie zum Beispiel bestimmte Merkmale, und Einzelheiten über den Produktionsprozess aufgenommen werden.
Sobald ein solches Klassifikationsmodell geschult worden ist und seine Qualität gut genug ist, was durch die Verwendung einer Teilmenge der historischen Daten, die nicht zur Schulung des Modells verwendet wurde, festgestellt werden kann, kann es zur Vorhersage zukünftiger Fälle eingesetzt werden. Bei diesen Daten sind nur die Werte der unabhängigen Variablen bekannt, nicht aber diejenigen der Klassenbezeichnung. Die ”vorhergesagten” Werte werden ermittelt, indem das Klassifikationsmodell auf diese Daten angewendet wird. Dieser Schritt wird ebenfalls als das ”Scoring” (die Vorhersage kontinuierlicher Merkmale) eines Modells bezeichnet. Bei einer Prognose zur Kundenabwanderung ermittelt man auf diese Weise die Kunden, die in der nahen Zukunft wahrscheinlich abwandern werden, bei einer Marketing-Kampagne ermittelt man die potenziellen Rückmelder und bei der Lieferung von Produkten ermittelt man die bessere Schätzung hinsichtlich des Liefertermins.
Bei den meisten Klassifikations-Algorithmen ist es erforderlich, dass die Eingabetabelle zur Schulung eines Modells eine Zeile je Einheit enthält. Vorhandene Datentabellen mit historischen Daten können jedoch mehr als eine Zeile je Einheit enthalten, was eine Vorverarbeitung und Umwandlung der Eingabedaten notwendig macht, um dieses Erfordernis zu erfüllen.
Dies ist der Fall, wenn ein Teil der Informationen über die Einheiten in Transaktionen enthalten ist. Tabellen mit Transaktionen haben mindestens 2 Spalten, eine für die Kennung der Einheit und eine ”Position”-Spalte mit kategorischen Werten. Bei Verkaufstransaktionsdaten, die die Informationen enthalten, welche Gegenstände von welchen Kunden gekauft wurden, würde die Kennung des Kunden der Kennung der Einheit entsprechen und die Position-Spalte würde die Kennungen der gekauften Gegenstände enthalten. Eine solche Tabelle kann zusätzliche Spalten mit nützlichen Informationen enthalten. Bei Verkaufstransaktionsdaten kann dies das Kaufdatum oder der Preis und die Menge der Gegenstände sein. Die Zuordnung des Kunden zum Klassifikationswert kann in einer gesonderten Tabelle festgehalten werden. Weitere Informationen neben denen, die in den Transaktionen enthalten sind, wie demografische Informationen bei Kunden oder bestimmte Merkmale bei Produkten können ebenfalls vorhanden sein. Da dies für diese Erfindung jedoch nicht von Bedeutung ist, geht man davon aus, dass nur eine Menge von Transaktionen und der Einheit-zu-Klassifikationswert vorhanden sind.
Ein Ansatz zur Lösung dieses Problems besteht darin, eine neue Tabelle aus der Transaktionstabelle zu erzeugen, die eine Spalte für die Kennung der Einheit und eine Spalte für jeden möglichen kategorischen Wert der Position-Spalte enthält. Bei einer bestimmten Einheit und einem kategorischen Wert kann der Wert der entsprechenden Spalte ”1” sein, wenn die Transaktionsdaten einen solchen Datensatz enthalten, und ”0” wenn dies nicht der Fall ist. Bei einer solchen Tabelle beträgt die Anzahl der Spalten 1 + die Anzahl der einzelnen kategorischen Werte der Position-Spalte. Dieser Ansatz funktioniert bei einer geringen Anzahl von einzelnen kategorischen Werten gut. Bei Bereichen wie der Produktion mit Hunderten von möglichen Produkt-Merkmalen und Produktionsschritten oder dem Einzelhandel mit sogar Tausenden von verschiedenen Artikeln, die in einem Supermarkt verkauft werden, wird dieser Ansatz ineffizient, wenn nicht gar undurchführbar.
In dieser Situation kann eine Hierarchie beziehungsweise Taxonomie der kategorischen Werte der Position-Spalte helfen, indem nur für höhere Konzepte in der Taxonomie Spalten erzeugt werden. Der Wert der entsprechenden Spalte für eine Einheit kann. die Anzahl der, zugehörigen kategorischen Werte in der Position-Spalte sein, die zu diesem höheren Konzept gehören.
Wenn eine solche Hierarchie jedoch fehlt oder die Hierarchie die geeignete Partitionierung in Bezug auf das Klassifikationsproblem nicht widerspiegelt, ist das Ergebnis ein Klassifikationsmodell schlechter Qualität. Letzteres kann beispielsweise eintreten, wenn Qualitätsprobleme von bestimmten Kombinationen von Merkmalen verursacht werden, die zu verschiedenen Kategorien gehören. Es kann auch eintreten, wenn eine Marketing-Kampagne für Bioprodukte wirbt, die Produkt-Hierarchie diese Charakterisierung der Produkte aber nicht widerspiegelt.
Es besteht folglich Bedarf an einem wirksamen Verfahren zum Feststellen von Mustern in Eingabedaten, das zumindest einen Teil der Probleme überwindet, die vorstehend in Verbindung mit bekannten Data-Mining-Methoden erwähnt wurden. Insbesondere besteht Bedarf an einem Klassifikationsmodell, das frei von einer Hierarchie von Positionen und in der Lage ist, mit standardmäßigen Klassifikationsmodellen umzugehen. Überdies sollte das neue Modell effizienter in Bezug auf die Verarbeitungsgeschwindigkeit, in Bezug auf den Verbrauch von Speicherkapazität und in Bezug auf notwendige Datenverarbeitungsressourcen sein.
KURZDARSTELLUNG
Es ist eine Aufgabe der Erfindung, ein neues Verfahren vorzuschlagen, das die vorstehend erwähnten Probleme in Verbindung mit dem Lösen eines Klassifikations-Data-Mining-Problems angeht.
Diese Aufgabe wird von den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen ausführlich beschrieben.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Schulung eines Klassifikationsmodells bereitgestellt, um Muster in Eingabedaten zu erkennen, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören. Das Verfahren umfasst das Abrufen einer Menge von zuvor erfassten Eingabedaten, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören, und das Hinzufügen einer bekannten Klassifikation der Einheit zu jeder Einheit. Darüber hinaus umfasst das Verfahren das Ermitteln von Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation, indem die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zugeordnet wird. Daraufhin ermittelt das Verfahren Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation, wobei Regeln die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zuordnen und jede Regel eine Menge von Attributen umfasst.
Zuvor erfasste Daten werden verwendet, um das Verfahren zu schulen. Die Schulung des Verfahrens umfasst das Erzeugen einer Menge von Regeln. Die zuvor erfassten Daten beziehen sich auf eine Anzahl von Einheiten, eine Anzahl von Positionen, die den Einheiten entsprechen, und eine Klassifikation der Einheit. Es sei erwähnt, dass dieselbe Position zwei gesonderten Einheiten entsprechen kann. Die Regeln werden erstellt, indem das erfasste Ergebnis oder die Klassifikation der Einheit den erfassten Positionen der Einheit zugeordnet wird. Ein oder mehrere Positionen werden im Regelrumpf gespeichert, während die Klassifikation im Regelkopf gespeichert wird. Wie zuvor erwähnt wurde, kann eine Position verschiedenen Einheiten und folglich auch verschiedenen Klassifikationen entsprechen. Somit ist es möglich, dass man eine Regel hat, die eine bestimmte Position mit einer Klassifikation verknüpft, während dieselbe Position in einer anderen Regel eventuell mit einer anderen Klassifikation verknüpft wird. Wenn dies der Fall ist, besteht die Notwendigkeit, zwischen den Stärken der Regeln zu unterscheiden. Dies geschieht durch die Attribute der Regeln. Die Attribute enthalten einen Lift-Wert zwischen dem Regelrumpf und dem Regelkopf. Darüber hinaus können die Attribute einen Support-Wert und einen Konfidenz-Wert umfassen. Der Support-Wert entspricht dem Prozentsatz der Einheiten, in denen die Position des Regelrumpfes von der Klassifikation des Regelkopfes unterstützt wurde. Der Konfidenz-Wert entspricht der Konfidenz der Position mit der Klassifikation.
Gemäß der vorliegenden Erfindung umfasst die Schulung des Modells des Weiteren das Feststellen für jede Einheit, welche Regeln angewendet werden können, und das für jede Einheit erfolgende Aggregieren der Lift-Werte der Regeln, die für die Einheit ermittelt wurden. Der sich ergebende aggregierte Lift-Wert zusammen mit Informationen über die jeweilige Einheit und Klassifikation werden als Eingabe für einen standardmäßigen Klassifikations-Algorithmus verwendet. Das Endergebnis ist ein Klassifikationsmodell.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Schulung eines Klassifikationsmodells bereitgestellt, um Muster in Eingabedaten zu erkennen, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören. Die Anwendung des geschulten Modells auf neue Daten umfasst den Schritt des Prüfens einer Menge von Regeln für jede Einheit, um festzustellen, welche Regel angewendet werden kann. Ferner umfasst das Verfahren die Schritte des für jede Einheit erfolgenden Aggregierens der Lift-Werte der Regeln, die für die Einheit ermittelt wurden, und des für jede Einheit erfolgenden Vorhersagens einer Klassifikation auf der Grundlage der aggregierten Lift-Werte für jede Einheit und des Klassifikationsmodells. Die Regeln, die auf jede Einheit angewendet werden können und dieselbe Klassifikation im Regelkopf haben, können zu einer Gruppe zusammengefasst werden. Die Lift-Werte von Regeln innerhalb einer Gruppe können miteinander multipliziert werden.
Mit der vorliegenden Erfindung ist es möglich, die Vorgehensweise beim Data Mining individuell auf ein bestimmtes Klassifikationsproblem abzustimmen. Für jedes Spezifikationsproblem, das auftreten könnte, kann eine bestimmte Menge von Regeln ermittelt werden. Dadurch, dass die Regeln ausgewählt werden können, lässt sich das Modell an die jeweiligen Umstände anpassen. Indem man verschiedene Regeln aus den jeweiligen Mengen von Regeln kombiniert, kann das Modell einer umfangreichen Feinabstimmung unterzogen werden. Eine bestimmte Kombination von Regeln kann für eine bestimmte Spezifikation besonders geeignet sein, während eine andere Kombination dies möglicherweise nicht ist. Ferner können die Regeln auch in Bezug auf die ganz bestimmte, vorliegende Einheit kombiniert werden. Wieder ermöglicht die enorme Anzahl von verschiedenen Regel-Kombinationen eine äußerst sensible Feinabstimmung des Modells, um sowohl das Klassifikationsproblem optimal anzugehen als auch die vorliegende Einheit optimal anzusprechen.
Wenn man das Modell der Assoziationsregeln auf diese Weise verwendet, wird die andernfalls notwendige Hierarchie im Hinblick auf die Positionen der Transaktionen überflüssig. Indem man das Modell mit Regeln verwendet, die auf der Ebene der Positionen geschult wurden, kann diese Vorgehensweise beim Data Mining in Bezug auf die Geschwindigkeit, die benötigten Datenverarbeitungsressourcen und den Verbrauch an Speicherkapazität im Vergleich mit den Dokumenten nach dem Stand der Technik, insbesondere wenn keine Hierarchie vorhanden ist, effizienter sein. Aufgrund der Einfachheit der Anwendung kann das vorliegende Modell die Hunderte von Millionen oder gar Milliarden an Datensätzen problemlos handhaben. Überdies kann die Qualität der Klassifikationsergebnisse besser sein.
Gemäß einer weiteren Erscheinungsform der vorliegenden Erfindung umfasst der Schritt des Ermittelns der Menge der anwendbaren Regeln des Weiteren das Prüfen der Positionen der Einheit und das Ermitteln der Regeln in der Regelmenge mit den Positionen des Regelrumpfes.
Gemäß einer noch anderen Erscheinungsform der vorliegenden Erfindung umfasst der Schritt des Aggregierens der Regeln des Weiteren das Zusammenfassen der ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu Gruppen und das miteinander erfolgende Multiplizieren der Lift-Werte der Regeln mit demselben Kopf.
Für eine bestimmte Einheit des frischen Datensatzes wurden alle anwendbaren Regeln ermittelt. In dieser bevorzugten Ausführungsform werden die anwendbaren Regeln nun in Abhängigkeit von den Klassifikationen in den Regelköpfen zu Gruppen zusammengefasst. Die Regeln mit denselben Klassifikationen werden in einer Gruppe zusammengefasst. Durch das Multiplizieren der Lift-Werte einer jeden Gruppe erhält man einen Hinweis auf die Klassifikation der Einheit. Die Klassifikation der Gruppe mit dem höchsten aggregierten Lift-Wert ist die wahrscheinlichste Klassifikation für die Einheit.
Gemäß einer noch weiteren Erscheinungsform der vorliegenden Erfindung umfasst der Schritt des Zusammenfassens der ermittelten Regeln zu Gruppen des Weiteren das Zusammenfassen nur derjenigen Regeln zu Gruppen, deren Lift-Werte einen vorher festgelegten Schwellwert überschreiten.
Das Zusammenfassen nur derjenigen Regeln zu Gruppen, deren zugehörige Werte einen vorher festgelegten Schwellwert überschreiten, ermöglicht eine weitere Feinabstimmung des Verfahrens in Bezug auf das ganz bestimmte, vorliegende Klassifikationsproblem. Eine der Möglichkeiten für eine Feinabstimmung des Verfahrens bestünde darin, nur die Regeln zu verwenden, die einen verhältnismäßig hohen Lift-Wert zu einer Klasse haben. Das sich ergebende Produkt aus den Lift-Werten würde einen weiteren Einblick in die Wahrscheinlichkeit einer bestimmten Klassifikation der geprüften Einheit geben.
Der Fachmann wird als vorteilhaft erkennen, dass Erscheinungsformen der vorliegenden Erfindung als ein System, ein Verfahren oder ein Rechnerprogrammprodukt realisiert werden können. Folglich können Erscheinungsformen der vorliegenden Erfindung die Form einer ganz in Hardware realisierten Ausführung, einer ganz in Software realisierten Ausführung (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Ausführung annehmen, die Software- und Hardware-Erscheinungsformen kombiniert, die hier alle allgemein als eine ”Schaltung”, ein ”Modul” oder ein ”System” bezeichnet werden können. Überdies können Erscheinungsformen der vorliegenden Erfindung die Form eines Rechnerprogrammprodukts annehmen, das sich auf einem oder mehreren rechnerlesbaren Datenträger(n) befindet, auf dem beziehungsweise denen sich rechnerlesbarer Programmcode befindet.
Jede beliebige Kombination aus einem oder mehreren rechnerlesbaren Datenträgern kann verwendet werden. Der rechnerlesbare Datenträger kann ein rechnerlesbarer Signaldatenträger oder ein rechnerlesbares Speichermedium sein. Ein rechnerlesbares Speichermedium kann zum Beispiel, ohne auf diese beschränkt zu sein, ein(e) elektronische(s), magnetische(s), optische(s), elektromagnetische(s), Infrarotoder Halbleitersystem, -vorrichtung, -einheit oder eine beliebige geeignete Kombination des Vorstehenden sein. Zu konkreteren Beispielen (wobei die Liste keinen Anspruch auf Vollständigkeit erhebt) für das rechnerlesbare Speichermedium würden folgende gehören: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine Diskette eines tragbaren Rechners, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compact-Disk-Nur-Lese-Speicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit öder jede beliebige geeignete Kombination des Vorstehenden. Im Rahmen dieses Schriftstücks kann ein rechnerlesbares Speichermedium jedes physisch greifbare Medium sein, das ein Programm zur Verwendung durch ein Befehlsausführungssystem, eine Befehlsausführungsvorrichtung oder -einheit oder zur Verwendung in Verbindung mit einem Befehlsausführungssystem, einer Befehlsausführungsvorrichtung oder -einheit enthalten oder speichern kann.
Ein rechnerlesbarer Signaldatenträger kann ein übertragenes Datensignal mit einem darin enthaltenen rechnerlesbaren Programmcode, beispielsweise in einem Basisband oder als Teil einer Trägerwelle, enthalten. Solch ein übertragenes Signal kann eine beliebige einer Vielzahl von Formen einschließlich elektromagnetischer, optischer Formen oder jede beliebige geeignete Kombination dieser Formen, ohne auf diese beschränkt zu sein, annehmen. Bei einem rechnerlesbaren Signaldatenträger kann es sich um jeden beliebigen rechnerlesbaren Datenträger handeln, der kein rechnerlesbares Speichermedium ist und der ein Programm zur Verwendung durch oder zur Verwendung in Verbindung mit einem Befehlsausführungssystem, einer Befehlsausführungsvorrichtung oder -einheit übertragen, weiterleiten oder transportieren kann.
Auf einem rechnerlesbaren Datenträger enthaltener Programmcode kann mittels eines geeigneten Mediums einschließlich eines drahtlosen Mediums, eines drahtgebundenen Mediums, eines Lichtwellenleiterkabels, mittels Hochfrequenz (HF) usw., ohne auf diese beschränkt zu sein, oder mittels jeder beliebigen geeigneten Kombination des Vorstehenden übertragen werden.
Rechner-Programmcode zur Durchführung von Operationen für Erscheinungsformen der vorliegenden Erfindung kann in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen einschließlich einer objektorientierten Programmiersprache, wie beispielsweise Java, Smalltalk, C++ oder dergleichen, sowie in herkömmlichen prozeduralen Programmiersprachen wie beispielsweise der Programmiersprache ”C” oder in ähnlichen Programmiersprachen geschrieben sein. Die Ausführung des Programmcodes kann vollständig auf dem Rechner des Benutzers, teilweise auf dem Rechner des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Rechner des Benutzers und teilweise auf einem fernen Rechner oder vollständig auf dem fernen Rechner oder Server erfolgen. Im letzteren Szenario kann der ferne Rechner mit dem Rechner des Benutzers über jede beliebige Art eines Netzwerks einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzes (WAN) verbunden sein oder die Verbindung kann zu einem externen Rechner (zum Beispiel über das Internet mittels eines Internet-Diensteanbieters) hergestellt werden.
Erscheinungsformen der vorliegenden Erfindung werden nachstehend mit Bezug auf Darstellungen in Flussdiagrammen und/oder Blockschaltbilder von Verfahren, Vorrichtungen (Systemen) und Rechnerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Darstellungen in den Flussdiagrammen und/oder der Blockschaltbilder sowie Kombinationen aus Blöcken in den Darstellungen der Flussdiagramme und/oder den Blockschaltbildern mittels Rechnerprogrammbefehlen realisiert werden können. Diese Rechnerprogrammbefehle können einem Prozessor eines Universalrechners, eines Rechners für spezielle Anwendungen oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Rechners oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel zur Ausführung der Funktionen/Vorgänge erzeugen, die in dem Flussdiagramm und/oder dem Block oder den Blöcken des Blockschaltbilds angegeben sind.
Diese Rechnerprogrammbefehle können auch auf einem rechnerlesbaren Datenträger gespeichert werden, der einen Rechner, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Art und Weise zu funktionieren, so dass die auf dem rechnerlesbaren Datenträger gespeicherten Befehle einen Herstellungsgegenstand erzeugen und Befehle enthalten, die die Funktion/den Vorgang ausführen, welche beziehungsweise welcher in dem Flussdiagramm und/oder dem Block oder den Blöcken des Blockschaltbilds angegeben ist.
Die Rechnerprogrammbefehle können auch auf einen Rechner, eine andere programmierbare Datenverarbeitungsvorrichtung oder auf andere Einheiten geladen werden, um die Durchführung einer Reihe von Betriebsschritten auf dem Rechner, einer anderen programmierbaren Vorrichtung oder auf anderen Einheiten zu bewirken, um einen von einem Rechner ausgeführten Prozess zu erzeugen, so dass die Befehle, die auf dem Rechner oder einer anderen programmierbaren Vorrichtung ausgeführt werden, Prozesse zur Ausführung der Funktionen/Vorgänge ermöglichen, die in dem Flussdiagramm und/oder dem Block oder den Blöcken des Blockschaltbilds angegeben sind.
KURZE BESCHREIBUNG DER DIVERSEN ANSICHTEN DER ZEICHNUNGEN
Bevorzugte Ausführungsformen der Erfindung sind in den beiliegenden Figuren veranschaulicht. Diese Ausführungsformen haben lediglich Beispielcharakter, d. h., sie sind nicht als Einschränkung des Inhalts und des Umfangs der beigefügten Ansprüche zu verstehen.
1 zeigt ein Flussdiagramm, in dem das beanspruchte Modell geschult wird,
2 zeigt ein Flussdiagramm, in dem das beanspruchte Modell verwendet wird,
3 zeigt ein Blockschaltbild eines Rechnersystems, das dazu dient, ein Klassifikationsmodell für die Mustererkennung zu schulen, und
4 zeigt ein Blockschaltbild eines Rechnersystems, um ein Klassifikationsmodell auf Eingabedaten anzuwenden.
AUSFÜHRLICHE BESCHREIBUNG
In 1 ist ein Flussdiagramm gezeigt, welches die Schulung des beanspruchten Verfahrens darstellt. Der Schritt 100 des Flussdiagramms umfasst das Erfassen der Schulungsdaten. Die Schulungsdaten stellen eine Menge von Einheiten dar, wobei jede Einheit einer Menge von Positionen zugeordnet wird. Die Schulungsdaten umfassen üblicherweise eine Menge von Dateneinträgen, wobei jeder Dateneintrag eine Kennung einer Einheit und eine (1) Kennung einer Position umfasst. Überdies umfassen die Schulungsdaten eine Klassifikation der Einheiten. In Abhängigkeit von dem Bereich der Anwendung können sich die Begriffe ”Einheit”, ”Position” und ”Klassifikation” auf unterschiedliche Informationen beziehen. Bei der Klassifikation von Kunden ist der Kunde die Einheit, und die Positionen sind die Gegenstände im Warenkorb des Kunden. Bei einem Fertigungsprozess kann die Klassifikation zum Erkennen von Produktionsfehlern verwendet werden. In dieser Hinsicht wäre die Einheit die Produktkennung, und die Positionen können die diskretisierte Temperatur während der Produktion, die Feuchtigkeit, der Lieferant des Rohmaterials usw. sein. Eine andere Anwendung kann eine Anwendung für Kunden einer Telefongesellschaft sein, bei der deren Gesprächsdatensätze gespeichert werden können. Das Verfahren kann auch auf eine Wortliste von Datensätzen eines Kundenbetreuungszentrums (Callcenter) angewendet werden, bei dem die Positionen bestimmte Worte sein können, die von dem Agenten des Kundenbetreuungszentrums während einer Unterhaltung mit einem Kunden gebraucht werden.
Als ein Beispiel kann der Anwendungsbereich eine Fertigungslinie für Rechner-Chips sein. Betrachten wir das Problem der Ermittlung der möglichen Ursache eines fehlerhaften Ausstoßes einer Fertigungslinie für Rechner-Chips. Während des Fertigungsprozesses wird eine große Anzahl von Parametern gemessen. Zu diesen Parametern kann die Temperatur, die Anzahl der Staubpartikel je m³ und der Name des Unternehmens gehören, welches das Halbleitermaterial geliefert hat. In einem nachfolgenden Test der produzierten Chips wird gemessen, ob in dem Chip logische Fehler auftreten.
In diesem speziellen Beispiel ist jeder Chip eine Einheit in dem Datensatz. Die Positionen in dem Datensatz einer jeden Einheit sind die Parameter wie zum Beispiel die Temperatur, die Anzahl der Staubpartikel je m³ und der Name des Unternehmens, welches das Halbleitermaterial für jeden Chip geliefert hat. Die Klassifikation spiegelt den jeweiligen Ausgang der Tests an jedem produzierten Chip wider. Zwei beispielhafte Klassifikationen sind ”logische Fehler” und ”keine logischen Fehler”.

Im Schritt 100 werden die Schulungsdaten abgerufen. Die Schulungsdaten können in einer Tabelle wie zum Beispiel der folgenden Tabelle gespeichert werden. Die Tabelle mit den Schulungsdaten umfasst eine Spalte für die Einheit und eine Spalte für die Position. In diesem speziellen Beispiel besteht die Einheit-Spalte der Tabelle aus den Kennungen der Chips. Aus Gründen der Vereinfachung werden sie Chip_1 bis Chip_5 genannt. In der zweiten Spalte befinden sich die Positionen. In diesem Fall sind sie Produktions-Parameter für die Herstellung der Chips und können auch Merkmale der Chips enthalten. Aus Gründen der Vereinfachung sind nur drei Parameter gezeigt.

Einheit/Chip-Kennung	Position/Parameter
Chip_1	X°C
Chip_1	Y ppm³
Chip_1	Unternehmen A
Chip_2	X°C
Chip_2	Y ppm³
Chip_2	Unternehmen B
Chip_3	X°C
Chip_3	Z ppm³
Chip_3	Unternehmen C
Chip_4	X°C
Chip_4	Y ppm³
Chip_4	Unternehmen A
Chip_5	Y°C
Chip_5	Y ppm³
Chip_5	Unternehmen D

Tabelle 1

Im Schritt 101 werden die bekannten Klassifikationen für jede Einheit in einer anderen Datentabelle gespeichert.

Einheit/Chip-Kennung Kategorie/Klassifikation

Chip_1 NLE (keine logischen Fehler)

Chip_2 NLE

Chip_3 LE (logische Fehler)

Chip_4 NLE

Chip_5 LE

Tabelle 2
Bei unserem Beispiel werden die bekannten Klassifikationen in der Tabelle 2 gespeichert. Die Klassifikation lautet entweder NLE für ”keine logischen Fehler” (no logical errors) oder LE für ”logische Fehler” (logical errors). Mit den Informationen in der Tabelle 1 und der Tabelle 2 weiß man folglich, dass der Chip_1 bei einer Temperatur von X°C mit Y ppm³ Staubpartikeln und unter Verwendung des Rohmaterials des Unternehmens A gefertigt wurde; der nachfolgende Test des Chips zeigte keine logischen Fehler.

Im Schritt 102 von 1 werden die Klassifikationen der Einheiten, die in der Tabelle des Schritts 101 enthalten sind, als zusätzliche Positionen zu den Transaktions-Schulungsdaten des Schritts 100 hinzugefügt. Dies kann geschehen, indem der Verbund der Tabellen des Schritts 100 und des Schritts 101 berechnet wird. Das Format der beiden Spalten der sich ergebenden Tabelle ist das am häufigsten verwendete Format bei der Anwendung des Assoziationsalgorithmus. Die resultierende Tabelle für unser Beispiel ist nachstehend gezeigt.

Einheit/Chip-Kennung	Position/Parameter
Chip_1	X°C
Chip_1	Y ppm³
Chip_1	Unternehmen A
Chip_1	NLE
Chip_2	X°C
Chip_2	Y ppm³
Chip_2	Unternehmen B
Chip_3	NLE
Chip_3	X°C
Chip_3	Z ppm³
Chip_3	Unternehmen C
Chip_3	LE
Chip_4	X°C
Chip_4	Y ppm³
Chip_4	Unternehmen A
Chip_4	NLE
Chip_5	Y°C
Chip_5	Y ppm³
Chip_5	Unternehmen D
Chip_5	LE

Tabelle 3

Im Schritt 103 von 1 wird die Klassifikation einer jeden Einheit den jeweiligen Positionen dieser Einheit zugeordnet. Es sollte erwähnt werden, dass der Schritt 103 optional ist. In diesem Fall wird jeder der Parameter in der Tabelle 3, die zu der Einheit ”Chip_1” gehören, der Klassifikation des Chip_1, die auf ”keine logischen Fehler” (NLE) lautet, zugeordnet. Beim Chip_1 wird die Temperatur X°C daher NLE zugeordnet. Ebenso wird der Wert ”Y ppm” NLE zugeordnet.
Im Schritt 104 von 1 werden die Assoziationsregeln berechnet. Jede Regel umfasst einen Kopf und einen Rumpf. Die Klassifikation der Einheiten befindet sich im Kopf der Regel, während sich die (ursprünglichen) Positionen im Rumpf der Regel befinden. Ferner sind weitere Attribute der Regeln von Interesse und werden folglich ermittelt, um die statistische Bedeutung einer jeden Regel zu ermessen. Diese Merkmale sind der Lift, die Konfidenz und der Support einer jeden Regel.
Der Support einer Regel (a => b) ist gleich der Anzahl der Transaktionen a ∪ b geteilt durch die Gesamtzahl der Transaktionen.
Die Konfidenz einer Regel (a => b) ist gleich der Anzahl der Transaktionen a ∪ b geteilt durch die Anzahl der Transaktionen mit (a) als Regelrumpf.
Der Lift einer Regel (a => b) ist gleich der Konfidenz der Regel (a ⇒ b) geteilt durch die erwartete Konfidenz der Regel (a ⇒ b). Die erwartete Konfidenz einer Regel ist die Konfidenz unter der Annahme, dass das jeweilige Vorkommen der Positionen im Regelrumpf, in diesem Fall ”a”, und im Regelkopf, hier ”b”, in den Transaktionen statistisch unabhängig voneinander ist.

In diesem speziellen Beispiel ist die folgende Tabelle ein Ergebnis der Schritte 103 und 104.

Regel	Rumpf	Kopf	Lift	Konfidenz	Support
X°C=>NLE	X°C	NLE	1,25	75,00%	60,00%
Y ppm³=>NLE	Y ppm³	NLE	1,25	75,00%	60,00%
UnternehmenA=>NLE	UnternehmenA	NLE	1,67	100,00%	40,00%
UnternehmenB=>NLE	UnternehmenB	NLE	1,67	100,00%	20,00%
X°C=>LE	X°C	LE	0,63	25,00%	20,00%
Z ppm³=>NLE	Z ppm³	LE	2,50	100,00%	20,00%
UnternehmenC=>LE	UnternehmenC	LE	2,50	100,00%	20,00%
Y°C=>LE	Y°C	LE	2,50	100,00%	20,00%
Y ppm³=>LE	Y ppm³	LE	0,63	25,00%	20,00%
UnternehmenD=>LE	UnternehmenD	LE	2,50	100,00%	20,00%

Tabelle 4

Im Schritt 105 von 1 werden alle Regeln ermittelt, die auf jede Einheit des Schulungsmodells angewendet werden können. Das Ergebnis ist die folgende Tabelle 5. Aus Gründen der Vereinfachung erfolgt dies nur für den Chip_1 und den Chip_2. Während der Schulung des Modells wird dieser Schritt für alle Schulungsdaten durchgeführt.

Chip_Kennung	Rumpf	Kopf	Regel	Lift
Chip_1	X°C	NLE	X°C=>NLE	1,25
Chip_1	X°C	LE	X°C=>LE	0,63
Chip_1	Y ppm³	NLE	Y ppm³=>NLE	1,25
Chip_1	Y ppm³	LE	Y ppm³=>LE	0,63
Chip_1	Unternehmen A	NLE	UnternehmenA=>NLE	1,67
Chip_2	X°C	NLE	X°C=>NLE	1,25
Chip_2	X°C	LE	X°C=>LE	0,63
Chip_2	Y ppm³	NLE	Y ppm³=>NLE	1,25
Chip_2	Y ppm³	LE	Y ppm³=>LE	0,63
Chip_2	Unternehmen B	NLE	UnternehmenB=>NLE	1,67

Tabelle 5

Als Nächstes werden die Lift-Werte für jede Einheit aggregiert. In diesem speziellen Beispiel werden die auf den Chip_1 anwendbaren Regeln in Abhängigkeit von dem Kopf der Regeln zu Gruppen zusammengefasst. Dasselbe geschieht mit den anderen Einheiten. Dies passiert im Schritt 106 von 1. Um die Lift-Werte zu aggregieren, werden sie im Schritt 106 für alle Regeln mit demselben Kopf multipliziert. Wenn dies für die Gruppe der Regeln durchgeführt wird, die NLE in ihrem Kopf haben, wird der sich ergebende Wert mit prodliftNLE bezeichnet. Ebenso wird der sich ergebende Wert der Gruppe von Regeln, die LE im Kopf haben, mit prodliftLE bezeichnet.

Die Schritte 105 und 106 können mit verschiedenen Gruppen von Regeln wiederholt werden. Es ist möglich und aus statistischen Gründen sinnvoll, nur diejenigen Regeln zu verwenden, deren Lift-Wert über einem bestimmten Schwellwert liegt, wie zum Beispiel Lift-Werte von 1 und 1,5. Wenn der erste ausgewählte Schwellwert 1 wäre, würden die Lift-Werte der Regeln für den Chip_1, die über 1 lägen, in Abhängigkeit von ihrem jeweiligen Regelkopf zu Gruppen zusammengefasst und anschließend multipliziert. Die sich ergebenden aggregierten Werte werden mit prodlift10NLE und prodlift10LE bezeichnet. Bei einem Schwellwert von 1,5 würden nur diejenigen Lift-Werte der Regeln für den Chip_1, die größer als 1,5 wären, zu Gruppen zusammengefasst und multipliziert werden. Die sich ergebenden aggregierten Werte werden dann mit prodlift15NLE und prodlift15LE bezeichnet. Die folgende Tabelle zeigt das Ergebnis einer solchen Berechnung für den Chip_1 bis zum Chip_5.

Chip_Kennung	ProdLift NLE	ProdLift 10NLE	ProdLift 15NLE	ProdLift LE	ProdLift 10LE	ProdLift 15LE	Kategorie
Chip_1	2,61	2,61	1,67	0,39	1	1	NLE
Chip_2	2,61	2,61	1,67	0,39	1	1	NLE
Chip_3	1,25	1,25	1,25	3,94	6,25	6,25	LE
Chip_4	2,61	2,61	1,67	0,39	1	1	NLE
Chip_5	1,25	1,25	1,25	3,94	6,25	6,25	LE

Tabelle 6

Im Schritt 107 von 1 werden diese aggregierten Lift-Werte als Eingabe für einen Klassifikations-Algorithmus verwendet, um ein Modell zu ermitteln, das zwischen den beiden Klassifikationen NLE und LE unterscheiden kann. In diesem speziellen Beispiel unterscheidet der Test ”prodLiftNLE > 2” zwischen den beiden Klassifikationen. Mit der Menge von Regeln und ihrer Attribute, zusammen mit den Informationen über die Einheiten und ihre aggregierten Lift-Werte sowie den Unterscheidungstest ist die Schulung des Klassifikationsmodells abgeschlossen.
In 2 ist ein Flussdiagramm gezeigt, welches die Anwendung des beanspruchten Modells auf einen neuen Datensatz darstellt. Der Schritt 200 des Flussdiagramms umfasst das Erfassen des neuen Datensatzes. Der neue Datensatz umfasst eine Menge von Einheiten (Einheit-Kennungen) und eine Menge von Positionen für jede Einheit. Die Klassifikation der Einheiten muss von dem beanspruchten Verfahren vorgenommen werden, weshalb es in dem neuen Datensatz keine Klassifikation der Einheiten gibt.
Nochmals auf den beispielhaften Betriebsbereich in einem Fertigungsprozess für Rechner-Chips zurückkommend, kann ein neuer Datensatz wie in der Tabelle dargestellt aussehen.

Einheit/Chip-Kennung Position/Parameter

Chip_6 X°C

Chip_6 Y ppm3

Chip_6 Unternehmen A

Chip_7 Y°C

Chip_7 Z ppm3

Chip_7 Unternehmen D

Tabelle 7

Im Schritt 201 von 2 werden alle vorhandenen Regeln dahingehend geprüft, ob sie auf den neuen Datensatz angewendet werden können. Auf den Chip_6 kann zum Beispiel jede Regel mit X°C, Y ppm³ und dem Unternehmen A im Regelrumpf angewendet werden. Wenn man die anwendbaren Regeln für jede Einheit des neuen Datensatzes zusammenstellt, würde dies die folgende Tabelle ergeben. Aus Gründen der Vereinfachung werden nur die anwendbaren Regeln des Chip_6 gezeigt.

Chip_Kennung	Rumpf	Kopf	Regel	Lift
Chip_6	X°C	NLE	X°C=>NLE	1,25
Chip_6	X°C	LE	X°C=>LE	0,63
Chip_6	Y ppm³	NLE	Y ppm³=>NLE	1,25
Chip_6	Y ppm³	LE	Y ppm³=>LE	0,63
Chip_6	Unternehmen A	NLE	UnternehmenA=>NLE	1,67

Tabelle 8

Als Nächstes werden die Lift-Werte für jede Einheit aggregiert. In diesem speziellen Beispiel werden die auf den Chip_6 anwendbaren Regeln in Abhängigkeit von dem Kopf der Regeln zu Gruppen zusammengefasst. Dies passiert im Schritt 202 von 2. Um die Lift-Werte zu aggregieren, werden sie im Schritt 203 für alle Regeln mit demselben Kopf multipliziert. Wenn dies für die Gruppe der Regeln durchgeführt wird, die NLE in ihrem Kopf haben, wird der sich ergebende Wert mit prodliftNLE bezeichnet. Ebenso wird der sich ergebende Wert der Gruppe von Regeln, die LE im Kopf haben, mit prodliftLE bezeichnet.
Die Schritte 202 und 203 können mit verschiedenen Gruppen von Regeln wiederholt werden. Es ist möglich und aus statistischen Gründen sinnvoll, nur diejenigen Regeln zu verwenden, deren Lift-Wert über einem bestimmten Schwellwert liegt, wie zum Beispiel Lift-Werte von 1 und 1,5. Wenn der erste ausgewählte Schwellwert 1 wäre, würden die Lift-Werte der Regeln für den Chip_6, die über 1 lägen, in Abhängigkeit von ihrem jeweiligen Regelkopf zu Gruppen zusammengefasst und anschließend multipliziert werden. Die sich ergebenden aggregierten Werte werden mit prodlift10NLE und prodlift10LE bezeichnet. Bei einem Schwellwert von 1,5 würden nur diejenigen Lift-Werte der Regeln für den Chip_6, die größer als 1,5 wären, zu Gruppen zusammengefasst und multipliziert werden. Die sich ergebenden aggregierten Werte werden dann mit prodlift15NLE und prodlift15LE bezeichnet. Die folgende Tabelle zeigt das Ergebnis einer solchen Berechnung für den Chip_6.

Chip_Kennung ProdLift NLE ProdLift 10NLE ProdLift 15NLE ProdLiftLE ProdLift 10LE ProdLift 15LE Kategorie

Chip_6 2,61 2,61 1,67 0,39 1 1 NLE

Tabelle 9
Die Schwellwerte für die verschiedenen Gruppen können in Abhängigkeit von der Anwendung des Modells unterschiedlich sein. Schwellwerte von 1, 1,2, 1,5 und 1,8 sind gegebenenfalls auch möglich. Auch kann das in 1 gezeigte Schulungsverfahren ähnlich dem in 2 gezeigten Verfahren den Gruppierungsschritt 202 und den Multiplikationsschritt 203 beinhalten.
In dem letzten Schritt von 2, im Schritt 204, wird eine Klassifikation auf der Grundlage der aggregierten Lift-Werte für jede Einheit vorhergesagt. Bei dem aktuellen Beispiel tendieren die prodLift-Werte der Tabelle 6 eindeutig gegen NLE. Ferner wird der Unterscheidungstest des Klassifikationsmodells angewendet. Der Unterscheidungstest ”prodLiftNLE > 2” führt auch zu der Schlussfolgerung, dass der Chip_6 als NLE klassifiziert werden kann. Auf der Grundlage des beanspruchten Verfahrens wird der Chip_6 folglich als zur Kategorie NLE gehörend und keine logischen Fehler aufweisend klassifiziert.
3 zeigt als Beispiel ein Blockschaltbild eines Rechnersystems 300, das dazu dient, ein Klassifikationsmodell für die Mustererkennung zu schulen. Das Rechnersystem 300 enthält eine Eingabe-Komponente 310, um eine Menge von zuvor erfassten Eingabedaten (Schulungsdaten; zum Beispiel wie in Tabelle 1) abzurufen. Wie vorstehend erörtert wurde, enthalten die Schulungsdaten eine Vielzahl von Positionen, die zu einer Vielzahl von Einheiten gehören. Das Rechnersystem 300 enthält auch eine Einheitenklassifikations-Komponente 320, um zu jeder Einheit in den Schulungsdaten eine bekannte Klassifikation hinzuzufügen. Die Komponente 320 empfängt die Klassifikationsinformationen (siehe zum Beispiel Tabelle 2) als Eingabe und ordnet die bekannte Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zu. Die Ausgabe der Komponente 320 ist beispielsweise wie in Tabelle 3 gezeigt. Die Regelermittlungs-Komponente 330 dient dazu, verschiedene Regeln auf der Grundlage der Schulungsdaten zu ermitteln und die bekannten Klassifikationen auf der Grundlage der Ausgabe der Komponente 320 zu ermitteln.
Eine Komponente 340 zur Ermittlung anwendbarer Regeln dient dazu, für jede Einheit in den Schulungsdaten festzustellen, welche Regeln angewendet werden können. Die Komponente 340 empfängt als Eingabe alle möglichen Assoziationsregeln und die Ausgabe von der Komponente 320. Eine Aggregierungs-Komponente 350 dient dazu, für jede Einheit in den Schulungsdaten die Lift-Werte der Regeln, die in der Komponente 340 für die Einheit ermittelt wurden, zu aggregieren. Eine Ausgabe-Komponente 360 gibt die sich ergebenden aggregierten Lift-Werte (von der Komponente 350) zusammen mit der jeweiligen Einheit und Klassifikation (von der Komponente 320) als Eingabe für einen standardmäßigen Klassifikations-Algorithmus 380 aus. Das Ergebnis des standardmäßigen Klassifikations-Algorithmus ist ein Klassifikationsmodell 390.
4 zeigt als Beispiel ein Blockschaltbild eines Rechnersystems 400, das dazu dient, ein Klassifikationsmodell 380 auf Eingabedaten anzuwenden. Die Einheiten der Eingabedaten sind nicht klassifiziert, und das Ziel besteht darin, sie mit Hilfe des Klassifikationsmodells 380 zu klassifizieren. Eine Prüfkomponente 410 dient dazu, für jede Einheit in dem Eingabe-Datensatz eine Menge von Regeln des Klassifikationsmodells zu prüfen, um festzustellen, welche Regeln angewendet werden können. Von der Komponente 410 ausgegeben werden beispielsweise die Einheiten der Eingabedaten und die auf jede Einheit anwendbaren Regeln. Eine Aggregierungs-Komponente 420 dient dazu, für jede Einheit die Lift-Werte der Regeln von dem Klassifikationsmodell, die für die Einheit ermittelt wurden, zu aggregieren. Die Lift-Werte werden üblicherweise in der Komponente 410 berechnet und dann in der Komponente 420 aggregiert. Eine Vorhersage-Komponente 430 dient dazu, für jede Einheit eine Klassifikation auf der Grundlage des aggregierten Lift-Werts und des Klassifikationsmodells vorherzusagen. Die Aggregierungs-Komponente 420 kann eine Gruppierungs-Komponente 422 und eine Multiplikations-Komponente 424 enthalten. Die Gruppierungs-Komponente 422 dient dazu, für jede Einheit in den Eingabedaten die ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu Gruppen zusammenzufassen. Die Multiplikations-Komponente 424 dient dazu, die Lift-Werte der Regeln mit demselben Kopf einer jeden Gruppe miteinander zu multiplizieren. Auch kann das zur Schulung eines Klassifikationsmodells dienende Rechnersystem 300 die Gruppierungs-Komponente 422 und die Multiplikations-Komponente 424 enthalten.
Das Flussdiagramm und die Blockschaltbilder in den Figuren zeigen die Architektur, die Funktionalität und die Betriebsweise von möglichen Ausführungsarten von Systemen, Verfahren und Rechnerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In dieser Hinsicht kann jeder Block in dem Flussdiagramm oder den Blockschaltbildern ein Modul, ein Segment oder einen Teil von Code darstellen, das beziehungsweise der einen oder mehrere ausführbare Befehle zur Ausführung der angegebenen logischen Funktion(en) umfasst. Es sei auch angemerkt, dass die in dem Block angegebenen Funktionen in manchen alternativen Ausführungsarten in einer anderen als in der in den Figuren angegebenen Reihenfolge auftreten können. In Abhängigkeit von der mit ihnen verbundenen Funktionalität können beispielsweise zwei Blöcke, die als aufeinanderfolgende Blöcke dargestellt sind, tatsächlich weitgehend gleichzeitig ausgeführt werden oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden. Man wird auch feststellen, dass jeder Block der Blockschaltbilder und/oder der Darstellung in dem Flussdiagramm sowie Kombinationen aus Blöcken in den Blockschaltbildern und/oder der Darstellung in dem Flussdiagramm von Systemen, die auf Hardware für spezielle Anwendungen beruhen und die angegebenen Funktionen oder Vorgänge durchführen, oder von Kombinationen aus Hardware für spezielle Anwendungen und Rechnerbefehlen ausgeführt werden können.
In den beigefügten Ansprüchen bezieht sich ein rechnergestütztes Verfahren auf ein Verfahren, dessen Schritte von einem Rechnersystem durchgeführt werden, das eine geeignete Kombination aus einem oder mehreren Prozessoren, Rechnerspeichermitteln und Speichermitteln enthält.
Während das Vorstehende mit Bezug auf bestimmte Ausführungsformen der Erfindung beschrieben wurde, versteht der Fachmann, dass Änderungen an diesen Ausführungsformen vorgenommen werden können, ohne von den Grundgedanken und dem Wesen der Erfindung abzuweichen, deren Umfang von den beigefügten Ansprüchen angegeben wird.

Claims

Rechnergestütztes Verfahren, um ein Klassifikationsmodell zum Erkennen von Mustern in Eingabedaten zu schulen, wobei die Schulung des Modells die folgenden Schritte umfasst: Abrufen (100) einer Menge von zuvor erfassten Eingabedaten, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören, Hinzufügen (102) einer bekannten Klassifikation zu jeder Einheit, Ermitteln (103, 104) von Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation, wobei die Regeln die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zuordnen, wobei jede Regel eine Menge von Attributen umfasst, für jede Einheit Feststellen (105), welche Regeln angewendet werden können, für jede Einheit Aggregieren (106) der Lift-Werte der für die Einheit ermittelten Regeln, und Verwenden (107) des sich ergebenden aggregierten Lift-Werts zusammen mit Informationen über die jeweilige Einheit und Klassifikation als Eingabe für einen standardmäßigen Klassifikations-Algorithmus, wobei das Ergebnis ein Klassifikationsmodell ist.
Verfahren nach Anspruch 1, wobei der Schritt des Aggregierens des Weiteren Folgendes umfasst: für jede Einheit Zusammenfassen der ermittelten anwendbaren Regeln mit denselben Klassifikationen im Regelkopf zu jeweiligen Gruppen und miteinander erfolgendes Multiplizieren der Lift-Werte der Regeln mit demselben Kopf.
Verfahren nach einem der vorhergehenden Ansprüche, wobei jede Regel Folgendes umfasst: eine Klassifikation als Regelkopf, eine Position als Regelrumpf, und wobei die Menge der Attribute einer jeden Regel Folgendes umfasst: einen Lift-Wert, einen Support-Wert oder einen Konfidenz-Wert.
Rechnergestütztes Verfahren zum Anwenden eines Klassifikationsmodells auf Eingabedaten, wobei die Eingabedaten eine Vielzahl von Positionen enthalten, die zu einer Einheit gehören, wobei das Verfahren die folgenden Schritte umfasst: für die Einheit Prüfen (201) einer Menge von Regeln von dem Klassifikationsmodell, um festzustellen, welche Regeln angewendet werden können, für die Einheit Aggregieren (202, 203) der Lift-Werte der für die Einheit ermittelten Regeln von dem Klassifikationsmodell, und für die Einheit Vorhersagen (204) einer Klassifikation auf der Grundlage des aggregierten Lift-Werts und des Klassifikationsmodells.
Verfahren nach Anspruch 4, wobei der Schritt des Aggregierens der Regeln des Weiteren Folgendes umfasst: Zusammenfassen (202) der ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu Gruppen und miteinander erfolgendes Multiplizieren (203) der Lift-Werte der Regeln mit demselben Kopf.
Verfahren nach Anspruch 5, wobei der Schritt des Zusammenfassens der ermittelten Regeln zu Gruppen des Weiteren Folgendes umfasst: Zusammenfassen (202) von nur denjenigen Regeln zu Gruppen, deren Lift-Werte einen vorher festgelegten Schwellwert überschreiten.
Verfahren nach einem der vorhergehenden Ansprüche, wobei es sich bei den Eingabedaten um Daten aus einem Fertigungsprozess handelt.
Rechnersystem, wobei das Rechnersystem Folgendes umfasst: ein Mittel, um eine Menge von zuvor erfassten Eingabedaten abzurufen, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören, ein Mittel, um eine bekannte Klassifikation zu jeder Einheit hinzuzufügen, ein Mittel, um Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation zu ermitteln, indem die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zugeordnet wird, wobei jede Regel eine Menge von Attributen umfasst, ein Mittel, um für jede Einheit festzustellen, welche Regeln angewendet werden können, ein Mittel, um für jede Einheit die Lift-Werte der für die Einheit ermittelten Regeln zu aggregieren, und ein Mittel, um den sich ergebenden aggregierten Lift-Wert zusammen mit Informationen über die jeweilige Einheit und Klassifikation als Eingabe für einen standardmäßigen Klassifikations-Algorithmus zu verwenden, wobei das Ergebnis ein Klassifikationsmodell ist.
Rechnersystem nach Anspruch 8, wobei das Rechnersystem des Weiteren Folgendes umfasst: ein Mittel, um für jede Einheit auf der Grundlage der Ausgabe des Mittels, das dazu dient, für jede Einheit festzustellen, welche Regeln angewendet werden können, die ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu jeweiligen Gruppen zusammenzufassen, und ein Mittel, um die Lift-Werte der Regeln mit demselben Kopf einer jeden Gruppe miteinander zu multiplizieren.
Rechnersystem zum Anwenden eines Klassifikationsmodells auf Eingabedaten, wobei die Eingabedaten eine Vielzahl von Positionen enthalten, die zu einer Einheit gehören, wobei das Rechnersystem Folgendes umfasst: ein Mittel, um für die Einheit eine Menge von Regeln von dem Klassifikationsmodell zu prüfen, um festzustellen, welche Regeln angewendet werden können, ein Mittel, um für die Einheit die Lift-Werte der für die Einheit ermittelten Regeln von dem Klassifikationsmodell zu aggregieren, und ein Mittel, um für die Einheit eine Klassifikation auf der Grundlage des aggregierten Lift-Werts und des Klassifikationsmodells vorherzusagen.
Rechnersystem nach Anspruch 10, wobei das Rechnersystem des Weiteren Folgendes umfasst: ein Mittel, um die ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu Gruppen zusammenzufassen, und ein Mittel, um die Lift-Werte der Regeln mit demselben Kopf einer jeden Gruppe miteinander zu multiplizieren.
Rechnerprogrammprodukt, das einen von einem Rechner nutzbaren Datenträger umfasst, der einen von einem Rechner nutzbaren Programm-Code enthält, wobei der von einem Rechner nutzbare Programm-Code so ausgelegt ist, dass er das Verfahren nach den Ansprüchen 1 bis 3 durchführt.
Rechnerprogrammprodukt, das einen von einem Rechner nutzbaren Datenträger umfasst, der einen von einem Rechner nutzbaren Programm-Code enthält, wobei der von einem Rechner nutzbare Programm-Code so ausgelegt ist, dass er das Verfahren nach den Ansprüchen 4 bis 7 durchführt.
Rechnersystem, wobei das Rechnersystem Folgendes umfasst: eine Eingabe-Komponente, um eine Menge von zuvor erfassten Eingabedaten abzurufen, die eine Vielzahl von Positionen enthalten, welche zu einer Vielzahl von Einheiten gehören, eine Einheitenklassifikations-Komponente, um eine bekannte Klassifikation zu jeder Einheit hinzuzufügen, eine Regelermittlungs-Komponente, um Regeln aus der Menge der zuvor erfassten Eingabedaten und der bekannten Klassifikation zu ermitteln, indem die Klassifikation einer jeden Einheit den jeweiligen Positionen der Einheit zugeordnet wird, wobei jede Regel eine Menge von Attributen umfasst, eine Komponente zur Ermittlung anwendbarer Regeln, um für jede Einheit festzustellen, welche Regeln angewendet werden können, eine Aggregierungs-Komponente, um für jede Einheit die Lift-Werte der für die Einheit ermittelten Regeln zu aggregieren, und eine Ausgabe-Komponente, um den sich ergebenden aggregierten Lift-Wert zusammen mit Informationen über die jeweilige Einheit und Klassifikation als Eingabe für einen standardmäßigen Klassifikations-Algorithmus zu verwenden, wobei das Ergebnis ein Klassifikationsmodell ist.
Rechnersystem nach Anspruch 14, wobei das Rechnersystem des Weiteren Folgendes umfasst: eine Gruppierungs-Komponente, um auf der Grundlage der Ausgabe der Komponente zur Ermittlung anwendbarer Regeln für jede Einheit Regeln mit denselben Klassifikationen im Regelkopf zu jeweiligen Gruppen zusammenzufassen, und eine Multiplikations-Komponente, um die Lift-Werte der Regeln mit demselben Kopf einer jeden Gruppe miteinander zu multiplizieren.
Rechnersystem zum Anwenden eines Klassifikationsmodells auf Eingabedaten, wobei die Eingabedaten eine Vielzahl von Positionen enthalten, die zu einer Einheit gehören, wobei das Rechnersystem Folgendes umfasst: eine Prüfkomponente, um für die Einheit eine Menge von Regeln von dem Klassifikationsmodell zu prüfen, um festzustellen, welche Regeln angewendet werden können, eine Aggregierungs-Komponente, um für die Einheit die Lift-Werte der für die Einheit ermittelten Regeln von dem Klassifikationsmodell zu aggregieren, und eine Vorhersage-Komponente, um für die Einheit eine Klassifikation auf der Grundlage des aggregierten Lift-Werts und des Klassifikationsmodells vorherzusagen.
Rechnersystem nach Anspruch 16, wobei das Rechnersystem des Weiteren Folgendes umfasst: eine Gruppierungs-Komponente, um die ermittelten Regeln mit denselben Klassifikationen im Regelkopf zu Gruppen zusammenzufassen, und eine Multiplikations-Komponente, um die Lift-Werte der Regeln mit demselben Kopf einer jeden Gruppe miteinander zu multiplizieren.