DE69734123T2

DE69734123T2 - Verfahren zur erzeugung eines klassifikationsmodells

Info

Publication number: DE69734123T2
Application number: DE69734123T
Authority: DE
Inventors: Hiroaki Fujisawa-shi TSUTSUI
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 1997-11-19
Filing date: 1997-11-19
Publication date: 2006-06-22
Anticipated expiration: 2017-11-20
Also published as: JP3614863B2; EP1351184B1; DE69734123D1; EP1351184A1; WO1999026164A1; EP1351184A4; US6510245B1

Description

1. GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Verfahren zur Mustererkennung oder Situationsklassifikation gemäß dem Oberbegriff von Anspruch 1, zur Erkennung von z.B. Sprach- oder Bildmustern oder zur Situationsklassifikation in der Prozesssteuerung und ein Aufzeichnungsmedium, auf dem ein Programm aufgezeichnet ist, das einen Computer veranlasst, das Verfahren auszuführen.
2. ALLGEMEINER STAND DER TECHNIK
Systeme, die im Bereich der Prozesssteuerung und Ähnlichem verwendet werden, müssen eine Situationsklassifikation leisten können, um zu unterscheiden, ob die gegenwärtige Situation eine anormale Situation ist oder einen vorher festgelegten Vorgang erfordert. Die Situationsklassifikation zur Ermittlung von Anomalien oder zur Entscheidung, ob ein und welcher Vorgang erforderlich ist, kann als eine Aufgabe zur Klassifikation von Situationen durch Einteilen in anormale und normale Situationen oder die Vorgänge A und B in einem Merkmalsraum betrachtet werden, der durch Merkmalsmengen definiert ist (im Folgenden als Variablen bezeichnet), die zur Situationsklassifikation verwendet werden.
Als herkömmliches Verfahren zur Durchführung der Situationsklassifikation ist ein Diskriminanzanalyseverfahren bekannt. Wenn Klassen vorhanden sind, die durch eine Vielzahl von Arten von Variablen gekennzeichnet sind, wird nach dem Diskriminanzanalyseverfahren eine bestimmte Klasse, zu der die Situation gehört, die klassifiziert werden soll, auf der Grundlage von Daten unterschieden, die zu den jeweiligen Klassen gehören. Dieses Verfahren beruht im Allgemeinen auf statistischen Verfahren.
Angenommen, eine Klasse, die ein bestimmtes Ziel erreicht hat, wird als Klasse A definiert, und eine Klasse, die das Ziel nicht erreicht hat, wird als Klasse B definiert, und eine Vielzahl von Daten, die durch die Variablen x1, x2,..., xn (beispielsweise die Anzahl der Kundenbesuche, Telefonkosten und der Zahlenwert, der durch die mengenmäßige Bestimmung von Begeisterung ermittelt wird) gekennzeichnet ist, wurde für die jeweiligen Klassen ermittelt. In diesem Fall wird bei dem Diskriminanzanalyseverfahren eine Diskriminationsfunktion Y verwendet, durch die den jeweiligen Variablen Gewichtungen zugeordnet werden, um den Unterschied zwischen den Klassen A und B deutlich zu machen. Y = a1 × 1 + a2 × 2 + ..... + an × n (1)wobei a1, a2,..., an die Gewichtungen für die jeweiligen Variablen sind. Es ist zu beachten, dass die Gleichung (1) als Beispiel für Diskriminationsfunktionen für einen Fall aufgeführt ist, in dem die Diskriminationsfunktion Y linear ist (die Varianz-Kovarianz-Matrizen für die jeweiligen Klassen sind gleich). 21 zeigt, wie die Diskriminationsfunktion Y ermittelt wird, wenn der Raum von Klasse A als Gruppe der Daten Da und der Raum von Klasse B als Gruppe der Daten Db im zweidimensionalen Merkmalsraum vorliegen, der durch die Variablen x1 und x2 definiert ist. Wenn eine Situation mit Y > 0 eintritt, kann mit dieser Funktion ermittelt werden, dass die Situation zu Klasse A gehört. Wenn eine Situation mit Y < 0 eintritt, kann ermittelt werden, dass die Situation zu Klasse B gehört.
Es ist ein weiteres Verfahren zur Durchführung der Situationsklassifikation bekannt, ein Mustererkennungsverfahren zum Erkennen eines Gegenstands auf der Grundlage einer Form, eines Modus' oder eines Musters, die, der bzw. das den Gegenstand kennzeichnet. Als dieses Mustererkennungsverfahren wurde ein Verfahren vorgeschlagen, bei dem ein neuronales Netz verwendet wird (Gail A. Carpenter und Stephen Grossberg, „PATTERN RECOGNITION BY SELF-ORGANIZING NEURAL NETWORKS", A Bradford Book, 1991). Als weiteres Mustererkennungsverfahren wurde ein Verfahren vorgeschlagen, bei dem ein RCE-Netz (Restricted Coulomb Energy) verwendet wird (D.L. Reilly, L.N. Cooper und C. Elbaum, „Self Organizing Pattern Class Separator and Identifier", US-Patentschrift 4,326,259, erteilt am 20. April 1982).
Ein neuronales Netz ist ein Versuch, in technischer Hinsicht auf der Grundlage von Neuronen wie im Gehirn eines Lebewesens einen Mechanismus zur parallelen Informationsverarbeitung umzusetzen. Wenn ein neuronales Netz zur Situationsklassifikation verwendet werden soll, müssen dem neuronalen Netz Variablen, die in verschiedenen typischen Situationen enthalten sind, und Unterscheidungsergebnisse, die das neuronale Netz in Übereinstimmung mit den Variablen ausgeben soll, zugeführt werden, damit es lernt, damit die gewünschten Unterschei dungsergebnisse erhalten werden. Als Verfahren, mit dem das neuronale Netz zum Lernen veranlasst wird, wird im Allgemeinen ein Rückwärtspropagierungsverfahren eingesetzt.
Ein RCE-Netz wird zur Klassifizierung eines Merkmalsraums verwendet, durch Annäherung an Klassen, die einen linear untrennbaren mehrdimensionalen Raum einnehmen, mit einer Vielzahl graphischer Grundmuster (z.B. mehrdimensionale Hypersphären). In dem Fall, der in 22 gezeigt ist, erfolgt die Annäherung an die Räume der linear untrennbaren Klassen A und B mit den graphischen Grundmustern Ca beziehungsweise Cb, um den zweidimensionalen Merkmalsraum zu klassifizieren, der durch die Variablen x1 und x2 definiert ist.
Laut dem Diskriminanzanalyseverfahren muss jedoch die Annäherung an eine Diskriminationsfunktion mit einem Polynom höherer Ordnung erfolgen, wenn die Räume der jeweiligen Klassen nicht linear getrennt werden können. Wenn daher viele Arten von Variablen notwendig sind und der Raum jeder Klasse kompliziert ist, ist es schwierig, eine Diskriminationsfunktion abzuleiten.
Bei dem Verfahren, bei dem das neuronale Netz eingesetzt wird, ist die Lerngeschwindigkeit des neuronalen Netzes gering (im Allgemeinen sind etwa 100 bis 1000 Lernvorgänge notwendig; es dauert in einigen Fällen etwa eine Woche). Außerdem ist es schwierig, eine für die Klassifikation bestmögliche Netzkonfiguration zu bestimmen. Da zudem die Durchführung der Klassifikationsverarbeitung viel Zeit benötigt, d.h. das Klassifizieren von Situationen auf der Grundlage von Variablen, die die Situationen kennzeichnen, wird ein teurer Halbleiterchip benötigt, um die Verarbeitungsgeschwindigkeit zu erhöhen.
Bei dem Verfahren, bei dem das RCE-Netz eingesetzt wird, werden die graphischen Grundmuster Ca und Cb, die sich auf die Daten Da beziehungsweise Db konzentrieren, die zu den Klassen A beziehungsweise B gehören, so erzeugt, dass sie eine Größe aufweisen, die die übrigen Klassen nicht beeinflusst. Jedoch liegen die Daten Da und Db, die als Mittelpunkte der graphischen Grundmuster dienen, nicht immer an Stellen, an denen eine richtige Annäherung an die Räume der Klassen A und B erfolgen kann. Aus diesem Grund kann eine Situation, die nicht in einer bestimmten Klasse enthalten sein soll, als eine Situation bestimmt werden, die zu der Klasse gehört. Das heißt, dass ein Erkennungsfehler auftreten kann. Zum Beispiel erfolgt die Annäherung der graphischen Grundmuster Cb in dem Fall, der in 22 gezeigt ist, richtig an den Raum von Klasse B, wohingegen einige graphische Grundmuster Ca aus dem Raum von Klasse A hervorragen. In diesem Fall kann daher eine Situation, die nicht in Klasse A enthalten sein soll, als eine Situation bestimmt werden, die zu Klasse A gehört. Außerdem wird laut dem Verfahren, bei dem das RCE-Netz verwendet wird, die Klassifikation durch einige Daten beeinflusst, wenn sich diese Daten entfernt von den Datengruppen der jeweiligen Klassen befinden. Postaire J.-G. et a1. („Cluster Analysis by Binary Morphology", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 15, No. 2, 1993) beschreiben ein Clusteranalyseverfahren gemäß dem Oberbegriff von Anspruch 1.
Die vorliegende Erfindung wurde gemacht, um die vorgenannten Aufgaben zu lösen und ihre Aufgabe ist es, ein Verfahren zum Erzeugen eines Klassifikationsmodells bereitzustellen, bei dem die Lerngeschwindigkeit und die Klassifikationsverarbeitungsgeschwindigkeit hoch sind und eine richtige Annäherung an die Räume der Klassen erfolgen kann, selbst wenn die Räume der jeweiligen Klassen nicht linear getrennt werden können.
[Mittel zum Lösen der Aufgabe]
Diese Aufgabe wird erfindungsgemäß durch die Merkmale der Ansprüche 1 und 6 gelöst.
Bei der vorliegenden Erfindung wird auf der Grundlage eines statistischen Signifikanzniveaus (Datendichte) die Divisionszahl m bestimmt, um einen Merkmalsraum zu teilen, und die erzeugten geteilten Bereiche werden in Abhängigkeit davon klassifiziert, ob sie n-dimensionale Daten enthalten oder nicht, wodurch ein Klassifikationsmodell erzeugt wird. Mit diesem Vorgang kann ein Klassifikationsmodell erzeugt werden, bei dem eine richtige Annäherung an den Raum jeder Klasse erfolgt, selbst wenn die Räume der jeweiligen Klassen nicht linear getrennt werden können. Außerdem kann ein geteilter Bereich, der zu einer Klasse gehören sollte, zu einer Lernbereichsgruppe hinzugefügt werden, indem der Schritt des Erweiterns der Lerngruppe und der Schritt des Zusammenziehens der Lernbereichsgruppe ausgeführt werden.
[Wirkung]
Erfindungsgemäß wird, wie in Anspruch 1 beschrieben ist, die Divisionszahl m auf der Grundlage eines statistischen Signifikanzniveaus bestimmt, um den Merkmalsraum zu teilen, und alle n-dimensionalen Eingabedaten werden mit einem entsprechenden geteilten Bereich assoziiert. Mit diesem Vorgang kann ein Klassifikationsmodell erzeugt werden, mit dem die Räume der jeweiligen Klassen nichtlinear getrennt werden können, selbst wenn die Räume der jeweiligen Klassen nicht linear getrennt werden können. Folglich kann die Klassifikationsverarbeitung mit einem geringen Klassifikationsfehlerverhältnis erfolgen, da eine genaue Annäherung an den Raum jeder Klasse möglich ist. Da durch Bestimmung der Divisionszahl m auf der Grundlage eines statistischen Signifikanzniveaus geteilte Bereiche erzeugt werden, die jeweils eine statistisch signifikante Größe aufweisen, kann der Einfluss einer unausgeglichenen Datenverteilung verringert werden. Da außerdem nicht mehr geteilte Bereiche als notwendig erzeugt werden, kann die Speicherkapazität, die im Computer verwendet wird, im Vergleich zum herkömmlichen Mustererkennungsverfahren verringert werden und die Lerngeschwindigkeit zum Erzeugen eines Klassifikationsmodells und die Klassifikationsverarbeitungsgeschwindigkeit können erhöht werden. Weiterhin kann der Anwender die Klassifikationsverarbeitung zurückhalten, wenn der Anwender des Systems auf den Lernzustand der Daten um Daten herum Bezug nimmt, die der zu klassifizierenden Situation entsprechen, und bestimmt, dass die Daten zum Erzeugen eines Klassifikationsmodells unzureichend sind. Dadurch wird die Möglichkeit verringert, dass die Situation als eine Situation klassifiziert wird, die zu einer falschen Klasse gehört.
Wie in Anspruch 2 beschrieben ist, kann ein Bereich, der Daten enthält, die als Rauschen betrachtet werden, aus Lernbereichen entfernt werden, indem ein Lernbereich, der unter benachbarten Bereichen keinen Lernbereich aufweist, aus einer Lernbereichsgruppe entfernt wird. Folglich kann der Einfluss des Rauschens verringert werden.
Wie in Anspruch 4 beschrieben ist, wird, nachdem eine Divisionszahl für jede Klasse auf der Basis eines statistischen Signifikanzniveaus erhalten ist, eine Divisionszahl bestimmt, die allen Klassen gemeinsam ist, und werden der Schritt des Assoziierens von Daten mit jedem geteilten Bereich, der Schritt des Erweiterns einer Lernbereichsgruppe und der Schritt des Zusammenziehens der Lernbereichsgruppe für jede Klasse ausgeführt. Selbst wenn eine Vielzahl von Klassen vorliegt, kann mit diesem Vorgang leicht ein Klassifikationsmodell erzeugt werden, mit dem eine Annäherung an den Raum jeder Klasse erfolgt.
Wie in Anspruch 5 beschrieben ist, wird e/N als Identifikationsfehlerverhältnis gesetzt, wenn e Lernbereiche aus einer Gesamtzahl N Lernbereichen, die als Bereiche erkannt werden, die die zu einer gegebenen Klasse gehören, als Bereiche erkannt werden, die ebenfalls zu einer anderen Klasse gehören. Mit diesem Vorgang kann mithilfe dieses Identifikationsfehlerverhältnisses überprüft werden, ob die Variablen, die den Merkmalsraum definieren, richtig ausgewählt sind. Da das Identifikationsfehlerverhältnis ermittelt werden kann, das dem erzeugten Klassifikationsmodell zugehörig ist, kann außerdem die Klassifikationsleistung des Klassifikationsmodells im Voraus bestimmt werden.
Wie in Anspruch 6 beschrieben ist, kann der Computer dazu veranlasst werden, den Schritt des Ermittelns der Divisionszahl m auszuführen, den Schritt des Assoziierens von Daten mit jedem geteilten Bereich, den Schritt des Erweiterns der Lernbereichsgruppe und den Schritt des Zusammenziehens der Lernbereichsgruppe, indem das Programm auf dem Aufzeichnungsmedium aufgezeichnet wird.
4. KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Fließdiagramm zur Erklärung eines Verfahrens zum Erzeugen eines Klassifikationsmodells gemäß der ersten Ausführungsform der vorliegenden Erfindung.
2 ist eine grafische Darstellung, in der die Eigenschaften eines Verhältnisses F(m) in Bezug auf eine Divisionszahl m dargestellt sind.
3 ist eine Ansicht, die ein Beispiel dafür zeigt, wie bei der ersten Ausführungsform der vorliegenden Erfindung Daten in einem zweidimensionalen Merkmalsraum verteilt sind.
4 ist eine Ansicht, in der das Ergebnis dargestellt ist, das erhalten wird, wenn jede der beiden Variablen im Merkmalsraum von 3 durch 16 geteilt wird.
5 ist eine Ansicht, in der von den Bereichen, die durch Teilung erzeugt wurden, Lernbereiche dargestellt sind, die als Bereiche ermittelt sind, die zu einer Klasse gehören.
6 ist eine Ansicht, in der von den Lernbereichen, die als Bereiche ermittelt sind, die zu der Klasse gehören, isolierte Bereiche dargestellt sind.
7 ist eine Ansicht, in der eine Definition benachbarter Bereiche dargestellt ist.
8 ist eine Ansicht, in der das Ergebnis dargestellt ist, das durch Erweiterungsverarbeitung für den Merkmalsraum von 6 erhalten wird.
9 ist eine Ansicht, in der das Ergebnis dargestellt ist, das durch Zusammenziehungsverarbeitung für den Merkmalsraum in 8 erhalten wird.
10 ist eine Ansicht, in der bei der ersten Ausführungsform der vorliegenden Erfindung ein endgültiges Klassifikationsmodell nach der Zusammenziehungsverarbeitung dargestellt ist.
11 ist eine Ansicht, in der in dem Klassifikationsmodell von 10 Bereiche dargestellt sind, die als Bereiche betrachtet werden, die unzureichenden Daten zum Erzeugen des Klassifikationsmodells entsprechen.
12 ist eine grafische Darstellung, in der gemäß der zweiten Ausführungsform der vorliegenden Erfindung gezeigt ist, wie bei den Ansauglufttemperaturen in einem VAV-System, wie in dem einer Klimaanlage, ein Nachlauf auftritt.
13 ist eine Ansicht, in der ein Beispiel dargestellt ist, wie gemäß der zweiten Ausführungsform der vorliegenden Erfindung Daten in einem zweidimensionalen Merkmalsraum verteilt sind, und ein Klassifikationsmodell, das anhand dieser Daten erzeugt wurde.
14 ist eine Ansicht, in der gemäß der dritten Ausführungsform der vorliegenden Erfindung die Anordnung einer Anlage gezeigt ist, mit der Reaktanten hergestellt werden.
15 ist eine grafische Darstellung, in der die Qualität der Reaktanten gezeigt ist, die mit der Anlage von 14 hergestellt wurden.
16 ist eine Ansicht, in der ein Klassifikationsmodell gezeigt ist, das in der dritten Ausführungsform der vorliegenden Erfindung erzeugt wurde.
17 ist eine Ansicht, in der ein Klassifikationsmodell gezeigt ist, das in der vierten Ausführungsform der vorliegenden Erfindung erzeugt wurde.
18 ist eine grafische Darstellung, in der in der vierten Ausführungsform der vorliegenden Erfindung der Abstand zwischen den Bereichen zwischen einem geteilten Bereich, der die gegenwärtige Situation enthält, und einem Lernbereich gezeigt ist.
19 ist eine grafische Darstellung, in der in der fünften Ausführungsform der vorliegenden Erfindung die Arbeitsleistung auf der Grundlage eines Arbeitsmodells gezeigt ist, das durch Nachbildung geringer qualifizierter Bedienungspersonen erhalten wurde, und die Arbeitsleistung auf der Grundlage von Fachpersonal.
20 ist eine Ansicht, in der ein Klassifikationsmodell gezeigt ist, das in der fünften Ausführungsform der vorliegenden Erfindung erzeugt wurde.
21 ist eine Ansicht zur Erklärung eines herkömmlichen Situationsklassifikationsverfahrens unter Verwendung eines Diskriminanzanalyseverfahrens.
22 ist eine Ansicht zur Erklärung eines herkömmlichen Situationsklassifikationsverfahrens unter Verwendung eines RCE-Netzes.
5. BEVORZUGTE AUSFÜHRUNGSFORM DER ERFINDUNG
[Erste Ausführungsform]
Im Folgenden werden Ausführungsformen der vorliegenden Erfindung mit Bezug auf die zugehörigen Zeichnungen ausführlich beschrieben.
Als Computersystem, das das Verfahren zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung anwendet, kann ein System eingesetzt werden, das eine bekannte Anordnung einschließlich eines Computers, einer Anzeigeeinheit, einer Tastatur, einer externen Speichereinheit und Ähnliches umfasst. Der Hauptteil des Computers kann eine bekannte Anordnung einschließlich einer CPU, eines ROM-Speichers und eines RAM-Speichers, Schaltungen als Schnittstellen zur Anzeigeeinheit, zur Tastatur und zur externen Speichereinheit und Ähnliches aufweisen. Die CPU führt gemäß einem Programm, das im ROM- oder RAM-Speicher gespeichert ist, oder gemäß einem Befehl, der über die Tastatur eingegeben wird, die Verarbeitung durch. Außerdem kann die CPU Daten in die externe Speichereinheit schreiben und Daten aus der externen Speichereinheit auslesen.
Bei diesem Computersystem ist ein Programm zum Durchführen des Verfahrens zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung in Form eines Programms bereitgestellt, das auf einem Aufzeichnungsmedium wie einer Diskette, einer CD-ROM oder einer Speicherkarte aufgezeichnet ist. Wenn dieses Aufzeichnungsmedium in die externe Speichereinheit eingelegt wird, wird das Programm, das auf dem Medium aufgezeichnet ist, ausgelesen und auf den Computer übertragen. Die CPU schreibt anschließend das gelesene Programm in den Arbeitsspeicher oder Ähnliches. Auf diese Art führt die CPU die folgende Verarbeitung aus.
Im Folgenden wird die Grundidee des Verfahrens zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung beschrieben.
Wenn n Arten von Variablen vorliegen, die für die Situationsklassifikation ausgewählt wurden, ist der entsprechende Merkmalsraum der n-dimensionale Raum, der durch die n Arten von Variablen definiert ist. Erfindungsgemäß werden n Arten von Variablen ausgewählt, die als geeignet für die Situationsklassifikation oder als gut hinsichtlich der Trennbarkeit der Klassen voneinander betrachtet werden, und der Bereich vom Minimalwert zum Maximalwert jeder Variable wird normiert. Anschließend wird jede Variable durch eine bestimmte Zahl m geteilt, um den Merkmalsraum in eine endliche Zahl von Bereichen zu unterteilen. Die Trennbarkeit der Klassen voneinander wird später beschrieben.
Wenn eine Klasse vorliegt, zu der eine Gesamtzahl M von Daten gehört, werden Variablen ausgewählt, die geeignet sind, um diese Klasse zu kennzeichnen, damit ein Merkmalsraum definiert werden kann, der den Bereich der Klasse enthält. Mit diesem Vorgang werden die Daten, die zur vorstehenden Klasse gehören, im Merkmalsraum als Punkte verteilt, deren Position durch die Variablen bestimmt ist. Wenn jede Variable durch m geteilt wird, wird der Merkmalsraum in mⁿ Bereiche geteilt. Die jeweiligen erzeugten Bereiche werden in Abhängigkeit davon klassifiziert, ob sie Daten enthalten oder nicht. Dies ist das grundlegende Verfahren zum Erzeugen eines Klassifikationsmodells.
Im Folgenden wird ein Verfahren zum Bestimmen einer Divisionszahl m beschrieben, mit der ein geeignetes Klassifikationsmodell erzeugt werden kann. Es wird ein Verhältnis F(m) = p/M betrachtet, bei dem p von den geteilten Bereichen, die durch m-teilige Division erzeugt wurden, die Anzahl der geteilten Bereiche ist, von denen jeder einen Datenpunkt enthält. Dieses Verhältnis F(m) kann als die Wahrscheinlichkeit betrachtet werden, dass ein geteilter Bereich einen Datenpunkt enthält, und weist die Eigenschaften auf, die in 2 in Bezug auf die Divisionszahl m gezeigt sind. Das heißt, dass das Verhältnis F(m) eine nicht abnehmende Funktion ist und die folgenden Eigenschaften aufweist:
Mit Bezug auf 2 und den Ausdruck (2) ist m^* die erste Divisionszahl m, wenn F(m) = 1, wenn die Divisionszahl m steigt. Die Divisionszahl m ist eine ganze Zahl und kann nur einen diskreten Wert annehmen. Jedoch kann unter Berücksichtigung des Zwischenwerts der Länge, die durch zweiteilige Division (Variablengesamtbereich/2) erhalten wird, und der Länge, die durch dreiteilige Division (Variablengesamtbereich/3) erhalten wird, als rationale Division, z.B. eine 2,5-teilige Division, F(m) als stetig betrachtet werden.
Das Verhältnis F(m) ist damit eine rechtsstetige Funktion und kann als eine der Wahrscheinlichkeitsverteilungsfunktionen betrachtet werden. Angenommen bei der stetigen Funktion F(m) wird die ganze Zahl m verwendet.
Es wird eine Datendichte von 1 betrachtet. In diesem Fall ist die Datendichte von 1 der Abstand von gegebenen interessierenden Daten zu den am nächsten liegenden Daten. Dieser Abstand ist ein euklidischer Abstand. Angenommen, dass x1, x2,..., xn die Werte der Variablen sind, die die ersten Daten verkörpern, und x1', x2',..., xn' die Werte der Variablen, die die zweiten Daten verkörpern, dann wird der euklidische Abstand zwischen den ersten Daten und den zweiten Daten als ((x1 – x1')² + (x2 – x2')² +......+ (xn – xn')²)^½ angegeben.
Die Häufigkeitsverteilung dieser Datendichte von 1 kann als Normalverteilung angesehen werden. Wenn die Häufigkeit der Datendichte von 1 am höchsten ist, wird der Erzeugungsgrad eines geteilten Bereichs, der einen Datenpunkt enthält, am höchsten, wenn die Divisionszahl m steigt. Der vorstehende Grad sinkt, wenn die Datendichte von 1 sehr niedrig oder sehr hoch ist.
Das bedeutet, dass der Erzeugungsgrad eines geteilten Bereichs, der einen Datenpunkt enthält, in Bezug auf die Divisionszahl m einer Normalverteilung folgt.
Es ist offensichtlich, dass die Datendichte von 1 einer Normalverteilung folgt, wenn ein Abstand, der mit der Datendichte in Zusammenhang steht, anstatt als ein euklidischer Abstand als Abstand betrachtet wird, der der Länge und Breite jedes geteilten Bereichs entspricht, der durch m-teilige Division erhalten wurde. Zum Beispiel wird dieser Abstand als max(|x1 – x1'|, |x2 – x2'|,...., | xn – xn'|) angegeben, wobei „max" angibt, dass der Maximalwert der Werte in () ermittelt wird.
Aus der vorstehenden Beschreibung ist denkbar, dass auf der Grundlage einer Normalverteilung eine signifikante Divisionszahl m bestimmt werden kann. Um einen Mittelwert μ und eine Varianz σ für die Divisionszahl m zu erhalten, mit der mindestens ein geteilter Bereich erzeugt wird, der einen Datenpunkt enthält, muss die Gesamtzahl M der Daten, die zu einer Klasse gehören, 200 oder mehr betragen. Der Grund dafür ist, dass der Mittelwert μ und die Varianz σ als wahre Werte betrachtet werden können, wenn M ≥ 200.
Hinsichtlich der Divisionszahl m, mit der mindestens ein geteilter Bereich erzeugt wird, der einen Datenpunkt enthält, können der Mittelwert μ und die Varianz σ folgendermaßen berechnet werden
Das Wort „signifikant" in „die signifikante Divisionszahl m" wird häufig im Gebiet der Statistik verwendet. Das bedeutet, dass die Divisionszahl m, die bei Ermittlung eines gegebenen statistischen Signifikanzniveaus bestimmt wird, die Bedingungen erfüllt, dass der Erzeugungsgrad eines geteilten Bereichs, der einen Datenpunkt enthält, hoch ist, und der Abstand zwischen geteilten Bereichen auf ein Mindestmaß herabgesetzt ist. Diese Divisionszahl m wird daher ein Wert, mit dem ein geeignetes Klassifikationsmodell implementiert wird. Es ist zu beachten, dass F(m) – F(m–1), erhalten durch Abziehen des Verhältnisses F(m–1) mit einer Divisionszahl m – 1 vom Verhältnis F(m) mit der Divisionszahl m, dem Erzeugungsgrad eines geteilten Bereichs entspricht, der einen Datenpunkt enthält, im Fall der m-teiligen Division.
Bei dieser Ausführungsform ist μ + 3σ als statistisches Signifikanzniveau festgelegt, und die ganze Zahl, die diesem Niveau am nächsten liegt, ist als signifikante Divisionszahl m festgelegt. Es ist offensichtlich, dass das statistische Signifikanzniveau nicht auf μ + 3σ begrenzt ist.
Die Divisionszahl m kann auf diese Art bestimmt werden. Die vorstehende Beschreibung steht im Zusammenhang mit dem Fall einer Klasse. Liegen i Klassen vor (i = 1,..., k; k ≥ 2), wird für jede Klasse mithilfe des vorstehenden Verfahrens eine Divisionszahl mi ermittelt, und auf der Grundlage der Divisionszahlen mi wird die endgültige Divisionszahl m ermittelt, die allen Klassen gemeinsam ist.
wobei μi der Mittelwert in der Klasse i ist, der durch die Gleichung (3) ermittelt wurde, σi die Varianz in der Klasse i ist, die durch die Gleichung (4) ermittelt wurde, und mi_(μi+σ3i) die Divisionszahl in der Klasse i ist, die ermittelt wurde aus μi + 3σi. Außerdem gibt „max" an, dass der Maximalwert aus mi_(μi+σ3i) ermittelt wird. Es ist zu beachten, dass die Verarbeitung, die später beschrieben wird, für jede Klasse mit der Divisionszahl mi vorgenommen werden kann, ohne dass die Divisionszahl m ermittelt wird, die allen Klassen gemeinsam ist.
Im Folgenden wird die eigentliche Verarbeitung auf der Grundlage der vorstehenden Grundidee beschrieben. Zuerst erfasst der Anwender des Computersystems mehrdimensionale Daten, die durch eine Vielzahl von Arten von Variablen gekennzeichnet sind (Schritt 101 in 1). Anschließend werden n Arten von Variablen, die als für die Situationsklassifikation geeignet oder als gut hinsichtlich der Trennbarkeit der Klassen voneinander betrachtet werden, aus der Vielzahl der Arten von Variablen ausgewählt (Schritt 102). Der Anwender gibt die erfassten Daten als mehrdimensionale Daten in den Computer ein (Schritt 103), die durch die n Arten von Variablen gekennzeichnet sind (d.h. Daten, deren Position im Merkmalsraum durch die n Arten von Variablen bestimmt ist).
Angenommen, es gibt eine Klasse A, die durch die beiden Variablen x1 und x2 gekennzeichnet ist, und eine Vielzahl von Daten D, die zu Klasse A gehört, ist in einem zweidimensionalen Merkmalsraum 3 verteilt, der durch die Variablen x1 und x2 definiert sind, wie es in 3 gezeigt ist.
Bei Empfang der vielen Daten D, die durch die Variablen x1 und x2 gekennzeichnet sind, bestimmt der Computer mithilfe des vorgenannten Verfahrens die Divisionszahl m (Schritt 104). In diesem Fall ist die Divisionszahl m = 16. 4 zeigt das Ergebnis, das erhalten wird, wenn jeder Gesamtbereich der Variablen x1 und x2 durch 16 geteilt wird. Mit diesem Vorgang wird der Merkmalsraum S in 256 Bereiche E geteilt.
Der Computer assoziiert die geteilten Bereiche E, die durch m-teilige Division erzeugt wurden, mit den Daten D, um im Merkmalsraum S die Klassifikation durchzuführen (Schritt 105). Insbesondere erkennt der Computer, wenn die Daten D in einem bestimmten geteilten Bereich E vorliegen, diesen Bereich E als einen Bereich, der zu Klasse A gehört. Jeder geteilte Bereich E, der als ein Bereich ermittelt wurde, der zu Klasse A gehört, wird im Folgenden als Lernbereich Ea bezeichnet. 5 zeigt diese Lernbereiche Ea.
Es ist zu beachten, dass die Lernbereiche Ea geteilte Bereiche umfassen, die jeweils zwei oder mehr Daten enthalten. Um diese Daten fehlerfrei auszudrücken, muss die Division genauer erfolgen. Von einem statistischen Gesichtspunkt aller Daten aus ist die Division geeignet, die in 4 gezeigt ist.
Der Computer entfernt aus den Lernbereichen Ea (Schritt 106) geteilte Bereiche, die Daten enthalten, die als Rauschen betrachtet werden. Dieser Schritt ist notwendig, da in der Praxis in den Daten in 3 Daten als Rauschen enthalten sind. In dieser Ausführungsform wird jeder geteilte Bereich, der keinen Lernbereich Ea unter benachbarten geteilten Bereichen aufweist, als Bereich festgelegt, der Daten enthält, die als Rauschen betrachtet werden. Dieser Bereich wird als isolierter Bereich Eiso bezeichnet. Diese isolierten Bereiche Eiso werden aus den Lernbereichen Ea entfernt. 6 zeigt die isolierten Bereiche Eiso.
Wenn ein Merkmalsraum n-dimensional ist, werden 3ⁿ – 1 Bereiche in der Nähe eines bestimmten Bereichs E0 als Bereiche bezeichnet, die benachbart zu dem Bereich E0 sind.
Wenn beispielsweise ein Merkmalsraum zweidimensional ist, werden die Bereiche E1 bis E8 als Bereiche bezeichnet, die benachbart zum Bereich E0 sind, wie es in 7 gezeigt ist.
Die Verarbeitung in den Schritten 104 bis 106 erfolgt auf der Grundlage der Daten, die in 3 gezeigt sind. Die Daten in 3 können als Daten, die die gesamte Klasse A verkörpern, unzureichend sein. Zusätzlich zu den Lernbereichen Ea, die in Schritt 105 als Bereiche ermittelt wurden, die zu Klasse A gehören, können geteilte Bereiche vorliegen, die zu Klasse A gehören sollen. Wenn der Merkmalsraum von 6 als ein Bild betrachtet wird, und die Erweiterungs-/Zusammenziehungsverarbeitung, die bei einem Bildverarbeitungsverfahren eingesetzt wird, für dieses Bild ausgeführt wird, werden die Bereiche, die zu Klasse A gehören sollen, in die Lernbereichen Ea aufgenommen.
Zuerst führt der Computer für den Merkmalsraum in 6 die Erweiterungsverarbeitung aus (Schritt 107). Wenn mindestens ein geteilter Bereich, der benachbart zu einem willkürlichen geteilten Bereich als Bereich von Interesse ist, der Lernbereich Ea ist, wird bei der Erweiterungsverarbeitung bestimmt, dass der Bereich von Interesse zu Klasse A gehören kann, und der Bereich von Interesse wird als Lernbereich gesetzt. Diese Verarbeitung wird für alle Bereiche im Merkmalsraum durchgeführt. 8 zeigt das Ergebnis der Erweiterungsverarbeitung. Mit Bezug auf 8 sind die Bereiche Ea' Bereiche, die neu als Lernbereiche hinzugefügt wurden.
Anschließend führt der Computer für den Merkmalsraum in 8 die Zusammenziehungsverarbeitung (Schritt 108) aus. Wenn mindestens ein geteilter Bereich, der benachbart zu den willkürlichen Lernbereichen Ea und Ea' als Bereiche von Interesse ist, ein Nicht-Lernbereich E ist, werden bei der Zusammenziehungsverarbeitung die Bereiche von Interesse als Bereiche betrachtet, die nicht zu Klasse A gehören sollen, und die Bereiche von Interesse werden aus den Lernbereichen Ea und Ea' entfernt. Diese Verarbeitung wird für alle Lernbereiche Ea und Ea' durchgeführt. 9 zeigt das Ergebnis der Zusammenziehungsverarbeitung. Mit Bezug auf 9 sind die Bereiche Ed Bereiche, die aus den Lernbereichen Ea und Ea' entfernt wurden. Es ist zu beachten, dass die Erweiterungs-/Zusammenziehungsverarbeitung für Computer nach dem Stand der Technik keine Probleme bereitet und innerhalb von ein paar Sekunden abgeschlossen sein kann.
Die Bereiche, die durch Verbinden der Lernbereiche Ea und Ea' nach der vorstehenden Verarbeitung ermittelt wurden, sind die endgültigen Lernbereiche Ea'', die in 10 gezeigt sind. Durch derartiges Einteilen des Merkmalsraums in die Lernbereiche Ea'', die zu Klasse A gehören, und die Nicht-Lernbereiche E wird ein Klassifikationsmodell erhalten.
Der Anwender gibt die Variablen x1 und x2 ein, die die Situation verkörpern, die klassifiziert werden soll. In Übereinstimmung mit diesem Vorgang führt der Computer unter Verwendung des erzeugten Klassifikationsmodells (Schritt 109) die Klassifikationsverarbeitung durch. Insbesondere klassifiziert der Computer die Situation in Abhängigkeit davon, ob die Daten, deren Position im Klassifikationsmodell durch die Eingangsvariablen x1 und x2 gekennzeichnet ist, zum Lernbereich Ea'' oder dem Bereich E gehören. Wenn die Daten, die der Situation entsprechen, die klassifiziert werden soll, im Lernbereich Ea'' liegen, wird die Situation als Situation erkannt, die zu Klasse A gehört. Wenn die Daten im Bereich E liegen, wird die Situation als Situation erkannt, die nicht zu Klasse A gehört. In dem Fall, in dem die Situation als Situation erkannt wird, die zu Klasse A gehört, kann, wenn alle Bereiche, die einen Lernbereich Ea'' umgeben, der die Daten enthält, die durch die Eingangsvariablen x1 und x2 gekennzeichnet sind, Lerbereiche Ea'' sind, ermittelt werden, dass die Wahrscheinlichkeit des Klassifikationsergebnisses hoch ist, dass die Situation als zu Klasse A gehörend ermittelt wird. Im Gegensatz dazu kann, selbst in dem Fall, in dem die Situation als Situation erkannt wird, die zu Klasse A gehört, ermittelt werden, dass die Wahrscheinlichkeit des Klassifikationsergebnisses gering ist, dass die Situation als zu Klasse A gehörend ermittelt wird, wenn die Bereiche, die einen Lernbereich Ea'' umgeben, der die Daten enthält, die durch die Eingangsvariablen x1 und x2 gekennzeichnet sind, sowohl die Lernbereiche Ea als auch die Nicht-Lernbereiche E umfassen.
Da ein Klassifikationsmodell erzeugt wird, indem nur erfasste Daten verwendet werden, können außerdem erfindungsgemäß die erfassten Daten unzureichend für die Erzeugung von Lernbereichen sein. Angenommen, der Anwender kann auf das erzeugte Klassifikationsmodell Bezug nehmen, um zu überprüfen, ob die Daten ausreichend sind, die zum Erzeugen des Klassifikationsmodells verwendet wurden, und stellt fest, dass die Daten unzureichend sind. In diesem Fall kann der Anwender die Klassifikationsverarbeitung mithilfe dieses Klassifikationsmodells zurückhalten. Es wird beispielsweise im Fall des Klassifikationsmodells in dieser Ausführungsform ein Bereich Ec des schraffierten Abschnitts in 11 betrachtet. Die meisten geteilten Bereiche um diesen Bereich Ec herum sind Lernbereiche Ea''. Aus dem Bereich Ec ist daher offensichtlich, dass die Daten zum Erzeugen des Klassifikationsmodells unzureichend sein können.
Bei dieser Ausführungsform wurde der Fall einer Klasse erläutert. Wenn jedoch eine Vielzahl von Klassen vorhanden ist, kann die Verarbeitung in den Schritten 103 bis 108 für jede Klasse in einem gemeinsamen Merkmalsraum durchgeführt werden, um ein Klassifikationsmodell zu erzeugen. In diesem Fall kann eine Divisionszahl wie die Divisionszahl m verwendet werden, die allen Klassen gemeinsam ist und durch die Gleichung (5) erhalten wird, oder es können verschiedene Divisionszahlen für die jeweiligen Klassen verwendet werden.
Angenommen, es gibt eine Vielzahl von Klassen. In diesem Fall kann, wenn e Lernbereiche aus einer Gesamtzahl N von Lernbereichen, die als Bereiche erkannt werden, die zu einer gegebenen Klasse gehören, als Bereiche erkannt werden, die ebenfalls zu einer anderen Klasse gehören, ein Identifikationsfehlerverhältnis R durch R = e/N (6)definiert werden.
Da dieses Identifikationsfehlerverhältnis R als eine Kennzahl betrachtet werden kann, die die Trennbarkeit der Klassen voneinander darstellt, kann mithilfe des Identifikationsfehlerverhältnisses R geprüft werden, ob die Variablen zum Definieren eines Merkmalsraums richtig ausgewählt wurden. Da das Identifikationsfehlerverhältnis ermittelt werden kann, das dem erzeugten Klassifikationsmodell zugehörig ist, kann außerdem die Klassifikationsleistung des Klassifikationsmodells im Voraus bestimmt werden.
Wie zuvor beschrieben ist, werden erfindungsgemäß geteilte Bereiche, die Bildpunkten in einem Bildverarbeitungsverfahren entsprechen, in einem Merkmalsraum auf der Grundlage einer Datendichte erzeugt, und es wird ein Klassifikationsmodell erzeugt, indem die erzeugten geteilten Bereiche in Abhängigkeit davon klassifiziert werden, ob sie Daten enthalten. Mithilfe dieses Klassifikationsmodells wird die Situationsklassifikation zur Ermittlung von Anomalien oder zur Entscheidung, ob ein und welcher Vorgang erforderlich ist, und Ähnliches vorgenommen.
Bei einem Bildverarbeitungsverfahren oder einem herkömmlichen Mustererkennungsverfahren kann es vorkommen, dass eine höhere Anzahl von Bildpunkten als notwendig verwendet wird, um die Annäherung an den Bereich einer Klasse vorzunehmen, da die Anzahl der Bildpunkte im Voraus ermittelt wird. Aus diesem Grund ist bei dem herkömmlichen Mustererkennungsverfahren ein großer Speicher notwendig, und die Klassifikationsverarbeitungsgeschwindigkeit ist niedrig. Im Gegensatz dazu werden bei der vorliegenden Erfindung nicht mehr geteilte Bereiche als notwendig erzeugt, da geteilte Bereiche auf der Grundlage einer Datendichte aus einem Element erzeugt werden, das eine statistisch signifikante Größe aufweist. Die Computerleistung kann daher stärker als bei dem herkömmlichen Verfahren verbessert werden.
Bei dem herkömmlichen Verfahren besteht eine große Klassifikationsfehlermöglichkeit, wenn die Daten für die Erzeugung eines Klassifikationsmodells unzureichend sind oder der Raum, den eine Klasse einnimmt, eine komplizierte Form aufweist. Im Gegensatz dazu kann der Anwender des Computersystems erfindungsgemäß auf die Klassifikationsverarbeitung einwirken, selbst wenn Daten, die die Situation darstellen, die klassifiziert werden soll, in einem Nicht-Lernbereich enthalten sind, indem er zuordnet, zu welcher Klasse die umgebenden Bereiche gehören. Dadurch wird die Möglichkeit der fehlerhaften Klassifikation einer Situation auf ein Mindestmaß herabgesetzt.
[Zweite Ausführungsform]
Im Folgenden wird die vorliegende Erfindung ausführlicher mit der Darstellung eines konkreteren Beispiels beschrieben. Ein PID-Regler wird im Allgemeinen in Klimaanlagen verwendet. Da jedoch die Parameter im PID-Regler nicht in Übereinstimmung mit allen Situationen richtig eingestellt sind, tritt ein Phänomen auf, das Nachlauf genannt wird. Der Nachlauf ist ein Phänomen, bei dem eine Regelgröße in Bezug auf einen Zielsollwert schwingt. In einer Klimaanlage in einem Gebäude ist es schwierig, mit einer Art Parameter jede Situation angemessen zu bewältigen.
Wird ein Klassifikationsmodell mithilfe des Verfahrens zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung erzeugt und werden Situationen klassifiziert, in denen ein Nachlauf auftritt, können die Parameter im PID-Regler entsprechend jeder Situation richtig umgestellt werden. Die Klimaanlage kann daher in jeder Situation entsprechend geregelt werden.
Bei dieser Ausführungsform wird die Regelung der Ansauglufttemperatur in einem VAV-System (Variable Air Volume – variabler Luftstrom) als einem Klimaanlagensystem beschrieben. Wenn ein Nachlauf H in den Zwischenräumen zwischen der Zeit t1 und der Zeit t2 und zwischen der Zeit t4 und der Zeit t5 auftritt, wie in 12 gezeigt ist, teilt der Anwender Daten in den Zwischenräumen zwischen der Zeit t0 und der Zeit t1 und zwischen der Zeit t2 und der Zeit t4 und Daten nach der Zeit t5, in denen kein Nachlauf H auftritt, vorher Klasse A zu, und Daten in den Zwischenräumen zwischen der Zeit t1 und der Zeit t2 und zwischen der Zeit t4 und der Zeit t5, in denen ein Nachlauf H auftritt, Klasse B. In diesem Fall umfassen die Variablen der Daten, die erfasst werden sollen, alle Variablen, die mit dem VAV-System in Zusammenhang stehen, zusätzlich zu den Daten zur Ansauglufttemperatur.
Anschließend wählt der Anwender Variablen aus, die sich für die Klassifikation von Situationen eignen, in denen ein Nachlauf auftritt. Da die Zulufttemperatur und die Zuluftfeuchtigkeit als Größen bekannt sind, die einen Nachlauf der Ansauglufttemperatur bewirken, wählt der Anwender diese beiden Größen als Variablen aus. Der Anwender gibt anschließend die erfassten Daten als mehrdimensionale Daten in den Computer ein, die durch die Zulufttemperatur und die Zuluftfeuchtigkeit gekennzeichnet sind.
Angenommen, eine Vielzahl von Daten Da, die zu Klasse A gehört, und eine Vielzahl von Daten Db, die zu Klasse B gehört, sind in einem Merkmalsraum S verteilt, der durch die beiden Variablen, d.h. Zulufttemperatur und Zuluftfeuchtigkeit, definiert ist, wie es in 13(a) gezeigt ist. Bei Empfang dieser Daten teilt der Computer den Merkmalsraum S in drei Bereiche ein, und zwar einen Lernbereich Ea, der zu Klasse A gehört, einen Lernbereich Eb, der zu Klasse B gehört, und einen Nicht-Lernbereich E, wodurch ein Klassifikationsmodell erzeugt wird wie dasjenige, das in 13(b) gezeigt ist.
Wird das erzeugte Klassifikationsmodell auf diese Art eingesetzt, kann die gegenwärtige Situation, die durch eine Zulufttemperatur und eine Zuluftfeuchtigkeit gekennzeichnet ist, als eine Situation klassifiziert werden, in der ein Nachlauf auftritt oder nicht. Die Parameter im PID-Regler können daher entsprechend dem Klassifikationsergebnis umgestellt werden.
Folglich kann die Regelung der Ansauglufttemperatur im VAV-System durchgeführt werden, ohne dass in irgendeiner Situation ein Nachlauf verursacht wird.
[Dritte Ausführungsform]
Bei einem erdölchemischen Vorgang wird die Qualität jedes Produkts überwacht. Jedoch tritt eine Qualitätsminderung häufig in unerwarteten Situationen auf. Wird ein geeignetes Klassifikationsmodell mithilfe des Verfahrens zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung erzeugt, und werden Situationen klassifiziert, in denen eine Qualitätsminderung auftritt, kann ein Verfahren so angesteuert oder können Regelparameter so umgestellt werden, dass Situationen vermieden werden, in denen eine Qualitätsminderung auftritt.
Bei dieser Ausführungsform wird der chemische Vorgang erläutert, bei dem die Stoffe 12 und 13 in einen Reaktionsraum 11 gegeben werden, der ein Lösungsmittel und einen Katalysator enthält, damit die Reaktanten 14 entstehen, wie es in 14 gezeigt ist. 15 zeigt die Qualität (Zusammensetzung) der Reaktanten 14, die in der Anlage hergestellt wurden, die in 14 gezeigt ist. Mit Bezug auf 15 bezeichnet das Bezugszeichen TH eine Schwelle zum Einteilen der Reaktanten in fehlerfreie Produkte und mangelhafte Produkte. Ist die Qualität niedriger als die Schwelle TH, wird der Reaktant 14 als fehlerfreies Produkt klassifiziert. Überschreitet die Qualität die Schwelle TH, wird der Reaktant 14 als mangelhaftes Produkt klassifiziert.
Entstehen die Reaktanten 14 in den Zwischenräumen zwischen der Zeit t1 und der Zeit t2 und zwischen der Zeit t3 und der Zeit t4 als mangelhafte Produkte, wie es in 15 gezeigt ist, teilt der Anwender Daten in den Zwischenräumen zwischen der Zeit t0 und der Zeit t1 und zwischen der Zeit t2 und der Zeit t3 und Daten nach der Zeit t4, in denen kein mangelhaftes Produkt entsteht, vorher Klasse A zu, und Daten in den Zwischenräumen zwischen der Zeit t1 und der Zeit t2 und zwischen der Zeit t3 und der Zeit t4, in denen mangelhafte Produkte entstehen, Klasse B. In diesem Fall umfassen die Variablen der Daten, die erfasst werden sollen, alle Variablen, die einem chemischen Vorgang zugehörig sind (der Eintrag der Stoffe 12 und 13, die Lösungsmittelmenge, die Katalysatormenge, die Temperatur im Reaktionsraum 11 und die Zusammensetzung des Reaktanten 14). Der Anwender bestimmt anschließend anhand von statistischer Analyse, dem Mechanismus eines Vorgangs und heuristischen Verfahren Größen, durch die unter den Reaktanten 14 mangelhafte Produkte entstehen. Wenn beispiels weise der Eintrag des Stoffs 13 und die Katalysatormenge Größen sind, die mit der Qualität der Reaktanten 14 in Zusammenhang stehen, wählt der Anwender diese beiden Größen als Variablen aus und gibt die erfassten Daten, die zu Klasse B gehören, als mehrdimensionale Daten in den Computer ein, die durch den Eintrag des Stoffs 13 und die Katalysatormenge gekennzeichnet sind.
Bei Empfang dieser Daten teilt der Computer den Merkmalsraum in die Lernbereiche Eb, die zu Klasse B gehören, und in die Nicht-Lernbereiche E ein, wodurch ein Klassifikationsmodell erzeugt wird wie dasjenige, das in 16 gezeigt ist.
Mithilfe des erzeugten Klassifikationsmodells kann, wenn bestimmte Mengen des Stoffs 13 und des Katalysators eingesetzt werden, die entsprechende Situation als eine Situation klassifiziert werden, in der unter den Reaktanten 14 mangelhafte Produkte entstehen oder kein mangelhaftes Produkt entsteht. Deshalb kann eine Regelung vorgenommen werden, um das Entstehen mangelhafter Produkte zu verhindern. Angenommen, der Stoff 13 soll in einer Menge q eingetragen werden. In diesem Fall können, wie ersichtlich ist, fehlerfreie Produkte entstehen, wenn ein Katalysator in einer Menge q1 oder in einem Mengenbereich q2 bis q3 verwendet wird.
[Vierte Ausführungsform]
In der verarbeitenden Industrie ist es notwendig, Anomalien in Einrichtungen zu erkennen, um ernsthafte Schäden aufgrund von Störungen und Gefahren wie Explosionen zu vermeiden. Jedoch kommt in den Einrichtungen selten eine Anomalie vor und es ist daher schwierig, Daten zu anormalen Situationen zu erfassen. Bei dieser Ausführungsform werden daher nur Daten verwendet, die während des Normalbetriebs der Einrichtungen erfasst wurden, im Gegensatz zur zweiten und dritten Ausführungsform.
Im Folgenden wird eine umlaufende elektrische Maschine beschrieben. Angenommen, es kann auf der Grundlage der Drehzahl und der Frequenz des Geräuschs, das die Maschine macht, unterschieden werden, ob die umlaufende elektrische Maschine normal/anormal läuft. In diesem Fall wählt der Anwender eines Computersystems die Drehzahl und die Schallfrequenz als Variablen aus und gibt die Daten, die während des Normalbetriebs erfasst wurden, als mehrdimensionale Daten in den Computer ein, die durch die Drehzahl und die Schallfrequenz gekennzeichnet sind.
Bei Empfang dieser Daten teilt der Computer den Merkmalsraum in die Lernbereiche Ea, die zu Klasse A gehören (eine Gruppe normaler Situationen), und in die Nicht-Lernbereiche E ein, wodurch ein Klassifikationsmodell erzeugt wird wie dasjenige, das in 17 gezeigt ist. Bei diesem Klassifikationsmodell ist die gegenwärtige Situation der umlaufenden elektrischen Maschine durch einen Punkt dargestellt, der durch die Drehzahl und Frequenz bestimmt ist. Der Punkt, der der gegenwärtigen Situation entspricht, ist in einem bestimmten geteilten Bereich im Klassifikationsmodell enthalten.
Der Anwender lässt den Computer den Abstand von dem geteilten Bereich aus, der die gegenwärtige Situation enthält, bis zum Lernbereich Ea berechnen, und lässt die Anzeigeeinheit eine Veränderung dieses Abstands zwischen den Bereichen in einer grafischen Darstellung anzeigen, wie es in 18 gezeigt ist. Der Abstand zwischen den Bereichen in 18 gibt das Verhältnis zwischen der gegenwärtigen Situation und der Normalsituation der umlaufenden elektrischen Maschine an. Überwacht der Anwender diese grafische Darstellung, kann er feststellen, ob die umlaufende elektrische Maschine normal/anormal läuft. Insbesondere ist es kein Problem, wenn vorübergehend eine Situation eintritt, in der der Abstand nicht 0 ist, wie im Fall der Situationen bei der Zeit t1 und der Zeit t2. Wenn jedoch häufig eine Situation vorliegt, in der der Abstand nicht 0 ist, wie im Fall der Situation im Zwischenraum zwischen der Zeit t3 und der Zeit t4, kann diese Situation als Anzeichen einer Anomalie angesehen werden. Außerdem kann der Anwender, wenn die gegenwärtige Situation sich allmählich von der Normalsituation entfernt, wie im Fall der Situation im Zwischenraum zwischen der Zeit t4 und der Zeit t5, erkennen, dass eine schnelle Überprüfung erfolgen muss.
[Fünfte Ausführungsform]
Bei vielen gegenwärtigen Herstellungsprozessen bedient Fachpersonal die Anlagen. Jedoch sinkt die Anzahl von Fachkräften allmählich. Außerdem ist es schwierig, das Wissen des Fachpersonals zu übertragen oder auf der Grundlage des Wissens eine Automatisierung durchzuführen.
Wird ein Klassifikationsmodell mithilfe des Verfahrens zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung erzeugt, können bestimmte Situationen erkannt werden, in denen sich die Arbeitsleistung einer geringer qualifizierten Bedienungsperson stark von der einer Fachkraft unterscheidet. Dadurch kann der Betrieb unterstützt oder automatisiert werden. Da ein Arbeitsmodell einfach durch Nachbildung geringer qualifizierter Bedienungspersonen erzeugt werden kann, wird eine Arbeitsleistung (ein Eingabewert des Systems) auf der Grundlage dieses Arbeitsmodells mit einer Arbeitsleistung Op2 auf der Grundlage der Fachkraft verglichen, wie es in 19 gezeigt ist.
Angenommen, mit dem Arbeitsmodell wird eine Arbeitsleistung auf der Grundlage der Messwerte PV1 und PV2 ermittelt, die den Zustand des Systems angeben. In diesem Fall wählt der Anwender des Computersystems die Messwerte PV1 und PV2 als Variablen aus und gibt die Messwerte PV1 und PV2 im Zwischenraum zwischen der Zeit t1 und der Zeit t2, in dem sich die Arbeitsleistung auf der Grundlage des Arbeitsmodells stark von der auf der Grundlage der Fachkraft unterscheidet, in den Computer ein.
Bei Empfang dieser Daten teilt der Computer den Merkmalsraum in die Lernbereiche Ea (eine Gruppe von Situationen, in denen sich die Arbeitsleistung auf der Grundlage des Arbeitsmodells stark von der auf der Grundlage der Fachkraft unterscheidet), die zu Klasse A gehören, und in die Nicht-Lernbereiche E ein, wodurch ein Klassifikationsmodell erzeugt wird wie dasjenige, das in 20 gezeigt ist.
Wird das Klassifikationsmodell eingesetzt, das auf diese Art erzeugt wurde, kann die gegenwärtige Situation, die durch die Messwerte PV1 und PV2 gekennzeichnet ist, als eine Situation klassifiziert werden, die zu Klasse A gehört oder nicht. Gehört die gegenwärtige Situation zu Klasse A, kann der Betrieb mit Bezug auf die Werte der Arbeitsleistung auf der Grundlage der Fachkraft unterstützt werden. Wahlweise können die Werte der Arbeitsleistung auf der Grundlage der Fachkraft unmittelbar dem System zugeführt werden, um eine Automatisierung durchzuführen.
Bei der ersten bis zur fünften Ausführungsform wird das Verfahren zum Erzeugen eines Klassifikationsmodells der vorliegenden Erfindung zur Situationsklassifikation eingesetzt, um Anomalien zu ermitteln (Ermittlung einer unerwünschten Situation wie Nachlauf oder eines anormalen Zustands in einer Anlage oder in Einrichtungen) oder zur Entscheidung, ob ein und welcher Vorgang in Übereinstimmung mit einer Situation durchgeführt werden soll. Offensichtlich kann dieses Verfahren jedoch auch zur Mustererkennung für beispielsweise Sprach- oder Bildmuster verwendet werden.

Claims

Verfahren zur Bild- oder Spracherkennung oder zur Situationsklassifikation in der Prozesssteuerung, umfassend ein computerausgeführtes Verfahren des Erzeugens eines Klassifikationsmodells, umfassend die Schritte: wenn n-dimensionale Daten, die zu einer Klasse in einem n-dimensionalen Merkmalsraum gehören, der durch n Arten von Variablen definiert ist und dessen Position durch die Variablen bestimmt wird, eingegeben werden, Teilen des Merkmalsraums in mⁿ geteilte Bereiche durch Ausführen m-teiliger Division für jede der Variablen, wobei m eine ganze Zahl ist; Setzten jedes geteilten Bereichs, der n-dimensionale Daten enthält, als einen zur Klasse gehörenden Lernbereich, und Assoziieren aller Eingabedaten mit einem entsprechenden geteilten Bereich; Hinzufügen geteilter Bereiche um die Lernbereiche herum als Lernbereiche, um eine Lernbereichsgruppe zu erweitern; und Entfernen von Lernbereichen, die sich an der Grenze zwischen den Lernbereichen und solchen geteilten Bereichen befinden, die keine Lernbereiche sind, aus der Lernbereichsgruppe, um die Lernbereichsgruppe zusammenzuziehen; dadurch gekennzeichnet, dass die Divisionszahl m, die in dem Schritt des Teilens der Bereiche verwendet wird, durch die folgenden Schritte bestimmt ist: Definieren einer Funktion F(m) = p/M für verschiedene ganzzahlige Divisionszahlen m, die verschiedenen Divisionen des Merkmalsraums in mⁿ Bereiche entsprechen, wobei p die Zahl der geteilten Bereiche ist, die für jede entsprechende Division einen Datenpunkt enthalten, und M die Gesamtzahl von Datenpunkten der jeweiligen Klasse ist, und lineare Interpolation von F(m) zwischen den ganzzahligen Divisionszahlen m; Definieren eines Erzeugungsgrades von geteilten Bereichen, die einen Datenpunkt enthalten, als F(m) – F(m–1); Definieren eines statistischen Signifikanzniveaus für den Erzeugungsgrad F(m) – F(m–1); und Wählen der ganzen Zahl, die dem statistischen Signifikanzniveau am nächsten liegt, als signifikante Divisionszahl m, die in dem Schritt des Teilens der Bereiche verwendet wird.
Klassifikationsmodellerzeugungsverfahren nach Anspruch 1, gekennzeichnet durch Entfernen eines Lernbereichs, der unter benachbarten Bereichen keinen Lernbereich aufweist, aus der Lernbereichsgruppe, bevor die Lernbereichsgruppe erweitert wird.
Klassifikationsmodellerzeugungsverfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Erweiterns der Lernbereichsgruppe umfasst: Setzen eines willkürlich geteilten Bereichs als einen Bereich von Interesse und Setzen des Bereichs von Interesse als Lernbereich, wenn mindestens einer der dem Bereich von Interesse benachbarten geteilten Bereiche ein Lernbereich ist, und der Schritt des Zusammenziehens der Lernbereichsgruppe umfasst: Setzen eines willkürlichen Lernbereichs als Bereich von Interesse und Entfernen des Bereichs von Interesse aus der Lernbereichsgruppe, wenn mindestens einer der dem Bereich von Interesse benachbarten geteilten Bereich ein Nicht-Lernbereich ist.
Klassifikationsmodellerzeugungsverfahren nach Anspruch 1, gekennzeichnet durch, wenn die Klasse eine Mehrzahl von Klassen enthält, Erhalten einer Divisionszahl für jede Klasse auf der Basis des statistischen Signifikanzniveaus, Bestimmen einer Divisionszahl, die allen Klassen gemeinsam ist, aus den Divisionszahlen, die für die jeweiligen Klassen erhalten werden, und Ausführen des Schritts des Assoziierens von Daten mit jedem geteilten Bereich, des Schritts des Erweiterns der Lernbereichsgruppe und des Schritts des Zusammenziehens der Lernbereichsgruppe für jede Klasse.
Klassifikationsmodellerzeugungsverfahren nach Anspruch 4, gekennzeichnet durch, wenn e Lernbereiche aus einer Gesamtzahl N von Lernbereichen, die als Bereiche erkannt werden, die zu einer gegebenen Klasse gehören, als Bereiche erkannt werden, die ebenfalls zu einer anderen Klasse gehören, Setzen von e/N als Identifikationsfehlerverhältnis, das die Trennbarkeit von Klassen voneinander angibt.
Aufzeichnungsmedium, auf dem ein Programm aufgezeichnet ist, wobei das Programm einen Computer veranlasst, alle Schritte des Anspruchs 1 auszuführen.