DE68925107T2

DE68925107T2 - Verfahren und System zur Mustererkennung

Info

Publication number: DE68925107T2
Application number: DE68925107T
Authority: DE
Inventors: Tsuneo Intellectual Prop Nitta
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-12-20
Filing date: 1989-12-07
Publication date: 1996-05-09
Anticipated expiration: 2009-12-08
Also published as: EP0374604B1; EP0374604A3; DE68925107D1; EP0374604A2; CA2005181A1; JPH02165388A; CA2005181C

Description

Die vorliegende Erfindung bezieht sich auf ein Mustererkennungssystem und -verfahren, das jeweils genau ein Eingangsmuster, wie beispielsweise eine Sprache, ein Zeichen, eine Figur und dergleichen erkennen kann, und insbesondere auf eine Verbesserung in einem Teilraumverfahren.
In den letzten fahren wurden Studien über die Mustererkennungsverarbeitung für Sprache, Zeichen, Figur und dergleichen durchgeführt, und die Mustererkennungsverarbeitung hat als eine wichtige Technik zum Realisieren einer natürlichen Mensch-Maschine-Schnittstelle viel Interesse empfangen.
Ein Mustererkennungsgerät zum Ausführen einer Mustererkennungsverarbeitung dieser Art hat grundsätzlich eine in Fig. 1 gezeigte Anordnung. Die jeweiligen Einheiten führen die folgende Verarbeitung durch.
1) Eine Merkmalaussiebeinheit 1 analysiert ein Eingangsmuster, um dessen Merkmalmuster zu erhalten.
2) Durch Bezugnahme auf einen Bezugsmusterspeicher 2, der Bezugsmuster speichert, die in Einheiten von Kategorien von zu erkennenden Mustern wie Wörterbüchern, Ähnlichkeiten oder Abständen zwischen dem Bezugsmuster erhalten sind, werden Wörterbücher und das Merkmalmuster durch eine Musteranpaßeinheit 3 berechnet.
3) Die Vergleichsergebnisse werden durch eine Bestimmungseinheit 4 bestimmt, um ein Erkennungsergebnis des Eingangsmusters zu erhalten. Es sei darauf hingewiesen, daß die Bestimmungseinheit 4 einen Kategorienamen des Bezugsmusters, das den höchsten Ähnlichkeitswert (oder den kleinsten Abstandswert) mit dem Eingangsmuster hat, als ein Erkennungsergebnis oder einen Erkennungskandidaten für das Eingangsmuster erhält. Wenn das Eingangsmuster eine Sprachwellenform ist, führt die Merkmalaussiebeinheit 1 eine Bandpaßfilter-(BPF-)Analyse oder eine Linearvorhersagecodierung-(LPC-)Analyse der Eingangssprache durch und erfaßt dann ein Sprachintervall, um so akustische Analysedaten in diesem Sprachintervall als ein Eingangsmuster zu erhalten.
Wenn das Eingangsmuster ein Zeichenbild ist, quantisiert die Merkmalaussiebeinheit 1 das Eingangszeichenbild und siebt dann einen Zeichenteil aus, um so Merkmaldaten des Zeichenmusters als ein Eingangsmuster zu erhalten.
Als ein Verfahren in der Mustererkennungsverarbeitung ist ein Unterraumverfahren bekannt. Eine Mustererkennung, die das Unterraumverfahren verwendet, ist beispielsweise in US-A-4 624 011 (Watanabe und andere) beschrieben.
In dem Unterraumverfahren werden als Bezugsmuster Wörterbücher von Kategorien, Wörterbücher (φ(K,m); K ist ein Kategoriename und m ist die Nummer einer orthogonalen Achse, m = 1, 2, ..., M), die zuvor durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, als orthogonalisierte Wörterbuchfolgen geschaffen. Ähnlichkeiten S(K) zwischen den Wörterbüchern und einem Eingangsmuster (F) werden gemäß der folgenden Gleichung berechnet, um ein Musteranpaßverarbeiten durchzuführen:
wobei ( ) ein inneres Produkt und eine Normierung bedeuten.
Das Musteranpaßverfahren gemäß dem Unterraumverfahren ist weit in der Mustererkennung verwendet, da es relativ einfach ein genaues Erkennungsergebnis erhalten kann.
In der herkömmlichen Mustererkennungsverarbeitung, die das Unterraumverfahren verwendet, wie dies in der obigen Gleichung gezeigt ist, werden die inneren Produkte des Eingangsmusters (F) und der orthogonalen Achsen (φ(K,m) der orthogonalisierten Wörterbuchfolgen lediglich angesammelt, und das Gesamtmerkmal des Eingangsmusters wird mittels des Sammlungswertes bewertet. Mit anderen Worten, die Mustererkennung wird nicht durchgeführt, indem die einzelnen inneren Produkte verwendet werden, die zwischen dem Eingangsmuster und den orthogonalen Achsen erhalten sind, sondern indem der Sammlungswert ausgenutzt wird, der das Gesamtmerkmal wiedergibt. Wenn aus diesem Grund ein inneres Produkt bezüglich einer gegebenen orthogonalen Achse einen großen Wert annimmt, der nicht mit einem richtigen Muster erhalten werden kann, was auf Rauschen beruht, neigt das Sammlungsergebnis der inneren Produkte dazu, einen Wert zu ergeben, der größer ist als derjenige der inneren Produkte für das richtige Muster. Wenn das Musteranpaßverarbeiten mittels des Unterraumverfahrens dieser Art durchgeführt wird, treten ein Bestimmungsfehler (Erkennungsfehler), der durch eine Kategorie verursacht ist, die von derjenigen eines zu erkennenden Objektes verschieden ist, und verschiedene Rauschkomponenten leicht auf.
Zur Lösung dieses Problemes genießt in jüngster Zeit eine Musteranpaßverarbeitung, die ein mehrschichtiges neurales Netzwerk verwendet, große Aufmerksamkeit. Eine nichtlineare diskriminante Funktion wird durch das neurale Netzwerk realisiert, um sequentiell Information tragende Neuronen zu übertragen, so daß Merkmaldaten eines Eingangsmusters ausgesiebt werden. Das neurale Netzwerk dieser Art stellt das Problem dar, wie eine Folge von Koeffizienten zü bestimmen ist, um den Weg des Kombinierens der Ausgangssignale von Schichten niedrigerer Ordnung zu definieren. Als ein Algorithmus zur Gewinnung dieser Koeffizienten ist ein Rückausbreitungs-(BP-)Algorithmus bekannt (NATURE, Band 323 9, Seiten 553 - 536 (Oktober 1986), Learning representations by back-propagation errors). Verschiedene Berichte verkündeten, daß ein Musteranpaßverfahren genau nach Anwendung des BP-Algorithmus ausgeführt werden konnte.
Wenn jedoch ein neurales Netzwerk verwendet wird, muß eine enorme Menge an Berechnungen zum Bestimmen von Koeffizienten jeder Schicht durchgeführt werden, und die Belastung der Rechenverarbeitung ist sehr groß.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Mustererkennungssystem und -verfahren vorzusehen, das jeweils eine Belastung auf die Rechenverarbeitung vermindern kann, indem Vorteile eines neuralen Netzwerkes ausgenutzt werden.
Zur Lösung der obigen Aufgabe umfaßt gemäß einem ersten Aspekt der vorliegenden Erfindung ein Mustererkennungssystem: eine orthogonalisierte Wörterbucheinrichtung zum Speichern einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind, eine Innenprodukt-Recheneinrichtung zum Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und der Vielzahl von Bezugsmustern, die in der orthogonalisierten Wörterbucheinrichtung gespeichert sind und deren Kategorien bekannt sind, eine Umsetzungseinrichtung zum nichtlinearen Umsetzen der inneren Produkte, die durch die Innenprodukt-Recheneinrichtung berechnet sind, gemäß einer positiv-negativ symmetrischen nichtlinearen Funktion, eine Bewertungswert-Recheneinrichtung zum Berechnen von Bewertungswerten auf der Grundlage der nichtlinear umgesetzten Werte durch die Umsetzungseinrichtung und von Koeffizienten, die in Einheiten von Kategorien voreingestellt sind, eine Vergleichseinrichtung zum Vergleichen der durch die Bewertungswert- Recheneinrichtung erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander und eine Diskriminiereinrichtung zum Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse der Vergleichseinrichtung.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung umfaßt ein Mustererkennungsverfahren die durch einen Computer durchgeführten Schritte: Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und orthogonalisierter Wörterbuchfolgen einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind, nichtlineares Umsetzen der inneren Produkte, die in dem Rechenschritt berechnet sind, gemäß einer positiv-negativ symmetrischen nichtlinearen Funktion, Berechnen von Bewertungswerten auf der Grundlage der nichtlinearen umgesetzten Werte durch den Umsetzungsschritt und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind, Vergleichen der durch den Bewertungswert-Berechnungsschritt erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander, und Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse des Vergleichsschrittes.
Diese Erfindung kann vollständiger anhand der folgenden Detailbeschreibung im Zusammenhang mit den begleitenden Zeichnungen verstanden werden, in welchen:
Fig. 1 ein Blockdiagramm eines typischen Mustererkennungsgerätes ist,
Fig. 2A bis 2D Muster von orthogonalen Vektoren zeigen, die durch eine KL-Expansion erhalten sind,
Fig. 3 ein Diagramm ist, das eine nichtlineare Funktion zeigt, die gewöhnlich in einem neuralen Netzwerk verwendet wird,
Fig. 4 ein Diagramm ist, das eine positiv- negative symmetrische nichtlineare Funktion zeigt, die bei der vorliegenden Erfindung eingeführt wird,
Fig. 5 ein Blockdiagramm ist, das das erste Ausführungsbeispiel des Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt,
Fig. 6 ein neurales Netzwerk des in Fig. 5 dargestellten Mustererkennungssystems zeigt, und
Fig. 7 ein Blockdiagramm ist, das das zweite Ausführungsbeispiel der vorliegenden Erfindung zeigt.
Gemäß dem Mustererkennungssystem und -verfahren der vorliegenden Erfindung werden innere Produkte eines Eingangsmusters und orthogonalisierter Wörterbuchfolgen nichtlinear durch eine positiv-negativ symmetrische nichtlineare Funktion umgesetzt, und die umgesetzten Werte werden einer vorbestimmten Berechnungsverarbeitung mittels vorbestimmter Koeffizienten in Einheiten von Kategorien unterworfen. Als ein Ergebnis kann eine Variation eines Eingangsmusters wirksam durch einfache Berechnungsverarbeitung absorbiert werden, und das Eingangsmuster kann genau erkannt werden.
Beispielsweise werden Eigenvektoren eines Sprachmusters erhalten, wie dies in den Fig. 2A bis 2D gezeigt ist. Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; von in den Fig. 2A bis 2D gezeigten ersten bis vierten Achsen sind diejenigen von orthogonalisierten Wörterbuchmustern (Eigenvektoren), die erhalten sind bis zu einer zehnten Achse aus Sprachmustern einer einsilbigen Sprache/cho/ ( [t o] ), ausgesprochen von 300 Sprechern durch KL-Expansion. In den Fig. 2A bis 2D bedeutet einen Positiven Vektorwert und bedeutet einen negativen Vektorwert.
Der Eigenvektor φ&sub1; der ersten Achse stellt ein Merkmal (Vektor) eines Mitteleingangsmusters dar. Da jedoch ein Verschlußlautteil von /cho/([tfo]) verschwommen ist, kann das Eingangsmuster als von /sho/ ( [ o] ) verschieden unterschieden werden. Der Eigenvektor φ&sub2; der zweiten Achse drückt hauptsächlich eine Verschiebung in einer Frequenzrichtung aus, und der Eigenvektor φ&sub3; der dritten Achse drückt hauptsächlich einen Verschlußlautteil einer Affrikata/cho/ ( [t o] ) aus. Wenn daher auf den Eigenvektor der dritten Achse Bezug genommen wird, kann das Eingangsmuster als verschieden von /sho/ ( [ o] ) erkannt werden, wie dies oben erläutert ist. Weiterhin drückt der Eigenvektor φ&sub4; der vierten Achse hauptsächlich eine Verschiebung in der Zeitrichtung aus.
In diesem Beispiel sind Eigenvektoren der fünften und folgenden Achsen nicht dargestellt. Jedoch ist durch jeden Eigenvektor getragene Information nicht so klar wie die Eigenvektoren der ersten bis vierten Achse.
Auf diese Weise drücken die Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; (orthogonalisierte Muster), die ein orthogonales Wörterbuch bilden, das durch die KL-Expansion erhalten ist, gut eine Variation in einem Sprach-(oder Zeichen- oder Figur-)Muster aus. Dies gleicht einer Merkmalaussiebung in Schichten niedriger Ordnung in einem mehrschichtigen neuralen Netzwerk.
Daher wird aufgrund dieses Gesichtspunktes ein Prozeß zum Berechnen eines inneren Produktes eines Eingangsmusters und eines orthogonalen Vektors als eine erste (unterste) Schicht in dem neuralen Netzwerk bei der vorliegenden Erfindung betrachtet, und ein neurales Netzwerk zum Empfangen der Ausgangssignale von der ersten Schicht wird gebildet, um eine Musteranpaßverar beitung auszuführen. Als ein Ergebnis können Koeffizientenberechnungen der Eingangssignale einer großen Anzahl von Dimensionen bei der untersten Schicht weggelassen werden. Das heißt, der erste Schichtteil ist getrennt von dem BP-Algorithmus, und lediglich ein Schichtteil höherer Ordnung wird unabhängig berechnet.
Als ein Ergebnis des neuralen Netzwerkes kann die Anzahl der Schichten, für die Koeffizienten durch den BP- Algorithmus berechnet werden, auf 1 oder 2 reduziert werden. Daher kann ein Musteranpaßverarbeiten mit einem beträchtlich reduzierten Rechenvolumen realisiert werden.
Ein Prozeß des Kombinierens der Ausgangssignale von einer Schicht niedrigerer Ordnung durch eine nichtlineare Umsetzung ist zwischen benachbarten Schichten des neuralen Netzwerkes vorgesehen. Als eine Funktion des Ausführens der nichtlinearen Umsetzung wird oft eine durch die folgende Gleichung (Fig. 3) ausgedrückte Sigmoid-Funktion verwendet:
f(x) = 1/(1 + e-x) wobei x die Gesamtsumme der Eingangssignale bedeutet. Die inneren Produkte der Eingangsmuster und der orthogonalen Vektoren (Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; nehmen positive/negative Werte an, ünd die Größe des Absolutwertes von jedem inneren Produkt stellt einen Grad des Beitrages zu der entsprechenden Achse dar. Daher liegt ein neues Problem vor, daß die nichtlineare Funktion, wie beispielsweise die Sigmoid-Funktion nicht direkt angewandt werden kann.
Bei der vorliegenden Erfindung wird eine positiv-negativ symmetrische nichtlineare Funktion, die in Fig. 4 gezeigt ist, zur Anwendung gebracht, um die nichtlineare Umsetzung der inneren Produkte durchzuführen.
In Fig. 4 ist eine Funktion A eine positiv-negativ symmetrische Funktion mit einer Kennlinie ähnlich zu derjenigen der Sigmoid-Funktion innerhalb des Bereiches von x ≤ 1 und ist gegeben durch:
Eine in Fig. 4 gezeigte Funktion E ist eine quadratische Funktion, die gegeben ist durch:
B; f(x) = x²
Weiterhin weist eine Funktion C lineare Kennlinien in positiven und negativen Bereichen auf und ist gegeben durch:
C; f(x) = x
Die inneren Produkte des Eingangsmusters und die orthogonalen Vektoren sind mittels der positiv-negativ symmetrischen nichtlinearen Funktionen A, B und C nichtlinear umgesetzt, um so ein Mittel zum Übertragen der Ausgangssignale zu den Schichten höherer Ordnung des neuralen Netzwerkes zu erhalten. Daher kann eine Mustererkennung mit guter Durchführung durch eine Kombination des Unterraumverfahrens und des neuralen Netzwerkes realisiert werden, von denen jedes die Nachteile des anderen kompensiert.
Wenn die oben beschriebene nichtlineare Umsetzung in der Praxis durchgeführt wird, werden die Absolutwerte der inneren Produkte eines Eingangsmusters und orthogonaler Vektoren berechnet, und eine in Fig. 4 gezeigte positivseitige nichtlineare Umsetzung kann für die Absolutwerte durchgeführt werden.
Nachdem die inneren Produkte eines Eingangsmusters und die orthogonalen Achsen durch die symmetrische nichtlineare Funktion nichtlinear umgesetzt sind, können diese Werte G = (S1, S2, ..., SM) in eine statistische Diskriminantenfunktion an der Stelle des neuralen Netzwerkes eingegeben werden. In diesem Fall wird beispielsweise eine durch die folgende Gleichung gegebene Bayes- Entscheidungsregel verwendet, um das Eingangsmuster zu diskriminieren.
L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2 ...(2)
wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten. T zeigt eine Transposition oder Vertauschung, und RK&supmin;¹ und RK bedeuten jeweils die inverse Matrix der Kovarianz-Matrix RK und des Wertes der Determinanten.
In der Bayes-Entscheidung werden durch Gleichung (2) gegebene Werte in Einheiten von Kategorien berechnet, und eine Kategorie, die einen Höchstwert liefert, wird als ein Erkennungsergebnis diskriminiert. Wenn ein Maharanobis-Abstand als ein vereinfachtes Verfahren der Bayes-Entscheidung verwendet wird, kann eine Mustererkennungsverarbeitung gemäß der folgenden Gleichung durchgeführt werden:
M(K) = (G - uK)TRK&supmin;¹(G - uK) ...(3)
Wenn die statistische Diskriminantenfunktion anstelle des neuralen Netzwerkes verwendet wird, kann der gleiche Effekt erzielt werden.
Fig. 5 ist ein Blockdiagramm, wenn eine Mustererkennung der vorliegenden Erfindung auf eine Spracherkennung angewandt ist.
Eine Eingangssprache ist in eine Merkmalaussiebeinheit 11 eingespeist. Die Merkmalaussiebeinheit 11 tastet die Eingangssprache bei 12 kHz ab, um die Eingangssprache in 12-Bit-Digitaldaten analog/digital-umzusetzen und berechnet deren Leistung und LPC-Analyseparameter. Diese Berechnungsverarbeitung wird unter Bedingungen durchgeführt, daß eine Fensterlänge 24 ms beträgt, eine Rahmenperiode 8 ms ist, eine Ordnung der LPC-Analyse durch 16 gegeben ist, und die Anzahl der Terme des LPC- Mel-Cepstrum den Wert 16 hat. Danach erfaßt die Merkmalaussiebeinheit 11 ein Eingangssprachintervall und siebt Leistungs- und LPC-Analyseparameter in diesem Intervall als ein Sprachmerkmal (Eingangsmuster) aus. Die Einheit 11 speist dann das ausgesiebte Merkmal zu einer Innenprodukt-Recheneinheit 12.
Die Innenprodukt-Recheneinheit 12 führt Innenprodukt- Berechnungen des in der oben beschriebenen Weise erhaltenen Eingangsmusters und orthogonalisierter Wörterbuchfolgen durch, die in Einheiten von zu erkennenden Kategorien vorbereitet und in einem orthogonalisierten Wörterbuchspeicher 13 gespeichert sind. Die inneren Produkte zwischen dem Eingangsmuster und den orthogonalisierten Wörterbuchfolgen werden zu einer symmetrischen nichtlinearen Umsetzungseinheit 14 und einer Ähnlichkeitsrecheneinheit 15 aufgrund der Teilraummethode gespeist.
Die symmetrische nichtlineare Umsetzungseinheit 14 setzt die inneren Produkte gemäß der positiv-negativ symmetrischen nichtlinearen Funktion, die in Fig. 4 gezeigt ist, nichtlinear um und speist die umgesetzten Werte zu einer neuralen Netzwerkeinheit 17. Die Ähnlichkeitsrecheneinheit 15 führt eine Ähnlichkeitsberechnungsverarbeitung durch die durch Gleichung (1) für die inneren Produkte gegebene Unterraummethode aus. Das durch die Ähnlichkeitsrecheneinheit 15 erhaltene Ähnlichkeitsberechnungsergebnis wird zu einem Vorbestimmungsabschnitt 16 gespeist. Der Vorbestimmungsabschnitt 16 bestimmt, ob der Wert für die Ähnlichkeitsrecheneinheit 15 als ein Erkennungsergebnis aus zugeben oder durch die neurale Netzwerkeinheit 17 zu diskriminieren ist.
Das neurale Netzwerk ist mit in Fig. 5 gezeigten Koeffizienten in der gleichen Weise wie in den orthogonalisierten Wörterbuchfolgen versehen. Diese Koeffizienten werden zuvor in Einheiten von zu erkennenden Kategorien auf der Grundlage von Lerndaten mittels des oben erwähnten BP-Algorithmus berechnet.
Die neurale Netzwerkeinheit 17 ist in Einheiten von Kategorien vorgesehen, wie dies in Fig. 5 gezeigt ist und empfängt die nichtlinear umgesetzten Werte G (= (S1, S2, ..., SM); M ist die Anzahl der orthogonalen Achsen), um Summen von Produkten mit den Koeffizienten längs in Fig. 5 gezeigten Verbindungslinien zu berechnen. Die Einheit 17 kombiniert die Summen in Einheiten von Knoten und führt die nichtlineare Umsetzung aufgrund der Sigmoid-Funktion durch, um Signale y1, y2, ..., yl zu erhalten. In ähnlicher Weise berechnet die Einheit 17 Summen von Produkten zwischen diesen Signalen und den Koeffizienten und führt eine nichtlineare Umsetzung durch. Die Einheit 17 kombiniert dann die umgesetzten Werte, um ein einer gegebenen Kategorie zugeordnetes Ausgangssignal zu erhalten. Von den Ausgangssignalen des neuralen Netzwerkes für alle auf diese Weise erhaltene Kategorien wird eine Kategorie, die ein größtes Ausgangssignal ergibt, als ein Erkennungsergebnis diskriminiert, um so das Eingangsmuster zu erkennen.
Fig. 6 zeigt ein neurales Netzwerk des in Fig. 5 dargestellten Spracherkennungssystems. Die gleichen Bezugszeichen in dem neuralen Netzwerk in Fig. 6 bezeichnen die gleichen Teile wie in Fig. 5.
Eingangsmuster, die von der Merkmalaussiebeinheit 11 ausgegeben sind, werden einer Innenprodukt-Berechnung (F φ(K,m)), die durch Gleichung (1) gegeben ist, unterworfen und durch die Innenprodukt-Recheneinheit 12 addiert. Die Summenausgangswerte von der Innenprodukt- Recheneinheit 12 werden als die inneren Produkte nichtlinear durch die symmetrische nichtlineare Umsetzungseinheit 14 umgesetzt. Die neurale Netzwerkeinheit 17 berechnet weiterhin innere Produkte von Gewichtungskoeffizienten und die Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM von der symmetrischen nichtlinearen Umsetzungseinheit 14 in Einheiten von Kategorien, berechnet eine Gesamtsumme der inneren Produkte und setzt dann nichtlinear die Gesamtsumme gemäß der Sigmoid-Funktion um, um so SM(K) zu erhalten.
Die Ähnlichkeitsrecheneinheit 15 berechnet eine Gesamtsumme von Werten, die erhalten sind durch Multiplizieren der Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM(1) von der symmetrischen nichtlinearen Umsetzungseinheit 14 mit "1" und der Werte, die erhalten sind durch Multiplizieren der Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM(1) mit "2", um so ein Ausgangssignal SS(K) zu erlangen.
SS(K) entspricht einer Markierung oder Punktzahl der Unterraummethode allein. SM(K) kann als eine Markierung oder Punktzahl des neuralen Netzwerkes alleine betrachtet werden, wenn Projektivkomponenten zu jedem Unterraum in das neurale Netzwerk eingegeben sind. Ein Bestimmungsabschnitt 18 führt eine Primärbestimmung aufgrund Markierungen oder Punktzahlen höherer Ordnung (SS1, SS2, ...) von SS(K) durch. Wenn als ein Ergebnis eine Vielzahl von Kandidaten erhalten ist, wird das Erkennungsergebnis als auf SM(K) basierend bestimmt.
In diesem Ausführungsbeispiel werden neurale Netzwerkberechnungen für alle Kategorien für ein Eingangssignal durchgeführt. Jedoch können in einer praktischen Anwendung bestimmte Erkennungskandidaten ausgewählt werden, indem das Ausgangssignal von dem Vorbestimmungsabschnitt 16 verwendet wird, und lediglich Kandidaten höherer Ordnung können Berechnungen durch die neurale Netzwerkeinheit 17 unterworfen sein. Die Anzahl von Schichten des neuralen Netzwerkes kann innerhalb des Kernes und Bereiches der Erfindung verändert werden.
Auf diese Weise werden in dem Mustererkennungssystem und -verfahren der vorliegenden Erfindung innere Produkte zwischen einem Eingangsmuster und den orthogonalisierten Wörterbuchfolgen berechnet und nichtlinear umgesetzt, und die umgesetzten Werte werden zu der neuralen Netzwerkeinheit 17 gespeist, um eine Mustererkennungsverarbeitung auszuführen. Gemäß dem System und dem Verfahren der vorliegenden Erfindung kann eine genaue Erkennungsverarbeitung durch die Innenproduktberechnungen und die nichtlineare Umsetzung realisiert werden, ohne komplizierte Koeffizientenberechnungen in früheren Stufen in dem neuralen Netzwerk vorzunehmen. Als ein Ergebnis kann ein Eingangsmuster einfach und wirksam mit hoher Genauigkeit mittels des neuralen Netzwerkes erkannt werden, in welchem Koeffizientberechnungen vereinfacht sind, während Nachteile der Unterraummethode in Termen von verschiedenen Rauschkomponenten wirksam eliminiert sind.
Fig. 7 ist ein Blockdiagramm, das das zweite Ausführungsbeispiel des Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt. Es sei darauf hingewiesen, daß die gleichen Bezugszeichen in Fig. 7 die gleichen Teile wie in Fig. 5 bezeichnen, und eine Detailbeschreibung hiervon wird weggelassen. In diesem Ausführungsbeispiel wird eine Mustererkennungsverarbeitung mittels der statistischen Diskriminantenfunktion, die oben beschrieben ist, anstelle des neuralen Netzwerkes ausgeführt. In diesem Ausführungsbeispiel wird eine Eingangssprache durch eine Merkmalaussiebeinheit 11 wie in dem ersten Ausführungsbeispiel analysiert, um deren Leistungs- und LPC-Analyseparameter zu erhalten, und ein Sprachintervall wird erfaßt, um ein Sprachmerkmal auszusieben (Eingangsmuster). Ein Innenprodukt-Rechenabschnitt 12 berechnet innere Produkte zwischen dem Eingangsmuster und orthogonalisierten Wörterbüchern, die in Einheiten von Kategorien vorbereitet und in einem orthogonalisierten Wörterbuchspeicher 13 gespeichert sind. Die inneren Produkte werden durch eine symmetrische nichtlineare Umsetzungseinheit 14 nichtlinear umgesetzt. Danach führt eine statistische Diskriminantenfunktion-Recheneinheit 19 vorbestimmte Koeffizientenberechnungen mittels der nicht linear umgesetzten Werte durch.
Die statische Diskriminantenfunktion-Recheneinheit 19 führt eine Koeffizientenberechnungsverarbeitung unter Bezugnahme auf eine Koeffizientenregistereinheit 20 durch, die mittlere Vektoren und Kovarianz-Matrizen speichert, welche von Lerndaten in Einheiten von Kategorien in der gleichen Weise wie die orthogonalisierten Wörterbuchfolgen erhalten sind.
Das heißt, die statistische Diskriminantenfunktion- Recheneinheit 19 empfängt die nichtlinear umgesetzten Werte G (= (S1, S2, ..., SM); M ist die Anzahl der orthogonalen Achsen) und führt eine Koeffizientenberechnungsverarbeitung gemäß Gleichung (2) oder (3) zwischen den Eingangssignalen und Koeffizienten aus, die von der Koeffizientenregistereinheit 20 gegeben sind, um so Bewertungswerte zu erzielen. Von den auf diese Weise berechneten Bewertungswerten (Ausgangssignalen) wird eine Kategorie, die ein größtes Ausgangssignal von allen Kategorien liefert (in der Bayes-Entscheidung ein Mindestwert für den Maharanobis-Abstand) als ein Erkennungsergebnis für das Eingangsmuster diskriminiert, um so das Eingangsmuster zu erkennen.
In diesem Fall können bestimmte Kandidaten durch Verwenden eines Ausgangssignales von einem Vorbestimmungsabschnitt ähnlich wie in dem ersten Ausführungsbeispiel ohne Berechnen der statistischen Diskriminantenfunktion für alle Kategorien gewählt werden, und Kandidaten höherer Ordnung können Diskriminantenfunktionsberechnungen unterworfen werden.
Die vorliegende Erfindung ist nicht auf die obigen Ausführungsbeispiele begrenzt.
Beispielsweise können die Anzahl von Achsen der in den Innenproduktberechnungen verwendeten orthogonalisierten Wörterbücher, die Anzahl der zu erkennenden Kategorien und die Anzahl der das neurale Netzwerk bildenden Schichten gemäß Spezifikationen der Mustererkennung bestimmt werden. Die nichtlineare Funktion zum nichtlinearen Umsetzen der inneren Produkte ist nicht auf die oben beschriebene Funktion begrenzt.

Claims

1. Mustererkennungssystem mit:

einer orthogonalisierten Wörterbucheinrichtung zum Speichern einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind,

einer Innenprodukt-Recheneinrichtung zum Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und der Vielzahl von Bezugsmustern, die in der orthogonalisierten Wörterbucheinrichtung gespeichert sind und deren Kategorien bekannt sind,

einer Umsetzungseinrichtung zum nicht linearen Umsetzen der inneren Produkte, die durch die Innenprodukt-Recheneinrichtung berechnet sind, gemäß einer positiv-negativ-symmetrischen nichtlinearen Funktion,

einer Bewertungswert-Recheneinrichtung zum Berechnen von Bewertungswerten auf der Grundlage der durch die Umsetzungseinrichtung nichtlinear umgesetzten Werte und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind,

einer Vergleichseinrichtung zum Vergleichen der Bewertungswerte, die von der Bewertungswert-Recheneinrichtung erhalten sind, in Einheiten von Kategorien miteinander, und

einer Diskriminiereinrichtung zum Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse der Vergleichseinrichtung.

2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die Bewertungswerte mittels eines neuralen Netzwerkes berechnet.

3. System nach Anspruch 1, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die Bewertungswerte mittels einer statistischen Diskriminantenfunktion berechnet.

4. System nach Anspruch 2, dadurch gekennzeichnet, daß das neurale Netzwerk eine Mehrschichtstruktur hat und Berechnungen an einer untersten Schicht mit Innenproduktberechnungen zwischen dem Eingangsmuster und Wörterbüchern, die durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, ersetzt sind.

5. System nach Anspruch 3, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die folgende Gleichung auf der Grundlage eines mittleren Vektors und einer Kovarianz-Matrix, die zuvor aus Lerndaten in Einheiten von Kategorien erhalten ist, berechnet und die Diskriminiereinrichtung einen maximalen Bewertungswert als ein Erkennungsergebnis mittels einer Bayes-Entscheidungsregel diskriminiert:

L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2

wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ und RK jeweils eine inverse Matrix der Kovarianz-Matrix RK und einen Wert einer Determinanten bedeuten.

6. System nach Anspruch 3, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die folgende Gleichung auf der Grundlage eines mittleren Vektors und einer zuvor aus Lerndaten in Einheiten von Kategorien erhaltenen Kovarianz-Matrix berechnet, und daß die Diskriminiereinrichtung eine Kategorie mit einem Mindestabstandswert als ein Erkennungsergebnis mittels eines Maharanobis-Abstands diskriminiert:

M(K) = (G - uK)TRK&supmin;¹ (G - uK)

wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ eine inverse Matrix der Kovarianz-Matrix RK ist.

7. Mustererkennungsverfahren mit den durch einen Rechner durchgeführten Schritten:

Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und orthogonalisierter Wörterbuchfolgen einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind,

nichtlineares Umsetzen der inneren Produkte, die in dem Berechnungsschritt berechnet sind, gemäß einer positiv-negativ-symmetrischen nichtlinearen Funktion,

Berechnen von Bewertungswerten auf der Grundlage der nichtlinear umgesetzten Werte durch den Umsetzungsschritt und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind,

Vergleichen der durch den Bewertungswert-Rechenschritt erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander, und

Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage von Vergleichsergebnissen des Vergleichsschrittes.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt eines Berechnens der Bewertungswerte mittels eines neuralen Netzwerkes umfaßt.

9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der Bewertungswertemittels einer statistischen diskriminanten Funktion umfaßt.

10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß das neurale Netzwerk eine Mehrschichtstruktur hat, und daß Berechnungen an einer untersten Schicht mit Innenprodukt-Berechnungen zwischen dem Eingangsmuster und Wörterbüchern, die durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, ersetzt werden.

11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der folgenden Gleichung auf der Grundlage eines mittleren Vektors und einer Kovarianz-Matrix, die zuvor aus Lerndaten in Einheiten von Kategorien erhalten ist, umfaßt, und daß der Diskriminierschritt den Schritt des Diskriminierens eines maximalen Entwicklungswertes als ein Erkennungsergebnis mittels einer Bias-Entscheidungsregel umfaßt:

L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2

wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ und RK jeweils eine inverse Matrix der Kovarianz-Matrix RK und ein Wert einer Determinanten sind.

12. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der folgenden Gleichung auf der Grundlage eines mittleren Vektors und einer zuvor aus Lerndaten in Einheiten von Kategorien erhaltenen Kovarianz-Matrix umfaßt, und daß der Diskriminierschritt den Schritt des Diskriminierens einer Kategorie mit einem Mindestabstandswert als einem Erkennungsergebnis mittels eines Maharanobis-Abstandes umfaßt:

M(K) = (G-uK)TRK&supmin;¹(G-uK)

wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix des aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition bzw. Vertauschung anzeigt und RK&supmin;¹ eine inverse Matrix der Kovarianz-Matrix RK ist.