DE68925107T2 - Verfahren und System zur Mustererkennung - Google Patents

Verfahren und System zur Mustererkennung

Info

Publication number
DE68925107T2
DE68925107T2 DE68925107T DE68925107T DE68925107T2 DE 68925107 T2 DE68925107 T2 DE 68925107T2 DE 68925107 T DE68925107 T DE 68925107T DE 68925107 T DE68925107 T DE 68925107T DE 68925107 T2 DE68925107 T2 DE 68925107T2
Authority
DE
Germany
Prior art keywords
categories
input pattern
units
covariance matrix
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68925107T
Other languages
English (en)
Other versions
DE68925107D1 (de
Inventor
Tsuneo Intellectual Prop Nitta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE68925107D1 publication Critical patent/DE68925107D1/de
Application granted granted Critical
Publication of DE68925107T2 publication Critical patent/DE68925107T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Mustererkennungssystem und -verfahren, das jeweils genau ein Eingangsmuster, wie beispielsweise eine Sprache, ein Zeichen, eine Figur und dergleichen erkennen kann, und insbesondere auf eine Verbesserung in einem Teilraumverfahren.
  • In den letzten fahren wurden Studien über die Mustererkennungsverarbeitung für Sprache, Zeichen, Figur und dergleichen durchgeführt, und die Mustererkennungsverarbeitung hat als eine wichtige Technik zum Realisieren einer natürlichen Mensch-Maschine-Schnittstelle viel Interesse empfangen.
  • Ein Mustererkennungsgerät zum Ausführen einer Mustererkennungsverarbeitung dieser Art hat grundsätzlich eine in Fig. 1 gezeigte Anordnung. Die jeweiligen Einheiten führen die folgende Verarbeitung durch.
  • 1) Eine Merkmalaussiebeinheit 1 analysiert ein Eingangsmuster, um dessen Merkmalmuster zu erhalten.
  • 2) Durch Bezugnahme auf einen Bezugsmusterspeicher 2, der Bezugsmuster speichert, die in Einheiten von Kategorien von zu erkennenden Mustern wie Wörterbüchern, Ähnlichkeiten oder Abständen zwischen dem Bezugsmuster erhalten sind, werden Wörterbücher und das Merkmalmuster durch eine Musteranpaßeinheit 3 berechnet.
  • 3) Die Vergleichsergebnisse werden durch eine Bestimmungseinheit 4 bestimmt, um ein Erkennungsergebnis des Eingangsmusters zu erhalten. Es sei darauf hingewiesen, daß die Bestimmungseinheit 4 einen Kategorienamen des Bezugsmusters, das den höchsten Ähnlichkeitswert (oder den kleinsten Abstandswert) mit dem Eingangsmuster hat, als ein Erkennungsergebnis oder einen Erkennungskandidaten für das Eingangsmuster erhält. Wenn das Eingangsmuster eine Sprachwellenform ist, führt die Merkmalaussiebeinheit 1 eine Bandpaßfilter-(BPF-)Analyse oder eine Linearvorhersagecodierung-(LPC-)Analyse der Eingangssprache durch und erfaßt dann ein Sprachintervall, um so akustische Analysedaten in diesem Sprachintervall als ein Eingangsmuster zu erhalten.
  • Wenn das Eingangsmuster ein Zeichenbild ist, quantisiert die Merkmalaussiebeinheit 1 das Eingangszeichenbild und siebt dann einen Zeichenteil aus, um so Merkmaldaten des Zeichenmusters als ein Eingangsmuster zu erhalten.
  • Als ein Verfahren in der Mustererkennungsverarbeitung ist ein Unterraumverfahren bekannt. Eine Mustererkennung, die das Unterraumverfahren verwendet, ist beispielsweise in US-A-4 624 011 (Watanabe und andere) beschrieben.
  • In dem Unterraumverfahren werden als Bezugsmuster Wörterbücher von Kategorien, Wörterbücher (φ(K,m); K ist ein Kategoriename und m ist die Nummer einer orthogonalen Achse, m = 1, 2, ..., M), die zuvor durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, als orthogonalisierte Wörterbuchfolgen geschaffen. Ähnlichkeiten S(K) zwischen den Wörterbüchern und einem Eingangsmuster (F) werden gemäß der folgenden Gleichung berechnet, um ein Musteranpaßverarbeiten durchzuführen:
  • wobei ( ) ein inneres Produkt und eine Normierung bedeuten.
  • Das Musteranpaßverfahren gemäß dem Unterraumverfahren ist weit in der Mustererkennung verwendet, da es relativ einfach ein genaues Erkennungsergebnis erhalten kann.
  • In der herkömmlichen Mustererkennungsverarbeitung, die das Unterraumverfahren verwendet, wie dies in der obigen Gleichung gezeigt ist, werden die inneren Produkte des Eingangsmusters (F) und der orthogonalen Achsen (φ(K,m) der orthogonalisierten Wörterbuchfolgen lediglich angesammelt, und das Gesamtmerkmal des Eingangsmusters wird mittels des Sammlungswertes bewertet. Mit anderen Worten, die Mustererkennung wird nicht durchgeführt, indem die einzelnen inneren Produkte verwendet werden, die zwischen dem Eingangsmuster und den orthogonalen Achsen erhalten sind, sondern indem der Sammlungswert ausgenutzt wird, der das Gesamtmerkmal wiedergibt. Wenn aus diesem Grund ein inneres Produkt bezüglich einer gegebenen orthogonalen Achse einen großen Wert annimmt, der nicht mit einem richtigen Muster erhalten werden kann, was auf Rauschen beruht, neigt das Sammlungsergebnis der inneren Produkte dazu, einen Wert zu ergeben, der größer ist als derjenige der inneren Produkte für das richtige Muster. Wenn das Musteranpaßverarbeiten mittels des Unterraumverfahrens dieser Art durchgeführt wird, treten ein Bestimmungsfehler (Erkennungsfehler), der durch eine Kategorie verursacht ist, die von derjenigen eines zu erkennenden Objektes verschieden ist, und verschiedene Rauschkomponenten leicht auf.
  • Zur Lösung dieses Problemes genießt in jüngster Zeit eine Musteranpaßverarbeitung, die ein mehrschichtiges neurales Netzwerk verwendet, große Aufmerksamkeit. Eine nichtlineare diskriminante Funktion wird durch das neurale Netzwerk realisiert, um sequentiell Information tragende Neuronen zu übertragen, so daß Merkmaldaten eines Eingangsmusters ausgesiebt werden. Das neurale Netzwerk dieser Art stellt das Problem dar, wie eine Folge von Koeffizienten zü bestimmen ist, um den Weg des Kombinierens der Ausgangssignale von Schichten niedrigerer Ordnung zu definieren. Als ein Algorithmus zur Gewinnung dieser Koeffizienten ist ein Rückausbreitungs-(BP-)Algorithmus bekannt (NATURE, Band 323 9, Seiten 553 - 536 (Oktober 1986), Learning representations by back-propagation errors). Verschiedene Berichte verkündeten, daß ein Musteranpaßverfahren genau nach Anwendung des BP-Algorithmus ausgeführt werden konnte.
  • Wenn jedoch ein neurales Netzwerk verwendet wird, muß eine enorme Menge an Berechnungen zum Bestimmen von Koeffizienten jeder Schicht durchgeführt werden, und die Belastung der Rechenverarbeitung ist sehr groß.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Mustererkennungssystem und -verfahren vorzusehen, das jeweils eine Belastung auf die Rechenverarbeitung vermindern kann, indem Vorteile eines neuralen Netzwerkes ausgenutzt werden.
  • Zur Lösung der obigen Aufgabe umfaßt gemäß einem ersten Aspekt der vorliegenden Erfindung ein Mustererkennungssystem: eine orthogonalisierte Wörterbucheinrichtung zum Speichern einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind, eine Innenprodukt-Recheneinrichtung zum Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und der Vielzahl von Bezugsmustern, die in der orthogonalisierten Wörterbucheinrichtung gespeichert sind und deren Kategorien bekannt sind, eine Umsetzungseinrichtung zum nichtlinearen Umsetzen der inneren Produkte, die durch die Innenprodukt-Recheneinrichtung berechnet sind, gemäß einer positiv-negativ symmetrischen nichtlinearen Funktion, eine Bewertungswert-Recheneinrichtung zum Berechnen von Bewertungswerten auf der Grundlage der nichtlinear umgesetzten Werte durch die Umsetzungseinrichtung und von Koeffizienten, die in Einheiten von Kategorien voreingestellt sind, eine Vergleichseinrichtung zum Vergleichen der durch die Bewertungswert- Recheneinrichtung erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander und eine Diskriminiereinrichtung zum Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse der Vergleichseinrichtung.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung umfaßt ein Mustererkennungsverfahren die durch einen Computer durchgeführten Schritte: Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und orthogonalisierter Wörterbuchfolgen einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind, nichtlineares Umsetzen der inneren Produkte, die in dem Rechenschritt berechnet sind, gemäß einer positiv-negativ symmetrischen nichtlinearen Funktion, Berechnen von Bewertungswerten auf der Grundlage der nichtlinearen umgesetzten Werte durch den Umsetzungsschritt und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind, Vergleichen der durch den Bewertungswert-Berechnungsschritt erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander, und Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse des Vergleichsschrittes.
  • Diese Erfindung kann vollständiger anhand der folgenden Detailbeschreibung im Zusammenhang mit den begleitenden Zeichnungen verstanden werden, in welchen:
  • Fig. 1 ein Blockdiagramm eines typischen Mustererkennungsgerätes ist,
  • Fig. 2A bis 2D Muster von orthogonalen Vektoren zeigen, die durch eine KL-Expansion erhalten sind,
  • Fig. 3 ein Diagramm ist, das eine nichtlineare Funktion zeigt, die gewöhnlich in einem neuralen Netzwerk verwendet wird,
  • Fig. 4 ein Diagramm ist, das eine positiv- negative symmetrische nichtlineare Funktion zeigt, die bei der vorliegenden Erfindung eingeführt wird,
  • Fig. 5 ein Blockdiagramm ist, das das erste Ausführungsbeispiel des Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt,
  • Fig. 6 ein neurales Netzwerk des in Fig. 5 dargestellten Mustererkennungssystems zeigt, und
  • Fig. 7 ein Blockdiagramm ist, das das zweite Ausführungsbeispiel der vorliegenden Erfindung zeigt.
  • Gemäß dem Mustererkennungssystem und -verfahren der vorliegenden Erfindung werden innere Produkte eines Eingangsmusters und orthogonalisierter Wörterbuchfolgen nichtlinear durch eine positiv-negativ symmetrische nichtlineare Funktion umgesetzt, und die umgesetzten Werte werden einer vorbestimmten Berechnungsverarbeitung mittels vorbestimmter Koeffizienten in Einheiten von Kategorien unterworfen. Als ein Ergebnis kann eine Variation eines Eingangsmusters wirksam durch einfache Berechnungsverarbeitung absorbiert werden, und das Eingangsmuster kann genau erkannt werden.
  • Beispielsweise werden Eigenvektoren eines Sprachmusters erhalten, wie dies in den Fig. 2A bis 2D gezeigt ist. Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; von in den Fig. 2A bis 2D gezeigten ersten bis vierten Achsen sind diejenigen von orthogonalisierten Wörterbuchmustern (Eigenvektoren), die erhalten sind bis zu einer zehnten Achse aus Sprachmustern einer einsilbigen Sprache/cho/ ( [t o] ), ausgesprochen von 300 Sprechern durch KL-Expansion. In den Fig. 2A bis 2D bedeutet einen Positiven Vektorwert und bedeutet einen negativen Vektorwert.
  • Der Eigenvektor φ&sub1; der ersten Achse stellt ein Merkmal (Vektor) eines Mitteleingangsmusters dar. Da jedoch ein Verschlußlautteil von /cho/([tfo]) verschwommen ist, kann das Eingangsmuster als von /sho/ ( [ o] ) verschieden unterschieden werden. Der Eigenvektor φ&sub2; der zweiten Achse drückt hauptsächlich eine Verschiebung in einer Frequenzrichtung aus, und der Eigenvektor φ&sub3; der dritten Achse drückt hauptsächlich einen Verschlußlautteil einer Affrikata/cho/ ( [t o] ) aus. Wenn daher auf den Eigenvektor der dritten Achse Bezug genommen wird, kann das Eingangsmuster als verschieden von /sho/ ( [ o] ) erkannt werden, wie dies oben erläutert ist. Weiterhin drückt der Eigenvektor φ&sub4; der vierten Achse hauptsächlich eine Verschiebung in der Zeitrichtung aus.
  • In diesem Beispiel sind Eigenvektoren der fünften und folgenden Achsen nicht dargestellt. Jedoch ist durch jeden Eigenvektor getragene Information nicht so klar wie die Eigenvektoren der ersten bis vierten Achse.
  • Auf diese Weise drücken die Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; (orthogonalisierte Muster), die ein orthogonales Wörterbuch bilden, das durch die KL-Expansion erhalten ist, gut eine Variation in einem Sprach-(oder Zeichen- oder Figur-)Muster aus. Dies gleicht einer Merkmalaussiebung in Schichten niedriger Ordnung in einem mehrschichtigen neuralen Netzwerk.
  • Daher wird aufgrund dieses Gesichtspunktes ein Prozeß zum Berechnen eines inneren Produktes eines Eingangsmusters und eines orthogonalen Vektors als eine erste (unterste) Schicht in dem neuralen Netzwerk bei der vorliegenden Erfindung betrachtet, und ein neurales Netzwerk zum Empfangen der Ausgangssignale von der ersten Schicht wird gebildet, um eine Musteranpaßverar beitung auszuführen. Als ein Ergebnis können Koeffizientenberechnungen der Eingangssignale einer großen Anzahl von Dimensionen bei der untersten Schicht weggelassen werden. Das heißt, der erste Schichtteil ist getrennt von dem BP-Algorithmus, und lediglich ein Schichtteil höherer Ordnung wird unabhängig berechnet.
  • Als ein Ergebnis des neuralen Netzwerkes kann die Anzahl der Schichten, für die Koeffizienten durch den BP- Algorithmus berechnet werden, auf 1 oder 2 reduziert werden. Daher kann ein Musteranpaßverarbeiten mit einem beträchtlich reduzierten Rechenvolumen realisiert werden.
  • Ein Prozeß des Kombinierens der Ausgangssignale von einer Schicht niedrigerer Ordnung durch eine nichtlineare Umsetzung ist zwischen benachbarten Schichten des neuralen Netzwerkes vorgesehen. Als eine Funktion des Ausführens der nichtlinearen Umsetzung wird oft eine durch die folgende Gleichung (Fig. 3) ausgedrückte Sigmoid-Funktion verwendet:
  • f(x) = 1/(1 + e-x) wobei x die Gesamtsumme der Eingangssignale bedeutet. Die inneren Produkte der Eingangsmuster und der orthogonalen Vektoren (Eigenvektoren φ&sub1;, φ&sub2;, φ&sub3; und φ&sub4; nehmen positive/negative Werte an, ünd die Größe des Absolutwertes von jedem inneren Produkt stellt einen Grad des Beitrages zu der entsprechenden Achse dar. Daher liegt ein neues Problem vor, daß die nichtlineare Funktion, wie beispielsweise die Sigmoid-Funktion nicht direkt angewandt werden kann.
  • Bei der vorliegenden Erfindung wird eine positiv-negativ symmetrische nichtlineare Funktion, die in Fig. 4 gezeigt ist, zur Anwendung gebracht, um die nichtlineare Umsetzung der inneren Produkte durchzuführen.
  • In Fig. 4 ist eine Funktion A eine positiv-negativ symmetrische Funktion mit einer Kennlinie ähnlich zu derjenigen der Sigmoid-Funktion innerhalb des Bereiches von x ≤ 1 und ist gegeben durch:
  • Eine in Fig. 4 gezeigte Funktion E ist eine quadratische Funktion, die gegeben ist durch:
  • B; f(x) = x²
  • Weiterhin weist eine Funktion C lineare Kennlinien in positiven und negativen Bereichen auf und ist gegeben durch:
  • C; f(x) = x
  • Die inneren Produkte des Eingangsmusters und die orthogonalen Vektoren sind mittels der positiv-negativ symmetrischen nichtlinearen Funktionen A, B und C nichtlinear umgesetzt, um so ein Mittel zum Übertragen der Ausgangssignale zu den Schichten höherer Ordnung des neuralen Netzwerkes zu erhalten. Daher kann eine Mustererkennung mit guter Durchführung durch eine Kombination des Unterraumverfahrens und des neuralen Netzwerkes realisiert werden, von denen jedes die Nachteile des anderen kompensiert.
  • Wenn die oben beschriebene nichtlineare Umsetzung in der Praxis durchgeführt wird, werden die Absolutwerte der inneren Produkte eines Eingangsmusters und orthogonaler Vektoren berechnet, und eine in Fig. 4 gezeigte positivseitige nichtlineare Umsetzung kann für die Absolutwerte durchgeführt werden.
  • Nachdem die inneren Produkte eines Eingangsmusters und die orthogonalen Achsen durch die symmetrische nichtlineare Funktion nichtlinear umgesetzt sind, können diese Werte G = (S1, S2, ..., SM) in eine statistische Diskriminantenfunktion an der Stelle des neuralen Netzwerkes eingegeben werden. In diesem Fall wird beispielsweise eine durch die folgende Gleichung gegebene Bayes- Entscheidungsregel verwendet, um das Eingangsmuster zu diskriminieren.
  • L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2 ...(2)
  • wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten. T zeigt eine Transposition oder Vertauschung, und RK&supmin;¹ und RK bedeuten jeweils die inverse Matrix der Kovarianz-Matrix RK und des Wertes der Determinanten.
  • In der Bayes-Entscheidung werden durch Gleichung (2) gegebene Werte in Einheiten von Kategorien berechnet, und eine Kategorie, die einen Höchstwert liefert, wird als ein Erkennungsergebnis diskriminiert. Wenn ein Maharanobis-Abstand als ein vereinfachtes Verfahren der Bayes-Entscheidung verwendet wird, kann eine Mustererkennungsverarbeitung gemäß der folgenden Gleichung durchgeführt werden:
  • M(K) = (G - uK)TRK&supmin;¹(G - uK) ...(3)
  • Wenn die statistische Diskriminantenfunktion anstelle des neuralen Netzwerkes verwendet wird, kann der gleiche Effekt erzielt werden.
  • Fig. 5 ist ein Blockdiagramm, wenn eine Mustererkennung der vorliegenden Erfindung auf eine Spracherkennung angewandt ist.
  • Eine Eingangssprache ist in eine Merkmalaussiebeinheit 11 eingespeist. Die Merkmalaussiebeinheit 11 tastet die Eingangssprache bei 12 kHz ab, um die Eingangssprache in 12-Bit-Digitaldaten analog/digital-umzusetzen und berechnet deren Leistung und LPC-Analyseparameter. Diese Berechnungsverarbeitung wird unter Bedingungen durchgeführt, daß eine Fensterlänge 24 ms beträgt, eine Rahmenperiode 8 ms ist, eine Ordnung der LPC-Analyse durch 16 gegeben ist, und die Anzahl der Terme des LPC- Mel-Cepstrum den Wert 16 hat. Danach erfaßt die Merkmalaussiebeinheit 11 ein Eingangssprachintervall und siebt Leistungs- und LPC-Analyseparameter in diesem Intervall als ein Sprachmerkmal (Eingangsmuster) aus. Die Einheit 11 speist dann das ausgesiebte Merkmal zu einer Innenprodukt-Recheneinheit 12.
  • Die Innenprodukt-Recheneinheit 12 führt Innenprodukt- Berechnungen des in der oben beschriebenen Weise erhaltenen Eingangsmusters und orthogonalisierter Wörterbuchfolgen durch, die in Einheiten von zu erkennenden Kategorien vorbereitet und in einem orthogonalisierten Wörterbuchspeicher 13 gespeichert sind. Die inneren Produkte zwischen dem Eingangsmuster und den orthogonalisierten Wörterbuchfolgen werden zu einer symmetrischen nichtlinearen Umsetzungseinheit 14 und einer Ähnlichkeitsrecheneinheit 15 aufgrund der Teilraummethode gespeist.
  • Die symmetrische nichtlineare Umsetzungseinheit 14 setzt die inneren Produkte gemäß der positiv-negativ symmetrischen nichtlinearen Funktion, die in Fig. 4 gezeigt ist, nichtlinear um und speist die umgesetzten Werte zu einer neuralen Netzwerkeinheit 17. Die Ähnlichkeitsrecheneinheit 15 führt eine Ähnlichkeitsberechnungsverarbeitung durch die durch Gleichung (1) für die inneren Produkte gegebene Unterraummethode aus. Das durch die Ähnlichkeitsrecheneinheit 15 erhaltene Ähnlichkeitsberechnungsergebnis wird zu einem Vorbestimmungsabschnitt 16 gespeist. Der Vorbestimmungsabschnitt 16 bestimmt, ob der Wert für die Ähnlichkeitsrecheneinheit 15 als ein Erkennungsergebnis aus zugeben oder durch die neurale Netzwerkeinheit 17 zu diskriminieren ist.
  • Das neurale Netzwerk ist mit in Fig. 5 gezeigten Koeffizienten in der gleichen Weise wie in den orthogonalisierten Wörterbuchfolgen versehen. Diese Koeffizienten werden zuvor in Einheiten von zu erkennenden Kategorien auf der Grundlage von Lerndaten mittels des oben erwähnten BP-Algorithmus berechnet.
  • Die neurale Netzwerkeinheit 17 ist in Einheiten von Kategorien vorgesehen, wie dies in Fig. 5 gezeigt ist und empfängt die nichtlinear umgesetzten Werte G (= (S1, S2, ..., SM); M ist die Anzahl der orthogonalen Achsen), um Summen von Produkten mit den Koeffizienten längs in Fig. 5 gezeigten Verbindungslinien zu berechnen. Die Einheit 17 kombiniert die Summen in Einheiten von Knoten und führt die nichtlineare Umsetzung aufgrund der Sigmoid-Funktion durch, um Signale y1, y2, ..., yl zu erhalten. In ähnlicher Weise berechnet die Einheit 17 Summen von Produkten zwischen diesen Signalen und den Koeffizienten und führt eine nichtlineare Umsetzung durch. Die Einheit 17 kombiniert dann die umgesetzten Werte, um ein einer gegebenen Kategorie zugeordnetes Ausgangssignal zu erhalten. Von den Ausgangssignalen des neuralen Netzwerkes für alle auf diese Weise erhaltene Kategorien wird eine Kategorie, die ein größtes Ausgangssignal ergibt, als ein Erkennungsergebnis diskriminiert, um so das Eingangsmuster zu erkennen.
  • Fig. 6 zeigt ein neurales Netzwerk des in Fig. 5 dargestellten Spracherkennungssystems. Die gleichen Bezugszeichen in dem neuralen Netzwerk in Fig. 6 bezeichnen die gleichen Teile wie in Fig. 5.
  • Eingangsmuster, die von der Merkmalaussiebeinheit 11 ausgegeben sind, werden einer Innenprodukt-Berechnung (F φ(K,m)), die durch Gleichung (1) gegeben ist, unterworfen und durch die Innenprodukt-Recheneinheit 12 addiert. Die Summenausgangswerte von der Innenprodukt- Recheneinheit 12 werden als die inneren Produkte nichtlinear durch die symmetrische nichtlineare Umsetzungseinheit 14 umgesetzt. Die neurale Netzwerkeinheit 17 berechnet weiterhin innere Produkte von Gewichtungskoeffizienten und die Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM von der symmetrischen nichtlinearen Umsetzungseinheit 14 in Einheiten von Kategorien, berechnet eine Gesamtsumme der inneren Produkte und setzt dann nichtlinear die Gesamtsumme gemäß der Sigmoid-Funktion um, um so SM(K) zu erhalten.
  • Die Ähnlichkeitsrecheneinheit 15 berechnet eine Gesamtsumme von Werten, die erhalten sind durch Multiplizieren der Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM(1) von der symmetrischen nichtlinearen Umsetzungseinheit 14 mit "1" und der Werte, die erhalten sind durch Multiplizieren der Ausgangswerte y&sub1;(1), y&sub2;(1), ..., yM(1) mit "2", um so ein Ausgangssignal SS(K) zu erlangen.
  • SS(K) entspricht einer Markierung oder Punktzahl der Unterraummethode allein. SM(K) kann als eine Markierung oder Punktzahl des neuralen Netzwerkes alleine betrachtet werden, wenn Projektivkomponenten zu jedem Unterraum in das neurale Netzwerk eingegeben sind. Ein Bestimmungsabschnitt 18 führt eine Primärbestimmung aufgrund Markierungen oder Punktzahlen höherer Ordnung (SS1, SS2, ...) von SS(K) durch. Wenn als ein Ergebnis eine Vielzahl von Kandidaten erhalten ist, wird das Erkennungsergebnis als auf SM(K) basierend bestimmt.
  • In diesem Ausführungsbeispiel werden neurale Netzwerkberechnungen für alle Kategorien für ein Eingangssignal durchgeführt. Jedoch können in einer praktischen Anwendung bestimmte Erkennungskandidaten ausgewählt werden, indem das Ausgangssignal von dem Vorbestimmungsabschnitt 16 verwendet wird, und lediglich Kandidaten höherer Ordnung können Berechnungen durch die neurale Netzwerkeinheit 17 unterworfen sein. Die Anzahl von Schichten des neuralen Netzwerkes kann innerhalb des Kernes und Bereiches der Erfindung verändert werden.
  • Auf diese Weise werden in dem Mustererkennungssystem und -verfahren der vorliegenden Erfindung innere Produkte zwischen einem Eingangsmuster und den orthogonalisierten Wörterbuchfolgen berechnet und nichtlinear umgesetzt, und die umgesetzten Werte werden zu der neuralen Netzwerkeinheit 17 gespeist, um eine Mustererkennungsverarbeitung auszuführen. Gemäß dem System und dem Verfahren der vorliegenden Erfindung kann eine genaue Erkennungsverarbeitung durch die Innenproduktberechnungen und die nichtlineare Umsetzung realisiert werden, ohne komplizierte Koeffizientenberechnungen in früheren Stufen in dem neuralen Netzwerk vorzunehmen. Als ein Ergebnis kann ein Eingangsmuster einfach und wirksam mit hoher Genauigkeit mittels des neuralen Netzwerkes erkannt werden, in welchem Koeffizientberechnungen vereinfacht sind, während Nachteile der Unterraummethode in Termen von verschiedenen Rauschkomponenten wirksam eliminiert sind.
  • Fig. 7 ist ein Blockdiagramm, das das zweite Ausführungsbeispiel des Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt. Es sei darauf hingewiesen, daß die gleichen Bezugszeichen in Fig. 7 die gleichen Teile wie in Fig. 5 bezeichnen, und eine Detailbeschreibung hiervon wird weggelassen. In diesem Ausführungsbeispiel wird eine Mustererkennungsverarbeitung mittels der statistischen Diskriminantenfunktion, die oben beschrieben ist, anstelle des neuralen Netzwerkes ausgeführt. In diesem Ausführungsbeispiel wird eine Eingangssprache durch eine Merkmalaussiebeinheit 11 wie in dem ersten Ausführungsbeispiel analysiert, um deren Leistungs- und LPC-Analyseparameter zu erhalten, und ein Sprachintervall wird erfaßt, um ein Sprachmerkmal auszusieben (Eingangsmuster). Ein Innenprodukt-Rechenabschnitt 12 berechnet innere Produkte zwischen dem Eingangsmuster und orthogonalisierten Wörterbüchern, die in Einheiten von Kategorien vorbereitet und in einem orthogonalisierten Wörterbuchspeicher 13 gespeichert sind. Die inneren Produkte werden durch eine symmetrische nichtlineare Umsetzungseinheit 14 nichtlinear umgesetzt. Danach führt eine statistische Diskriminantenfunktion-Recheneinheit 19 vorbestimmte Koeffizientenberechnungen mittels der nicht linear umgesetzten Werte durch.
  • Die statische Diskriminantenfunktion-Recheneinheit 19 führt eine Koeffizientenberechnungsverarbeitung unter Bezugnahme auf eine Koeffizientenregistereinheit 20 durch, die mittlere Vektoren und Kovarianz-Matrizen speichert, welche von Lerndaten in Einheiten von Kategorien in der gleichen Weise wie die orthogonalisierten Wörterbuchfolgen erhalten sind.
  • Das heißt, die statistische Diskriminantenfunktion- Recheneinheit 19 empfängt die nichtlinear umgesetzten Werte G (= (S1, S2, ..., SM); M ist die Anzahl der orthogonalen Achsen) und führt eine Koeffizientenberechnungsverarbeitung gemäß Gleichung (2) oder (3) zwischen den Eingangssignalen und Koeffizienten aus, die von der Koeffizientenregistereinheit 20 gegeben sind, um so Bewertungswerte zu erzielen. Von den auf diese Weise berechneten Bewertungswerten (Ausgangssignalen) wird eine Kategorie, die ein größtes Ausgangssignal von allen Kategorien liefert (in der Bayes-Entscheidung ein Mindestwert für den Maharanobis-Abstand) als ein Erkennungsergebnis für das Eingangsmuster diskriminiert, um so das Eingangsmuster zu erkennen.
  • In diesem Fall können bestimmte Kandidaten durch Verwenden eines Ausgangssignales von einem Vorbestimmungsabschnitt ähnlich wie in dem ersten Ausführungsbeispiel ohne Berechnen der statistischen Diskriminantenfunktion für alle Kategorien gewählt werden, und Kandidaten höherer Ordnung können Diskriminantenfunktionsberechnungen unterworfen werden.
  • Die vorliegende Erfindung ist nicht auf die obigen Ausführungsbeispiele begrenzt.
  • Beispielsweise können die Anzahl von Achsen der in den Innenproduktberechnungen verwendeten orthogonalisierten Wörterbücher, die Anzahl der zu erkennenden Kategorien und die Anzahl der das neurale Netzwerk bildenden Schichten gemäß Spezifikationen der Mustererkennung bestimmt werden. Die nichtlineare Funktion zum nichtlinearen Umsetzen der inneren Produkte ist nicht auf die oben beschriebene Funktion begrenzt.

Claims (12)

1. Mustererkennungssystem mit:
einer orthogonalisierten Wörterbucheinrichtung zum Speichern einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind,
einer Innenprodukt-Recheneinrichtung zum Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und der Vielzahl von Bezugsmustern, die in der orthogonalisierten Wörterbucheinrichtung gespeichert sind und deren Kategorien bekannt sind,
einer Umsetzungseinrichtung zum nicht linearen Umsetzen der inneren Produkte, die durch die Innenprodukt-Recheneinrichtung berechnet sind, gemäß einer positiv-negativ-symmetrischen nichtlinearen Funktion,
einer Bewertungswert-Recheneinrichtung zum Berechnen von Bewertungswerten auf der Grundlage der durch die Umsetzungseinrichtung nichtlinear umgesetzten Werte und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind,
einer Vergleichseinrichtung zum Vergleichen der Bewertungswerte, die von der Bewertungswert-Recheneinrichtung erhalten sind, in Einheiten von Kategorien miteinander, und
einer Diskriminiereinrichtung zum Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage der Vergleichsergebnisse der Vergleichseinrichtung.
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die Bewertungswerte mittels eines neuralen Netzwerkes berechnet.
3. System nach Anspruch 1, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die Bewertungswerte mittels einer statistischen Diskriminantenfunktion berechnet.
4. System nach Anspruch 2, dadurch gekennzeichnet, daß das neurale Netzwerk eine Mehrschichtstruktur hat und Berechnungen an einer untersten Schicht mit Innenproduktberechnungen zwischen dem Eingangsmuster und Wörterbüchern, die durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, ersetzt sind.
5. System nach Anspruch 3, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die folgende Gleichung auf der Grundlage eines mittleren Vektors und einer Kovarianz-Matrix, die zuvor aus Lerndaten in Einheiten von Kategorien erhalten ist, berechnet und die Diskriminiereinrichtung einen maximalen Bewertungswert als ein Erkennungsergebnis mittels einer Bayes-Entscheidungsregel diskriminiert:
L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2
wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ und RK jeweils eine inverse Matrix der Kovarianz-Matrix RK und einen Wert einer Determinanten bedeuten.
6. System nach Anspruch 3, dadurch gekennzeichnet, daß die Bewertungswert-Recheneinrichtung die folgende Gleichung auf der Grundlage eines mittleren Vektors und einer zuvor aus Lerndaten in Einheiten von Kategorien erhaltenen Kovarianz-Matrix berechnet, und daß die Diskriminiereinrichtung eine Kategorie mit einem Mindestabstandswert als ein Erkennungsergebnis mittels eines Maharanobis-Abstands diskriminiert:
M(K) = (G - uK)TRK&supmin;¹ (G - uK)
wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ eine inverse Matrix der Kovarianz-Matrix RK ist.
7. Mustererkennungsverfahren mit den durch einen Rechner durchgeführten Schritten:
Berechnen innerer Produkte eines Eingangsmusters, dessen Kategorie unbekannt ist, und orthogonalisierter Wörterbuchfolgen einer Vielzahl von Bezugsmustern, deren Kategorien bekannt sind,
nichtlineares Umsetzen der inneren Produkte, die in dem Berechnungsschritt berechnet sind, gemäß einer positiv-negativ-symmetrischen nichtlinearen Funktion,
Berechnen von Bewertungswerten auf der Grundlage der nichtlinear umgesetzten Werte durch den Umsetzungsschritt und Koeffizienten, die in Einheiten von Kategorien voreingestellt sind,
Vergleichen der durch den Bewertungswert-Rechenschritt erhaltenen Bewertungswerte in Einheiten von Kategorien miteinander, und
Diskriminieren einer Kategorie, zu der das Eingangsmuster gehört, auf der Grundlage von Vergleichsergebnissen des Vergleichsschrittes.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt eines Berechnens der Bewertungswerte mittels eines neuralen Netzwerkes umfaßt.
9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der Bewertungswertemittels einer statistischen diskriminanten Funktion umfaßt.
10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß das neurale Netzwerk eine Mehrschichtstruktur hat, und daß Berechnungen an einer untersten Schicht mit Innenprodukt-Berechnungen zwischen dem Eingangsmuster und Wörterbüchern, die durch KL-Expansion in Einheiten von Kategorien orthogonalisiert sind, ersetzt werden.
11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der folgenden Gleichung auf der Grundlage eines mittleren Vektors und einer Kovarianz-Matrix, die zuvor aus Lerndaten in Einheiten von Kategorien erhalten ist, umfaßt, und daß der Diskriminierschritt den Schritt des Diskriminierens eines maximalen Entwicklungswertes als ein Erkennungsergebnis mittels einer Bias-Entscheidungsregel umfaßt:
L(K) = exp{-(1 / 2) (G - uK)TRK&supmin;¹(G - uK) / (2π)M/2 RK 1/2
wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix eines aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition oder Vertauschung anzeigt und RK&supmin;¹ und RK jeweils eine inverse Matrix der Kovarianz-Matrix RK und ein Wert einer Determinanten sind.
12. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Bewertungswert-Rechenschritt den Schritt des Berechnens der folgenden Gleichung auf der Grundlage eines mittleren Vektors und einer zuvor aus Lerndaten in Einheiten von Kategorien erhaltenen Kovarianz-Matrix umfaßt, und daß der Diskriminierschritt den Schritt des Diskriminierens einer Kategorie mit einem Mindestabstandswert als einem Erkennungsergebnis mittels eines Maharanobis-Abstandes umfaßt:
M(K) = (G-uK)TRK&supmin;¹(G-uK)
wobei uK und RK jeweils den mittleren Vektor und die Kovarianz-Matrix des aus Lerndaten erhaltenen Eingangsmusters G bedeuten, T eine Transposition bzw. Vertauschung anzeigt und RK&supmin;¹ eine inverse Matrix der Kovarianz-Matrix RK ist.
DE68925107T 1988-12-20 1989-12-07 Verfahren und System zur Mustererkennung Expired - Fee Related DE68925107T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63321141A JPH02165388A (ja) 1988-12-20 1988-12-20 パターン認識方式

Publications (2)

Publication Number Publication Date
DE68925107D1 DE68925107D1 (de) 1996-01-25
DE68925107T2 true DE68925107T2 (de) 1996-05-09

Family

ID=18129260

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68925107T Expired - Fee Related DE68925107T2 (de) 1988-12-20 1989-12-07 Verfahren und System zur Mustererkennung

Country Status (4)

Country Link
EP (1) EP0374604B1 (de)
JP (1) JPH02165388A (de)
CA (1) CA2005181C (de)
DE (1) DE68925107T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5184732A (en) * 1985-12-20 1993-02-09 Gersan Establishment Shape sorting
JP2624880B2 (ja) * 1990-08-03 1997-06-25 株式会社日立製作所 制御装置及び制御方法
DE69228337T2 (de) * 1991-06-27 1999-06-17 Matsushita Electric Ind Co Ltd Erkennungs- und Beurteilungsgerät
EP0574951B1 (de) * 1992-06-18 2000-04-05 Seiko Epson Corporation Spracherkennungssystem
US5479570A (en) * 1992-10-06 1995-12-26 Matsushita Electric Industrial Co., Ltd. Learning and recognition machine
WO1994010635A2 (en) * 1992-11-02 1994-05-11 Boston University Neural networks with subdivision
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5966701A (en) * 1995-06-21 1999-10-12 Matsushita Electric Industrial Co., Ltd. Recognition and judgement apparatus having various learning functions
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
AU5468099A (en) * 1998-08-07 2000-02-28 Fonix Corporation Methods and apparatus for phoneme estimation using neural networks
ATE474288T1 (de) * 2000-10-13 2010-07-15 Fraunhofer Ges Forschung Verfahren zum überwachten trainieren eines iterativen künstlichen neuronalen netzwerks
AU2002344483A1 (en) * 2002-11-07 2004-06-07 Fujitsu Limited Image analysis supporting method, image analysis supporting program, and image analysis supporting device
CN111681647B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 用于识别词槽的方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
EP0374604B1 (de) 1995-12-13
EP0374604A3 (de) 1992-12-02
DE68925107D1 (de) 1996-01-25
EP0374604A2 (de) 1990-06-27
CA2005181A1 (en) 1990-06-20
JPH02165388A (ja) 1990-06-26
CA2005181C (en) 1995-07-04

Similar Documents

Publication Publication Date Title
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE68925107T2 (de) Verfahren und System zur Mustererkennung
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
EP1405222B1 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE69010722T2 (de) Spracherkennungssystem.
DE69214969T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte
DE60018886T2 (de) Adaptive Wavelet-Extraktion für die Spracherkennung
US5255342A (en) Pattern recognition system and method using neural network
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69309300T2 (de) Verfahren und vorrichtung zur artikelklassifizierung
DE68924134T2 (de) Spracherkennungssystem.
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
DE3733391A1 (de) Verfahren zur spracherkennung
CN110458071B (zh) 一种基于dwt-dfpa-gbdt的光纤振动信号特征提取与分类方法
DE69026474T2 (de) System zur Spracherkennung
CN117219124A (zh) 一种基于深度神经网络的开关柜声纹故障检测方法
DE60100890T2 (de) Verbesserungen in bezug auf datenkompressionsmethode

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee