DE69414752T2 - Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes - Google Patents

Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes

Info

Publication number
DE69414752T2
DE69414752T2 DE69414752T DE69414752T DE69414752T2 DE 69414752 T2 DE69414752 T2 DE 69414752T2 DE 69414752 T DE69414752 T DE 69414752T DE 69414752 T DE69414752 T DE 69414752T DE 69414752 T2 DE69414752 T2 DE 69414752T2
Authority
DE
Germany
Prior art keywords
word
output
words
training
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69414752T
Other languages
English (en)
Other versions
DE69414752D1 (de
Inventor
Dario Pianezza Albesano (To)
Roberto Torino Gemello
Franco Torino Mana
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSELT Centro Studi e Laboratori Telecomunicazioni SpA filed Critical CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Application granted granted Critical
Publication of DE69414752D1 publication Critical patent/DE69414752D1/de
Publication of DE69414752T2 publication Critical patent/DE69414752T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung bezieht sich auf ein automatisches Spracherkennungsverfahren und betrifft speziell ein Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter, bei dem neurale Netzwerke verwendet werden, wie es im Oberbegriff des Anspruchs 1 angegeben ist.
  • Bekanntlich erfordert die Zurverfügungstellung vokaler Dienste auf einer Telefonleitung das Vorhandensein einer Installation, die mindestens ein kurzes Wörterbuch erkennt, das im allgemeinen einige zehn Wörter umfaßt, die vom Teilnehmer einzeln getrennt nacheinander ausgesprochen werden. Es ist auch bekannt, daß die Erkennung auf einer Fernsprechleitung zusätzliche Schwierigkeiten in Bezug auf die normale Erkennung mit sich bringt, da das Audiosignal eine niedrige Qualität aufweist, indem es in der Bandbreite begrenzt ist und durch Rauschen beeinträchtigt ist, das von der Koppel- und Übertragungsinstallation eingeführt wird.
  • Die gegenwärtig stärker verwendete Erkennungstechnik fußt auf den sogenann ten Markov-Modellen, wie sie beschrieben sind im Artikel von D. B. Paul "Speech Recognition Using Hidden Markov Models", The Lincoln Laboratory Journal, Band 3, Nr. 1 (1990).
  • Ein Markov-Modell beispielsweise von der Art, wie sie beschrieben ist von L. R. Rabiner im Artikel "An introduction to Hidden Markov Models", IEEE ASSP Magazine, Januar 1986, ist ein stochastischer Automat, der charakterisiert ist durch zwei Typen von Parametern: durch die Übergangswahrscheinlichkeiten von einem Zustand des Automaten zu einem anderen und durch die Wahrscheinlichkeiten für jeden Zustand, ein Eingangssymbol zu erkennen, was auch als die Emissionswahrscheinlichkeit für ein solches Symbol bezeichnet wird.
  • Bei Anwendung auf die Spracherkennung wird die Automatenstruktur des Markov-Modells dadurch ausgewählt, daß eine bestimmte Zahl von Beschränkungen aufgrund der sequentiellen Natur der gesprochenen Sprache festgesetzt wird. So werden nur "Links-nach rechts"-Automaten in Betracht gezogen, bei denen in einen Zustand, nachdem er beendet ist, nicht wieder eingetreten werden kann, und alle Übergänge begrenzt sind auf die Recursion auf einen Zustand und den Übergang zum nächsten Zustand.
  • Komplette Wörter werden somit moduliert durch Links-nach rechts-Automaten (mit Recursion zu Zuständen), bei denen jeder Zustand einem akustischen Wortteil entspricht, der während des Trainings automatisch determiniert wird. Die Zustände der verschiedenen Modelle werden durch die Wahrscheinlichkeit, einen Teil des Eingangsworts zu erkennen, charakterisiert.
  • Die Worterkennung findet statt, indem eine dynamische Programmierung entsprechend dem Viterbi Algorithmus für alle Automaten durchgeführt wird, um so den Weg durch die Zustände zu finden, der die Erkennungswahrscheinlichkeit durch den Automaten, der sich auf das geprüfte Wort bezieht, maximiert. Der ermittelte Pfad ist der der minimalen Kosten und der Automat, bei dem dieser Pfad gefunden wurde, entspricht dem erkannten Wort.
  • Die Markov-Modelle haben ein zufriedenstellendes Betriebsverhalten erreicht und sind nun die Basis für viele Spracherkennungssysteme. Hohe Grenzen für die Betriebsleistungen dieser Technik scheinen im wesentlichen erreicht zu sein und es besteht insoweit ein technisches Interesse, eine Verbesserung der Erkennungsqualität zu versuchen.
  • Außerdem kann im Fall kontinuierlicher Markov-Modelle, bei denen die Emissionswahrscheinlichkeiten mit einer linearen Dichtekombination Gauß'scher Wahrscheinlichkeiten in einer Anzahl berechnet werden, die allgemein von 8 bis 16 je Zustand variiert, die Rechenbelastung sehr schwerwiegend werden.
  • Die Erfindung betrifft ein Hybridverfahren, das sowohl für Markov-Modelle bereits verwendete Techniken als auch die neue Technologie neuraler Netze verwendet. Die Wortmodellierung mit Automaten und die Dekodierung mit dynamischer Programmierung werden wie bei den Markov-Modellen beibehalten, während die Emissionswahrscheinlichkeiten mit neuralen Netzen und die Übergangswahrscheinlichkeiten in einer anderen Weise, wie noch beschrieben wird, berechnet werden.
  • Neurale Netze sind ein verteiltes Verarbeitungsprogramm, das in vereinfachter Form die Organisation der cerebralen Cortex wiedergibt. Ein neurales Netz ist ein paralleles Verarbeitungsmodell, das aus zahlreichen Verarbeitungseinheiten (Neuronen) aufgebaut ist, die mit Hilfe von Verbindungen unterschiedlicher Intensität (Synapsen) streng verbunden sind.
  • Die Aktivität der einzelnen Einheit ist einfach eine nicht lineare Funktion der gewichteten Summe von Eingängen und die Modelleistung liegt in der Topologie der Verbindungen und in ihrer Intensität. Ausgehend von den Eingangseinheiten, an die Daten des zu lösenden Problems geliefert werden, schreitet die Verarbeitung im Netz parallel bis zu den Ausgangseinheiten, die das Ergebnis liefern, fort.
  • Ein neurales Netz wird nicht programmiert, sondern wird durch eine Gruppe von Beispielen der zu modellierenden Realität trainiert. Neurale Netze sind beispielsweise im Buch von D. Rumelhart "Parallel Distributed Processing", Band 1, Foundations, MIT Press, Cambridge, Mass., 1986, beschrieben.
  • Diese Technik erlaubt es, auf vielen Gebieten wie der Funktionsschätzung, der Video- und Sprachsignalklassifizierung, der industriellen Steuertechniken, der Vorhersage und Optimierung sehr gute Ergebnisse zu erzielen.
  • Das Ziel des erfindungsgemäßen hybriden Erkennungsverfahrens ist es, sich der Charakteristiken des neuralen Netzes wie der niedrigen Rauschempfindlichkeit, der Klassifizierungsgenauigkeit, der Parallelverarbeitung zu bedienen, um die Erkennung zu verbessern und das Verfahren in Bezug auf Zeit und Speicher zu optimieren, obwohl einige konsolidierte Aspekte der Erkennungstechniken beibehalten werden wie die Wortmodellierung mit Automaten und die dynamische Programmierung zur Dekodierung der Wörter.
  • Die Hauptvorteile des hybriden Erkennungsverfahrens sind folgende: Erhöhung der Erkennungsgenauigkeit aufgrund der Verwendung zusammenhangbezogener Information und der Anwendung eines diskriminanten Trainings, das typisch für neurale Netze ist; und eine hohe potentielle Effizienz des entsprechenden Systems aufgrund des Eigen-Parallelismus des neuralen Modells, das durch spezielle Bauteile wie vektorielle Prozessoren, digitale oder analoge VLSI-Chips für neurale Netzwerke, implementiert werden kann.
  • Hybride Erkennungssysteme, die verborgene Markov-Modelle in Verbindung mit neuralen Netzen verwenden, sind in GB 2230370-A und GB 2240203-A beschrieben. Das erstere Dokument schlägt die Durchführung einer ersten Analyse mit verborgenen Semi-Markov-Modellen und eine zweite Analyse mit einem neuralen Netz nur dann, wenn der Konfidenzpegel fällt, vor. Das zweite Dokument schlägt die Verwendung eines neuralen Netzes zum Wiederherstellen der Liste von Wörtern oder Phonemen vor, die von den verborgenen Markov-Modellen wiedergegeben werden. Im Gegensatz zu diesen Dokumenten zum Stand der Technik schafft die vorliegende Erfindung ein Verfahren, bei dem eine integrierte Analyse durchgeführt wird und das neurale Netz die Emissionswahrscheinlichkeit der Markov-Zustände bestimmt.
  • Gegenstand der vorliegenden Erfindung ist es, ein Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter unter Verwendung neuraler Netze anzugeben, wie es im kennzeichnenden Teil von Anspruch 1 beschrieben ist.
  • Die vorgenannten und weitere Merkmale der Erfindung werden veranschaulicht durch die folgende Beschreibung eines bevorzugten Ausführungsbeispiels eines das Verfahren ausführenden Systems, angegeben als nicht begrenzendes Beispiel, und durch die anhängenden Zeichnungen. Es zeigen:
  • - Fig. 1 einen funktionellen Blockschaltplan des Systems;
  • - Fig. 2 die spezifische Realisierung der vollständige Wörter modellierenden Automaten;
  • - Fig. 3 den in Fig. 1 mit RNA bezeichneten Block;
  • - Fig. 4 ein Beispiel von Emissionswahrscheinlichkeiten für alle Automatenzustände, die sich auf die zehn italienischen Ziffern ('zero', ..., 'nove' = 0, ..., 9) beziehen, bei Vorhandensein des Worts 'sette' (7);
  • - Fig. 5 ein Ablaufdiagramm der Operationen, die zum Trainieren des erfindungsgemäßen Erkennungssystems erforderlich sind.
  • Das in Fig. 1 gezeigte Erkennungssystem empfängt von einer Fernsprechleitung LT oder von einer analogen Quelle kommend am Eingang die Sprachsignale, die aus getrennten, alleinstehenden Wörtern bestehen, sowie Rauschen und unterwirft diese Signale einer Folge von Operationen.
  • Die erste von einem Modul SP mit bekannten Charakteristiken durchgeführte Operation erlaubt die Extraktion der Parameter, die das Sprachsignal charakterisieren. Sie besteht aus der Spektralanalyse des Signals, die auf kritischen Bandbreiten des menschlichen Hörsystems durchgeführt wird. Das Signal wird zunächst mit einer Abtastrate von 8 kHz digitalisiert und alle 10 ms durch die schnelle Fourier-Transformation analysiert. Das Ergebnis der Spektralanalyse wird dann einer Orthogonal- Transformation (Cosinustransformation) unterworfen, um zwölf sogenannte Cepstral- Parameter zu erhalten. Der Logarithmus der Gesamtenergie, die in jedem Zeitintervall von 10 ms enthalten ist, wird außerdem berechnet. Zu diesen 13 Werten werden ihre numerischen Ableitungen hinzugefügt, wodurch für jedes Zeitintervall 26 Parameter erhalten werden.
  • Das nächste Modul ED ist eine Vorrichtung, die angenähert die Wortenden feststellt und das Wort von der es umgebenden Stille trennt. Die Vorrichtung arbeitet auf der Basis des Parameters, der sich auf die gesamte Energie des Sprachsignals bezieht, die vom vorhergehenden Block geliefert wird, und gibt ein Signal ab, das zum Aktivieren des nächsten Blocks RNA verwendet wird. Dieser ist ein Erkenner, der auf dem erfindungsgemäßen Hybridmodell basiert und das im weiteren Verlauf im einzelnen beschrieben wird. Die Angaben über erkannte Wörter treten am Ausgang PR des Blocks RNA auf.
  • Der Erkenner RNA ist ein Hybridmodell, wozu schaltungsgemäß die Wortmodellierung gehört, und verwendet Links-nach rechts-Automaten der Markov-Modell Technik, während die Emissionswahrscheinlichkeit der Zustände, nämlich die Wahrscheinlichkeit, daß ein Zustand einen Eingangsabschnitt als dazugehörig erkennt, von einem mehrschichtigen rückgekoppelten (rekurrenten) Wahrnehmungs-Neuralnetz (Perceptron) geschätzt wird.
  • In Fig. 2 ist eine spezifische Ausführungsform der Automaten dargestellt, die komplette Wörter modellieren, um mit dem erfindungsgemäßen System eine Erkennung durchzuführen.
  • Zum Erkennen alleinstehender Wörter wird jedes Wort aus einem Automaten aufgebaut, der eine zentrale Sequenz von Zuständen enthält, die zum Wort gehören und mit Zahlen von 3 bis 7 bezeichnet werden, und denen ein anfänglicher Schweigezustand 2 und ein schließlicher Schweigezustand 8 vorhergehen bzw. folgen, wobei diese Zustände spezifisch für das Wort sind und den Übergang Schweigen Wort und Wort- Schweigen enthalten.
  • Während der Erkennung werden zwei weitere allgemeine Hintergrundrausch- Zustände 1 und 9 am Beginn bzw. am Ende des Automaten hinzugefügt, um breitere Schweigeteile zu erhalten, die das Wort und Zischgeräusche sowie eingestreutes Rauschen umgeben. Wie der Figur zu entnehmen ist, haben die Automatenzustände eine Rückkopplung auf sich selbst außer dem Übergang zum nächsten Zustand.
  • In Fig. 3 ist der Block RNA dargestellt, der ein mehrschichtiges neurales Perzeptionsnetz umfaßt, und zwar von dem im schon erwähnten Buch von D. Rumelhart "Parallel Distributed Processing" beschriebenen Typ, dessen Eingang ein Fenster des vorverarbeiteten Sprachsignals, also ein Fenster von Cepstral-Parametern ist und dessen Ausgänge die Emissionswahrscheinlichkeiten der Zustände der Wortmodelle, die mit M1, ..., Mk, ..., Mn bezeichnet sind, sind.
  • Die Einheiten jeder Ebene des neuralen Netzes sind vollständig mit den Einheiten der vorhergehenden Ebene über synaptische Gewichtungen verbunden. Der Ausgang oi des einzelnen Neurons i ist gegeben durch die gewichtete Summe seiner Eingänge θj, zu der ein konstanter Wert θi , der typisch für das Neuron ist, addiert ist. Die Summe wird dann einer sigmoiden, also S-Kurven-mäßigen Transformation F (x) gemäß der folgenden Formel unterworfen:
  • wobei wij die synaptische Gewichtung der Verbindung vom Neuron j zum Neuron i ist.
  • Das im vorliegenden System verwendete neurale Netz ist von der Rückkopplungs-Mehrschicht-Perceptron-Art, also mit einer Rückkopplung versehen. Es umfaßt auch eine Ebene FL, die zur Zeit t + 1 den Inhalt der internen Ebene HL zur Zeit t enthält. Dieser Inhalt kehrt eingangsseitig zur internen Ebene HL zurück, so daß also ein System mit Rückkopplung geschaffen ist, das in der Lage ist, sich eines Speichers der vorhergehenden Zustände zu bedienen.
  • Der Eingang des Blocks RNA in der Ebene IL ist ein Fenster, das sieben Zeitintervalle von je 10 ms umfaßt (es eignen sich 3 bis 9 Intervalle), und zwar der cepstralen Parameter, die vom Block ED (Fig. 1) geliefert werden; dem Fenster folgt eine Ebene verborgener Einheiten HL, die mit einer Rückkopplung versehen sind, und eine Ausgangseinheit-Ebene OL, von der das geeignet kodierte Ergebnis gelesen wird. Die Ausgangseinheiten entsprechen sich eins-zu-eins mit den Zuständen aller Automaten M1, ..., Mn, die zum Modellieren der Wörter im verwendeten Wörterbuch gebraucht werden.
  • Der (von 0 bis 1 reichende) Ausgang dieser Einheiten ergibt einen Schätzwert für die Emissionswahrscheinlichkeit des Zustands.
  • Das Vorhandensein eines Fensters mit einer Amplitude gleich sieben Zeitintervallen von 10 ms am Eingang des neuralen Netzes erlaubt es, einen Teil des Sprechsignals mehr in Betracht zu ziehen als den von den Markov-Modellen betrachteten Teil, die mit einem Fenster einer Amplitude von 10 ms arbeiten. Dies stellt einen Vorteil dar, da es die Erkennung erleichtert.
  • Die Rückkopplung ermöglicht auch die Verwendung einer zusammenhangbezogenen Information, indem sie es dem neuralen Netz ermöglicht, sich an die Teile des bereits analysierten Worts 'zu erinnern', um die Erkennung des getesteten Schalls zu erleichtern. Genauer dargestellt, hängt die Wahrscheinlichkeit der Emission eines Zustands nicht nur vom gegenwärtigen Eingangssignal ab, sondern auch von den Eingangssignalen zu den vorhergehenden Zeitpunkten. Dies kann sehr nützlich sein bei der Unterscheidung ähnlicher Laute, die in verschiedenen Wörtern vorkommen (wie des Lauts 'E' in den italienischen Zahlwörtern 'DUE' - 2- bzw. 'TRE' - 3 -) oder im selben Wort (wie die beiden 'O' in 'OTTO' - 8 -), jedoch in unterschiedlichem Zusammenhang. Beispielsweise bewirkt die zusammenhangbezogene Information, daß der Zustand entsprechend dem 'O' von 'ZERO' nur in diesem Zusammenhang aktiviert wird und nicht jedesmal, wenn es am Eingang den Laut 'O' gibt, wie in 'UNO' - 1, 'NOVE' - 9 - usw.
  • Für ein besseres Verständnis sei auf Fig. 4 hingewiesen, die die Aktivierung von Ausgangsneuronen in einem bereits trainierten neuralen Netz zeigt, das an der Erkennung eines Worts arbeitet ('SETTE' - 7 - in diesem Beispiel).
  • Auf der Ordinate sind die Zustände der 10 Automaten aufgetragen, entsprechend der Aussprache der italienischen Zahlwörter der Ziffern von 'ZERO' - 0 - bis 'NOVE' - 9 -, von denen jede eine Anzahl von Zuständen zwischen 5 und 8 umfaßt, wobei die Ziffern in einer Aufeinanderfolge von oben nach unten dargestellt sind. Auf der Abszisse ist die Zeit, in eine Anzahl von 10-ms-Intervallen unterteilt, aufgetragen. Die Größe der Punkte ist direkt proportional den Wahrscheinlichkeitswerten, die vom neuralen Netz geschätzt werden.
  • Es ist ersichtlich, daß außer den Zuständen des korrekten Automaten, der dem Wort 'SETTE' - 7 - entspricht, nur die ersten Zustände des Automaten 'SEI' - 6 - aktiviert werden, während die Zustände der anderen Automaten praktisch deaktiviert sind, d. h. sie haben praktisch keine Wahrscheinlichkeit, obwohl diese Automaten Laute enthalten, die in 'SETTE' enthalten sind, wie z. B. ein 'E' oder ein 'T'.
  • Das Trainieren des Erkennungssystemes, basierend auf einer Gruppe von bereits klassifizierten Trainingswörtern, muß erfolgen, bevor das System für die Erkennung verwendet wird. Während des Trainingszustands muß der Block RNA zwei Operationen gleichzeitig durchführen: eine besteht aus der Feststellung einer geeigneten Abschnittbildung oder Segmentierung für jedes Wort, indem man jedem Zustand des Automaten, der das Wort modelliert, einen bestimmten Wortteil zuteilt; die zweite besteht daraus, das neurale Netz dazu zu trainieren, Wortteile, die den verschiedenen Zuständen zugeordnet sind, korrekt zu erkennen, wobei in diesem Fall eine hohe Wahrscheinlichkeit für den korrekten Zustand und eine niedrige Wahrscheinlichkeit für die anderen Zustände abgegeben wird. Bekanntlich ist die Wort-Abschnittbildung der Vektor von Zustands-Endepunkten. Beispielsweise entspricht die Abschnittsbildung St = (6 10 18 22 30) einem Wort, das von einem 5-Zustand-Automaten modelliert wird, von denen der erste die ersten sechs 10-ms-Zeitintervalle des Worts, der zweite die Intervalle von 7 bis 10, der dritte die Intervalle von 11 bis 18 usw. übernimmt.
  • Das Trainieren wird teilweise nach bereits bekannten Verfahren verwirklicht, es enthält jedoch Abwandlungen und Hinzufügungen, die die Erfindung kennzeichnen und die einen brauchbaren Betrieb des eigentlichen Trainings bewirken. Auf diese Weise kann das neurale Netz dazu verwendet werden, die alleinstehenden Wörter mit guter Betriebsleistung zu erkennen.
  • Das Trainieren des neuralen Netzes besteht darin, daß man die Gewichtungen wij des Netzes so modifiziert, daß die korrekte Eingangs-Ausgangs-Transferfunktion realisiert wird, die auf einem als Trainingssatz bezeichneten jeweiligen Paar < Eingangsvektor, Ausgangsvektor> basiert. Die Eingangsvektoren sind aus segmentierten Wörtern zusammengesetzt und werden in der Form von Cepstral-Parametern aufgezeichnet, die in einer Datenbasis mit optimalen Charakteristiken für das Training abgerufen werden.
  • Die Ausgangsvektoren, die im folgenden als objektive Vektoren bezeichnet werden, sind in später beschriebener Weise zweckmäßig aufgebaut. Nach Ende des Trainings werden die erhaltenen synaptischen Gewichtungen in einem Speicher gespeichert und dann zum Erkennen der von der Fernsprechleitung empfangenen Wörter verwendet.
  • Die im Ablaufdiagramm von Fig. 5 gezeigten Schritte des Trainingsverfahrens des Blocks RNA sind die folgenden:
  • Initialisierung:
  • a. Initialisierung des neuralen Netzes mit kleinen zufälligen synaptischen Gewichtungen;
  • b. Erzeugung der ersten Abschnittbildung durch gleichförmige Segmentierung der Wörter des Trainingssatzes;
  • Iteration:
  • 1. Initialisierung des Trainingssatzes mit allen segmentierten Wörtern;
  • 2. Zufallswahl eines nicht bereits erlernten Worts, wobei ein Wort als erlernt angesehen wird, wenn der mittlere Fehler für dieses Wort ausreichend niedrig ist;
  • 3. Fortschreiben der synaptischen Gewichtungen wij für das betrachtete Wort durch Anwenden eines Trainings der fehlerrückwärtsschreitenden Art, das in später im einzelnen beschriebener Weise geeignet modifiziert ist; nämlich unterwirft man das Eingangssignal des neuralen Netzes Veränderungen gemäß einem Fenster, das von links nach rechts über das Wort gleitet, und für jedes Eingangsfenster wird ein geeigneter objektiver Vektor am Ausgang geliefert, der der gewünschte Wertevektor ist und dadurch konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
  • 4. Erneute Berechnung der Abschnittbildung für das betrachtete Wort unter Verwendung des insoweit trainierten neuralen Netzes, und Durchführung der dynamischen Programmierung nur mit dem korrekten Modell;
  • 5. Fortschreiben der laufenden Abschnittbildung St+1 gemäß einer später beschriebenen Gleichung;
  • 6. Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, Gehen zum Schritt 2;
  • 7. Erneute Berechnung von Übergangswahrscheinlichkeiten der Automaten, wie später beschrieben wird;
  • 8. Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine gegebene Maximalzahl NMAX, Beendigung, andernfalls Gehen zum Schritt 1.
  • Die auf den Wort-Abschnittbildungen beruhende Konstruktion der objektiven Vektoren und die Fortschreibung der Abschnittsbildung werden realisiert durch einen Hilfsteil des Lernalgorithmus. Genauer dargestellt, wird die Abschnittbildung bei jeder Iteration in der folgenden Weise teilweise modifiziert: Es sei St die Abschnittbildung eines Worts zur Zeit t, St+1 die Abschnittbildung bei der nächsten Iteration, und S't die Abschnittbildung desselben Worts, das vom bis jetzt (Schritt 4) trainierten neuralen Netz wiederberechnet worden ist; wenn dann St (k) das k-te Element der Abschnittbildung zur Zeit t ist, dann ist die Abschnittbildung zur nächsten Zeit t + 1 entsprechend der folgenden Formel geändert:
  • St+1(k) = St(k) + rund [&alpha;(S't(k) - St (k))]
  • wobei die "rund"-Funktion das Argument auf die nächste ganze Zahl aufrundet und &alpha; von nach 1 - unter Befolgung des sigmoiden Gesetzes übergeht:
  • mit
  • wobei t die gegenwärtige Zeit ist (Zahl der Iterationen im Trainingssatz), N die Zahl der Iterationen des Trainingssatzes bei zu veränderndem Parameter &alpha; ist, und der Variationsbereich von &alpha; ist, wobei 0 < < 0,5.
  • Eine weitere Möglichkeit besteht darin, &alpha; entsprechend einem linearen Gesetz ansteigen zu lassen.
  • Diese Verfahren bringen eine langsame Änderung der Abschnittbildung mit sich, so daß es eine graduelle Entwicklung von der gleichförmigen Anfangs-Abschnittbildung zur korrekten Abschnittbildung gibt, wobei man mit dem Trainieren des neuralen Netzes Schritt hält. Dieses Verfahren ist nützlich für ein gutes Ergebnis des Trainings des Erkennungssystems.
  • Was die Modifizierungen der Gewichtungen betrifft, sieht die Erfindung die Anwendung eines Algorithmus ähnlich dem als "Fehler-Rückleitung" ("error backpropagation") bezeichneten Algorithmus vor, der von Rumelhart im genannten Buch beschrieben wird und der die Differenz zwischen dem gewünschten Ausgangssignal und dem tatsächlichen Ausgangssignal, also den Fehler, zum Modifizieren der Netzgewichtungen zum Minimieren dieses Fehlers auswertet. Diese Art des Trainings, das diesen modifizierten Algorithmus anwendet, wird im folgenden als "Korrelatives Training" bezeichnet.
  • Im allgemeinen wurde, wenn es am Eingang mehrere zu unterscheidende Klassen und einen Abtastwert gibt, das Ausgangssignal der korrekten Klasse auf 1 für den Abtastwert und auf 0 für alle anderen Werte gesetzt. Dies war zulässig, wenn alle Klassen gut getrennt waren. Im vorliegenden Fall liegen die Verhältnisse jedoch anders, beispielsweise kann es in verschiedenen Wörtern verschiedene Zustände geben, die dem selben Laut entsprechen (z. B. S-E in SEI und in SETTE). Es ist also möglich, daß das selbe Eingangssignal gleichzeitig mehrere Zustände aktivieren muß. Hierfür muß das streng diskriminante Training des neuralen Netzes per Klassifikation modifiziert werden, mit der Vorschrift, daß nur eine einzige Klasse (ein Zustand) zu einer Zeit aktiv sein soll. Das Korrelative Training erlaubt die Hervorhebung der Korrelationen, die natürlicherweise zwischen Wortzuständen existieren, wobei versucht wird, diese soweit als möglich zu unterscheiden, ohne jedoch zu insistieren, wenn dies schwierig wird, da dies die Erzeugung von mangelhaft gebildeten Zuständen oder die reziproke Löschung von Zuständen, die einander zu ähnlich sind, mit sich bringen würde.
  • Mehr ins einzelne gehend, modifiziert das Korrelative Training den Standardalgorithmus der Fehler-Rückleitung gemäß den folgenden Schritten:
  • Für jeden Abtastwert des Trainingssatzes:
  • 1. Betrachtung des Eingangswert Vektors X und des gewünschten Vektors (objektiven Vektors) T;
  • 2. Positionieren der Eingangswerte auf Eingangseinheiten;
  • 3. Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser Werte von den Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des Ausgangsvektors O gemäß den bekannten Formeln:
  • oi = F(neti) mit
  • wobei oi der Ausgang eines allgemeinen Neurons i in der Ausgangsebene des Netzes (und somit die i-te Komponente des Ausgangsvektors O) ist und &theta;i ein konstanter Wert, der typisch für das Neuron ist, ist;
  • 4. Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem Ausgangsvektor O und dem Ziel-Vektor T definiert ist, gemäß der Formel:
  • wobei der Gegenstand definiert ist gemäß der Korrelationsformel von Ausgängen:
  • tk = ok · oh wenn tk &ne; 1 und th = 1
  • tk unverändert wenn tk = 1
  • wobei tk und th das k-te und das h-te Element des objektiven Vektors T und ok und oh die Ausgänge des k ten und des h-ten Neurons der Ausgangsebene des Netzes sind;
  • 5. Berechnen der Teilableitung
  • des Fehlers in Bezug zu den
  • Gewichtungen, die in der Fortschreibungsgleichung der synaptischen Gewichtungen
  • verwendet wird, wobei wij die synaptische Gewichtung vom Neuron j zum Neuron i ist, &eta; ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt, &beta; ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit beim Fortschreiben der Gewichtung bestimmt, &delta;i der zurückgeleitete Fehler am Neuron i ist und oj der Ausgang des Neurons j in der Ausgangsebene des Netzes ist; ausgehend vom im Schritt 4 definierten Fehler, werden die neuen Fehlerrückleitungs-Gesetze für das Korrelative Training erhalten, die folgendermaßen definiert sind:
  • für Ausgangsneuronen:
  • &delta;i= (ti - oi) F'(neti) wenn ti = 1
  • &delta;i= -oi (oh - 1)² F'(neti) wenn ti &ne; 1 th = 1;
  • für innere Neuronen:
  • wobei F'(neti) die erste Ableitung von F(neti) ist und der Index k sich auf Neuronen der oberen Ebene bewegt;
  • 6. Fortschreiben jeder synaptischen Gewichtung wij gemäß der Gleichung:
  • Diese Variation des Fehler-Rückführungs-Algorithmus zum Realisieren des Korrelativen Trainings ist ein Teil der vorliegenden Erfindung und ist notwendig, um die Trainingsstufe des Erkennungssystems in nutzvoller Weise durchzuführen.
  • Eine weitere wichtige Charakteristik des hybriden Erkennungsverfahrens ist das Verfahren zum Modellieren von Übergangswahrscheinlichkeiten von Automatenzuständen. Das Ziel des vorgeschlagenen Verfahrens sieht vor, daß nur Minimum-Zeitdauern der Zustände gemäß der bewährten Hypothese modelliert werden, wonach die Sprech- Erscheinungen eine Minimumdauer haben, die durch die mechanischen Grenzen der sie erzeugenden anatomischen Vorrichtungen gegeben ist; die maximalen Zeitdauern sind jedoch erheblich variabel, da sie eine Funktion der Sprechgeschwindigkeit sind, die von den persönlichen Charakteristiken und von den emotionalen Situationen der Sprecher abhängen. Das Modellieren der Minimum-Zeitdauern der Zustände hat den Zweck, die Erkennung zu verbessern, wobei verhindert wird, daß der beste Pfad eines Automaten für eine zu kurze Zeit in einem Zustand bleibt, der einer akustischen Erscheinung entspricht, die jedenfalls eine bestimmte zeitliche Dauer in Anspruch nimmt.
  • Wie Fig. 2 zeigt, haben die die Wörter modellierenden Automatenzustände einen Rückkehrweg zu sich selbst und einen Übergang zum nächsten Zustand. Die Rückkehrwahrscheinlichkeit kann maximale Zeitdauern modellieren, da sie auf die Verweilzeit in dem Zustand wirkt. Da die Modellierung der maximalen Zeitdauern nicht erforderlich ist, wird die Rückkehrwahrscheinlichkeit auf 1 gesetzt. Die Übergangswahrscheinlichkeit kann Modell-Minimumzeitdauern modellieren, da sie auf den Ausgang von dem Zustand wirkt. Eine Übergangswahrscheinlichkeit, die von der Verweilzeit im Zustand abhängt, wird dazu verwendet, Minimumzeitdauern zu modellieren. Um dies durchzuführen, führen wir einen Parameter K ein, der eine Maximalzahl von Verweilzeiten in einem Zustand angibt, für den die Übergangswahrscheinlichkeiten berechnet werden. Ein brauchbarer Wert von K kann im Bereich von 2 bis 6 liegen.
  • Die Wahrscheinlichkeit des Übergangs zum Zustand i + 1 des Worts w zur Zeit t + 1 hängt, unter der Annahme, daß sie zur Zeit t im Zustand i ist, ausgedrückt als PT (Sw,i+1 (t + 1) Sw,i (t)), vom Zustand ab, dem sie zugeordnet ist, oder von der Verweilzeit in dem Zustand; Sw,i ist der Zustand i des Worts w, und t ist die Verweilzeit in dem Zustand, ausgedrückt als Zahl von 10-ms-Zeitintervallen.
  • Die Übergangswahrscheinlichkeit wird in folgender Weise berechnet:
  • wobei "min" die Funktion ist, die das Minimum zwischen dem betrachteten Bruch und 1 wiedergibt, und
  • In dieser letzteren Gleichung ist Freq (Sw,i (h)) die Zahl von Wörtern, die in Sw,i für h Male verbleiben.
  • Die so formulierten Übergangswahrscheinlichkeiten werden für jeden Zustand jedes Wortmodells während der Trainingsphase des Erkennungssystems berechnet und werden in nützlicher Weise während des Betriebs des Systems verwendet, wobei sie dessen Erkennungsleistung verbessern.
  • Es ist bekannt, wie die Parameter des Lernalgorithmus des neuralen Netzes (Fehler-Rückmeldung) sehr empfindlich sind und daß es notwendig ist, sie passend zu eichen.
  • Beim Trainieren des zur Durchführung des Erkennungsverfahrens verwendeten neuralen Netzes können die folgenden Parameter mit Vorteil verwendet werden:
  • - Moment &beta; = 0,2;
  • - Zahl der akkumulierten Korrekturen, bevor sie tatsächlich auf Gewichtungen angewandt werden (Chargengröße) = 10;
  • - Lerngeschwindigkeit &eta; linear abnehmend von 0,1 bis 0,001.
  • Es ist klar, daß das Beschriebene nur als nicht begrenzendes Beispiel angegeben wurde. Änderungen und Modifikationen sind möglich, ohne den Umfang der Ansprüche zu verlassen.

Claims (8)

1. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter, bei dem das Eingangs-Sprachsignal digitalisiert und in konstanten Zeitintervallen einer Spektralanalyse durch Anwendung der schnellen Fourier-Transformation unterworfen wird, das Analyseergebnis zum Erhalten von Cepstral-Parametern einer orthogonalen Transformation unterworfen wird und der Logarithmus der in jedem Zeitintervall enthaltenen Gesamtenergie berechnet wird, woraufhin die numerischen Ableitungen dieser Werte berechnet werden, wodurch man die charakteristischen Parameter des Sprachsignals für jedes Zeitintervall erhält, wobei die Wortenden durch die Energiehöhe des Signals festgestellt werden und das Wort von einem Erkenner (RNA) analysiert wird, in dem vollständige Wörter mit Markovmodell-Automaten der Art "von links nach rechts" mit Rekursion auf die Zustände modelliert werden, von denen jeder einem akustischen Teil des Worts entspricht, und die Erkennung durch eine dynamische Programmierung gemäß dem Viterbi-Algorithmus an allen Automaten zum Herausfinden des Automaten mit dem Pfad des Kostenminimums durchgeführt wird, der dem am Ausgang (PR) angezeigten erkannten Wort entspricht, wobei die Emissionswahrscheinlichkeiten mit einem neuronalen Netz mit Rückkopplung berechnet werden, das speziell trainiert wurde, und die Übergangswahrscheinlichkeiten in unterschiedlicher Weise berechnet werden, und wobei das Trainingsverfahren dadurch gekennzeichnet ist, daß es die folgenden Operationen umfaßt:
Initialisierung:
a. Initialisierung des neuronalen Netzes mit kleinen zufälligen synaptischen Gewichtungen;
b. Erzeugung der ersten Abschnittbildung durch gleichförmige Segmentierung der Wörter des Trainingssatzes;
Iteration:
1. Initialisierung des Trainingssatzes mit allen segmentierten Wörtern;
2. Zufallswahl eines nicht bereits erlernten Worts, wobei ein Wort als erlernt angesehen wird, wenn der mittlere Fehler für dieses Wort ausreichend niedrig ist;
3. Fortschreiben von synaptischen Gewichtungen wij für das betrachtete Wort durch Anwenden eines Trainings der rückwärtsschreitenden Art, wobei für die Modifikation der Netzgewichtungen der Fehler zwischen dem gewünschten Ausgangssignal und dem tatsächlichen Ausgangssignal minimalisiert wird und speziell das Eingangssignal des neuronalen Netzes gemäß einem Fenster zur Veränderung gebracht wird, das von links nach rechts über das Wort gleitet, und für jedes Eingangsfenster ein geeigneter objektiver Vektor am Ausgang geliefert wird, der dadurch konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
4. Erneute Berechnung der Abschnittbildung für das betrachtete Wort unter Verwendung des insoweit trainierten neuronalen Netzes, und Durchführung einer dynamischen Programmierung nur mit dem korrekten Modell;
5. Fortschreiben der laufenden Abschnittbildung St+1;
6. Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, Gehen zum Schritt 2;
7. Erneute Berechnung von Übergangswahrscheinlichkeiten der Automaten;
8. Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine gegebene Maximalzahl NMAX, Beendigung, oder Gehen im anderen Fall zum Schritt 1.
2. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach Anspruch 1, dadurch gekennzeichnet, daß das zum Fortschreiben der synaptischen Gewichtungen wij angewandte Training die folgenden Schritte umfaßt, die für jeden Abtastwert des Trainingssatzes wiederholt werden:
1. Betrachtung des Eingangswert Vektors X und des objektiven Vektors T;
2. Positionieren der Eingangswerte auf die Eingangseinheiten;
3. Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser Werte von Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des Ausgangsvektors O gemäß den bekannten Formeln:
oi = F (neti) mit
wobei oi der Ausgang eines allgemeinen Neurons i in der Ausgangsebene des Netzes und somit die i-te Komponente des Ausgangsvektors O ist und &theta;i ein konstanter Wert, der typisch für das Neuron ist, ist;
4. Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem Ausgangsvektor O und dem objektiven Vektor T definiert ist, gemäß der Formel:
wobei der Gegenstand definiert ist gemäß der Korrelationsformel von Ausgängen:
tk = ok · oh wenn tk &ne; 1 und th = 1
tk unverändert wenn tk = 1
wobei th und tk das h-te und das k-te Element des objektiven Vektors und ok und oh die Ausgänge des k ten und des h-ten Neurons der Ausgangsebene des Netzes sind;
5. Berechnen der Teilableitung
des Fehlers in Bezug zu den
Gewichtungen, die in der Fortschreitungsgleichung der synaptischen Gewichtungen
verwendet wird, wobei wij die synaptische Gewichtung vom Neuron j zum Neuron i ist, &eta; ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt, &beta; ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit beim Fortschreiben der Gewichtung bestimmt, &delta;i der zurückgeleitete Fehler am Neuron i ist und oj der Ausgang des Neurons j in der Ausgangsebene des Netzes ist; ausgehend vom im Schritt 4) definierten Fehler, werden die neuen Fehlerrückleitungs-Gesetze für das Training erhalten, die folgendermaßen definiert sind:
für Ausgangsneuronen:
&delta;i = (ti - oi) F'(neti) wenn ti = 1
&delta;i = -oi (oh - 1)² F' (neti) wenn ti &ne; 1 th = 1;
für innere Neuronen:
wobei F'(neti) die erste Ableitung von F(neti) ist und der Index k sich auf Neuronen der oberen Ebene bewegt;
6. Fortschreiben jeder synaptischen Gewichtung wij gemäß der Gleichung:
3. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeit in den Zustand i + 1 des Worts w zur Zeit t + 1 unter der Voraussetzung, daß der Zustand i zur Zeit t herrscht, folgendermaßen berechnet wird:
wobei min die Funktion ist, die das Minimum zwischen dem betrachteten Bruchteil und 1 wiederherstellt, und
wobei in dieser letzten Gleichung Freq (Sw,i (h)) die Anzahl von Wörtern ist, die in Sw,i für h Male verbleiben.
4. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach Anspruch 2 oder nach dem auf Anspruch 2 rückbezogenen Anspruch 3, dadurch gekennzeichnet, daß die folgenden Parameter verwendet werden:
- Moment &beta; = 0,2;
- Chargengröße, nämlich Anzahl der Korrekturen, die akkumuliert werden, bevor sie tatsächlich an den Gewichtungen durchgeführt werden = 10;
- Lerngeschwindigkeit &eta; linear abnehmend von 0,1 bis 0,001.
5. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedes Wort durch einen Automaten modelliert wird, der eine zentrale Sequenz von zum Wort gehörenden Zuständen (3, ..., 7) enthält, dem ein für das Wort spezifischer Anfangs-Schweigezustand (2) vorhergeht und End-Schweigezustand (8) folgt, die die Übergänge Schweigen-Wort beziehungsweise Wort-Schweigen enthalten und denen ihrerseits zwei weitere Zustände von allgemeinem Hintergrundrauschen (1, 9) vorhergehen beziehungsweise folgen.
DE69414752T 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes Expired - Lifetime DE69414752T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITTO930309A IT1270919B (it) 1993-05-05 1993-05-05 Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali

Publications (2)

Publication Number Publication Date
DE69414752D1 DE69414752D1 (de) 1999-01-07
DE69414752T2 true DE69414752T2 (de) 1999-05-27

Family

ID=11411463

Family Applications (2)

Application Number Title Priority Date Filing Date
DE0623914T Pending DE623914T1 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.
DE69414752T Expired - Lifetime DE69414752T2 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE0623914T Pending DE623914T1 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.

Country Status (6)

Country Link
US (1) US5566270A (de)
EP (1) EP0623914B1 (de)
JP (1) JP2654917B2 (de)
CA (1) CA2122575C (de)
DE (2) DE623914T1 (de)
IT (1) IT1270919B (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19948308A1 (de) * 1999-10-06 2001-04-19 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728487A (ja) * 1993-03-26 1995-01-31 Texas Instr Inc <Ti> 音声認識方法
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6208963B1 (en) * 1998-06-24 2001-03-27 Tony R. Martinez Method and apparatus for signal classification using a multilayer network
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6662091B2 (en) 2001-06-29 2003-12-09 Battelle Memorial Institute Diagnostics/prognostics using wireless links
EP1405044A1 (de) 2001-07-02 2004-04-07 Battelle Memorial Institute Intelligente mikrosensoreinheit
ITTO20020170A1 (it) 2002-02-28 2003-08-28 Loquendo Spa Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale.
GB2397664B (en) * 2003-01-24 2005-04-20 Schlumberger Holdings System and method for inferring geological classes
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN102693723A (zh) * 2012-04-01 2012-09-26 北京安慧音通科技有限责任公司 一种基于子空间的非特定人孤立词识别方法及装置
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
US10255909B2 (en) 2017-06-29 2019-04-09 Intel IP Corporation Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition
CN109902292B (zh) * 2019-01-25 2023-05-09 网经科技(苏州)有限公司 中文词向量处理方法及其系统
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB8911461D0 (en) * 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19948308A1 (de) * 1999-10-06 2001-04-19 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät

Also Published As

Publication number Publication date
DE623914T1 (de) 1995-08-24
IT1270919B (it) 1997-05-16
JPH06332497A (ja) 1994-12-02
EP0623914A1 (de) 1994-11-09
US5566270A (en) 1996-10-15
ITTO930309A0 (it) 1993-05-05
JP2654917B2 (ja) 1997-09-17
DE69414752D1 (de) 1999-01-07
EP0623914B1 (de) 1998-11-25
CA2122575A1 (en) 1994-11-06
ITTO930309A1 (it) 1994-11-05
CA2122575C (en) 1997-05-13

Similar Documents

Publication Publication Date Title
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69010722T2 (de) Spracherkennungssystem.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE3783154T2 (de) Spracherkennungssystem.
DE69030561T2 (de) Spracherkennungseinrichtung
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE69229124T2 (de) Mehrteiliger expertsystem
DE3853880T2 (de) Einrichtung zur mustererkennung.
EP0862161A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP0987683A2 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LOQUENDO-SOCIETA PER AZIONI, TURIN/TORINO, IT