DE4106346A1 - Anordnung zur erkennung von woertern in einem sprachsignal - Google Patents

Anordnung zur erkennung von woertern in einem sprachsignal

Info

Publication number
DE4106346A1
DE4106346A1 DE19914106346 DE4106346A DE4106346A1 DE 4106346 A1 DE4106346 A1 DE 4106346A1 DE 19914106346 DE19914106346 DE 19914106346 DE 4106346 A DE4106346 A DE 4106346A DE 4106346 A1 DE4106346 A1 DE 4106346A1
Authority
DE
Germany
Prior art keywords
arrangement
values
speech signal
module
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19914106346
Other languages
English (en)
Other versions
DE4106346C2 (de
Inventor
Andreas Noll
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19914106346 priority Critical patent/DE4106346C2/de
Publication of DE4106346A1 publication Critical patent/DE4106346A1/de
Application granted granted Critical
Publication of DE4106346C2 publication Critical patent/DE4106346C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft eine Anordnung zur Erkennung von Wörtern in einem Sprachsignal, mit einer Vorverarbeitungs­ anordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte von Parametern in einen Zeitabschnitt des Sprachsignals angibt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit mindestens einem Teil der Referenzwerte der Wörter eines vorgegebenen Vokabulars vergleicht und die Vergleichs­ ergebnisse weiterverarbeitet und dabei Zwischenwerte bildet und zwischenspeichert und aus den Zwischenwerten am Ende des Sprachsignals die erkannten Wörter ableitet und ausgibt.
Eine derartige Anordnung, die die grundliegenden Elemente für eine allgemeine Anordnung zur Spracherkennung enthält, ist bekannt beispielsweise aus der DE 32 15 868 A1 oder EP 2 85 211 A2. Die aus der letztgenannten Druckschrift bekannte Anordnung unterscheidet sich von der erst­ genannten Druckschrift insbesondere durch die Berück­ sichtigung eines Sprachmodells und eines Schwellwerts, so daß zusammenhängend gesprochene Sprache zuverlässiger erkannt werden kann. Dafür ist die aus der letztgenannten Druckschrift bekannte Anordnung jedoch auch umfangreicher aufgebaut. Allgemein liegt abhängig von der jeweiligen Anwendung und von der Komplexität der Erkennungsaufgabe der Aufwand im Bereich von relativ einfacher Signal­ verarbeitungs-Anordnungen für z. B. Einzelworterkenner mit kleinem Wortschatz bis hin zu umfangreichen Anordnungen für komplizierte Suchprozeduren für die Erkennung von kontinuierlicher Sprache mit großen Wortschätzen. Einfache Anwendungsfälle, die nur wenige Verarbeitungsoperationen je Sprachsignalwert erfordern, können dabei auch mit einer allgemeinen, entsprechend programmgesteuerten Rechen­ anordnung realisiert werden. Bei höheren Anforderungen an die Erkennung ist eine rein programmgesteuerte Signal­ verarbeitung mit üblichen Rechenanlagen begrenztem Umfangs jedoch zu langsam, so daß zumindest Teile der Anordnung mit speziellen elektronischen Schaltungen realisiert werden müssen. Eine kostengünstige Herstellung elektronischer Schaltungen ist die Integration auf einem oder nur wenigen Halbleiterplättchen, jedoch erfordert dies entsprechend große Stückzahlen. Diese sind jedoch wegen der unterschiedlichen Anwendungen und Anforderungen dabei kaum zu erzielen.
Aufgabe der Erfindung ist es, eine Anordnung der eingangs genannten Art anzugeben, die auch für verschiedene Anwendungsfälle weitgehend kostengünstig hergestellt werden kann.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Verarbeitungsanordnung wenigstens eine programm­ gesteuerte Rechenanordnung sowie abhängig von der Größe des Vokabulars und ggf. der bei Wortübergängen berück­ sichtigten Sprachregeln wenigstens einen der folgenden von der Rechenanordnung gesteuerten Moduln umfaßt:
  • a) ein erstes Modul mit einer ersten Speichereinheit zum Aufnehmen von Zwischenwerten und mit einer Wort­ verarbeitungsanordnung zur Bildung von neuen Zwischen­ werten aus gespeicherten Zwischenwerten und Vergleichs­ ergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
  • b) ein zusätzliches Modul mit einer zweiten Speicher­ einheit zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung, die jeden Sprachsignalwert von der Vorverarbeitungsanord­ nung mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Sprachsignalwert und jedem verglichenen Referenz­ wert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit in diesem Modul zwischenspeichert,
  • c) ein weiteres zusätzliches Modul mit einer vierten Speichereinheit zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbeitungsanordnung, die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter bzw. die zugehörigen Referenzwerte bestimmt.
Der Erfindung liegt der allgemeine Gedanke zugrunde, die gesamten Verarbeitungsvorgänge bei der Spracherkennung in im wesentlichen selbständige Funktionsblöcke zu zerlegen. Jeder dieser Funktionsblöcke kann dann in Abhängigkeit von den anwendungsbedingten Anforderungen als Programm in der Rechenanordnung oder als spezielle Schaltung zur Signal­ verarbeitung ausgeführt sein. Jedes Modul stellt dabei einen Funktionsblock dar. Eine konkrete elektronische Schaltung zur Realisierung eines Moduls kann mittels mehrerer integrierter Schaltungen auf einer Leiterplatte oder als eine oder wenige spezielle integrierte Schaltungen realisiert sein. Abhängig von der Komplexität der Verarbeitungsvorgänge bei der Erkennung des Sprach­ signals ist außer der Vorverarbeitungsanordnung und der programmgesteuerten Rechenanordnung das erste Modul, das erste und das zusätzliche Modul oder das erste, das zusätzliche und das weitere zusätzliche Modul als Schaltung ausgeführt, so daß das erste Modul bei nahezu allen Systemen, die über die Einzelworterkennung von beispielsweise nur den zehn Ziffern hinausgehen, bereits vorhanden ist, während bei einem noch größeren Vokabular nicht nur das erste, sondern auch das zusätzliche Modul als konkrete Schaltung ausgeführt ist. Damit können für diese Module große Stückzahlen erzielt werden.
Ein gewisser Anteil von Steuerfunktionen verbleiben auch bei Verwendung aller drei Moduln noch bei der programm­ gesteuerten Rechenanordnung. Für sehr komplexe Sprach­ erkennungsprobleme oder hohe Geschwindigkeitsanforderungen kann dies jedoch nicht ganz ausreichend sein. Nach einer Ausgestaltung der Erfindung ist es daher zweckmäßig, daß das erste Modul und/oder das weitere zusätzliche Modul eine Steueranordnung enthalten, die den Datenaustausch zwischen der Speichereinheit und der Wortverarbeitungs­ anordnung bzw. der Sprachmodell-Verarbeitungsanordnung steuert. Auf diese Weise wird die programmgesteuerte Rechenanordnung noch weitergehend von speziellen Sprach­ erkennungsproblemen entlastet.
Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigen
Fig. 1 das Blockschaltbild einer erfindungsgemäßen Anordnung mit weitestgehender Realisierung durch konkrete Schaltungen,
Fig. 2 eine erfindungsgemäße Anordnung mit nur einem Modul für ein geringes Vokabular,
Fig. 3 eine Anordnung mit zwei Moduln für ein größeres Vokabular und insbesondere für zusammenhängend gesprochene Sprache,
Fig. 4 eine erfindungsgemäße Anordnung für ein großes Vokabular und zusätzliche Berücksichtigung von Sprachregeln in einem gesonderten Modul.
In Fig. 1 ist eine Anordnung mit maximalem Ausbau im Blockschaltbild dargestellt, die praktisch alle Funktionen, die für die Spracherkennung, d. h. für die Erkennung der Wörter in einem Sprachsignal, bei einem großen Vokabular und bei der Berücksichtigung komplexer Sprachmodelle bzw. Sprachregeln erforderlich sind, in Form einzelner Funktionsblöcke zeigt. Diese Funktionsblöcke können für verschiedenartige Erkennungsverfahren oder Algorithmen jeweils weitestgehend gleich aufgebaut sein, insbesondere wenn die einzelnen Verarbeitungsanordnungen und Steueranordnungen programmgesteuert arbeiten, da dann die verschiedenen Algorithmen mehr in den entsprechenden Programmen als in der konkret aufgebauten Schaltung der einzelnen Blöcke liegen.
Bei der in Fig. 1 dargestellten Anordnung wird das von einem Mikrofon aufgenommene Sprachsignal über den Eingang 9 einer Vorverarbeitungsanordnung 10 zugeführt. Darin wird das Sprachsignal in einem Verstärker 12 verstärkt und ggf. gefiltert und in einem Analog-Digital- Wandler 14 in eine Folge von digitalen Werten umgesetzt. Der Block 16 stellt schließlich eine Schaltung dar, die aus dem Sprachsignal charakteristische Parameterwerte bildet, beispielsweise die Amplituden in einer Anzahl getrennter Frequenzbereiche.
Diese Parameterwerte werden über den Ausgang 11 einem Modul 40 und darin einer Schaltung 42 zugeführt, die aus diesen Parameterwerten andere Werte ableitet, die für den weiteren Erkennungsvorgang besonders gut geeignet sind. Dies können beispielsweise Diphone oder Phoneme sein.
Diese abgeleiteten Signale werden über die Verbindung 43 einer Vergleichsanordnung 44 zugeführt, wo diese abge­ leiteten Signalwerte mit Referenzwerten verglichen werden, die aus einem Referenzwertspeicher 48 ausgelesen werden. Jeder Sprachsignalwert bzw. abgeleitete Sprachsignalwert auf der Verbindung 43 wird dabei nacheinander mit einer Anzahl Referenzwerte verglichen, die hier von einer programmgesteuerten Rechenanlage 20, beispielsweise einem Microcomputer, durch Adressierung über die Verbindung 23 bestimmt werden.
Das Ergebnis dieses Vergleichs, d. h. der Abstand zwischen dem Sprachsignalwert und dem jeweils verglichenen Referenzwert, wird in üblicher Weise zu einer gespeicherten Abstandssumme, die in einem Schreib-Lese- Speicher 46 gespeichert ist und über die Verbindung 45 der Vergleichsanordnung 44 zugeführt wird, addiert und als akkumulierter Abstandswert im Speicher 46 wieder abge­ speichert. Dabei können noch weitere Steuerwerte mit abgespeichert werden, wie beispielsweise aus der bereits eingangs genannten DE 32 15 868 A1 bekannt ist.
Die in dem Modul 40 erzeugten Abstandswerte bzw. akkumulierten Abstandswerte werden über die Verbindung 47 einem Modul 30 zugeführt, und zwar einer darin enthaltenen Wortverarbeitungsanordnung 32. Diese steht mit einer Steueranordnung 36 in Verbindung, die den Datenaustausch mit einem Speicher 34 steuert. Die Wortverarbeitungs­ anordnung 32 und der Speicher 34, der hier als aus drei Speicherebenen bestehend dargestellt ist, entsprechen den Elementen der aus der ebenfalls eingangs bereits genannten EP 2 85 211 A2 bekannten Anordnung. In diesem Modul wird ein wesentlicher Teil des Erkennungsvorgangs, nämlich der Aufbau bzw. die Weiterverfolgung der einzelnen Erkennungs­ hypothesen durchgeführt, wofür ein gewisser Speicher­ platzbedarf notwendig ist, vor allem jedoch sehr viele Speicherzugriffe für jeden neuen Sprachsignalwert erforderlich sind. Hier kann auch eine Reduktion der Anzahl verglichener Referenzwerte je Sprachsignalwert durch Verwendung von Schwellwerten erfolgen.
An den Wortgrenzen, d. h. wenn eine im Modul 30 verfolgte Hypothese wenigstens ein Wortende erreicht hat, werden die entsprechenden Werte über die Verbindung 37 einem Modul 50 zugeführt, das eine Sprachmodell-Verarbeitungsanordnung 52 und einen Speicher 54 zur Speicherung von das Sprachmodell repräsentierenden Sprachregeln enthält. Der Datenaustausch zwischen dem Sprachmodell-Speicher 54 und der Sprachmodell-Verarbeitungsanordnung 52 erfolgt über eine Steueranordnung 56. Der Sprachmodell-Speicher 54 und die Sprachmodell-Verarbeitungsanordnung 52 oder wenigstens eines dieser Elemente werden von der Rechenanordnung 20 über Steuerverbindungen 25 bzw. 26 gesteuert. Über die Verbindung 25 wird am Ende des zu erkennenden Sprach­ signals auch die Folge der erkannten Wörter der Rechen­ anordnung 20 zugeführt, die diese Folge über den Ausgang 21 einer nicht dargestellten Ausgabeanordnung zuführt.
Mit der in Fig. 1 dargestellten Anordnung lassen sich sehr komplexe Spracherkennungs-Algorithmen sehr schnell, bei entsprechendem Aufwand auch in Echtzeit, unter Berück­ sichtigung komplexer Sprachmodelle durchführen. Anderer­ seits stellen die einzelnen Moduln 30, 40 und 50 Funktionsblöcke dar, d. h. die dafür angegebenen Funktionen müssen bei einem entsprechend komplexen Spracherkennungs­ verfahren durchgeführt werden.
In manchen Fällen sind derartige komplexe Sprachverfahren jedoch nicht gewünscht bzw. deren Durchführung nicht wirtschaftlich. Im einfachsten Falle muß aber mindestens die Vorverarbeitungsanordnung 10 vorhanden sein, da diese analoge Signale verarbeitet, während für eine einfache Spracherkennungsaufgabe außerdem nur die programm­ gesteuerte Rechenanordnung 20 erforderlich ist. Dafür erhält letztere beispielsweise die am Ausgang 11 der Vorverarbeitungsanordnung 10 erzeugten Sprachsignalwerte und führt die Vergleiche mit Referenzwerten und die Bestimmung der optimal passenden Folge von Referenzwerten programmgesteuert durch. Dies ist möglich, wenn das Vokabular nur sehr klein ist und wenn insbesondere kein zusammenhängend gesprochener Satz unter Berücksichtigung komplexer Sprachregeln erkannt werden soll, sondern lediglich eine Einzelworterkennung, beispielsweise eine akustische Kommandoerkennung, oder eine Erkennung von isoliert gesprochenen Ziffern erforderlich ist. Die Funktionen der beschriebenen Moduln werden dann alle programmgesteuert in der Rechenanordnung 20 ausgeführt.
Eine Anordnung zur Spracherkennung mit einem etwas größeren Vokabular von etwa 100 Wörtern ist in Fig. 2 dargestellt. Dabei bedeuten gleiche Bezugszeichen die gleichen Elemente bzw. Funktionseinheiten wie in Fig. 1. Der Vergleich der am Ausgang 11 der Vorverarbeitungs­ anordnung 10 erzeugten Sprachsignalwerte mit Referenz­ werten, d. h. die Funktion des Moduls 40 in Fig. 1, erfolgt in der programmgesteuerten Rechenanordnung 20, und die Vergleichsergebnisse werden über eine Verbindung 28 dem hier als konkrete Schaltung vorhandenen Modul 30 zugeführt, und zwar der Wortverarbeitungsanordnung 32 darin. Diese letztere möge den Datenaustausch über die Verbindung 35 mit dem Speicher 34 direkt steuern, was bei einem kleinen Vokabular und einem sich dadurch ergebenden kleinen Suchraum für die Hypothesen leicht möglich ist. Dennoch benötigt der Speicher 34 schon bei einem kleinen Vokabular für die Suche der optimalen Hypothese eine relativ große Anzahl von Speicherzugriffen, von denen durch Realisierung des Moduls 30 als konkrete Schaltung die programmgesteuerte Rechenanordnung 20 dann entlastet wird. Die Berücksichtigung eines einfachen Sprachmodells, wofür über die Verbindung 28 dann Daten zwischen dem Modul 30 und der Rechenanordnung 20 ausgetauscht werden, ist in letzterer durch entsprechende Programmsteuerung noch mit tragbarem Zeitaufwand möglich. Die Durchführung der einzelnen Vergleiche bzw. die Bestimmung der Abstandswerte selbst erfordert dagegen nur einen geringen Rechenaufwand und nur eine begrenzte Anzahl Speicherzugriffe, so daß diese Aufgabe bei einem kleinen Vokabular von der Rechenanordnung 20 ausgeführt werden kann.
Bei einem größeren Vokabular steigt dagegen die Anzahl der Referenzwerte, die mit jedem Sprachsignalwert verglichen werden müssen, so daß diese Vergleiche in dem als konkrete Schaltung gesondert aufgebauten Modul 40 durchgeführt werden, wie dies in Fig. 3 dargestellt ist. Die einzelnen Vorgänge in diesem Modul sind bereits bei der Erläuterung der Fig. 1 beschrieben worden, so daß sie hier nicht nochmals aufgeführt werden. Die eventuelle Berücksichti­ gung eines einfachen Sprachmodells kann dagegen in der programmgesteuerten Rechenanordnung 20 erfolgen.
Erst wenn das Sprachmodell sehr komplex wird, wird ein als konkrete Schaltung ausgebildetes Modul 50 dafür vorgesehen, wie in Fig. 4 dargestellt ist. Dabei ist vorgesehen, daß die Sprachmodell-Verarbeitungsanordnung direkt den Datenaustausch mit dem Sprachmodell-Speicher 54 über die Verbindung 53 steuert. Die für die Berücksichti­ gung des Sprachmodells, d. h. für die Bestimmung neuer zu vergleichender Folgen von Referenzwerten notwendigen Werte werden der Sprachmodell-Verarbeitungsanordnung 52 über die Verbindung 33 von der Wortverarbeitungsanordnung 32 direkt zugeführt. Dadurch wird die Rechenanordnung 20 von besonders rechen- und speicherzugriffsintensiven Vorgängen entlastet.
Wenn bei einem sehr großen Vokabular der Suchalgorithmus sehr komplex wird und außerdem ein sehr komplexes Sprach­ modell berücksichtigt werden soll, ist in den Moduln 30 und 50 noch jeweils eine zusätzliche Steueranordnung 36 bzw. 56 vorgesehen, wie dies in Fig. 1 dargestellt ist. Eine solche zusätzliche Steueranordnung braucht die übrigen Elemente der Moduln jedoch kaum zu beeinflussen, so daß die Moduln 30 und 50, d. h. die konkreten Schaltungsanordnungen dafür, unabhängig von der jeweiligen Steueranordnung aufgebaut werden können und lediglich das wahlweise zusätzliche Einfügen der Steueranordnung vorbereitend berücksichtigt werden kann.

Claims (2)

1. Anordnung zur Erkennung von Wörtern in einem Sprach­ signal, mit einer Vorverarbeitungsanordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignal­ wert die Werte von Parametern in einen Zeitabschnitt des Sprachsignals angibt, und mit einer Verarbeitungsanord­ nung, die jeden Sprachsignalwert mit mindestens einem Teil der Referenzwerte der Wörter eines vorgegebenen Vokabulars vergleicht und die Vergleichsergebnisse weiterverarbeitet und dabei Zwischenwerte bildet und zwischenspeichert und aus den Zwischenwerten am Ende des Sprachsignals die erkannten Wörter ableitet und ausgibt, dadurch gekennzeichnet, daß die Verarbeitungsanordnung wenigstens eine programmgesteuerte Rechenanordnung sowie abhängig von der Größe des Vokabulars und ggf. der bei Wortübergängen berücksichtigten Sprachregeln wenigstens einen der folgenden von der Rechenanordnung gesteuerten Moduln umfaßt:
  • a) ein erstes Modul mit einer ersten Speichereinheit zum Aufnehmen von Zwischenwerten und mit einer Wort­ verarbeitungsanordnung zur Bildung von neuen Zwischen­ werten aus gespeicherten Zwischenwerten und Vergleichs­ ergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
  • b) ein zusätzliches Modul mit einer zweiten Speicher­ einheit zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung, die jeden Sprachsignalwert von der Vorverarbeitungsanord­ nung mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Sprachsignalwert und jedem verglichenen Referenz­ wert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit in diesem Modul zwischenspeichert,
  • c) ein weiteres zusätzliches Modul mit einer vierten Speichereinheit zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbeitungsanordnung, die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter bzw. die zugehörigen Referenzwerte bestimmt.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß das erste Modul und/oder das weitere zusätzliche Modul eine Steueranordnung enthalten, die den Datenaustausch zwischen der Speichereinheit und der Wortverarbeitungsanordnung bzw. der Sprachmodell- Verarbeitungsanordnung steuert.
DE19914106346 1991-02-28 1991-02-28 Anordnung zur Erkennung von Wörtern in einem Sprachsignal Expired - Lifetime DE4106346C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19914106346 DE4106346C2 (de) 1991-02-28 1991-02-28 Anordnung zur Erkennung von Wörtern in einem Sprachsignal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19914106346 DE4106346C2 (de) 1991-02-28 1991-02-28 Anordnung zur Erkennung von Wörtern in einem Sprachsignal

Publications (2)

Publication Number Publication Date
DE4106346A1 true DE4106346A1 (de) 1992-09-03
DE4106346C2 DE4106346C2 (de) 1997-04-10

Family

ID=6426119

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19914106346 Expired - Lifetime DE4106346C2 (de) 1991-02-28 1991-02-28 Anordnung zur Erkennung von Wörtern in einem Sprachsignal

Country Status (1)

Country Link
DE (1) DE4106346C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884260A (en) * 1993-04-22 1999-03-16 Leonhard; Frank Uldall Method and system for detecting and generating transient conditions in auditory signals

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
EP0285211A2 (de) * 1987-03-30 1988-10-05 Philips Patentverwaltung GmbH Verfahren zum Erkennen kontinuierlich gesprochener Wörter
EP0344017A2 (de) * 1988-05-27 1989-11-29 Kabushiki Kaisha Toshiba Spracherkennungssystem

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
EP0285211A2 (de) * 1987-03-30 1988-10-05 Philips Patentverwaltung GmbH Verfahren zum Erkennen kontinuierlich gesprochener Wörter
EP0344017A2 (de) * 1988-05-27 1989-11-29 Kabushiki Kaisha Toshiba Spracherkennungssystem

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Lexikon der Datenverarbeitung, verlag moderne industrie, 4. Aufl., 1969, S. 376 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884260A (en) * 1993-04-22 1999-03-16 Leonhard; Frank Uldall Method and system for detecting and generating transient conditions in auditory signals

Also Published As

Publication number Publication date
DE4106346C2 (de) 1997-04-10

Similar Documents

Publication Publication Date Title
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
EP0533261A2 (de) Verfahren und Anordnung zum Erkennen gesprochener Wörter in einem Sprachsignal
EP0285221B1 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP0299572A2 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE4031638C2 (de)
EP0533260A2 (de) Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal
DE68922016T2 (de) Einrichtung zur Sprachverarbeitung.
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0533259B1 (de) Verfahren und Anordnung zum Erkennen einer Folge von Wörtern
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE3733391C2 (de)
DE3514286A1 (de) System zur erkennung einzeln gesprochener woerter
EP0703569B1 (de) System zum Ermitteln von Wörtern aus einem Sprachsignal
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE4106346C2 (de) Anordnung zur Erkennung von Wörtern in einem Sprachsignal
DE4342425A1 (de) Verfahren und Anordnung zum Übertragen von Sprachsignalen
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE3882400T2 (de) Anordnung zur Mustererkennung.
DE3215868A1 (de) Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
DE102017212431A1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Signals

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233

8327 Change in the person/name/address of the patent owner

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

R071 Expiry of right