DE4106346C2 - Anordnung zur Erkennung von Wörtern in einem Sprachsignal - Google Patents
Anordnung zur Erkennung von Wörtern in einem SprachsignalInfo
- Publication number
- DE4106346C2 DE4106346C2 DE19914106346 DE4106346A DE4106346C2 DE 4106346 C2 DE4106346 C2 DE 4106346C2 DE 19914106346 DE19914106346 DE 19914106346 DE 4106346 A DE4106346 A DE 4106346A DE 4106346 C2 DE4106346 C2 DE 4106346C2
- Authority
- DE
- Germany
- Prior art keywords
- arrangement
- values
- speech signal
- module
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft eine Anordnung zur Erkennung von
Wörtern in einem Sprachsignal, mit einer Vorverarbeitungs
anordnung, die aus dem kontinuierlichen Sprachsignal eine
zeitliche Folge von Sprachsignalwerten ableitet, von denen
jeder Sprachsignalwert die Werte von Parametern in einen
Zeitabschnitt des Sprachsignals angibt, und mit einer
Verarbeitungsanordnung, die jeden Sprachsignalwert mit
mindestens einem Teil der Referenzwerte der Wörter eines
vorgegebenen Vokabulars vergleicht und die Vergleichs
ergebnisse weiterverarbeitet und dabei Zwischenwerte
bildet und zwischenspeichert und aus den Zwischenwerten am
Ende des Sprachsignals die erkannten Wörter ableitet und
ausgibt.
Eine derartige Anordnung, die die grundliegenden Elemente
für eine allgemeine Anordnung zur Spracherkennung enthält,
ist bekannt beispielsweise aus der DE 32 15 868 A1 oder
EP 285 211 A2. Die aus der letztgenannten Druckschrift
bekannte Anordnung unterscheidet sich von der erst
genannten Druckschrift ins besondere durch die Berück
sichtigung eines Sprachmodells und eines Schwellwerts, so
daß zusammenhängend gesprochene Sprache zuverlässiger
erkannt werden kann. Dafür ist die aus der letztgenannten
Druckschrift bekannte Anordnung jedoch auch umfangreicher
aufgebaut. Allgemein liegt abhängig von der jeweiligen
Anwendung und von der Komplexität der Erkennungsaufgabe
der Aufwand im Bereich von relativ einfacher Signal
verarbeitungs-Anordnungen für z. B. Einzelworterkenner mit
kleinem Wortschatz bis hin zu umfangreichen Anordnungen
für komplizierte Suchprozeduren für die Erkennung von
kontinuierlicher Sprache mit großen Wortschätzen. Einfache
Anwendungsfälle, die nur wenige Verarbeitungsoperationen
je Sprachsignalwert erfordern, können dabei auch mit einer
allgemeinen, entsprechend programmgesteuerten Rechen
anordnung realisiert werden. Bei höheren Anforderungen an
die Erkennung ist eine rein programmgesteuerte Signal
verarbeitung mit üblichen Rechenanlagen begrenztem Umfangs
jedoch zu langsam, so daß zumindest Teile der Anordnung
mit speziellen elektronischen Schaltungen realisiert
werden müssen. Eine kostengünstige Herstellung
elektronischer Schaltungen ist die Integration auf einem
oder nur wenigen Halbleiterplättchen, jedoch erfordert
dies entsprechend große Stückzahlen. Diese sind jedoch
wegen der unterschiedlichen Anwendungen und Anforderungen
dabei kaum zu erzielen.
Aufgabe der Erfindung ist es, eine Anordnung der eingangs
genannten Art anzugeben, die auch für verschiedene
Anwendungsfälle weitgehend kostengünstig hergestellt
werden kann.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß
die Verarbeitungsanordnung wenigstens eine programm
gesteuerte Rechenanordnung sowie abhängig von der Größe
des Vokabulars und der bei Wortübergängen berück
sichtigten Sprachregeln wenigstens einen der folgenden von
der Rechenanordnung gesteuerten Moduln umfaßt:
- a) ein erstes Modul mit einer ersten Speichereinheit zum Aufnehmen von Zwischenwerten und mit einer Wort verarbeitungsanordnung zur Bildung von neuen Zwischen werten aus gespeicherten Zwischenwerten und Vergleichs ergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
- b) ein zusätzliches Modul mit einer zweiten Speicher einheit zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung, die jeden Sprachsignalwert von der Vorverarbeitungsanord nung mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Sprachsignalwert und jedem verglichenen Referenz wert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit in diesem Modul zwischenspeichert,
- c) ein weiteres zusätzliches Modul mit einer vierten Speichereinheit zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbeitungsanordnung, die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter bzw. die zugehörigen Referenzwerte bestimmt.
Der Erfindung liegt der allgemeine Gedanke zugrunde, die
gesamten Verarbeitungsvorgänge bei der Spracherkennung in
im wesentlichen selbständige Funktionsblöcke zu zerlegen.
Jeder dieser Funktionsblöcke kann dann in Abhängigkeit von
den anwendungsbedingten Anforderungen als Programm in der
Rechenanordnung oder als spezielle Schaltung zur Signal
verarbeitung ausgeführt sein. Jedes Modul stellt dabei
einen Funktionsblock dar. Eine konkrete elektronische
Schaltung zur Realisierung eines Moduls kann mittels
mehrerer integrierter Schaltungen auf einer Leiterplatte
oder als eine oder wenige spezielle integrierte
Schaltungen realisiert sein. Abhängig von der Komplexität
der Verarbeitungsvorgänge bei der Erkennung des Sprach
signals ist außer der Vorverarbeitungsanordnung und der
programmgesteuerten Rechenanordnung das erste Modul, das
erste und das zusätzliche Modul oder das erste, das zusätzliche und das weitere
zusätzliche Modul als Schaltung ausgeführt, so daß das erste Modul bei nahezu allen
Systemen, die über die Einzelworterkennung von beispielsweise nur den zehn
Ziffern hinausgehen, bereits vorhanden ist, während bei einem noch größeren
Vokabular nicht nur das erste, sondern auch das zusätzliche Modul als konkrete
Schaltung ausgeführt ist. Damit können für diese Module große Stückzahlen erzielt
werden.
Das Aufteilen von größeren Anordnungen in einzelne Module und gegebenenfalls
deren Realisierung als integrierte Schaltung ist grundsätzlich bekannt, beispielsweise
aus dem "Lexikon der Datenverarbeitung", Verlag Moderne Industrie, 4. Auflage,
1996, Seite 376. Daraus geht jedoch nicht hervor, wie in einem Einzelfall,
besonders bei einer Anordnung zur Erkennung von Wörtern gemäß der vorliegenden
Erfindung, eine Aufteilung in Module erfolgen soll und welche einzelnen Elemente
in jeweils einem Modul günstig zusammengefaßt werden können.
In der EP 0 344 017 A2 wird ein Spracherkennungssystem beschrieben, das aus
einer Mehrzahl von Sektionen besteht. Diese einzelnen Sektionen, die von einer
gemeinsamen Steueranordnung gesteuert werden, beziehen sich jedoch auf einzelne
Verarbeitungsschritte beim Spracherkennungsvorgang und beziehen sich nicht auf
einen modularen Aufbau. Die Unterteilung in die einzelnen Sektionen berücksichtigt
auch nicht den Aufbau von Spracherkennungssystemen stark unterschiedlichen
Umfangs durch Zufügen oder Weglassen einzelner Sektionen, denn der größte Teil
der Sektionen ist grundsätzlich auch für einfache Spracherkennungssysteme
erforderlich.
Es gewisser Anteil von Steuerfunktionen verbleibt auch bei Verwendung aller drei
Moduln noch bei der programmgesteuerten Rechenanordnung. Für sehr komplexe
Spracherkennungsprobleme oder hohe Geschwindigkeitsanforderungen kann dies
jedoch nicht ganz ausreichend sein. Nach einer Ausgestaltung der Erfindung ist es
daher zweckmäßig, daß das erste Modul und/oder das weitere zusätzliche Modul
eine Steueranordnung enthalten, die den Datenaustausch zwischen der
Speichereinheit und der Wortverarbeitungsanordnung bzw. der
Sprachmodell-Verarbeitungsanordnung steuert. Auf diese Weise wird die
programmgesteuerte Rechenanordnung noch weitergehend von speziellen
Spracherkennungsproblemen entlastet.
Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung
näher erläutert. Es zeigen:
Fig. 1 das Blockschaltbild einer erfindungsgemäßen Anordnung mit weitestgehender
Realisierung durch konkrete Schaltungen,
Fig. 2 eine erfindungsgemäße Anordnung mit nur einem Modul für ein geringes
Vokabular,
Fig. 3 eine Anordnung mit zwei Moduln für ein größeres Vokabular und
insbesondere für zusammenhängend gesprochene Sprache,
Fig. 4 eine erfindungsgemäße Anordnung für ein großes
Vokabular und zusätzliche Berücksichtigung von
Sprachregeln in einem gesonderten Modul.
In Fig. 1 ist eine Anordnung mit maximalem Ausbau im
Blockschaltbild dargestellt, die praktisch alle
Funktionen, die für die Spracherkennung, d. h. für die
Erkennung der Wörter in einem Sprachsignal, bei einem
großen Vokabular und bei der Berücksichtigung komplexer
Sprachmodelle bzw. Sprachregeln erforderlich sind, in Form
einzelner Funktionsblöcke zeigt. Diese Funktionsblöcke
können für verschiedenartige Erkennungsverfahren oder
Algorithmen jeweils weitestgehend gleich aufgebaut sein,
insbesondere wenn die einzelnen Verarbeitungsanordnungen
und Steueranordnungen programmgesteuert arbeiten, da dann
die verschiedenen Algorithmen mehr in den entsprechenden
Programmen als in der konkret aufgebauten Schaltung der
einzelnen Blöcke liegen.
Bei der in Fig. 1 dargestellten Anordnung wird das von
einem Mikrofon aufgenommene Sprachsignal über den
Eingang 9 einer Vorverarbeitungsanordnung 10 zugeführt.
Darin wird das Sprachsignal in einem Verstärker 12
verstärkt und ggf. gefiltert und in einem Analog-Digital-Wand
ler 14 in eine Folge von digitalen Werten umgesetzt.
Der Block 16 stellt schließlich eine Schaltung dar, die
aus dem Sprachsignal charakteristische Parameterwerte
bildet, beispielsweise die Amplituden in einer Anzahl
getrennter Frequenzbereiche.
Diese Parameterwerte werden über den Ausgang 11 einem
Modul 40 und darin einer Schaltung 42 zugeführt, die aus
diesen Parameterwerten andere Werte ableitet, die für den
weiteren Erkennungsvorgang besonders gut geeignet sind.
Dies können beispielsweise Diphone oder Phoneme sein.
Diese abgeleiteten Signale werden über die Verbindung 43
einer Vergleichsanordnung 44 zugeführt, wo diese abge
leiteten Signalwerte mit Referenzwerten verglichen werden,
die aus einem Referenzwertspeicher 48 ausgelesen werden.
Jeder Sprachsignalwert bzw. abgeleitete Sprachsignalwert
auf der Verbindung 43 wird dabei nacheinander mit einer
Anzahl Referenzwerte verglichen, die hier von einer
programmgesteuerten Rechenanlage 20, beispielsweise einem
Microcomputer, durch Adressierung über die Verbindung 23
bestimmt werden.
Das Ergebnis dieses Vergleichs, d. h. der Abstand zwischen
dem Sprachsignalwert und dem jeweils verglichenen
Referenzwert, wird in üblicher Weise zu einer
gespeicherten Abstandssumme, die in einem Schreib-Lese-Spei
cher 46 gespeichert ist und über die Verbindung 45 der
Vergleichsanordnung 44 zugeführt wird, addiert und als
akkumulierter Abstandswert im Speicher 46 wieder abge
speichert. Dabei können noch weitere Steuerwerte mit
abgespeichert werden, wie beispielsweise aus der bereits
eingangs genannten DE 32 15 868 A1 bekannt ist.
Die in dem Modul 40 erzeugten Abstandswerte bzw.
-akkumulierten Abstandswerte werden über die Verbindung 47
einem Modul 30 zugeführt, und zwar einer darin enthaltenen
Wortverarbeitungsanordnung 32. Diese steht mit einer
Steueranordnung 36 in Verbindung, die den Datenaustausch
mit einem Speicher 34 steuert. Die Wortverarbeitungs
anordnung 32 und der Speicher 34, der hier als aus drei
Speicherebenen bestehend dargestellt ist, entsprechen den
Elementen der aus der ebenfalls eingangs bereits genannten
EP 285 211 A2 bekannten Anordnung. In diesem Modul wird
ein wesentlicher Teil des Erkennungsvorgangs, nämlich der
Aufbau bzw. die Weiterverfolgung der einzelnen Erkennungs
hypothesen durchgeführt, wofür ein gewisser Speicher
platzbedarf notwendig ist, vor allem jedoch sehr viele
Speicherzugriffe für jeden neuen Sprachsignalwert
erforderlich sind. Hier kann auch eine Reduktion der
Anzahl verglichener Referenzwerte je Sprachsignalwert
durch Verwendung von Schwellwerten erfolgen.
An den Wortgrenzen, d. h. wenn eine im Modul 30 verfolgte
Hypothese wenigstens ein Wortende erreicht hat, werden die
entsprechenden Werte über die Verbindung 37 einem Modul 50
zugeführt, das eine Sprachmodell-Verarbeitungsanordnung 52
und einen Speicher 54 zur Speicherung von das Sprachmodell
repräsentierenden Sprachregeln enthält. Der Datenaustausch
zwischen dem Sprachmodell-Speicher 54 und der
Sprachmodell-Verarbeitungsanordnung 52 erfolgt über eine
Steueranordnung 56. Der Sprachmodell-Speicher 54 und die
Sprachmodell-Verarbeitungsanordnung 52 oder wenigstens
eines dieser Elemente werden von der Rechenanordnung 20
über Steuerverbindungen 25 bzw. 26 gesteuert. Über die
Verbindung 25 wird am Ende des zu erkennenden Sprach
signals auch die Folge der erkannten Wörter der Rechen
anordnung 20 zugeführt, die diese Folge über den
Ausgang 21 einer nicht dargestellten Ausgabeanordnung
zu führt.
Mit der in Fig. 1 dargestellten Anordnung lassen sich sehr
komplexe Spracherkennungs-Algorithmen sehr schnell, bei
entsprechendem Aufwand auch in Echtzeit, unter Berück
sichtigung komplexer Sprachmodelle durchführen. Anderer
seits stellen die einzelnen Moduln 30, 40 und 50
Funktionsblöcke dar, d. h. die dafür angegebenen Funktionen
müssen bei einem entsprechend komplexen Spracherkennungs
verfahren durchgeführt werden.
In manchen Fällen sind derartige komplexe Sprachverfahren
jedoch nicht gewünscht bzw. deren Durchführung nicht
wirtschaftlich. Im einfachsten Falle muß aber mindestens
die Vorverarbeitungsanordnung 10 vorhanden sein, da diese
analoge Signale verarbeitet, während für eine einfache
Spracherkennungsaufgabe außerdem nur die programm
gesteuerte Rechenanordnung 20 erforderlich ist. Dafür
erhält letztere beispielsweise die am Ausgang 11 der
Vorverarbeitungsanordnung 10 erzeugten Sprachsignalwerte
und führt die Vergleiche mit Referenzwerten und die
Bestimmung der optimal passenden Folge von Referenzwerten
programmgesteuert durch. Dies ist möglich, wenn das
Vokabular nur sehr klein ist und wenn insbesondere kein
zusammenhängend gesprochener Satz unter Berücksichtigung
komplexer Sprachregeln erkannt werden soll, sondern
lediglich eine Einzelworterkennung, beispielsweise eine
akustische Kommandoerkennung, oder eine Erkennung von
isoliert gesprochenen Ziffern erforderlich ist. Die
Funktionen der beschriebenen Moduln werden dann alle
programmgesteuert in der Rechenanordnung 20 ausgeführt.
Eine Anordnung zur Spracherkennung mit einem etwas
größeren Vokabular von etwa 100 Wörtern ist in Fig. 2
dargestellt. Dabei bedeuten gleiche Bezugszeichen die
gleichen Elemente bzw. Funktionseinheiten wie in Fig. 1.
Der Vergleich der am Ausgang 11 der Vorverarbeitungs
anordnung 10 erzeugten Sprachsignalwerte mit Referenz
werten, d. h. die Funktion des Moduls 40 in Fig. 1, erfolgt
in der programmgesteuerten Rechenanordnung 20, und die
Vergleichsergebnisse werden über eine Verbindung 28 dem
hier als konkrete Schaltung vorhandenen Modul 30
zugeführt, und zwar der Wortverarbeitungsanordnung 32
darin. Diese letztere möge den Datenaustausch über die
Verbindung 35 mit dem Speicher 34 direkt steuern, was bei
einem kleinen Vokabular und einem sich dadurch ergebenden
kleinen Suchraum für die Hypothesen leicht möglich ist.
Dennoch benötigt der Speicher 34 schon bei einem kleinen
Vokabular für die Suche der optimalen Hypothese eine
relativ große Anzahl von Speicherzugriffen, von denen
durch Realisierung des Moduls 30 als konkrete Schaltung
die programmgesteuerte Rechenanordnung 20 dann entlastet
wird. Die Berücksichtigung eines einfachen Sprachmodells,
wofür über die Verbindung 28 dann Daten zwischen dem
Modul 30 und der Rechenanordnung 20 ausgetauscht werden,
ist in letzterer durch entsprechende Programmsteuerung
noch mit tragbarem Zeitaufwand möglich. Die Durchführung
der einzelnen Vergleiche bzw. die Bestimmung der
Abstandswerte selbst erfordert dagegen nur einen geringen
Rechenaufwand und nur eine begrenzte Anzahl
Speicherzugriffe, so daß diese Aufgabe bei einem kleinen
Vokabular von der Rechenanordnung 20 ausgeführt werden
kann.
Bei einem größeren Vokabular steigt dagegen die Anzahl der
Referenzwerte, die mit jedem Sprachsignalwert verglichen
werden müssen, so daß diese Vergleiche in dem als konkrete
Schaltung gesondert aufgebauten Modul 40 durchgeführt
werden, wie dies in Fig. 3 dargestellt ist. Die einzelnen
Vorgänge in diesem Modul sind bereits bei der Erläuterung
der Fig. 1 beschrieben worden, so daß sie hier nicht
nochmals aufgeführt werden. Die eventuelle Berücksichti
gung eines einfachen Sprachmodells kann dagegen in der
programmgesteuerten Rechenanordnung 20 erfolgen.
Erst wenn das Sprachmodell sehr komplex wird, wird ein als
konkrete Schaltung ausgebildetes Modul 50 dafür
vorgesehen, wie in Fig. 4 dargestellt ist. Dabei ist
vorgesehen, daß die Sprachmodell-Verarbeitungsanordnung
direkt den Datenaustausch mit dem Sprachmodell-Speicher 54
über die Verbindung 53 steuert. Die für die Berücksichti
gung des Sprachmodells, d. h. für die Bestimmung neuer zu
vergleichender Folgen von Referenzwerten notwendigen Werte
werden der Sprachmodell-Verarbeitungsanordnung 52 über die
Verbindung 33 von der Wortverarbeitungsanordnung 32 direkt
zugeführt. Dadurch wird die Rechenanordnung 20 von
besonders rechen- und speicherzugriffsintensiven Vorgängen
entlastet.
Wenn bei einem sehr großen Vokabular der Suchalgorithmus
sehr komplex wird und außerdem ein sehr komplexes Sprach
modell berücksichtigt werden soll, ist in den Moduln 30
und 50 noch jeweils eine zusätzliche Steueranordnung 36
bzw. 56 vorgesehen, wie dies in Fig. 1 dargestellt ist.
Eine solche zusätzliche Steueranordnung braucht die
übrigen Elemente der Moduln jedoch kaum zu beeinflussen,
so daß die Moduln 30 und 50, d. h. die konkreten
Schaltungsanordnungen dafür, unabhängig von der jeweiligen
Steueranordnung aufgebaut werden können und lediglich das
wahlweise zusätzliche Einfügen der Steueranordnung
vorbereitend berücksichtigt werden kann.
Claims (2)
1. Anordnung zur Erkennung von Wörtern in einem Sprachsignal, mit einer
Vorverarbeitungsanordnung (10), die aus dem kontinuierlichen Sprachsignal eine
zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert
die Werte von Parametern in einem Zeitabschnitt des Sprachsignals angibt, und mit
einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit mindestens einem
Teil der Referenzwerte der Wörter eines vorgegebenen Vokabulars vergleicht und
die Vergleichsergebnisse weiterverarbeitet und dabei Zwischenwerte bildet und
zwischenspeichert und aus den Zwischenwerten am Ende des Sprachsignals die
erkannten Wörter ableitet und ausgibt,
dadurch gekennzeichnet, daß die Verarbeitungsanordnung wenigstens eine
programmgesteuerte Rechenanordnung (20) sowie abhängig von der Größe des
Vokabulars und der bei Wortübergängen berücksichtigten Sprachregeln wenigstens
einen der folgenden von der Rechenanordnung gesteuerten Moduln umfaßt:
- a) ein erstes Modul (30) mit einer ersten Speichereinheit (34) zum Aufnehmen von Zwischenwerten und mit einer Wortverarbeitungsanordnung (32) zur Bildung von neuen Zwischenwerten aus gespeicherten Zwischenwerten und Vergleichsergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
- b) ein zusätzliches Modul (40) mit einer zweiten Speichereinheit (48) zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung (44), die jeden Sprachsignalwert von der Vorverarbeitungsanordnung (10) mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Signalwert und jedem verglichenen Referenzwert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit (46) in diesem Modul zwischenspeichert,
- c) ein weiteres zusätzliches Modul (50) mit einer vierten Speichereinheit (54) zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbei tungsanordnung (52), die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung (44) einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter und die zugehörigen Referenzwerte bestimmt.
2. Anordnung nach Anspruch 1,
dadurch gekennzeichnet, daß das erste Modul (30) und/oder das weitere zusätzliche
Modul (50) eine Steueranordnung (36; 56) enthalten, die den Datenaustausch
zwischen der Speichereinheit (34; 54) und der Wortverarbeitungsanordnung (32)
und/oder der Sprachmodell-Verarbeitungsanordnung (52) steuert.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19914106346 DE4106346C2 (de) | 1991-02-28 | 1991-02-28 | Anordnung zur Erkennung von Wörtern in einem Sprachsignal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19914106346 DE4106346C2 (de) | 1991-02-28 | 1991-02-28 | Anordnung zur Erkennung von Wörtern in einem Sprachsignal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4106346A1 DE4106346A1 (de) | 1992-09-03 |
DE4106346C2 true DE4106346C2 (de) | 1997-04-10 |
Family
ID=6426119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19914106346 Expired - Lifetime DE4106346C2 (de) | 1991-02-28 | 1991-02-28 | Anordnung zur Erkennung von Wörtern in einem Sprachsignal |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4106346C2 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK46493D0 (da) * | 1993-04-22 | 1993-04-22 | Frank Uldall Leonhard | Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3215868A1 (de) * | 1982-04-29 | 1983-11-03 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette |
DE3710507A1 (de) * | 1987-03-30 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
JP2955297B2 (ja) * | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
-
1991
- 1991-02-28 DE DE19914106346 patent/DE4106346C2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE4106346A1 (de) | 1992-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
EP0285221B1 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
EP0533261A2 (de) | Verfahren und Anordnung zum Erkennen gesprochener Wörter in einem Sprachsignal | |
EP0299572A2 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE4031638C2 (de) | ||
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
EP0533260A2 (de) | Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal | |
DE68922016T2 (de) | Einrichtung zur Sprachverarbeitung. | |
EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP0533259B1 (de) | Verfahren und Anordnung zum Erkennen einer Folge von Wörtern | |
DE69327997T2 (de) | Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür | |
DE3514286A1 (de) | System zur erkennung einzeln gesprochener woerter | |
DE69028021T2 (de) | Einrichtung zur Erkennung von kontinuierlicher Sprache | |
EP0703569B1 (de) | System zum Ermitteln von Wörtern aus einem Sprachsignal | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse | |
EP0285211A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE4106346C2 (de) | Anordnung zur Erkennung von Wörtern in einem Sprachsignal | |
DE2920041C2 (de) | Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens | |
DE2939077C2 (de) | Verfahren und Anordnung zum Bestimmen charakteristischer Werte aus einem zeitbegrenzten Geräuschsignal | |
EP0272723B1 (de) | Verfahren zur Bestimmung des zeitlichen Verlaufs eines Sprachparameters und Anordnung zur Durchführung des Verfahrens | |
DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
EP0703567B1 (de) | Verfahren und Einrichtung zur Bestimmung eines Masses der Übereinstimmung zwischen zwei Mustern sowie Spracherkennungseinrichtung damit und Programmmodul dafür |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233 |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 |
|
R071 | Expiry of right |