DE2608569A1 - Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen - Google Patents
Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungenInfo
- Publication number
- DE2608569A1 DE2608569A1 DE19762608569 DE2608569A DE2608569A1 DE 2608569 A1 DE2608569 A1 DE 2608569A1 DE 19762608569 DE19762608569 DE 19762608569 DE 2608569 A DE2608569 A DE 2608569A DE 2608569 A1 DE2608569 A1 DE 2608569A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- feature
- signal
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000006870 function Effects 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 15
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 abstract description 34
- 238000000605 extraction Methods 0.000 abstract description 17
- 230000003595 spectral effect Effects 0.000 abstract description 17
- 230000036961 partial effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 8
- 230000005284 excitation Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000903 blocking effect Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000036962 time dependent Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 208000037656 Respiratory Sounds Diseases 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001627 detrimental effect Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- PSGAAPLEWMOORI-PEINSRQWSA-N medroxyprogesterone acetate Chemical compound C([C@@]12C)CC(=O)C=C1[C@@H](C)C[C@@H]1[C@@H]2CC[C@]2(C)[C@@](OC(C)=O)(C(C)=O)CC[C@H]21 PSGAAPLEWMOORI-PEINSRQWSA-N 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Time-Division Multiplex Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Description
Die Erfindung liegt auf dem Gebiet der Spracherkennung und betrifft insbesondere eine Einrichtung zum Feststellen
von Wortgrenzen eines isolierten Wortes für Spracherkennungseinrichtungen, die getrennt gesprochene Worte anzeigende
akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt und die Einrichtungen zur
Erzeugung von Kennmerkmale, im Eingangssignal anzeigenden Merkmalssignalen aufweist und eine Einrichtung zum Vergleich
der in festgelegten Zeitgrenzen auftretenden Merkmalssignale
mit gespeicherten Wörtern eines Vokabulars oder einer Wortliste entsprechenden Merkmalen.
Es sind verschiedene Einrichtungen in der Vergangenheit entwickelt worden, mit dem Ziel, begrenzte Vokabularien gesprochener
Worte durch Analyse akustischer Vorgänge zu erkennen. Man hatte sich vorgestellt, daß solche Einrichtungen
Dr.K./H.
609840/0957
hinsichtlich Sprachbefehl-Anwendungen geeignet wären, wobei die Einrichtung beim Erkennen bestimmter Worte elektrische
Signale erzeugt, die den Betrieb eines dazugehörigen Systems steuern. Zum Beispiel könnte ein Sprachbefehl dazu verwendet
werden, ein Förderband zu steuern, um dieses in einer bestimmten Art und Weise zu bewegen oder kann einen Computer
zur Durchführung spezieller Rechnungen steuern.
In der Vergangenheit durchgeführte Versuche, automatische Verfahren für Spracherkennung zu entwickeln, haben begrenzten
Erfolg gehabt und haben zur Erkennung der äußerst komplexen Natur der Sprachverbindung oder Sprachübermittlung geführt.
Normale Sprache weist einen hohen Informationsgehalt auf, der sich beträchtlich von einem Sprechenden zum anderen
Sprechenden ändert, wobei sich solche Änderungen sogar dann zeigen, wenn das gleiche Wort von der gleichen Person ausgesprochen
wird. Daher kann ein perfektes Erkennungsschema nicht erhalten werden, da die Natur der Sprachsignale, die
erkannt werden sollen, nicht genau bestimmt werden kann. Daher stellten die bevorzugten Systeme empirische Näherungen
dar, die vom statistischen Standpunkt aus wenigstens eine vernünftige Zuverlässigkeitsstufe oder Aussagewahrscheinlichkeit
ergaben, insofern, als ein bestimmtes gesprochenes Wort einem ausgewählten Wort eines begrenzten Maschinenvokabulars
entsprach. Die Sollgestalt solcher Schemen oder Systeme ist daher nicht durch theoretische Prüfung bestimmbar,
sondern durch eine einfache Messung der Erkennungsgenauigkeit
60984n/09S7
-3-
über einen ausgedehnten Operationszeitraum.
In der britischen Patentanmeldung Nr. 42,533/73 ist eine Einrichtung dargestellt/ die gesprochene Eingangs-"Lern"-Worte
und ein nachfolgend gesprochenes Eingangs-"Befehls"-Wort
empfängt und eine Korrelationsfunktion erzeugt, die die Ähnlichkeit des Befehlswortes mit jedem
Lernwort anzeigt. Eine Merkmais-Extraktionseinrichtung verarbeitet aufgenommene Eingangsworte und erzeugt digitale
Merkmals-Ausgangssignale auf bestimmten Leitungen mehrerer Merkmals-Ausgangsleitungen, wobei die bestimmten Leitungen
von den Kennmerkmalen der gesprochenen Worte abhängen. Die Zustände der Merkmalssignale, die während jedes Lernwortes
auftreten, werden als normalisierte zeitabhängige Matrix gespeichert. Folglich werden die Zustände der Merkmalssignale, die während eines Befehlswortes auftreten, auch
als eine normalisierte zeitabhängige Matrix gespeichert. Die Befehlswortmatrix wird Glied für Glied mit jeder Lernwortmatrix
verglichen, und es wird eine Korrelationsfigur für jeden Vorgang erzeugt. Wenn eine ausreichend hohe Korrelation
gefunden worden ist zwischen der Befehlswortmatrix und einer bestimmten Lernwortmatrix wird das Befehlswort
als mit dem bestimmten Lernwort übereinstimmend betrachtet. Diese Art von System hat dort bedeutende Anwendung gefunden,
wo Befehlsworte isoliert ausgesprochen werden; d.h. dort, wo unterscheidbare bzw. erkennbare Pausen zwischen den
609840 /0967
-4-
Worten bestehen, wobei die Pausen die Wortgrenzen bestimmen.
(Bei Bezug auf die hierin verwendeten isoliert gesprochenen Worte wird verstanden, daß diese einen kurzen Satz oder einen
kurzen Ausdruck einschließen, der ohne wesentliche Pause gesprochen wird.) Ganz allgemein ist zu sagen, daß Einrichtungen
dieser Art Schaltkreise aufweisen, die den Einsatz sprachähnlicher Töne abtasten und dann das nächste wirkliche,
wesentliche Fehlen sprachähnlicher Töne abtasten. Diese Ereignisse werden als die Grenzen eines Wortes angesehen, und
die Sprachmerkmalereignisse, die zwischen diesen Grenzen auftreten, werden verwendet, um die oben genannte Matrix zu
bilden. Da die Matrix Element für Element mit einer zeitabhängigen Lernwortmatrix korreliert wird, ist es klar, daß
die Genauigkeit der Wortgrenzenbestimmung kritisch ist, wenn genaue Spracherkennung erreicht werden soll. Auch in den
Fällen, in denen die Befehlswortmatrix ein Merkmalsmuster aufweist, das gut mit einem Merkmalsmuster einer bestimmten
Lernwortmatrix übereinstimmt, braucht z.B. der Korrelationsprozeß den wahren Übereinstimmungsgrad nicht zu offenbaren,
wenn die Befehlswortmatrix Fremdmerkmale in ihren Anfangsoder Endspalten enthält aufgrund nicht korrekter Wortgrenzenbestimmung.
Auch kann eine nicht korrekte Zeitnormalisierung der Befehlswortmatrix eine andere nachteilige Folge einer
nicht korrekten Grenzbestimmung sein.
Das in dem oben genannten Patent beschriebene System ist mit Erfolg in verschiedenen kommerziellen Anwendungsbe-
609840/095?
reichen verwendet worden, jedoch ergaben Probleme bei der Wortgrenzenbestimmung einen Grenzfaktor hinsichtlich der
Erkennungsgenauigkeit. Man fand heraus, daß unter kontinuierlichen Bedingungen und unter den Bedingungen bei langer
Arbeit die Bedienungspersonen Schwierigkeiten haben, Befehlsworte in richtiger Trennung auszusprechen, so daß die Pausen
zwischen benachbarten Worten schrumpfen und die Wortgrenzbestimmung vom Einsatz her schwierig machen. Die Probleme
werden noch vermehrt durch das Vorhandensein sich überlagernder akustischer Signale und durch Hintergrundsrauschen
in der Umgebung des Benutzers. Wenn die Worterkennungseinrichtung ein qualitativ hochwertiges Mikrofon für weite
Bereiche als Eingabeeinheit verwendet, wird das Mikrofon selbstverständlich Fremdgeräusche und andere H±±ergrundsgeräusche
aus der unmittelbaren Nachbarschaft des Benutzers mit aufnehmen. Eine Lösung dieses Problems könnte darin bestehen,
die sich überlagernden Töne und Geräusche zu reduzieren, indem man die Bedienungsperson oder den Benutzer
in eine akustisch abgeschirmte Umgebung versetzt. Jedoch bestehen die Nachteile, die sich aus einer akustischen Abschirmung
ergeben, allgemein darin, daß die Beweglichkeit des einzelnen Benutzers reduziert wird, wodurch seine Fähigkeit,
andere Funktionen auszuführen, stark eingeschränkt wird. Da praktisch verwendbare Spracherkennungseinrichtungen
im wesentlichen aufgrund der Möglichkeit, die Benutzer vielfältige Aufgaben durchführen zu lassen, gerechtfertigt sind,
(wobei die Arbeiten oder Funktionen beispielsweise im Er-
609840/09S7
setzen notwendiger Drucktasten-oder Schreibeingänge durch
Sprachbefehleingänge bestehen können), wobei die Beschränkung der Beweglichkeit der Personen dazu führen kann, den
Zweck der Einrichtung in Frage zu stellen.
Eine bessere, entwicklungsfähigere Methode, sich überlagernde Töne zu reduzieren, besteht darin, Geräusche am
Mikrofon selbst zu eliminieren durch Verwendung eines geräuschlöschenden Mikrofons für Nahbesprechung als Eingabeeinheit
der Einrichtung . Daher werden in praktischen Anwendungsfällen geräuschdämpfende Mikrofone für
Nahbesprechung üblicherweise von einem Leichtbaukopfbügel getragen, und es werden einigermaßen gute Ergebnisse erhalten.
Jedoch fand man aus bisher unklaren Gründen, daß die Verwendung eines geräuschdämpfenden Mikrofons für Nahbesprechung
das Problem der Wortgrenzbestimmung verschlimmert.
Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, die im Stand der Technik vorhandenen Probleme zu
lösen.
Der Erfinder hat herausgefunden, daß die Verwendung eines geräuschdämpfenden Mikrofons für Nahbesprechung in
einer Spracherkennungseinrichtung die Gefahr birgt, Fremdsignale, hervorgerufen durch Atemgeräusche, einzuführen.
Man fand heraus, daß die schädlichen Effekte des Atemgeräusches auf die Wortgrenzbestimmung insbesondere dann
vorherrschen, wenn ein einzelner Operator müde ist oder wenn er beträchtliche körperliche Aktivität gleichzeitig
609840/0957
-7-
beim Sprechen zeigt. Es existiert die starke Tendenz, am
Ende eines isolierten Wortes auszuatmen und zu Beginn einzuatmen. Das Einatmen verursacht einen geringen beachtenswerten
direkten Luftstrom auf ein Mikrofon für Nahbesprechung, während das Ausatmen Signalpegel erzeugen kann, die mit den
Sprechpegeln vergleichbar sind.
Bekannte Wortgrenzdetektoren weisen im allgemeinen eine grobe Anzeigeeinrichtung für das Vorhandensein von Sprache
auf, beispielsweise einen Schwellwerttaster, und sind üblicherweise mit einer eigenen Hysterese versehen; d.h., daß der
grobe Sprachtaster nicht eher abschaltet, bis er feststellt, daß für wenigstens eine vorbestimmte Zeit, beispielsweise
loo Millisekunden, kein sprachähnlicher Ton vorhanden war. Diese Technik ist notwendig, weil viele Worte natürlicherweise
Pausen von erheblicher Länge aufweisen. Bei Nichtvorhandensein der Hysterese würde der Wortgrenzendetektor den
ersten Teil des Wortes als ein ganzes Wort interpretieren. Jedoch gibt das Vorhandensein der Hysterese Anlaß zu einer
Forderung, nämlich der, daß aufeinanderfolgende Eingangsworte durch wenigstens eine vorbestimmte Zeitspanne getrennt
sind, damit sie nicht als ein Einzelwort interpretiert werden. Um dem Vorhandensein einer Hysterese in einem
Wortgrenzendetektor Rechnung zu tragen, können Spracherkennungseinrichtungen
aus dem Stand der Technik"wieder anlaufen" (d.h. umkehren) um einen bestimmten Betrag (der
der Hysteresenachlaufzeit entspricht), um das wahre Ende
Β0984Π/0967
des Wortes zu finden; dies erfolgt üblicherweise durch Speichern aller aufgenommener Merkmale und durch Auslassen
derjenigen, die während der festgelegten ümkehrzeit ("backup"-Periode)
auftreten. Man könnte meinen, daß die nachteilige Wirkung des Atemrauschens am Ende eines Wortes kompensiert
werden könnte, indem man die Umkehrung bzw. den Rücklauf ("backup") um einen weiteren bestimmten Betrag von der probeweisen
Wortanfangsgrenze vergrößert. Diese Lösung ist jedoch nicht geeignet, da die Dauer des Atemgeräusches variiert,
und selbstverständlich würde, falls kein Atemgeräusch vorhanden wäre, der zusätzliche Rücklauf eine üngenauigkeit
einführen. Erfindungsgemäß ist daher eine Einrichtung vorgesehen,
die zwischen Sprach- und Atemgeräusch unterscheidet, unabhängig von der Dauer und der Größe des Atemgeräusches.
Es ist dann ein wirkungsvoller Rücklauf ("backup") variabler Dauer vorgesehen, abhängig von der Dauer des Atemgeräusches.
Die vorliegende Erfindung bezieht sich auf eine Einrichtung, die akustische Eingangssignale aufnimmt, die isoliert
gesprochene Worte enthält, und die hinsichtlich der Worte Erkennungsfunktionen durchführt. Die Einrichtung weist
Mittel zum Erzeugen von Merkmalssignalen auf, die Kennmerkmale im aufgenommenen Eingangssignal anzeigen, und ferner
Mittel zum Vergleichen der Merkmalssignale, die während der bestimmten Zeitgrenzen auftreten, mit gespeicherten den
Worten in einem Vokabular entsprechenden Merkmalen. Die Erfindung betrifft ein verbessertes System zum Anzeigen und
Erkennen von Wortgrenzen, das eine auf das Eingangssignal
609840/09S?
ansprechende Einrichtung aufweist, die ein erstes Merkmalsignal erzeugt, das das im wesentlichen kontinuierliche
Vorhandensein sprachähnlicher Töne anzeigt, die einem ersten Auswahlkriterium genügen. Es sind Mittel zum Speichern der
Merkmalssignale vorgesehen, die während des Vorhandenseins dieses ersten Merkmalssignales auftreten. Es sind weitere
auf das Eingangssignal ansprechende Einrichtungen vorgesehen, die ein zweites Merkmalssignal erzeugen, das das Vorhandensein
sprachähnlicher Töne anzeigt, die einem zweiten Auswahlkriterium genügen, wobei dieses zweite Auswahlkriterium
einschränkender ist als das erste Auswahlkriterium. Außerdem sind Mittel zum Feststellen des im wesentlichen letzten Auftretens
des zweiten Merkmalssignales zwischen den gespeicherten MerkmalsSignalen vorgesehen. Die Endgrenze eines eingegebenen
gesprochenen Wortes wird als Funktion dieses letzten Auftretens bestimmt.
Gemäß der Erfindung ist eine Einrichtung vorgesehen, die getrennt bzw. isoliert gesprochene Worte anzeigende
akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt, und die Einrichtungen zur
Erzeugung von Kennmerkmale im Eingangssignal anzeigenden Merkmalssignalenaufweist und eine Einrichtung zum Vergleich
der Merkmalssignale, die während bestimmter Zeitgrenzen auftreten,
mit gespeicherten Merkmalen, die Worten in einem Vokabular entsprechen; wobei die Verbesserung des Systems
zum Feststellen der Wortgrenzen gekennzeichnet ist durch
609840/0957
-lo-
eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines ersten das Vorhandensein sprachartiger ein
erstes Auswahlkriterium erfüllender Töne anzeigendes Merkmalssignales, durch eine Einrichtung zum Speichern der Merkmalssignale,
die während des Vorhandenseins des ersten Merkmalssignales auftreten, durch eine auf das Eingangssignal
ansprechende Einrichtung zum Erzeugen eines zweiten das Vorhandensein sprachartiger ein zweites Auswahlkriterium
erfüllender Töne anzeigenden Merkmalssignales und durch eine Einrichtung zum Feststellen des im wesentlichen letzten Auftretens
des zweiten Merkmalssignales unter den gespeicherten Merkmalssignalen, derart, daß die Endgrenze eines eingegebenen
gesprochenen Wortes als eine Funktion des genannten letzten Auftretens bzw. des letzten Ereignisses bestimmt
wird.
Bei einer bevorzugten Ausführungsform der vorliegenden
Erfindung ist das zweite Merkmalssignal aktiv, wenn entweder ein gesprochenes oder stimmhaftes Phonem oder ein nicht gesprochener
bzw. nicht stimmhafter rauschähnlicher Konsonant im Eingangssignal vorhanden ist.
Weitere Merkmale und Vorteile der vorliegenden Erfindung sind den weiteren Ansprüchen zu entnehmen.
Die Erfindung soll nun anhand der beigefügten Zeichnung, in der Ausführungsbeispiele dargestellt sind, näher erläutert
werden.
609840/095 7
Es zeigen :
Fig. 1 ein Blockdiagramm einer erfindungsgemäßen Einrichtung/
Fig. 2A und 2B Blockdiagramme bekannter Schaltkreise, die als Merkmalsextraktionseinrichtungen
in der Einrichtung gemäß der vorliegenden Erfindung verwendbar sind,
Fig. 3 die Darstellung der Art einer Matrix,
die sich durch das Speichern der Binärmerkmale durch den Schaltkreis nach Fig.
ergibt,
Fig. 4 die Darstellung einer zeitnormalisierten Matrix,
Fig. 5 ein Blockdiagramm der Merkmalsextraktionseinrichtung nach Fig. 1 für die Wortgrenze,
Fig. 6 ein Blockdiagramm der Wortisoliereinrichtung nach Fig. 1 und
Fig. 7 eine Reihe grafischer Darstellungen, durch die das Verständnis der vorliegenden
Erfindung erleichtert wird.
Es soll nun Bezug genommen werden auf Fig. 1, die ein vereinfachtes Funktionsblockdiagramm einer Einrichtung gemäß
der vorliegenden Erfindung zeigt. Eingegebene gesprochene Worte werden von einer Merkmalsextraktionseinrichtung Io aufgenommen,
die einen Vorverarbeitungsschaltkrexs 5o und einen
60984 0/09 5 7
-12-
Merkmalsextraktionsschaltkreis 60 aufweist. (Die hier vorkommenden
Ausdrücke "eingegebenen gesprochenen Worte", "gesprochenen Worte", "Sprache" oder ähnliche Ausdrücke
sollen allgemein jede akustische oder elektrische Darstellung mitgeteilter oder übermittelter Töne beinhalten. Der Schaltkreis
5o ist speziell dafür vorgesehen, Wortmitteilungen direkt von einer Person aufzunehmen oder wortdarstellende
elektrische Signale über eine Telefonleitung oder ein Bandgerät. ) Der Vorverarbeitungsschaltkreis 5o verwendet eine
Reihe von Bandpaßfiltern, um die Sprache in eine Vielzahl
von spektralen Teilsignalen auf Leitungen 5oa zu übertragen. Die Signale auf den Leitungen 5oa werden dem Merkmalsextraktionsschaltkreis
60 zugeführt, der Merkmalsausgangssignale erzeugt auf bestimmten Leitungen einer Zahl von Merkmalsausgangsleitungen
60a, wobei die besonderen Leitungen von den Merkmalen abhängen, die in der empfangenen Sprache enthalten
sind. Die Signale auf den Merkmalsausgangsleitungen können z.B. das Vorhandensein gewöhnlich vorhandener Vo^kal- oder
Konsonantlaute darstellen.
Bei dem vorliegenden Ausführungsbeispiel sind die Merkmalsausgangsleitungen
60a mit dem Wortgrenzen-Bestimmungsschaltkreis loo verbunden, dessen Ausgangssignale einem Verarbeitungsschaltkreis
zugeführt werden, dessen Funktionen und Arbeitsweisen allgemein durch die gestrichelt umrahmte
Einheit 7o angedeutet sind. Der Schaltkreis loo, der Gegenstand der vorliegenden Erfindung ist, weist einen "Wortgrenzen-
609840/0957
Merkmalsextraktor" -Block Ho und einen "Wortisolator"-Block 15ο
auf. Dieser Schaltkreis soll in Einzelheiten weiter unten beschrieben werden, für den Augenblick genügt es, zu sagen, daß
die Ausgangssignale des Schaltkreises loo "isolierte" Gruppen von Merkmalssignalen sind, die einzelne gesprochene Befehlsworte im Eingang darstellen.
Der Verarbeitungsschaltkreis 7o nimmt eine Gruppe von Merkmalssignalen auf und bildet eine zeitabhängige Matrix,
wobei diese Funktion durch den Block 71 dargestellt ist. Die Matrixelemente stellen den Zustand eines jeden Merkmalssignales
während der Befehlswortdauer dar; d.h., daß die Matrix das Vorhandensein oder Nichtöfyrhandensein eines jeden Merkmales
im Verlauf jeder Zeitspalte des Befehlswortes darstellt. Bevor die Operation fortgesetzt wird, ist eine andere Matrix
im Verarbeitungsschaltkreis 7o gespeichert worden, dargestellt durch den Block 72. Diese "Lernwort"-Matrix enthält
Elemente, die den Zustand der Merkmalssignale darstellen, von denen angenommen wird, daß sie im Verlaufe des Befehlswortes
als charakteristische Merkmale erscheinen. Die zwei Matrizen werden dann verglichen, wobei diese Funktion durch
den Block 73 dargestellt wird. Der Vergleich wird vorzugsweise auf der Grundlage eines Vergleichs jedes Elementes
mit jedem anderen Element durchgeführt und ergibt die Bestimmung des Korrelationsgrades zwischen den beiden Matrizen.
Wenn der Korrelationsgrad ausreichend hoch ist, zeigt der Verarbeitungsschaltkreis an, daß das Befehlswort erkannt
609840/0957
-14-
worden ist. Für Vielfachwortvokabularien wird eine Matrix
für jedes Lernwort, das das Vokabular umfaßt, gespeichert.
Die Fig. 2 zeigt in weiteren Einzelheiten eine bekannte Merkmalsextraktionseinrichtung, die geeignet ist,
als Merkmalsextraktionseinrichtung Io der Fig. 1 zu dienen. Eine vollständige Beschreibung sowohl des Verarbeitungsschaltkreises 5o und der Merkmalsextraktionsschaltung 60
kann in der Veröffentlichung mit dem Titel "Acoustic Recognition of A Limited Vocabulary of Continuous Speech"
von T.B.Martin, veröffentlicht durch University Microfilms, Ann Arbor, Michigan, U.S.A., nachgelesen werden. Es soll
jedoch betont werden, daß sich die vorliegende Erfindung mit bereits verarbeiteten Merkmalssignalen befaßt, und daß
jede geeignete Einrichtung zum Erhalten der Merkmalssignale verwendet werden kann. Demgemäß werden die hier vorkommenden
Einrichtungen in Einzelheiten auch nur soweit beschrieben, als notwendig ist, um das Verständnis der Einrichtungsteile
zu erleichtern.
Fig. 2A ist ein Blockdiagramm der Vorverarbeitungsschaltung 5o. Ein Umformer 51, gewöhnlich ein Gradientenmikrofon,
nimmt eingehende gesprochene Worte auf und erzeugt elektrische zeitabhängige Signale, die die aufgenommenen
Laute oder Töne darstellen. Das Ausgangssignal des Umformers 51 wird über einen Vorverstärker 52 neunzehn
benachbarten Bandpaßfiltern in einer Reihe von Filtern zugeführt. Jedes Filter in der Reihe erzeugt ein Ausgangs-
609840/0957
signal, das zu dem Teil des Eingangssignales in Beziehung steht, das im Bereich der von dem speziellen Filter durchgelassenen
Frequenzen liegt, üblicherweise haben die Filter Mittelfrequenzen von etwa 25o bis 75oo Hz, wobei die kleinste
Filterbandbreite bei 15o Hz liegt.
Das Ausgangssignal eines jeden Filters in der Filterreihe 53 wird einzeln einem Doppelweggleichrichter und
einer Tiefpaßfilterreihe 54 zugeführt. Nach Gleichrichtung und Filterung stellen die Ausgangssignale der Filterreihe
im wesentlichen die Energiepegel der Eingangssignale bei etwa den Mittelfrequenzen eines jeden der Bandpaßfilter in der
Filterreihe 53 &r. Anders betrachtet, stellen die Signale
auf den Leitungen 54a zusammengenommen die Einhüllende des Energie/Frequenzspektrums der aufgenommenen Eingangssignale
dar, genommen über dem interessierenden Frequenzbereich. Die neunzehn Informationskanäle auf den Leitungen 54a
(komprimiert)
sind logarithmisch gestaucht, um die spektralen Teilausgangssignale
auf den Leitungen 5oa der Vorverarbeitungseinrichtung
(Kompression)
zu erzeugen. Logarithmische Stauchung erleichtert das nachfolgende
Verfahren auf zweierlei Art. Zunächst liefert sie eine dynamische Bereichsstauchung bzw. Bereichsverkleinerung,
die die Anforderungen an die technische Ausführung des Merkmalsextraktionsschaltkreises
6o vereinfacht. Zweitens können durch Verwendung des Logarithmus Vergleichsverhältnisse der
spektralen Teilsignale leicht durch Subtraktion errechnet werden. Verhältnisse sind wünschenswerte Verfahrensausdrucksmittel,
da sie unabhängig sind von Änderungen der gesamten
609840/0957
-16-
Signalamplituden. Diese Eigenschaft ist besondert vorteilhaft in einem System, in dem eingegebene Sprache veränderlicher
Lautstärke erkannt werden soll.
Im Diagramm der Fig. 2A ist der einzelne logarithmische Verstärker 56 ein Zeitmultiplexverstärker zur Vermeidung der
Notwendigkeit/ neunzehn identische Verstärker zu verwenden, um die Stauchung zu erreichen. Die Ausgangssignale auf der
Leitung 54a werden durch eine Multiplexeinrichtung 55 wirksam abgetastet und die abgetasteten Signale passieren eins
zur Zeit den Zeitmultiplexverstärker 56. Eine Demultiplexer-Einrichtung
57 "rekonstruiert" dann komprimierte spektrale Teilsignale auf den Leitungen 5oa aus den verarbeiteten abgetasteten
Signalen. Die Abtastfolgefrequenz der Multiplex- und Demultiplex-Einrichtung liegt über 1 kHz und ist sicherheitshalber
höher als notwendig, um Signalbandweiten zu erhalten. Diese Technik des "time-sharing" für einen einzelnen
logarithmischen Verstärker ist im Stand der Technik bekannt und beispielsweise in der US-PS 3 588 363 mit dem Titel
"Word Recognition System for Voice Controller", wie auch in der oben bereits erwähnten Veröffentlichung von T.B.Martin,
offenbart. Die spektralen Teil- oder Komponentensignale auf den Leitungen 5oa sind mit E1, E0, E_...E,„ bezeichnet, und
ι λ 6 iy
man kann sich diese vorstellen als stellten sie die Logarithmen der Energie in den charakteristischen Frequenzbändern
der Filter 53 dar.
-17-
609840/0957
Es sei daran erinnert, daß die spektralen Komponentensignale auf den Leitungen 5oa dem Merkmalsextraktionsschaltkreis
60 (Fig. 1) zugeführt werden, der die Anwesenheit von Eigenschaften der spektralen Komponentensignale abtastet,
die vorher ausgewählten Eigenschaften oder "Merkmalen" von eingegebenen Worten entsprechen. Im aus Illustrationszwecken
beschriebenen bekannten Merkmalsextraktionsschaltkreis wird die Abtastung der Eigenschaften oder die "Merkmalsextraktion"
teilweise durch Bestimmung oder Ableitung von Energiesummen erreicht
und -mengen- bekannt als "slope" und "broad slope"-Kenndaten
(Kenndaten des Verlaufs oder Abfalls und Gesamtverlaufs und Gesamtablaufs der entsprechenden Kurve). Diese Mengen oder
Werte liefern, wenn über bestimmte Abschnitte des Frequenzspektrums genommen, eine Anzeige für die Polarität und
Größe der Steigung oder Abfalls bzw. des Verlaufs der Eingangshüllkurve. Die Art und Weise, auf die diese Mengen oder
Werte erhalten werden, ist in der oben erwähnten Veröffentlichung und in dem oben erwähnten Patent beschrieben.
Die Fig. 2B zeigt ein vereinfachtes Blockdiagramm des bekannten Merkmalsextraktionsschaltkreises 16, der die spektralen
Teilsignale über die Leitung 5oa empfängt. Der Schaltkreis 60, der ebenfalls in der genannten Veröffentlichung
und in dem genannten Patent beschrieben ist, umfaßt logische Blöcke 61 und 62, die Sätze oder Scharen von slope- und
broad slope-Werten ableiten, die von einem logischen Erkennungsblock
63 für "ein weites Klassenmerkmal" aufgenommen
609840/0957
-18-
werden. Der Block 63 verwendet Gruppen von Operationsverstärkern und einen geeigneten peripheren Schaltkreis, um
Merkmalssignale 63a für eine weite Klasse zu erzeugen, die das Vorhandensein gewisser breit oder weit klassifizierter
phonetischer Kennwerte in den eigegebenen Worten anzeigen. Beispiele der breiten oder weiten Klassifikationen sind
"Vokal/vokalähnlich", "nur stimmhaft", "Stoß", "stimmhafter
rauschähnlicher Konsonant" usw. Die Signale 63a wie auch die spektralen Teilsignale, slope- und broad slope-Signale
werden von einem logischen "Grundmerkmal"-Erkennungsblock
64 aufgenommen. Dieser Block, der Komponenten enthält, die ihrer Natur nach dem Block 63 ähnlich sind, erzeugt die
Merkmalssignale, die das Vorhandensein spezifischer akustischer Merkmale in den eingegebenen gesprochenen Worten anzeigen.
Es sei hervorgehoben, daß jedoch die zu beschreibende Erfindung nicht auf irgendeine besondere Form der Merkmalssignalerzeugung
beschränkt ist.
Die Fig. 3 illustriert die Arbeitsweise des Verarbeitungsschaltkreises 7o, in dem die Matrixart dargestellt ist, die
sich beim Speichern der Zustände der binären Merkmale ergeben, die im Verlaufe des Befehlswortes erscheinen. Bei der vorliegenden
Ausfuhrungsform werden 31 binäre Merkmalssignale, die
hier mit f. bis f_ bezeichnet sind, von einer 31-Merkmalsausgangsleitung
6oa abgeleitet und zeigen kontinuierlich das Vorhandensein oder Nichtvorhandensein spezifischer Merkmale an.
In dem Beispiel gemäß Fig. 3 ist angenommen aus Illustrations-
6 09840/09 5? _19_
zwecken, daß das eingegebene Wort eine zeitliche Länge von 800 Millisekunden hat. Dies bedeutet, daß die resultierende
Matrix Ausmaße von 31 χ 8oo hat. Anders ausgedrückt, sie zeichnet das Vorhandensein oder Nichtvorhandensein
jedes von 31 Merkmalen über 800 abgetastete "Zeitspalten" auf, wobei jede Zeitspalte 1 Millisekunde lang
ist. Wie man den symbolisch dargestellten "I111S (aus darstellerischen
Gründen frei eingesetzt) der Figur entnimmt, treten unterschiedliche Merkmale für sich ändernde Abschnitte
der Wortlänge auf, wobei ein einzelnes Merkmal gewöhnlich kontinuierlich für mehrere Millisekunden auftritt. Das Nichtvorhandensein
einer "1" an einer Matrixstelle bedeutet eine "O"; d.h. das Nichtvorhandensein des Merkmals.
Die Zeitnormalisierungsfunktion, durchgeführt durch den Schaltkreis 7o, reduziert jede eingegangene Wortmatrix
auf eine 31 χ 16 - Matrix, wobei die Zeitachse auf 16 normalisierte Zeitspalten reduziert wird. Die Normalisierung
kann auf einer Reihe von Wegen durchgeführt werden, wobei eine Technik die Auswahl der normalisierten Zeitperioden
verwendet, die eine Mehrheit an "1" enthält. Das arithmetische Verfahren zur Durchführung dieser Technik ist sehr
einfach und verwendet grundsätzlich einfache Division und Zählung. Um dies zu veranschaulichen, in dem Beispiel nach
Fig. 3 würden die 800 Zeitspalten für jedes Merkmal in Gruppen zu 5o geteilt werden, wie durch die mit B bis B g
bezeichneten Klammern gezeigt. Jede Klammer enthält 5o Zeit-
609840/0957
-20-
-2ο-
spalten, so daß in diesem Beispiel eine einzelne normalisierte Zeitspalte für ein Merkmal eine "1" zugeordnet erhält,
wenn die Klammern wenigstens 26 dieser "1" enthält. In der Fig. 3 weist das Merkmal f eine Mehrheit von "1" in
der von der Klammer Bg eingeschlossenen Zeit auf. Daher
wird die sechzehnte und zuletzt normalisierte Zeitspalte für f eine "1" enthalten. Eine ganze normalisierte 31 χ
Matrix wird auf diese Weise durch Prüfen des Zählerstandes einer unter jeder der 16 Klammern für jedes der 31 Merkmale
gebildet. In dem gegebenen Beispiel ist die Gesamtzeit ein genaues Vielfaches von 16, wenn dies jedoch nicht der Fall
ist, wird der Rest zwischen den Klammern auf eine spezielle Art und Weise aufgeteilt. Beispielsweise wenn ursprünglich
8o3 Zeitspalten (Millisekunden) vorhanden waren, würde jede der ersten drei Klammern 51 Millisekunden beinhalten anstatt
5o und der Rest der Klammern würde 5o Millisekunden beinhalten. Die Fig. 4 stellt eine typische normalisierte
Matrix für ein Befehlswort dar, wobei die "l"en wiederum gezeigt sind und die "0"en durch Weglassen einer "1" an der
betreffenden Matrixstelle dargestellt sind.
Eine detaillierte Beschreibung der Arbeitsweise eines geeigneten Verarbeitungsschaltkreises 7o, in Form eines
genau programmierten Allzweck-Computers, wird in der oben genannten parallelen Patentanmeldung gegeben. Wie bereits
angedeutet, wird eine zeitnormalisierte Matrix für das Befehlswort gebildet. Bevor die Operation fortgesetzt wird,
609840/0957
-21-
wird eine andere zeitnormalisierte Matrix der gleichen Art im Computer gespeichert, dargestellt durch den Block 72.
Diese zuvor gespeicherte Matrix enthält Elemente, die den
Zustand der Merkmalssignale darstellen, von denen angenommen wird, daß sie im Verlauf des Befehlswortes auf charakteristische
Art und Weise erscheinen, und die z.B. während einer "Lern"-Phase oder "-Periode" gebildet werden können,
wie in der oben genannten parallelen Patentanmeldung dargelegt ist. Die zwei Matrizen werden dann miteinander verglichen,
um den Korrelationsgrad zwischen den beiden zu bestimmen, wie oben und im Detail in der oben erwähnten
parallelen Patentanmeldung diskutiert ist. Es soll jedoch hervorgehoben werden r daß die vorliegende Erfindung bei
jedem Verarbeitungsschaltkreis 7o anwendbar ist, der die Merkmalssignale, die während des spezifizierten Intervalles
auftreten, mit einem gespeicherten Satz Erwartungsmerkmale vergleichen kann, so daß die Erfindung nicht auf irgendeinen
besonderen Verarbeitungsschaltkreis 7o beschränkt ist.
Es soll die Aufmerksamkeit auf den Wortgrenzen-Bestimmungsschaltkreis
nach Fig. 1 gelenkt werden, der einen "Wortgrenzen-Merkmalsextraktor"-Block Ho und einen "Wortisolator"
-Block 15o aufweist. Der Schaltkreis im Block Ho extrahiert einzelne Merkmale, die für die Bestimmung der
Grenzen notwendig sind und ist aus darstellerischen Gründen so gezeigt, als sei er getrennt vom Hauptmerkmalsextraktor 6o,
Es versteht sich jedoch, daß der Block Ho typisch Teil eines einzelnen Merkmalsextraktionsmoduls sein kann, und
609840/0957
-22-
daß die so extrahierten Merkmale in anderen Phasen des Erkennungsverfahrens
zusätzlich zur GrenζenbeStimmung Verwendung
finden können.
Es soll nun Bezug genommen werden auf Fig. 5/ in der
ein Blockdiagramm des Wortgrenzen-Merkmalsextraktors Ho dargestellt ist. Wie zuvor bereits angedeutet, sind die
spektralen Teilsignale 5oa, d.h. E , Ep,...E _ verfügbar
als Eingangssignale zum Merkmalsextraktor 6o (Fig. 1), und diese Signale werden außerdem dem Wortgrenzen-Merkmalsextraktor
Ho zur Verfügung gestellt, wie in der Fig. 5 gezeigt und schematisch in der Fig. 1 durch die Leitungen 6ob
dargestellt ist. Zwecks klarerer Darstellung sind diese Signalverbindungsleitungen zum Schaltkreis nach Fig. 5 nicht
gezeigt, es versteht sich, daß jedes dieser Signale als Eingangssignale zur Verfügung stehen, entweder direkt vom Vorverarbeitungsschaltkreis
5o oder über den Merkmalsextraktionsschaltkreis auf den Leitungen 6ob. Die Fig. 5 zeigt im Stand
der Technik bekannte Operationsverstärker, die zur Merkmalsextraktion verwendet werden und die Anregungs- oder Ansteuerungseingangssignale
wie auch Sperr- oder Unterdrückungseingangssignale aufnehmen und ein analoges Ausgangssignal erzeugen,
das dem Anteil proportional ist, um den die Summe der Signalamplituden an den Ansteuerungseingängen die Summe
der Signalamplituden an den Sperr- oder Unterdrückungseingängen
übersteigt.
In der Fig. 5 wird eine Schaltung 12o verwendet, um ein
Merkmal, das mit f bezeichnet ist, zu extrahieren, das auf
609840/095?
-23-
einer Leitung 12oa erscheint und als ein "grober" Sprachdetektor
bei der vorliegenden Ausführungsform dient. Vier Operationsverstärker, bezeichnet mit 121, 122, 123 und 124,
nehmen jeweils spezifizierte Signale der spektralen Teilsignale 5oa als Anregungs- oder Ansteuerungs-Eingangssignale
auf. Der Verstärker 121 bildet die Summe von E bis E., der
Verstärker 122 die Summe von E bis E , der Verstärker 123 die Summe von E bis E . und der Verstärker 124 die Summe
von E15 bis E g. Die Ausgangssignale dieser vier Verstärker
werden den Anäteuerungs- oder Anregungs-Eingangssignalanschlüssen
eines anderen Operationsverstärkers 125 zugeführt. Das Ausgangssignal des Verstärkers 125 wird daher als ein
Maß für das Vorhandensein eines bestimmten Energieanteils in Gruppen der spektralen Teilsignale angesehen, die das
betrachtete Sprach- oder Lautspektrum überdecken. Wenn die einen Teil des spektralen Bereichs darstellende Energiesumme
einen vorbestimmten Stellwert übersteigt, erzeugt der Operationsverstärker 125 ein Ausgangssignal. Ein Integrator 126
nimmt das Ausgangssignal des Verstärkers 125 auf und ist mit geeigneten Zeitkonstanten ausgestattet, derart, daß sein Ausgangssignal
fast sofort ansteigt beim Abtasten eines Ausgangssignales vom Operationsverstärker 125, jedoch nicht eher verschwindet,
bis nicht für eine bestimmte Zeitdauer, z.B. für loo msec., keine Ausgangssignale vom Verstärker 125 auftreten.
Diese "Hysterese"-Maßnahme ist notwendig, um ein Verschwinden des groben Sprach- oder Lautmerkmales f während einer natür-
6 09840/0957
-24-
lichen Pause in einem gesprochenen Wort zu vermeiden. Bei NichtVorhandensein der Hysterese würde der grobe Sprachdetektor
den ersten Teil eines Wortes, das eine Pause enthält, als ein Gesamtwort ansehen.
Die Schaltkreise I3o und I4o werden verwendet, um
Merkmale, die mit f_ und f_, bezeichnet sind, zu extrahieren,
ti l—
die, wie der Anmelder herausgefunden hat, das Ende der gesprochenen
Worte charakterisieren. Diese zwei Merkmale weisen einen solchen Charakter auf, daß sie nicht beim Atemrauschen
auftreten, und es ist unwahrscheinlich, daß sie im Hintergrundrauschen auftreten. Der Schaltkreis 13o weist einen
Operationsverstärker 131 auf, der die Erregungs- oder Ansteuerungseingangssignale
E_, E,, E_, E0 und E„ aufnimmt,
b b / ο y
und einen Operationsverstärker 132, der die Signale E1
ίο,
E , E„, E -und E. als Ansteuerungseingangssignale aufnimmt.
Das Ausgangssignal des Verstärkers Bl wird einem Integrierschaltkreis 133 zugeführt, dessen Ausgangssignal
wiederum einem anderen Integrationsschaltkreis 135 zugeführt wird. Das Ausgangssignal des Verstärkers 131 wird außerdem
direkt einem negativen Eingangssignalanschluß eines Integrationsschaltkreises 135 zugeführt, so daß dieser Integrator
mit dem Differenzsignal zwischen dem Ausgangssignal des Integrators 133 und dem Ausgangssignal des Verstärkers 131 arbeitet.
Die Integrationsschaltkreise 134 und 136 sind auf die gleiche Art und Weise miteinander verbunden, um das Ausgangssignal
609840/0957
des Verstärkers 132 aufzunehmen. Die Ausgangssignale der Integrationsschaltkreise 135 und 136 stellen Eingangssignale
für das NOR-Gatter 137 dar, dessen Ausgangssignal, das auf der Leitung I3oa erscheint, das extrahierte Merkmal,
f , darstellt, das u.a. das Vorhandensein eines stimmhaften phonetischen Merkmals in der eingegebenen Sprache
oder dem eingegebenen Laut anzeigt. Das Merkmal f_ wird als Funktion der Schwellwertenergie in der Summe E1. bis E-
oder in der Summe E bis E14 angesehen (es sei daran erinnert,
daß mit logarithmischen Werten gearbeitet wird, so daß in der Tat ein Produkt der Energien über den interessierenden
Frequenzen bestimmt wird.) Die Integratoren und 134 sind mit Zeitkonstanten versehen, die etwa fünfzehnmal
so groß sind wie die Zeitkonstanten der Integratoren 135 und 136. Somit geben die Eingangssignale zum NOR-Gatter
137 die Differenz zwischen einer relativ langen Zeitintegration und einer relativ kurzen Zeitintegration wieder.
Daher bewirkt ein relativ schneller Energieabfall in jedem der spektralen Teilenergiebänder ein logisches "!"-Eingangssignal
zum NOR-Gatter 137, der wiederum bewirkt, daß f_ auf O geht.
Der Schaltkreis I4o weist einen Operationsverstärker
auf, der Signale Eg bis Eg als Sperr-Eingangssignale aufnimmt
und die Signale E15 bis E.g als Ansteuerungs- oder
Anregungseingangssignale. Außerdem nimmt der Operationsverstärker 142 die Signale E bis E4 als Sperr-Eingangs-
609840/0957
-26-
signale und die Signal E5 bis E- als Ansteuerungseingangssignale
auf. Die Ausgangssignale der Verstärker 141 und werden entsprechend Integrationsschaltkreisen 143 und
zugeführt, von denen jeder mit einer Zeitkonstanten der Größenordnung von Io msec, versehen ist, wobei diese Integratoren
dazu dienen, einen Verlust des Ausgabemerkmals während kurzer Pausenintervalle zu verhindern. Die Ausgangssignale
der Integrationsschaltkreise 143 und 144 werden entsprechend den Ansteuerungseingängen der Operationsverstärker
145 und 146 zugeführt. Diese Verstärker haben außerdem Sperreingänge, die ein als "V/VL"-Signal bezeichnetes Signal aufnehmen,
wobei "V/VL" als "Vokal/vokalähnlich" aufzufassen ist. Das V/VL-Merkmal, das im Stand der Technik bekannt ist,
wird ausgehend von verschiedenen Energiebandverhältnissen abgeleitet, die die erwarteten Formantpositionen verschiedener
Vokale anzeigen, wie in der oben erwähnten Veröffentlichung von T.B.Martin beschrieben ist. Die Ausgangssignale
der Verstärker 145 und 146 werden einem OR-Gatter 147 zugeführt, dessen Ausgangssignal auf der Leitung 14oa das extrahierte
Merkmal f darstellt, dasUas Vorhandensein eines stimmlosen rauschähnlichen Konsonanten in der eingegebenen
Sprache oder dem eingegebenen Laut anzeigt. Wie man dem Schaltkreis 14o entnehmen kann, zeigt das Merkmal f im
Grunde eine größere SummeVon Energiewerten in den höherfrequenten Kanalbändern relativ zu den niederfrequenten
Kanalbändern an. Da gewisse Vokale oder vokalähnliche Laute
609840/0957 ~21~
diese Eigenschaft auch haben, wird das V/VL-Merkmal dazu
verwendet, falsche Anzeigen des stimmlosen rauschähnlichen Konsonantenmerkmales zu unterdrücken.
Es soll nun Bezug genommen werden auf die Fig. 6, in der ein Blockdiagramm des Wortisolators I5o dargestellt ist.
Gewöhnlich speichert der Wortisolator die Merkmalssignale, die auf den Merkmalsausgangsleitungen 6oa im Verlauf eines
gesprochenen Wortes erscheinen, und führt dann die gespeicherten Merkmale dem Schaltkreis 7o (Fig. 1) zu, wobei die
herausgelesenen Worte des Wortisolators vollständige Worte sind, deren Grenzen bestimmt worden sind. Bei der vorliegenden
Ausführungsform werden die Zeiten des Erscheinens
gewisser Merkmalsvorgänge oder -ereignisse in der eingegebenen Sprache oder dem eingegebenen Laut aufgeschrieben und
nachfolgend dazu verwendet, die aus dem Wortisolator 15o herausgelesenen Informationsgrenzen zu bestimmen.
Die Merkmalsausgabeleitung 12oa ist zu einem Differenzierschaltkreis
151 geführt, der das Einsetzen oder das Abbrechen des Merkmales f anzeigt. Das Einsetzen der Sprache
oder des Lautes bewirkt ein Ausgangssignal auf der Leitung 151X, während das Sprach- oder Lautende (grob bestimmt) ein
Ausgangssignal auf der Leitung 15IY bewirkt. Das Signal auf der Leitung 151X stellt einen Adressengenerator 152 zurück,
der ein Digitalzähler sein kann, und steuert ein Gatter 153, das wiederum Taktsignale durchläßt, die den Adressengenerator
schrittweise fortschalten, indem der Grundtakt von dem Wort-
ß 0 9 8 4 0 / 0 9 5 7
-28-
erkennungssystem verwendet wird (siehe z.B. die zur Fig. 2
gehörende Beschreibung). Der Adressengenerator führt die Adressen einem Speicher mit direktem Zugriff (RAM) 154
über eine Leitung 152X zu, wobei die Adressen mit der Grundtaktfrequenz
des Worterkennungssystems, die beispielsweise 1 kHz betragen kann, schrittweise fortgeschaltet bzw. weitergegeben
werden. Das Signal auf der Leitung 151X leitet außerdem das Laden des Speichers 154 ein. Somit wird der Zustand
eines jeden der 31 Merkmalssignale fQ bis f unter einer
ersten Adresse (die 31 Speicherbits enthalten würde) gespeichert, wird der Zustand der 31 Merkmalssignale fQ bis
f3 , die 1 msec, später erscheinen, unter der zweiten
Adresse gespeichert usw. Die Adressen auf der Leitung 152X stehen einem Adressenspeicherschaltkreis 155 ständig zur
Verfügung, der durch das Vorhandensein eines Signales auf entweder der Merkmalsleitung 13oa oder 14oa durch Betätigung
eines OR-Gatters 156 gesteuert oder freigegeben wird. Jedesmal wenn der Adressenspeicherschaltkreis 155 angesteuert oder
freigegeben wird, löscht er seine zuvor gespeicherte Adresse und bringt die letzte Adresse in die Ausgangsstellung. Auf
diese Art und Weise hält der Adressenspeicherschaltkreis eine laufende Aufzeichnung der letzten Seiten aufrecht, zu
denen ein Signal entweder auf der Leitung I3oa (Merkmal f_)
oder der Leitung 14oa (Merkmal f ) erschienen ist.
Die Operation wird in der beschriebenen Art und Weise fortgesetzt, bis das Ende eines Signales auf der Leitung
12oa (Merkmal f ) bewirkt, daß der Differenziator 151 ein
609840/0957
-29-
Signal auf der Leitung 151Y erzeugt. Das Signal auf der Leitung 151Y setzt den Adressengenerator zurück und steuert
ein Gatter 157, das wiederum relativ hochfrequente Taktsignale durchläßt, die den Adressengenerator 152 mit einer
relativ hohen Taktfrequenz schrittweise fortschalten, z.B. bei einer Frequenz von 1 mHz. Das Signal auf der Leitung 151Y
dient außerdem dazu, einen Koinzidenzdetektor 158 über eine kurze Verzögerung, D, anzusteuern bzw. freizugeben. Der Koinzidenzdetektor
nimmt an seinen zwei Eingängen die im Adressenspeicherschaltkreis 155 gespeicherte Adresse und die laufende
Adresse vom Adressengenerator 152 auf der Leitung 152X auf. Außerdem leitet das Signal auf der Leitung 15IY das Herauslesen
der im Speicher 154 mit direktem Zugriff gespeicherten Information ein, wobei das Lesen durch Adressen auf der Leitung
152 gesteuert wird, die, wie angedeutet, nun mit der hohen Taktfrequenz schrittweise weitergeschaltet werden.
Das Herauslesen wird solange fortgesetzt, bis der Adressengenerator 152 einen Zählerstand erreicht, der mit dem Zählerstand
übereinstimmt, der im Adressenspeicherschaltkreis gespeichert worden ist, worauf der Koinzidenzdetektor ein
Signal auf der Leitung 158X abgibt, der das Auslesen aus dem Speicher 154 mit direktem Zugriff beendet und sowohl
den Speicher 154 als auch den Adressenspeicher 155 löscht. Somit sieht man, daß die Merkmalssignale eines aufgenommenen
gesprochenen Wortes aus dem Speicher 154 mit direktem Zugriff in der aufgenommenen Reihenfolge herausge-
609840/0957 _3o_
-3ο-
lesen werden, und daß die letzte Gruppe der 31 Merkmalssignale, die herausgelesen werden sollen, infolge des
letzten Erscheinens der fo oder f„ im Verlaufe des eingegebenen
gesprochenen Wortes bestimmt wird. Auf diese' Weise dient der Schaltkreis loo dazu, die hintere Grenze
eines bestimmten gesprochenen Wortes zu "überlagern", wobei der Betrag der "überlagerung" veränderlich ist und
abhängt von dem letztmaligen Auftreten gewisser identifizierbarer Merkmale in dem eingegebenen gesprochenen Wort.
Sobald die Merkmalssignale auf den Leitungen 15oA aufgenommen sind durch den Schaltkreis 7o, kann die Matrixbildungsroutine
(-programm) (Block 71) leicht in den Zustand versetzt werden, isolierte Worte aufzunehmen, die wenigstens
eine minimale Dauer aufweisen (um zu vermeiden, daß äußerst kurze Laute als gesprochene Laute interpretiert
werden.) Alternativ dazu könnte der letzte Zählerstand oder die letzte Zahl, die in dem Adressenspeicherschaltkreis
gespeichert ist, leicht abgefragt werden, um zu bestimmen, ob ein aufgenommenes gesprochenes Wort die geforderte Minimaldauer
hatte.
Die Kurven der Fig. 7 erleichtern das Verstehen der Arbeitsweise der Erfindung. Die Kurve 7A stellt die Lautenergie
eines gesprochenen Wortes dar, das etwa bei einer Zeit t einsetzt und etwa bei einer Zeit t endet, wobei
angenommen ist, daß der Sprecher hinterher ein Atemgeräusch nach Vervollständigung des Wortes abgibt und das Atemgeräusch
609840/0957
bis zu einer Zeit t3 andauert. Die Kurve 7B zeigt die
Ausgangssignalform, die von einer groben Sprachgrenzenbestimmungseinrichtung
erhalten wird, die über den weiten spektralen Energiebereich mit Hysterese arbeitet, wie das
Merkmal f . Man erkennt, daß das Merkmal sehr bald nach dem Einsetzen des gesprochenen Wortes erscheint; d.h. zu einer
Zeit, die im wesentlichen als t angesehen werden kann. Das Merkmal bleibt für die Dauer der Lautenergie (t_) bestehen
und setzt sich fort bis zur Zeit t. aufgrund der
inherenten Hysterese, die dem Merkmal f zugeordnet ist. Die inherente oder zugehörige Verzögerungszeit ist mit h
bezeichnet. In der grafischen Darstellung 7C ist eine Art von Wortgrenzenbestimmung dargestellt, die dadurch erhalten
werden könnte, daß man die feste Zeit h von dem Ende des Merkmals f der groben Sprachbestimmung überlagert. Dies
ergäbe eine Wortgrenzenbestimmung von etwa t. bis t3; d.h.
eine Grenzermittlung, die in nicht korrekter Weise das Atemgeräusch als Teil des gesprochenen Wortes enthält.
Die grafische Darstellung 7D zeigt die logische Funktion fr, oder f_, die als typisch erwartet werden könnte
als das Ausgangssignal des OR-Gatters 156 (Fig. 6) für das betrachtete gesprochene Wort. Abhängig von den charakteristischen
Merkmalen des Wortes könnte das spezifische Merkmal f„ oder f_ zu Zeiten im Verlauf des Wortes erscheinen
oder kontinuierlich im Verlaufe des Wortes, jedoch ist die bedeutende Sache die, daß f„ oder fn scheinbar immer am
609840/09 5 7 _32_
gesprochenen Wortende vorhanden ist, jedoch nicht im Atemgeräusch. Dementsprechend erkennt man, daß die in
der grafischen Darstellung 7D gezeigte Funktion für den letzten Zeitraum in etwa gleichzeitig mit t2 "abschaltet".
Die durch den Schaltkreis gemäß Fig. 6 somit bestimmte Wortgrenze ist in der grafischen Darstellung 7E gezeigt; nämlich,
eine Grenze, die bei t1 beginnt und bis zum letzten Auf-
fortdauert treten von f^ oder f^, vor dem Ende von f/, d.h. bis zu der
Zeit t2.
Die Erfindung ist in bezug auf eine besondere Ausführungsform beschrieben worden, jedoch werden Änderungen im
Rahmen der Erfindung dem Fachmann geläufig sein. Zum Beispiel während die beschriebene Ausführungsform eine veränderliche
Wortgrenzenüberlagerung am Ende eines Wortes betont, versteht es sich, daß die gleiche Art von Technik für den
Wortanfang verwendet werden kann. Dies kann beispielsweise dadurch erreicht werden, daß man einen zweiten Adressenspeicher
und Koinzidenzdetektor im Schaltkreis nach Fig. vorsieht, wobei diese zusätzlichen Schaltkreise dazu verwendet
werden, die erste Adresse anzuzeigen oder abzutasten, bei der Wortgrenzenmerkmale als vorhanden gefunden werden
(wie auch die Bestimmung des letzten Auftretens, wie beschrieben) . Außerdem sei erwähnt, daß eine feste überlagerung
(back-up) verwendet werden kann, falls gewünscht, in Verbindung mit und zusätzlich zu der hier beschriebenen variablen
Überlagerung oder Zurückstufung (back-up). Ferner sei beachtet, daß das wirksame Zurückstufen oder überlagern er-
609840/0957
-33-
reicht werden kann/ indem man Merkmale in einem Schieberegister oder irgendeinem geeigneten Speicher speichert
als eine Alternative zu dem hier beschriebenen Speicher mit direktem Zugriff. Es sei außerdem vermerkt, daß der
Speicher mit direktem Zugriff 154 ohne weiteres Teil des Schaltkreises 7o sein kann oder daß, ganz allgemein, die
Funktionen gemäß Fig. 6 erhalten werden können, zumindest teilweise, indem man software-Anwendungen verwendet.
Schließlich sei vermerkt, daß die Merkmalssignale f_ und/ oder f , die zur Bestimmung der Gesamtwortgrenze verwendet
werden (d.h. das Ausgangssignal des OR-Gatters 156) ergänzt werden können mit zusätzlichen Merkmalen, bei denen festgestellt
wurde, daß sie Sprache eines bestimmten Vokabulars charakterisieren und daß sie im allgemeinen frei sind von
Störlauten wie Atemrauschen. So zeigt beispielsweise die Fig. 5 einen Schaltkreis 19o, der ein mit fD bezeichnetes
Merkmal erzeugt, das als " inverse Steigesungslücke" (inverse
slope gap) bezeichnet wird. Dieser Schaltkreis weist den gleichen allgemeinen Aufbau auf wie der Schaltkreis 13o,
mit der Ausnahme, daß die Anregungs- oder Ansteuerungseingangssignale der zwei Operationsverstärker die Broad Negative
Slopes ("BNS") BNS- bis BNS und die Broad Positive Slopes
("BPS") BPS^ bis BPSn sind. Die BNS- und BPS-Werte bzw. Beträge
werden von den spektralen TeilSignalen durch den broad
slope logic-Schaltkreis 61 (Fig. 2B) abgeleitet, wie ausführlich
in der US-PS 3 821 472 beschrieben ist. Das sich
609840/0957 _34_
ergebende Merkmal f ist ein Kennmerkmal der Wortendungen,
die mit langsam abfallenden Energien enden; z.B. das Wort "amen". Die Verwendung von f als ein zusätzliches Eingangssignal
zum OR-Gatter 156 nach Fig. 6 würde dementsprechend eine vorzeitige Grenzenbestimmung dieses Typs
Vokabularwort verhindern.
609840/0957
Claims (10)
1. Einrichtung zum Feststellen von Wortgrenzen für Spracherkennungseinrichtungen, die getrennt gesprochene
Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen bezüglich dieser Worte durchführt
und die Einrichtungen zur Erzeugung von Kennmerkmale im Eingangssignal anzeigenden Merkmalssignalen aufweist und
eine Einrichtung zum Vergleich der in festgelegten Zeitgrenzen auftretenden Merkmalssignale mit gespeicherten
Wörtern eines Vokabulars entsprechenden Merkmalen, gekennzeichnet durch
a) eine auf die Eingangssignale ansprechende Einrichtung zum Erzeugen eines ersten das Vorhandensein sprachartiger
ein erstes Auswahlkriterium erfüllender Laute anzeigenden Merkmalssignales,
b) durch eine Einrichtung zum Speichern der Merkmalssignale, die während des Vorhandenseins oder des
Erscheinens des ersten Merkmalssignales auftreten,
c) durch eine auf das Eingangssignal ansprechende Einrichtung zum Erzeugen eines zweiten das Vorhandensein
sprachartiger ein zweites Auswahlkriterium erfüllender Laute anzeigenden Merkmalssignales
und
d) eine Einrichtung zum Feststellen des im wesent-
■609840/0957 _c
lichen letzten Auftretens oder Erscheinens des zweiten Merkmalssignales unter den gespeicherten
Merkmalssignalen, derart, daß die hintere Grenze eines eingegebenen gesprochenen Wortes als eine
Funktion des genannten letzten Auftretens bzw. des letzten Ereignisses bestimmt wird.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das zweite Auswahlkriterium enger ist als das erste
Auswahlkriterium.
3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß das erste Merkmalssignal hinsichtlich seiner Abschaltcharakteristik
mit einer vorbestimmten Verzögerung versehen ist.
4. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Einrichtung zum Erzeugen des
zweiten Merkmalssignales eine Einrichtung aufweist, die auf die Eingangssignale anspricht und ein Anzeigesignal
für das Vorhandensein eines stimmhaften phonetischen Kennmerkmales in den Eingangssignalen erzeugt.
5. Einrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung des
zweiten Merkmalssignales eine Einrichtung aufweist, die auf die Eingangssignale anspricht und ein Anzeigesignal
609840/0957
-37-
für das Vorhandensein eines stimmlosen rauschähnlichen Konsonantenkennmerkmales in den Eingangssignalen erzeugt.
6. Einrichtung nach Anspruch 4 und 5, dadurch gekennzeichnet,
daß die Einrichtung zum Erzeugen des zweiten Merkmalssignales ferner eine Einrichtung umfaßt, die auf
die Eingangssignale anspricht und ein Anzeigesignal für das Vorhandensein einer langsam abfallenden Sprachenergiecharakteristik
im Eingangssignal erzeugt.
7. Einrichtung zum Feststellen von Wortgrenzen für Spracherkennungseinrichtungen,
die getrennt gesprochene Worte anzeigende akustische Eingangssignale empfängt und Erkennungsfunktionen
bezüglich dieser Worte durchführt und die Einrichtungen zur Erzeugung von Kennmerkmale im Eingangssignal
anzeigenden MerkmalsSignalen aufweist und eine Einrichtung zum Vergleich der in festgelegten Zeitgrenzen
auftretenden Merkmalssignale mit gespeicherten Wörtern eines Vokabulars entsprechenden Merkmalen, gekennzeichnet
durch
a) eine auf die Eingangssignale ansprechende Einrichtung
zum Erzeugen eines ersten das Vorhandensein sprachartiger ein vorbestimmtes Energieschwellwertkriterium
erfüllender Laute anzeigenden Merkmalssignales,
b) eine Einrichtung zum Speichern der Merkmalssignale,
die während des Vorhandenseins des ersten Merkmalssignales auftreten,
609840/0957 -38-
c) eine auf die Eingangssignale ansprechende Einrichtung
zur Erzeugung eines dritten das Vorhandensein einer stimmhaften phonetischen Charakteristik in den Eingangssignalen anzeigenden
Merkmalssignales,
d) eine auf die Eingangssignale ansprechende Einrichtung
zum Erzeugen eines vierten das Vorhandensein eines stimmlosen rauschähnlichen Konsonanten in den Eingangssignalen anzeigenden
Merkmalssignales,
e) eine Einrichtung zum Erzeugen eines zweiten Merkmalssignales als Funktion des dritten und
vierten Merkmalssignales und
f) eine Einrichtung zum Feststellen des im wesentlichen
letzten Auftretens des zweiten Merkmalssignales unter den gespeicherten MerkmalsSignalen
derart, daß die hintere Grenze eines eingegebenen gesprochenen Wortes als Funktion des genannten
letzten Auftretens bzw. des letzten Ereignisses bestimmt wird.
8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß das erste Merkmalssignal in seiner Abschaltcharakteristik
eine vorbestimmte Verzögerung aufweist.
-39-609840/0957
9. Einrichtung zum Abschätzen oder Bestimmen der Dauer eines isoliert gesprochenen Wortes, gekennzeichnet durch
eine Einrichtung zum Anzeigen oder Feststellen der dem Wort zugeordneten Lautenergie und zum Auslösen oder Starten
eines Zählkreises zum Zählen von Taktimpulsen solange die Lautenergie anhält, durch eine Einrichtung zum Anzeigen
oder Feststellen des Vorhandenseins ausgewählter Merkmale, die von menschlicher Stimme erzeugte Laute anzeigen, abgetrennt
von Lauten aufgrund der Atmung, und zum Auslösen oder Starten eines Abtastschaltkreises, bei Vorhandensein
eines oder mehrerer der ausgewählten Merkmale, um die Zählung in dem Zählkreis kontinuierlich zu steuern oder zu überwachen,
und durch eine Einrichtung, die nach dem Ende der Lautenergie wirksam wird, um den Abtastkreis abzufragen,
den Zählwert festzustellen, der zuletzt überwacht oder gespeichert wurde, und die Dauer abzuschätzen oder zu bestimmen
auf der Basis des letzterwähnten Zählers oder Zählerstandes.
10. Verfahren unter Verwendung einer Einrichtung, die getrennt
gesprochene Worte anzeigende akustische Eingangssignale aufnimmt und Erkennungsfunktionen bezüglich dieser
Worte durchführt und die Kennmerkmale in den empfangenen EingangsSignalen anzeigende Signale erzeugt und die Signale,
die während bestimmter Zeitgrenzen auftreten, mit gespeicherten Worten eines Vokabulars entsprechenden Merkmalen
-4o-6 0 9840/0957
-4ο-
vergleicht, dadurch gekennzeichnet, daß
a) ein erstes das Vorhandensein sprachartiger ein erstes Auswahlkriterium erfüllender Töne anzeigendes
Merkmalssignal erzeugt wird,
b) die während des Vorhandenseins des ersten Merkmalssignales auftretenden Merkmalssignale gespeichert
werden,
c) ein zweites das Vorhandensein sprachartiger ein zweites engeres Auswahlkriterium erfüllender Laute
anzeigendes Merkmalssignal erzeugt wird und
d) daß das im wesentlichen letzte Auftreten oder Erscheinen des zweiten Merkmalssignales unter
den gespeicherten MerkmalsSignalen bestimmt wird, wobei die hintere Grenze eines eingegebenen gesprochenen
Wortes eine Funktion dieses letzten Auftretens bzw. dieses letzten Ereignisses ist.
609840/0957
H4
Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/556,633 US4032710A (en) | 1975-03-10 | 1975-03-10 | Word boundary detector for speech recognition equipment |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2608569A1 true DE2608569A1 (de) | 1976-09-30 |
Family
ID=24222178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19762608569 Withdrawn DE2608569A1 (de) | 1975-03-10 | 1976-03-02 | Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen |
Country Status (5)
Country | Link |
---|---|
US (1) | US4032710A (de) |
DE (1) | DE2608569A1 (de) |
FR (1) | FR2304135A1 (de) |
GB (1) | GB1536965A (de) |
NL (1) | NL7602531A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4103913A1 (de) * | 1991-02-08 | 1992-08-13 | Nikolaus Von Seemann | Verfahren und einrichtung zur steuerung von geraeten |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1569450A (en) * | 1976-05-27 | 1980-06-18 | Nippon Electric Co | Speech recognition system |
JPS53105303A (en) * | 1977-02-25 | 1978-09-13 | Hitachi Ltd | Preprocessing system for audio recognition |
JPS542001A (en) * | 1977-06-02 | 1979-01-09 | Sukoopu Inc | Signal pattern coder and identifier |
CA1116300A (en) * | 1977-12-28 | 1982-01-12 | Hiroaki Sakoe | Speech recognition system |
US4227176A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
JPS5850360B2 (ja) * | 1978-05-12 | 1983-11-10 | 株式会社日立製作所 | 音声認識装置における前処理方法 |
US4292470A (en) * | 1979-09-10 | 1981-09-29 | Interstate Electronics Corp. | Audio signal recognition computer |
US4412098A (en) * | 1979-09-10 | 1983-10-25 | Interstate Electronics Corporation | Audio signal recognition computer |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
US4520499A (en) * | 1982-06-25 | 1985-05-28 | Milton Bradley Company | Combination speech synthesis and recognition apparatus |
JPS603700A (ja) * | 1983-06-22 | 1985-01-10 | 日本電気株式会社 | 音声検出方式 |
DE3411485A1 (de) * | 1984-03-28 | 1985-10-03 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur erfassung der grenzen von signalen, die vor einem hintergrundsignalgemisch auftreten |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
GB8613327D0 (en) * | 1986-06-02 | 1986-07-09 | British Telecomm | Speech processor |
JPH01169499A (ja) * | 1987-12-24 | 1989-07-04 | Fujitsu Ltd | 単語音声区間切出し方式 |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
DE19854341A1 (de) * | 1998-11-25 | 2000-06-08 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
GB2577997B (en) * | 2017-03-01 | 2020-12-16 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method |
GB2560174B (en) * | 2017-03-01 | 2020-09-23 | Toshiba Kk | Training an automatic speech recognition system |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB981153A (en) * | 1961-03-20 | 1965-01-20 | Nippon Telegraph & Telephone | Improved phonetic typewriter system |
US3225141A (en) * | 1962-07-02 | 1965-12-21 | Ibm | Sound analyzing system |
GB1261385A (en) * | 1968-07-24 | 1972-01-26 | Matsushita Electric Ind Co Ltd | Speech analyzing apparatus |
US3588363A (en) * | 1969-07-30 | 1971-06-28 | Rca Corp | Word recognition system for voice controller |
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
US3755627A (en) * | 1971-12-22 | 1973-08-28 | Us Navy | Programmable feature extractor and speech recognizer |
US3883850A (en) * | 1972-06-19 | 1975-05-13 | Threshold Tech | Programmable word recognition apparatus |
-
1975
- 1975-03-10 US US05/556,633 patent/US4032710A/en not_active Expired - Lifetime
-
1976
- 1976-03-02 DE DE19762608569 patent/DE2608569A1/de not_active Withdrawn
- 1976-03-05 GB GB8841/76A patent/GB1536965A/en not_active Expired
- 1976-03-08 FR FR7606497A patent/FR2304135A1/fr not_active Withdrawn
- 1976-03-10 NL NL7602531A patent/NL7602531A/xx not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4103913A1 (de) * | 1991-02-08 | 1992-08-13 | Nikolaus Von Seemann | Verfahren und einrichtung zur steuerung von geraeten |
Also Published As
Publication number | Publication date |
---|---|
FR2304135A1 (fr) | 1976-10-08 |
NL7602531A (nl) | 1976-09-14 |
US4032710A (en) | 1977-06-28 |
GB1536965A (en) | 1978-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2608569A1 (de) | Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE60020865T2 (de) | System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE3645118C2 (de) | ||
DE3235279C2 (de) | Spracherkennungseinrichtung | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE4031638C2 (de) | ||
DE69724485T2 (de) | Lokalisierung eines Musters in einem Signal | |
DE3238853A1 (de) | Sprachsteuerbare betaetigungseinrichtung fuer kraftfahrzeuge | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1134726A1 (de) | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE69020736T2 (de) | Wellenanalyse. | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
EP3693960A1 (de) | Verfahren für eine individualisierte signalverarbeitung eines audiosignals eines hörgeräts | |
DE1937464C3 (de) | Sprachanalysiergerät | |
DE69025932T2 (de) | Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen | |
DE4327429A1 (de) | Verfahren und Vorrichtung zur Gehirnwellenanalyse | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8141 | Disposal/no request for examination |