DE4015381A1 - Spracherkennungsgeraet und verfahren zur spracherkennung - Google Patents

Spracherkennungsgeraet und verfahren zur spracherkennung

Info

Publication number
DE4015381A1
DE4015381A1 DE4015381A DE4015381A DE4015381A1 DE 4015381 A1 DE4015381 A1 DE 4015381A1 DE 4015381 A DE4015381 A DE 4015381A DE 4015381 A DE4015381 A DE 4015381A DE 4015381 A1 DE4015381 A1 DE 4015381A1
Authority
DE
Germany
Prior art keywords
speech
speaker
speech recognition
information signals
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4015381A
Other languages
English (en)
Inventor
Michael Robinson Taylor
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of DE4015381A1 publication Critical patent/DE4015381A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Spracherkennungsgerät nach dem Oberbegriff des Anspruches 1 und ein Verfahren zur Spracherkennung.
Spracherkennungsgeräte vergleichen die von einem Sprecher gesprochenen Wörter mit Informationen in einem Speicher, wobei diese Informationen ein Bezugsvokabular darstellen. Sind die gesprochenen Wörter ziemlich ähnlich mit den spektral-temporalen oder akustisch-phonetischen Informa­ tionen im Speicher, dann sind auf diese Weise die gespro­ chenen Wörter identifizierbar. Das Maß der Übereinstimmung kann hierbei gestaffelt werden. Das Bezugsvokabular wird abgeleitet von Informationen verschiedener Sprecher bei unterschiedlichen Verhältnissen und kann modifiziert werden, um ziemlich eng das Sprachmuster eines bestimmten Sprechers zu charakterisieren. Eine ziemlich genaue und zuverlässige Spracherkennung wird erhalten, wenn die Aussprache des Sprechers ziemlich gleich ist zu derjeni­ gen, mit welcher das Bezugsvokabular erzeugt wurde.
Unter bestimmten Umgebungsverhältnissen kann jedoch die Aussprache des Sprechers so modifiziert sein, daß eine Spracherkennung unzuverlässig wird. Dies ist beispiels­ weise der Fall, wenn die Aussprache des Sprechers durch lineare Beschleunigungskräfte beeinflußt wird, wie bei­ spielsweise durch hohe g-Kräfte in Flugzeugen. Weitere Einflüsse können Vibrationen oder Streßsituationen sein, welche das Aussprachemuster so verändern, daß das Sprach­ erkennungsgerät keine Übereinstimmung mit dem gespeicher­ ten Vokabular feststellt. Gemäß der GB-A 21 86 726 soll dieses Problem gelöst werden. Hierbei werden Beschleu­ nigungen oder andere Umgebungseinflüsse gemessen, die dazu verwendet werden, die gespeicherten Bezugsschablonen oder Wortmodelle des Bezugsvokabulars zu modifizieren. Hierbei erfolgt eine dynamische Anpassung der Schablonen oder Wortmodelle in der Weise, wie die Aussprache durch diese Umgebungseinflüsse beeinflußt wird. Damit wird erreicht, daß die gespeicherte Information nach ihrer Anpassung eine größere Ähnlichkeit mit der tatsächlichen, beeinflußten Aussprache aufweist, beispielsweise der Aussprache bei Beschleunigungen. Nachteilig ist hierbei jedoch, daß eine große Rechnerkapazität erforderlich ist und auch bei schnell arbeitenden Rechnern eine merk­ bare Verzögerung bei der Spracherkennung auftritt.
Es besteht die Aufgabe, das Spracherkennungsgerät so auszubilden und das Verfahren zur Spracherkennung so durchzuführen, daß auch durch Umgebungseinflüsse beein­ flußte Aussprachen rasch und sicher erkannt werden.
Bei einem Spracherkennungsgerät der eingangs genannten Art wird diese Aufgabe mit den kennzeichnenden Merkmalen des Anspruches 1 gelöst. Die Lösung des Verfahrens ist in Anspruch 9 angegeben. Bevorzugte Ausführungsformen können den Unteransprüchen entnommen werden.
Ein Ausführungsbeispiel eines Spracherkennungsgeräts für ein Flugzeug und ein Verfahren zur Spracherkennung werden nachfolgend anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild des Geräts;
Fig. 2 ein Diagramm zur Erläuterung der Arbeits­ weise eines bekannten Geräts und
Fig. 3 eine graphische Darstellung zur Erläuterung eines Teils des Geräts nach Fig. 1.
Das Spracherkennungsgerät weist eine Prozeßeinheit 10 auf, der Eingangssignale von einem Mikrofon 1, einem Kehlkopfmikrofon 2, Umgebungssensoren 3 und von einem Datenbus 4 zugeführt werden.
Das Mikrofon 1 ist nahe dem Mund des Sprechers angeordnet und erfaßt somit die Sprechtöne. Das Kehlkopfmikrofon kann aufgebaut sein wie in der GB-A 21 93 024 beschrieben, ist am Nacken des Sprechers befestigt und erfaßt die Bewegungen der Stimmbänder und liefert somit Ausgangs­ signale, die den gesprochenen Sprechtönen entsprechen. Die Umgebungssensoren 3 sind so angeordnet, daß sie im wesentlichen die gleichen Umgebungseinflüsse erfassen, denen der Sprecher ausgesetzt ist. Die Sensoren 3 können bestehen aus einem Beschleunigungssensor, der auf die g-Kräfte anspricht, denen der Sprecher ausgesetzt ist, einem Vibrationssensor sowie einem Geräuschsensor.
Die Signale vom Mikrofon 1 werden zuerst einer Filterein­ heit 11 in der Prozeßeinheit 10 zugeführt, der auch die Signale vom Kehlkopfmikrofon 2 und den Sensoren 3 zuge­ führt werden und deren Arbeitsweise später beschrieben wird. Die Ausgangssignale der Filtereinheit 11 werden zugeführt einer Spektralanalyseeinheit 12, die Ausgangs­ signale in Übereinstimmung mit den Frequenzbändern er­ zeugt, in welche die Töne fallen. Diese Ausgangssignale werden zugeführt einer Spektralkorrektur- und Geräusch­ adaptionseinheit 13, bei welcher das Signal-Rauschver­ hältnis verbessert wird oder welche jene Signale elimi­ niert oder markiert, die nur von Geräuschen und nicht von Sprache stammen können. Die Ausgangssignale der Ein­ heit 13 werden zugeführt dem Eingang eines Komparators oder einer Musterpaßeinheit 14. Der andere Eingang der Muster­ paßeinheit 14 stammt von einem Vokabularspeicher 30, der später noch im einzelnen beschrieben wird. Die Muster­ paßeinheit 14 vergleicht die Spektral-Temporalfrequenz­ zeitmuster des Mikrofons 1 mit dem gespeicherten Voka­ bular und erzeugt ein Ausgangssignal in der Leitung 15 in Übereinstimmung mit dem Wort, bei welchem die beste Passung bzw. Übereinstimmung oder die höchste Wahrschein­ lichkeit besteht, daß es das vom Mikrofon 1 übermittelte Wort ist.
Das Ausgangssignal in der Leitung 15 wird einem Eingang einer Nacherkennungsprozeßeinheit 16 zugeführt, deren anderer Eingang mit einem entfernten Terminal 17 ver­ bunden ist, über den Zustands- und dynamische Daten zuge­ führt werden. Die Einheit 16 führt verschiedene Aufgaben bei der Wortfolge aus, wie sie von der Musterpaßeinheit 14 ausgegeben werden. Die Nacherkennungsprozeßeinheit 16 weist drei Ausgänge auf. An einen Ausgang ist die Leitung 18 angeschlossen, die einen Rückführkanal zu einer Anzeige 21 bildet. Diese Anzeige kann eine hörbare oder visuelle Anzeige sein, die dem Sprecher angibt, welches gesprochene Kommando von den Einheiten 14 und 16 identifiziert wurde, damit er dieses überprüfen kann oder das ein Signal erzeugt, welches anzeigt, daß eine Wiederholung des gesprochenen Kommandos durchgeführt werden soll, wenn das Gerät ein gesprochenes Kommando nicht identifiziert hat. Der zweite Ausgang ist mit der Leitung 19 verbunden, die zu einer Wortuntersatz-Auswahl­ einheit 32 führt, die Teil des Vokabularspeichers 30 ist. Die Arbeitsweise der Einheit 32 wird später noch beschrieben. Der dritte Ausgang ist mit der Leitung 20 verbunden und erzeugt Systemsteuersignale für den ent­ fernten Terminal 17. Die Systemsteuersignale werden er­ zeugt, wenn die Einheit 10 mit ausreichender Wahrschein­ lichkeit ein gesprochenes Kommando identifiziert hat, das dann die Steuerung externer Geräte über den Datenbus 4 bewirkt.
Der Speicher 30 umfaßt ein Bezugsvokabular 31 in Form von Musterschablonen oder Wortmodellen der spektral-tem­ poralen Muster oder Zustandsbeschreibungen verschiedener Wörter. Dieses Vokabular wird errichtet, indem der Spre­ cher eine Liste von Wörtern spricht und zwar unter norma­ len Umgebungsbedingungen, ohne Vibrationen, ohne Ge­ räusche und ohne Beschleunigungen. Die gesprochenen Wör­ ter werden in das Vokabularregister 31 eingegeben und mit dem zugehörigen Wort markiert. Das Gesamtvokabular 31 kann reduziert werden durch eine fakultative Unter­ satzauswahl 32 bei Steuerung durch Signale in der Leitung 19 in Übereinstimmung mit zuvor gesprochenen und erkannten Wörtern.
Nach der Untersatzauswahl wird das Vokabular bei 33 einer aktiven Wortauswahl unterworfen, in Abhängigkeit von Zustandsdaten in der Leitung 34, die vom Terminal 17 stammen und welche abgeleitet sind von Informationen, die über den Datenbus 4 dem Terminal zugeführt werden.
Bei einem Flugzeug beispielsweise zeigen die Zustands­ daten an, ob das Flugzeug landet, startet oder sich im Flugzustand befindet. Alternativ dazu können die Zustands­ daten beispielsweise auch dazu dienen, die Auswahl von Funkfrequenzen aus dem Vokabular 33 zu sperren, wenn zuvor ein Funkfrequenzkanal ausgesprochen und identifi­ ziert wurde, da dann die Wahrscheinlichkeit gering ist, daß die Auswahl einer anderen Funkfrequenz gewünscht wird. Eine schlechte Übereinstimmung mit ausgewählten aktiven Schablonen kann dazu verwendet werden, eine Neu­ verarbeitung der Sprache in einer breiteren Syntax durch­ zuführen.
Die von der Einheit 16 auszuführenden Arbeiten sind fol­ gende:
  • 1. Grammatische Satzzergliederung und Worterkennungs­ techniken werden dazu verwendet, Fehler zu erkennen und Wörter zurückzugewinnen, welche nicht identifi­ ziert wurden.
  • 2. Identifikation der Schablonenfolge oder Wortmodell­ sequenz von Wörtern, die am besten im Zusammenhang stehen mit der im Augenblick vorliegenden Informa­ tion. Da spezielle Wortfolgen wahrscheinlicher sind als andere während besonderer Umgebungsumstände, kann dies dazu verwendet werden, die Identifikation spezieller gesprochener Kommandos zu verbessern.
  • 3. Nach der endgültigen Identifikation kann die Prozeß­ einheit 16 Signale erzeugen, um die bei 32 ausgeführte Vokabularuntersatzauswahl auf den neuesten Stand zu bringen. Diese Signale werden dem Vokabularspeicher 30 über die Leitung 19 zugeführt.
Es ist bekannt, daß die Sprache durch die Umgebungsver­ hältnisse beeinflußt werden kann, denen der Sprecher unter­ worfen ist. Das Ergebnis von beispielsweise hohen Beschleu­ nigungen, denen der Sprecher ausgesetzt ist, kann dazu führen, daß die Brust und die Kehle hohen Drücken ausge­ setzt ist, wodurch das Sprechen erschwert wird und die Sprache somit von konventionellen Spracherkennungsgeräten nicht identifizierbar ist. Wirken beispielsweise starke Vibrationen auf den Sprecher, dann wird hierdurch die Mög­ lichkeit der Artikulation und der Luftstrommechanismus beeinflußt und damit die Sprache stark verfälscht. Dies ist beschrieben in "Effects of Low Frequency Whole-Body Sinusoidal Vibration on Speech" von Michael R. Taylor, Proc. I.O.A. Band 11, Teil 5 (1989) Seiten 151 bis 158 sowie in "Studies in Automatic Speech Recognition and its Application in Aerospace", Kapitel 5 - Doktorarbeit von Michael R. Taylor.
Es wurde weiterhin gefunden, daß bei starken Umgebungsge­ räuschen der Sprecher automatisch seine Aussprache derart ändert, daß nicht nur die Amplitude anwächst. Streß­ situationen, wie beispielsweise bei Müdigkeit, hohen Be­ lastungen oder Gefahrensituationen, beeinflussen ebenfalls das Sprachmuster des Sprechers. Die Sprachveränderungen, die bei diesen unterschiedlichen Umgebungsbedingungen auf­ treten, sind komplex und benötigen zu ihrer Kompensation bei einem Spracherkennungsgerät eine große Rechnerkapazi­ tät. Es wurde jedoch gefunden, daß diese Umgebungseinflüsse einen einheitlichen Effekt besonderer Art auf die Aus­ sprache ausüben. Im speziellen wurde erkannt, daß diese Umgebungseinflüsse zu einer Erhöhung der mittleren funda­ mentalen Erregungsfrequenz bei der Aussprache führen, d.h. bei der durch Bewegungen der Stimmbänder erzeugten Sprache, was zu einer Aufwärtsverzerrung im gesprochenen Sprach­ spektrum führt.
Bei konventionellen Spracherkennungsgeräten ist es allge­ mein üblich, einen Vorfilter zu verwenden, der ein Anheben der oberen Frequenzen im Sprachsignal bewirkt, bevor ir­ gendwelche Musteranpassungsfunktionen ausgeführt werden. Die Wirkung eines solchen Filters ist in Fig. 2 darge­ stellt. Im vorliegenden Fall jedoch arbeitet die Filter­ einheit 11 in entgegengesetzter Richtung, derart, daß die mittlere Frequenz des Spracheingangssignals reduziert wird, d.h. daß unter bestimmten Umständen eine Sprachverzerrung in Richtung abnehmender Amplitude bei höheren Frequenzen durchgeführt wird, wie dies die Fig. 3 zeigt. Dies wird erreicht durch Bedämpfen höherer Frequenzen, um progressiv größere Beträge. Die Fig. 3 zeigt eine Familie von drei Kurven A bis C, obwohl in Praxis eine beträchtlich größere Zahl von Kurven verwendbar ist. Die anwendbare Kurve wird ausgewählt gemäß der Größe und Art der Umgebungseinflüsse, denen der Sprecher ausgesetzt ist. Liegt beispielsweise eine hohe Beschleunigung mit einem hohen Umgebungsgeräusch­ pegel vor, dann arbeitet das Filter 11 nach der Charakteri­ stik der Kurve A, während bei geringen Beschleunigungen und einem geringeren Geräuschpegel die Kurve C verwendet wird.
Die spektrale Verzerrungskorrekturfunktion wird lediglich eingesetzt, wenn die Umgebungseinflüsse ausreichend groß sind, um die Sprache zu beeinflussen. Bei normalen Zustän­ den mit geringen Umgebungseinflüssen weist das Filter 11 eine neutrale flache Charakteristik auf oder die Charak­ teristik nach Fig. 2, wo das Sprachspektrum mit zunehmen­ der Frequenz angehoben wird.
Die gesprochene Sprache wird erfaßt in obigem Beispiel mittels eines Kehlkopfmikrofons oder einer anderen Vor­ richtung, welche auf die Bewegungen der Stimmbänder an­ spricht. Alternativ dazu kann die gesprochene Sprache identifiziert werden durch eine Analyse der Sprachsignale vom Mikrofon. Eine geeignete Analyse ist beschrieben in "Theory and Applications of Digital Signal Processing" von L.B. Rabiner und B. Gold, Prentice Hall Inc pub., 1975 Seiten 681 bis 687. Eine Modifikation der mittleren Fre­ quenz des Spracheingangssignals kann auf relativ einfache Art erreicht werden ohne große Rechnerkapazität und es wurde gefunden, daß ein beträchtliches Anwachsen der Er­ kennungsrate erreichbar ist, wenn ungünstige Umgebungs­ zustände vorliegen.
Obwohl das obige System anhand der Erzeugung von Steuer­ signalen beschrieben wurde, wie beispielsweise zur Steue­ rung von Teilen eines Flugzeugs, kann es auch verwendet werden bei Sprachkommunikationssystemen. Bei einem solchen System treten in der Leitung 20 anstelle der Steuersignale Sprachsignale auf, die identifizierten Wörtern oder Phrasen entsprechen. Die verschiedenen Verfahrensschritte des Er­ kennungssystems müssen nicht von diskreten Baueinheiten ausgeführt werden. Es ist auch möglich, ein oder mehrere Rechner oder Prozeßeinheiten entsprechend zu programmieren.

Claims (11)

1. Spracherkennungsgerät mit einem die Sprache erfassenden und Sprachinformationssignale erzeugenden Sensor, die einem Komparator zugeführt werden, der diese Sprach­ informationssignale mit gespeicherten Sprachinforma­ tionssignalen vergleicht, dadurch gekenn­ zeichnet, daß das Gerät einen Sensor (3) auf­ weist, der die Umgebungseinflüsse erfaßt, denen der Sprecher ausgesetzt ist und die seine Aussprache modi­ fizieren, eine Vorrichtung (2) vorgesehen ist, die das Auftreten von Sprache erfaßt, ein Filter (11) vor­ gesehen ist, das die spektrale Neigung der Sprachin­ formationssignale während des Sprechens reduziert, wenn die gemessenen Umgebungseinflüsse ausreichend sind, um bei der Aussprache des Sprechers die mittlere fundamentale Erregungsfrequenz zu erhöhen, wobei die spektrale Neigung mindestens teilweise die Erhöhung der mittleren fundamentalen Erregungsfrequenz kompen­ siert und der Komparator (14) die so kompensierten Sprachinformationssignale mit den gespeicherten Sprach­ informationssignalen vergleicht.
2. Spracherkennungsgerät nach Anspruch 1, dadurch ge­ kennzeichnet, daß der Sensor ein Beschleu­ nigungssensor (3) ist.
3. Spracherkennungsgerät nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß der Sensor ein Vi­ brationssensor (3) ist.
4. Spracherkennungsgerät nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß der Sensor ein Geräuschsensor (3) ist.
5. Spracherkennungsgerät nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Vorrichtung (2) die Bewegungen der Stimmbänder des Sprechers erfaßt.
6. Spracherkennungsgerät nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Filter (11) zwischen dem Sprachsensor (1) und einer Spektralanalyseeinheit (12) geschaltet ist, wobei die Spektralanalyseeinheit (12) Ausgangssignale erzeugt, welche repräsentativ für die Frequenzbänder sind, in welche die gesprochenen Töne fallen.
7. Spracherkennungsgerät nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Filter (11) die Amplitude der Sprachinformationssignale mit zunehmenden Umgebungseinflüssen zunehmend ver­ mindert.
8. Spracherkennnungsgerät nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das Filter (11) die Amplitude der Sprachinformationssignale mit zunehmender Frequenz zunehmend bedämpft.
9. Verfahren zur Spracherkennung, bei welchem die von der Sprache eines Sprechers abgeleiteten Sprachinfor­ mationssignale mit gespeicherten Sprachinformations­ signalen verglichen werden, dadurch gekenn­ zeichnet, daß die Umgebungseinflüsse erfaßt werden, denen der Sprecher ausgesetzt ist und welche die Sprechtöne des Sprechers modifizieren, die spek­ trale Neigung der Sprachinformationssignale während des Sprechens reduziert werden, wenn die gemessenen Umgebungseinflüsse ausreichend sind, um bei der Aus­ sprache des Sprechers die mittlere fundamentale Er­ regungsfrequenz zu erhöhen, hierbei die spektrale Nei­ gung mindestens teilweise die Erhöhung der mittleren fundamentalen Erregungsfrequenz kompensiert und die so kompensierten Sprachinformationssignale mit den gespeicherten Sprachinformationssignalen verglichen werden.
10. Verfahren nach Anspruch 9, dadurch gekenn­ zeichnet, daß die Amplitude der Sprachinfor­ mationssignale mit zunehmenden Umgebungseinflüssen zunehmend vermindert wird.
11. Verfahren nach Anspruch 9 oder 10, dadurch ge­ kennzeichnet, daß die Amplitude der Sprachinformationssignale mit zunehmender Frequenz zunehmend vermindert wird.
DE4015381A 1989-05-16 1990-05-14 Spracherkennungsgeraet und verfahren zur spracherkennung Withdrawn DE4015381A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB898911153A GB8911153D0 (en) 1989-05-16 1989-05-16 Speech recognition apparatus and methods

Publications (1)

Publication Number Publication Date
DE4015381A1 true DE4015381A1 (de) 1990-11-22

Family

ID=10656773

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4015381A Withdrawn DE4015381A1 (de) 1989-05-16 1990-05-14 Spracherkennungsgeraet und verfahren zur spracherkennung

Country Status (4)

Country Link
JP (1) JPH03208099A (de)
DE (1) DE4015381A1 (de)
FR (1) FR2647248A1 (de)
GB (2) GB8911153D0 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4307688A1 (de) * 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69033000T2 (de) * 1989-10-04 1999-11-11 Matsushita Electric Ind Co Ltd Einrichtung zur Spracherkennung
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2019628B3 (es) * 1986-02-15 1991-07-01 Smiths Ind Public Ltd Company Procesador de textos hablados y metodo..

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
DE4307688A1 (de) * 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten

Also Published As

Publication number Publication date
GB2231700B (en) 1993-07-07
FR2647248A1 (fr) 1990-11-23
GB8911153D0 (en) 1989-09-20
GB9010577D0 (en) 1990-07-04
GB2231700A (en) 1990-11-21
JPH03208099A (ja) 1991-09-11

Similar Documents

Publication Publication Date Title
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE4031638A1 (de) Spracherkennungseinrichtung
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE2021126C3 (de) Spracherkennungs anordnung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE4010028C2 (de) Spracherkennungsverfahren
DE4015381A1 (de) Spracherkennungsgeraet und verfahren zur spracherkennung
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE4031421A1 (de) Musteranpassungssystem fuer eine spracherkennungseinrichtung
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
WO1996027871A1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee