DE19705471A1 - Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen - Google Patents

Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen

Info

Publication number
DE19705471A1
DE19705471A1 DE1997105471 DE19705471A DE19705471A1 DE 19705471 A1 DE19705471 A1 DE 19705471A1 DE 1997105471 DE1997105471 DE 1997105471 DE 19705471 A DE19705471 A DE 19705471A DE 19705471 A1 DE19705471 A1 DE 19705471A1
Authority
DE
Germany
Prior art keywords
word
speech signal
determining
signal
envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1997105471
Other languages
English (en)
Other versions
DE19705471C2 (de
Inventor
Viktor Dr Tryba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sci Worx GmbH
Original Assignee
Sibet Sican Forschungs Un GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sibet Sican Forschungs Un GmbH filed Critical Sibet Sican Forschungs Un GmbH
Priority to DE1997105471 priority Critical patent/DE19705471C2/de
Publication of DE19705471A1 publication Critical patent/DE19705471A1/de
Application granted granted Critical
Publication of DE19705471C2 publication Critical patent/DE19705471C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen. Die Erkennung der Kommandoworte erfolgt prinzipiell dadurch, daß Kommandowort-Signale digital aufgezeichnet und Merkmale der digital aufgezeichneten Signale berechnet werden, die in ein neuronales Netzwerk zur Ermittlung des zugehörigen Kommandowortes gespeist werden.
Spracherkennungsverfahren, die auf neuronalen Netzwerken basieren, sind vor allem auf der Basis von verborgenen Markov-Modellen (Hidden Markov-Model) oder dem Dynamic Time Warping-Verfahren (DTW) bekannt. Diesbezüglich sei auf die DE-PS 33 37 353 C2, DE-OS 42 41 688 A1, DE-OS 195 08 711 A1 und DE 44 17 557 A1 verwiesen. Alle diese Verfahren sind sehr aufwendig und erfordern leistungsfähige digitale Signalprozessoren zur Durchführung einer Frequenzanalyse. Außerdem müssen die Daten für alle Sprachproben aufgezeichnet und permanent verfügbar gehalten werden, damit bei dem späteren Erkennungsvorgang das ähnlichste Wort im Vergleich zu den Sprachproben herausgesucht werden kann. Dementsprechend sind die Anforderungen an die Prozessorleistung und den Speicherbedarf relativ hoch und der Herstellungspreis vor allem zur Anwendung bei Sprachsteuerungen zu hoch.
Der Rechenaufwand ist auch bei der in der DE-OS 41 11 995 A1 beschriebenen Schaltungsanordnung zur Spracherkennung relativ groß, da dort eine Spektralanalyse durchgeführt werden muß.
In der DE-OS 39 31 638 A1 wird ein Verfahren zur sprecheradaptiven Spracherkennung beschrieben, das keine Frequenztransformation mehr erfordert. Aus dem Sprachsignal werden Merkmalsvektoren extrahiert, die in silbenorientierte Wortuntereinheiten segmentiert und klassifiziert werden. Pro Wortuntereinheit wird ein Vergleich mit Referenzmustern durchgeführt. Hierzu müssen die Referenzmuster für einen gesamten Wortschatz abgespeichert und für den Vergleich verfügbar gehalten werden.
In der DE-PS 39 35 308 C1 wird zur Spracherkennung die Durchführung einer Differenzierung und einer Deltamodulation des abgetasteten Sprach-Zeitsignals vorgeschlagen. Anschließend wird die Anzahl der "Einsen" festgestellt, die in Bytes vorhanden sind, die aus einer Anzahl aufeinanderfolgender Abtastwerte gebildet werden. Die Anzahl von "Einsen" pro Byte repräsentiert eine Hauptcodezahl, die über die Zeit aufgetragen ein Balkenmuster bildet, das mit Referenzmustern verglichen wird. Auch hier ist eine Abspeicherung einer Vielzahl von Referenzmustern erforderlich.
In der DE-OS 41 03 913 A1 ist eine Einrichtung zur Gerätesteuerung beschrieben, bei dem ein Zeitmuster in bezug auf die Ton- und Pausendauer ermittelt wird, das mit Referenzmustern verglichen wird. Die Unterscheidungsfähigkeit von Worten allein durch das Merkmal der Ton- und Pausendauer ist in der praktischen Anwendung nicht ausreichend. Außerdem müssen pro Kommandowort Referenzmuster abgespeichert und verfügbar gehalten werden.
In der DE-OS 195 08 137 A1 werden Worte schrittweise klassifiziert, indem eine Teilwortlänge, eine Anzahl von Segmenten und eine Lauttypfolge ermittelt wird. Für den nachfolgenden Klassifikationsschritt werden dann nur noch die Referenzworte betrachtet, bei denen die Merkmale innerhalb vorgegebener Toleranzen liegen.
Zur Detektion des Start- und Endpunktes eines Wortes wird in der DE-OS 44 22 545 A1 vorgeschlagen das Sprechsignal blockweise zu unterteilen und Merkmalsvektoren zu bilden, indem pro Block die Signalenergie sowie die quadratische Differenz eines LPC (Linear-Predictive-Coding)-Cepstrum-Koef­ fizienten in bezug auf einen mittleren LPC-Cepstrum-Koef­ fizienten bestimmt wird. Der Merkmalsvektor sowie ein mittlerer Merkmalsvektor werden mit einem Schwellwert zur Detektion des Start-/Endpunktes verglichen.
In der DE-OS 43 28 752 A1 wird ein Spracherkennungssystem vorgestellt, das ein mehrschichtiges neuronales Netzwerk erfordert. Dadurch ist der Rechenaufwand und die Anzahl von Netzwerkknoten unerwünscht hoch.
Aufgabe
Ausgehend von diesem Stand der Technik war es Aufgabe der Erfindung, ein Verfahren und eine Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen mit vermindertem Rechenaufwand zu schaffen, wobei nur eine geringe Leistung eines zentralen Mikroprozessors (CPU) und eine geringe Speicherkapazität erforderlich ist. Das Verfahren und die Vorrichtung sollte dennoch sehr zuverlässig und leistungsfähig sein.
Erfindung
Die Aufgabe wird durch das Verfahren nach Anspruch 1 und die Schaltungsanordnung nach Anspruch 15 gelöst.
Vorteilhafte Ausgestaltungen sind in den Unteransprüchen beschrieben.
Es hat sich gezeigt, daß die Verwendung eines Transversalfilters in Verbindung mit einem Perzeptron-Netz sehr gut zur wenig rechenintensiven Spracherkennung geeignet ist. Durch die Ermittlung einer Einhüllenden und die Aufteilung des Signals in vier Teilbereiche wird der Rechenbedarf noch weiter verringert und die Zuverlässigkeit des Systems gesteigert.
Werden bei dem Anlernvorgang Sprechproben von mehreren Personen aufgenommen, ist das Verfahren in der Lage, eine gewisse Sprecherunabhängigkeit bei der Spracherkennung zu erreichen.
Zeichnungen
Die Erfindung wird nachfolgend anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 Verfahrensprinzip zur Spracherkennung unter Verwendung eines künstlichen neuronalen Netzes;
Fig. 2 Prinzip der Ermittlung der Einhüllenden aus dem Zeitsignal;
Fig. 3 Berechnung der Merkmale jeweils für die vier Wortbereiche;
Fig. 4 Stark vereinfachtes digitales Transversalfilter;
Fig. 5 Schaltungsanordnung zur Spracherkennung.
Ausführungsbeispiele
Das Verfahrensprinzip zur Spracherkennung unter Verwendung eines neuronalen Netzes ist in der Fig. 1 dargestellt. Das Sprachsignal ist über die Zeitachse aufgetragen.
Das Prinzip des Verfahren besteht darin, daß Merkmale zur Erkennung des Wortes ohne aufwendige Frequenztransformation direkt aus dem Zeitsignal extrahiert werden. Die extrahierten Merkmale werden an ein künstliches neuronales Netz (1) angelernt. Für jedes anzulernende Wort wird ein Perzeptron (2) verwendet, das auf dieses Wort angelernt wird. Ein Perzeptron ist ein einschichtiges neuronales Netz, daß z. B. in "The perceptron: a probabilistic model for information storage and organization in the brain" von F. Rosenblatt in "Neurocomputing: foundations of research", Massachusetts Institute of Technology, 1988, S. 92 ff., ausführlich dargestellt ist. Insgesamt werden ca. 50 Merkmale aus dem Sprachsignal extrahiert und dem neuronalen Netz (1) angelernt.
Die Berechnung der Merkmale erfolgt durch Funktionen, die auf dem zentralen Mikroprozessor ablaufen. Dieser ist vorteilhafterweise ein Mikrocontroller, der Schaltungen zur Ansteuerung von Steuerelementen und zur Analog-Digital-Wand­ lung auf dem Chip aufweist.
Die ermittelten Merkmalsvektoren werden vor dem Anlernen an das neuronale Netz (1) normiert, und zwar in der Weise, daß für jedes Merkmal getrennt das Maximum des Betrages ermittelt wird. Danach wird die betreffende Komponente durch diesen Wert dividiert, womit erreicht wird, daß alle Merkmale in den Zahlenbereich -1 . . . +1 abgebildet werden. Dies führt zu einer Erhöhung der Erkennungsrate, da alle Merkmale gleich stark gewichtet sind und nicht einzelne Merkmale mit einem kleinen Absolutwert gegenüber Merkmalen mit großen Absolutwerten vernachlässigt werden.
Für die neu zu klassifizierenden Merkmale muß entsprechend die Multiplikation jeder Komponente erfolgen.
Beschreibung der Merkmale
Im folgenden werden die Verfahrensschritte zur Spracherkennung und zur Ermittlung der Klassifikations-Merk­ male für das Sprachsignal beschrieben. Es sind vorgesehen:
  • 1. Ermittlung statistischer Größen;
  • 2. Ermittlung der Einhüllenden zur Extrahierung von Merkmalen;
  • 3. Bestimmung des Durchschnittswerts der Einhüllenden;
  • 4. Detektion der Wortanwesenheit (kein Merkmal);
  • 5. Detektion von Wortanfang und Wortende (kein Merkmal);
  • 6. Bestimmung von Vorläufern und Nachläufern;
  • 7. Bestimmung der Anzahl der Silben;
  • 8. Unterteilung des Wortes in vier Teilbereiche;
  • 9. Anwendung stark vereinfachter digitaler Filter;
  • 10. Bestimmung der Signalenergie nach einer Tiefpaß und Hochpaß-Filterung;
  • 11. Bestimmung der Anzahl der Nulldurchgänge.
1. Ermittlung statistischer Größen
Zunächst werden einige einfache statistische Größen aus dem Zeitsignal berechnet, wie der Mittelwert des Signales, die Varianz, die Gesamtsumme des Signales und die Wortdauer.
2. Ermittlung der Einhüllenden zur Extrahierung von Merkmalen
Zur Einsparung von Rechenzeit wird danach die Einhüllende des Zeitsignals berechnet. Zu diesem Zweck wird, wie in der Fig. 2 skizziert ist, jeweils in einem Teilintervall das jeweilige Maximum ermittelt und gespeichert. Die Gesamtmenge der auszuwertenden Daten reduziert sich dabei von 20 000 Abtastwerten auf ca. 150 Abtastwerte. Diese sind ausreichend, um die Einhüllende hinreichend genau zu beschreiben. Aus der Einhüllenden wird ein Teil der Klassifikations-Merkmale gewonnen.
Aus der Form der Einhüllenden lassen sich dann weitere Merkmale mit vergleichsweise geringem CPU-Aufwand berechnen. Die Verwendung der Einhüllenden für diese Merkmalsbestimmungen macht das Ergebnis zudem robuster gegen einzelne Störsignale und Variationen der Aussprache.
3. Bestimmung des Durchschnittswerts der Einhüllenden
Es wird der Durchschnittswert der Einhüllenden bestimmt. Dieser unterscheidet sich vom Durchschnittswert des Zeitsignales, da entsprechend der Fig. 2 eine Art Gleichrichtung und Glättung stattgefunden hat.
4. Detektion der Wortanwesenheit
Zunächst wird mit der Einhüllenden in robuster Weise detektiert, ob überhaupt ein Wort gesprochen wurde. Zu diesem Zweck wird geprüft, ob der Durchschnittswert der Einhüllenden deutlich und für eine längere Zeit (mind. 0,2 Sekunden) überschritten wurde. Daraus wird zunächst ein Zeitpunkt bestimmt, der als Wortmitte bezeichnet wird.
5. Detektion von Wortanfang und Wortende
Ausgehend von dieser Wortmitte wird sodann der Wortanfang und das Wortende gesucht. Dazu muß ein Schwellwert der Einhüllenden unterschritten werden, und danach für längere Zeit unterschritten bleiben (Stille vor und nach dem Wort).
6. Bestimmung von Vorläufern und Nachläufern
Manche Worte zeichnen sich dadurch aus, daß es Vor- oder Nachläufer gibt. Um dies festzustellen, wird aus der Einhüllenden eine Ableitung bestimmt. Die Beträge der Ableitungen werden im Anfangsbereich und Endbereich des Wortes aufsummiert. Je größer die erhaltenen Werte sind, desto eher kann angenommen werden, daß Vor- bzw. Nachläufer vorhanden sind. Mit diesem Merkmal wird zugleich auch ein Maß für ihre Intensität ermittelt.
7. Bestimmung der Anzahl der Silben
Die Anzahl der Silben eines Wortes kann nicht mit einfachen Algorithmen ermittelt werden, da beispielsweise das Wort "zurück" von manchen Sprechern mit, von anderen ohne Pause gesprochen wird bzw. es auch Übergänge gibt. Um ein Maß dafür zu erhalten, ob es eine Pause in der Wortmitte gibt, werden aus der Einhüllenden Ableitungen bestimmt und die Beträge der Ableitungen im Bereich der Wortmitte aufsummiert.
8. Unterteilung des Wortes in vier Teilbereiche
Mit Hilfe der Einhüllenden kann das Wort in die vier gleichgroßen Teilbereiche 1. Viertel, 2. Viertel, 3. Viertel, 4. Viertel unterteilt werden. Die Einteilung ist aus der Fig. 3 ersichtlich. Die im folgenden beschriebenen extrahierten Merkmale werden dann jeweils für diese Teilbereiche, auch Abschnitte genannt, berechnet.
Dieses Vorgehen ist sinnvoll, da sich die Eigenschaften des Zeitsignales im Verlaufe der Aussprache eines Wortes ändern. Es hat sich gezeigt, daß eine feinere Unterteilung des Wortes in wesentlich mehr Abschnitte nicht sinnvoll ist, da sich damit die pro Zeiteinheit zu verarbeitende Datenmenge erhöht, sich aber die Robustheit des Erkennungsalgorithmus hingegen verringert, da Einzelheiten des Zeitsignales und zufällige Schwankungen ein zu großes Gewicht erhalten.
9. Verwendung von stark vereinfachten digitalen Filtern
In Lehrbüchern, z. B. in "Einführung in die digitale Signalverarbeitung", H. Götz, Teubner Studienskipten, Stuttgart, 1990, S. 110, wurde gezeigt, daß die FFT (Fast Fourier Transform) im Prinzip als eine Filterbank aus vielen einzelnen Bandpässen verstanden werden kann. Dabei ist der Aufwand für die Realisierung dieser Bandpässe relativ groß.
Der Aufwand kann jedoch deutlich reduziert werden. Im Verlaufe der Entwicklung des Gegenstandes der Erfindung hat sich gezeigt, daß extrem vereinfachte digitale Filter in Kombination mit einem Perzeptron-Netzwerk zu guten Ergebnissen bei der Spracherkennung führen. Zu diesem Zweck wird das folgende, stark vereinfachte digitale Transversalfilter verwendet, das in der Fig. 4 dargestellt ist.
Es wird jeweils die Differenz aus dem aktuellen Abtastwert zt des Sprachsignales mit einem um die Zeit T älteren Wert zt- τ gebildet: dt = zt- zt- τ. Die Absolutwerte der Differenz eines Teilbereichs (Wortviertels) werden jeweils für das 1., 2., 3. und 4. Wortviertel aufsummiert und als Merkmal dem Perzeptron zugeführt. Es werden die Merkmale S₁, S₂, S₃, S₄ ermittelt:
Durch die Zeitverzögerung und die Differenzbildung ergibt sich ein frequenzselektives Verhalten des Merkmals, das von τ abhängt.
Werden unterschiedliche Verzögerungszeiten τ gewählt, so ist das Merkmal jeweils für verschiedene Frequenzbereiche sensitiv, so daß eine Frequenzanalyse des Wortes erfolgt, die mit vergleichsweise schlechten digitalen Filtern auskommt, die aber in Verbindung mit dem Anlernvorgang des neuronalen Netzes dennoch zu guten Erkennungsergebnissen führt.
Insgesamt werden ca. 20 derartige Merkmale aus dem Zeitsignal bestimmt und als Merkmal in das neuronale Netz eingespeist. Die guten Erkennungsraten basieren wesentlich auf diesem Verfahren.
10. Bestimmung der Signalenergie nach einer Tiefpaß-, Hochpaß-Filterung
Ferner wird ein einfacher digitaler Hochpaß und ein Tiefpaß verwendet, der aus der Literatur, z. B. aus "Einführung in die digitale Signalverarbeitung", H. Götz, Teubner Studienskipten, Stuttgart, 1990, hinreichend bekannt ist. Der Ausgangswert des Filters wird nach Betragsbildung zur Ermittlung einer "Signalenergie" für jedes Wortviertel aufsummiert.
11. Anzahl der Nulldurchgänge
Die Anzahl der Nulldurchgänge wird für jedes Wortviertel bestimmt und als Merkmal verwendet. Dieses Merkmal gibt Hinweise auf die Tonhöhe.
Die Schaltungsanordnung zur Spracherkennung und Sprachsteuerung ist in der Fig. 5 dargestellt. In einer Wandlerschaltung werden Sprachsignale in analoge elektrische Signale mit Hilfe eines Mikrofons und eines Verstärkers umgewandelt. Mit der Wandlerschaltung ist eine Abtastschaltung zur Erzeugung einer Anzahl digitaler Abtastwerte aus dem analogen elektrischen Signal verbunden. Die die digitalen Abtastwerte werden in einem Speicher abgelegt. Ein zentraler Mikroprozessor (CPU) ist zur Ausführung von Befehlsfolgen zur Spracherkennung und zur Steuerung der Schaltungsanordnung vorgesehen. Die Schaltung wird mit einer Taktgeneratorschaltung getaktet. Die Befehlsfolgen zur Spracherkennung werden in einem Speicher, z. B. in einem PROM, fest abgelegt. Eine Schalterkombination ist zur Einstellung binärer Zahlen vorgesehen, wobei die Stellung der Schalterkombination dem Mikroprozessor die Anzahl voneinander unterschiedlicher Kommandoworte anzeigt. Ein Anlernzyklus für die Anzahl Kommandoworte kann mit einem Taster gestartet und gestoppt werden. Während des Anlernzyklus werden Kommandoworte aufgezeichnet und jeweils pro Kommandowort mit Hilfe des Mikroprozessors Referenzmerkmale der digitalen Abtastwerte bestimmt. Die Referenzmerkmale werden in einem SRAM-Speicher abgelegt. Eine Segmentanzeige ist zur Anzeige von Zahlen vorgesehen, die jeweils einem Kommandowort oder dem Betriebsmodus der Schaltungsanordnung, inbesondere des Anlernzyklus oder eines Erkennungszyklus zur Steuerung, entsprechen. In einer bevorzugten Ausführungsform ist die mit der Wandlerschaltung verbundene Abtastschaltung zur Erzeugung einer Anzahl digitaler Abtastwerte aus dem analogen elektrischen Signal ein Bestandteil des zentralen Mikroprozessors (CPU).
Das Zeitsignal des gesprochenen Wortes wird mit einem Mikrophon aufgenommen und mit einer Abtastrate von 10 KHz aufgezeichnet. Die Aufzeichnung ist damit geringfügig besser als Telefonqualität. Die Aufnahmedauer beträgt etwa 2 Sekunden. Der Mikrocontroller beginnt mit der Aufzeichnung erst, nachdem ein Signal, das einen Schwellwert überschreitet, registriert wurde. Durch diese Maßnahme wird etwas Speicherplatz beim Aufzeichnen des Signales eingespart, zudem wartet das System auf die Sprachäußerung. Die Auswertung beginnt erst, nachdem das Signal aufgezeichnet wurde.

Claims (18)

1. Verfahren zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen, wobei ein Sprachsignal aufgezeichnet, digitalisiert und Merkmale des Sprachsignals ermittelt werden und jeweils mit Hilfe eines neuronalen Netzwerkes anhand der ermittelten Merkmale des Sprachsignals das zum Sprachsignal zugehörige Wort bestimmt wird, gekennzeichnet durch
  • a) Transversalfilterung des digitalen Sprachsignals für eine Anzahl von Frequenzbereichen;
  • b) Ermittlung von Merkmalen Mτ pro Frequenzbereich in Abhängigkeit von den Ergebnissen der Transversalfilterung des jeweiligen Frequenzbereichs;
  • c) Bestimmung eines Wortes anhand der Merkmale Mτ mit Hilfe eines Perzeptron-Netzes.
2. Verfahren nach Anspruch 1, gekennzeichnet durch Transversalfilterung des digitalen Sprachsignals mit den Schritten von:
  • a) Berechnung einer Anzahl von Differenzen dt von jeweils einem aktuellen Abtastwert zt mit einem um die Verzögerungszeit τ zurückliegenden Abtastwert zt- τ für eine Reihe von Zeitpunkten t des digitalisierten Sprachsignals;
  • b) Berechnung jeweils der Absolutwerte der Anzahl von Differenzen;
  • c) Bildung der Summe St der Absolutwerte der Anzahl von Differenzen di;
wobei jede Summe Sτ ein Merkmal Mτ für das Perzeptron-Netz ist.
3. Verfahren nach Anspruch 2, gekennzeichnet durch Ausführung der Transversalfilterung für eine Reihe von Verzögerungszeiten τ.
4. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmung der Einhüllenden des Sprachsignals, wobei jeweils in einem Teilintervall das jeweilige Maximum ermittelt und gespeichert wird.
5. Verfahren nach Anspruch 4, gekennzeichnet durch Bestimmung des Durchschnittswertes der Einhüllenden.
6. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Ermittlung des Mittelwertes des Signals, der Varianz, der Gesamtsumme des Signales und der Wortdauer.
7. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Einteilung des Sprachsignals in vier Teilbereiche.
8. Verfahren nach Anspruch 7, gekennzeichnet durch digitale Hochpaß- und Tiefpaßfilterung jeweils der Teilbereiche des Sprachsignals, wobei der Ausgangswert des Filters für jeden Teilbereich aufsummiert wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Prüfung erfolgt, ob der Durchschnittswert der Einhüllenden deutlich und für eine festgelegte Mindestzeit überschritten wurde, um zu erkennen, ob ein Wort gesprochen wurde.
10. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen der Wortmitte durch Halbierung der Zeit bestimmt, in der der Durchschnittswert der Einhüllenden deutlich und für eine festgelegte Mindestzeit überschritten ist, und Verwenden der Wortmitte als Merkmal für das Perzeptron-Netz.
11. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen des Wortanfangs und des Wortendes durch Vergleich der Einhüllenden mit einem Schwellwert, wobei bei einem Wortende der Schwellwert eine festgelegte Zeit unterschritten sein muß.
12. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Erkennen von Vor- oder Nachläufern durch Bestimmung von Ableitungen aus der Einhüllenden und Aufsummierung der Beträge der Ableitungen im Anfangsbereich und Endbereich des Wortes, wobei ein Vor- bzw. Nachläufer vorhanden ist, wenn ein festgelegter Wert überschritten ist, und Verwenden der Existenz und der Intensität der Vor- und Nachläufer als Merkmal für das Perzeptron-Netz.
13. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen der Anzahl von Silben eines Wortes durch Berechnung von Ableitungen der Einhüllenden und Aufsummierung der Beträge der Ableitungen im Bereich der Wortmitte und Verwenden der Anzahl von Silben als Merkmal für das Perzeptron-Netz.
14. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen einer Anzahl der Nulldurchgänge für jedes Wortviertel und Verwenden der Anzahl der Nulldurchgänge als Merkmal für das Perzeptron-Netz.
15. Schaltungsanordnung zur Sprachsteuerung von Vorrichtungen mit einer Wandlerschaltung zur Umwandlung von Sprachsignalen in analoge elektrische Signale, einer mit der Wandlerschaltung verbundenen Abtastschaltung zur Erzeugung einer Anzahl digitaler Abtastwerte aus dem analogen elektrischen Signal, einem Speicher für die digitalen Abtastwerte, einer Taktgeneratorschaltung, einem zentralen Mikroprozessor (CPU) zur Ausführung von Befehlsfolgen zur Spracherkennung und einem Speicher für die Befehlsfolgen zur Spracherkennung, wobei der zentrale Mikroprozessor mit den Schaltungen und Speichern zur Ansteuerung und Datenübertragung verbunden ist, gekennzeichnet durch
eine Schalterkombination zur Einstellung binärer Zahlen, wobei die Stellung der Schalterkombination dem Mikroprozessor die Anzahl voneinander unterschiedlicher Kommandoworte anzeigt,
einem Taster zum Starten und Stoppen eines Anlernzyklus, in dem Kommandoworte aufgezeichnet und jeweils pro Kommandowort mit Hilfe des Mikroprozessors Referenzmerkmale der digitalen Abtastwerte bestimmt werden,
einen fest programmierbaren Speicher zur Speicherung der Referenzmerkmale.
16. Schaltungsanordnung nach Anspruch 15, gekennzeichnet durch eine Segmentanzeige zur Anzeige von Zahlen, die jeweils einem Kommandowort oder dem Betriebsmodus der Schaltungsanordnung, inbesondere des Anlernzyklus oder eines Erkennungszyklus zur Steuerung, entsprechen.
17. Schaltungsanordnung nach einem der Ansprüche 15 oder 16, dadurch gekennzeichnet, daß die mit der Wandlerschaltung verbundene Abtastschaltung zur Erzeugung einer Anzahl digitaler Abtastwerte aus dem analogen elektrischen Signal ein Bestandteil des zentralen Mikroprozessors (CPU) ist.
DE1997105471 1997-02-13 1997-02-13 Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen Expired - Fee Related DE19705471C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1997105471 DE19705471C2 (de) 1997-02-13 1997-02-13 Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1997105471 DE19705471C2 (de) 1997-02-13 1997-02-13 Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen

Publications (2)

Publication Number Publication Date
DE19705471A1 true DE19705471A1 (de) 1997-07-24
DE19705471C2 DE19705471C2 (de) 1998-04-09

Family

ID=7820111

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997105471 Expired - Fee Related DE19705471C2 (de) 1997-02-13 1997-02-13 Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen

Country Status (1)

Country Link
DE (1) DE19705471C2 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079515A2 (de) * 1999-06-21 2000-12-28 Palux Aktiengesellschaft Einrichtung zur steuering von automaten
EP1445761A1 (de) 2003-02-07 2004-08-11 Volkswagen Aktiengesellschaft Einrichtung und Verfahren zum Betrieb von sprachunterstützten Systemen in Kraftfahrzeugen
EP1625973A1 (de) 2004-08-10 2006-02-15 Volkswagen Aktiengesellschaft Sprachunterstützungssystem für ein Kraftfahrzeug
US7010129B1 (en) 1998-05-06 2006-03-07 Volkswagen Ag Method and device for operating voice-controlled systems in motor vehicles
US7912228B2 (en) 2003-07-18 2011-03-22 Volkswagen Ag Device and method for operating voice-supported systems in motor vehicles

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1572453A1 (de) * 1967-12-16 1970-07-16 Ibm Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen
DE4010028A1 (de) * 1989-04-12 1990-10-18 Smiths Industries Plc Spracherkennungsverfahren
DE3935308C1 (en) * 1989-10-24 1991-01-10 Gebhard Prof. Dr. 7743 Furtwangen De Radi Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
DE4103913A1 (de) * 1991-02-08 1992-08-13 Nikolaus Von Seemann Verfahren und einrichtung zur steuerung von geraeten
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
DE4241688A1 (en) * 1992-03-21 1993-09-23 Atr Interpreting Telephony Res Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method
DE4328752A1 (de) * 1992-08-27 1994-03-03 Gold Star Electronics Spracherkennungssystem
DE4417557A1 (de) * 1994-05-19 1995-11-23 Daimler Benz Aerospace Ag Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
DE3337353C2 (de) * 1982-10-15 1996-05-09 At & T Technologies Inc Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE19508137A1 (de) * 1995-03-08 1996-09-12 Zuehlke Werner Prof Dr Ing Hab Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1572453A1 (de) * 1967-12-16 1970-07-16 Ibm Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen
DE3337353C2 (de) * 1982-10-15 1996-05-09 At & T Technologies Inc Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE4010028A1 (de) * 1989-04-12 1990-10-18 Smiths Industries Plc Spracherkennungsverfahren
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
DE3935308C1 (en) * 1989-10-24 1991-01-10 Gebhard Prof. Dr. 7743 Furtwangen De Radi Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE4103913A1 (de) * 1991-02-08 1992-08-13 Nikolaus Von Seemann Verfahren und einrichtung zur steuerung von geraeten
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
DE4241688A1 (en) * 1992-03-21 1993-09-23 Atr Interpreting Telephony Res Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method
DE4328752A1 (de) * 1992-08-27 1994-03-03 Gold Star Electronics Spracherkennungssystem
DE4417557A1 (de) * 1994-05-19 1995-11-23 Daimler Benz Aerospace Ag Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
DE19508137A1 (de) * 1995-03-08 1996-09-12 Zuehlke Werner Prof Dr Ing Hab Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GÖTZ, H.: Teubner Studienskripten, "Einführung in die digitale Signalverarbeitung", Stuttgart 1990, S. 110 *
ROSENBLATT, F.: "The perceptron: a probabilistic model for information storage and organisation in the brain". In: Neurocomputing: foundations of research, Massachusetts Institute of technology, 1988, S. 92 ff. *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010129B1 (en) 1998-05-06 2006-03-07 Volkswagen Ag Method and device for operating voice-controlled systems in motor vehicles
WO2000079515A2 (de) * 1999-06-21 2000-12-28 Palux Aktiengesellschaft Einrichtung zur steuering von automaten
WO2000079515A3 (de) * 1999-06-21 2001-04-26 Palux Ag Einrichtung zur steuering von automaten
EP1445761A1 (de) 2003-02-07 2004-08-11 Volkswagen Aktiengesellschaft Einrichtung und Verfahren zum Betrieb von sprachunterstützten Systemen in Kraftfahrzeugen
US7467084B2 (en) 2003-02-07 2008-12-16 Volkswagen Ag Device and method for operating a voice-enhancement system
US7912228B2 (en) 2003-07-18 2011-03-22 Volkswagen Ag Device and method for operating voice-supported systems in motor vehicles
EP1625973A1 (de) 2004-08-10 2006-02-15 Volkswagen Aktiengesellschaft Sprachunterstützungssystem für ein Kraftfahrzeug
US7760889B2 (en) 2004-08-10 2010-07-20 Volkswagen Ag Speech support system for a vehicle

Also Published As

Publication number Publication date
DE19705471C2 (de) 1998-04-09

Similar Documents

Publication Publication Date Title
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE2918533C2 (de)
DE2953262C2 (de)
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60004331T2 (de) Sprecher-erkennung
EP0821346A2 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE10030105A1 (de) Spracherkennungseinrichtung
DE2719973A1 (de) Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE3711342A1 (de) Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE19705471C2 (de) Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE10047718A1 (de) Verfahren zur Spracherkennung
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE102007036277A1 (de) Verfahren und Vorrichtung zur automatischen Mustererkennung

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SICAN F&E GMBH (SIBET), 30419 HANNOVER, DE

D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SICAN GMBH, 30419 HANNOVER, DE

8327 Change in the person/name/address of the patent owner

Owner name: SCI-WORX GMBH, 30419 HANNOVER, DE

8339 Ceased/non-payment of the annual fee