DE19705471A1 - Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen - Google Patents
Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von VorrichtungenInfo
- Publication number
- DE19705471A1 DE19705471A1 DE1997105471 DE19705471A DE19705471A1 DE 19705471 A1 DE19705471 A1 DE 19705471A1 DE 1997105471 DE1997105471 DE 1997105471 DE 19705471 A DE19705471 A DE 19705471A DE 19705471 A1 DE19705471 A1 DE 19705471A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- speech signal
- determining
- signal
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren und eine
Schaltungsanordnung zur Spracherkennung und zur
Sprachsteuerung von Vorrichtungen. Die Erkennung der
Kommandoworte erfolgt prinzipiell dadurch, daß Kommandowort-Signale
digital aufgezeichnet und Merkmale der digital
aufgezeichneten Signale berechnet werden, die in ein
neuronales Netzwerk zur Ermittlung des zugehörigen
Kommandowortes gespeist werden.
Spracherkennungsverfahren, die auf neuronalen Netzwerken
basieren, sind vor allem auf der Basis von verborgenen
Markov-Modellen (Hidden Markov-Model) oder dem Dynamic Time
Warping-Verfahren (DTW) bekannt. Diesbezüglich sei auf die
DE-PS 33 37 353 C2, DE-OS 42 41 688 A1, DE-OS 195 08 711 A1
und DE 44 17 557 A1 verwiesen. Alle diese Verfahren sind sehr
aufwendig und erfordern leistungsfähige digitale
Signalprozessoren zur Durchführung einer Frequenzanalyse.
Außerdem müssen die Daten für alle Sprachproben aufgezeichnet
und permanent verfügbar gehalten werden, damit bei dem
späteren Erkennungsvorgang das ähnlichste Wort im Vergleich
zu den Sprachproben herausgesucht werden kann.
Dementsprechend sind die Anforderungen an die
Prozessorleistung und den Speicherbedarf relativ hoch und der
Herstellungspreis vor allem zur Anwendung bei
Sprachsteuerungen zu hoch.
Der Rechenaufwand ist auch bei der in der DE-OS 41 11 995 A1
beschriebenen Schaltungsanordnung zur Spracherkennung relativ
groß, da dort eine Spektralanalyse durchgeführt werden muß.
In der DE-OS 39 31 638 A1 wird ein Verfahren zur
sprecheradaptiven Spracherkennung beschrieben, das keine
Frequenztransformation mehr erfordert. Aus dem Sprachsignal
werden Merkmalsvektoren extrahiert, die in silbenorientierte
Wortuntereinheiten segmentiert und klassifiziert werden. Pro
Wortuntereinheit wird ein Vergleich mit Referenzmustern
durchgeführt. Hierzu müssen die Referenzmuster für einen
gesamten Wortschatz abgespeichert und für den Vergleich
verfügbar gehalten werden.
In der DE-PS 39 35 308 C1 wird zur Spracherkennung die
Durchführung einer Differenzierung und einer Deltamodulation
des abgetasteten Sprach-Zeitsignals vorgeschlagen.
Anschließend wird die Anzahl der "Einsen" festgestellt, die
in Bytes vorhanden sind, die aus einer Anzahl
aufeinanderfolgender Abtastwerte gebildet werden. Die Anzahl
von "Einsen" pro Byte repräsentiert eine Hauptcodezahl, die
über die Zeit aufgetragen ein Balkenmuster bildet, das mit
Referenzmustern verglichen wird. Auch hier ist eine
Abspeicherung einer Vielzahl von Referenzmustern
erforderlich.
In der DE-OS 41 03 913 A1 ist eine Einrichtung zur
Gerätesteuerung beschrieben, bei dem ein Zeitmuster in bezug
auf die Ton- und Pausendauer ermittelt wird, das mit
Referenzmustern verglichen wird. Die Unterscheidungsfähigkeit
von Worten allein durch das Merkmal der Ton- und Pausendauer
ist in der praktischen Anwendung nicht ausreichend. Außerdem
müssen pro Kommandowort Referenzmuster abgespeichert und
verfügbar gehalten werden.
In der DE-OS 195 08 137 A1 werden Worte schrittweise
klassifiziert, indem eine Teilwortlänge, eine Anzahl von
Segmenten und eine Lauttypfolge ermittelt wird. Für den
nachfolgenden Klassifikationsschritt werden dann nur noch die
Referenzworte betrachtet, bei denen die Merkmale innerhalb
vorgegebener Toleranzen liegen.
Zur Detektion des Start- und Endpunktes eines Wortes wird in
der DE-OS 44 22 545 A1 vorgeschlagen das Sprechsignal
blockweise zu unterteilen und Merkmalsvektoren zu bilden,
indem pro Block die Signalenergie sowie die quadratische
Differenz eines LPC (Linear-Predictive-Coding)-Cepstrum-Koef
fizienten in bezug auf einen mittleren LPC-Cepstrum-Koef
fizienten bestimmt wird. Der Merkmalsvektor sowie ein
mittlerer Merkmalsvektor werden mit einem Schwellwert zur
Detektion des Start-/Endpunktes verglichen.
In der DE-OS 43 28 752 A1 wird ein Spracherkennungssystem
vorgestellt, das ein mehrschichtiges neuronales Netzwerk
erfordert. Dadurch ist der Rechenaufwand und die Anzahl von
Netzwerkknoten unerwünscht hoch.
Ausgehend von diesem Stand der Technik war es Aufgabe der
Erfindung, ein Verfahren und eine Schaltungsanordnung zur
Spracherkennung und zur Sprachsteuerung von Vorrichtungen mit
vermindertem Rechenaufwand zu schaffen, wobei nur eine
geringe Leistung eines zentralen Mikroprozessors (CPU) und
eine geringe Speicherkapazität erforderlich ist. Das
Verfahren und die Vorrichtung sollte dennoch sehr zuverlässig
und leistungsfähig sein.
Die Aufgabe wird durch das Verfahren nach Anspruch 1 und die
Schaltungsanordnung nach Anspruch 15 gelöst.
Vorteilhafte Ausgestaltungen sind in den Unteransprüchen
beschrieben.
Es hat sich gezeigt, daß die Verwendung eines
Transversalfilters in Verbindung mit einem Perzeptron-Netz
sehr gut zur wenig rechenintensiven Spracherkennung geeignet
ist. Durch die Ermittlung einer Einhüllenden und die
Aufteilung des Signals in vier Teilbereiche wird der
Rechenbedarf noch weiter verringert und die Zuverlässigkeit
des Systems gesteigert.
Werden bei dem Anlernvorgang Sprechproben von mehreren
Personen aufgenommen, ist das Verfahren in der Lage, eine
gewisse Sprecherunabhängigkeit bei der Spracherkennung zu
erreichen.
Die Erfindung wird nachfolgend anhand der Zeichnungen näher
erläutert. Es zeigen:
Fig. 1 Verfahrensprinzip zur Spracherkennung unter
Verwendung eines künstlichen neuronalen Netzes;
Fig. 2 Prinzip der Ermittlung der Einhüllenden aus dem
Zeitsignal;
Fig. 3 Berechnung der Merkmale jeweils für die vier
Wortbereiche;
Fig. 4 Stark vereinfachtes digitales Transversalfilter;
Fig. 5 Schaltungsanordnung zur Spracherkennung.
Das Verfahrensprinzip zur Spracherkennung unter Verwendung
eines neuronalen Netzes ist in der Fig. 1 dargestellt. Das
Sprachsignal ist über die Zeitachse aufgetragen.
Das Prinzip des Verfahren besteht darin, daß Merkmale zur
Erkennung des Wortes ohne aufwendige Frequenztransformation
direkt aus dem Zeitsignal extrahiert werden. Die extrahierten
Merkmale werden an ein künstliches neuronales Netz (1)
angelernt. Für jedes anzulernende Wort wird ein Perzeptron
(2) verwendet, das auf dieses Wort angelernt wird. Ein
Perzeptron ist ein einschichtiges neuronales Netz, daß z. B.
in "The perceptron: a probabilistic model for information
storage and organization in the brain" von F. Rosenblatt in
"Neurocomputing: foundations of research", Massachusetts
Institute of Technology, 1988, S. 92 ff., ausführlich
dargestellt ist. Insgesamt werden ca. 50 Merkmale aus dem
Sprachsignal extrahiert und dem neuronalen Netz (1)
angelernt.
Die Berechnung der Merkmale erfolgt durch Funktionen, die auf
dem zentralen Mikroprozessor ablaufen. Dieser ist
vorteilhafterweise ein Mikrocontroller, der Schaltungen zur
Ansteuerung von Steuerelementen und zur Analog-Digital-Wand
lung auf dem Chip aufweist.
Die ermittelten Merkmalsvektoren werden vor dem Anlernen an
das neuronale Netz (1) normiert, und zwar in der Weise, daß
für jedes Merkmal getrennt das Maximum des Betrages ermittelt
wird. Danach wird die betreffende Komponente durch diesen
Wert dividiert, womit erreicht wird, daß alle Merkmale in den
Zahlenbereich -1 . . . +1 abgebildet werden. Dies führt zu
einer Erhöhung der Erkennungsrate, da alle Merkmale gleich
stark gewichtet sind und nicht einzelne Merkmale mit einem
kleinen Absolutwert gegenüber Merkmalen mit großen
Absolutwerten vernachlässigt werden.
Für die neu zu klassifizierenden Merkmale muß entsprechend
die Multiplikation jeder Komponente erfolgen.
Im folgenden werden die Verfahrensschritte zur
Spracherkennung und zur Ermittlung der Klassifikations-Merk
male für das Sprachsignal beschrieben. Es sind
vorgesehen:
- 1. Ermittlung statistischer Größen;
- 2. Ermittlung der Einhüllenden zur Extrahierung von Merkmalen;
- 3. Bestimmung des Durchschnittswerts der Einhüllenden;
- 4. Detektion der Wortanwesenheit (kein Merkmal);
- 5. Detektion von Wortanfang und Wortende (kein Merkmal);
- 6. Bestimmung von Vorläufern und Nachläufern;
- 7. Bestimmung der Anzahl der Silben;
- 8. Unterteilung des Wortes in vier Teilbereiche;
- 9. Anwendung stark vereinfachter digitaler Filter;
- 10. Bestimmung der Signalenergie nach einer Tiefpaß und Hochpaß-Filterung;
- 11. Bestimmung der Anzahl der Nulldurchgänge.
Zunächst werden einige einfache statistische Größen aus dem
Zeitsignal berechnet, wie der Mittelwert des Signales, die
Varianz, die Gesamtsumme des Signales und die Wortdauer.
Zur Einsparung von Rechenzeit wird danach die Einhüllende des
Zeitsignals berechnet. Zu diesem Zweck wird, wie in der
Fig. 2 skizziert ist, jeweils in einem Teilintervall das
jeweilige Maximum ermittelt und gespeichert. Die Gesamtmenge
der auszuwertenden Daten reduziert sich dabei von 20 000
Abtastwerten auf ca. 150 Abtastwerte. Diese sind ausreichend,
um die Einhüllende hinreichend genau zu beschreiben. Aus der
Einhüllenden wird ein Teil der Klassifikations-Merkmale
gewonnen.
Aus der Form der Einhüllenden lassen sich dann weitere
Merkmale mit vergleichsweise geringem CPU-Aufwand berechnen.
Die Verwendung der Einhüllenden für diese
Merkmalsbestimmungen macht das Ergebnis zudem robuster gegen
einzelne Störsignale und Variationen der Aussprache.
Es wird der Durchschnittswert der Einhüllenden bestimmt.
Dieser unterscheidet sich vom Durchschnittswert des
Zeitsignales, da entsprechend der Fig. 2 eine Art
Gleichrichtung und Glättung stattgefunden hat.
Zunächst wird mit der Einhüllenden in robuster Weise
detektiert, ob überhaupt ein Wort gesprochen wurde. Zu diesem
Zweck wird geprüft, ob der Durchschnittswert der Einhüllenden
deutlich und für eine längere Zeit (mind. 0,2 Sekunden)
überschritten wurde. Daraus wird zunächst ein Zeitpunkt
bestimmt, der als Wortmitte bezeichnet wird.
Ausgehend von dieser Wortmitte wird sodann der Wortanfang und
das Wortende gesucht. Dazu muß ein Schwellwert der
Einhüllenden unterschritten werden, und danach für längere
Zeit unterschritten bleiben (Stille vor und nach dem Wort).
Manche Worte zeichnen sich dadurch aus, daß es Vor- oder
Nachläufer gibt. Um dies festzustellen, wird aus der
Einhüllenden eine Ableitung bestimmt. Die Beträge der
Ableitungen werden im Anfangsbereich und Endbereich des
Wortes aufsummiert. Je größer die erhaltenen Werte sind,
desto eher kann angenommen werden, daß Vor- bzw. Nachläufer
vorhanden sind. Mit diesem Merkmal wird zugleich auch ein Maß
für ihre Intensität ermittelt.
Die Anzahl der Silben eines Wortes kann nicht mit einfachen
Algorithmen ermittelt werden, da beispielsweise das Wort
"zurück" von manchen Sprechern mit, von anderen ohne Pause
gesprochen wird bzw. es auch Übergänge gibt. Um ein Maß dafür
zu erhalten, ob es eine Pause in der Wortmitte gibt, werden
aus der Einhüllenden Ableitungen bestimmt und die Beträge der
Ableitungen im Bereich der Wortmitte aufsummiert.
Mit Hilfe der Einhüllenden kann das Wort in die vier
gleichgroßen Teilbereiche 1. Viertel, 2. Viertel, 3. Viertel,
4. Viertel unterteilt werden. Die Einteilung ist aus der
Fig. 3 ersichtlich. Die im folgenden beschriebenen
extrahierten Merkmale werden dann jeweils für diese
Teilbereiche, auch Abschnitte genannt, berechnet.
Dieses Vorgehen ist sinnvoll, da sich die Eigenschaften des
Zeitsignales im Verlaufe der Aussprache eines Wortes ändern.
Es hat sich gezeigt, daß eine feinere Unterteilung des Wortes
in wesentlich mehr Abschnitte nicht sinnvoll ist, da sich
damit die pro Zeiteinheit zu verarbeitende Datenmenge erhöht,
sich aber die Robustheit des Erkennungsalgorithmus hingegen
verringert, da Einzelheiten des Zeitsignales und zufällige
Schwankungen ein zu großes Gewicht erhalten.
In Lehrbüchern, z. B. in "Einführung in die digitale
Signalverarbeitung", H. Götz, Teubner Studienskipten,
Stuttgart, 1990, S. 110, wurde gezeigt, daß die FFT (Fast
Fourier Transform) im Prinzip als eine Filterbank aus vielen
einzelnen Bandpässen verstanden werden kann. Dabei ist der
Aufwand für die Realisierung dieser Bandpässe relativ groß.
Der Aufwand kann jedoch deutlich reduziert werden. Im
Verlaufe der Entwicklung des Gegenstandes der Erfindung hat
sich gezeigt, daß extrem vereinfachte digitale Filter in
Kombination mit einem Perzeptron-Netzwerk zu guten
Ergebnissen bei der Spracherkennung führen. Zu diesem Zweck
wird das folgende, stark vereinfachte digitale
Transversalfilter verwendet, das in der Fig. 4 dargestellt
ist.
Es wird jeweils die Differenz aus dem aktuellen Abtastwert zt
des Sprachsignales mit einem um die Zeit T älteren Wert zt- τ
gebildet: dt = zt- zt- τ. Die Absolutwerte der Differenz
eines Teilbereichs (Wortviertels) werden jeweils für das
1., 2., 3. und 4. Wortviertel aufsummiert und als Merkmal dem
Perzeptron zugeführt. Es werden die Merkmale S₁, S₂, S₃, S₄
ermittelt:
Durch die Zeitverzögerung und die Differenzbildung ergibt
sich ein frequenzselektives Verhalten des Merkmals, das von τ
abhängt.
Werden unterschiedliche Verzögerungszeiten τ gewählt, so ist
das Merkmal jeweils für verschiedene Frequenzbereiche
sensitiv, so daß eine Frequenzanalyse des Wortes erfolgt, die
mit vergleichsweise schlechten digitalen Filtern auskommt,
die aber in Verbindung mit dem Anlernvorgang des neuronalen
Netzes dennoch zu guten Erkennungsergebnissen führt.
Insgesamt werden ca. 20 derartige Merkmale aus dem Zeitsignal
bestimmt und als Merkmal in das neuronale Netz eingespeist.
Die guten Erkennungsraten basieren wesentlich auf diesem
Verfahren.
Ferner wird ein einfacher digitaler Hochpaß und ein Tiefpaß
verwendet, der aus der Literatur, z. B. aus "Einführung in die
digitale Signalverarbeitung", H. Götz, Teubner
Studienskipten, Stuttgart, 1990, hinreichend bekannt ist. Der
Ausgangswert des Filters wird nach Betragsbildung zur
Ermittlung einer "Signalenergie" für jedes Wortviertel
aufsummiert.
Die Anzahl der Nulldurchgänge wird für jedes Wortviertel
bestimmt und als Merkmal verwendet. Dieses Merkmal gibt
Hinweise auf die Tonhöhe.
Die Schaltungsanordnung zur Spracherkennung und
Sprachsteuerung ist in der Fig. 5 dargestellt. In einer
Wandlerschaltung werden Sprachsignale in analoge elektrische
Signale mit Hilfe eines Mikrofons und eines Verstärkers
umgewandelt. Mit der Wandlerschaltung ist eine
Abtastschaltung zur Erzeugung einer Anzahl digitaler
Abtastwerte aus dem analogen elektrischen Signal verbunden.
Die die digitalen Abtastwerte werden in einem Speicher
abgelegt. Ein zentraler Mikroprozessor (CPU) ist zur
Ausführung von Befehlsfolgen zur Spracherkennung und zur
Steuerung der Schaltungsanordnung vorgesehen. Die Schaltung
wird mit einer Taktgeneratorschaltung getaktet. Die
Befehlsfolgen zur Spracherkennung werden in einem Speicher,
z. B. in einem PROM, fest abgelegt. Eine Schalterkombination
ist zur Einstellung binärer Zahlen vorgesehen, wobei die
Stellung der Schalterkombination dem Mikroprozessor die
Anzahl voneinander unterschiedlicher Kommandoworte anzeigt.
Ein Anlernzyklus für die Anzahl Kommandoworte kann mit einem
Taster gestartet und gestoppt werden. Während des
Anlernzyklus werden Kommandoworte aufgezeichnet und jeweils
pro Kommandowort mit Hilfe des Mikroprozessors
Referenzmerkmale der digitalen Abtastwerte bestimmt. Die
Referenzmerkmale werden in einem SRAM-Speicher abgelegt. Eine
Segmentanzeige ist zur Anzeige von Zahlen vorgesehen, die
jeweils einem Kommandowort oder dem Betriebsmodus der
Schaltungsanordnung, inbesondere des Anlernzyklus oder eines
Erkennungszyklus zur Steuerung, entsprechen. In einer
bevorzugten Ausführungsform ist die mit der Wandlerschaltung
verbundene Abtastschaltung zur Erzeugung einer Anzahl
digitaler Abtastwerte aus dem analogen elektrischen Signal
ein Bestandteil des zentralen Mikroprozessors (CPU).
Das Zeitsignal des gesprochenen Wortes wird mit einem
Mikrophon aufgenommen und mit einer Abtastrate von 10 KHz
aufgezeichnet. Die Aufzeichnung ist damit geringfügig besser
als Telefonqualität. Die Aufnahmedauer beträgt etwa 2
Sekunden. Der Mikrocontroller beginnt mit der Aufzeichnung
erst, nachdem ein Signal, das einen Schwellwert
überschreitet, registriert wurde. Durch diese Maßnahme wird
etwas Speicherplatz beim Aufzeichnen des Signales eingespart,
zudem wartet das System auf die Sprachäußerung. Die
Auswertung beginnt erst, nachdem das Signal aufgezeichnet
wurde.
Claims (18)
1. Verfahren zur Spracherkennung und zur Sprachsteuerung von
Vorrichtungen, wobei ein Sprachsignal aufgezeichnet,
digitalisiert und Merkmale des Sprachsignals ermittelt
werden und jeweils mit Hilfe eines neuronalen Netzwerkes
anhand der ermittelten Merkmale des Sprachsignals das
zum Sprachsignal zugehörige Wort bestimmt wird,
gekennzeichnet durch
- a) Transversalfilterung des digitalen Sprachsignals für eine Anzahl von Frequenzbereichen;
- b) Ermittlung von Merkmalen Mτ pro Frequenzbereich in Abhängigkeit von den Ergebnissen der Transversalfilterung des jeweiligen Frequenzbereichs;
- c) Bestimmung eines Wortes anhand der Merkmale Mτ mit Hilfe eines Perzeptron-Netzes.
2. Verfahren nach Anspruch 1, gekennzeichnet durch
Transversalfilterung des digitalen Sprachsignals mit den
Schritten von:
- a) Berechnung einer Anzahl von Differenzen dt von jeweils einem aktuellen Abtastwert zt mit einem um die Verzögerungszeit τ zurückliegenden Abtastwert zt- τ für eine Reihe von Zeitpunkten t des digitalisierten Sprachsignals;
- b) Berechnung jeweils der Absolutwerte der Anzahl von Differenzen;
- c) Bildung der Summe St der Absolutwerte der Anzahl von Differenzen di;
wobei jede Summe Sτ ein Merkmal Mτ für das
Perzeptron-Netz ist.
3. Verfahren nach Anspruch 2, gekennzeichnet durch
Ausführung der Transversalfilterung für eine Reihe von
Verzögerungszeiten τ.
4. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Bestimmung der Einhüllenden des
Sprachsignals, wobei jeweils in einem Teilintervall das
jeweilige Maximum ermittelt und gespeichert wird.
5. Verfahren nach Anspruch 4, gekennzeichnet durch
Bestimmung des Durchschnittswertes der Einhüllenden.
6. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Ermittlung des Mittelwertes des
Signals, der Varianz, der Gesamtsumme des Signales und
der Wortdauer.
7. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Einteilung des Sprachsignals in vier
Teilbereiche.
8. Verfahren nach Anspruch 7, gekennzeichnet durch digitale
Hochpaß- und Tiefpaßfilterung jeweils der Teilbereiche
des Sprachsignals, wobei der Ausgangswert des Filters für
jeden Teilbereich aufsummiert wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, wobei
eine Prüfung erfolgt, ob der Durchschnittswert der
Einhüllenden deutlich und für eine festgelegte
Mindestzeit überschritten wurde, um zu erkennen, ob ein
Wort gesprochen wurde.
10. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Bestimmen der Wortmitte durch
Halbierung der Zeit bestimmt, in der der
Durchschnittswert der Einhüllenden deutlich und für eine
festgelegte Mindestzeit überschritten ist, und Verwenden
der Wortmitte als Merkmal für das Perzeptron-Netz.
11. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Bestimmen des Wortanfangs und des
Wortendes durch Vergleich der Einhüllenden mit einem
Schwellwert, wobei bei einem Wortende der Schwellwert
eine festgelegte Zeit unterschritten sein muß.
12. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Erkennen von Vor- oder Nachläufern
durch Bestimmung von Ableitungen aus der Einhüllenden und
Aufsummierung der Beträge der Ableitungen im
Anfangsbereich und Endbereich des Wortes, wobei ein Vor- bzw.
Nachläufer vorhanden ist, wenn ein festgelegter Wert
überschritten ist, und Verwenden der Existenz und der
Intensität der Vor- und Nachläufer als Merkmal für das
Perzeptron-Netz.
13. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Bestimmen der Anzahl von Silben
eines Wortes durch Berechnung von Ableitungen der
Einhüllenden und Aufsummierung der Beträge der
Ableitungen im Bereich der Wortmitte und Verwenden der
Anzahl von Silben als Merkmal für das Perzeptron-Netz.
14. Verfahren nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch Bestimmen einer Anzahl der
Nulldurchgänge für jedes Wortviertel und Verwenden der
Anzahl der Nulldurchgänge als Merkmal für das
Perzeptron-Netz.
15. Schaltungsanordnung zur Sprachsteuerung von Vorrichtungen
mit einer Wandlerschaltung zur Umwandlung von
Sprachsignalen in analoge elektrische Signale, einer mit
der Wandlerschaltung verbundenen Abtastschaltung zur
Erzeugung einer Anzahl digitaler Abtastwerte aus dem
analogen elektrischen Signal, einem Speicher für die
digitalen Abtastwerte, einer Taktgeneratorschaltung,
einem zentralen Mikroprozessor (CPU) zur Ausführung von
Befehlsfolgen zur Spracherkennung und einem Speicher für
die Befehlsfolgen zur Spracherkennung, wobei der zentrale
Mikroprozessor mit den Schaltungen und Speichern zur
Ansteuerung und Datenübertragung verbunden ist,
gekennzeichnet durch
eine Schalterkombination zur Einstellung binärer Zahlen, wobei die Stellung der Schalterkombination dem Mikroprozessor die Anzahl voneinander unterschiedlicher Kommandoworte anzeigt,
einem Taster zum Starten und Stoppen eines Anlernzyklus, in dem Kommandoworte aufgezeichnet und jeweils pro Kommandowort mit Hilfe des Mikroprozessors Referenzmerkmale der digitalen Abtastwerte bestimmt werden,
einen fest programmierbaren Speicher zur Speicherung der Referenzmerkmale.
eine Schalterkombination zur Einstellung binärer Zahlen, wobei die Stellung der Schalterkombination dem Mikroprozessor die Anzahl voneinander unterschiedlicher Kommandoworte anzeigt,
einem Taster zum Starten und Stoppen eines Anlernzyklus, in dem Kommandoworte aufgezeichnet und jeweils pro Kommandowort mit Hilfe des Mikroprozessors Referenzmerkmale der digitalen Abtastwerte bestimmt werden,
einen fest programmierbaren Speicher zur Speicherung der Referenzmerkmale.
16. Schaltungsanordnung nach Anspruch 15, gekennzeichnet
durch eine Segmentanzeige zur Anzeige von Zahlen, die
jeweils einem Kommandowort oder dem Betriebsmodus der
Schaltungsanordnung, inbesondere des Anlernzyklus oder
eines Erkennungszyklus zur Steuerung, entsprechen.
17. Schaltungsanordnung nach einem der Ansprüche 15 oder 16,
dadurch gekennzeichnet, daß die mit der Wandlerschaltung
verbundene Abtastschaltung zur Erzeugung einer Anzahl
digitaler Abtastwerte aus dem analogen elektrischen
Signal ein Bestandteil des zentralen Mikroprozessors
(CPU) ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1997105471 DE19705471C2 (de) | 1997-02-13 | 1997-02-13 | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1997105471 DE19705471C2 (de) | 1997-02-13 | 1997-02-13 | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19705471A1 true DE19705471A1 (de) | 1997-07-24 |
DE19705471C2 DE19705471C2 (de) | 1998-04-09 |
Family
ID=7820111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1997105471 Expired - Fee Related DE19705471C2 (de) | 1997-02-13 | 1997-02-13 | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19705471C2 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000079515A2 (de) * | 1999-06-21 | 2000-12-28 | Palux Aktiengesellschaft | Einrichtung zur steuering von automaten |
EP1445761A1 (de) | 2003-02-07 | 2004-08-11 | Volkswagen Aktiengesellschaft | Einrichtung und Verfahren zum Betrieb von sprachunterstützten Systemen in Kraftfahrzeugen |
EP1625973A1 (de) | 2004-08-10 | 2006-02-15 | Volkswagen Aktiengesellschaft | Sprachunterstützungssystem für ein Kraftfahrzeug |
US7010129B1 (en) | 1998-05-06 | 2006-03-07 | Volkswagen Ag | Method and device for operating voice-controlled systems in motor vehicles |
US7912228B2 (en) | 2003-07-18 | 2011-03-22 | Volkswagen Ag | Device and method for operating voice-supported systems in motor vehicles |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1572453A1 (de) * | 1967-12-16 | 1970-07-16 | Ibm | Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen |
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
DE3935308C1 (en) * | 1989-10-24 | 1991-01-10 | Gebhard Prof. Dr. 7743 Furtwangen De Radi | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
DE4103913A1 (de) * | 1991-02-08 | 1992-08-13 | Nikolaus Von Seemann | Verfahren und einrichtung zur steuerung von geraeten |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
DE4241688A1 (en) * | 1992-03-21 | 1993-09-23 | Atr Interpreting Telephony Res | Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method |
DE4328752A1 (de) * | 1992-08-27 | 1994-03-03 | Gold Star Electronics | Spracherkennungssystem |
DE4417557A1 (de) * | 1994-05-19 | 1995-11-23 | Daimler Benz Aerospace Ag | Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
DE3337353C2 (de) * | 1982-10-15 | 1996-05-09 | At & T Technologies Inc | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells |
DE19508137A1 (de) * | 1995-03-08 | 1996-09-12 | Zuehlke Werner Prof Dr Ing Hab | Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
-
1997
- 1997-02-13 DE DE1997105471 patent/DE19705471C2/de not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1572453A1 (de) * | 1967-12-16 | 1970-07-16 | Ibm | Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen |
DE3337353C2 (de) * | 1982-10-15 | 1996-05-09 | At & T Technologies Inc | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells |
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
DE3935308C1 (en) * | 1989-10-24 | 1991-01-10 | Gebhard Prof. Dr. 7743 Furtwangen De Radi | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
DE4103913A1 (de) * | 1991-02-08 | 1992-08-13 | Nikolaus Von Seemann | Verfahren und einrichtung zur steuerung von geraeten |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
DE4241688A1 (en) * | 1992-03-21 | 1993-09-23 | Atr Interpreting Telephony Res | Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method |
DE4328752A1 (de) * | 1992-08-27 | 1994-03-03 | Gold Star Electronics | Spracherkennungssystem |
DE4417557A1 (de) * | 1994-05-19 | 1995-11-23 | Daimler Benz Aerospace Ag | Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
DE19508137A1 (de) * | 1995-03-08 | 1996-09-12 | Zuehlke Werner Prof Dr Ing Hab | Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
Non-Patent Citations (2)
Title |
---|
GÖTZ, H.: Teubner Studienskripten, "Einführung in die digitale Signalverarbeitung", Stuttgart 1990, S. 110 * |
ROSENBLATT, F.: "The perceptron: a probabilistic model for information storage and organisation in the brain". In: Neurocomputing: foundations of research, Massachusetts Institute of technology, 1988, S. 92 ff. * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010129B1 (en) | 1998-05-06 | 2006-03-07 | Volkswagen Ag | Method and device for operating voice-controlled systems in motor vehicles |
WO2000079515A2 (de) * | 1999-06-21 | 2000-12-28 | Palux Aktiengesellschaft | Einrichtung zur steuering von automaten |
WO2000079515A3 (de) * | 1999-06-21 | 2001-04-26 | Palux Ag | Einrichtung zur steuering von automaten |
EP1445761A1 (de) | 2003-02-07 | 2004-08-11 | Volkswagen Aktiengesellschaft | Einrichtung und Verfahren zum Betrieb von sprachunterstützten Systemen in Kraftfahrzeugen |
US7467084B2 (en) | 2003-02-07 | 2008-12-16 | Volkswagen Ag | Device and method for operating a voice-enhancement system |
US7912228B2 (en) | 2003-07-18 | 2011-03-22 | Volkswagen Ag | Device and method for operating voice-supported systems in motor vehicles |
EP1625973A1 (de) | 2004-08-10 | 2006-02-15 | Volkswagen Aktiengesellschaft | Sprachunterstützungssystem für ein Kraftfahrzeug |
US7760889B2 (en) | 2004-08-10 | 2010-07-20 | Volkswagen Ag | Speech support system for a vehicle |
Also Published As
Publication number | Publication date |
---|---|
DE19705471C2 (de) | 1998-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
DE2918533C2 (de) | ||
DE2953262C2 (de) | ||
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE60123161T2 (de) | Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE60004331T2 (de) | Sprecher-erkennung | |
EP0821346A2 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE69924596T2 (de) | Auswahl akustischer Modelle mittels Sprecherverifizierung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2719973A1 (de) | Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache | |
DE60212725T2 (de) | Verfahren zur automatischen spracherkennung | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69813597T2 (de) | Mustererkennung, die mehrere referenzmodelle verwendet | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE3711342A1 (de) | Verfahren zum erkennen zusammenhaengend gesprochener woerter | |
DE19705471C2 (de) | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen | |
DE10047718A1 (de) | Verfahren zur Spracherkennung | |
WO1993002448A1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
DE102007036277A1 (de) | Verfahren und Vorrichtung zur automatischen Mustererkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAV | Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1 | ||
OP8 | Request for examination as to paragraph 44 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: SICAN F&E GMBH (SIBET), 30419 HANNOVER, DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: SICAN GMBH, 30419 HANNOVER, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: SCI-WORX GMBH, 30419 HANNOVER, DE |
|
8339 | Ceased/non-payment of the annual fee |