DE69518674T2

DE69518674T2 - Verfahren und Gerät zur Spracherkennung

Info

Publication number: DE69518674T2
Application number: DE69518674T
Authority: DE
Inventors: Philippe Bardaud; Gerard Chollet
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1994-01-28
Filing date: 1995-01-13
Publication date: 2001-06-13
Anticipated expiration: 2015-01-14
Also published as: DE69518674D1; US6006180A; FR2715755B1; EP0665531A1; EP0665531B1; FR2715755A1

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten eines Sprachsignals.
Das technische Gebiet der Erfindung ist das Gebiet der Verfahren und Vorrichtungen zur Signalverarbeitung.
Die Erfindung betrifft insbesondere ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen, um das Erkennen von Signalen gestörter oder verzerrter Sprache zu erleichtern, insbesondere Sätze, die von einem Tiefwassertaucher ausgesprochen wurden.
Es ist bekannt, daß die Sprache von Tauchern aus unterschiedlichen Gründen verzerrt und schwierig erfaßbar (d. h. insbesondere durch einen Menschen verstehbar) ist; tatsächlich verändern die Zusammensetzung des durch den Taucher eingeatmeten Gasgemischs, die sich deutlich von der Gaszusammensetzung der gewöhnlichen Erdatmosphäre unterscheidet (diese Mischungen bestehen im allgemeinen aus Stickstoff, Sauerstoff, Helium, Wasserstoff...), wie auch der Druck der Gasmischung und andere Parameter Verzerrungen von durch den Sprecher (den Taucher) ausgesprochenen Sätzen bzw. führen zu diesen, und infolgedessen verändern sie die Gestalt und Eigenschaften von entsprechenden Sprachsignalen, die durch ein Mikrofon abgegeben werden, vor dem der Taucher spricht.
Es wurden Arbeiten ausgeführt, um die Mechanismen dieser Verzerrungen zu verstehen, und um zu versuchen, die Erfaßbarkeit der Sprache der Taucher zu verbessern.
Unter diesen Veränderungen hat man Variationen der Tonhöhe ("Pitch") und der Formanten festgestellt.
Das Dokument "the helium speech effect and electronic techniques for enhancing intelligibility in a helium-oxygen environment", JACK et al. The Radio and Electronic Engineer, vol. 52, no 5, Seiten 211-223, Mai 1982, beschreibt Techniken, die eingesetzt werden, um die Erfaßbarkeit der Sprache von Tauchern zu verbessern.
Die bis heute bekannten Systeme verändern in Echtzeit die durch ein Mikrofon, vor dem der Taucher spricht, abgegebenen Signale verzerrter Sprache mithilfe von mehr oder weniger ausgeklügelten elektronischen Vorrichtungen, deren Funktionsweise auf einer (naturgemäß näherungsweisen) Modellbildung der Mechanismen der Verzerrung der Sprache beruht, um das Verstehen der durch den Taucher ausgesprochenen Sätze durch einen im allgemeinen an Land oder an der Oberfläche des Wassers befindlichen Gesprächspartner zu ermöglichen.
Diese Vorrichtungen zum Korrigieren von Signalen sind im allgemeinen an Land oder auf einer Oberfläche (beispielsweise auf einem Schiff oder einer Plattform) angeordnet, oder sie umfassen einen Teil, der in der Nähe des Tauchers vorgesehen ist, wie beispielsweise in dem Patent US 4,342,104 (JACK).
Das gestellte Problem besteht darin, ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen bereitzustellen, die dazu bestimmt sind, in einem System zum Erkennen von verzerrten Sätzen eingesetzt zu werden, und die das Erfassen von Sprachsignalen erleichtern oder verbessern.
Die Lösung des gestellten Problems besteht darin, eine Vorrichtung gemäß Anspruch 5 bereitzustellen. Die Vorrichtung umfaßt elektronische Mittel, die vorzugsweise im wesentlichen digital sind, um, vorzugsweise im wesentlichen linear, die Formanten- bzw. Bildungsfrequenz (f1, f2) des Sprachsignals in einem Verhältnis in der Nähe von 2 bis 3 zu erhöhen, das heißt um die Bildungsfrequenzen (d. h. die Frequenzen, um die herum ein wesentlicher Teil der Energie des Sprachsignals wegen Resonanzen im menschlichen Sprachresonanzraum bei diesen Frequenzen konzentriert ist) um eine Zahl in der Nähe von 2 bis 3 zu multiplizieren.
Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung:
- Extraktionsmittel, um aus dem Sprachsignal (P) ein Anregungssignal (oder ein Restsignal), das für die Klang- und Vibrationsquellen von Sätzen (Stimmbänder, Strömen des eingeatmeten Gases, ...) repräsentativ ist, zu extrahieren (d. h. ausgehend von dem Sprachsignal zu berechnen),
- Mittel zum Bestimmen einer Umhüllung, um ausgehend von dem Sprachsignal Koeffizienten zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Sprachsignals (oder charakteristisch für die Formanten) sind,
- Mittel zur Interpolation, um ausgehend von dem Anregungssignal ein interpoliertes Anregungssignal zu erzeugen, das ein Chronogramm von mit dem Chronogramm des Anregungssignals identischer Form (Gestalt) hat, und das eine (zeitliche) Dichte von Punkten (oder von Meßpunkten oder Werten) hat, die das Doppelte oder das Dreifache der Dichte der Punkte des Anregungssignals sind,
- Mittel zur Synthese eines Signals (D) von simulierter verzerrter Sprache (oder simulierter Hyperbar-Sprache) ausgehend von dem interpolierten Anregungssignal und den charakteristischen Koeffizienten.
Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung ein Modul zur Kodierung mittels linearer Vorhersage, das die Mittel zum Extrahieren und die Mittel zum Bestimmen der Umhüllung einschließt (oder bildet).
Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung Mittel zum Vorbehandeln des Sprachsignals, die umfassen:
- Mittel zum vorherigen Hervorheben, um die Komponenten des Sprachsignals von höherer Frequenz leicht zu vergrößern,
- Fenstermittel, um einen Abschnitt des Signals, d. h. ein Fenster oder eine zeitliche Folge von Meßwerten des Sprachsignals entsprechend einer Kurve von vorbestimmter Form, beispielsweise eines sogenannten Hammingfensters, zu gewichten.
Die Erfindung besteht somit darin, eine Vorrichtung zum Erkennen von Signalen (A) verzerrter Sprache (d. h. von Sprache, die in einer Atmosphäre ausgesprochen wird, deren Gaszusammensetzung und/oder -druck von der der gewöhnlichen Erdatmosphäre verschieden ist), die über ein Mikrofon abgegeben werden, die ein Modul zum Vergleichen der verzerrten Signale (A) mit simulierten verzerrten Signalen (D) enthält, die man ausgehend von Signalen (P) nicht verzerrter Sprache, die zuvor digitalisiert und in einem Speicher abgelegt wurden, erhält (erzeugt), und wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen der nicht verzerrten digitalisierten Signale liegen.
Vorteilhaft umfaßt eine Vorrichtung zum Erkennen:
- eine Vorrichtung zum Erzeugen und zum Ablegen von Daten (s), die für simulierte verzerrte Signale (D) repräsentativ sind, welche ausgehend von Signalen nicht verzerrter Sprache (P) erhalten wurden, in einem Speicher (beispielsweise, indem eine Datenbasis oder eine Datei von spezifischen Daten eines bestimmten Sprechers gebildet wird), die umfaßt:
- Mittel zum Umsetzen, um ein analoges Sprachsignal in eine zeitliche Folge von digitalen Werten oder Meßpunkten x(n) von nicht verzerrter Sprache zu digitalisieren (oder punktweise zu erfassen),
- digitale Mittel (oder einen digitalen Filter) zum vorherigen Hervorheben, um die Komponenten des punktweise erfaßten Sprachsignals x(n) leicht zu vergrößern,
- Fenstermittel, um ein Fenster (oder eine zeitliche Folge von Meßpunkten des Signals nicht verzerrter Sprache) entsprechend einer Kurve von vorbestimmter Form zu gewichten,
- Mittel zum Extrahieren, um aus den Sprachdaten x(n), die für das Signal nicht verzerrter Sprache repräsentativ sind, digitale Anregungsdaten e(n) zu extrahieren, die repräsentativ für ein Anregungssignal sind,
- Mittel zum Bestimmen der Umhüllung, um ausgehend von den Daten nicht verzerrter Sprache Koeffizienten a(i) zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Signals nicht verzerrter Sprache (oder charakteristisch für die Formanten) sind,
- Mittel zur linearen Interpolation, um ausgehend von den Anregungsdaten e(n) interpolierte Anregungsdaten ei(n) zu erzeugen, die ein Chronogramm von mit dem Chronogramm der Anregungsdaten identischer Form (Gestalt) haben, und die eine (zeitliche) Dichte von Punkten (oder Meßpunkten oder Werten) haben, die das Doppelte oder das Dreifache der Dichte der Punkte der Anregungsdaten ist,
- Mittel zur Synthese (mittels Berechnung) von Daten s (n), die repräsentativ für ein Signal simulierter verzerrter Sprache sind, ausgehend von den interpolierten Anregungsdaten ei(n) und den charakteristischen Koeffizienten a(i),
- Mittel zum Umsetzen der Daten s(n) von simulierter verzerrter Sprache in analoge Signale (D) von simulierter verzerrter Sprache,
- eine Vorrichtung zum Vergleichen von Signalen (A) verzerrter Sprache mit den simulierten verzerrten Signalen (D).
Die Erfindung besteht gleichermaßen darin, ein Verfahren zum Erkennen von Signalen (A) verzerrter Sprache, die über ein Mikrofon abgegeben werden, einzusetzen, in dem:
- man Signale (P) nicht verzerrter Sprache, die von einem Sprecher abgegeben werden, der sich zumindest unter Bedingungen (insbesondere eingeatmete Gasmischung und Druck) befindet, die ähnlich oder identisch mit denen der durchschnittlichen oder normalen Erdatmosphäre sind, digitalisiert und in einem Speicher ablegt,
- man verzerrte Signale (D) erzeugt, die ausgehend von diesen Signalen (B) nicht verzerrter Sprache simuliert sind, wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen dieser nicht verzerrten Signale (die digitalisiert wurden) liegen,
- man mit Hilfe eines Vergleichsmoduls beispielsweise durch Abstandsberechnungen diese verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D) vergleicht.
Vorteilhaft wird bei einem erfindungsgemäßen Verfahren:
- dieses Signal (P) bei einer ersten Frequenz (fe), die beispielsweise in der Nähe von 10 kHz (10.000 Hz) liegt, erfaßt und digitalisiert, wobei die erhaltenen nachfolgenden Werte oder Daten (y(1), ..., y(n)) in einem Speicher abgelegt werden
- dieses Signal (D) wird durch Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz von für dieses Signal (D) repräsentativen Daten (s(1), ...s(3n)) erhalten,
- diese Daten, die für das Signal (D) repräsentativ sind, werden durch Synthese oder Superposition von für ein interpoliertes Anregungssignal (ei) repräsentativen Daten (ei(1), ..., ei(3n)) und einer durch Koeffizienten (a(1), ..., a(k)) bestimmten spektralen Umhüllung erhalten,
- die Daten, die für das interpolierte Anregungssignal (ei) repräsentativ sind, werden durch Interpolation von Daten (e(1), ..., e(n)) erhalten, die für ein nicht interpoliertes Anregungssignal (e) repräsentativ sind,
- die Daten, die für das nicht interpolierte Anregungssignal (e) repräsentativ sind, werden wie auch die charakteristischen Koeffizienten der spektralen Umhüllung ausgehend von dem Signal (P) nicht verzerrter Sprache mittels einer Kodierungsmethode durch lineare Vorhersage (LPC: "linear predictive coding") berechnet (d. h. extrahiert).
Alternativ werden diese simulierten verzerrten Signale erzeugt, indem man ein Verfahren der multiplen linearen Regression (LMR: "linear multiple regression") verwendet, das auf die Zepstralvektoren dieser digitalisierten Signale nicht verzerrter Sprache angewendet wird.
Ein mit der Erfindung erzielter Vorteil ist es, daß man (ausgehend von Signalen "sauberer", d. h. nicht verzerrter Sprache) leicht Dateien oder eine Datenbasis von simulierten Signalen bilden kann, die für simulierte verzerrte Sprache repräsentativ sind.
Man kann somit kostengünstig für jeden Taucher oder Sprecher eine persönliche Datei von (Signalen von) Sätzen (oder Wörtern), die unter normalen Bedingungen ausgesprochen wurden, und eine entsprechende persönliche Datei bilden, die Signale enthält, die für dieselben Wörter unter simulierten Bedingungen der Verzerrung repräsentativ sind (d. h. Signale von simulierten verzerrten Sätzen).
Man kann somit diese Signale von simulierten verzerrten Sätzen (beispielsweise einige -zig oder einige 100 Wörter) in einem Speicherträger speichern, der von einem "verschifften", d. h. in der Nähe des Tauchers, wenn dieser beim Tauchen ist, angeordneten oder eingetauchten System, verwendet werden kann; dies kann es dem Taucher erlauben, selbst (in Echtzeit oder mit geringer Verzögerung) zu kontrollieren, ob die verzerrten Sätze, die er spricht, von dem System zum Erkennen erkannt werden; dies stellt einen wesentlichen Fortschritt bezüglich den bekannten Systemen zur Spracherkennung da, deren Ergebnisse (Erkennen oder Nichterkennen eines verzerrt ausgesprochenen Worts) vom Sprecher nicht gekannt werden können.
Dies stellt insbesondere Vorteile hinsichtlich der Sicherheit für den Taucher selbst da, wenn er mit einem Gesprächspartner kommunizieren will, der sich an der Oberfläche befindet (oder ebenfalls beim Tauchen ist), und es kann es dem Taucher außerdem ermöglichen, Unterwasserwerkzeuge mit Hilfe des ins Wasser getauchten Systems zur Spracherkennung zu steuern, was praktisch unmöglich ist, wenn sich das Erkennungssystem auf der Oberfläche oder sogar an Land befindet.
Die Leistungen der erfindungsgemäßen Systeme werden im Vergleich zu den bekannten Systemen bedeutend verbessert, insbesondere dank der Tatsache, daß man vorzugsweise verzerrte Sätze mit simulierten verzerrten Sätzen vergleicht, die ausgehend von nicht verzerrten Sätzen erzeugt wurden, welche von dem selben Sprecher ausgesprochen wurden.
Ein weiterer erzielter Vorteil ist es, daß man kostengünstig Dateien (oder Datenbasen) von simulierten verzerrten Sätzen erzeugen kann, die verwendet werden können, um die Leistungen anderer Erkennungssysteme zu überprüfen.
Die Eigenschaften und Vorteile der Erfindung werden besser im Zuge der folgenden Beschreibung ersichtlich, die sich auf die beigefügten Zeichnungen bezieht, die, ohne einen einschränkenden Charakter zu haben, Ausführungsformen der Erfindung beschreiben.
Fig. 1 stellt schematisch die wesentlichen Teile einer erfindungsgemäßen Vorrichtung und deren Verwendung gemäß eines erfindungsgemäßen Verfahrens dar.
Fig. 2 stellt schematisch ein Chronogramm eines Signals P nicht verzerrter Sprache dar, und
Fig. 3 stellt schematisch die Gestalt des Spektrums dieses Signals dar,
Fig. 4 stellt schematisch ein Chronogramm eines Anregungssignals E und eines interpolierten Anregungssignals Ei dar, welches ausgehend von dem Anregungssignal E erhalten wurde.
Fig. 5 stellt schematisch eine spektrale Umhüllungskurve dar, die für die Synthese eines simulierten Signals verzerrter Sprache verwendet wurde.
Fig. 6 stellt schematisch die Funktionsweise eines Simulators dar, der eine Kodierungsmethode durch lineare Vorhersage verwendet.
Unter Bezug insbesondere auf Fig. 1 umfaßt eine erfindungsgemäße Vorrichtung zum Erkennen:
- ein Mikrofon 1, das für von einem Sprecher ausgesprochene Sätze empfindlich ist, wobei das Mikrofon Signale P nicht verzerrter Sprache an einen Analog-Digital-Umsetzer 2 abgibt, der das Signal P mit einer von einem Taktgeber 5 gesteuerten Erfassungsfrequenz Fe erfaßt; die erhaltenen (n) Digitaldaten (oder Meßwerte) y(1), ..., y(n), siehe Fig. 1 und Fig. 2, werden in einem Speicher 3 abgelegt, der nach Datenbasen strukturiert sein kann;
- eine Vorrichtung zum Simulierender Verzerrung des Sprachsignals P, die umfaßt:
- einen Digitalfilter 4 zum vorherigen Hervorheben, an den die Daten y(1), ..., y(n) abgeben werden, welche anschließend einem Gewichter oder Fenstermodul 6 zugeführt werden, der n vorbehandelte Daten x(1), ..., x(n) abgibt, die für das vorbehandelte Signal P repräsentativ sind;
- ein Modul 9 zum Kodieren durch lineare Vorhersage, das ein Modul 7 zum Berechnen oder Extrahieren von n Daten e(1), ...e(n) umfaßt, die für ein Anregungssignal E (Fig. 4) repräsentativ sind, und das ein Modul 8 zum Berechnen von k Koeffizienten a(1), ..., a(k) umfaßt, die für die spektrale Umhüllung Fig. 5 des Signals P (mit Ausnahme des Peaks (der Spitze), dessen Mitte sich bei der Frequenz f0, die dem "pitch" entspricht - siehe Fig. 3 - befindet) repräsentativ sind;
- ein Modul 10 zum Interpolieren, welches die Dichte der Punkte (oder Werte) des Signals E verdoppelt oder verdreifacht, um ein mit dem Signal E identisches interpoliertes Anregungssignal Ei (Fig. 4) abzugeben;
- ein Modul 11 zur Synthese, das Daten s(1), ..., s(3n), die für ein simuliertes verzerrtes Signal S repräsentativ sind, durch Superposition des interpolierten Anregungssignals und der durch die k Koeffizienten a(1), ..., a(k) definierten spektralen Umhüllung berechnet;
- ein Ausgangsspeicher 13 erlaubt das Ablegen des simulierten verzerrten Signals S in digitaler Form;
- diese Daten s(1), ..., s(3n), die für das simulierte verzerrte Signal 5 repräsentativ sind, können somit dem Eingang eines Digital-Analog-Umsetzers 12 zugeführt werden, der durch einen Taktgeber 14 gesteuert wird, welcher ein Abfragesignal mit einer Ausgangsabfragefrequenz fs abgibt, die das Doppelte oder Dreifache der Eingangsabfragefrequenz fe des Umsetzers 2 ist;
- das somit erhaltene analoge Signal D simulierter verzerrter Sprache wird mit einem Signal A tatsächlich verzerrter Sprache verglichen, das über ein Mikrofon (15) abgegeben wurde.
Der Simulator für verzerrte Sprache kann eventuell anstelle von Mitteln zum Berechnen mittels LPC Mittel zum Berechnen mittels LMR verwenden.
Die Verwendung der Berechnungsmethode mittels LPC erlaubt es, in dem Sprachsignal am Eingang den Beitrag der Klangquellen (insbesondere der die Tonhöhe bestimmenden Stimmbänder) in dem Sprachsignal P von dem Beitrag der Resonanzräume des Sprechers zu trennen, der sich in der spektralen Umhüllung ausdrückt, die durch besondere Frequenzen (Formanten, Bildungsfrequenzen) charakterisiert ist.
Das Prinzip der Verwendung dieser Methode ist das folgende (siehe insbesondere Fig. 6):
Die Erzeugung eines Sprachsignals X durch einen bestimmten Sprecher wird schematisch wie folgt im Modell dargestellt: Das Sprachsignal X ist Ergebnis des Filterns des Anregungssignals E mit einem Allespolfilter H(z); H(z) kann definiert werden durch:
H(z)*(Σj a(j)*zj) = 1,
wobei j von 1 bis k variiert;
in diesem Schema repräsentiert H(z) die Transformation des durch die Stimmbänder erzeugten Signals klanglicher Anregung E durch die Resonanzen des Resonanzraums des Sprechers, welche im Spektrum des Sprachsignals P (Fig. 3) ihren Ausdruck in Maxima finden, deren Mittelpunkt sich bei den Frequenzen f1, f2 befindet, die als Formanten (Bildungsfrequenzen) bezeichnet werden; diese spektrale Umhüllung (Fig. 5), die durch die k Koeffizienten a(j) im Modell erfaßt wird, hat eine Form, die mit derjenigen des Spektrums des Signals P identisch ist oder dieser sehr nahe ist, mit Ausnahme des Peaks, dessen Mitte sich bei der Grundfrequenz f0 (Tonhöhe) befindet, und welchen man in den Anregungssignalen E und EI in der Form von Peaks findet, die in einem Zeitintervall t0 = 1/f0 voneinander beabstandet sind (Fig. 4);
man nimmt an, daß der n-te Datenpunkt x(n) des Sprachsignals eine lineare Kombination des Datenpunkts e(n) des Anregungssignals und von k vorausgehenden Datenpunkten ist, was man als:
x(n) = e(n) - Σj (a(j) * x (n-j))
schreiben kann, wobei j von 1 bis k variiert; die Koeffizienten a(j) sind Vorhersagekoeffizienten; wenn der Anregungsdatenpunkt e(n) = 0 ist, kann man unter Anwendung der obigen Formel den Wert x(n) des Datenpunkts des Sprachsignals mit einem Vorhersagefehler vorhersagen, dessen Betrag err(n) ist:
err(n) = Σj(a(j)*(n-j),
wobei j Von 1 bis k variiert; gemäß der Methode LPC bestimmt man für jeden Datenpunkt x(n) die k Werte von k Koeffizienten a(1), ..., a(k), die es erlauben, den Vorhersagefehler zu minimieren, was dazu führt, daß der quadratische Fehler Q minimiert wird, der gegeben ist durch:
Q = Σm(err (m))²,
wobei m von 0 bis (T-1) variiert, wobei T die Datenpunktzahl des in Betracht gezogenen zeitlichen Fensters ist;
dies heißt mit anderen Worten, daß die partielle Ableitung des quadratischen Fehlers bezüglich der Koeffizienten a(j) Null sein muß.
Aus diesen Rechnungen erhält man die Werte e(1), ..., e(n), die für ein an das Anregungssignal angepaßtes Fehlersignal und für eine spektrale Umhüllung der Übertragungsfunktion, die dem Resonanzraum entspricht, repräsentativ sind.
Man hat überraschenderweise festgestellt, daß eine lineare Transformation der spektralen Umhüllung (d. h. der Bildungsfrequenzen f1, f2, siehe Fig. 3) eine zufriedenstellende Simulation der Transformationen gibt, die auf die Sprechbedingungen zurückzuführen sind man interpoliert das Anregungssignal E vorzugsweise im Verhältnis von 2 oder 3.
Man synthetisiert ein Ausgangssignal (das durch diese Simulation verzerrt ist) ausgehend von einem interpolierten Anregungssignal Ei und den Koeffizienten a(j) mittels der Formel:
s(n) = Σj(a(j)*s(n-j)) + ei(n).
Diese Superposition bewirkt die lineare "Frequenzverschiebung" im Spektrum des erhaltenen simuliert Signals, wobei die Peaks den Bildungsfrequenzen entsprechen, gemäß einem Verhältnis, daß gleich dem Verhältnis der verwendeten Interpolation ist, welches vorzugsweise gleich 2 oder 3 ist.
Die Vorrichtungen zur Simulation und zum Erkennen können beispielsweise ausgeführt werden, indem ein PC (Mikrocomputer) verwendet wird, der mit einem Motherboard auf der Grundlage eines (von der Firma INTEL hergestellten) Mikroprozessors 80386, der mit 33 MHz läuft, und eines mathematischen Coprozessors 80387 (derselben Firma) ausgestattet ist. Eine in dem Mikrocomputer PC angeordnete Karte für die Signalverarbeitung ist für die Bearbeitung der Hyperbar-Simulation und das Erkennen von Sprache zuständig.
Diese Karte ist im wesentlichen aus einem (von der Firma Texas Instruments hergestellten) Prozessor TMS320C30, einem Analogeingang und Analog-Digital- sowie Digital-Anlalog-Umsetzern mit einer maximalen Abfragefrequenz von 200 kHz gebildet.
Die Hyperbar-Sprachsimulation besteht darin, in einem terrestrischen Umgebungsmilieu ausgesprochene Wörter zu isolieren und sie zu transformieren, um zu simulieren, wie die selben Wörter in einem Hyperbar-Milieu ausgesprochen werden. Bei dieser Art von Verarbeitung gibt es keine Probleme mit der Echtzeit. Jedoch erfolgt aus Gründen der Rechenzeit diese Verarbeitung in der Karte für die Signalverarbeitung.
Das Erkennungssystem erfordert eine Ausführung in Echtzeit. Daher kann es auf der Karte zur Signalverarbeitung umgesetzt und optimiert werden.

Claims

1. Verfahren zum Erkennen von Signalen (A) verzerrter Sprache, die über ein Mikrophon (15) abgegeben werden, in dem:

- man Signale (P) nicht verzerrter Sprache digitalisiert und in einem Speicher (3) ablegt,

- man verzerrte Signale (D) erzeugt, die ausgehend von diesen Signalen (P) nicht verzerrter Sprache simuliert sind, wobei die Bildungsfrequenzen der verzerrten simulierten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen dieser nicht verzerrten digitalisierten Signale liegen,

- man mit Hilfe eines Vergleichsmoduls (16) beispielsweise durch Abstandsberechnungen diese verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D) vergleicht.

2. Verfahren nach Anspruch 1, in dem:

- diese Signale (P) bei einer ersten Frequenz (fe) erfaßt und digitalisiert werden, wobei die erhaltenen nachfolgenden Werte oder Daten (y(1), ..., y(n)) in einem Speicher (3) abgelegt werden,

- und in dem diese Signale (D) durch Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz von für dieses Signal (D) repräsentativen Daten (s(1), .... s(3n)) erhalten werden.

3. Verfahren nach einem der Ansprüche 1 oder 2, in dem:

- man ausgehend von diesen Signalen (P) nicht verzerrter Sprache mittels einer Kodierungsmethode durch lineare Vorhersage Daten (e(1), ..., e(n)), die für ein nicht interpoliertes Anregungssignal (e) repräsentativ sind, wie auch charakteristische Koeffizienten (a(1), ..., a(k)) der spektralen Umhüllung berechnet,

- man durch Interpolation dieser für ein nicht interpoliertes Anregungssignal (e) repräsentativen Daten (e(1) ..., e(n)) Daten (ei(1) ..., ei(3n) erhält, die für ein interpoliertes Anregungssignal (ei) repräsentativ sind,

- man durch Synthese oder Superposition dieser für das interpolierte Anregungssignal (ei) repräsentativen Daten (ei(1), ..., ei(3n)) und einer durch diese Koeffizienten, (a(1), ..., a(k)) bestimmten spektralen Umhüllung Daten erhält, die für diese verzerrten simulierten Signale (D) repräsentativ sind.

4. Verfahren nach einem der Ansprüche 1 oder 2, in dem diese simulierten verzerrten Signale erzeugt werden, indem man ein Verfahren der multiplen linearen Regression verwendet, das auf die Cepstralvektoren dieser Signale nicht verzerrter Sprache angewendet wird.

5. Vorrichtung zum Erkennen von Signalen (A) verzerrter Sprache, die durch ein Mikrophon (15) abgegeben werden, mit:

- Mitteln zum Digitalisieren und Ablegen von Signalen (P) nicht verzerrter Sprache in einem Speicher (3),

- Mitteln zum Erzeugen simulierter verzerrter Signale (D) ausgehend von diesen Signalen (P) nicht verzerrter Sprache, wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen der digitalisierten nicht verzerrten Signale liegen,

- einem Modul (16) zum Vergleichen, beispielsweise durch Abstandsberechnungen, dieser verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D).

6. Vorrichtung nach Anspruch 5, in der die Mittel zum Erzeugen der simulierten verzerrten Signale (D) ausgehend von den Signalen (P) nicht verzerrter Sprache umfassen:

- Mittel (7) zum Berechnen von Anregungsdaten (e(1), ...., e(n)) und Mittel (A) zum Berechnen von Koeffizienten (a(1), ..., a(k)) der spektralen Umhüllung, ausgehend von Daten (x(1), ..., x(n)) die für die Signale (P) der nicht verzerrten Sprache repräsentativ sind,

- Mittel (10) zur Interpolation interpolierter Anregungsdaten (ei(1) ..., ei(3n)) ausgehend von Anregungsdaten (e(1), ..., e(n)),

- Mittel (11) zur Synthese dieser simulierten verzerrten Signale (D) ausgehend von diesen interpolierten Anregungsdaten (ei(1), ... ei(3n)) und diesen Umhüllungskoeffizienten (a(1), ..., a(k)).

7. Vorrichtung nach einem der Ansprüche 5 oder 6, die ein Modul (9) zur Kodierung mittels linearer Vorhersage umfaßt.

8. Vorrichtung nach einem der Ansprüche 5 bis 7, die einen Speicher (13) zum Ablegen von Daten (s(1), ..., s(n)) umfaßt, die für die simulierten verzerrten Signale (D) repräsentativ sind.

9. Vorrichtung nach einem der Ansprüche 5 bis 8, die einen Digital-Analog-Umsetzer (12) umfaßt zum Umsetzen der für die simulierten verzerrten Signale (D) repräsentativen Daten (s(1), ..., s(3n)) in analoge Signale.