DE69518674T2 - Verfahren und Gerät zur Spracherkennung - Google Patents

Verfahren und Gerät zur Spracherkennung

Info

Publication number
DE69518674T2
DE69518674T2 DE69518674T DE69518674T DE69518674T2 DE 69518674 T2 DE69518674 T2 DE 69518674T2 DE 69518674 T DE69518674 T DE 69518674T DE 69518674 T DE69518674 T DE 69518674T DE 69518674 T2 DE69518674 T2 DE 69518674T2
Authority
DE
Germany
Prior art keywords
signals
data
distorted
simulated
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69518674T
Other languages
English (en)
Other versions
DE69518674D1 (de
Inventor
Philippe Bardaud
Gerard Chollet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of DE69518674D1 publication Critical patent/DE69518674D1/de
Publication of DE69518674T2 publication Critical patent/DE69518674T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • G10L2021/03643Diver speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten eines Sprachsignals.
  • Das technische Gebiet der Erfindung ist das Gebiet der Verfahren und Vorrichtungen zur Signalverarbeitung.
  • Die Erfindung betrifft insbesondere ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen, um das Erkennen von Signalen gestörter oder verzerrter Sprache zu erleichtern, insbesondere Sätze, die von einem Tiefwassertaucher ausgesprochen wurden.
  • Es ist bekannt, daß die Sprache von Tauchern aus unterschiedlichen Gründen verzerrt und schwierig erfaßbar (d. h. insbesondere durch einen Menschen verstehbar) ist; tatsächlich verändern die Zusammensetzung des durch den Taucher eingeatmeten Gasgemischs, die sich deutlich von der Gaszusammensetzung der gewöhnlichen Erdatmosphäre unterscheidet (diese Mischungen bestehen im allgemeinen aus Stickstoff, Sauerstoff, Helium, Wasserstoff...), wie auch der Druck der Gasmischung und andere Parameter Verzerrungen von durch den Sprecher (den Taucher) ausgesprochenen Sätzen bzw. führen zu diesen, und infolgedessen verändern sie die Gestalt und Eigenschaften von entsprechenden Sprachsignalen, die durch ein Mikrofon abgegeben werden, vor dem der Taucher spricht.
  • Es wurden Arbeiten ausgeführt, um die Mechanismen dieser Verzerrungen zu verstehen, und um zu versuchen, die Erfaßbarkeit der Sprache der Taucher zu verbessern.
  • Unter diesen Veränderungen hat man Variationen der Tonhöhe ("Pitch") und der Formanten festgestellt.
  • Das Dokument "the helium speech effect and electronic techniques for enhancing intelligibility in a helium-oxygen environment", JACK et al. The Radio and Electronic Engineer, vol. 52, no 5, Seiten 211-223, Mai 1982, beschreibt Techniken, die eingesetzt werden, um die Erfaßbarkeit der Sprache von Tauchern zu verbessern.
  • Die bis heute bekannten Systeme verändern in Echtzeit die durch ein Mikrofon, vor dem der Taucher spricht, abgegebenen Signale verzerrter Sprache mithilfe von mehr oder weniger ausgeklügelten elektronischen Vorrichtungen, deren Funktionsweise auf einer (naturgemäß näherungsweisen) Modellbildung der Mechanismen der Verzerrung der Sprache beruht, um das Verstehen der durch den Taucher ausgesprochenen Sätze durch einen im allgemeinen an Land oder an der Oberfläche des Wassers befindlichen Gesprächspartner zu ermöglichen.
  • Diese Vorrichtungen zum Korrigieren von Signalen sind im allgemeinen an Land oder auf einer Oberfläche (beispielsweise auf einem Schiff oder einer Plattform) angeordnet, oder sie umfassen einen Teil, der in der Nähe des Tauchers vorgesehen ist, wie beispielsweise in dem Patent US 4,342,104 (JACK).
  • Das gestellte Problem besteht darin, ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen bereitzustellen, die dazu bestimmt sind, in einem System zum Erkennen von verzerrten Sätzen eingesetzt zu werden, und die das Erfassen von Sprachsignalen erleichtern oder verbessern.
  • Die Lösung des gestellten Problems besteht darin, eine Vorrichtung gemäß Anspruch 5 bereitzustellen. Die Vorrichtung umfaßt elektronische Mittel, die vorzugsweise im wesentlichen digital sind, um, vorzugsweise im wesentlichen linear, die Formanten- bzw. Bildungsfrequenz (f1, f2) des Sprachsignals in einem Verhältnis in der Nähe von 2 bis 3 zu erhöhen, das heißt um die Bildungsfrequenzen (d. h. die Frequenzen, um die herum ein wesentlicher Teil der Energie des Sprachsignals wegen Resonanzen im menschlichen Sprachresonanzraum bei diesen Frequenzen konzentriert ist) um eine Zahl in der Nähe von 2 bis 3 zu multiplizieren.
  • Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung:
  • - Extraktionsmittel, um aus dem Sprachsignal (P) ein Anregungssignal (oder ein Restsignal), das für die Klang- und Vibrationsquellen von Sätzen (Stimmbänder, Strömen des eingeatmeten Gases, ...) repräsentativ ist, zu extrahieren (d. h. ausgehend von dem Sprachsignal zu berechnen),
  • - Mittel zum Bestimmen einer Umhüllung, um ausgehend von dem Sprachsignal Koeffizienten zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Sprachsignals (oder charakteristisch für die Formanten) sind,
  • - Mittel zur Interpolation, um ausgehend von dem Anregungssignal ein interpoliertes Anregungssignal zu erzeugen, das ein Chronogramm von mit dem Chronogramm des Anregungssignals identischer Form (Gestalt) hat, und das eine (zeitliche) Dichte von Punkten (oder von Meßpunkten oder Werten) hat, die das Doppelte oder das Dreifache der Dichte der Punkte des Anregungssignals sind,
  • - Mittel zur Synthese eines Signals (D) von simulierter verzerrter Sprache (oder simulierter Hyperbar-Sprache) ausgehend von dem interpolierten Anregungssignal und den charakteristischen Koeffizienten.
  • Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung ein Modul zur Kodierung mittels linearer Vorhersage, das die Mittel zum Extrahieren und die Mittel zum Bestimmen der Umhüllung einschließt (oder bildet).
  • Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung Mittel zum Vorbehandeln des Sprachsignals, die umfassen:
  • - Mittel zum vorherigen Hervorheben, um die Komponenten des Sprachsignals von höherer Frequenz leicht zu vergrößern,
  • - Fenstermittel, um einen Abschnitt des Signals, d. h. ein Fenster oder eine zeitliche Folge von Meßwerten des Sprachsignals entsprechend einer Kurve von vorbestimmter Form, beispielsweise eines sogenannten Hammingfensters, zu gewichten.
  • Die Erfindung besteht somit darin, eine Vorrichtung zum Erkennen von Signalen (A) verzerrter Sprache (d. h. von Sprache, die in einer Atmosphäre ausgesprochen wird, deren Gaszusammensetzung und/oder -druck von der der gewöhnlichen Erdatmosphäre verschieden ist), die über ein Mikrofon abgegeben werden, die ein Modul zum Vergleichen der verzerrten Signale (A) mit simulierten verzerrten Signalen (D) enthält, die man ausgehend von Signalen (P) nicht verzerrter Sprache, die zuvor digitalisiert und in einem Speicher abgelegt wurden, erhält (erzeugt), und wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen der nicht verzerrten digitalisierten Signale liegen.
  • Vorteilhaft umfaßt eine Vorrichtung zum Erkennen:
  • - eine Vorrichtung zum Erzeugen und zum Ablegen von Daten (s), die für simulierte verzerrte Signale (D) repräsentativ sind, welche ausgehend von Signalen nicht verzerrter Sprache (P) erhalten wurden, in einem Speicher (beispielsweise, indem eine Datenbasis oder eine Datei von spezifischen Daten eines bestimmten Sprechers gebildet wird), die umfaßt:
  • - Mittel zum Umsetzen, um ein analoges Sprachsignal in eine zeitliche Folge von digitalen Werten oder Meßpunkten x(n) von nicht verzerrter Sprache zu digitalisieren (oder punktweise zu erfassen),
  • - digitale Mittel (oder einen digitalen Filter) zum vorherigen Hervorheben, um die Komponenten des punktweise erfaßten Sprachsignals x(n) leicht zu vergrößern,
  • - Fenstermittel, um ein Fenster (oder eine zeitliche Folge von Meßpunkten des Signals nicht verzerrter Sprache) entsprechend einer Kurve von vorbestimmter Form zu gewichten,
  • - Mittel zum Extrahieren, um aus den Sprachdaten x(n), die für das Signal nicht verzerrter Sprache repräsentativ sind, digitale Anregungsdaten e(n) zu extrahieren, die repräsentativ für ein Anregungssignal sind,
  • - Mittel zum Bestimmen der Umhüllung, um ausgehend von den Daten nicht verzerrter Sprache Koeffizienten a(i) zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Signals nicht verzerrter Sprache (oder charakteristisch für die Formanten) sind,
  • - Mittel zur linearen Interpolation, um ausgehend von den Anregungsdaten e(n) interpolierte Anregungsdaten ei(n) zu erzeugen, die ein Chronogramm von mit dem Chronogramm der Anregungsdaten identischer Form (Gestalt) haben, und die eine (zeitliche) Dichte von Punkten (oder Meßpunkten oder Werten) haben, die das Doppelte oder das Dreifache der Dichte der Punkte der Anregungsdaten ist,
  • - Mittel zur Synthese (mittels Berechnung) von Daten s (n), die repräsentativ für ein Signal simulierter verzerrter Sprache sind, ausgehend von den interpolierten Anregungsdaten ei(n) und den charakteristischen Koeffizienten a(i),
  • - Mittel zum Umsetzen der Daten s(n) von simulierter verzerrter Sprache in analoge Signale (D) von simulierter verzerrter Sprache,
  • - eine Vorrichtung zum Vergleichen von Signalen (A) verzerrter Sprache mit den simulierten verzerrten Signalen (D).
  • Die Erfindung besteht gleichermaßen darin, ein Verfahren zum Erkennen von Signalen (A) verzerrter Sprache, die über ein Mikrofon abgegeben werden, einzusetzen, in dem:
  • - man Signale (P) nicht verzerrter Sprache, die von einem Sprecher abgegeben werden, der sich zumindest unter Bedingungen (insbesondere eingeatmete Gasmischung und Druck) befindet, die ähnlich oder identisch mit denen der durchschnittlichen oder normalen Erdatmosphäre sind, digitalisiert und in einem Speicher ablegt,
  • - man verzerrte Signale (D) erzeugt, die ausgehend von diesen Signalen (B) nicht verzerrter Sprache simuliert sind, wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen dieser nicht verzerrten Signale (die digitalisiert wurden) liegen,
  • - man mit Hilfe eines Vergleichsmoduls beispielsweise durch Abstandsberechnungen diese verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D) vergleicht.
  • Vorteilhaft wird bei einem erfindungsgemäßen Verfahren:
  • - dieses Signal (P) bei einer ersten Frequenz (fe), die beispielsweise in der Nähe von 10 kHz (10.000 Hz) liegt, erfaßt und digitalisiert, wobei die erhaltenen nachfolgenden Werte oder Daten (y(1), ..., y(n)) in einem Speicher abgelegt werden
  • - dieses Signal (D) wird durch Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz von für dieses Signal (D) repräsentativen Daten (s(1), ...s(3n)) erhalten,
  • - diese Daten, die für das Signal (D) repräsentativ sind, werden durch Synthese oder Superposition von für ein interpoliertes Anregungssignal (ei) repräsentativen Daten (ei(1), ..., ei(3n)) und einer durch Koeffizienten (a(1), ..., a(k)) bestimmten spektralen Umhüllung erhalten,
  • - die Daten, die für das interpolierte Anregungssignal (ei) repräsentativ sind, werden durch Interpolation von Daten (e(1), ..., e(n)) erhalten, die für ein nicht interpoliertes Anregungssignal (e) repräsentativ sind,
  • - die Daten, die für das nicht interpolierte Anregungssignal (e) repräsentativ sind, werden wie auch die charakteristischen Koeffizienten der spektralen Umhüllung ausgehend von dem Signal (P) nicht verzerrter Sprache mittels einer Kodierungsmethode durch lineare Vorhersage (LPC: "linear predictive coding") berechnet (d. h. extrahiert).
  • Alternativ werden diese simulierten verzerrten Signale erzeugt, indem man ein Verfahren der multiplen linearen Regression (LMR: "linear multiple regression") verwendet, das auf die Zepstralvektoren dieser digitalisierten Signale nicht verzerrter Sprache angewendet wird.
  • Ein mit der Erfindung erzielter Vorteil ist es, daß man (ausgehend von Signalen "sauberer", d. h. nicht verzerrter Sprache) leicht Dateien oder eine Datenbasis von simulierten Signalen bilden kann, die für simulierte verzerrte Sprache repräsentativ sind.
  • Man kann somit kostengünstig für jeden Taucher oder Sprecher eine persönliche Datei von (Signalen von) Sätzen (oder Wörtern), die unter normalen Bedingungen ausgesprochen wurden, und eine entsprechende persönliche Datei bilden, die Signale enthält, die für dieselben Wörter unter simulierten Bedingungen der Verzerrung repräsentativ sind (d. h. Signale von simulierten verzerrten Sätzen).
  • Man kann somit diese Signale von simulierten verzerrten Sätzen (beispielsweise einige -zig oder einige 100 Wörter) in einem Speicherträger speichern, der von einem "verschifften", d. h. in der Nähe des Tauchers, wenn dieser beim Tauchen ist, angeordneten oder eingetauchten System, verwendet werden kann; dies kann es dem Taucher erlauben, selbst (in Echtzeit oder mit geringer Verzögerung) zu kontrollieren, ob die verzerrten Sätze, die er spricht, von dem System zum Erkennen erkannt werden; dies stellt einen wesentlichen Fortschritt bezüglich den bekannten Systemen zur Spracherkennung da, deren Ergebnisse (Erkennen oder Nichterkennen eines verzerrt ausgesprochenen Worts) vom Sprecher nicht gekannt werden können.
  • Dies stellt insbesondere Vorteile hinsichtlich der Sicherheit für den Taucher selbst da, wenn er mit einem Gesprächspartner kommunizieren will, der sich an der Oberfläche befindet (oder ebenfalls beim Tauchen ist), und es kann es dem Taucher außerdem ermöglichen, Unterwasserwerkzeuge mit Hilfe des ins Wasser getauchten Systems zur Spracherkennung zu steuern, was praktisch unmöglich ist, wenn sich das Erkennungssystem auf der Oberfläche oder sogar an Land befindet.
  • Die Leistungen der erfindungsgemäßen Systeme werden im Vergleich zu den bekannten Systemen bedeutend verbessert, insbesondere dank der Tatsache, daß man vorzugsweise verzerrte Sätze mit simulierten verzerrten Sätzen vergleicht, die ausgehend von nicht verzerrten Sätzen erzeugt wurden, welche von dem selben Sprecher ausgesprochen wurden.
  • Ein weiterer erzielter Vorteil ist es, daß man kostengünstig Dateien (oder Datenbasen) von simulierten verzerrten Sätzen erzeugen kann, die verwendet werden können, um die Leistungen anderer Erkennungssysteme zu überprüfen.
  • Die Eigenschaften und Vorteile der Erfindung werden besser im Zuge der folgenden Beschreibung ersichtlich, die sich auf die beigefügten Zeichnungen bezieht, die, ohne einen einschränkenden Charakter zu haben, Ausführungsformen der Erfindung beschreiben.
  • Fig. 1 stellt schematisch die wesentlichen Teile einer erfindungsgemäßen Vorrichtung und deren Verwendung gemäß eines erfindungsgemäßen Verfahrens dar.
  • Fig. 2 stellt schematisch ein Chronogramm eines Signals P nicht verzerrter Sprache dar, und
  • Fig. 3 stellt schematisch die Gestalt des Spektrums dieses Signals dar,
  • Fig. 4 stellt schematisch ein Chronogramm eines Anregungssignals E und eines interpolierten Anregungssignals Ei dar, welches ausgehend von dem Anregungssignal E erhalten wurde.
  • Fig. 5 stellt schematisch eine spektrale Umhüllungskurve dar, die für die Synthese eines simulierten Signals verzerrter Sprache verwendet wurde.
  • Fig. 6 stellt schematisch die Funktionsweise eines Simulators dar, der eine Kodierungsmethode durch lineare Vorhersage verwendet.
  • Unter Bezug insbesondere auf Fig. 1 umfaßt eine erfindungsgemäße Vorrichtung zum Erkennen:
  • - ein Mikrofon 1, das für von einem Sprecher ausgesprochene Sätze empfindlich ist, wobei das Mikrofon Signale P nicht verzerrter Sprache an einen Analog-Digital-Umsetzer 2 abgibt, der das Signal P mit einer von einem Taktgeber 5 gesteuerten Erfassungsfrequenz Fe erfaßt; die erhaltenen (n) Digitaldaten (oder Meßwerte) y(1), ..., y(n), siehe Fig. 1 und Fig. 2, werden in einem Speicher 3 abgelegt, der nach Datenbasen strukturiert sein kann;
  • - eine Vorrichtung zum Simulierender Verzerrung des Sprachsignals P, die umfaßt:
  • - einen Digitalfilter 4 zum vorherigen Hervorheben, an den die Daten y(1), ..., y(n) abgeben werden, welche anschließend einem Gewichter oder Fenstermodul 6 zugeführt werden, der n vorbehandelte Daten x(1), ..., x(n) abgibt, die für das vorbehandelte Signal P repräsentativ sind;
  • - ein Modul 9 zum Kodieren durch lineare Vorhersage, das ein Modul 7 zum Berechnen oder Extrahieren von n Daten e(1), ...e(n) umfaßt, die für ein Anregungssignal E (Fig. 4) repräsentativ sind, und das ein Modul 8 zum Berechnen von k Koeffizienten a(1), ..., a(k) umfaßt, die für die spektrale Umhüllung Fig. 5 des Signals P (mit Ausnahme des Peaks (der Spitze), dessen Mitte sich bei der Frequenz f0, die dem "pitch" entspricht - siehe Fig. 3 - befindet) repräsentativ sind;
  • - ein Modul 10 zum Interpolieren, welches die Dichte der Punkte (oder Werte) des Signals E verdoppelt oder verdreifacht, um ein mit dem Signal E identisches interpoliertes Anregungssignal Ei (Fig. 4) abzugeben;
  • - ein Modul 11 zur Synthese, das Daten s(1), ..., s(3n), die für ein simuliertes verzerrtes Signal S repräsentativ sind, durch Superposition des interpolierten Anregungssignals und der durch die k Koeffizienten a(1), ..., a(k) definierten spektralen Umhüllung berechnet;
  • - ein Ausgangsspeicher 13 erlaubt das Ablegen des simulierten verzerrten Signals S in digitaler Form;
  • - diese Daten s(1), ..., s(3n), die für das simulierte verzerrte Signal 5 repräsentativ sind, können somit dem Eingang eines Digital-Analog-Umsetzers 12 zugeführt werden, der durch einen Taktgeber 14 gesteuert wird, welcher ein Abfragesignal mit einer Ausgangsabfragefrequenz fs abgibt, die das Doppelte oder Dreifache der Eingangsabfragefrequenz fe des Umsetzers 2 ist;
  • - das somit erhaltene analoge Signal D simulierter verzerrter Sprache wird mit einem Signal A tatsächlich verzerrter Sprache verglichen, das über ein Mikrofon (15) abgegeben wurde.
  • Der Simulator für verzerrte Sprache kann eventuell anstelle von Mitteln zum Berechnen mittels LPC Mittel zum Berechnen mittels LMR verwenden.
  • Die Verwendung der Berechnungsmethode mittels LPC erlaubt es, in dem Sprachsignal am Eingang den Beitrag der Klangquellen (insbesondere der die Tonhöhe bestimmenden Stimmbänder) in dem Sprachsignal P von dem Beitrag der Resonanzräume des Sprechers zu trennen, der sich in der spektralen Umhüllung ausdrückt, die durch besondere Frequenzen (Formanten, Bildungsfrequenzen) charakterisiert ist.
  • Das Prinzip der Verwendung dieser Methode ist das folgende (siehe insbesondere Fig. 6):
  • Die Erzeugung eines Sprachsignals X durch einen bestimmten Sprecher wird schematisch wie folgt im Modell dargestellt: Das Sprachsignal X ist Ergebnis des Filterns des Anregungssignals E mit einem Allespolfilter H(z); H(z) kann definiert werden durch:
  • H(z)*(Σj a(j)*zj) = 1,
  • wobei j von 1 bis k variiert;
  • in diesem Schema repräsentiert H(z) die Transformation des durch die Stimmbänder erzeugten Signals klanglicher Anregung E durch die Resonanzen des Resonanzraums des Sprechers, welche im Spektrum des Sprachsignals P (Fig. 3) ihren Ausdruck in Maxima finden, deren Mittelpunkt sich bei den Frequenzen f1, f2 befindet, die als Formanten (Bildungsfrequenzen) bezeichnet werden; diese spektrale Umhüllung (Fig. 5), die durch die k Koeffizienten a(j) im Modell erfaßt wird, hat eine Form, die mit derjenigen des Spektrums des Signals P identisch ist oder dieser sehr nahe ist, mit Ausnahme des Peaks, dessen Mitte sich bei der Grundfrequenz f0 (Tonhöhe) befindet, und welchen man in den Anregungssignalen E und EI in der Form von Peaks findet, die in einem Zeitintervall t0 = 1/f0 voneinander beabstandet sind (Fig. 4);
  • man nimmt an, daß der n-te Datenpunkt x(n) des Sprachsignals eine lineare Kombination des Datenpunkts e(n) des Anregungssignals und von k vorausgehenden Datenpunkten ist, was man als:
  • x(n) = e(n) - Σj (a(j) * x (n-j))
  • schreiben kann, wobei j von 1 bis k variiert; die Koeffizienten a(j) sind Vorhersagekoeffizienten; wenn der Anregungsdatenpunkt e(n) = 0 ist, kann man unter Anwendung der obigen Formel den Wert x(n) des Datenpunkts des Sprachsignals mit einem Vorhersagefehler vorhersagen, dessen Betrag err(n) ist:
  • err(n) = Σj(a(j)*(n-j),
  • wobei j Von 1 bis k variiert; gemäß der Methode LPC bestimmt man für jeden Datenpunkt x(n) die k Werte von k Koeffizienten a(1), ..., a(k), die es erlauben, den Vorhersagefehler zu minimieren, was dazu führt, daß der quadratische Fehler Q minimiert wird, der gegeben ist durch:
  • Q = Σm(err (m))²,
  • wobei m von 0 bis (T-1) variiert, wobei T die Datenpunktzahl des in Betracht gezogenen zeitlichen Fensters ist;
  • dies heißt mit anderen Worten, daß die partielle Ableitung des quadratischen Fehlers bezüglich der Koeffizienten a(j) Null sein muß.
  • Aus diesen Rechnungen erhält man die Werte e(1), ..., e(n), die für ein an das Anregungssignal angepaßtes Fehlersignal und für eine spektrale Umhüllung der Übertragungsfunktion, die dem Resonanzraum entspricht, repräsentativ sind.
  • Man hat überraschenderweise festgestellt, daß eine lineare Transformation der spektralen Umhüllung (d. h. der Bildungsfrequenzen f1, f2, siehe Fig. 3) eine zufriedenstellende Simulation der Transformationen gibt, die auf die Sprechbedingungen zurückzuführen sind man interpoliert das Anregungssignal E vorzugsweise im Verhältnis von 2 oder 3.
  • Man synthetisiert ein Ausgangssignal (das durch diese Simulation verzerrt ist) ausgehend von einem interpolierten Anregungssignal Ei und den Koeffizienten a(j) mittels der Formel:
  • s(n) = Σj(a(j)*s(n-j)) + ei(n).
  • Diese Superposition bewirkt die lineare "Frequenzverschiebung" im Spektrum des erhaltenen simuliert Signals, wobei die Peaks den Bildungsfrequenzen entsprechen, gemäß einem Verhältnis, daß gleich dem Verhältnis der verwendeten Interpolation ist, welches vorzugsweise gleich 2 oder 3 ist.
  • Die Vorrichtungen zur Simulation und zum Erkennen können beispielsweise ausgeführt werden, indem ein PC (Mikrocomputer) verwendet wird, der mit einem Motherboard auf der Grundlage eines (von der Firma INTEL hergestellten) Mikroprozessors 80386, der mit 33 MHz läuft, und eines mathematischen Coprozessors 80387 (derselben Firma) ausgestattet ist. Eine in dem Mikrocomputer PC angeordnete Karte für die Signalverarbeitung ist für die Bearbeitung der Hyperbar-Simulation und das Erkennen von Sprache zuständig.
  • Diese Karte ist im wesentlichen aus einem (von der Firma Texas Instruments hergestellten) Prozessor TMS320C30, einem Analogeingang und Analog-Digital- sowie Digital-Anlalog-Umsetzern mit einer maximalen Abfragefrequenz von 200 kHz gebildet.
  • Die Hyperbar-Sprachsimulation besteht darin, in einem terrestrischen Umgebungsmilieu ausgesprochene Wörter zu isolieren und sie zu transformieren, um zu simulieren, wie die selben Wörter in einem Hyperbar-Milieu ausgesprochen werden. Bei dieser Art von Verarbeitung gibt es keine Probleme mit der Echtzeit. Jedoch erfolgt aus Gründen der Rechenzeit diese Verarbeitung in der Karte für die Signalverarbeitung.
  • Das Erkennungssystem erfordert eine Ausführung in Echtzeit. Daher kann es auf der Karte zur Signalverarbeitung umgesetzt und optimiert werden.

Claims (9)

1. Verfahren zum Erkennen von Signalen (A) verzerrter Sprache, die über ein Mikrophon (15) abgegeben werden, in dem:
- man Signale (P) nicht verzerrter Sprache digitalisiert und in einem Speicher (3) ablegt,
- man verzerrte Signale (D) erzeugt, die ausgehend von diesen Signalen (P) nicht verzerrter Sprache simuliert sind, wobei die Bildungsfrequenzen der verzerrten simulierten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen dieser nicht verzerrten digitalisierten Signale liegen,
- man mit Hilfe eines Vergleichsmoduls (16) beispielsweise durch Abstandsberechnungen diese verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D) vergleicht.
2. Verfahren nach Anspruch 1, in dem:
- diese Signale (P) bei einer ersten Frequenz (fe) erfaßt und digitalisiert werden, wobei die erhaltenen nachfolgenden Werte oder Daten (y(1), ..., y(n)) in einem Speicher (3) abgelegt werden,
- und in dem diese Signale (D) durch Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz von für dieses Signal (D) repräsentativen Daten (s(1), .... s(3n)) erhalten werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, in dem:
- man ausgehend von diesen Signalen (P) nicht verzerrter Sprache mittels einer Kodierungsmethode durch lineare Vorhersage Daten (e(1), ..., e(n)), die für ein nicht interpoliertes Anregungssignal (e) repräsentativ sind, wie auch charakteristische Koeffizienten (a(1), ..., a(k)) der spektralen Umhüllung berechnet,
- man durch Interpolation dieser für ein nicht interpoliertes Anregungssignal (e) repräsentativen Daten (e(1) ..., e(n)) Daten (ei(1) ..., ei(3n) erhält, die für ein interpoliertes Anregungssignal (ei) repräsentativ sind,
- man durch Synthese oder Superposition dieser für das interpolierte Anregungssignal (ei) repräsentativen Daten (ei(1), ..., ei(3n)) und einer durch diese Koeffizienten, (a(1), ..., a(k)) bestimmten spektralen Umhüllung Daten erhält, die für diese verzerrten simulierten Signale (D) repräsentativ sind.
4. Verfahren nach einem der Ansprüche 1 oder 2, in dem diese simulierten verzerrten Signale erzeugt werden, indem man ein Verfahren der multiplen linearen Regression verwendet, das auf die Cepstralvektoren dieser Signale nicht verzerrter Sprache angewendet wird.
5. Vorrichtung zum Erkennen von Signalen (A) verzerrter Sprache, die durch ein Mikrophon (15) abgegeben werden, mit:
- Mitteln zum Digitalisieren und Ablegen von Signalen (P) nicht verzerrter Sprache in einem Speicher (3),
- Mitteln zum Erzeugen simulierter verzerrter Signale (D) ausgehend von diesen Signalen (P) nicht verzerrter Sprache, wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen der digitalisierten nicht verzerrten Signale liegen,
- einem Modul (16) zum Vergleichen, beispielsweise durch Abstandsberechnungen, dieser verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D).
6. Vorrichtung nach Anspruch 5, in der die Mittel zum Erzeugen der simulierten verzerrten Signale (D) ausgehend von den Signalen (P) nicht verzerrter Sprache umfassen:
- Mittel (7) zum Berechnen von Anregungsdaten (e(1), ...., e(n)) und Mittel (A) zum Berechnen von Koeffizienten (a(1), ..., a(k)) der spektralen Umhüllung, ausgehend von Daten (x(1), ..., x(n)) die für die Signale (P) der nicht verzerrten Sprache repräsentativ sind,
- Mittel (10) zur Interpolation interpolierter Anregungsdaten (ei(1) ..., ei(3n)) ausgehend von Anregungsdaten (e(1), ..., e(n)),
- Mittel (11) zur Synthese dieser simulierten verzerrten Signale (D) ausgehend von diesen interpolierten Anregungsdaten (ei(1), ... ei(3n)) und diesen Umhüllungskoeffizienten (a(1), ..., a(k)).
7. Vorrichtung nach einem der Ansprüche 5 oder 6, die ein Modul (9) zur Kodierung mittels linearer Vorhersage umfaßt.
8. Vorrichtung nach einem der Ansprüche 5 bis 7, die einen Speicher (13) zum Ablegen von Daten (s(1), ..., s(n)) umfaßt, die für die simulierten verzerrten Signale (D) repräsentativ sind.
9. Vorrichtung nach einem der Ansprüche 5 bis 8, die einen Digital-Analog-Umsetzer (12) umfaßt zum Umsetzen der für die simulierten verzerrten Signale (D) repräsentativen Daten (s(1), ..., s(3n)) in analoge Signale.
DE69518674T 1994-01-28 1995-01-13 Verfahren und Gerät zur Spracherkennung Expired - Lifetime DE69518674T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9401235A FR2715755B1 (fr) 1994-01-28 1994-01-28 Procédé et dispositif de reconnaissance de la parole.

Publications (2)

Publication Number Publication Date
DE69518674D1 DE69518674D1 (de) 2000-10-12
DE69518674T2 true DE69518674T2 (de) 2001-06-13

Family

ID=9459753

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69518674T Expired - Lifetime DE69518674T2 (de) 1994-01-28 1995-01-13 Verfahren und Gerät zur Spracherkennung

Country Status (4)

Country Link
US (1) US6006180A (de)
EP (1) EP0665531B1 (de)
DE (1) DE69518674T2 (de)
FR (1) FR2715755B1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10311913B3 (de) * 2003-03-17 2004-11-25 Forschungszentrum Jülich GmbH Verfahren und Vorrichtung zur Analyse von Sprachsignalen
DE102004046045B3 (de) * 2004-09-21 2005-12-29 Drepper, Friedhelm R., Dr. Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US7003458B2 (en) * 2002-01-15 2006-02-21 General Motors Corporation Automated voice pattern filter
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP6386237B2 (ja) * 2014-02-28 2018-09-05 国立研究開発法人情報通信研究機構 音声明瞭化装置及びそのためのコンピュータプログラム
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4246617A (en) * 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
US4342104A (en) 1979-11-02 1982-07-27 University Court Of The University Of Edinburgh Helium-speech communication
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4566117A (en) * 1982-10-04 1986-01-21 Motorola, Inc. Speech synthesis system
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5577160A (en) * 1992-06-24 1996-11-19 Sumitomo Electric Industries, Inc. Speech analysis apparatus for extracting glottal source parameters and formant parameters

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10311913B3 (de) * 2003-03-17 2004-11-25 Forschungszentrum Jülich GmbH Verfahren und Vorrichtung zur Analyse von Sprachsignalen
DE102004046045B3 (de) * 2004-09-21 2005-12-29 Drepper, Friedhelm R., Dr. Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Also Published As

Publication number Publication date
FR2715755B1 (fr) 1996-04-12
US6006180A (en) 1999-12-21
FR2715755A1 (fr) 1995-08-04
EP0665531A1 (de) 1995-08-02
EP0665531B1 (de) 2000-09-06
DE69518674D1 (de) 2000-10-12

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
Narendranath et al. Transformation of formants for voice conversion using artificial neural networks
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
Valbret et al. Voice transformation using PSOLA technique
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69613360T2 (de) Linear-prädiktiver analyse-durch-synthese sprachkodierer
DE69826446T2 (de) Stimmumwandlung
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE19647298C2 (de) Kodiersystem
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
US7792672B2 (en) Method and system for the quick conversion of a voice signal
RU2557469C2 (ru) Способы синтеза и кодирования речи
DE68922134T2 (de) Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE602004003439T2 (de) Rauschunterdrückung zur robusten Spracherkennung

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition