DE69518674T2 - Verfahren und Gerät zur Spracherkennung - Google Patents
Verfahren und Gerät zur SpracherkennungInfo
- Publication number
- DE69518674T2 DE69518674T2 DE69518674T DE69518674T DE69518674T2 DE 69518674 T2 DE69518674 T2 DE 69518674T2 DE 69518674 T DE69518674 T DE 69518674T DE 69518674 T DE69518674 T DE 69518674T DE 69518674 T2 DE69518674 T2 DE 69518674T2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- data
- distorted
- simulated
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 20
- 230000005284 excitation Effects 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 7
- 239000007789 gas Substances 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 230000009189 diving Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000001307 helium Substances 0.000 description 2
- 229910052734 helium Inorganic materials 0.000 description 2
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- KFVPJMZRRXCXAO-UHFFFAOYSA-N [He].[O] Chemical compound [He].[O] KFVPJMZRRXCXAO-UHFFFAOYSA-N 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
- G10L2021/03643—Diver speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Description
- Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten eines Sprachsignals.
- Das technische Gebiet der Erfindung ist das Gebiet der Verfahren und Vorrichtungen zur Signalverarbeitung.
- Die Erfindung betrifft insbesondere ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen, um das Erkennen von Signalen gestörter oder verzerrter Sprache zu erleichtern, insbesondere Sätze, die von einem Tiefwassertaucher ausgesprochen wurden.
- Es ist bekannt, daß die Sprache von Tauchern aus unterschiedlichen Gründen verzerrt und schwierig erfaßbar (d. h. insbesondere durch einen Menschen verstehbar) ist; tatsächlich verändern die Zusammensetzung des durch den Taucher eingeatmeten Gasgemischs, die sich deutlich von der Gaszusammensetzung der gewöhnlichen Erdatmosphäre unterscheidet (diese Mischungen bestehen im allgemeinen aus Stickstoff, Sauerstoff, Helium, Wasserstoff...), wie auch der Druck der Gasmischung und andere Parameter Verzerrungen von durch den Sprecher (den Taucher) ausgesprochenen Sätzen bzw. führen zu diesen, und infolgedessen verändern sie die Gestalt und Eigenschaften von entsprechenden Sprachsignalen, die durch ein Mikrofon abgegeben werden, vor dem der Taucher spricht.
- Es wurden Arbeiten ausgeführt, um die Mechanismen dieser Verzerrungen zu verstehen, und um zu versuchen, die Erfaßbarkeit der Sprache der Taucher zu verbessern.
- Unter diesen Veränderungen hat man Variationen der Tonhöhe ("Pitch") und der Formanten festgestellt.
- Das Dokument "the helium speech effect and electronic techniques for enhancing intelligibility in a helium-oxygen environment", JACK et al. The Radio and Electronic Engineer, vol. 52, no 5, Seiten 211-223, Mai 1982, beschreibt Techniken, die eingesetzt werden, um die Erfaßbarkeit der Sprache von Tauchern zu verbessern.
- Die bis heute bekannten Systeme verändern in Echtzeit die durch ein Mikrofon, vor dem der Taucher spricht, abgegebenen Signale verzerrter Sprache mithilfe von mehr oder weniger ausgeklügelten elektronischen Vorrichtungen, deren Funktionsweise auf einer (naturgemäß näherungsweisen) Modellbildung der Mechanismen der Verzerrung der Sprache beruht, um das Verstehen der durch den Taucher ausgesprochenen Sätze durch einen im allgemeinen an Land oder an der Oberfläche des Wassers befindlichen Gesprächspartner zu ermöglichen.
- Diese Vorrichtungen zum Korrigieren von Signalen sind im allgemeinen an Land oder auf einer Oberfläche (beispielsweise auf einem Schiff oder einer Plattform) angeordnet, oder sie umfassen einen Teil, der in der Nähe des Tauchers vorgesehen ist, wie beispielsweise in dem Patent US 4,342,104 (JACK).
- Das gestellte Problem besteht darin, ein Verfahren und eine Vorrichtung zum Verarbeiten von Sprachsignalen bereitzustellen, die dazu bestimmt sind, in einem System zum Erkennen von verzerrten Sätzen eingesetzt zu werden, und die das Erfassen von Sprachsignalen erleichtern oder verbessern.
- Die Lösung des gestellten Problems besteht darin, eine Vorrichtung gemäß Anspruch 5 bereitzustellen. Die Vorrichtung umfaßt elektronische Mittel, die vorzugsweise im wesentlichen digital sind, um, vorzugsweise im wesentlichen linear, die Formanten- bzw. Bildungsfrequenz (f1, f2) des Sprachsignals in einem Verhältnis in der Nähe von 2 bis 3 zu erhöhen, das heißt um die Bildungsfrequenzen (d. h. die Frequenzen, um die herum ein wesentlicher Teil der Energie des Sprachsignals wegen Resonanzen im menschlichen Sprachresonanzraum bei diesen Frequenzen konzentriert ist) um eine Zahl in der Nähe von 2 bis 3 zu multiplizieren.
- Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung:
- - Extraktionsmittel, um aus dem Sprachsignal (P) ein Anregungssignal (oder ein Restsignal), das für die Klang- und Vibrationsquellen von Sätzen (Stimmbänder, Strömen des eingeatmeten Gases, ...) repräsentativ ist, zu extrahieren (d. h. ausgehend von dem Sprachsignal zu berechnen),
- - Mittel zum Bestimmen einer Umhüllung, um ausgehend von dem Sprachsignal Koeffizienten zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Sprachsignals (oder charakteristisch für die Formanten) sind,
- - Mittel zur Interpolation, um ausgehend von dem Anregungssignal ein interpoliertes Anregungssignal zu erzeugen, das ein Chronogramm von mit dem Chronogramm des Anregungssignals identischer Form (Gestalt) hat, und das eine (zeitliche) Dichte von Punkten (oder von Meßpunkten oder Werten) hat, die das Doppelte oder das Dreifache der Dichte der Punkte des Anregungssignals sind,
- - Mittel zur Synthese eines Signals (D) von simulierter verzerrter Sprache (oder simulierter Hyperbar-Sprache) ausgehend von dem interpolierten Anregungssignal und den charakteristischen Koeffizienten.
- Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung ein Modul zur Kodierung mittels linearer Vorhersage, das die Mittel zum Extrahieren und die Mittel zum Bestimmen der Umhüllung einschließt (oder bildet).
- Vorteilhaft umfaßt eine erfindungsgemäße Vorrichtung Mittel zum Vorbehandeln des Sprachsignals, die umfassen:
- - Mittel zum vorherigen Hervorheben, um die Komponenten des Sprachsignals von höherer Frequenz leicht zu vergrößern,
- - Fenstermittel, um einen Abschnitt des Signals, d. h. ein Fenster oder eine zeitliche Folge von Meßwerten des Sprachsignals entsprechend einer Kurve von vorbestimmter Form, beispielsweise eines sogenannten Hammingfensters, zu gewichten.
- Die Erfindung besteht somit darin, eine Vorrichtung zum Erkennen von Signalen (A) verzerrter Sprache (d. h. von Sprache, die in einer Atmosphäre ausgesprochen wird, deren Gaszusammensetzung und/oder -druck von der der gewöhnlichen Erdatmosphäre verschieden ist), die über ein Mikrofon abgegeben werden, die ein Modul zum Vergleichen der verzerrten Signale (A) mit simulierten verzerrten Signalen (D) enthält, die man ausgehend von Signalen (P) nicht verzerrter Sprache, die zuvor digitalisiert und in einem Speicher abgelegt wurden, erhält (erzeugt), und wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen der nicht verzerrten digitalisierten Signale liegen.
- Vorteilhaft umfaßt eine Vorrichtung zum Erkennen:
- - eine Vorrichtung zum Erzeugen und zum Ablegen von Daten (s), die für simulierte verzerrte Signale (D) repräsentativ sind, welche ausgehend von Signalen nicht verzerrter Sprache (P) erhalten wurden, in einem Speicher (beispielsweise, indem eine Datenbasis oder eine Datei von spezifischen Daten eines bestimmten Sprechers gebildet wird), die umfaßt:
- - Mittel zum Umsetzen, um ein analoges Sprachsignal in eine zeitliche Folge von digitalen Werten oder Meßpunkten x(n) von nicht verzerrter Sprache zu digitalisieren (oder punktweise zu erfassen),
- - digitale Mittel (oder einen digitalen Filter) zum vorherigen Hervorheben, um die Komponenten des punktweise erfaßten Sprachsignals x(n) leicht zu vergrößern,
- - Fenstermittel, um ein Fenster (oder eine zeitliche Folge von Meßpunkten des Signals nicht verzerrter Sprache) entsprechend einer Kurve von vorbestimmter Form zu gewichten,
- - Mittel zum Extrahieren, um aus den Sprachdaten x(n), die für das Signal nicht verzerrter Sprache repräsentativ sind, digitale Anregungsdaten e(n) zu extrahieren, die repräsentativ für ein Anregungssignal sind,
- - Mittel zum Bestimmen der Umhüllung, um ausgehend von den Daten nicht verzerrter Sprache Koeffizienten a(i) zu berechnen, die charakteristisch für die Form der spektralen Umhüllung des Signals nicht verzerrter Sprache (oder charakteristisch für die Formanten) sind,
- - Mittel zur linearen Interpolation, um ausgehend von den Anregungsdaten e(n) interpolierte Anregungsdaten ei(n) zu erzeugen, die ein Chronogramm von mit dem Chronogramm der Anregungsdaten identischer Form (Gestalt) haben, und die eine (zeitliche) Dichte von Punkten (oder Meßpunkten oder Werten) haben, die das Doppelte oder das Dreifache der Dichte der Punkte der Anregungsdaten ist,
- - Mittel zur Synthese (mittels Berechnung) von Daten s (n), die repräsentativ für ein Signal simulierter verzerrter Sprache sind, ausgehend von den interpolierten Anregungsdaten ei(n) und den charakteristischen Koeffizienten a(i),
- - Mittel zum Umsetzen der Daten s(n) von simulierter verzerrter Sprache in analoge Signale (D) von simulierter verzerrter Sprache,
- - eine Vorrichtung zum Vergleichen von Signalen (A) verzerrter Sprache mit den simulierten verzerrten Signalen (D).
- Die Erfindung besteht gleichermaßen darin, ein Verfahren zum Erkennen von Signalen (A) verzerrter Sprache, die über ein Mikrofon abgegeben werden, einzusetzen, in dem:
- - man Signale (P) nicht verzerrter Sprache, die von einem Sprecher abgegeben werden, der sich zumindest unter Bedingungen (insbesondere eingeatmete Gasmischung und Druck) befindet, die ähnlich oder identisch mit denen der durchschnittlichen oder normalen Erdatmosphäre sind, digitalisiert und in einem Speicher ablegt,
- - man verzerrte Signale (D) erzeugt, die ausgehend von diesen Signalen (B) nicht verzerrter Sprache simuliert sind, wobei die Bildungsfrequenzen der simulierten verzerrten Signale in der Nähe des Doppelten oder des Dreifachen der Bildungsfrequenzen dieser nicht verzerrten Signale (die digitalisiert wurden) liegen,
- - man mit Hilfe eines Vergleichsmoduls beispielsweise durch Abstandsberechnungen diese verzerrten Signale (A) mit diesen simulierten verzerrten Signalen (D) vergleicht.
- Vorteilhaft wird bei einem erfindungsgemäßen Verfahren:
- - dieses Signal (P) bei einer ersten Frequenz (fe), die beispielsweise in der Nähe von 10 kHz (10.000 Hz) liegt, erfaßt und digitalisiert, wobei die erhaltenen nachfolgenden Werte oder Daten (y(1), ..., y(n)) in einem Speicher abgelegt werden
- - dieses Signal (D) wird durch Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz von für dieses Signal (D) repräsentativen Daten (s(1), ...s(3n)) erhalten,
- - diese Daten, die für das Signal (D) repräsentativ sind, werden durch Synthese oder Superposition von für ein interpoliertes Anregungssignal (ei) repräsentativen Daten (ei(1), ..., ei(3n)) und einer durch Koeffizienten (a(1), ..., a(k)) bestimmten spektralen Umhüllung erhalten,
- - die Daten, die für das interpolierte Anregungssignal (ei) repräsentativ sind, werden durch Interpolation von Daten (e(1), ..., e(n)) erhalten, die für ein nicht interpoliertes Anregungssignal (e) repräsentativ sind,
- - die Daten, die für das nicht interpolierte Anregungssignal (e) repräsentativ sind, werden wie auch die charakteristischen Koeffizienten der spektralen Umhüllung ausgehend von dem Signal (P) nicht verzerrter Sprache mittels einer Kodierungsmethode durch lineare Vorhersage (LPC: "linear predictive coding") berechnet (d. h. extrahiert).
- Alternativ werden diese simulierten verzerrten Signale erzeugt, indem man ein Verfahren der multiplen linearen Regression (LMR: "linear multiple regression") verwendet, das auf die Zepstralvektoren dieser digitalisierten Signale nicht verzerrter Sprache angewendet wird.
- Ein mit der Erfindung erzielter Vorteil ist es, daß man (ausgehend von Signalen "sauberer", d. h. nicht verzerrter Sprache) leicht Dateien oder eine Datenbasis von simulierten Signalen bilden kann, die für simulierte verzerrte Sprache repräsentativ sind.
- Man kann somit kostengünstig für jeden Taucher oder Sprecher eine persönliche Datei von (Signalen von) Sätzen (oder Wörtern), die unter normalen Bedingungen ausgesprochen wurden, und eine entsprechende persönliche Datei bilden, die Signale enthält, die für dieselben Wörter unter simulierten Bedingungen der Verzerrung repräsentativ sind (d. h. Signale von simulierten verzerrten Sätzen).
- Man kann somit diese Signale von simulierten verzerrten Sätzen (beispielsweise einige -zig oder einige 100 Wörter) in einem Speicherträger speichern, der von einem "verschifften", d. h. in der Nähe des Tauchers, wenn dieser beim Tauchen ist, angeordneten oder eingetauchten System, verwendet werden kann; dies kann es dem Taucher erlauben, selbst (in Echtzeit oder mit geringer Verzögerung) zu kontrollieren, ob die verzerrten Sätze, die er spricht, von dem System zum Erkennen erkannt werden; dies stellt einen wesentlichen Fortschritt bezüglich den bekannten Systemen zur Spracherkennung da, deren Ergebnisse (Erkennen oder Nichterkennen eines verzerrt ausgesprochenen Worts) vom Sprecher nicht gekannt werden können.
- Dies stellt insbesondere Vorteile hinsichtlich der Sicherheit für den Taucher selbst da, wenn er mit einem Gesprächspartner kommunizieren will, der sich an der Oberfläche befindet (oder ebenfalls beim Tauchen ist), und es kann es dem Taucher außerdem ermöglichen, Unterwasserwerkzeuge mit Hilfe des ins Wasser getauchten Systems zur Spracherkennung zu steuern, was praktisch unmöglich ist, wenn sich das Erkennungssystem auf der Oberfläche oder sogar an Land befindet.
- Die Leistungen der erfindungsgemäßen Systeme werden im Vergleich zu den bekannten Systemen bedeutend verbessert, insbesondere dank der Tatsache, daß man vorzugsweise verzerrte Sätze mit simulierten verzerrten Sätzen vergleicht, die ausgehend von nicht verzerrten Sätzen erzeugt wurden, welche von dem selben Sprecher ausgesprochen wurden.
- Ein weiterer erzielter Vorteil ist es, daß man kostengünstig Dateien (oder Datenbasen) von simulierten verzerrten Sätzen erzeugen kann, die verwendet werden können, um die Leistungen anderer Erkennungssysteme zu überprüfen.
- Die Eigenschaften und Vorteile der Erfindung werden besser im Zuge der folgenden Beschreibung ersichtlich, die sich auf die beigefügten Zeichnungen bezieht, die, ohne einen einschränkenden Charakter zu haben, Ausführungsformen der Erfindung beschreiben.
- Fig. 1 stellt schematisch die wesentlichen Teile einer erfindungsgemäßen Vorrichtung und deren Verwendung gemäß eines erfindungsgemäßen Verfahrens dar.
- Fig. 2 stellt schematisch ein Chronogramm eines Signals P nicht verzerrter Sprache dar, und
- Fig. 3 stellt schematisch die Gestalt des Spektrums dieses Signals dar,
- Fig. 4 stellt schematisch ein Chronogramm eines Anregungssignals E und eines interpolierten Anregungssignals Ei dar, welches ausgehend von dem Anregungssignal E erhalten wurde.
- Fig. 5 stellt schematisch eine spektrale Umhüllungskurve dar, die für die Synthese eines simulierten Signals verzerrter Sprache verwendet wurde.
- Fig. 6 stellt schematisch die Funktionsweise eines Simulators dar, der eine Kodierungsmethode durch lineare Vorhersage verwendet.
- Unter Bezug insbesondere auf Fig. 1 umfaßt eine erfindungsgemäße Vorrichtung zum Erkennen:
- - ein Mikrofon 1, das für von einem Sprecher ausgesprochene Sätze empfindlich ist, wobei das Mikrofon Signale P nicht verzerrter Sprache an einen Analog-Digital-Umsetzer 2 abgibt, der das Signal P mit einer von einem Taktgeber 5 gesteuerten Erfassungsfrequenz Fe erfaßt; die erhaltenen (n) Digitaldaten (oder Meßwerte) y(1), ..., y(n), siehe Fig. 1 und Fig. 2, werden in einem Speicher 3 abgelegt, der nach Datenbasen strukturiert sein kann;
- - eine Vorrichtung zum Simulierender Verzerrung des Sprachsignals P, die umfaßt:
- - einen Digitalfilter 4 zum vorherigen Hervorheben, an den die Daten y(1), ..., y(n) abgeben werden, welche anschließend einem Gewichter oder Fenstermodul 6 zugeführt werden, der n vorbehandelte Daten x(1), ..., x(n) abgibt, die für das vorbehandelte Signal P repräsentativ sind;
- - ein Modul 9 zum Kodieren durch lineare Vorhersage, das ein Modul 7 zum Berechnen oder Extrahieren von n Daten e(1), ...e(n) umfaßt, die für ein Anregungssignal E (Fig. 4) repräsentativ sind, und das ein Modul 8 zum Berechnen von k Koeffizienten a(1), ..., a(k) umfaßt, die für die spektrale Umhüllung Fig. 5 des Signals P (mit Ausnahme des Peaks (der Spitze), dessen Mitte sich bei der Frequenz f0, die dem "pitch" entspricht - siehe Fig. 3 - befindet) repräsentativ sind;
- - ein Modul 10 zum Interpolieren, welches die Dichte der Punkte (oder Werte) des Signals E verdoppelt oder verdreifacht, um ein mit dem Signal E identisches interpoliertes Anregungssignal Ei (Fig. 4) abzugeben;
- - ein Modul 11 zur Synthese, das Daten s(1), ..., s(3n), die für ein simuliertes verzerrtes Signal S repräsentativ sind, durch Superposition des interpolierten Anregungssignals und der durch die k Koeffizienten a(1), ..., a(k) definierten spektralen Umhüllung berechnet;
- - ein Ausgangsspeicher 13 erlaubt das Ablegen des simulierten verzerrten Signals S in digitaler Form;
- - diese Daten s(1), ..., s(3n), die für das simulierte verzerrte Signal 5 repräsentativ sind, können somit dem Eingang eines Digital-Analog-Umsetzers 12 zugeführt werden, der durch einen Taktgeber 14 gesteuert wird, welcher ein Abfragesignal mit einer Ausgangsabfragefrequenz fs abgibt, die das Doppelte oder Dreifache der Eingangsabfragefrequenz fe des Umsetzers 2 ist;
- - das somit erhaltene analoge Signal D simulierter verzerrter Sprache wird mit einem Signal A tatsächlich verzerrter Sprache verglichen, das über ein Mikrofon (15) abgegeben wurde.
- Der Simulator für verzerrte Sprache kann eventuell anstelle von Mitteln zum Berechnen mittels LPC Mittel zum Berechnen mittels LMR verwenden.
- Die Verwendung der Berechnungsmethode mittels LPC erlaubt es, in dem Sprachsignal am Eingang den Beitrag der Klangquellen (insbesondere der die Tonhöhe bestimmenden Stimmbänder) in dem Sprachsignal P von dem Beitrag der Resonanzräume des Sprechers zu trennen, der sich in der spektralen Umhüllung ausdrückt, die durch besondere Frequenzen (Formanten, Bildungsfrequenzen) charakterisiert ist.
- Das Prinzip der Verwendung dieser Methode ist das folgende (siehe insbesondere Fig. 6):
- Die Erzeugung eines Sprachsignals X durch einen bestimmten Sprecher wird schematisch wie folgt im Modell dargestellt: Das Sprachsignal X ist Ergebnis des Filterns des Anregungssignals E mit einem Allespolfilter H(z); H(z) kann definiert werden durch:
- H(z)*(Σj a(j)*zj) = 1,
- wobei j von 1 bis k variiert;
- in diesem Schema repräsentiert H(z) die Transformation des durch die Stimmbänder erzeugten Signals klanglicher Anregung E durch die Resonanzen des Resonanzraums des Sprechers, welche im Spektrum des Sprachsignals P (Fig. 3) ihren Ausdruck in Maxima finden, deren Mittelpunkt sich bei den Frequenzen f1, f2 befindet, die als Formanten (Bildungsfrequenzen) bezeichnet werden; diese spektrale Umhüllung (Fig. 5), die durch die k Koeffizienten a(j) im Modell erfaßt wird, hat eine Form, die mit derjenigen des Spektrums des Signals P identisch ist oder dieser sehr nahe ist, mit Ausnahme des Peaks, dessen Mitte sich bei der Grundfrequenz f0 (Tonhöhe) befindet, und welchen man in den Anregungssignalen E und EI in der Form von Peaks findet, die in einem Zeitintervall t0 = 1/f0 voneinander beabstandet sind (Fig. 4);
- man nimmt an, daß der n-te Datenpunkt x(n) des Sprachsignals eine lineare Kombination des Datenpunkts e(n) des Anregungssignals und von k vorausgehenden Datenpunkten ist, was man als:
- x(n) = e(n) - Σj (a(j) * x (n-j))
- schreiben kann, wobei j von 1 bis k variiert; die Koeffizienten a(j) sind Vorhersagekoeffizienten; wenn der Anregungsdatenpunkt e(n) = 0 ist, kann man unter Anwendung der obigen Formel den Wert x(n) des Datenpunkts des Sprachsignals mit einem Vorhersagefehler vorhersagen, dessen Betrag err(n) ist:
- err(n) = Σj(a(j)*(n-j),
- wobei j Von 1 bis k variiert; gemäß der Methode LPC bestimmt man für jeden Datenpunkt x(n) die k Werte von k Koeffizienten a(1), ..., a(k), die es erlauben, den Vorhersagefehler zu minimieren, was dazu führt, daß der quadratische Fehler Q minimiert wird, der gegeben ist durch:
- Q = Σm(err (m))²,
- wobei m von 0 bis (T-1) variiert, wobei T die Datenpunktzahl des in Betracht gezogenen zeitlichen Fensters ist;
- dies heißt mit anderen Worten, daß die partielle Ableitung des quadratischen Fehlers bezüglich der Koeffizienten a(j) Null sein muß.
- Aus diesen Rechnungen erhält man die Werte e(1), ..., e(n), die für ein an das Anregungssignal angepaßtes Fehlersignal und für eine spektrale Umhüllung der Übertragungsfunktion, die dem Resonanzraum entspricht, repräsentativ sind.
- Man hat überraschenderweise festgestellt, daß eine lineare Transformation der spektralen Umhüllung (d. h. der Bildungsfrequenzen f1, f2, siehe Fig. 3) eine zufriedenstellende Simulation der Transformationen gibt, die auf die Sprechbedingungen zurückzuführen sind man interpoliert das Anregungssignal E vorzugsweise im Verhältnis von 2 oder 3.
- Man synthetisiert ein Ausgangssignal (das durch diese Simulation verzerrt ist) ausgehend von einem interpolierten Anregungssignal Ei und den Koeffizienten a(j) mittels der Formel:
- s(n) = Σj(a(j)*s(n-j)) + ei(n).
- Diese Superposition bewirkt die lineare "Frequenzverschiebung" im Spektrum des erhaltenen simuliert Signals, wobei die Peaks den Bildungsfrequenzen entsprechen, gemäß einem Verhältnis, daß gleich dem Verhältnis der verwendeten Interpolation ist, welches vorzugsweise gleich 2 oder 3 ist.
- Die Vorrichtungen zur Simulation und zum Erkennen können beispielsweise ausgeführt werden, indem ein PC (Mikrocomputer) verwendet wird, der mit einem Motherboard auf der Grundlage eines (von der Firma INTEL hergestellten) Mikroprozessors 80386, der mit 33 MHz läuft, und eines mathematischen Coprozessors 80387 (derselben Firma) ausgestattet ist. Eine in dem Mikrocomputer PC angeordnete Karte für die Signalverarbeitung ist für die Bearbeitung der Hyperbar-Simulation und das Erkennen von Sprache zuständig.
- Diese Karte ist im wesentlichen aus einem (von der Firma Texas Instruments hergestellten) Prozessor TMS320C30, einem Analogeingang und Analog-Digital- sowie Digital-Anlalog-Umsetzern mit einer maximalen Abfragefrequenz von 200 kHz gebildet.
- Die Hyperbar-Sprachsimulation besteht darin, in einem terrestrischen Umgebungsmilieu ausgesprochene Wörter zu isolieren und sie zu transformieren, um zu simulieren, wie die selben Wörter in einem Hyperbar-Milieu ausgesprochen werden. Bei dieser Art von Verarbeitung gibt es keine Probleme mit der Echtzeit. Jedoch erfolgt aus Gründen der Rechenzeit diese Verarbeitung in der Karte für die Signalverarbeitung.
- Das Erkennungssystem erfordert eine Ausführung in Echtzeit. Daher kann es auf der Karte zur Signalverarbeitung umgesetzt und optimiert werden.
Claims (9)
1. Verfahren zum Erkennen von Signalen (A) verzerrter Sprache,
die über ein Mikrophon (15) abgegeben werden, in dem:
- man Signale (P) nicht verzerrter Sprache digitalisiert und
in einem Speicher (3) ablegt,
- man verzerrte Signale (D) erzeugt, die ausgehend von
diesen Signalen (P) nicht verzerrter Sprache simuliert sind, wobei
die Bildungsfrequenzen der verzerrten simulierten Signale in
der Nähe des Doppelten oder des Dreifachen der
Bildungsfrequenzen dieser nicht verzerrten digitalisierten Signale liegen,
- man mit Hilfe eines Vergleichsmoduls (16) beispielsweise
durch Abstandsberechnungen diese verzerrten Signale (A) mit
diesen simulierten verzerrten Signalen (D) vergleicht.
2. Verfahren nach Anspruch 1, in dem:
- diese Signale (P) bei einer ersten Frequenz (fe) erfaßt
und digitalisiert werden, wobei die erhaltenen nachfolgenden
Werte oder Daten (y(1), ..., y(n)) in einem Speicher (3)
abgelegt werden,
- und in dem diese Signale (D) durch
Digital-Analog-Umsetzung und Datenerfassung bei einer zweiten Frequenz (fs) in der
Nähe des Doppelten oder des Dreifachen dieser ersten Frequenz
von für dieses Signal (D) repräsentativen Daten (s(1), ....
s(3n)) erhalten werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, in dem:
- man ausgehend von diesen Signalen (P) nicht verzerrter
Sprache mittels einer Kodierungsmethode durch lineare
Vorhersage Daten (e(1), ..., e(n)), die für ein nicht interpoliertes
Anregungssignal (e) repräsentativ sind, wie auch
charakteristische Koeffizienten (a(1), ..., a(k)) der spektralen Umhüllung
berechnet,
- man durch Interpolation dieser für ein nicht
interpoliertes Anregungssignal (e) repräsentativen Daten
(e(1) ..., e(n))
Daten (ei(1) ..., ei(3n) erhält, die für ein interpoliertes
Anregungssignal (ei) repräsentativ sind,
- man durch Synthese oder Superposition dieser für das
interpolierte Anregungssignal (ei) repräsentativen Daten (ei(1),
..., ei(3n)) und einer durch diese Koeffizienten, (a(1), ...,
a(k)) bestimmten spektralen Umhüllung Daten erhält, die für
diese verzerrten simulierten Signale (D) repräsentativ sind.
4. Verfahren nach einem der Ansprüche 1 oder 2, in dem diese
simulierten verzerrten Signale erzeugt werden, indem man ein
Verfahren der multiplen linearen Regression verwendet, das auf
die Cepstralvektoren dieser Signale nicht verzerrter Sprache
angewendet wird.
5. Vorrichtung zum Erkennen von Signalen (A) verzerrter
Sprache, die durch ein Mikrophon (15) abgegeben werden, mit:
- Mitteln zum Digitalisieren und Ablegen von Signalen (P)
nicht verzerrter Sprache in einem Speicher (3),
- Mitteln zum Erzeugen simulierter verzerrter Signale (D)
ausgehend von diesen Signalen (P) nicht verzerrter Sprache,
wobei die Bildungsfrequenzen der simulierten verzerrten Signale
in der Nähe des Doppelten oder des Dreifachen der
Bildungsfrequenzen der digitalisierten nicht verzerrten Signale liegen,
- einem Modul (16) zum Vergleichen, beispielsweise durch
Abstandsberechnungen, dieser verzerrten Signale (A) mit diesen
simulierten verzerrten Signalen (D).
6. Vorrichtung nach Anspruch 5, in der die Mittel zum Erzeugen
der simulierten verzerrten Signale (D) ausgehend von den
Signalen (P) nicht verzerrter Sprache umfassen:
- Mittel (7) zum Berechnen von Anregungsdaten (e(1), ....,
e(n)) und Mittel (A) zum Berechnen von Koeffizienten (a(1), ...,
a(k)) der spektralen Umhüllung, ausgehend von Daten (x(1), ...,
x(n)) die für die Signale (P) der nicht verzerrten Sprache
repräsentativ sind,
- Mittel (10) zur Interpolation interpolierter
Anregungsdaten (ei(1) ..., ei(3n)) ausgehend von Anregungsdaten (e(1), ...,
e(n)),
- Mittel (11) zur Synthese dieser simulierten verzerrten
Signale (D) ausgehend von diesen interpolierten Anregungsdaten
(ei(1), ... ei(3n)) und diesen Umhüllungskoeffizienten (a(1), ...,
a(k)).
7. Vorrichtung nach einem der Ansprüche 5 oder 6, die ein Modul
(9) zur Kodierung mittels linearer Vorhersage umfaßt.
8. Vorrichtung nach einem der Ansprüche 5 bis 7, die einen
Speicher (13) zum Ablegen von Daten (s(1), ..., s(n)) umfaßt, die
für die simulierten verzerrten Signale (D) repräsentativ sind.
9. Vorrichtung nach einem der Ansprüche 5 bis 8, die einen
Digital-Analog-Umsetzer (12) umfaßt zum Umsetzen der für die
simulierten verzerrten Signale (D) repräsentativen Daten (s(1),
..., s(3n)) in analoge Signale.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9401235A FR2715755B1 (fr) | 1994-01-28 | 1994-01-28 | Procédé et dispositif de reconnaissance de la parole. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69518674D1 DE69518674D1 (de) | 2000-10-12 |
DE69518674T2 true DE69518674T2 (de) | 2001-06-13 |
Family
ID=9459753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69518674T Expired - Lifetime DE69518674T2 (de) | 1994-01-28 | 1995-01-13 | Verfahren und Gerät zur Spracherkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US6006180A (de) |
EP (1) | EP0665531B1 (de) |
DE (1) | DE69518674T2 (de) |
FR (1) | FR2715755B1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10311913B3 (de) * | 2003-03-17 | 2004-11-25 | Forschungszentrum Jülich GmbH | Verfahren und Vorrichtung zur Analyse von Sprachsignalen |
DE102004046045B3 (de) * | 2004-09-21 | 2005-12-29 | Drepper, Friedhelm R., Dr. | Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6505152B1 (en) | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US7003458B2 (en) * | 2002-01-15 | 2006-02-21 | General Motors Corporation | Automated voice pattern filter |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
JP6386237B2 (ja) * | 2014-02-28 | 2018-09-05 | 国立研究開発法人情報通信研究機構 | 音声明瞭化装置及びそのためのコンピュータプログラム |
CN109215679A (zh) * | 2018-08-06 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 基于用户情绪的对话方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4246617A (en) * | 1979-07-30 | 1981-01-20 | Massachusetts Institute Of Technology | Digital system for changing the rate of recorded speech |
US4342104A (en) | 1979-11-02 | 1982-07-27 | University Court Of The University Of Edinburgh | Helium-speech communication |
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4566117A (en) * | 1982-10-04 | 1986-01-21 | Motorola, Inc. | Speech synthesis system |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
US5528726A (en) * | 1992-01-27 | 1996-06-18 | The Board Of Trustees Of The Leland Stanford Junior University | Digital waveguide speech synthesis system and method |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
-
1994
- 1994-01-28 FR FR9401235A patent/FR2715755B1/fr not_active Expired - Lifetime
-
1995
- 1995-01-13 DE DE69518674T patent/DE69518674T2/de not_active Expired - Lifetime
- 1995-01-13 EP EP95430002A patent/EP0665531B1/de not_active Expired - Lifetime
- 1995-01-27 US US08/379,870 patent/US6006180A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10311913B3 (de) * | 2003-03-17 | 2004-11-25 | Forschungszentrum Jülich GmbH | Verfahren und Vorrichtung zur Analyse von Sprachsignalen |
DE102004046045B3 (de) * | 2004-09-21 | 2005-12-29 | Drepper, Friedhelm R., Dr. | Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen |
Also Published As
Publication number | Publication date |
---|---|
FR2715755B1 (fr) | 1996-04-12 |
US6006180A (en) | 1999-12-21 |
FR2715755A1 (fr) | 1995-08-04 |
EP0665531A1 (de) | 1995-08-02 |
EP0665531B1 (de) | 2000-09-06 |
DE69518674D1 (de) | 2000-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
Narendranath et al. | Transformation of formants for voice conversion using artificial neural networks | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
DE69521164T2 (de) | System zum Kodieren und Dekodieren von Signalen | |
Valbret et al. | Voice transformation using PSOLA technique | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE112010003461B4 (de) | Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
DE69613360T2 (de) | Linear-prädiktiver analyse-durch-synthese sprachkodierer | |
DE69826446T2 (de) | Stimmumwandlung | |
DE69022237T2 (de) | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE19647298C2 (de) | Kodiersystem | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
RU2557469C2 (ru) | Способы синтеза и кодирования речи | |
DE68922134T2 (de) | Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude. | |
DE69620560T2 (de) | Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen | |
DE602004003439T2 (de) | Rauschunterdrückung zur robusten Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8332 | No legal effect for de | ||
8370 | Indication related to discontinuation of the patent is to be deleted | ||
8364 | No opposition during term of opposition |