AT407584B - Verfahren zur dynamischen und statischen darstellung von sprachsignalen - Google Patents

Verfahren zur dynamischen und statischen darstellung von sprachsignalen Download PDF

Info

Publication number
AT407584B
AT407584B AT108499A AT108499A AT407584B AT 407584 B AT407584 B AT 407584B AT 108499 A AT108499 A AT 108499A AT 108499 A AT108499 A AT 108499A AT 407584 B AT407584 B AT 407584B
Authority
AT
Austria
Prior art keywords
dimensional
time delay
signal
dynamic
signals
Prior art date
Application number
AT108499A
Other languages
English (en)
Other versions
ATA108499A (de
Inventor
Hans-Peter Dipl Ing D Bernhard
Original Assignee
Bernhard Hans Peter Dipl Ing D
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bernhard Hans Peter Dipl Ing D filed Critical Bernhard Hans Peter Dipl Ing D
Priority to AT108499A priority Critical patent/AT407584B/de
Publication of ATA108499A publication Critical patent/ATA108499A/de
Application granted granted Critical
Publication of AT407584B publication Critical patent/AT407584B/de

Links

Landscapes

  • Machine Translation (AREA)

Description


   <Desc/Clms Page number 1> 
 



   Gegenstand der Erfindung ist ein Verfahren zur dynamischen und statischen Darstellung von Sprachsignalen, bestehend aus einer geeigneten Zusammenschaltung von Zeitverzögerungen und einem Anzeigegerät. 



   Es sind verschiedene Verfahren zur Darstellung von Sprachsignalen bekannt : Zeitverhalten der Amplitude, Zeitverhalten des Frequenzspektrums (Spektrogramm) und einige mehr. Auf diese Verfahren wird nicht näher eingegangen, da sie als allgemein bekannt vorausgesetzt werden können. 



   Dem Erfinder ist das Patent US 4389540 A (Nakamura et al.) bekannt, und die in Fig. 3-6 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf die Anpassung von digitalen Filtern die zur Bestimmung der linearen Prädiktionsfilterkoeffitienten dienen. 



  Dieser Vorgang bezieht sich ausschliesslich auf die optimale Bestimmung der Filterkoeffizienten und nicht auf die Visualisierung des Signales. 



   Dem Erfinder ist das Patent US 4860359 A (Eicher) bekannt, und die in Fig. 1-3 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf das sprachgesteuerte Übertragungssystem, das insbesondere dazu dient Sprachübertragung zu kontrollieren und nicht dazu um Sprache zu visualisieren, da kein wie immer geartetes Anzeigemedium für das Sprachsignal vorgesehen ist. Die erwähnte Zeitverzögerung bezieht sich auf den Start der Übertragung. 



   Dem Erfinder ist das Patent US 5150413 A (Nakamura et. al.) bekannt, und die in Fig. 5-6 gezeigten und in der Zusammenfassung beschriebenen Zusammenhänge beziehen sich ausschliesslich auf lineare Filter und nicht auf die Anzeige der Signale. Die in der Zusammenfassung erwähnten phonetischen Eigenschaften sind spektrale Eigenschaften, die in der gegenständlichen Erfindung keine Rolle spielen. 



   Die gegenständliche Erfindung vermeidet, im Gegensatz zu den bekannten Verfahren, die fehlende Beschreibung des zugrunde liegenden dynamischen Systems. Die Darstellung ermöglicht eine phonetische Interpretation der entstehenden Graphen, die auf das erzeugende System   zurückgeführt werden   können. 



   Der Erfindung liegt die Aufgabe zugrunde, Sprachsignale so aufzubereiten, dass diese von einem Beobachter oder Messsystem zum Zwecke der Untersuchung oder Nachbildung des lautbildenden Vorgangs herangezogen werden können. In einer konkreten Anwendung ist vorstellbar, dass sich die Darstellung   als Sprachlerngerät   für hörbehinderte Menschen eignen kann. In einer weiteren Anwendung ist es möglich, dass die so aufgezeichneten Graphen die Basis für   lerende   Algorithmen bilden, die das Sprachsignal als dynamisches System modellieren können. 



   Vorteilhaft gegenüber allen anderen bekannten Verfahren ist hier, dass die Dynamik der Sprachlaute in einem 2 oder 3-dimensionalen Bild beschrieben werden kann. Diese Abbildung geht auf die dynamische Systemtheorie zurück. Dynamische Systeme werden mittels Differentialgleichungen beschrieben. Diese Beschreibung fehlt aber bei Sprachsignalen, da wir den Erzeugungsmechanismus nicht als Gleichung gegeben haben. Es ist daher notwendig, aus den bekannten Daten   (Sprachsignal)   die Dynamik des Systems zu rekonstruieren. Im Fall der Differentialgleichungen wird immer von Ableitungen des Signals ausgegangen. Da im gegenständlichen Fall eine Messung vorliegt, wird durch additives Messrauschen die Methode der höheren Ableitungen (überproportionales Verstärken von hochfrequenten Störsignalanteilen) für die Signalrekonstruktion unbrauchbar.

   Es wird daher die Zeitverzögerungsmethode verwendet die von Takens für allge- meine dynamische Systeme eingeführt wurde. Es sind aber für Sprachsignale keine Werte der Zeitverzögerung bekannt. Für die Zeitverzögerung wird jener Wert verwendet, bei dem die Informa- tion zwischen dem Originalsignal und dem verzögerten Signal am geringsten ist. Für die weiteren
Koordinaten wird ein Vielfaches der zuerst gefundenen Verzögerung verwendet. Zum Bestimmen der gegenseitigen Information wird der Mutual Information angewendet, den der Autor in schon in   Elektrotechnik und Informationstechnik, 111 (12) : 648-649, Dez. 1994.   präsentiert hat. 



   Nach einem vorteilhaften Merkmal der Erfindung ist vorgesehen, dass die dynamische
Abfolge von gesprochenen Lauten in einem Bild dargestellt werden kann, da der entstandene
Graph in einer bestimmten Anzeigeskala (pro Koordinate) die Kurven darstellt. Die Zeit ist entlang der Kurven aufgetragen und nicht entlang einer Koordinate, die sich in eine Richtung ausdehnt. So ist zum Beispiel für die Darstellung eines Lautüberganges mittels spektraler Darstellung das Signal in kurze Signalabschnitte zu zerlegen (windowing), um diese spektral zu analysieren und dann hintereinander anzuzeigen. Bei der gegenständlichen Erfindung wird diese Segmentierung ver- 

 <Desc/Clms Page number 2> 

 mieden und in einer kompakten Darstellung kann der gesamte phonetische Prozess des Laut- überganges dargestellt werden. 



   Ein Ausführungsbeispiel des Verfahrens ist in den Zeichnungen und der folgenden Beschreibung dargestellt. Es zeigt :
Die Sprachsignale werden mittels eines Mikrofons aufgenommen und über ein, zwei oder mehrere    Zeitverzögerungsglieder (Zeitverzögerung11,Tz....)   geführt. Das Originalsignal soll in weiterer Folge So heissen und die verzögerten Signale S1,   Sz...-Die Zeitverzögerung   wird mit Hilfe des in Fig. 1 gezeigten Verfahrens eingestellt. In Fig. 1 wird ein Mikrofon (1) gezeigt, dass das Originalsignal So aufnimmt. Dieses Signal wird in der beispielhaften Skizze für 2 - dimensionale Darstellung der x-Koordinate der Anzeige (5) zugeführt. Die y-Koordinate der Anzeige (4) wird durch ein Signal   S1   versorgt, das über die Zeitverzögerung (2) geführt wurde.

   Die Zeitverzögerung wird durch Minimieren der Transinformation in Block (3) bestimmt. 



   PATENTANSPRÜCHE : 
1. Verfahren zur dynamischen Visualisierung von Sprachsignalen in zwei - oder drei - dimen- sionalen Darstellungen, dadurch gekennzeichnet, dass das elektrisch aufgenom- mene Sprachsignal, zum Beispiel mittels eines Mikrofons (1), ein oder zweimal zeitver- zögert (2) wird und das Originalsignal So auf der x Achse und das zugehörige verzögerte
Signal auf der y Achse des Anzeigemediums (4), zum Beispiel Computerbildschirm oder
Oszillograph, aufgetragen ist und wenn eine dritte Koordinate des Anzeigemediums vor- handen ist, diese mit dem Signal S2 versorgt wird, also mit dem   um't2   verzögerten Signal.

Claims (1)

  1. 2. Verfahren zur Wahl der Zeitverzögerung für das Visualisierungsverfahren nach Anspruch 1 dadurch gekennzeichnet, dass jene Zeitverzögerung gewählt wird, bei der die Unabhängigkeit beider Signale maximal ist, wobei dieses Maximum durch Bestimmen der Transinformation zwischen den beiden Signalen ermittelt wird und die Signale so lange gegeneinander zeitlich verschoben werden, bis die Transinformation ein erstes Minimum zeigt (3) und diese Zeitverzögerung sodann als T, verwendet wird.
AT108499A 1999-06-21 1999-06-21 Verfahren zur dynamischen und statischen darstellung von sprachsignalen AT407584B (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT108499A AT407584B (de) 1999-06-21 1999-06-21 Verfahren zur dynamischen und statischen darstellung von sprachsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
AT108499A AT407584B (de) 1999-06-21 1999-06-21 Verfahren zur dynamischen und statischen darstellung von sprachsignalen

Publications (2)

Publication Number Publication Date
ATA108499A ATA108499A (de) 2000-08-15
AT407584B true AT407584B (de) 2001-04-25

Family

ID=3506246

Family Applications (1)

Application Number Title Priority Date Filing Date
AT108499A AT407584B (de) 1999-06-21 1999-06-21 Verfahren zur dynamischen und statischen darstellung von sprachsignalen

Country Status (1)

Country Link
AT (1) AT407584B (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389540A (en) * 1980-03-31 1983-06-21 Tokyo Shibaura Denki Kabushiki Kaisha Adaptive linear prediction filters
US4860359A (en) * 1984-10-15 1989-08-22 Rockwell International Corporation Method of voice operated transmit control
US5150413A (en) * 1984-03-23 1992-09-22 Ricoh Company, Ltd. Extraction of phonemic information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389540A (en) * 1980-03-31 1983-06-21 Tokyo Shibaura Denki Kabushiki Kaisha Adaptive linear prediction filters
US5150413A (en) * 1984-03-23 1992-09-22 Ricoh Company, Ltd. Extraction of phonemic information
US4860359A (en) * 1984-10-15 1989-08-22 Rockwell International Corporation Method of voice operated transmit control

Also Published As

Publication number Publication date
ATA108499A (de) 2000-08-15

Similar Documents

Publication Publication Date Title
DE102019001775B4 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69528610T2 (de) Anzeigesystem für dreidimensionale Vektorkardiogramme
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE60208970T2 (de) Verfahren zur Kontrastverbesserung digitaler Portalbilder
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE2818204C2 (de) Signalverarbeitungsanlage zur Ableitung eines störverringerten Ausgangssignals
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE69629486T2 (de) Kontrollstruktur für klangsynthesierung
DE3738636C2 (de)
DE69425808T2 (de) Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe
DE2524497A1 (de) Phasenvocoder-sprachsynthesesystem
DE2502818A1 (de) Verfahren und vorrichtung zur impulsechoverarbeitung
DE102007018621A1 (de) Verfahren zum Variieren der Sprechgeschwindigkeit
DE69715175T2 (de) Bildsynthetisierung
DE602005000896T2 (de) Sprachsegmentierung
DE112018007236T5 (de) Verfahren und vorrichtung zum erzeugen eines dreidimensionalen (3d) modells zur rekonstruktion einer 3d-szene
CN113723171A (zh) 基于残差生成对抗网络的脑电信号去噪方法
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE102021210435A1 (de) Verfahren und Vorrichtung zur Visualisierung von dreidimensionalen Objekten
DE3019823A1 (de) Datenumsetzer und damit ausgestattete sprachsyntheseanordnung
DE10318191A1 (de) Verfahren zur Erzeugung und Verwendung einer Übertragungsfunktion
DE112020004506T5 (de) Signalverarbeitungseinrichtung, signalverarbeitungsverfahren und programm
DE102012025016B3 (de) Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen

Legal Events

Date Code Title Description
EEIH Change in the person of patent owner