AT407584B

AT407584B - Verfahren zur dynamischen und statischen darstellung von sprachsignalen

Info

Publication number: AT407584B
Application number: AT108499A
Authority: AT
Inventors: Hans-Peter Dipl Ing D Bernhard
Original assignee: Bernhard Hans Peter Dipl Ing D
Priority date: 1999-06-21
Filing date: 1999-06-21
Publication date: 2001-04-25
Also published as: ATA108499A

Description

Gegenstand der Erfindung ist ein Verfahren zur dynamischen und statischen Darstellung von Sprachsignalen, bestehend aus einer geeigneten Zusammenschaltung von Zeitverzögerungen und einem Anzeigegerät.

Es sind verschiedene Verfahren zur Darstellung von Sprachsignalen bekannt : Zeitverhalten der Amplitude, Zeitverhalten des Frequenzspektrums (Spektrogramm) und einige mehr. Auf diese Verfahren wird nicht näher eingegangen, da sie als allgemein bekannt vorausgesetzt werden können.

Dem Erfinder ist das Patent US 4389540 A (Nakamura et al.) bekannt, und die in Fig. 3-6 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf die Anpassung von digitalen Filtern die zur Bestimmung der linearen Prädiktionsfilterkoeffitienten dienen.

Dieser Vorgang bezieht sich ausschliesslich auf die optimale Bestimmung der Filterkoeffizienten und nicht auf die Visualisierung des Signales.

Dem Erfinder ist das Patent US 4860359 A (Eicher) bekannt, und die in Fig. 1-3 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf das sprachgesteuerte Übertragungssystem, das insbesondere dazu dient Sprachübertragung zu kontrollieren und nicht dazu um Sprache zu visualisieren, da kein wie immer geartetes Anzeigemedium für das Sprachsignal vorgesehen ist. Die erwähnte Zeitverzögerung bezieht sich auf den Start der Übertragung.

Dem Erfinder ist das Patent US 5150413 A (Nakamura et. al.) bekannt, und die in Fig. 5-6 gezeigten und in der Zusammenfassung beschriebenen Zusammenhänge beziehen sich ausschliesslich auf lineare Filter und nicht auf die Anzeige der Signale. Die in der Zusammenfassung erwähnten phonetischen Eigenschaften sind spektrale Eigenschaften, die in der gegenständlichen Erfindung keine Rolle spielen.

Die gegenständliche Erfindung vermeidet, im Gegensatz zu den bekannten Verfahren, die fehlende Beschreibung des zugrunde liegenden dynamischen Systems. Die Darstellung ermöglicht eine phonetische Interpretation der entstehenden Graphen, die auf das erzeugende System zurückgeführt werden können.

Der Erfindung liegt die Aufgabe zugrunde, Sprachsignale so aufzubereiten, dass diese von einem Beobachter oder Messsystem zum Zwecke der Untersuchung oder Nachbildung des lautbildenden Vorgangs herangezogen werden können. In einer konkreten Anwendung ist vorstellbar, dass sich die Darstellung als Sprachlerngerät für hörbehinderte Menschen eignen kann. In einer weiteren Anwendung ist es möglich, dass die so aufgezeichneten Graphen die Basis für lerende Algorithmen bilden, die das Sprachsignal als dynamisches System modellieren können.

Vorteilhaft gegenüber allen anderen bekannten Verfahren ist hier, dass die Dynamik der Sprachlaute in einem 2 oder 3-dimensionalen Bild beschrieben werden kann. Diese Abbildung geht auf die dynamische Systemtheorie zurück. Dynamische Systeme werden mittels Differentialgleichungen beschrieben. Diese Beschreibung fehlt aber bei Sprachsignalen, da wir den Erzeugungsmechanismus nicht als Gleichung gegeben haben. Es ist daher notwendig, aus den bekannten Daten (Sprachsignal) die Dynamik des Systems zu rekonstruieren. Im Fall der Differentialgleichungen wird immer von Ableitungen des Signals ausgegangen. Da im gegenständlichen Fall eine Messung vorliegt, wird durch additives Messrauschen die Methode der höheren Ableitungen (überproportionales Verstärken von hochfrequenten Störsignalanteilen) für die Signalrekonstruktion unbrauchbar.

Es wird daher die Zeitverzögerungsmethode verwendet die von Takens für allge- meine dynamische Systeme eingeführt wurde. Es sind aber für Sprachsignale keine Werte der Zeitverzögerung bekannt. Für die Zeitverzögerung wird jener Wert verwendet, bei dem die Informa- tion zwischen dem Originalsignal und dem verzögerten Signal am geringsten ist. Für die weiteren
Koordinaten wird ein Vielfaches der zuerst gefundenen Verzögerung verwendet. Zum Bestimmen der gegenseitigen Information wird der Mutual Information angewendet, den der Autor in schon in Elektrotechnik und Informationstechnik, 111 (12) : 648-649, Dez. 1994. präsentiert hat.

Nach einem vorteilhaften Merkmal der Erfindung ist vorgesehen, dass die dynamische
Abfolge von gesprochenen Lauten in einem Bild dargestellt werden kann, da der entstandene
Graph in einer bestimmten Anzeigeskala (pro Koordinate) die Kurven darstellt. Die Zeit ist entlang der Kurven aufgetragen und nicht entlang einer Koordinate, die sich in eine Richtung ausdehnt. So ist zum Beispiel für die Darstellung eines Lautüberganges mittels spektraler Darstellung das Signal in kurze Signalabschnitte zu zerlegen (windowing), um diese spektral zu analysieren und dann hintereinander anzuzeigen. Bei der gegenständlichen Erfindung wird diese Segmentierung ver-

mieden und in einer kompakten Darstellung kann der gesamte phonetische Prozess des Laut- überganges dargestellt werden.

Ein Ausführungsbeispiel des Verfahrens ist in den Zeichnungen und der folgenden Beschreibung dargestellt. Es zeigt :
Die Sprachsignale werden mittels eines Mikrofons aufgenommen und über ein, zwei oder mehrere Zeitverzögerungsglieder (Zeitverzögerung11,Tz....) geführt. Das Originalsignal soll in weiterer Folge So heissen und die verzögerten Signale S1, Sz...-Die Zeitverzögerung wird mit Hilfe des in Fig. 1 gezeigten Verfahrens eingestellt. In Fig. 1 wird ein Mikrofon (1) gezeigt, dass das Originalsignal So aufnimmt. Dieses Signal wird in der beispielhaften Skizze für 2 - dimensionale Darstellung der x-Koordinate der Anzeige (5) zugeführt. Die y-Koordinate der Anzeige (4) wird durch ein Signal S1 versorgt, das über die Zeitverzögerung (2) geführt wurde.

Die Zeitverzögerung wird durch Minimieren der Transinformation in Block (3) bestimmt.

PATENTANSPRÜCHE :
1. Verfahren zur dynamischen Visualisierung von Sprachsignalen in zwei - oder drei - dimen- sionalen Darstellungen, dadurch gekennzeichnet, dass das elektrisch aufgenom- mene Sprachsignal, zum Beispiel mittels eines Mikrofons (1), ein oder zweimal zeitver- zögert (2) wird und das Originalsignal So auf der x Achse und das zugehörige verzögerte
Signal auf der y Achse des Anzeigemediums (4), zum Beispiel Computerbildschirm oder
Oszillograph, aufgetragen ist und wenn eine dritte Koordinate des Anzeigemediums vor- handen ist, diese mit dem Signal S2 versorgt wird, also mit dem um't2 verzögerten Signal.

Claims

2. Verfahren zur Wahl der Zeitverzögerung für das Visualisierungsverfahren nach Anspruch 1 dadurch gekennzeichnet, dass jene Zeitverzögerung gewählt wird, bei der die Unabhängigkeit beider Signale maximal ist, wobei dieses Maximum durch Bestimmen der Transinformation zwischen den beiden Signalen ermittelt wird und die Signale so lange gegeneinander zeitlich verschoben werden, bis die Transinformation ein erstes Minimum zeigt (3) und diese Zeitverzögerung sodann als T, verwendet wird.