AT407584B - Verfahren zur dynamischen und statischen darstellung von sprachsignalen - Google Patents
Verfahren zur dynamischen und statischen darstellung von sprachsignalen Download PDFInfo
- Publication number
- AT407584B AT407584B AT108499A AT108499A AT407584B AT 407584 B AT407584 B AT 407584B AT 108499 A AT108499 A AT 108499A AT 108499 A AT108499 A AT 108499A AT 407584 B AT407584 B AT 407584B
- Authority
- AT
- Austria
- Prior art keywords
- dimensional
- time delay
- signal
- dynamic
- signals
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000003068 static effect Effects 0.000 title abstract description 3
- 238000007794 visualization technique Methods 0.000 claims 1
- 238000012800 visualization Methods 0.000 abstract description 3
- 230000031836 visual learning Effects 0.000 abstract 1
- 230000003111 delayed effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 240000000581 Triticum monococcum Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
<Desc/Clms Page number 1> Gegenstand der Erfindung ist ein Verfahren zur dynamischen und statischen Darstellung von Sprachsignalen, bestehend aus einer geeigneten Zusammenschaltung von Zeitverzögerungen und einem Anzeigegerät. Es sind verschiedene Verfahren zur Darstellung von Sprachsignalen bekannt : Zeitverhalten der Amplitude, Zeitverhalten des Frequenzspektrums (Spektrogramm) und einige mehr. Auf diese Verfahren wird nicht näher eingegangen, da sie als allgemein bekannt vorausgesetzt werden können. Dem Erfinder ist das Patent US 4389540 A (Nakamura et al.) bekannt, und die in Fig. 3-6 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf die Anpassung von digitalen Filtern die zur Bestimmung der linearen Prädiktionsfilterkoeffitienten dienen. Dieser Vorgang bezieht sich ausschliesslich auf die optimale Bestimmung der Filterkoeffizienten und nicht auf die Visualisierung des Signales. Dem Erfinder ist das Patent US 4860359 A (Eicher) bekannt, und die in Fig. 1-3 gezeigten und im zugehörigen Text beschriebenen Zusammenhänge beziehen sich auf das sprachgesteuerte Übertragungssystem, das insbesondere dazu dient Sprachübertragung zu kontrollieren und nicht dazu um Sprache zu visualisieren, da kein wie immer geartetes Anzeigemedium für das Sprachsignal vorgesehen ist. Die erwähnte Zeitverzögerung bezieht sich auf den Start der Übertragung. Dem Erfinder ist das Patent US 5150413 A (Nakamura et. al.) bekannt, und die in Fig. 5-6 gezeigten und in der Zusammenfassung beschriebenen Zusammenhänge beziehen sich ausschliesslich auf lineare Filter und nicht auf die Anzeige der Signale. Die in der Zusammenfassung erwähnten phonetischen Eigenschaften sind spektrale Eigenschaften, die in der gegenständlichen Erfindung keine Rolle spielen. Die gegenständliche Erfindung vermeidet, im Gegensatz zu den bekannten Verfahren, die fehlende Beschreibung des zugrunde liegenden dynamischen Systems. Die Darstellung ermöglicht eine phonetische Interpretation der entstehenden Graphen, die auf das erzeugende System zurückgeführt werden können. Der Erfindung liegt die Aufgabe zugrunde, Sprachsignale so aufzubereiten, dass diese von einem Beobachter oder Messsystem zum Zwecke der Untersuchung oder Nachbildung des lautbildenden Vorgangs herangezogen werden können. In einer konkreten Anwendung ist vorstellbar, dass sich die Darstellung als Sprachlerngerät für hörbehinderte Menschen eignen kann. In einer weiteren Anwendung ist es möglich, dass die so aufgezeichneten Graphen die Basis für lerende Algorithmen bilden, die das Sprachsignal als dynamisches System modellieren können. Vorteilhaft gegenüber allen anderen bekannten Verfahren ist hier, dass die Dynamik der Sprachlaute in einem 2 oder 3-dimensionalen Bild beschrieben werden kann. Diese Abbildung geht auf die dynamische Systemtheorie zurück. Dynamische Systeme werden mittels Differentialgleichungen beschrieben. Diese Beschreibung fehlt aber bei Sprachsignalen, da wir den Erzeugungsmechanismus nicht als Gleichung gegeben haben. Es ist daher notwendig, aus den bekannten Daten (Sprachsignal) die Dynamik des Systems zu rekonstruieren. Im Fall der Differentialgleichungen wird immer von Ableitungen des Signals ausgegangen. Da im gegenständlichen Fall eine Messung vorliegt, wird durch additives Messrauschen die Methode der höheren Ableitungen (überproportionales Verstärken von hochfrequenten Störsignalanteilen) für die Signalrekonstruktion unbrauchbar. Es wird daher die Zeitverzögerungsmethode verwendet die von Takens für allge- meine dynamische Systeme eingeführt wurde. Es sind aber für Sprachsignale keine Werte der Zeitverzögerung bekannt. Für die Zeitverzögerung wird jener Wert verwendet, bei dem die Informa- tion zwischen dem Originalsignal und dem verzögerten Signal am geringsten ist. Für die weiteren Koordinaten wird ein Vielfaches der zuerst gefundenen Verzögerung verwendet. Zum Bestimmen der gegenseitigen Information wird der Mutual Information angewendet, den der Autor in schon in Elektrotechnik und Informationstechnik, 111 (12) : 648-649, Dez. 1994. präsentiert hat. Nach einem vorteilhaften Merkmal der Erfindung ist vorgesehen, dass die dynamische Abfolge von gesprochenen Lauten in einem Bild dargestellt werden kann, da der entstandene Graph in einer bestimmten Anzeigeskala (pro Koordinate) die Kurven darstellt. Die Zeit ist entlang der Kurven aufgetragen und nicht entlang einer Koordinate, die sich in eine Richtung ausdehnt. So ist zum Beispiel für die Darstellung eines Lautüberganges mittels spektraler Darstellung das Signal in kurze Signalabschnitte zu zerlegen (windowing), um diese spektral zu analysieren und dann hintereinander anzuzeigen. Bei der gegenständlichen Erfindung wird diese Segmentierung ver- <Desc/Clms Page number 2> mieden und in einer kompakten Darstellung kann der gesamte phonetische Prozess des Laut- überganges dargestellt werden. Ein Ausführungsbeispiel des Verfahrens ist in den Zeichnungen und der folgenden Beschreibung dargestellt. Es zeigt : Die Sprachsignale werden mittels eines Mikrofons aufgenommen und über ein, zwei oder mehrere Zeitverzögerungsglieder (Zeitverzögerung11,Tz....) geführt. Das Originalsignal soll in weiterer Folge So heissen und die verzögerten Signale S1, Sz...-Die Zeitverzögerung wird mit Hilfe des in Fig. 1 gezeigten Verfahrens eingestellt. In Fig. 1 wird ein Mikrofon (1) gezeigt, dass das Originalsignal So aufnimmt. Dieses Signal wird in der beispielhaften Skizze für 2 - dimensionale Darstellung der x-Koordinate der Anzeige (5) zugeführt. Die y-Koordinate der Anzeige (4) wird durch ein Signal S1 versorgt, das über die Zeitverzögerung (2) geführt wurde. Die Zeitverzögerung wird durch Minimieren der Transinformation in Block (3) bestimmt. PATENTANSPRÜCHE : 1. Verfahren zur dynamischen Visualisierung von Sprachsignalen in zwei - oder drei - dimen- sionalen Darstellungen, dadurch gekennzeichnet, dass das elektrisch aufgenom- mene Sprachsignal, zum Beispiel mittels eines Mikrofons (1), ein oder zweimal zeitver- zögert (2) wird und das Originalsignal So auf der x Achse und das zugehörige verzögerte Signal auf der y Achse des Anzeigemediums (4), zum Beispiel Computerbildschirm oder Oszillograph, aufgetragen ist und wenn eine dritte Koordinate des Anzeigemediums vor- handen ist, diese mit dem Signal S2 versorgt wird, also mit dem um't2 verzögerten Signal.
Claims (1)
- 2. Verfahren zur Wahl der Zeitverzögerung für das Visualisierungsverfahren nach Anspruch 1 dadurch gekennzeichnet, dass jene Zeitverzögerung gewählt wird, bei der die Unabhängigkeit beider Signale maximal ist, wobei dieses Maximum durch Bestimmen der Transinformation zwischen den beiden Signalen ermittelt wird und die Signale so lange gegeneinander zeitlich verschoben werden, bis die Transinformation ein erstes Minimum zeigt (3) und diese Zeitverzögerung sodann als T, verwendet wird.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| AT108499A AT407584B (de) | 1999-06-21 | 1999-06-21 | Verfahren zur dynamischen und statischen darstellung von sprachsignalen |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| AT108499A AT407584B (de) | 1999-06-21 | 1999-06-21 | Verfahren zur dynamischen und statischen darstellung von sprachsignalen |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| ATA108499A ATA108499A (de) | 2000-08-15 |
| AT407584B true AT407584B (de) | 2001-04-25 |
Family
ID=3506246
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| AT108499A AT407584B (de) | 1999-06-21 | 1999-06-21 | Verfahren zur dynamischen und statischen darstellung von sprachsignalen |
Country Status (1)
| Country | Link |
|---|---|
| AT (1) | AT407584B (de) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4389540A (en) * | 1980-03-31 | 1983-06-21 | Tokyo Shibaura Denki Kabushiki Kaisha | Adaptive linear prediction filters |
| US4860359A (en) * | 1984-10-15 | 1989-08-22 | Rockwell International Corporation | Method of voice operated transmit control |
| US5150413A (en) * | 1984-03-23 | 1992-09-22 | Ricoh Company, Ltd. | Extraction of phonemic information |
-
1999
- 1999-06-21 AT AT108499A patent/AT407584B/de active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4389540A (en) * | 1980-03-31 | 1983-06-21 | Tokyo Shibaura Denki Kabushiki Kaisha | Adaptive linear prediction filters |
| US5150413A (en) * | 1984-03-23 | 1992-09-22 | Ricoh Company, Ltd. | Extraction of phonemic information |
| US4860359A (en) * | 1984-10-15 | 1989-08-22 | Rockwell International Corporation | Method of voice operated transmit control |
Also Published As
| Publication number | Publication date |
|---|---|
| ATA108499A (de) | 2000-08-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102019001775B4 (de) | Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache | |
| DE60101540T2 (de) | Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale | |
| DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
| DE69528610T2 (de) | Anzeigesystem für dreidimensionale Vektorkardiogramme | |
| DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
| DE60208970T2 (de) | Verfahren zur Kontrastverbesserung digitaler Portalbilder | |
| DE69725670T2 (de) | Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme | |
| DE2818204C2 (de) | Signalverarbeitungsanlage zur Ableitung eines störverringerten Ausgangssignals | |
| DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
| DE69629486T2 (de) | Kontrollstruktur für klangsynthesierung | |
| DE3738636C2 (de) | ||
| DE69425808T2 (de) | Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe | |
| DE2524497A1 (de) | Phasenvocoder-sprachsynthesesystem | |
| DE2502818A1 (de) | Verfahren und vorrichtung zur impulsechoverarbeitung | |
| DE102007018621A1 (de) | Verfahren zum Variieren der Sprechgeschwindigkeit | |
| DE69715175T2 (de) | Bildsynthetisierung | |
| DE602005000896T2 (de) | Sprachsegmentierung | |
| DE112018007236T5 (de) | Verfahren und vorrichtung zum erzeugen eines dreidimensionalen (3d) modells zur rekonstruktion einer 3d-szene | |
| CN113723171A (zh) | 基于残差生成对抗网络的脑电信号去噪方法 | |
| DE212016000292U1 (de) | System zur Text-zu-Sprache-Leistungsbewertung | |
| DE102021210435A1 (de) | Verfahren und Vorrichtung zur Visualisierung von dreidimensionalen Objekten | |
| DE3019823A1 (de) | Datenumsetzer und damit ausgestattete sprachsyntheseanordnung | |
| DE10318191A1 (de) | Verfahren zur Erzeugung und Verwendung einer Übertragungsfunktion | |
| DE112020004506T5 (de) | Signalverarbeitungseinrichtung, signalverarbeitungsverfahren und programm | |
| DE102012025016B3 (de) | Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EEIH | Change in the person of patent owner |